JP6179889B2

JP6179889B2 - コメント情報生成装置およびコメント表示装置

Info

Publication number: JP6179889B2
Application number: JP2013104547A
Authority: JP
Inventors: 亜矢子丸山; 登　一生; 一生登
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2013-05-16
Filing date: 2013-05-16
Publication date: 2017-08-16
Anticipated expiration: 2033-05-16
Also published as: JP2014225808A; US20140344853A1; US9398349B2

Description

本発明は、コメントつき動画に関し、動画像中のオブジェクトに追従するコメント表示を実現するための移動軌跡を含むコメント情報を生成するコメント情報生成装置およびコメント情報生成方法、および前記オブジェクトに追従するコメントを表示するコメント表示装置、及びプログラムに関する。

近年、ネットワークの発達や、携帯端末の普及により、ネットワークを介して、遠隔地の相手と、手軽に動画コンテンツや静止画コンテンツを通じたコミュニケーションを楽しむことが日常的に行なわれている。例えば、既存のコンテンツに対し、複数のユーザがそれぞれコンテンツの時間軸上の指定したタイミングで、文章によって個人の嗜好や考えを書き込めるサービスが存在する。このような、コンテンツを通じたコミュニケーションは、表示デバイスや通信技術の発達とともに、今後ますます増えると考えられる。上述のようなコミュニケーションを実現するため、動画像上にユーザが付与したコメントを合成した動画像を生成（コメント重畳）し、インターネット上で配信する技術が特許文献１に示されている。

特許文献１に記載のシステムは、動画サーバ、およびコメント蓄積配信サーバを備えるシステムであり、各ユーザがネットワークを介して書き込んだコメントは、全てコメント蓄積配信サーバ上に蓄えられ、コメントが書き込まれた動画像上の再生時刻を基準点として動画像に重畳され配信される（以降、このような動画像を「コメント付き動画像」と呼ぶ）。動画像ないしコメント付動画像が配信され再生されるたびに、ユーザによって新たに書き込まれるコメントは、動画像時間軸上の時刻と対応付けられてコメント蓄積配信サーバ上で管理され、基本的にはコメントの新旧に関わらず、将来の配信では動画像時間軸上の時刻に基づいて配信される。各コメントは、ユーザがコメントの投稿の対象としたオブジェクトとは無関係に、動画像上を流れるように、または動画像上の一定の位置に固定して表示される。

また、特許文献２および３には、インターネットを介さずに動画像に文字情報を付加するムービー機器が開示されている。特許文献２および３は、特に、付加した文字情報をフキダシなどで表示し、動画像中のオブジェクトの移動に応じてフキダシを変化させることで、文字情報を付加したユーザの意図が容易にわかる手法を提案している。

また、特許文献４には、フキダシを表示するチャットシステムが開示されている。共通背景上の特定位置に合成されたユーザの顔画像や、他に表示されたフキダシを隠さないようにフキダシが表示される。

また、特許文献５には、携帯電話または携帯端末から、映像記録装置に文字情報または絵情報を入力する技術が開示されている。携帯電話または携帯端末は、コメント追従メニューを備え、ユーザが指定した追従枠を動きベクトルを利用して追従させる。

特開２００８−１４８０７１号公報特開２０１０−２４４４３７号公報国際公開第２０１０／１１６８２０号特開２００４−１２８６１４号公報特開２００９−８１５９２号公報

しかしながら、従来のコメント重畳（ないしコメント付き動画像生成）方法によると、コメントは動画像中のオブジェクトとは無関係な位置に表示される。このため、各コメント投稿者がどのオブジェクトに対して付与したコメントであるのか、動画像の視聴者にとって理解しにくい。つまり、特許文献１に開示されている技術を用いたコメント付き動画像配信サイトでは、画面の一端から他端までの一行に表示可能な文字数が限られており、コメントは限られた文字数が画面上にスクロール表示される設定がデフォルトとなっているため、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが分かりづらい。

一方、どのオブジェクトに付与したコメントかがわかるよう、コメントをオブジェクトに追従させた場合、画像特徴に基づいてオブジェクトの移動軌跡を推定し、推定した移動軌跡に沿ってコメントを表示させるような追従手法では、コメントの表示時間は、あるオブジェクトにコメントを付与して以降、”そのオブジェクトが見えている間”のみとなる。つまり、シーンチェンジや当該オブジェクトに対する遮蔽が起きた時点で、コメントの文字長さと関係がないタイミングで消去されてしまう。すなわち、コメントが表示されている時間内に読み終わらないままコメントが消去されることが容易に起こりうる。つまり、特許文献２〜５のように、「オブジェクトに追従して動くコメント」は、オブジェクトの動きベクトルを推定することにより算出される移動軌跡の座標を、「追従して動くコメント」の座標として求めることで、容易に実現できる。一方で、シーンチェンジが発生した場合や、追従しているオブジェクトが遮蔽された場合、一般的なオブジェクト動き推定はその時点でほとんどの場合、追従すべき対象を失って中断される。その場合、そのオブジェクトに付与されたコメントの表示時間は短くなり、コメントが表示されている間にユーザがコメントを読み終わらず、コメントの視認性が低下する可能性がある。

本発明は、上述の課題を解決するためになされたものであり、コメントの視認性を向上させることのできるコメント情報生成装置および方法、およびコメント表示装置、およびプログラムを提供することを目的とする。

本願の第１の発明は、以下の発明である。なお、本項において、発明とは出願時の明細書に記載した発明をいう。
動画像が入力される動画入力部と、
前記動画像中のオブジェクトに追従してコメントを表示させるためにユーザが入力した位置情報が入力される情報入力部と、
前記位置情報に対応する前記オブジェクトの移動軌跡である初期移動軌跡を取得する初期移動軌跡取得部と、
前記初期移動軌跡の終了点より後に開始点を有する移動軌跡である後方移動軌跡を取得し、前記初期移動軌跡の近傍に付与された第１のコメントおよび前記後方移動軌跡の近傍に付与された第２のコメントを収集し、前記第１のコメントおよび前記第２のコメントに基づいて前記後方移動軌跡を前記初期移動軌跡に接続して延長移動軌跡を取得する移動軌跡延長部と、
前記延長移動軌跡をコメント情報として出力する出力部と、
を備えるコメント情報生成装置。

「動画像」とは、動画の他、連続する静止画の集合も含む。
「オブジェクト」とは、動画像中の人物、物、背景、あるいはこれらの部分など、動画像を構成する構成要素をいう。視覚で区別可能か否かは問わない。
「コメント」とは、ユーザが入力する情報であり、文字情報の他、絵文字やマーク、キャラクターなどの画像情報も含む。
「位置情報」とは、フレーム、ピクチャー、時間、フレーム中の座標など、画像中の絶対位置または相対位置を特定する情報をいう。
「取得」とは、自装置内で演算し、算出し、生成する場合の他、他装置から結果を取得する場合も含む。
「初期移動軌跡の終了点」とは、初期移動軌跡の時間的な後端であり、対応するフレームやピクチャーで特定する場合の他、絶対時間、相対時間などで特定する場合も含む。
「後」とは、初期移動軌跡の終了点を含むとともに、終了点以降であればよい。
「後方移動軌跡の開始点」とは、後方移動軌跡の時間的な前端であり、対応するフレームやピクチャーで特定する場合の他、絶対時間、相対時間などで特定する場合も含む。
「接続」とは、初期移動軌跡と後方移動軌跡とを直接接続する場合の他、両者の間に間隔があるときに両者の間を補完して間接的に接続する場合も含む。

本願の第２の発明は、以下の発明である。
前記移動軌跡延長部は、前記後方移動軌跡を複数算出し、前記第１のコメントおよび前記第２のコメントに基づいて前記複数の後方移動軌跡のうち少なくとも一つを選択し前記初期移動軌跡に接続して延長移動軌跡を取得する、
第１の発明に記載のコメント情報生成装置。

本願の第３の発明は、以下の発明である。
前記移動軌跡延長部は、前記第１のコメントと最も類似度の高い前記第２のコメントが付与されている前記後方移動軌跡を選択する、
第２の発明に記載のコメント情報生成装置。

「類似度」とは、コメントの有する意味や内容、表現などが類似する程度をいう。

本願の第４の発明は、以下の発明である。
前記移動軌跡延長部は、前記初期移動軌跡の開始点より前の移動軌跡である前方移動軌跡を取得し、前記初期移動軌跡および前記前方移動軌跡の近傍に付与された第１のコメントを収集する、
第１の発明ないし第３の発明のいずれかに記載のコメント情報生成装置。

「初期移動軌跡の開始点」とは、初期移動軌跡の時間的な前端であり、ユーザが位置情報を付与したフレーム、ピクチャー、時間、フレーム中の座標で示される点の他、その近傍の点から開始する場合も含む。

本願の第５の発明は、以下の発明である。
前記移動軌跡延長部は、前記第１のコメントまたは前記第２のコメントの収集の際、投稿時間が時間的に新しいものを優先して収集する、
第１の発明ないし第３の発明のいずれかに記載のコメント情報生成装置。

本願の第６の発明は、以下の発明である。
前記移動軌跡延長部は、前記第１のコメントまたは前記第２のコメントについて前記情報入力部がユーザ入力を受け付けた時刻により近い投稿日時のコメントから形態素分類によって得られた単語の重みを、類似度計算に用いる特徴ベクトル上でより重くする、
第１の発明ないし第３の発明のいずれかに記載のコメント情報生成装置。

本願の第７の発明は、以下の発明である。
前記初期移動軌跡の時間長が所定時間に満たない場合に前記移動軌跡延長部での処理を行なうことを選択し、それ以外の場合は前記初期移動軌跡をそのまま前記コメント情報として前記出力部から出力することを選択する処理選択部をさらに有する、
第１の発明ないし第６の発明のいずれかに記載のコメント情報生成装置。

「所定時間」とは、一定の時間の他、一定の規則によって算出された時間も含む。

本願の第８の発明は、以下の発明である。
前記移動軌跡延長部は、前記初期移動軌跡の終了点の後にシーンチェンジが起こったかそれ以外が起こったかを判定し、判定結果に応じて前記後方移動軌跡を取得する前記動画像中の領域を決定する、
第１の発明ないし第７の発明のいずれかに記載のコメント情報生成装置。

本願の第９の発明は、以下の発明である。
シーンチェンジ以外が起こったと判定した場合の方が、シーンチェンジが起こったと判定した場合よりも前記領域は狭い、
第８の発明に記載のコメント情報生成装置。

本願の第１０の発明は、以下の発明である。
前記動画像の輝度ヒストグラムの変化量が所定の閾値以上の場合シーンチェンジが起こったと判定する、
第８の発明に記載のコメント情報生成装置。

本願の第１１の発明は、以下の発明である。
シーンチェンジ以外が起こったと判定した場合に、前記初期移動軌跡の終了点より前のフレームから存在する移動軌跡と連続するもの以外を前記後方移動軌跡とする、
第８の発明または第９の発明に記載のコメント情報生成装置。

本願の第１２の発明は、以下の発明である。
シーンチェンジが起こったと判定した場合に、前記動画像中の全ての領域で前記後方移動軌跡を取得する、
第８の発明または第９の発明に記載のコメント情報生成装置。

本願の第１３の発明は、以下の発明である。
前記情報入力部にはさらに前記コメントが入力され、
前記出力部は、表示装置にコメント情報および前記コメントを出力する、
第１の発明ないし第１２の発明のいずれかに記載のコメント情報生成装置。

本願の第１４の発明は、以下の発明である。
前記情報入力部にはさらに前記コメントが入力され、
前記出力部は、表示装置にコメント情報および前記コメントを出力し、
前記表示装置は、前記延長移動軌跡に基づき前記動画像中における前記位置情報の入力時点から前記所定時間の間、または前記初期移動軌跡の終了点までの前記所定時間の間、前記コメントを表示する、
第７の発明に記載のコメント情報生成装置。

本願の第１５の発明は、以下の発明である。
前記出力部は、前記初期移動軌跡の終了点の後にシーンチェンジが起こったかそれ以外が起こったかを判定し、判定結果に応じて前記コメントの表示態様を変更する、
第１３の発明に記載のコメント情報生成装置。

本願の第１６の発明は、以下の発明である。
前記出力部は、前記初期移動軌跡の終了点の後に、追従対象の前記オブジェクトが存在する場合としない場合とで前記コメントの表示様態を異ならしめて前記表示装置に出力する、
第１３の発明に記載のコメント情報生成装置。

本願の第１７の発明は、以下の発明である。
前記出力部は、前記初期移動軌跡の終了点と前記後方移動軌跡の開始点との間に時間的間隔がある場合は、前記時間的間隔の間、前記コメントの表示を行わない、
第１６の発明に記載のコメント情報生成装置。

本願の第１８の発明は、以下の発明である。
第１の発明ないし第１２の発明のいずれかに記載のコメント情報生成装置から前記コメント情報を受信して、前記動画像および前記コメントを表示するコメント表示装置。

本願の第１９の発明は、以下の発明である。
動画像が入力される動画入力ステップと、
前記動画像中のオブジェクトに追従してコメントを表示させるためにユーザが入力した位置情報が入力される情報入力ステップと、
前記位置情報に対応する前記オブジェクトの移動軌跡である初期移動軌跡を取得する初期移動軌跡取得ステップと、
前記初期移動軌跡の終了点より後に開始点を有する移動軌跡である後方移動軌跡を取得し、前記初期移動軌跡の近傍に付与された第１のコメントおよび前記後方移動軌跡の近傍に付与された第２のコメントを収集し、前記第１のコメントおよび前記第２のコメントに基づいて前記後方移動軌跡を前記初期移動軌跡に接続して延長移動軌跡を取得する移動軌跡延長ステップと、
前記延長移動軌跡をコメント情報として出力する出力ステップと、
を備えるコメント情報生成方法。

本願の第２０の発明は、以下の発明である。
第１９の発明に記載のコメント情報生成方法をコンピュータに実行させるためのプログラム。

「取得する」とは、プログラムの場合、自プログラムで演算し、算出し、生成する場合の他、動画処理を行なう装置のライブラリやＯＳなど、他プログラムから結果を取得する場合も含む。

本発明によると、コメントの視認性を向上させることのできるコメント情報を生成することができる。
さらに、下位の発明によれば、シーンチェンジや被写体が遮蔽されるような場合にも、追従コメントが中断されたり、コメントの視認性を失ったりすることがないような、コメント情報の生成および表示が行える。

本願の実施形態のコメント付き動画像配信システムの構成を示す説明図本願の実施形態の動画像へのコメント付与に関する時間的な流れを示す説明図本願の実施形態におけるコメント情報生成装置の構成図本願の実施形態におけるコメント情報生成装置をコンピュータによって構成した場合の構成図本願の実施形態におけるコメント情報生成装置の動作を示す流れ図本願の実施形態における動画像の一例および動画像中の被写体領域を説明する説明図本願の実施形態において動画像上でユーザがコメント入力を行なう場合の説明図本願の実施形態におけるオブジェクト動き推定部による移動軌跡の算出方法の説明図本願の実施形態における移動軌跡延長部の構成を示す要部構成図本願の実施形態における移動軌跡延長部の動作を示す流れ図本願の実施形態における初期移動軌跡及び前方移動軌跡を説明する説明図本願の実施形態における初期移動軌跡と前方移動軌跡上のコメントを収集し分析する例を示す説明図本願の実施形態における後方コメントの例を示す説明図本願の実施形態においてコメントの類似度に応じて後方移動軌跡を接続する手法を説明する説明図本願の実施形態における移動軌跡延長部の例を示す要部構成図本願の実施形態において生じるシーンチェンジおよび遮蔽を説明する説明図本願の第２の実施形態におけるコメント表示装置の構成図本願の第２の実施形態のコメント表示装置において動画像上でユーザがコメント入力を行う場合の説明図本願の第２の実施形態のコメント表示装置におけるコメント対象オブジェクトの例を示す説明図本願の第２の実施形態のコメント表示装置の表示例を説明する説明図本願の第２の実施形態のコメント表示装置の表示例を説明する説明図本願の第２の実施形態のコメント表示装置の表示例を説明する説明図

以下、本発明の一態様に係るコメント情報生成装置、およびコメント表示装置について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（第１の実施形態）
図１に、本実施の形態が対象とするコメント付き動画像配信システムの構成を示す。特許文献１と同様に、コメント付き動画像配信システムは、動画サーバ、およびコメント蓄積配信サーバを備えている。第１の実施形態におけるコメント情報生成装置は、ユーザの端末で実現してもよいし、動画サーバやコメント蓄積サーバ内、あるいはその他のサーバで実現してもよい。

図１に示す互いに異なるユーザＡ〜Ｄは、ネットワークを通じて各ユーザの保持する端末（スマートフォン、ＰＣまたはタブレットＰＣ等）に配信された動画像を閲覧する。ここではさらに、ユーザＡ、ユーザＢが、端末に備えつけられたキーボードやソフトウェアキーボード等を通じて、動画像にコメントを付与する例が示されている。コメントはここでは文字情報であり、ユーザによって指定された位置情報、ここでは動画像中の時間的な位置（すなわち所望の時間ないしフレーム番号）、および空間的な位置（すなわち座標）に対応付けて付与される。なお、以下の説明で動画像と言う場合には、動画像データまたは動画像データが示す動画像を指しうるものとする。

ユーザが付与したコメントは、当該コメントが付与された動画像、当該ユーザのユーザＩＤや、当該コメントが対応付けられた（動画像中の）時刻および座標、当該コメントが投稿された実際の時刻、等の情報と合わせて、コメント蓄積配信サーバに随時蓄積される。そして、ユーザＡおよびユーザＢがある動画像にコメントを付与した後に、別のユーザＣおよびユーザＤが当該動画像を視聴した際には、当該動画像に対応付けられた他のコメントと同様に、ユーザＡおよびユーザＢのコメントがコメント蓄積配信サーバより配信され、前記コメントに対応付けられた情報（動画中で経過した時間である動画上時刻および座標等）に基づいて動画上にコメントが合成された動画が表示される。

図２（ａ）（ｂ）で、動画像へのコメント付与の時間的な流れを示す。
まず図２（ａ）に、動画像中の時間の流れと、表示されるコメントとの関係を示す。コメントは映像内時刻（動画像の再生時刻）に対応付けられてサーバに蓄積される。各コメントは、コメントの視認に適した所定時間長表示されることが望ましい。時間長の算出については詳しくは後述する。

図２（ａ）によれば、ユーザＡのコメントは、映像内時刻ＳＡ秒〜ＥＡ秒の間表示され、ユーザＢのコメントは、ＳＢ秒〜ＥＢ秒（秒の代わりにフレームで求めてもよい）の間表示される。なお、時間の単位として以下では”秒”を用いるが、秒の代わりに”フレーム数”を用いても良い。

また、図２（ｂ）には、実際の日時の流れを示す。図２（ｂ）に示すように、ユーザＡおよびユーザＢがコメントを付与（書き込み）した後に、ユーザＣまたはユーザＤが、コメント付き動画像を視聴するものとすると、ユーザＣは、コメント付き動画像のうち、映像内時刻がＳＢ秒〜ＥＡ秒の間の動画像を視聴している場合、図２（ａ）に示すような、ユーザＡのコメント上にユーザＢのコメントが重畳されたコメント付き動画像を見ることができる。一方ユーザＤは、映像内時刻がＥＡ秒〜ＥＢ秒の間の動画像を視聴しているとする。ユーザＤは、図２（ａ）に示すような、ユーザＢのコメントのみが付与された動画像を見ることができる。

以上が、本実施の形態が対象とするコメント付き動画像の概念的な説明である。

図３は、本実施の形態におけるコメント情報生成装置１００の機能的な構成を示すブロック図である。図３に示されるように、コメント情報生成装置１００は、コメントつき動画像において、追従するオブジェクトの動きである移動軌跡を算出するものであり、動画入力部１０１aと、情報入力部１０１ｂと、初期移動軌跡取得部１０２と、処理選択部１０３と、移動軌跡延長部１０４と、出力部１０５とを備える。

コメント情報生成装置１００は、動画像１１０および、前記動画像でユーザが指定した座標、フレームに関する位置情報を含む入力情報１１１を入力とし、ユーザが指定した動画像１１０中のオブジェクトである画素または被写体の動きを含む移動軌跡（初期移動軌跡または延長移動軌跡）を生成し、コメント情報として記憶装置１２０に出力する。

動画入力部１０１ａは、動画像、または動画像を構成する複数枚の静止画であるピクチャ（「画像」とも言う）の入力を受け付ける。動画入力部１０１ａは、例えば、動画サーバなどの記憶装置に記憶されている動画像を、直接、または通信経路を介して読み出すインタフェースであっても良い。

情報入力部１０１ｂは、前記動画像中のオブジェクトに追従してコメントを表示させることを意図してユーザが入力した位置情報であるフレームおよび座標を含む入力情報１１１の入力を受け付ける。情報入力部１０１ｂへの情報入力方法は、例えばユーザがマウスのクリックやタッチパネルのタッチ等を通して入力した動画像上の時刻、座標などに関する情報を、直接、または通信経路を介して読み出すことで実現する。なお、コメント情報生成装置１００がサーバで実現されている場合は、入力情報１１１はユーザの端末から通信回線を通じて情報入力部１０１ｂに入力される。

初期移動軌跡取得部１０２は、動画入力部１０１ａが受け付けた動画像１１０および情報入力部１０１ｂが受け付けた入力情報１１１に基づき、オブジェクトの移動軌跡、ここではオブジェクト動き推定結果である初期移動軌跡を算出する。

処理選択部１０３は、初期移動軌跡取得部１０２が算出した初期移動軌跡の時間長が、あらかじめ定めた所定時間よりも短かった場合に、初期移動軌跡を移動軌跡延長部１０４へ入力して移動軌跡延長処理を行うよう選択し、そうでない場合は、出力部１０５に初期移動軌跡を出力するよう選択する。

移動軌跡延長部１０４は、さらに初期移動軌跡の開始点の座標から、動画の時間軸上で早い方向にさかのぼって算出した前方移動軌跡を求め、初期移動軌跡および前方移動軌跡の近傍に付与された複数のコメント（第１のコメント）をコメントサーバに問い合わせて収集する。

さらに初期移動軌跡の終了点より後のフレームの任意の座標から、動画の時間軸上で遅い方向に算出した後方移動軌跡を求め、前記後方移動軌跡近傍に付与されたコメントをコメントサーバより第２のコメントとして収集する。

そして、第１のコメントと第２のコメントが十分類似していれば、後方移動軌跡を初期移動軌跡の後方に接続することで初期移動軌跡を延長して延長移動軌跡を生成し、延長移動軌跡を出力部へ出力する。

さらに望ましくは、初期移動軌跡の終了点より後のフレームであって、前記移動軌跡の終了点との時間的な間隙があらかじめ定めた一定のフレーム数内である近傍フレームの座標から任意のサンプリングを行って取得した座標から、動画の時間軸上で遅い方向に算出した後方移動軌跡を複数求め、後方移動軌跡近傍に付与された複数のコメントを第２のコメントとしてコメントサーバよりそれぞれ収集し、第１のコメントと最も類似する第２のコメントに対応する後方移動軌跡を選択して初期移動軌跡の後方に接続することで初期移動軌跡を延長して延長移動軌跡を生成し、延長移動軌跡を出力部１０５へ出力する。

なお、後方移動軌跡を求める座標に関しては、必ずしも近傍フレームの座標から任意のサンプリングを行わなくともよい。たとえば、装置のパワーに余裕がある場合は、後方全フレームの全座標について求めてもよい。このようにすることで、より多くの候補を得ることができ、より正しく移動軌跡が延長される可能性がある。また、あらかじめシーンチェンジがないことがわかっている場合は、任意のサンプリングではなく、初期移動軌跡の終了点の座標から一定距離以内の近傍に存在する座標のみについて後方移動軌跡を求めるとしてもよい。このようにすることで、処理時のメモリ容量を抑えられる。

出力部１０５は、初期移動軌跡取得部１０２または移動軌跡延長部１０４が生成した初期移動軌跡または延長移動軌跡を、コメント情報として有線または無線を介してコメント蓄積配信サーバに設けられた記憶装置１２０に出力する。ここで、コメント情報は、コメントを付与した座標、コメント投稿時刻、コメント表示時間などのコメントに関する情報を含む。さらに、コメント情報は、動画像に対して付与されたコメントの文字情報、コメントを表示する際の、コメントの形状またはサイズを含んでいてもよい。

出力部１０５の出力先は、この他、コメント情報生成装置１００がユーザの端末で実現された場合は同一機器内の画像表示装置、コメント情報生成装置１００がサーバで実現された場合は動画配信のリクエストを行ったユーザ端末装置たるコメント表示装置であってもよい。

なお、処理選択部１０３は任意の構成である。処理選択部１０３を有することにより、すべての初期移動軌跡について移動軌跡延長処理を行なう必要がないので、効率的な処理を行なうことができるコメント情報生成装置１００が実現できる。
あるいは、処理選択部１０３の動作条件を他の条件としてもよい。例えば、処理を行なうリソースに余裕があるかどうかで移動軌跡延長処理の頻度に差を設ける等が考えられる。

なお、コメント情報生成装置１００を構成する各構成要素（動画入力部１０１ａ、情報入力部１０１ｂ、初期移動軌跡取得部１０２、処理選択部１０３、移動軌跡延長部１０４、出力部１０５）は、コンピュータ上で実行されるプログラム等のソフトウェアで実現されてもよいし、電子回路または集積回路等のハードウェアで実現されてもよい。図４は、コンピュータによって構成された本実施の形態におけるコメント情報生成装置１００のハードウェア構成を示す図である。

図４において、記憶装置２１０ａは、格納した動画像１１０をＩ／Ｆ（インタフェース）２０１ａへ出力する。ユーザからの入力を受け付ける入力端末２１０ｂは、入力情報１１１をＩ／Ｆ２０１ｂへ出力する。コメントを格納している記憶装置２１０ｃは、第１のコメント情報、第２のコメント情報をＩ／Ｆ２０１ｃへ出力する。コンピュータ２００は、動画像１１０および入力情報１１１を取得して、コメント情報生成処理を行う。記憶装置Ｂ２２０は、コンピュータ２００で生成されたコメント情報を取得して格納する。

コンピュータ２００は、Ｉ／Ｆ２０１ａおよび２０１ｂ、２０１ｃ、ＣＰＵ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ＨＤＤ２０５およびＩ／Ｆ２０６を含む。コンピュータ２００を動作させるプログラムは、ＲＯＭ２０３またはＨＤＤ２０５にあらかじめ保持されている。プログラムは、プロセッサであるＣＰＵ２０２によって、ＲＯＭ２０３またはＨＤＤ２０５からＲＡＭ２０４に読み出されて展開される。ＣＰＵ２０２は、ＲＡＭ２０４に展開されたプログラム中のコード化された各命令を実行する。Ｉ／Ｆ２０１ａおよび２０１ｂ、２０１ｃは、プログラムの実行に応じて、動画像１１０および入力情報１１１、および蓄積されたコメントを、ＲＡＭ２０４へそれぞれ取り込む。Ｉ／Ｆ２０６は、プログラムの実行により生成されたコメント情報を出力し、記憶装置Ｂ２２０に格納する。

なお、コンピュータプログラムは、半導体であるＲＯＭ２０３またはＨＤＤ２０５に限らず、例えばＣＤ−ＲＯＭに格納されていてもよい。また、有線や無線のネットワーク、放送などを介して伝送され、コンピュータのＲＡＭ２０４に取り込まれてもよい。

コンピュータ２００は、ユーザが用いる端末であってもよいし、コメント情報をユーザ端末に送信するサーバであってもよい。サーバの場合、コメント情報の送信はユーザからのリクエストに応じて送信する場合の他、リクエストにかかわらず特定ないし不特定のユーザ端末に一斉に送信してもよい。

以下、本実施の形態におけるコメント情報生成装置１００の動作を、図５以下を用いて説明する。図５は、本実施の形態におけるコメント情報生成装置１００の動作を表すフローチャートである。

図５において、６つのステップＳ３０１ａ〜Ｓ３０５は、それぞれ図３の各処理部１０１ａ〜１０５に対応している。すなわち、動画入力部１０１ａでは動画入力ステップＳ３０１ａ、情報入力部１０１ｂでは情報入力ステップＳ３０１ｂ、初期移動軌跡取得部１０２では初期移動軌跡取得ステップ３０２、処理選択部１０３では処理選択ステップＳ３０３、移動軌跡延長部１０４では移動軌跡延長ステップＳ３０４、出力部１０５では出力ステップＳ３０５の各動作を実行する。

最初に、動画入力ステップＳ３０１ａが、動画入力部１０１ａにより実行される。動画入力部１０１ａは、動画像１１０を取得する。

本実施の形態では、動画入力部１０１ａが取得する動画像１１０として、放送動画、自家用ムービーで撮影された動画像、動画像を構成する複数のピクチャ（画像）を想定している。これらの動画像１１０は、動画サーバなどに蓄積されており、動画入力部１０１ａは、有線や無線のネットワーク、放送などを介して、動画像１１０を取得する。本実施の形態では、動画像は３０フレーム／秒とする。

取得される動画像の例を図６（ａ）に示す。ここでは音楽関連の動画コンテンツの例を示すが、本発明が対象とする動画像はこれに限られない。なお、以降では、説明および図面の簡略化のため、ここで示した動画像例について、図６（ｂ）のように、被写体領域を簡略表示した図を用いる。

次に、情報入力ステップＳ３０１ｂが情報入力部１０１ｂにより実行される。情報入力部１０１ｂは、入力情報１１１を取得する。取得される入力情報１１１の例を図７に示す。

取得する入力情報１１１は図７（ａ）に示すとおり、少なくとも、時刻（ｔｉｍｅ）、座標（ｐｏｓｉｔｉｏｎ）の２つの情報を含む。時刻は、動画像１１０中の経過時間（再生時刻）を示す情報であり、時間情報の代わりに、フレーム番号など、動画像１１０中でユーザによってコメントが付与されたタイミングを特定できる情報であれば他の情報であってもよい。座標も、画素座標値の代わりに、画面の縦および横の値域が１になるように正規化した座標値など、当該フレームにおいて、ユーザによってコメントが付与された空間的位置が特定できる情報であれば、他の情報であってもよい。

入力情報１１１は、図７（ｂ）のように、時刻、座標からなる位置情報に加え、コメントを含んでもよい。

なお、これらの情報入力は、ＰＣまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれてもよい。または、ＰＣまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれた操作から、通信回線を介して、オブジェクトの位置情報などを受け付けることで、情報入力が行われるとしてもよい。

次に、初期移動軌跡取得ステップＳ３０２が初期移動軌跡取得部１０２により実行される。

初期移動軌跡取得部１０２は、情報入力部１０１ｂが受けつけた入力情報１１１、および動画入力部１０１ａが受けつけた動画像１１０に基づいて、ユーザの追従対象のオブジェクトの動きである、一連の時間軸に沿った座標値（初期移動軌跡）を算出する。以下、動画像を構成するフレームごとの静止画をピクチャと呼ぶ。

具体的には、初期移動軌跡取得部１０２は、動画入力部１０１ａから複数のピクチャを入力し、ピクチャ間の対応点を検出して、入力情報が含む、特定のフレームのピクチャ上の特定の座標を始点とした移動軌跡を生成して出力する。すなわち、動画像１１０を構成する時間的に隣接する２枚のピクチャ間での画素または、画素を含むブロックの動きを検出し、検出した動きを前記複数枚のピクチャについて連結した、一連の時間軸に沿った座標値を移動軌跡と称する。

図８（ａ）に示すように、初期移動軌跡取得部１０２は、時刻ｔにおける入力ピクチャ５０１の画素ｉ５０３ａ、画素ｊ５０３ｂに基づき、算出された２枚のピクチャ間の動きベクトル情報５０２を用いて、画素ｉ５０３ａ、画素ｊ５０３ｂの動きを追跡し、画素ｉ５０３ａ、画素ｊ５０３ｂの対応点を求める。この時、初期移動軌跡取得部１０２は、１フレームのピクチャ上のある画素ｉの座標値（ｘ_１ ^ｉ，ｙ_１ ^ｉ）と、時刻ｔにおける画素ｉの対応点の画素座標値（ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉ）とから、式１のように初期移動軌跡ｘ^ｉを算出する。
（式１）

本実施の形態において、初期移動軌跡ｘ^ｉは、１フレームからＴフレームまでのＴ枚のピクチャ間にわたる対応点であるものとする。初期移動軌跡は、上記の通り座標値で表現されるほか、所定の点を基準とするベクトルで表現されてもよい。

図８（ｂ）は、初期移動軌跡の例を示す。初期移動軌跡取得部１０２に入力された動画像１１０は、Ｔ枚のピクチャ５０４で構成されている。このとき移動軌跡ｘ^ｉ５０６ａ、ｘ^ｊ５０６ｂは、１フレームのある画素ｉ５０５ａ、画素ｊ５０５ｂにそれぞれ対応する、２フレームからＴフレームのピクチャ上の対応点の集まりである。移動軌跡ｘ^ｉ５０６ａ、ｘ^ｊ５０６ｂは、各ピクチャのピクチャ座標値を要素とするベクトルで表される。ここでは１フレームのピクチャ上における全ての画素（Ｉ個）を基準として、２フレームからＴフレームまでの（Ｔ−１）枚のピクチャ上の対応する画素を求めている。

なお、初期移動軌跡取得部１０２においてピクチャ間の対応点を求める際、ピクチャの全ての画素ごとに対応点を求める代わりに、ピクチャ内の隣接する複数の画素（ブロック）ごとに対応点を求めるものとしてもよい。本実施の形態では、画素単位の処理について説明するが、複数の画素からなるブロック（領域）単位で処理をする場合には、（ｉ）ブロック内で画素値を合計したり、（ｉｉ）ブロック内の画素値の平均を求めたり、（ｉｉｉ）ブロック内の画素値の中央値を求めたりすることで、ブロックに対応するデータ（代表値）を求め、得られた代表値を用いて画素単位の処理と同様に処理すればよい。本実施の形態において、ある対応点が１画素ごとに求められたものか、または複数の画素に対して１つの対応点が求められたかを区別しない。また、あるピクチャの画素ｉに対応する他のピクチャの対応点、および、あるピクチャのブロックｉに対応する他のピクチャの対応点を、いずれも画素ｉの移動軌跡と呼ぶ。

また、ピクチャ間の対応点を求める際、必ずしもフレームが連続している必要はなく、例えば、時刻ｔと時刻ｔ＋ｎに入力された２枚のピクチャから移動軌跡を求めてもよい。ただし、ｎは１以上の整数である。上記した複数のピクチャ間の対応点を算出する具体的な手法としては、非特許文献１または非特許文献２などに開示されている方法を用いてもよい。ともに、オプティカルフローを計算することにより動きベクトルを算出する手法であり、非特許文献１では階層的なブロックマッチングをベースに、オプティカルフローを算出する。画素間の滑らかさを拘束条件とするため、隣り合うオプティカルフロー間で動きベクトルが滑らかに変化するようなオプティカルフローが得られる。特に急峻な動きまたは遮蔽がない場合に効率的かつ正確な対応点が求められる。また、推定の信頼度を計算できるため、後述するように、信頼度がある閾値より低い対応点を以降の処理より除くことで、全動きベクトルに対する誤った動きベクトルの割合を低減できる。

これに対して、非特許文献２は、グラフカットベースのオプティカルフロー算出手法を開示している。この手法は、計算コストは高いが、正確な対応点がピクチャ上で密に求まる。また、この手法では、双方向の探索を行ない、互いの相関が閾値より低い対応点は遮蔽領域の画素であると推定する。このため、遮蔽領域に位置する対応点を以降の処理より除くことができる。全動きベクトルに対する誤った動きベクトルの割合を低減できる。
この際、すべての画素について動き情報を求めてもよい。また、より高速に処理を行いたい場合には、ピクチャをグリッドに区切って一定間隔のグリッド上の画素についてのみ動き情報を求めてもよいし、上述したように、ピクチャをブロックに区切ってブロックごとに動き情報を求めてもよい。

この場合、前記ブロックの並進移動を仮定して動きベクトルを算出する方法を用いることができる。特に回転運動をする物体に対しては、並進移動を仮定するよりも、非特許文献３に開示されているアフィン変形を仮定した手法を用いることで、より高精度に画素動きを推定できる。

（非特許文献１）Ｐ．Ａｎａｎｄａｎ，“ＡＣｏｍｐｕｔａｔｉｏｎａｌＦｒａｍｅｗｏｒｋａｎｄａｎＡｌｇｏｒｉｔｈｍｆｏｒｔｈｅＭｅａｓｕｒｅｍｅｎｔｏｆＶｉｓｕａｌＭｏｔｉｏｎ”，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｖｏｌ．２，ｐｐ．２８３−３１０，１９８９
（非特許文献２）ＶｌａｄｉｍｉｒＫｏｌｍｏｇｏｒｏｖａｎｄＲａｍｉｎＺａｂｉｈ， “ＣｏｍｐｕｔｉｎｇＶｉｓｕａｌＣｏｒｒｅｓｐｏｎｄｅｎｃｅｗｉｔｈＯｃｃｌｕｓｉｏｎｓｖｉａＧｒａｐｈＣｕｔｓ”，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１
（非特許文献３）ＪｉａｎｂｏＳｈｉａｎｄＣａｒｌｏＴｏｍａｓｉ “ＧｏｏｄＦｅａｔｕｒｅｓｔｏＴｒａｃｋ”，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ５９３−６００，１９９４

なお、非特許文献１の開示技術を用いて動きベクトルを算出する場合は、信頼度を計算することができる。このため、信頼度の高い動き情報を持つ画素のみを用いてもよい。また、非特許文献２の開示技術を用いて動きベクトルを算出する場合は、遮蔽を推定することができるため、遮蔽されていない画素の動き情報のみを用いてもよい。

次に、処理選択ステップＳ３０３が、処理選択部１０３によって実行される。処理選択部１０３は、初期移動軌跡取得部１０２ないし移動軌跡延長部１０４より受け取った移動軌跡、およびあらかじめ定めた目標時間である所定時間に基づいて、後段の処理を決定する。

具体的には、初期移動軌跡が連続するフレーム数が、前記所定時間に相当するフレーム数と同じか、それより長い場合は、移動軌跡を延長する必要がないため、初期移動軌跡をそのまま出力部１０５へ受け渡す。逆に、初期移動軌跡が連続するフレーム数が、別途定めた所定時間に相当するフレーム数に満たない場合は、コメントの視認性を担保するために初期移動軌跡を延長する必要がある。そこで、初期移動軌跡を、移動軌跡延長部１０４へ受け渡す。

なお、前記所定時間に相当するフレーム数は、実行時に求めるものとしてもよい。前記フレーム数は、動画像のフレームレートを用いて求めることができる。たとえば、一般的にはフレームレートは３０ｆｐｓであるため、所定時間をTa(秒)とすると、所定時間に相当するフレーム数はTa×30、となる。また、あらかじめ定めた所定時間に関しては、特にtwitter（登録商標）やmixi（登録商標）のつぶやきのように、入力可能なコメントの最大文字数をあらかじめ決めてあるような場合には、最大文字数に相当する所定時間を求めて用いることができる。たとえば、映画の字幕のガイドラインにならい、一文字１／４秒と定めた場合、twitterと同じ文字数に対する所定時間は144×1/4=36秒となる。あるいは、動画に対してのコメントは、一般的にはそれほど長いものにはならないため、非追従コメントが付与されるニコニコ動画（登録商標）などの動画サービスで一般的に用いられる基準を用いてもよい。この場合、所定時間は3秒と設定することができる。

また、前記所定時間は、あらかじめ定める代わりに、実行時に求めるものとしてもよい。あるいは、入力されたコメントの長さに比例して、所定時間を求めるようにしてもよい。例えば、前記情報入力部１０１ｂが受け付けた入力情報１１１にユーザが入力したコメントが含まれる場合、このコメントを当該ユーザないし他のユーザが視認するために必要な時間として所定時間を算出する。

例えば、情報入力部１０１ｂが受け付けた入力情報１１１に基づいて、コメントをオブジェクトに追従させて表示させる所定時間、すなわち入力情報１１１に含むコメントを表示するのに適切な目標時間を算出する。所定時間は、例えば、コメントの文字数に基づいて決定することができる。

例えば映画等の字幕に関しては、「１秒間に４文字を表示する」という自主的なガイドラインが定められている。最も標準的なこの方式を採用すると、例えば、図７（ｂ）、又は図１８（ａ）および図１８（ｂ）に示すコメント「ｗｗｗ」については、３／４＝０．７５秒間コメントを表示することが最低限必要になる。これは、３０ｆｐｓの動画像１１０ａの場合、（端数は切り上げるものとすると）２３フレームに相当する。つまり、２３フレームの間、ユーザが指定した画素またはオブジェクトの動きを追従できればよい。つまり、「０．７５秒」という時間の形式で所定時間を算出してもよいし、２３フレーム、というフレーム長の形式で所定時間を算出してもよい。どちらの形式を利用したかが、その都度処理選択部１０３に伝わりさえすれば、例えば動画像１１０ａのフレームレート情報などを用いて、フレーム長形式と時間形式との間の変換は可能である。

なお、単語単位で所定時間を求めてもよい。例えば英文の場合、文章を読むスピードとしてＷＰＭ（Ｗｏｒｄｓｐｅｒｍｉｎｕｔｅ：１分に読める単語数）という単位が用いられることがある。成人アメリカ人が通常、雑誌、新聞または本を読むスピードが２５０〜３００ＷＰＭと言われていることから、この基準を目標時間算出の際に適用することができる。

すなわち、入力が英文であった場合には、所定時間の算出にＷＰＭを用いるものとする。例えば、読みやすさのために単語間にマージンを設けて、目標を２００ＷＰＭ等と設定する。入力コメント文中のスペースを検出することで、単語数Ｗを求めることができる。このため、所定時間Ｎｗ＝Ｗ＊６０／２００のように、計算により所定時間Ｎｗ（秒）を求めることができる。

なお、人が視覚的な認識を行なうには、約０．５秒ほどかかるといわれている。これを加味し、前述の「１秒間に４文字」のルールを適用した場合でも、ＷＰＭを適用した場合でも、所定時間は必ず、予め定めた長さ（例えば０．５秒）以上になるようにすることが望ましい。

また、既に別のコメントが表示されているフレームに、ユーザがコメントを入力する場合、表示されている過去のコメント文字情報と、新たにユーザが入力するコメント文字情報との両方が視認可能な時間となるよう、新たに入力したコメントの所定時間を長めに算出しても良い。新たなコメントの文字数または単語数に、所定の文字数または単語数を加算したうえで所定時間を算出するとしても良い。このようにすることで、コメントつき動画を閲覧するユーザにとって、より確実に、同時に表示されるコメント文を視認できるようになる。

また、ユーザがコメントを付与しようとしているフレーム上に、既に同じ文字列よりなるコメントが付与されている場合は、コメント内容の重複による冗長さが不快感を与える可能性もある。そこで、同じフレーム上に存在する同一内容のコメントの数が多いほど、新たに追加される同一内容のコメントについては、所定時間を短く、ないしゼロとしてもよい。所定時間を短くするには、例えば、文字数から求めた所定時間を、同一コメントの数で割った値に変更する、等により実現できる。また、同一のコメントが同一フレームに付与されていなくても、同一の動画像中に複数回登場するコメントについては、同様に所定時間を短く、ないしゼロとしてもよい。

なお、処理選択ステップＳ３０３は、処理選択部１０３で説明した通り、任意の処理ステップである。

処理選択ステップＳ３０３によって、移動軌跡延長ステップＳ３０４の処理が選択された場合、移動軌跡延長ステップＳ３０４が、移動軌跡延長部１０４によって実行される。

移動軌跡延長部１０４は、処理選択部１０３より受け取った初期移動軌跡に対して、移動軌跡を延長する処理を施し、結果得られた延長移動軌跡を、再度処理選択部１０３へ出力する。

図９に、移動軌跡延長部１０４の構成を示す。移動軌跡延長部１０４は、前方移動軌跡取得部６０１、第１コメント取得部６０２、後方移動軌跡取得部６０３、第２コメント取得部６０４、類似コメント選択部６０５、延長移動軌跡取得部６０６を備える。

以下、移動軌跡延長部１０４の動作を、図１０を用いて説明する。図１０は、本実施の形態における移動軌跡延長部１０４の動作を表すフローチャートである。
図１０において、６つのステップＳ７０１〜Ｓ７０６は、それぞれ図９の各処理部６０１〜６０６に対応している。すなわち、前方移動軌跡取得部６０１では前方移動軌跡取得ステップＳ７０１の動作を実行し、前方移動軌跡を算出する。次に第１コメント取得部６０２では第１コメント取得ステップＳ７０２の動作を実行し、初期移動軌跡と前方移動軌跡に対応する第１のコメントをコメントサーバから取得する。次に、後方移動軌跡取得部６０３では後方移動軌跡取得ステップＳ７０３の動作を実行し、後方移動軌跡を算出する。次に、第２コメント取得部６０４では第２コメント出力ステップＳ７０４の動作を実行し、後方移動軌跡に対応する第２のコメントをコメントサーバから取得する。次に、類似コメント選択部６０５では類似コメント選択ステップＳ７０５の動作を実行し、第１のコメントに類似した第２のコメントを選択する。最後に、延長移動軌跡取得部６０６では延長移動軌跡取得ステップＳ７０６の動作を実行し、選択した第２のコメントに対応する後方移動軌跡を初期移動軌跡に接続し、新たに延長移動軌跡を生成する。
以下、各ステップについてより詳しく説明する。

まず前方移動軌跡取得ステップＳ７０１が前方移動軌跡取得部６０１により実行される。前方移動軌跡取得部６０１は、初期移動軌跡の開始点の座標から、動画の時間軸上で早い方向にさかのぼって算出した前方移動軌跡を求める。

図１１(ａ)に、前方移動軌跡取得部で受け付けた初期移動軌跡の例を示す。初期移動軌跡の開始点のフレームをＴｓ（８０２）、開始点の座標をＸｓ（８０１）、終了点のフレームをＴｅ（８０３）、終了点の座標をＸｅ（８０４）とする。フレームＴｅ（８０３）でシーンチェンジが起き、初期移動軌跡が中断されたケースについて示している。したがって初期移動軌跡の終了点のフレームＴｅ（８０３）の座標Ｘｅ（８０４）以降は、通常の画像特徴ベースの軌跡推定手法はうまく働かないといえる。

そこで、本実施形態では、図１１（ｂ）に示すように、Ｘｓ（８０１）を起点とし、下部の矢印とtで示す動画の時間軸上で早い方向にさかのぼって前方移動軌跡を算出する。算出方法に関しては、初期移動軌跡取得部１０２と同様の処理で算出することができるため、ここでは説明は省略する。なお、初期移動軌跡取得部１０２と異なる部分は、入力ピクチャおよびその順である。フレームＴｓ（８０２）上の座標Ｘｓ（８０１）を起点に、初期移動軌跡取得部１０２での処理とは逆に、さかのぼって、時間の経過方向とは逆順にピクチャを入力する必要がある。このようにすることで、図１１（ｂ）に示すような前方移動軌跡を得ることができる。

次に第１コメント取得ステップＳ７０２が、第１コメント取得部６０２により実行される。第１コメント取得部６０２は、前記初期移動軌跡、そして前方移動軌跡の近傍に付与された複数のコメント（第１のコメント）をコメントサーバに問い合わせて取得する。ここで、移動軌跡の近傍はあらかじめ定めた半径ｒ画素以内、としてもよい。たとえばｒ＝１０としてもよい。また半径の代わりに矩形を用いてもよい。

初期移動軌跡と前方移動軌跡の両方を示した図を図１２（ａ）に示す。この２本の移動軌跡の両方に対して、各フレームにおける移動軌跡の座標近傍に、それまで付与されたコメントの例を図１２（ｂ）に示す。これらは、別途コメントが蓄積されているコメントサーバに、有線または無線を通じて問い合わせを行って取得することができる。このようにして取得した複数のコメントを第１のコメントとする。

本実施形態においては、初期移動軌跡を後方へ延長するための情報として、これらの第１のコメントの文章情報を利用する。文章の分析方法はすでに様々なものが提案されている。特に日本語の場合は、まず形態素解析を行って、文章を単語列にまで分解することが有効である。形態素解析を行うフリーのオープンソフトツールとしては、ＭｅＣａｂ、ＣｈａＳｅｎといったものが有名である。

第１コメント取得部で得られた複数の第１のコメントに対し、形態素解析を行って単語に分解し、単純に登場回数でヒストグラムをとった例を図１２（ｃ）に示す。この例では動画像中のネコをオブジェクトとして想定したが、このように、特定のオブジェクトに対しては、複数のコメント間で同じ単語が複数回出てくる可能性が非常に高く、コメント情報を移動軌跡の延長に用いることは有効であるといえる。

なお、本実施形態においては、前方移動軌跡を求め、これを初期移動軌跡に接続した移動軌跡上から第１のコメントを収集したが、初期移動軌跡で十分なコメントを収集できる場合は前方移動軌跡を求めることなく第１のコメントを収集してもよい。この点から見れば、前方移動軌跡取得部６０１、および前方移動軌跡取得ステップＳ７０１は任意の構成である。

次に後方移動軌跡取得ステップＳ７０３が、後方移動軌跡取得部６０３により実行される。後方移動軌跡取得部６０３は、初期移動軌跡の終了点より後のフレームの任意の座標から、動画の時間軸上で遅い方向に算出した後方移動軌跡を求める。算出方法に関しては、初期移動軌跡取得部１０２と同様の処理で算出することができるため、ここでは説明は省略する。また、後方移動軌跡の算出を開始する点については後述する。

次に、第２コメント取得ステップＳ７０４が第２コメント取得部６０４により実行される。第２コメント取得部６０４は、前記後方移動軌跡近傍に付与されたコメントをコメントサーバより第２のコメントとして取得する。

図１３に、異なる後方移動軌跡について取得した第２のコメントの例を示す。図１３（ａ）に示す、フレームＴｌ１の座標Ｘｌ１（１００６）から開始した後方移動軌跡は、ここではネコの飼い主に対応する例である。図１２（ｂ）の例とは異なるコメントがついている。一方、図１３（ｂ）に示す、フレームＴｌ１の座標Ｘｌ２（１０１０）から開始した後方移動軌跡は、ここでは図１２（ｂ）と同じネコをオブジェクトとした例である。文体は違うが、図１２（ｂ）と類似したコメントが取得できている。動画像上でのコミュニケーションにおいて、オブジェクトや、オブジェクトのパーツ単位で特有のコメントが付く可能性は非常に高く、これらの情報を用いることで、通常の輝度ベースの手法ではつなぐことができない、シーンチェンジをはさんだ同一のオブジェクトについた移動軌跡同士をつなぐことができる。

次に、類似コメント選択ステップＳ７０５は、類似コメント選択部６０５により実行される。類似コメント選択部６０５は、前記第１のコメントと十分類似している第２のコメントを選択する。図１４に類似コメント選択の概念図を示す。それぞれ、形態素解析を行ってコメント群の文章特徴量を解析した結果のもっとも簡単な例を示している。先に述べたとおり、オブジェクトごとに付与される特徴的な単語の登場頻度を比較することで、この例では明らかに座標Ｘｌ２（１０１０）から開始する後方移動軌跡を、初期移動軌跡の後方に接続するほうがよいことがわかる。

このように接続することで、たとえばフレームＴｓ（８０２）で座標（Ｘｓ）（８０１）に「猫かわいい」というコメントが付与された場合、シーンチェンジ後に、飼い主の移動軌跡である座標Ｘｌ１（１００６）から始まる後方移動軌跡上に「猫かわいい」のコメントが表示されることなく、同じネコの移動軌跡である座標Ｘｌ２（１０１０）から始まる後方移動軌跡上に「猫かわいい」のコメントを表示し続けることができる。

なお、コメント間の類似度を評価する方法として、単語の登場頻度によるヒストグラム間の距離を比較する例を図１４では示したが、ほかにもさまざまな方法が提案されている。

特に単純比較では、類似語や概念が近い単語を考慮した類似度算出ができないため、前記形態素解析された単語群を、辞書におけるシソーラスや概念ベースの記述に基づく重みづけを行い、特徴ベクトル表現したものに対して、コサイン相関をとったベクトル間類似度をコメント間の類似度として算出するほうが望ましい。

また、たとえば、特許文献６では、単語や文字が持つ意味の極性に関する情報を別途定量化し、類似度計算に反映させる手法が提案されている。このような手法を用いることで、より単語の意味や概念を反映した、精度の高い類似度の評価を行うことができる。

また、特許文献７では、形態素解析された単語に対し、ＴＦ（出現頻度）／ＩＤＦ（逆文章頻度）、共起頻度、文タイプごとの出現頻度を特徴量とし、生成した単語の特徴ベクトルを類似度算出に用いる方法が提案されている。この手法を応用し、たとえば文タイプの代わりに文の長さ（短文と長文では語の構成が特徴的に異なる）などを用いて特徴ベクトルを算出することで、より各オブジェクトを各単語が特徴的に記述するかを考慮した、より本手法に適した類似度の評価が行える。

なお、ここに挙げた以外にも文章の類似度解析には非常に多くの手法が提案されており、同様に本手法に適用することができる。
（特許文献６）特開２０１１−１５９０９８
（特許文献７）特開２００９−０５３７４３

なお、コメントサーバより取得する第１のコメントは、投稿時刻のより新しいものを優先的に取得したり利用したりするとしてもよい。より望ましくは、軌跡を延長する対象であるコメントが投稿された時刻により近いものを優先的に取得したり利用したりするとしてもよい。あるオブジェクトに対する会話トピックについて、時間がたっても変わらないものもあるが、時事的な事象が影響することもある。したがって、ユーザがコメント投稿を意図して本装置を利用した日時時刻により近い第１のコメントをコメントサーバから取得して使う、ないし、より近いコメントの重みを類似度算出時に用いることで、より精度の高いコメント選択が行える。なおユーザのコメント投稿時にのみ本装置が利用されることが既知の場合には、より新しいコメントの投稿時刻が、前記ユーザのコメント投稿時刻により近いため、より新しいコメントを優先的に用いる、とするだけでもよい。

最後に、延長移動軌跡取得ステップＳ７０６は、延長移動軌跡取得部６０６により実行される。延長移動軌跡取得部６０６には、選択された後方移動軌跡を初期移動軌跡の後方に接続することで延長移動軌跡を生成し、処理選択部１０３へ出力する。もしフレームＴｅとフレームＴｌ１が時間的に離れている場合は、Ｔｅ〜Ｔｌ１の間の移動軌跡はたとえば、通常の座標値が正数である場合は、(-1,-1)のような、座標として利用できない数値を与えておく等すればよい。こうすることで、ユーザの入力したコメントを一時的に表示しないこともできる。
あるいは、Ｔｅ〜Ｔｌ１の間の移動軌跡に関しても、第２のコメントの選択と同様の処理を行い、コメントを付与可能な移動軌跡を求めてもよい。

なお、コメントの類似度があらかじめ定めた閾値よりも低い場合は、同一のオブジェクトがその後登場していない可能性が高い。つまり、接続すべき後方移動軌跡がそもそもなかった場合に相当する。そのような場合は後方移動軌跡を接続しないほうが望ましく、たとえば、先に求めた前方移動軌跡と接続したものを延長移動軌跡として、処理選択部１０３に返すとしてもよい。このようにしても、所定時間を満たす、又はより所定時間に近い長さの延長移動軌跡を得ることができる。

あるいは、「接続不可」フラグをたてて、処理選択部１０３に返してもよい。処理選択部１０３は、「接続不可」フラグが立っていない間は、初期移動軌跡の長さが所定時間より不足している限り、何度でも移動軌跡延長部１０４に処理を進めるが、「接続不可」フラグが立っている場合は、例外的に、そのまま出力部１０５に初期移動軌跡を渡すものとする。このような処理であれば移動軌跡の開始点のフレームを変更しないので、前記開始点のフレームに関する、ユーザの意図を反映させることができる。

なお、前記初期移動軌跡の終了点のフレームより後のフレームであって、終了点のフレームとの差があらかじめ定めた一定のフレーム数内である近傍フレームの座標から後方移動軌跡を複数求めるとしてもよい。さらに、同一オブジェクトが、シーンチェンジが起きても消えないことがわかっている場合は、一定のフレーム数は１としてもよい。このようにすることで、コメントが類似した移動軌跡の選択にかかる処理量を低減させることができる。

また、前記後方移動軌跡の算出を開始する座標に関しては、必ずしも近傍フレームの座標から任意のサンプリングを行わなくともよい。たとえば、装置のパワーに余裕がある場合は、後方全フレームの、全座標について求めてもよい。このようにすることで、より多くの候補を得ることができ、もしシーンチェンジ後に同一オブジェクトが一時的に消滅するような場合などに、より正しく初期移動軌跡が延長される可能性がある。

また、中心付近のオブジェクトに関して、シーンチェンジ後も中心付近に映っている、ということが映像テクニックとしてよくあるため、シーンによっては、任意のサンプリングではなく、初期移動軌跡の終了点での座標から一定距離以内の近傍に存在する座標のみについて後方移動軌跡を求めるとしてもよい。このようにすることで、後方移動軌跡の算出にかかる処理量を抑えることができる。

本実施形態では、まず、後方移動軌跡を算出し、その後に第２のコメントを収集したが、先に第２のコメントを収集し、第１のコメントと類似するコメントが存在する領域を中心とする領域で後方移動軌跡を算出してもよい。このようにすることで、後方移動軌跡の算出にかかる処理量を抑えることができる。

なお、移動軌跡延長部は、領域分割部を備え、移動軌跡算出に先立って、もしくは移動軌跡算出のあとに（第１のコメント、第２のコメント取得前であればどちらでもよい）、領域分割部がピクチャの領域分割を行うとしてもよい。すなわち、領域分割部により分割された領域のうち、初期移動軌跡を含む小領域を、コメントを取得する移動軌跡の近傍領域の代わりに用いることができる。この場合の構成例を図１５に示す。

例えば、図１５において、領域分割部１１０１は、各移動軌跡が属する画素またはブロックの色類似度に基づいて、ピクチャを複数の領域に分割する。また、画素の色類似度をもとに、いわゆる”ｓｕｐｅｒｐｉｘｅｌ”と呼ばれる複数の領域にピクチャを分割する方法を用いてもよい。ｓｕｐｅｒｐｉｘｅｌを算出する方法については、グラフベースの手法などを用いることができる。処理手順の詳細説明は非特許文献４等に記載されているため省略する。この手法は、ピクチャのグラフ表現に基づいて各領域間の境界を推定することで、効率的かつグローバルな特徴を保持しながらピクチャを小領域に分割するものであり、遮蔽に強いため、よりロバストな分割ができる。
（非特許文献４）ＰｅｄｒｏＦ．ＦｅｌｚｅｎｓｚｗａｌｂａｎｄＤａｎｉｅｌＰ．Ｈｕｔｔｅｎｌｏｃｈｅｒ “ＥｆｆｉｃｉｅｎｔＧｒａｐｈ−ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ”，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｖｏｌ．５９，Ｎｏ．２，ｐｐ．１６７−１８１，Ｓｅｐｔ，２００４

特に移動体の色と背景の色が異なるようなシーンにおいては、各領域が移動体のみ、または背景のみで構成される可能性が高くなる（色が異なると、別のサブクラスに分離される確率が高まる）ため、ピクチャを、類似した動きをする領域に、より正しく分割することができる。

また、動きに基づく領域分割方法を適用してもよい。具体的には、特許文献８のような手法を用いてもよい。上記のようにすることで、移動体と背景の色が類似する場合であっても、類似した動きをする被写体領域ごとに、より正しくピクチャを分割できる。
（特許文献８）特許第４９９４５２５号公報

なお、領域分割部１１０１は、前方移動軌跡生成部６０１および後方移動軌跡生成部６０３の次段に設けるようにしてもよい。

最後に、出力ステップＳ３０５が出力部１０５により実行される。出力部１０５は、初期移動軌跡取得部１０２または移動軌跡延長部１０４が生成した初期移動軌跡または延長移動軌跡を記憶装置１２０へ有線または無線の通信経路を通じて出力する。より具体的には、コメントを追従して表示させることを意図してユーザが指定したオブジェクトの動きである初期移動軌跡または延長移動軌跡を、コメント蓄積配信サーバに備えられたコメントデータベースに記憶させる。

コメント情報生成装置１００は、連続して入力される入力情報１１１に対して処理を行う場合には、上述したステップＳ３０１〜Ｓ３０７の動作を入力情報１１１が入力されるたびに繰り返し行うとしてもよい。

なお、初期移動軌跡取得部１０２、前方移動軌跡取得部６０１、後方移動軌跡取得部６０３、延長移動軌跡生成部６０６は、本実施形態によれば自装置内で演算し、算出し、生成する場合について説明したが、他装置にこれらの演算を任せて結果を取得してもよい。また、上記構成に対応するステップを実行する方法やプログラムの場合、本実施形態によれば自プログラムで演算し、算出し、生成する場合について説明したが、動画処理を行なう他装置やグラフィックエンジンなどのパーツに備わったライブラリ、さらにはＯＳなど、他プログラムから結果を取得する場合も含む。

次に、より望ましい実施形態として、シーンチェンジや遮蔽を検出して、検出結果に応じて最適な処理を行なうコメント情報生成装置について説明する。

特に、ＴＶ番組映像またはムービーで録画した映像などの一般的な動画像１１０では、シーンチェンジ、他のオブジェクトによる遮蔽、自己遮蔽、またはオブジェクトもしくはカメラの移動により、指定画素または指定領域の撮影範囲外への移動、などが起こりやすい。効率よく軌跡延長処理を行うためには、軌跡延長処理が選択された要因に応じて処理を切り替えられるとなおよい。すなわち、移動軌跡延長部１０４は、「遮蔽」および「シーンチェンジ」のどちらが生じたかを判定し、判定結果に応じて後方移動軌跡の算出方法やコメントの表示態様を変化させるようにしてもよい。コメントの表示態様については、後述の第２の実施形態で説明する。シーンチェンジの例を図１６（ａ）、遮蔽の例を図１６（ｂ）に示す。

遮蔽が生じたかシーンチェンジが生じたかは、例えば、画像全体の輝度ヒストグラムの時間変化などから判定することができる。すなわち、輝度ヒストグラムが、フレーム間で大きく変化している場合（例えば、輝度ヒストグラムの変化量が所定の閾値以上の場合）には、シーンチェンジが生じたと判定することができるし、それ以外の場合は遮蔽が生じたと判定することができる。あるいは、メタデータとしてシーンチェンジの時間情報が動画像１１０に付随している場合、それを利用してシーンチェンジが生じたか否かを判定することも可能である。

たとえば、シーンチェンジの場合はシーン全体の見えが変わるため、画面全体から後方移動軌跡を求め、類似コメントを探すことができれば望ましい。これに対し、遮蔽の場合はシーン全体の見えは変わらず、追従対象のオブジェクトのみが見えなくなる。このような場合は、追随対象のオブジェクト以外のオブジェクトや背景を事前に後方移動軌跡の算出対象から外すために、後方移動軌跡の開始点として、フレームＴｓやフレームＴｅから移動軌跡が連続していないような座標を選ぶことで、より効率的にコメントが類似した軌跡を選ぶことができる。

あるいは、遮蔽の場合、動画像中における遮蔽前のオブジェクトの位置と遮蔽後のオブジェクトの位置は、大きく変化しない場合も多い。そこで、遮蔽が検出された場合は、移動軌跡の終了点のフレームのオブジェクトの近傍から後方移動軌跡の算出を開始してもよい。例えば、所定の半径を設定したり、あるいはオブジェクトの大きさに比例した広さを有する領域を設定して、後方移動軌跡の算出を開始してもよい。

つまり、遮蔽やその他シーンチェンジが起こった場合の方が、シーンチェンジが起こった場合に比べて、後方移動軌跡を算出する領域を狭く設定することにより、より効率的に後方移動軌跡を算出することができる。

なお、軌跡延長処理の選択要因は、遮蔽、シーンチェンジ以外に、光源環境の変化による輝度変化や動きぶれによって移動軌跡算出が中断する場合もある。この場合は実際には追従すべきオブジェクトは実際には見えており、シーン全体の見え方もある程度変化しないといえるため、遮蔽のケースと同様の処理を選択すればよい。すなわちシーンチェンジのみを検出し、別の処理を行うとすれば問題ない。

このような構成により、コメント情報生成装置１００は、コメントの表示が途切れることなく表示することができる。そして、ユーザはコメント付き動画像表示時にコメントを表示時間内に読むことができ、そのコメントがどのオブジェクトに対して付与されたものであるかを容易に視認できる。よって、コメントの視認性を向上させることのできるコメント情報を生成することができる。

さらに、特に、商用動画コンテンツのように数秒程度でシーンが次々に変わる動画像に対してコメントつき動画を生成した場合、移動軌跡が、シーンが変わるたびに中断されてコメントがすぐに途切れ、コメントが少なくなってしまう。本発明によれば、前のシーンのコメントを後のシーンの同一オブジェクトに引き続き表示しつづけることができるため、コメントの視認性が上がるだけでなく、全体としてコメントが少なくなることを防止でき、コミュニケーションの活性化を促すという効果も期待できる。

（第２の実施形態）

第１の実施形態はコメント情報生成装置にかかる発明であり、ユーザの端末で実現してもよいし、動画サーバやコメント蓄積サーバ内、あるいはその他のサーバで実現してもよいものであった。これに対して本実施形態は、ユーザの端末等、動画像に付されたコメントを閲覧することのできるコメント表示装置にかかる発明である。つまり、ＰＣやタブレット、携帯電話、カーナビゲーションシステムなど、視聴者が所持する端末を主として対象とするものである。ただし、放送局での画像チェックやサーバ管理などに用いる端末でも使用することができることは言うまでもない。

本実施形態はコメント表示装置であるが、その構成は図３で示される第１の実施形態であるコメント情報生成装置の構成とほぼ同一である。図１７に本実施形態のコメント表示装置の構成を示す。第１の実施形態と異なる点は、情報入力部１２０１に入力される入力情報１１１の中、および出力部１２０４が出力するコメント情報の中にユーザが入力したコメントが含まれること、そして、出力部１２０４の出力先が、ＣＲＴや液晶ディスプレイなどの表示装置１２０５であることである。そして、出力部１２０４は、動画像、延長移動軌跡あるいは初期移動軌跡、およびコメント情報に基づき、コメントが視認しやすいようにコメントの表示様態を決定する機能を有すること、である。以下、これらについて、図１７を用いてより詳細に説明する。

情報入力部１２０１は、前記動画像中のオブジェクトに追従して表示させることを意図してユーザが入力したコメント、フレームおよび座標に関する情報入力を受け付ける。

受け付ける情報には、最終的に表示に利用する情報が含まれていればよく、たとえば投稿時刻やユーザ名の情報が含まれてもよい。情報入力部１２０１への情報入力方法は、例えばユーザがマウスのクリックやタッチパネルのタッチ等を通して入力した動画像上の時刻、座標などに関する情報、および、ユーザがキーボードの打鍵やソフトウェアキーボードへのタッチ等を通して入力したコメント文やユーザ名を直接、または通信経路を介して読み出すことで得るとしてよい。その際、投稿時刻は、ユーザが利用しているシステムないし、コメント表示装置１２００本体から、有線または無線で取得するとしてもよい。

より詳細には、ユーザが閲覧している端末上での動画像１１０の再生に際し、ユーザのマウス入力、キー入力またはタッチ入力を端末側で検出した際、自動的に動画像１１０の再生が一時停止された状態で行われる。または、コメントの投稿は、ユーザの画面上での操作によって動画像１１０の再生が一時停止された状態で実行されるとしてもよい。

例えば、図１８（ａ）に示す表示画面において対象となる動画像１１０の再生が一時停止されている状態で、画面上のある座標をユーザが指定すると、この指定に応答して、コメント表示装置１２００にポップアップ画面が重畳表示され、ユーザが、ポップアップ画面内にコメントを入力することにより、コメントの投稿を行うとしてもよい。

出力部１２０４は、処理選択部１０３から延長移動軌跡等を受け取ってコメントの形状や表示位置を決定し、入力情報１１１に含まれる情報と、動画像１１０を合わせ、有線または無線の通信経路を通じて表示装置１２０５へ出力する。出力する情報は、最低限の情報として、入力情報１１１のうち移動軌跡の開始点のフレーム、および文章情報と、初期移動軌取得部１０２ないし移動軌跡延長部１０４が生成した初期移動軌跡ないし延長移動軌跡とを含む。さらに望ましくは、入力情報１１１に以下の情報が入っていれば、コメント文やフキダシの色・形状、フォント等の情報を含んでもよい。これにより、よりユーザの意向を反映した表示が可能なコメント情報を生成できる。

さらに、コメントの形状や、表示タイミング、ピクチャの表示方法に関して、シーンチェンジや遮蔽の状況に応じて出力部１２０４で決定の上、表示装置１２０５に受け渡すとしてもよい。具体的な例について、図１９以下を参照しながら説明する。

図１９に、初期移動軌跡が中断されるシーンの例を示す。特に、コメント追従対象のオブジェクトが、延長処理後に存在する場合としない場合で、コメント表示方法を変更すべき理由、およびどのように変更することがユーザのコメントに対する視認性を確保するために望ましいかを説明する。図１９（ａ）は、シーンチェンジの例を示しており、コメント対象人物１４０１が、シーンチェンジ後も存在する場合を示す。延長された移動軌跡は、シーンチェンジ前後で、たとえば第１の実施形態で示した例でいえば、(−１、−１)ではない正の座標値を示すことから容易に判定できる。また、図１９（ｂ）は、シーンチェンジ後に、コメント対象人物１４０１が現れない場合を示す。延長された移動軌跡は、シーンチェンジ後に、たとえば第１の実施形態で示した例でいえば、(−１、−１)を示すことから容易に判定できる。

図２０に、図１９（ａ）のケースにおけるコメント表示方法の例を示す。
シーンチェンジ後も同一オブジェクトが画面内に存在する場合、望ましくは当該オブジェクトの存在位置が変わるのに合わせて、コメントをフキダシごと追従させるとよい（図２０（ａ））。コメントがそのオブジェクトに意図してつけられたものであるからである。しかし、実際に表示した場合、あまりにオブジェクトの位置変化がシーンチェンジ前後で大きい場合、フキダシ全体を追従させると、視聴しているユーザの目がついていかずに、逆に視認性を落としてしまう場合がある。したがって、どのオブジェクトを指しているかがわかる状態にすると同時に、コメント文字の位置移動はできるだけ小さいほうがより望ましい。すなわち、たとえば図２０（ｂ）のように、コメント文章は位置を動かさずに、フキダシの先端のみをオブジェクト移動に追従させるという表示方法をとるとよい。また、
図２０（ｃ）のように、先にフキダシの先端のみをオブジェクトに追従させ、コメント文章の部分はゆっくりと、ユーザが容易に視認可能な速度で移動する、としても同様の効果が得られる。また、図２１に示すように、フキダシの位置変化を最小限にするために、シーンチェンジ直前にフキダシを含む画面全体を徐々に縮小した表示を行い、シーンチェンジ後のフキダシが同一の位置にくるよう、シーンチェンジ後の縮小表示画像を表示したのち、もとのサイズに徐々に拡大する、という手法をとってもよい。同一オブジェクトを指しながら、シーンチェンジ前後で移動しないフキダシを実現でき、ユーザは容易にコメントを視認することができる。

一方、図２２のように、シーンチェンジ後に同一オブジェクトが画面内に存在しない場合、延長移動軌跡はシーンチェンジ直後からオブジェクトが再度現れるまで（−１、−１）を示す。望ましくは、シーンチェンジ直後の座標から、オブジェクトが再出現する場合はその座標まで、ゆるやかにフキダシが移動し、再出現しない場合は、たとえば同じ場所にフキダシがとどまる、等とすることで、コメント文字の視認性は時間的に保つことができる。しかし、ここで残ったコメントが、別の特定のオブジェクトを指すようなことは望ましくない。コメントが別の特定のオブジェクトに意図してつけられたものではないため、誤解を招く可能性があるからである。したがって、コメントの視認性は保ちつつ、先に述べた誤解が起きにくい表示を採用する必要がある。

もっとも単純には、図２２（ａ）のように、フキダシの先端部分をシーンチェンジ後消滅させるとよい。フキダシの先端は、「オブジェクトを指す」印象を大きく与える。そこで、先端のみ見えないようにすることで、コメント対象オブジェクトが不在のときに、そのコメントが別のオブジェクトを指すという印象を低減することができる。

あるいは、シーンチェンジ後、フキダシの方を残像のように徐々に薄くなるよう消去したり、あるいは画面外にフェードアウトするようにしてもよい。

さらには、図２２（ｂ）のように、前方移動軌跡を取得した上で表示開始点をさかのぼってコメントを表示するものとしてもよい。別のオブジェクトにコメントが付与されることなく、ユーザが余裕をもってコメント文字を読めるだけの追従表示時間を実現できる。

なお、初期移動軌跡の終了点の後にシーンチェンジが起こったかそれ以外が起こったかを判定し、判定結果に応じてコメントの表示態様を変更してもよい。シーンチェンジの検出方法は上述した通りである。
シーンチェンジが起こったときは、オブジェクトの移動が一般的に大きいので、フキダシの移動は大きくなる。そこで、シーンチェンジの場合は、フキダシを徐々に消去する。
一方シーンチェンジ以外が起こったときは、オブジェクトの移動が一般的に少ないので、フキダシの移動も小さくなる。そこで、シーンチェンジ以外の場合は、オブジェクトに追随させてフキダシを表示する。
もちろん、これ以外の表示態様の変更であってもよい。

以上、本明細書に記載の発明および実施形態の全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはこれを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

本発明は、例えば、ネットワーク接続を通じて動画像の取得または閲覧が可能なタブレットＰＣ、スマートフォン、携帯電話、ＰＣ、カーナビゲーションシステム、ビデオカメラまたはＴＶ等のＡＶ機器に内蔵させるコメント情報生成装置およびコメント表示装置等として利用することができる。

１００コメント情報生成装置
１０１ａ動画入力部
１０１ｂ情報入力部
１０２初期移動軌跡取得部
１０３処理選択部
１０４移動軌跡延長部
１０５出力部
１１０動画像
１１１入力情報
１２０記憶装置
１２００コメント表示装置

Claims

動画像が入力される動画入力部と、
前記動画像中のオブジェクトに追従してコメントを表示させるためにユーザが入力した位置情報が入力される情報入力部と、
前記位置情報に対応する前記オブジェクトの移動軌跡である初期移動軌跡を取得する初期移動軌跡取得部と、
前記初期移動軌跡の終了点より後に開始点を有する移動軌跡である後方移動軌跡を取得し、前記初期移動軌跡の近傍に付与された第１のコメントおよび前記後方移動軌跡の近傍に付与された第２のコメントを収集し、前記第１のコメントおよび前記第２のコメントに基づいて前記後方移動軌跡を前記初期移動軌跡に接続して延長移動軌跡を取得する移動軌跡延長部と、
前記延長移動軌跡をコメント情報として出力する出力部と、
を備えるコメント情報生成装置。
前記移動軌跡延長部は、前記後方移動軌跡を複数算出し、前記第１のコメントおよび前記第２のコメントに基づいて前記複数の後方移動軌跡のうち少なくとも一つを選択し前記初期移動軌跡に接続して延長移動軌跡を取得する、
請求項１記載のコメント情報生成装置。
前記移動軌跡延長部は、前記第１のコメントと最も類似度の高い前記第２のコメントが付与されている前記後方移動軌跡を選択する、
請求項２記載のコメント情報生成装置。
前記移動軌跡延長部は、前記初期移動軌跡の開始点より前の移動軌跡である前方移動軌跡を取得し、前記初期移動軌跡および前記前方移動軌跡の近傍に付与された第１のコメントを収集する、
請求項１ないし３いずれかに記載のコメント情報生成装置。
前記移動軌跡延長部は、前記第１のコメントまたは前記第２のコメントの収集の際、投稿時間が時間的に新しいものを優先して収集する、
請求項１ないし３いずれかに記載のコメント情報生成装置。
前記移動軌跡延長部は、前記第１のコメントまたは前記第２のコメントについて前記情報入力部がユーザ入力を受け付けた時刻により近い投稿日時のコメントから形態素分類によって得られた単語の重みを、類似度計算に用いる特徴ベクトル上でより重くする、
請求項１ないし３いずれかに記載のコメント情報生成装置。
前記初期移動軌跡の時間長が所定時間に満たない場合に前記移動軌跡延長部での処理を行なうことを選択し、それ以外の場合は前記初期移動軌跡をそのまま前記コメント情報として前記出力部から出力することを選択する処理選択部をさらに有する、
請求項１ないし６いずれかに記載のコメント情報生成装置。
前記移動軌跡延長部は、前記初期移動軌跡の終了点の後にシーンチェンジが起こったかそれ以外が起こったかを判定し、判定結果に応じて前記後方移動軌跡を取得する前記動画像中の領域を決定する、
請求項１ないし７いずれかに記載のコメント情報生成装置。
シーンチェンジ以外が起こったと判定した場合の方が、シーンチェンジが起こったと判定した場合よりも前記領域は狭い、
請求項８記載のコメント情報生成装置。
前記動画像の輝度ヒストグラムの変化量が所定の閾値以上の場合シーンチェンジが起こったと判定する、
請求項８記載のコメント情報生成装置。
シーンチェンジ以外が起こったと判定した場合に、前記初期移動軌跡の終了点より前のフレームから存在する移動軌跡と連続するもの以外を前記後方移動軌跡とする、
請求項８または９記載のコメント情報生成装置。
シーンチェンジが起こったと判定した場合に、前記動画像中の全ての領域で前記後方移動軌跡を取得する、
請求項８または９記載のコメント情報生成装置。
前記情報入力部にはさらに前記コメントが入力され、
前記出力部は、表示装置にコメント情報および前記コメントを出力する、
請求項１ないし１２いずれかに記載のコメント情報生成装置。
前記情報入力部にはさらに前記コメントが入力され、
前記出力部は、表示装置にコメント情報および前記コメントを出力し、
前記表示装置は、前記延長移動軌跡に基づき前記動画像中における前記位置情報の入力時点から前記所定時間の間、または前記初期移動軌跡の終了点までの前記所定時間の間、前記コメントを表示する、
請求項７記載のコメント情報生成装置。
前記出力部は、前記初期移動軌跡の終了点の後にシーンチェンジが起こったかそれ以外が起こったかを判定し、判定結果に応じて前記コメントの表示態様を変更する、
請求項１３記載のコメント情報生成装置。
前記出力部は、前記初期移動軌跡の終了点の後に、追従対象の前記オブジェクトが存在する場合としない場合とで前記コメントの表示様態を異ならしめて前記表示装置に出力する、
請求項１３記載のコメント情報生成装置。
前記出力部は、前記初期移動軌跡の終了点と前記後方移動軌跡の開始点との間に時間的間隔がある場合は、前記時間的間隔の間、前記コメントの表示を行わない、
請求項１６記載のコメント情報生成装置。
請求項１ないし１２いずれかに記載のコメント情報生成装置から前記コメント情報を受信して、前記動画像および前記コメントを表示するコメント表示装置。
動画像が入力される動画入力ステップと、
前記動画像中のオブジェクトに追従してコメントを表示させるためにユーザが入力した位置情報が入力される情報入力ステップと、
前記位置情報に対応する前記オブジェクトの移動軌跡である初期移動軌跡を取得する初期移動軌跡取得ステップと、
前記初期移動軌跡の終了点より後に開始点を有する移動軌跡である後方移動軌跡を取得し、前記初期移動軌跡の近傍に付与された第１のコメントおよび前記後方移動軌跡の近傍に付与された第２のコメントを収集し、前記第１のコメントおよび前記第２のコメントに基づいて前記後方移動軌跡を前記初期移動軌跡に接続して延長移動軌跡を取得する移動軌跡延長ステップと、
前記延長移動軌跡をコメント情報として出力する出力ステップと、
を備えるコメント情報生成方法。
請求項１９に記載のコメント情報生成方法をコンピュータに実行させるためのプログラム。