JP5659307B2

JP5659307B2 - コメント情報生成装置およびコメント情報生成方法

Info

Publication number: JP5659307B2
Application number: JP2013557995A
Authority: JP
Inventors: 亜矢子丸山; 登　一生; 一生登; 浩市堀田; 州平笹倉
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-07-17
Filing date: 2013-07-04
Publication date: 2015-01-28
Anticipated expiration: 2033-07-04
Also published as: CN103797783B; JPWO2014013690A1; US20160309239A1; WO2014013690A1; CN103797783A; US9681201B2; US20140196082A1

Description

本発明は、動画像中のオブジェクトに追従してコメントを重畳表示させるためのコメント情報を生成するコメント情報生成装置およびコメント情報生成方法に関する。

近年、ネットワークの発達や、携帯端末の普及により、ネットワークを介して、遠隔地の相手と、手軽に動画コンテンツや静止画コンテンツを通じたコミュニケーションを楽しむことが日常的に行なわれるようになっている。例えば、既存のコンテンツに対し、コンテンツの時間軸上のとあるタイミングで、ユーザがそれぞれ、文章によって個人の嗜好や考えを書き込めるサービスが存在する。このような、コンテンツを通じたコミュニケーションは、表示デバイスや通信技術の発達とともに、今後ますます増えると考えられる。

このようなコミュニケーションを実現するため、動画像上にユーザが付与したコメントを合成した動画像を生成し、インターネット上で配信する技術が特許文献１に示されている。

特開２００８−１４８０７１号公報特開２０１０−２４４４３７号公報国際公開第２０１０／１１６８２０号特開２００４−１２８６１４号公報特開２００９−８１５９２号公報特開２００３−１３２０４７号公報特許第４９９４５２５号公報

Ｐ．Ａｎａｎｄａｎ，"ＡＣｏｍｐｕｔａｔｉｏｎａｌＦｒａｍｅｗｏｒｋａｎｄａｎＡｌｇｏｒｉｔｈｍｆｏｒｔｈｅＭｅａｓｕｒｅｍｅｎｔｏｆＶｉｓｕａｌＭｏｔｉｏｎ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｖｏｌ．２，ｐｐ．２８３−３１０，１９８９ＶｌａｄｉｍｉｒＫｏｌｍｏｇｏｒｏｖａｎｄＲａｍｉｎＺａｂｉｈ， "ＣｏｍｐｕｔｉｎｇＶｉｓｕａｌＣｏｒｒｅｓｐｏｎｄｅｎｃｅｗｉｔｈＯｃｃｌｕｓｉｏｎｓｖｉａＧｒａｐｈＣｕｔｓ"，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１ＪｉａｎｂｏＳｈｉａｎｄＣａｒｌｏＴｏｍａｓｉ "ＧｏｏｄＦｅａｔｕｒｅｓｔｏＴｒａｃｋ"，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ５９３−６００，１９９４ＰｅｄｒｏＦ．ＦｅｌｚｅｎｓｚｗａｌｂａｎｄＤａｎｉｅｌＰ．Ｈｕｔｔｅｎｌｏｃｈｅｒ "ＥｆｆｉｃｉｅｎｔＧｒａｐｈ−ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｖｏｌ．５９，Ｎｏ．２，ｐｐ．１６７−１８１，Ｓｅｐｔ，２００４

しかしながら、従来のコメント重畳（ないしコメント付き動画像生成）方法によると、コメントは動画像中のオブジェクトとは無関係な位置に表示される。また、コメントの表示時間も固定である。このため、動画像の視聴者は、どのオブジェクトに対して各コメント投稿者が付与したコメントであるのかを理解しにくい。また、非常に長いコメントの場合、前記固定されたコメントの表示時間内にコメントを読み終わることができない。このため、視聴者によるコメントの視認性が低下するという課題がある。

本発明は、上述の課題を解決するためになされたものであり、コメントの視認性を向上させることのできる出力コメント情報を生成するコメント情報生成装置およびコメント情報生成方法を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係るコメント情報生成装置は、動画像を受け付ける動画取得部と、前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部とを備える。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明によると、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。

図１は、実施の形態が対象とするコメント付き動画像配信システムの構成を示す図である。図２Ａは、動画像へのコメント付与の時間的な流れを示す図である。図２Ｂは、動画像へのコメント付与および動画像視聴の時間的な流れを示す図である。図３は、実施の形態におけるコメント情報生成装置の機能的な構成を示すブロック図である。図４Ａは、コンピュータによって構成されたコメント情報生成装置のハードウェア構成を示す図である。図４Ｂは、コンピュータによって構成されたコメント情報生成装置のハードウェア構成を示す図である。図５は、コメント情報生成装置の動作の手順を示すフローチャートである。図６Ａは、動画像の一例を示す図である。図６Ｂは、動画像中の被写体領域について示す図である。図７Ａは、動画像上でユーザがコメント入力を行なう手順を説明するための図である。図７Ｂは、入力コメント情報のデータ例を示す図である。図８Ａは、オブジェクト動き決定部による移動軌跡の算出方法を説明するための図である。図８Ｂは、オブジェクト動き決定部による移動軌跡の算出方法を説明するための図である。図９Ａは、ノイズまたはモデル誤差の許容度を低くした場合の移動軌跡を示す図である。図９Ｂは、ノイズまたはモデル誤差の許容度を高くした場合の移動軌跡を示す図である。図１０Ａは、遮蔽が起こった場合の、動き推定処理について説明するための図である。図１０Ｂは、シーンチェンジが起こった場合の、動き推定処理について説明するための図である。図１１Ａは、コメント開始時刻を遡ることによる移動軌跡の伸張処理について説明するための図である。図１１Ｂは、所定の画素範囲内から目標時間を満たす移動軌跡を算出する例について説明するための図である。図１２Ａは、ユーザが指定した領域内から目標時間を満たす移動軌跡を算出する例について説明するための図である。図１２Ｂは、領域分割部により分割された同一領域内から目標時間を満たす移動軌跡を算出する例について説明するための図である。図１３Ａは、粗い領域分割を行った場合の領域の移動軌跡の一例を示す図である。図１３Ｂは、細かい領域分割を行った場合の領域の移動軌跡の一例を示す図である。図１４は、データベースの一例を示す図である。図１５は、目標時間補正部を備えるコメント情報生成装置の機能的な構成を示すブロック図である。

（本発明の基礎となった知見）
本発明者らは、「背景技術」の欄において記載した、従来のコメント重畳方法に関し、以下の問題が生じることを見出した。

特許文献１に記載のシステムは、動画サーバ、およびコメント蓄積配信サーバを備えるシステムであり、各ユーザがネットワークを介して書き込んだコメントは、全てコメント蓄積配信サーバ上に蓄えられ、コメントが書き込まれた動画像上の再生時刻を基準点として動画像に重畳され配信される（以降、このような動画像を「コメント付き動画像」と呼ぶ）。動画像ないしコメント付動画像が配信され再生されるたびにユーザによって新たに書き込まれるコメントは、動画像時間軸上の時刻と対応付けられてコメント蓄積配信サーバ上で管理され、基本的にはコメントの新旧に関わらず、将来の配信では動画像時間軸上の時刻に基づいて配信される。各コメントは、ユーザがコメントの投稿の対象としたオブジェクトとは無関係に、動画像上を流れるように、または動画像上の一定の位置に固定して表示される。

また、特許文献２および３には、インターネットを介さずに動画像に文字情報を付加するムービー機器が開示されている。特許文献２および３は、特に、付加データをフキダシなどで表示し、動画像中のオブジェクトの移動に応じてフキダシを変化させることで、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが容易にわかる手法を提案している。

また、特許文献４には、フキダシを表示するチャットシステムが開示されている。共通背景上の特定位置に合成されたユーザの顔画像に対し、発生するフキダシが、顔画像や他のフキダシを隠さないように表示される。

また、特許文献５には、携帯電話または携帯端末から、映像記録装置に文字情報または絵情報を入力する技術が開示されている。携帯電話または携帯端末は、コメント追従メニューを備え、ユーザが指定した追従枠を動きベクトルを利用して追従させる。

なお、一般的に、人間が一秒間に認識可能な文字数は限られているといわれる。このため、例えば、映画等の字幕に関しては、１秒間あたりの表示文字数や、１分あたりの表示語数（ＷＰＭ：ＷｏｒｄｓＰｅｒＭｉｎｕｔｅ）といった自主的なガイドラインが定められて、字幕視聴時の視認性が保たれる工夫がなされている。

以上に述べたように、従来、動画像にコメントを挿入する手法が提案されている。上述したように、特許文献１に開示されている技術を用いたコメント付き動画像配信サイトでは、画面の一端から他端までの一行に表示可能な文字数が限られている。このため、例えば、一律３秒間で画面の一端から他端までコメントがスクロール表示される、という設定がデフォルトとして適用される。その一方、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが分かりづらい。

そこで、本開示では、「オブジェクトに追従して動くコメント」を実現することを目的とする。これにより、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが分かりやすくなり、ユーザの視認性を高め、コミュニケーションを深められると考えられる。ただし、「オブジェクトに追従して動くコメント」を得るには、オブジェクト動き推定により算出される移動軌跡の座標を「追従して動くコメント」の座標として求める必要がある。例えばオブジェクト動き推定が早く失敗すれば、コメント表示時間も短くなるため、コメントが表示されている間にユーザがコメントを読み終わらないといった課題が発生し得る。

逆に、字幕のような、コメントの文字数に応じたコメント表示時間の制御を行なうことも単純には実現できない。

コンテンツ配信者の配信する動画像や個人保有のコンテンツの多くは、シーンに複数のオブジェクトを含む。特に各オブジェクトの動きの大きさや色などが異なる場合、動画像中のオブジェクトの軌跡を算出する処理において、ユーザが選択したオブジェクトや、オブジェクト動き推定処理に用いるパラメータによって、前述したオブジェクト動き推定結果の時間長は異なることが多い。

一般的に、オブジェクト動き推定処理では、時系列の画像間で同一のオブジェクト領域を判別することで動きを求める。例えば、あるフレームでのオブジェクトをモデルとし、最もモデルを満たす（モデルとの輝度差が最も０に近い）別のフレーム上のオブジェクトを同一オブジェクトと判定し、オブジェクト間の位置変化から動きを算出する。

また、動画像中にオブジェクトが映らなくなる場合など、動き推定が不可能な場合（中断すべきケース）も存在する。その中断判定の基準としても、前述のモデルとの輝度差を用いることができる。

このようなモデルとの輝度差に基づく動き推定処理において、ノイズまたはモデルとの輝度差をどれくらい許容するか（すなわち、動き推定の精度）と、オブジェクトの追跡時間との間にトレードオフの関係がある。これらのトレードオフは、画像中に一様に存在するわけではない。例えば、動画像上のあるオブジェクトに対しては、所望の追跡時間よりも早く動き推定が中断する一方、同じ動画像中の別のオブジェクトに対しては動き推定が中断されない、といった状況は数多く起こりえる。つまり、一様な動き推定条件を用いると、ユーザがコメント付与を意図して指定した座標位置および動画像上での時刻によって、追跡が終了するまでの時間と、動き推定の精度が、ばらついてしまうという課題がある。

このような課題を解決するために、本発明の一態様に係るコメント情報生成装置は、動画像を受け付ける動画取得部と、前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部とを備える。

この構成によると、コメントに基づき、コメントを表示すべき目標時間を決定し、移動軌跡の連続する時間が目標時間に近づくようにオブジェクトの移動軌跡を決定している。

なお「目標時間の時間長の移動軌跡となるように」とは、広義には、オブジェクトの動き推定を開始した時点から中断されるまでの移動軌跡の長さが、コメントを表示する際の目標時間に十分近い時間長に相当する長さである状態を指す。狭義には、動き推定を開始した時点から中断されるまでの移動軌跡の長さが、コメントを表示する際の目標時間に相当する長さである状態を指す。以下、「目標時間」を用いる場合、上記「コメントを表示する際の目標時間」のことを指すものとする。どれぐらいの差の時間を「十分近い」と許容できるかは、表示する動画像のフレームレートや、目標時間を決定する際の係数、もしくは利用者によっても異なる可能性がある。このため、事前に実験により決定しておいてもよいし、あらかじめ利用者が選択できるようにしておいてもよい。たとえば、１文字あたりの表示時間に相当する±０．２５秒では、違和感がなく「十分近い」と言えるため、この結果を利用してもよい。

決定されたオブジェクトの移動軌跡は、コメントを追従表示させるための移動軌跡として用いることができる。このため、ユーザは、コメント付き動画像表示時に、コメントを表示時間内に読むことができ、そのコメントがどのオブジェクトに対して付与されたものであるかを判断することができる。よって、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。

例えば、前記目標時間決定部は、前記コメント入力受付部が受け付けた前記コメントの長さが長いほど、前記目標時間がより長くなるように、前記目標時間を算出し、前記出力部は、前記コメント入力受付部に、より長いコメントが入力されると、より時間長が長い移動軌跡を出力しても良い。

また、前記目標時間決定部は、予め定められた一文字あたりの表示時間である単位表示時間と、前記コメント入力受付部が受け付けた前記コメントの文字数とを掛け合わせた値を、前記目標時間として算出し、前記出力部は、前記コメント入力受付部に前記コメントが入力されると、前記コメントの文字数と前記単位表示時間とを掛け合わせた長さの移動軌跡を出力しても良い。

また、前記目標時間決定部は、さらに、予め定められた、文字の視覚認識にかかる視覚認識時間に、算出した前記目標時間が満たない場合は、前記視覚認識時間を前記目標時間として算出し、前記出力部は、前記コメント入力受付部に前記コメントが入力されると、前記コメントの文字数と予め定められた一文字あたりの表示時間である単位表示時間とを掛け合わせた長さと、前記視覚認識時間の長さのうち大きい方の長さの移動軌跡を出力し、どれだけ短い前記コメントが入力された場合でも前記視覚認識時間以上の長さの移動軌跡を出力しても良い。

ここで、視覚認識時間とは文字数に関係なく、文字を認識するのに必要な最低限の時間のことである。

また、前記出力部は、前記コメント入力受付部が受け付けた複数の前記コメントが、同一のフレームの同一の位置に付与された複数の前記コメントであっても、互いに文字数が異なる場合には、互いに異なる移動軌跡を出力しても良い。

また、前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより前記オブジェクトの移動軌跡を決定しても良い。

この構成によると、複数の動き推定方法または複数の動き推定パラメータを用いて移動軌跡を算出することにより、目標時間連続する移動軌跡を推定し易くなる。

例えば、前記オブジェクト動き決定部は、前記複数の動き推定パラメータの各々として、（１）オブジェクトの追従のし易さに影響し、互いに値の異なる複数の誤差許容度パラメータの各々、（２）互いにサイズの異なる複数の探索窓領域の各々、又は（３）互いに値が異なる複数の特徴量の各々、のいずれかに基づいて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより、前記オブジェクトの移動軌跡を決定しても良い。

誤差を許容すれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、誤差を許容しなければ移動軌跡は短くなるが動き推定精度は良くなる。また、探索窓領域のサイズを小さくすれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、探索窓領域のサイズを大きくすれば移動軌跡は短くなるが動き推定精度は良くなる。また、特徴量の数を小さくすれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、特徴量の数を大きくすれば移動軌跡は短くなるが動き推定精度は良くなる。

また、前記オブジェクト動き決定部は、さらに、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いても決定できない、「動き推定不可能な状態」が生じた際に、当該状態の原因が遮蔽によるかシーンチェンジによるかを判定し、判定結果に基づいてオブジェクト動き決定方法を切り替えても良い。

また、前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因が遮蔽によるものと判定した場合に、遮蔽が生じたフレーム以降のフレームにおける前記オブジェクトの移動軌跡を、前記遮蔽が生じたフレームまでの前記オブジェクトの移動軌跡に基づいて補外することにより、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定しても良い。

この構成によると、遮蔽が生じたフレームの移動軌跡を遮蔽が生じなかったフレームの移動軌跡に基づいて補外することができる。

また、前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによるものと判定した場合に、シーンチェンジが生じたフレームまでの前記オブジェクトの移動軌跡を、出力する移動軌跡として決定しても良い。

シーンチェンジが発生した場合には、シーンチェンジを挟んでの、オブジェクトの正確な移動軌跡を求めることは非常に困難であり、シーンチェンジ以降誤った移動軌跡が求まる可能性が高い。したがって、コメントの視認性向上のために、シーンチェンジ以降の移動軌跡は推定しないと決定した方が結果として視認性がよいことがある。

また、前記オブジェクト動き決定部は、前記動画像を構成するフレーム間の輝度ヒストグラムの変化量が所定の閾値以上の場合に、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによると判定し、前記輝度ヒストグラムの変化量が前記所定の閾値未満の場合に、前記「動き推定不可能な状態」が生じた原因が遮蔽によると判定しても良い。

また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が前記位置情報および前記コメントの入力を受け付けたフレーム、ならびに前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの位置より、時間軸上で前のフレームへさかのぼって推定した移動軌跡を、前記オブジェクトの移動軌跡の前方につなぐことで、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定しても良い。

この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間に達しない場合には、領域分割して得られたいずれかの領域を追跡した結果を用いて、目標時間に最も近いオブジェクトの移動軌跡を決定できる。

また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置から一定の距離範囲内の位置を基点としたオブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定しても良い。

また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置を含む、ユーザが指定した範囲内の位置を基点とした前記オブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定しても良い。

この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間より一定時間以上短い場合には、当該移動軌跡の近傍を基点とした、別の移動軌跡を用いてオブジェクトを追跡した結果に基づき、目標時間連続するオブジェクトの移動軌跡を推定することができる。なお、空間的な近傍座標だけでなく、時間方向の近傍に対して同様の処理を行ってもよい。

また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記オブジェクトを複数の領域に領域分割し、分割して得られた領域のうち、前記目標時間に最も近い長さの領域の移動軌跡を、前記オブジェクトの移動軌跡として決定しても良い。

この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間より一定時間以上短い場合でも、当該移動軌跡の近傍を基点とした、別の移動軌跡を用いることにより、目標時間を満たすオブジェクトの移動軌跡を決定できる。

また、前記オブジェクト動き決定部は、さらに、前記コメント入力受付部が受け付けた前記位置情報が示すオブジェクトの重心について、目標時間に最も近い長さの移動軌跡を決定し、前記コメント入力受付部が受け付けた前記コメントが付与される位置と前記オブジェクトの重心との相対的な位置関係に基づいて、前記決定された前記オブジェクトの移動軌跡を、あたかもコメントが付与される位置からの移動軌跡であるかのように補正し出力しても良い。

この構成によると、例えば、オブジェクトの重心座標と、位置情報で示される、コメントを付与したフレームでの座標との相対的な位置関係を以降も保つように、オブジェクトの移動軌跡を補正することができる。

なお、前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上長い場合には、最も精度が高く、最も短い時間長となった移動軌跡に対して、開始フレームから、目標時間までの範囲の移動軌跡のみを、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定し、目標時間以降のフレームに対応する移動軌跡は廃棄することで、容易に目標時間に最も近い長さの移動軌跡を得ることができる。

また、上述のコメント情報生成装置は、さらに、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡に基づいて、前記オブジェクトの移動速度が速いほど前記目標時間が長くなるように、前記目標時間を補正する目標時間補正部を備え、前記オブジェクト動き決定部は、さらに、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間補正部で補正された後の前記目標時間の時間長となるように、前記オブジェクトの移動軌跡を決定しなおしても良い。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下、本発明の一態様に係るコメント情報生成装置について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

図１に、本実施の形態が対象とするコメント付き動画像配信システムの構成を示す。特許文献１と同様に、コメント付き動画像配信システムは、動画サーバ、およびコメント蓄積配信サーバを備えている。各サーバはそれぞれ同じＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）上で管理されていても良いし、別のＰＣ上で管理されていても良い。

図１に示す互いに異なるユーザＡ〜Ｄは、ネットワークを通じて各ユーザの保持する端末（スマートフォン、ＰＣまたはタブレットＰＣ等）に配信された動画像を閲覧する。ここではさらに、ユーザＡ、ユーザＢが、端末に備えつけられたキーボードやソフトウェアキーボード等を通じて、動画像にコメントを付与する例が示されている。コメントはここでは文字情報であり、ユーザによって指定された、動画像中の時間的な位置（すなわち所望の時間ないしフレーム番号）、および空間的な位置（すなわち座標）に対応付けて付与される。なお、以下の説明で動画像と言う場合には、動画像データまたは動画像データが示す動画像を指しうるものとする。

ユーザが付与したコメントは、当該コメントが付与された動画像、当該ユーザのユーザＩＤや、当該コメントが対応付けられた（動画像中の）時刻および座標、当該コメントが投稿された実際の時刻、等の情報と合わせて、コメント蓄積配信サーバに随時蓄積される。そして、ユーザＡおよびユーザＢがある動画像にコメントを付与した後に、別のユーザＣおよびユーザＤが当該動画像を視聴した際には、当該動画像に対応付けられた他のコメントと同様に、ユーザＡおよびユーザＢのコメントがコメント蓄積配信サーバより配信され、前記コメントに対応付けられた情報（動画中で経過した時間である動画上時刻および座標等）に基づいて動画上にコメントが合成された動画が表示される。

図２Ａおよび図２Ｂで、動画像へのコメント付与の時間的な流れを示す。

まず図２Ａに、動画像中の時間の流れと、表示されるコメントとの関係を示す。コメントは映像内時刻（動画像の再生時刻）に対応付けられてサーバに蓄積される。各コメントは、コメントの視認に適した時間長表示されることが望ましい。時間長の算出については詳しくは後述する。

図２Ａによれば、ユーザＡのコメントは、映像内時刻ＳＡ秒〜ＥＡ秒の間表示され、ユーザＢのコメントは、ＳＢ秒〜ＥＢ秒（秒の代わりにフレームで求めてもよい）の間表示される。なお、時間の単位として以下では”秒”を用いるが、秒の代わりに”フレーム数”を用いても良い。

また、図２Ｂには、実際の日時の流れを示す。図２Ｂに示すように、ユーザＡおよびユーザＢがコメントを付与（書き込み）した後に、ユーザＣまたはユーザＤが、コメント付き動画像を視聴するものとすると、ユーザＣは、コメント付き動画像のうち、映像内時刻がＳＢ秒〜ＥＡ秒の間の動画像を視聴している場合、図２Ａに示すような、ユーザＡのコメント上にユーザＢのコメントが重畳されたコメント付き動画像を見ることができる。一方ユーザＤは、映像内時刻がＥＡ秒〜ＥＢ秒の間の動画像を視聴しているとする。ユーザＤは、図２Ａに示すような、ユーザＢのコメントのみが付与された動画像を見ることができる。

以上が、本実施の形態が対象とするコメント付き動画像の概念的な説明である。

図３は、実施の形態におけるコメント情報生成装置１００の機能的な構成を示すブロック図である。図３に示されるように、コメント情報生成装置１００は、動画取得部１０１と、コメント入力受付部１０２と、オブジェクト動き生成部１０３と、出力コメント情報生成部１０４と、出力部１０５とを備える。

コメント情報生成装置１００は、動画像１１０およびコメントの内容を示す入力コメント情報１１１（当該コメントに対応する動画像上の座標値であるコメント座標１１２を含む）を入力とし、コメント座標１１２で示される、ユーザが指定した動画像１１０中の画素または被写体の動きを算出し、出力コメント情報（オブジェクト追従コメント）を生成し、記憶装置１２０に出力する。

動画取得部１０１は、動画像、または動画像を構成する複数枚のピクチャ（「画像」とも言う）の入力を受け付ける。動画取得部１０１は、例えば、動画サーバなどの記憶装置に記憶されている動画像を、直接、または通信経路を介して読み出すインタフェースであっても良い。

コメント入力受付部１０２は、ユーザにより入力された入力コメント情報１１１（コメント座標１１２を含む）を受け付ける。コメント入力受付部１０２は、例えば、ユーザがマウスのクリックまたはタッチパネルへのタッチ等を行うことにより指定された動画像上の時刻や座標を、直接、または通信経路を介して読み出すインタフェースであっても良い。

オブジェクト動き生成部１０３は、動画取得部１０１が受け付けた動画像１１０およびコメント入力受付部１０２が受け付けた入力コメント情報１１１（コメント座標１１２を含む）に基づき、コメントの文字列の長さや視認性に依存する時間長分のオブジェクト動き推定結果を生成する。

出力コメント情報生成部１０４は、オブジェクト動き生成部１０３が生成したオブジェクト動き（追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡）と、入力コメント情報１１１とから、出力コメント情報を生成する。

出力部１０５は、出力コメント情報生成部１０４が生成した出力コメント情報を、有線または無線を介して記憶装置１２０に出力する。ここで、出力コメント情報は、動画像に対して付与されたコメントの文字情報、コメントを付与した座標、コメント投稿時刻、コメント表示時間などのコメントに関する情報を含む。さらに、出力コメント情報は、コメントを表示する際の、コメントの形状またはサイズを含んでいてもよい。

オブジェクト動き生成部１０３は、目標時間決定部１０６と、オブジェクト動き決定部１０７とを備える。

目標時間決定部１０６は、コメント入力受付部１０２が受け付けた入力コメント情報１１１に基づいて、コメントをオブジェクトに追従させて表示させる目標時間、すなわち入力コメント情報１１１が含むコメントを表示するのに適切な目標時間を決定する。目標時間は、例えば、コメントの文字数に基づいて決定することができる。

オブジェクト動き決定部１０７は、動画取得部１０１が受け付けた動画像１１０、コメント入力受付部１０２が受け付けた入力コメント情報１１１（コメント座標１１２を含む）および目標時間決定部１０６で決定した目標時間に基づいて、複数の動き推定方法または複数の動き推定パラメータから、目標時間に十分長さが近く、かつ長さが目標時間よりも大きく、かつ必要以上に推定精度が低下しないようなオブジェクト動きを決定する。オブジェクト動き決定部１０７は、コメント座標１１２からのオブジェクトの追従結果の時間長が目標時間よりも大きく、かつ目標時間に十分近くなるような、動き推定方法または動き推定パラメータを選択し、指定したコメント座標１１２からの画素（オブジェクト）の動き（移動軌跡）を決定する。

なお、コメント情報生成装置１００を構成する各構成要素（動画取得部１０１、コメント入力受付部１０２、オブジェクト動き生成部１０３、出力コメント情報生成部１０４、出力部１０５）は、コンピュータ上で実行されるプログラム等のソフトウェアで実現されてもよいし、電子回路または集積回路等のハードウェアで実現されてもよい。図４Ａおよび図４Ｂは、コンピュータによって構成された本実施の形態におけるコメント情報生成装置のハードウェア構成を示す図である。

図４Ａおよび図４Ｂにおいて、記憶装置２１０ａは、格納した動画像１１０をＩ／Ｆ（インタフェース）２０１ａへ出力する。ユーザからの入力を受け付ける入力装置２１０ｂは、入力コメント情報１１１をＩ／Ｆ２０１ｂへ出力する。コンピュータ２００は、動画像１１０および入力コメント情報１１１を取得して、オブジェクト追従コメント生成処理を行い、オブジェクト追従コメントの出力コメント情報を生成する。

記憶装置２２０は、コンピュータ２００で生成された出力コメント情報を取得して格納する。

コンピュータ２００は、Ｉ／Ｆ２０１ａおよび２０１ｂ、ＣＰＵ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ＨＤＤ２０５およびＩ／Ｆ２０６を含む。コンピュータ２００を動作させるプログラムは、ＲＯＭ２０３またはＨＤＤ２０５にあらかじめ保持されている。プログラムは、プロセッサであるＣＰＵ２０２によって、ＲＯＭ２０３またはＨＤＤ２０５からＲＡＭ２０４に読み出されて展開される。ＣＰＵ２０２は、ＲＡＭ２０４に展開されたプログラム中のコード化された各命令を実行する。Ｉ／Ｆ２０１ａおよび２０１ｂは、プログラムの実行に応じて、動画像１１０および入力コメント情報１１１を、ＲＡＭ２０４へそれぞれ取り込む。Ｉ／Ｆ２０６は、プログラムの実行により生成されたオブジェクト追従コメントの出力コメント情報を出力し、記憶装置２２０に格納する。

なお、コンピュータプログラムは、半導体であるＲＯＭ２０３またはＨＤＤ２０５に限らず、例えばＣＤ−ＲＯＭに格納されていてもよい。また、有線や無線のネットワーク、放送などを介して伝送され、コンピュータのＲＡＭ２０４に取り込まれてもよい。

以下、本実施の形態におけるコメント情報生成装置１００の動作を、図５を用いて説明する。図５は、本実施の形態におけるコメント情報生成装置１００の動作を表すフローチャートである。

図５において、７つのステップＳ３０１〜Ｓ３０７は、それぞれ図３の各処理部１０１〜１０７に対応している。すなわち、動画取得部１０１では動画取得ステップＳ３０１、コメント入力受付部１０２ではコメント入力受付ステップＳ３０２、オブジェクト動き生成部１０３ではオブジェクト動き生成ステップＳ３０３、出力コメント情報生成部１０４では出力コメント情報生成ステップＳ３０４、出力部１０５では出力ステップＳ３０５の各動作を実行する。また、オブジェクト動き生成ステップＳ３０３は、目標時間決定ステップＳ３０６、オブジェクト動き推定ステップＳ３０７の２つのステップを含む。目標時間決定部１０６では目標時間決定ステップＳ３０６、オブジェクト動き決定部１０７ではオブジェクト動き推定ステップＳ３０７の各動作を実行する。

最初に、動画取得ステップＳ３０１が、動画取得部１０１により実行される。動画取得部１０１は、動画像１１０を取得する。

本実施の形態では、動画取得部１０１が取得する動画像１１０として、放送動画、ユーザによって撮影された動画像等の各種動画像、および動画像を構成する複数のピクチャ（画像）を想定している。これらの動画像１１０は、動画サーバなどに蓄積されており、動画取得部１０１は、有線や無線のネットワーク、放送などを介して、動画像１１０を取得する。本実施の形態では、動画像は３０フレーム／秒とする。

取得される動画像の例を図６Ａに示す。ここでは音楽関連の動画コンテンツの例を示すが、本発明が対象とする動画像はこれに限られない。なお、以降では、説明および図面の簡略化のため、ここで示した動画像例について、図６Ｂのように、被写体領域を簡略表示した図を用いる。

図５を参照して、コメント入力受付ステップＳ３０２がコメント入力受付部１０２により実行される。コメント入力受付部１０２は、入力コメント情報１１１を取得する。ユーザによるコメント入力の例、および取得される入力コメント情報１１１の例を図７Ａおよび図７Ｂにそれぞれ示す。

入力コメント情報１１１は図７Ｂに示すとおり、少なくとも、コメント時刻（ｔｉｍｅ）、コメント対象座標（ｐｏｓｉｔｉｏｎ）、および入力された文章情報であるコメント文字列（ｃｏｍｍｅｎｔ）の３つの情報を含む。コメント時刻は、動画像１１０中の経過時間（再生時刻）を示す情報であり、時間情報の代わりに、フレーム番号など、動画像１１０中でユーザによってコメントが付与されたタイミングを特定できる情報であれば他の情報であってもよい。コメント対象座標も、画素座標値の代わりに、画面の縦および横の値域が１になるように正規化した座標値など、当該フレームにおけるユーザによってコメントが付与された空間的位置が特定できる情報であれば、他の情報であってもよい。

なお、これらのコメント入力は、コメント情報生成装置１００を備えたＰＣまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれてもよい。または、コメント情報生成装置１００を備えていない一般的なＰＣまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれた操作から、通信回線を介して、コメントおよびコメントを追従して表示させるオブジェクトの位置情報を受け付けることにより、コメント入力が行われてもよい。

なお、入力コメント情報１１１が含む情報は、コメント時刻（ｔｉｍｅ）、および入力された文章情報であるコメント文字列（ｃｏｍｍｅｎｔ）の２つの情報のみであって、コメント対象座標（ｐｏｓｉｔｉｏｎ）を別途備えた位置推定部によって推定する、という構成であってもよい。

あるフレーム上で表示されているコメントは、コメント対象のオブジェクトごとに内容に特徴があると考えられる。つまり、あるフレームにおけるコメント文は、コメントの位置情報と関連があるといえる。したがって、それまでに蓄積されたコメントのうち、そのフレームを通り、かつ類似するコメントの付与位置から、新たに付与するコメントのコメント対象座標を推定することができる。

また、コメントの投稿は、例えば、ユーザが閲覧している端末上での動画像１１０の再生に際し、ユーザのマウス入力、キー入力またはタッチ入力を端末側で検出した際、自動的に動画像１１０の再生が一時停止された状態で行われる。または、コメントの投稿は、ユーザの画面上での操作によって動画像１１０の再生が一時停止された状態で実行される。

例えば、図７Ａに示す表示画面において、望ましくは対象となる動画像１１０の再生が一時停止されている状態で（操作のしやすさのため）、画面上のある座標をユーザが指定する（図７Ａの（ａ））。この指定に応答して、コメント情報生成装置１００にポップアップ画面が重畳表示される（図７Ａの（ｂ））。ユーザは、ポップアップ画面内にコメントを入力することにより、コメントの投稿を行う。ここで、画面上の座標の指定は、例えば、ＰＣにおいて、ユーザがコメントを付与したい座標にマウスポインタが合わせた状態で、マウスをクリックすることや、タッチパネル式ディスプレイの画面を直接タッチすることにより行われる。なお、前記のように位置推定部を別途有する場合は、ユーザが位置を指定する必要がないため、必ずしもコメント入力時に動画像を一時停止状態にせずとも使いやすさ上は問題が生じない。

あるいは、コメントの投稿は音声入力によるとしてもよい。この場合、音声解析部を備え、音声解析部は入力された音声を、コメント文に変換するという構成にしてもよい。ただし、通常、入力される音声は話し言葉であり、書き言葉とは厳密には異なるものである。そのため、音声解析部は入力された音声を、書き言葉としてコメント文に変換する、とするのが望ましい。音声によって入力される話し言葉を、書き言葉に変換する方法はたとえば特許文献６に開示されている。入力された話し言葉データを形態素解析し、話し言葉と、書き言葉を対応付けたテーブルを用いて書き言葉の候補を得、さらに、書き言葉データベース中で出現しやすい語順や言葉を選択する、という枠組みで、書き言葉への変換を行っている。以上の仕組みによれば、話し言葉特有の表現や、同音異義語なども適切に書き言葉としてコメント文に変換できる。

図５を参照して、オブジェクト動き生成ステップＳ３０３がオブジェクト動き生成部１０３により実行される。

目標時間決定部１０６が、コメント入力受付ステップＳ３０２で受付けられた入力コメント情報１１１に基づき目標時間決定ステップＳ３０６を実行し、目標時間を決定する。続いて、目標時間決定部１０６が決定した目標時間、動画取得ステップＳ３０１で取得された動画像１１０、およびコメント入力受付ステップＳ３０２で受付けられた入力コメント情報１１１に基づき、オブジェクト動き決定部１０７が、オブジェクト動き決定ステップＳ３０７を実行し、追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡を決定する。以上の処理について、以下で詳しく説明する。

目標時間決定部１０６は、入力されたコメントを、コメントを入力したユーザまたは他のユーザが視認するために必要な時間である目標時間を決定する。

例えば映画等の字幕に関しては、英文の場合「１秒間に１２文字を表示する」というガイドラインが存在する。また、単語単位で目標時間を求めてもよい。例えば、文章を読むスピードとしてＷＰＭ（Ｗｏｒｄｓｐｅｒｍｉｎｕｔｅ：１分に読める単語数）という単位が用いられることがある。成人アメリカ人が通常、雑誌、新聞または本を読むスピードが２５０〜３００ＷＰＭと言われていることから、この基準を目標時間算出の際に適用することができる。

例えば、読みやすさのために、目標を少し遅めの２００ＷＰＭ等と設定すると、入力コメント文中のスペースを検出することで、単語数Ｗを求めることができる。このため、目標時間Ｎｗ＝Ｗ＊６０／２００のように、計算により目標時間Ｎｗ（秒）を求めることができる。

なお、人が視覚的な認識を行なうには、約０．５秒ほどかかるといわれている。この時間を視覚認識時間という。視覚認識時間を加味し、目標時間は、予め定めた長さ（例えば０．５秒）以上になるように求めることが望ましい。

また、既に別のコメントが表示されているフレームに、ユーザがコメントを入力する場合、表示されている過去のコメント文字情報と、新たにユーザが入力するコメント文字情報との両方が視認可能な時間となるよう、新たに入力したコメントの目標時間を長めに算出しても良い。新たなコメントの文字数または単語数に、所定の文字数または単語数を加算したうえで目標時間を算出するとしても良い。このようにすることで、コメントつき動画を閲覧するユーザにとって、より確実に、同時に表示されるコメント文を視認できるようになる。

また、ユーザがコメントを付与しようとしているフレーム上に、既に同じ文字列よりなるコメントが付与されている場合は、コメント内容の重複による冗長さが不快感を与える可能性もある。そこで、同じフレーム上に存在する同一内容のコメントの数が多いほど、新たに追加される同一内容のコメントについては、目標時間を短く、ないしゼロとしてもよい。目標時間を短くするには、例えば、文字数から求めた目標時間を、同一コメントの数で割った値に変更する、等により実現できる。また、同一のコメントが同一フレームに付与されていなくても、同一の動画像中に複数回登場するコメントについては、同様に目標時間を短く、ないしゼロとしてもよい。

なお、本開示では目標時間決定部１０６は、入力されたコメント文字数から目標時間を都度推定するとしていたが、目標時間決定部１０６の動作はこれに限られない。たとえば、別途あらかじめコメントの文字数と目標時間との関係を求めておき、これをデータベースないしテーブルとして、コメント情報生成装置内部または外部に備えた記憶装置に保存しておく。目標時間決定部１０６は、コメント入力を受け付けた際に、コメント文字数から目標時間を推定する代わりに、有線または無線を介して前記データベースないしテーブルを参照し、目標時間を得るとしてもよい。あらかじめ目標時間の推定を行っておくことで、コメントが入力された際により高速に目標時間決定処理を行うことができる。

なお、オブジェクト動き生成部１０３、出力コメント情報生成部１０４及び出力部１０５は、コメント付き動画を視聴する各端末側に設けられているとしてもよい。

昨今、異なる言語間での自動翻訳機能が当たり前となってきている。したがって、もともと動画に付与されたコメントの言語とは異なる言語に翻訳されたコメントがついた、コメント付き動画を視聴することも可能であるといえる。その場合、どの言語に翻訳されるのがよいかは、視聴側の端末ごとに選択されることが望ましい。すなわち、最も単純には、視聴側の端末が、端末の有する言語情報に基づいてコメントを別の言語に翻訳し、翻訳されたコメントに対して、オブジェクト動き生成部１０３、出力コメント情報生成部１０４及び出力部１０５の処理が行われるとしてもよい。

または、特定の言語圏に、コメントつき動画像を翻訳配信するサーバに、オブジェクト動き生成部１０３、出力コメント情報生成部１０４及び出力部１０５が設けられ、同様の処理を行うとしてもよい。

続いて、オブジェクト動き決定部１０７は、目標時間決定部１０６が決定した目標時間、入力コメント情報、および動画像１１０に基づいて、追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡を決定する。

具体的には、オブジェクト動き決定部１０７は、動画取得部１０１から複数のピクチャを入力し、ピクチャ間の対応点を検出して、移動軌跡を生成して出力する。以下、動画像１１０を構成する時間的に隣接する２枚のピクチャ間での画素または、画素を含むブロックの動きを検出し、検出した動きを前記複数枚のピクチャについて連結した一連の時間軸に沿った座標値を、移動軌跡と称する。

図８Ａに示すように、オブジェクト動き決定部１０７は、時刻ｔにおける入力ピクチャ５０１の画素ｉ５０３ａ、画素ｊ５０３ｂに基づき、前記算出された２枚のピクチャ間の動きベクトル情報５０２を用いて、画素ｉ５０３ａ、画素ｊ５０３ｂの動きを追跡し、画素ｉ５０３ａ、画素ｊ５０３ｂの対応点を求める。この時、オブジェクト動き決定部１０７は、１フレームのピクチャ上のある画素ｉの座標値（ｘ_１ ^ｉ，ｙ_１ ^ｉ）と、時刻ｔにおける画素ｉの対応点の画素座標値（ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉ）とから、式１のように移動軌跡ｘ^ｉを算出する。

本実施の形態において、移動軌跡ｘ^ｉは、１フレームからＴフレームまでのＴ枚のピクチャ間にわたる対応点であるものとする。

図８Ｂは、移動軌跡の例を示す。オブジェクト動き決定部１０７に入力された動画像１１０は、Ｔ枚のピクチャ５０４で構成されている。このとき移動軌跡ｘ^ｉ５０６ａ、ｘ^ｊ５０６ｂは、１フレームのある画素ｉ５０５ａ、画素ｊ５０５ｂにそれぞれ対応する、２フレームからＴフレームのピクチャ上の対応点の集まりである。移動軌跡ｘ^ｉ５０６ａ、ｘ^ｊ５０６ｂは、各ピクチャのピクチャ座標値を要素とするベクトルで表される。ここでは１フレームのピクチャ上における全ての画素（Ｉ個）を基準として、２フレームからＴフレームまでの（Ｔ−１）枚のピクチャ上の対応する画素を求めている。

なお、オブジェクト動き決定部１０７においてピクチャ間の対応点を求める際、ピクチャの全ての画素ごとに対応点を求める代わりに、ピクチャ内の隣接する複数の画素（ブロック）ごとに対応点を求めるものとしてもよい。本実施の形態では、画素単位の処理について説明するが、複数の画素からなるブロック（領域）単位で処理をする場合には、（ｉ）ブロック内で画素値を合計したり、（ｉｉ）ブロック内の画素値の平均を求めたり、（ｉｉｉ）ブロック内の画素値の中央値を求めたりすることで、ブロックに対応するデータ（代表値）を求め、得られた代表値を用いて画素単位の処理と同様に処理すればよい。本実施の形態において、ある対応点が１画素ごとに求められたものか、または複数の画素に対して１つの対応点が求められたかを区別しない。また、あるピクチャの画素ｉに対応する他のピクチャの対応点、および、あるピクチャのブロックｉに対応する他のピクチャの対応点を、いずれも画素ｉの移動軌跡と呼び、本実施の形態では、以上で説明したような動き推定の手順で求めた移動軌跡を、オブジェクト追従コメントの動きの基本とする。また、ピクチャ間の対応点を求める際、必ずしもフレームが連続している必要はなく、例えば、時刻ｔと時刻ｔ＋ｎに入力された２枚のピクチャから移動軌跡を求めてもよい。ただし、ｎは１以上の整数である。

上記した複数のピクチャ間の対応点を算出する具体的な手法としては、非特許文献１または非特許文献２などに開示されている方法を用いてもよい。ともに、オプティカルフローを計算することにより動きベクトルを算出する手法であり、非特許文献１では階層的なブロックマッチングをベースに、オプティカルフローを算出する。画素間の滑らかさを拘束条件とするため、隣り合うオプティカルフロー間で動きベクトルが滑らかに変化するようなオプティカルフローが得られる。特に急峻な動きまたは遮蔽がない場合に効率的かつ正確な対応点が求められる。また、推定の信頼度を計算できるため、後述するように、信頼度がある閾値より低い対応点を以降の処理より除くことで、全動きベクトルに対する誤った動きベクトルの割合を低減できる。

これに対して、非特許文献２は、グラフカットベースのオプティカルフロー算出手法を開示している。この手法は、計算コストは高いが、正確な対応点がピクチャ上で密に求まる。また、この手法では、双方向の探索を行ない、互いの相関が閾値より低い対応点は遮蔽領域の画素であると推定する。このため、遮蔽領域に位置する対応点を以降の処理より除くことができる。全動きベクトルに対する誤った動きベクトルの割合を低減できる。

この際、すべての画素について動き情報を求めてもよい。また、より高速に処理を行いたい場合には、ピクチャをグリッドに区切って一定間隔のグリッド上の画素についてのみ動き情報を求めてもよいし、上述したように、ピクチャをブロックに区切ってブロックごとに動き情報を求めてもよい。

この場合、前記ブロックの並進移動を仮定して動きベクトルを算出する方法を用いることができる。特に回転運動をする物体に対しては、並進移動を仮定するよりも、非特許文献３に開示されているアフィン変形を仮定した手法を用いることで、より高精度に画素動きを推定できる。

なお、非特許文献１の開示技術を用いて動きベクトルを算出する場合は、信頼度を計算することができる。このため、信頼度の高い動き情報を持つ画素のみを用いてもよい。また、非特許文献２の開示技術を用いて動きベクトルを算出する場合は、遮蔽を推定することができるため、遮蔽されていない画素の動き情報のみを用いてもよい。

ここで、一般的に、オブジェクト追従コメントを生成するために用いることのできる動き推定手法は、時系列画像間で同じオブジェクト領域を判別するための何らかのモデルを前提とした処理になっている。例えば、この処理は、同一オブジェクト領域間の輝度差は０、といった仮定などを含む。さらに実際の動画像１１０には、計測ノイズやモデルとの誤差が含まれるため、「最もモデルを満たす」領域同士を同じオブジェクトと判定し、その同一オブジェクト間の時間的な位置変化から動きを算出する。

一方、実際には動画像１１０中にオブジェクトが映らなくなる場合などが存在し、こういったケースは、動き推定が本来的に不可能なケースに属する。この場合、もし前記の基準によって「最もモデルを満たす」領域同士を求めたとしても、領域間の動きは実際にはないため、誤った動きが求まっていることになる。しかし、コメント入力受付部１０２によって受け付けられた入力コメント情報１１１が含む、任意のコメント時刻における任意のコメント座標が、それぞれ動き推定可能なケースであるか不可能なケースであるかを示す情報を得るためには、動画像１１０の全てのフレームの全ての画素について事前に手動で情報を与え（人が動きを確認し、動き推定可能かどうかを判定し）、それらの情報をサーバなどに保管しておく必要がある。しかし、大量のフレームおよび画素を有する動画像１１０に、手動で情報を与えることは現実的ではない。したがって、オブジェクト動き決定部１０７は、動き推定を行うにあたり、コメント入力受付部１０２によって受け付けられた入力コメント情報１１１が含む、あるコメント時刻におけるコメント座標のそれぞれについて、動き推定が可能なケースかどうかを判定する。判定基準としては、前述の動きを推定する「モデルが一定以上満たされている」という基準に対して別の閾値を設定する。すなわち、「モデルが一定以上満たされていない」基準を別途設定するのが一般的である。

したがって、オブジェクト動き決定部１０７は、動き推定で用いるモデルを「一定以上満たすかどうか」という第一の判定基準により、動き推定が可能なケースかどうかを判定する。さらに、オブジェクト動き決定部１０７は、動き推定が可能なケースであった場合に、「最もモデルを満たすかどうか」という第二の判定基準を互いに満たす領域同士を同じオブジェクトと判定し、それらの同一オブジェクト間の時間的な位置変化から、動きを算出するものとする。

一方で、上記のような仕組みをもつ動き推定手法には、一種のトレードオフが存在する。

動き推定が可能なケースかどうかを判定する基準を、より厳しく設定すると、モデルとの誤差が比較的小さくても、「動き推定が不可能」な状態を検出できるようになる。このように動き推定が可能なケースかどうかの判定基準を設定する、つまり、誤差許容度を小さくすると、より多くの「動き推定不可能」なケースを正しく検出できる。その一方で、実際には「動き推定が可能」で、例えば、計測ノイズ、またはモデルと実画像との間に生じる誤差等が影響しているケースに対しても、動き推定は不可能な状態として誤判定される。このため、本来中断されるべきでない動き推定の処理が中断され、得られる移動軌跡が短くなってしまう可能性がある。つまり、追従しやすさとしては低下する。

逆に、追従しやすさを上げるためには、計測ノイズ、またはモデルと実画像との間に生じる誤差が比較的大きい場合であっても、動き推定が可能とする必要がある。このように、ノイズまたはモデル誤差を過度に許容する基準を採用する、つまり、誤差許容度を大きくすると、先ほどとは逆に、動画像１１０中のオブジェクトがフレームアウト等で映らなくなり、実際には動き推定が不可能となってしまった場合であっても、本来中断されるべき動き推定の処理が続行される。このため、誤った動き推定結果を含む（ノイズまたはモデル誤差に非ロバストな）移動軌跡が生成される可能性がある。

以上のように、動き推定処理において、ノイズまたはモデル誤差に対してロバストな動き推定を実現することと、遮蔽やシーンチェンジによって生じる「動き推定が不可能なケース」を正確に判定することの間には、図９Ａおよび図９Ｂに示すようなトレードオフの関係が存在する。

図９Ａおよび図９Ｂにおいて、実線の矢印は、上記一般的な動き推定手法によって推定された移動軌跡を示し、点線の矢印は、実際の（正解の）移動軌跡を示す。図９Ａのように、誤差許容度パラメータを低く設定すると、「動き推定が不可能なケース」をより正確に判定でき、移動軌跡が含むノイズを抑えられるが、実際の動きよりも、短い移動軌跡となりやすく、コメント追従を行なえる時間が短くなりやすい。一方、図９Ｂのように誤差許容度パラメータを高く設定すると、コメント追従を行なえる時間は長くなり、図９Ａよりも長い移動軌跡が得られるが、正解の動きと異なる動きを含む動き推定結果になる可能性がある。コメントの視認性を上げるためには、図９Ｂのように移動軌跡がより長いほうが望ましいが、オブジェクトに追従したコメントという観点からは、図９Ａのように、より正確な動きの移動軌跡が得られるほうが望ましい。

これらのトレードオフ関係のもと、コメント表示に最も適した時間長と位置精度を備えた移動軌跡を得るためには、コメントの文字列をユーザが視認するのに最低限必要な移動軌跡の時間長を求め、必要な移動軌跡の時間長を最低限に抑えながら、より正確な動きの移動軌跡が得られるようにする必要がある。

すなわち、入力コメント情報１１１が含む、任意のコメント時刻における任意のコメント座標ごとに、目標時間決定部１０６が決定した目標時間を最低限必要な移動軌跡の時間長とし、その時間長に等しい、あるいは最も近い移動軌跡を求めることが望ましい。

したがって、オブジェクト動き決定部１０７は、動き推定の際に、ノイズまたはモデルとの輝度差に対し「モデルを一定以上満たす」判定基準閾値を、あらかじめ複数個用意しておき、それぞれの閾値を用いて複数通りの移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部１０６が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることにより、前述のトレードオフを解決するものとする。

なお、一般的な動き推定におけるトレードオフの関係を調整し、「追従しやすさ」に影響を与えるパラメータは、前述した「モデルを一定以上満たす度合い（誤差許容度）」に限らない。

別の例として、動き推定に利用する窓領域のサイズを挙げることができる。すなわち、窓領域のサイズを大きくすると部分的な輝度変化や変形に対してよりロバストに動き推定が行なえる一方、指定した箇所が遮蔽されたような場合に「動き推定不可能である」ことが検出されにくくなるという、トレードオフがある。このため、窓領域のサイズを移動軌跡の時間長を調整するパラメータとして用いることができる。例えば、オブジェクト動き決定部１０７は、複数のサイズの窓領域をそれぞれ用いて移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部１０６が決定した目標時間に等しい、あるいは最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得ることができる。

さらに別の例として、動き推定に利用する特徴量（画像特徴量）の数を挙げることができる。すなわち、特徴量を多くすると、相対的に一部の特徴量変化にロバストになる。このため、異なる特徴量数の条件下でそれぞれ移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部１０６が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得ることができる。

なお、「窓領域のサイズ」のパラメータとして、非特許文献１における窓領域のサイズ、非特許文献３における、アフィン変形を仮定するブロックのサイズ、などを同様に用いることができる。したがって、これらを調整することが、先に説明した「窓領域サイズ」に基づき移動軌跡の時間長を調節することを意味する。

また、「誤差許容度」のパラメータとして、非特許文献１の信頼度範囲（ｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅｒａｎｇｅｋ３）、非特許文献２の遮蔽重み値（ｏｃｃｌｕｓｉｏｎｐｅｎａｌｔｙ）、または非特許文献３のテクスチャなどの特徴量類似度（ｆｅａｔｕｒｅｄｉｓｓｉｍｉｌａｒｉｔｙ）などを同様に用いることができる。信頼度範囲は、値を０とすれば、より長い移動軌跡が得られやすくなる。特徴量類似度は、値を大きくすれば、より長い移動軌跡が得られやすくなる。したがって、これらを調整することが、先に説明した「誤差許容度」に基づき移動軌跡の時間長を調節することを意味する。

また、「特徴量の数」のパラメータとして、非特許文献３における、推定に利用する特徴点数、などを同様に用いることができる。これらを調整することで、「特徴量の数」に基づく移動軌跡の時間長の調節を実現できる。もちろん、ここで挙げた例以外のパラメータを用いてもよい。非特許文献２における探索範囲（画素動きを仮定する範囲）などを用いても、移動軌跡の時間長を調節することができる。探索範囲は、前述した他の動きパラメータと同様に、移動軌跡の時間長と動き推定精度（移動軌跡の推定精度）とのトレードオフに関係しており、探索範囲を広げればより長い移動軌跡が得られる一方、正解の動きと異なる動きを含む動き推定結果になる可能性がある。なお、これまでに述べた動き検出手法以外の既知の動き検出手法においても、同様に移動軌跡の時間長と動き推定精度に関係するパラメータが存在し、同様に用いることができる。

モデル誤差の閾値、窓領域のサイズ、または特徴量の数といったパラメータは、前述のように、一つだけを用いて移動軌跡の時間長を調節してもよいし、複数を組み合わせて移動軌跡の時間長を調節してもよい。例えば、最も単純な例では、モデル誤差の閾値、窓領域のサイズ、特徴量の数の各パラメータについて２通りずつ予め設定しておき、全８通りの組合せで得られた結果のうち、目標時間決定部１０６が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とするとしてもよい。

また、追従対象の動きが人のように複雑で特定のモデルを仮定することが難しいような場合には、複数の動き検出手法を用いて移動軌跡を算出し、複数の手法から算出した複数の結果のうち、目標時間決定部１０６が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とするとしてもよい。これにより、様々な動きに対して、よりロバストに目標時間に近い移動軌跡が得られる。

なお、ここまでは、本質的に動き推定が可能なケースについて、所望のコメント表示時間である目標時間に基づき移動軌跡を求める手法について述べた。

しかし、特に、ＴＶ番組映像またはムービーで録画した映像などの一般的な動画像１１０では、シーンチェンジ、他のオブジェクトによる遮蔽、自己遮蔽、またはオブジェクトもしくはカメラの移動により、指定画素または指定領域の撮影範囲外への移動、などが起こりやすい。指定画素または指定領域が、動画像中に映らなくなるような場合には、目標時間に満たないある時点で、以降の動き推定が不可能になってしまうようなケースが数多く発生する。このような場合、パラメータを調整しても、短い移動軌跡しか得られない、もしくは、得られた移動軌跡の推定精度が著しく低下する。ユーザにとって見やすいオブジェクト追従コメントを生成するためには、先にも述べた「動き推定不可能」なケースを正しく判定し、「動き推定不可能」な状態が生じた要因に応じた処理をそれぞれ導入することが望ましい。

すなわち、オブジェクト動き決定部１０７は、目標時間に最も近い時間長の移動軌跡であっても、目標時間に対して時間長が（一定値以上）短い場合に、「動き推定不可能」な状態が生じた要因のうち、「遮蔽」および「シーンチェンジ」のどちらが生じたかを判定し、判定結果に応じて処理を切り替える。

遮蔽が生じたかシーンチェンジが生じたかは、例えば、画像全体の輝度ヒストグラムの時間変化などから判定することができる。すなわち、輝度ヒストグラムが、フレーム間で大きく変化している場合（例えば、輝度ヒストグラムの変化量が所定の閾値以上の場合）には、シーンチェンジが生じたと判定することができるし、それ以外の場合は遮蔽が生じたと判定することができる。あるいは、メタデータとしてシーンチェンジの時間情報が動画像１１０に付随している場合、それを利用してシーンチェンジが生じたか否かを判定することも可能である。

図１０Ａを用いて、「遮蔽」と判定された場合にオブジェクト動き決定部１０７が行なう処理について説明する。遮蔽によって動き推定が中断されるケースではオブジェクトは見えなくなるが、遮蔽物の背後をそれまでと同様な動きでオブジェクトが動く可能性、つまり動画像の画面中にオブジェクトがまだ存在する可能性が高い。したがって、オブジェクト動き決定部１０７は、オブジェクトが動いていそうな領域を推定し、例えば、求められているオブジェクトの動きを補外することなどにより、移動軌跡を伸長し、コメント追従軌跡を生成する。補外には、線形補間などを用いることができる。

図１０Ｂを用いて、「シーンチェンジ」と判定された場合に、オブジェクト動き決定部１０７が行なう処理について説明する。シーンチェンジの場合、追従対象オブジェクトはカメラの外にいるか、カメラの画面内に存在していても、それまでと別の場所に映っている可能性が高い。したがって、「遮蔽」と判断された場合と同じように、動きを伸長してしまうと、逆にユーザにとって違和感を与えるようなコメント追従軌跡を生成してしまう可能性が高い。したがって、「シーンチェンジ」と判定された場合は、移動軌跡は伸長しない。すなわち、例外的に、オブジェクト動き決定部１０７で算出する移動軌跡の時間長は、目標時間に対して短くてもよいものとし、移動軌跡はシーンチェンジが起こったフレームまでとする。なお、同様に、オブジェクトが画像端まで移動したために、動き推定不可能な状態となった場合も、「シーンチェンジ」に含める。すなわち、当該フレーム以降の動きは伸長せず、当該フレームまでの移動軌跡を出力する。

なお、「遮蔽」と判定された場合に、オブジェクト動き推決定部１０７は、以下に示す手順により移動軌跡を伸長しても良い。対応点の情報は、２フレーム間で定義されている。このため、移動軌跡は時間軸をさかのぼって生成することも可能である。つまり、図１１Ａに示すように、線形補間の代わりに、コメント開始時刻から遡って移動軌跡を伸長できる場合には、オブジェクト動き決定部１０７は、コメント開始時刻を前倒しすることにより目標時間分の移動軌跡を算出しても良い。オブジェクトがより見えている時間帯の方向に長い移動軌跡が得られるため、ユーザにとって違和感のないコメント表示を実現するコメント追従座標を得ることができる。

また、「遮蔽」と判定された場合に、オブジェクト動き推決定部１０７は、以下に示す手順により移動軌跡を伸長しても良い。つまり、画像上の距離が近接した領域の画素は、類似した動きをすると一般的に仮定できる。そこで、オブジェクト動き決定部１０７は、図１１Ｂに示すように、コメント入力受付部１０２によって受け付けられた入力コメント情報１１１が含む、あるコメント時刻におけるコメント座標から、予め定められた画素範囲Ｒ内に存在する座標の画素についても同様に複数の移動軌跡を求める。オブジェクト動き決定部１０７は、これらの複数の移動軌跡から、最も目標時間に近い時間長の移動軌跡を選択し、選択した移動軌跡の動きを、指定画素の動きとして算出してもよい。周辺の情報を用いることにより、よりノイズなどに対しロバストなコメント追従座標を得ることができる。

別の例として、コメント入力受付部１０２が受け付けるコメント座標１１２は、図１２Ａのように、領域として指定されてもよい。この場合、受け付けられた入力コメント情報１１１が含む、あるコメント時刻における、指定領域に対応する複数のコメント座標１１２を、予め定められた画素範囲Ｒの代わりに用いることができる。

さらに別の例として、オブジェクト動き決定部１０７は、領域分割部を備え、領域分割部がピクチャの領域分割を行う。オブジェクト動き決定部１０７は、領域分割部により分割された領域のうち、図１２Ｂに示すように、入力コメント情報１１１が含む、あるコメント時刻におけるコメント座標が含まれる領域を、予め定められた画素範囲Ｒの代わりに用いてもよい。

例えば、領域分割部は、各移動軌跡が属する画素またはブロックの色類似度に基づいて、ピクチャを複数の領域に分割する。また、画素の色類似度をもとに、いわゆる”ｓｕｐｅｒｐｉｘｅｌ”と呼ばれる複数の領域にピクチャを分割する方法を用いてもよい。ｓｕｐｅｒｐｉｘｅｌを算出する方法については、グラフベースの手法などを用いることができる。処理手順の詳細説明は非特許文献４等に記載されているため省略する。この手法は、ピクチャのグラフ表現に基づいて各領域間の境界を推定することで、効率的かつグローバルな特徴を保持しながらピクチャを小領域に分割するものであり、遮蔽に強いため、よりロバストな分割ができる。

特に移動体の色と背景の色が異なるようなシーンにおいては、各領域が移動体のみ、または背景のみで構成される可能性が高くなる（色が異なると、別のサブクラスに分離される確率が高まる）ため、ピクチャを、類似した動きをする領域に、より正しく分割することができる。

また、動きに基づく領域分割方法を適用してもよい。具体的には、特許文献７のような手法を用いてもよい。上記のようにすることで、移動体と背景の色が類似する場合であっても、類似した動きをする被写体領域ごとに、より正しくピクチャを分割できる。

さらに別の例として、オブジェクト動き決定部１０７は、領域分割部を備え、複数の移動軌跡を求める代わりに、図１３Ａおよび図１３Ｂに示すように領域分割結果を複数用意し、それぞれの領域の動きおよび追従時間長を、領域に含まれる移動軌跡の平均および移動軌跡の最小時間長として求める。オブジェクト動き決定部１０７は、そのうち、ユーザが指定した領域を分割した領域のうち、追従時間長が最も目標時間に近い領域を選択し、その領域の動きを指定画素の動きとして算出してもよい。一般的に、分割粒度と追従時間長にはトレードオフの関係がある。例えば、図１３Ａのような粗い領域分割の場合に、指定した領域の追従時間長が目標時間よりも短かったとしても、図１３Ｂのように、細かい領域分割をすることで、追従時間長を目標時間に近づけることができる。図１３Ｂのように、頭部の領域は追従時間長が短くなるが、ユーザが指定した体の領域では、より長く追従できる等の結果となることがある。この場合は、図１３Ｂの結果を用いる。１点の画素だけでなく、周辺画素の情報も用いるため、よりノイズ等に対してロバストなオブジェクト追従コメント座標を得ることができる。領域分割方法としては、前述のような、色類似度に基づく手法や、動きに基づく手法を用いることができる。

なお、図１３Ａおよび図１３Ｂのように、ユーザが指定した位置が分割領域の端のほうであった場合などでも、ユーザの意図した位置に合ったコメントを出すためには、最も簡易には、分割領域の重心座標位置を各フレームで求める。また、指示開始フレームにおけるユーザ指示座標位置の、分割領域の重心座標位置からの相対的な位置を保持しておいて、それにより常に追従結果を補正するとよい。なお、分割領域のサイズが変化した場合には、追従結果補正後の座標が、実際の分割領域上から外れてしまう可能性が高まる。したがって、そのような場合は、分割領域の外縁を矩形で囲む等により求めた分割矩形領域の中で重心を求めておき、矩形領域のサイズ変動、または矩形領域中の移動軌跡数の変動に基づいて、ユーザ指示座標位置と分割領域の重心座標位置との間の位置関係を補正し、補正した位置関係を用いて、追従結果を補正するとよい。なお、各フレームで分割領域の重心座標位置を求める代わりに、指示開始フレームで分割領域の重心座標位置を求めておき、指示開始フレームにおける分割領域の重心座標位置より移動軌跡を算出した結果を用いて、同様に相対的な位置に基づき、ユーザ指示位置からの移動軌跡を決定してもよい。

なお、本開示ではオブジェクト動き決定部１０７はオブジェクトの動きを動画像から推定するとしていたが、オブジェクト動き決定部１０７の動作はこれに限られない。たとえば、別途あらかじめ動画像から複数のパラメータを用いて、フレーム間の動きを推定しておき、データベースないしテーブルとして、コメント情報生成装置内部または外部に備えた記憶装置に保存しておく。オブジェクト動き決定部１０７は、コメント入力を受け付けた際には、動画像から動きを推定する代わりに、有線または無線を介して前記データベースないしテーブルを参照し、移動軌跡を得るとしてもよい。図１４はデータベースの一例を示す図である。データベースは、時間長ごとに移動軌跡の情報を含んでいる。あらかじめ動き推定を行っておくことで、コメントが入力された際により高速にオブジェクト動き決定処理を行うことができる。

なお、図１５に示すように、オブジェクト動き生成部１０３は、さらに目標時間補正部１０８を備え、目標時間補正部１０８は、オブジェクト動き決定部１０７が算出した移動軌跡に基づいて、目標時間決定部１０６が決定した目標時間を補正するとしてもよい。

例えば、全く同じコメント文を有するコメントであっても、速く移動するオブジェクトに追従して表示されるコメントは、よりゆっくり移動するオブジェクトや静止したオブジェクトに追従して表示されるコメントに比べて、コメント文が読みづらくなり、読み終わるのに時間がかかってしまう。したがって、オブジェクトの速度に応じて目標時間を補正することがより望ましい。すなわち、同じ時間でより長い距離を移動するオブジェクトに付与されたコメントについては、より目標時間が長くなるよう目標時間を補正するものとする。

具体的には、目標時間補正部１０８は、オブジェクト動き決定部１０７が決定した移動軌跡を受け取り、オブジェクトの速さ（単位時間あたりの移動距離）を算出する。オブジェクトの速さは、最も単純には、各フレームごとの動きベクトルの長さを平均した値などで表せばよい。

算出したオブジェクトの速さがゼロであった場合は、オブジェクトは静止しているため目標時間は補正しなくともよい。

それ以外の場合、オブジェクトの速さに基づき、目標時間が長くなるよう補正することが望ましい。たとえば、オブジェクトの速さとして可能性がある最大値について目標時間を２倍にするとし、速さがゼロの場合の目標時間から、算出されたオブジェクトの速さに相当する目標時間を線形に求めるものとしてもよい。画像のサイズによっては２倍以外の値を採用してもよい。また、オブジェクトの速さとして可能性がある最大値としては、たとえば、１フレームで画像の対角線上を端から端に移動した場合の動きベクトルの長さを用いてもよい。事前にシーンの種類がわかっている場合には、シーンの種類に応じて、たとえば、１フレームで画像の中心から角に移動した場合の動きベクトルの長さを用いる等としてもよい。

また、人の視野角に基づいて基準を設定してもよい。人が画面上のある部分を注視しているときに、明確に視認している領域（中心視）は、視野角にしておよそ２度程度と言われている。そこで、オブジェクトの速さとして、前記視野角に相当する速度までは中心視の領域を外れないため、オブジェクト静止時と相違ない速さでコメントを読めるものとすると、前記オブジェクトの速さは前記中心視の視野角、および視聴時の画面とユーザの目との距離、及び視聴時のディスプレイサイズおよび解像度から容易に求めることができる。

たとえば視聴時の画面とユーザの目との距離を、おおよそ４０ｃｍ等と仮定し、視聴時のディスプレイサイズおよび解像度を９．７インチ（１９．７１ｃｍ×１４．７８ｃｍ）、２０４８×１５３６ピクセルと仮定すると、前記オブジェクトの速度は約１４５ピクセルとなる。したがって、オブジェクトの速さが１４５ピクセルを超えた場合について、目標時間をより長くする、としてもよい。たとえば、疑似的にオブジェクトの速さが前記中心視の視野角に相当する画素数になるよう、目標時間に対して、前記オブジェクトの速さを、中心視に対応するオブジェクトの速さ（前記の例では１４５ピクセル）で割った値をかけて算出した値を、補正された目標時間として求めてもよい。

上記のようにして補正された目標時間をオブジェクト動き決定部１０７は受け取り、前記補正された目標時間に基づき、再度オブジェクト動き決定部１０７は、先に述べたような方法で移動軌跡を算出する。このようにすることで、動きが速い被写体に付与されたコメントについても、視認性が低下しないような移動軌跡を生成することができる。

なお、上述した目標時間補正部１０８とオブジェクト動き決定部１０７の間での目標時間補正の処理のループは、一度だけ行ってもよいし、より精度を高めるため複数回行ってもよい。

図５を参照して、出力コメント情報生成ステップＳ３０４が出力コメント情報生成部１０４により実行される。出力コメント情報生成部１０４は、オブジェクト動き生成部１０３が生成したオブジェクト動き推定結果と、入力コメント情報１１１より出力コメント情報を生成する。

出力コメント情報は、最低限の情報として、入力コメント情報１１１のうちコメント時刻、コメント対象座標、および文章情報と、オブジェクト動き生成部１０３が生成した、複数フレーム分のオブジェクト追従コメント座標値とを含む。さらに、出力コメント情報は、入力コメント情報１１１が、コメントの色、コメントの表示（フキダシ）形状、コメントの文字列のフォント等を含む場合には、それらの情報を、出力コメント情報に含んでもよい。これにより、よりユーザの意向を反映した表示が可能な出力コメント情報を生成できる。

最後に、出力ステップＳ３０５が出力部１０５により実行される。出力部１０５は、出力コメント情報生成部１０４が生成した出力コメント情報を、記憶装置１２０へ有線または無線の通信経路を通じて出力する。より具体的には、出力部１０５は、出力コメント情報が含む、投稿されたコメント文字列、およびそのコメントを追従して表示させるオブジェクトの位置情報を、コメント蓄積配信サーバに備えられたコメントデータベースに記憶させる。

コメント情報生成装置１００は、連続して入力される入力コメント情報１１１に対して処理を行う場合には、上述したステップＳ３０１〜Ｓ３０７の動作を入力コメント情報１１１が入力されるたびに繰り返し行うとしても良い。

なお、コメント情報生成装置１００は、コメントの長さに応じて、異なる移動軌跡を生成するため、同じフレーム、座標位置につけられたコメントであっても、コメントの長さが異なれば、表示装置上でコメント付き動画像を表示した際に、異なる動きをするコメントが表示されるような、移動軌跡を生成することができる。

以上のように、本実施の形態におけるコメント情報生成装置１００は、目標時間決定部１０６が決定した目標時間に等しい、あるいは最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得る。これによって、ユーザがコメントを付与することを意図して指定したオブジェクトを時間的に追跡した結果として、違和感のないオブジェクト追従コメントのための座標を生成することができる。

つまり、コメント情報生成装置１００は、コメントに基づき、コメントを表示すべき目標時間を決定し、移動軌跡の連続する時間が目標時間になるようにオブジェクトの移動軌跡を推定している。推定されたオブジェクトの移動軌跡は、コメントを追従表示させるための移動軌跡として用いることができる。このため、ユーザは、コメント付き動画像表示時に、コメントを表示時間内に読むことができ、そのコメントがどのオブジェクトに対して付与されたものであるかを判断することができる。よって、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。

本発明は、ネットワーク上における動画像を通じたコミュニケーションに際し、ユーザが指定したオブジェクトに追従するコメントの出力コメント情報を生成するコメント情報生成装置に利用できる。例えば、本発明は、ネットワーク接続を通じて動画像の取得または閲覧が可能なタブレットＰＣ、スマートフォン、ＰＣ、ビデオカメラまたはＴＶ等のＡＶ機器に内蔵させるコメント情報生成装置等として利用することができる。

１００コメント情報生成装置
１０１動画取得部
１０２コメント入力受付部
１０３オブジェクト動き生成部
１０４出力コメント情報生成部
１０５出力部
１０６目標時間決定部
１０７オブジェクト動き決定部
１０８目標時間補正部
１１０動画像
１１１入力コメント情報
１１２コメント座標
１２０記憶装置
２００コンピュータ
２０１ａ、２０１ｂ、２０６Ｉ／Ｆ
２０２ＣＰＵ
２０３ＲＯＭ
２０４ＲＡＭ
２０５ＨＤＤ
２１０ａ、２２０記憶装置
２１０ｂ入力装置

Claims

動画像を受け付ける動画取得部と、
前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、
前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、
前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、
前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、
前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部と
を備えるコメント情報生成装置。
前記目標時間決定部は、前記コメント入力受付部が受け付けた前記コメントの長さが長いほど、前記目標時間がより長くなるように、前記目標時間を算出する
請求項１記載のコメント情報生成装置。
前記目標時間決定部は、予め定められた一文字あたりの表示時間である単位表示時間と、前記コメント入力受付部が受け付けた前記コメントの文字数とを掛け合わせた値を、前記目標時間として算出する
請求項２記載のコメント情報生成装置。
前記目標時間決定部は、さらに、予め定められた、文字の視覚認識にかかる視覚認識時間に、算出した前記目標時間が満たない場合は、前記視覚認識時間を前記目標時間として算出する
請求項２記載のコメント情報生成装置。
前記コメント情報生成装置は、前記コメント入力受付部が受け付けた複数の前記コメントが、同一のフレームの同一の位置に付与された複数の前記コメントであっても、互いに文字数が異なる場合には、互いに異なる移動軌跡を生成する
請求項１記載のコメント情報生成装置。
前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより前記オブジェクトの移動軌跡を決定する
請求項１〜５のいずれか１項に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記複数の動き推定パラメータの各々として、（１）オブジェクトの追従のし易さに影響し、互いに値の異なる複数の誤差許容度パラメータの各々、（２）互いにサイズの異なる複数の探索窓領域の各々、又は（３）互いに値が異なる複数の特徴量の各々、のいずれかに基づいて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより、前記オブジェクトの移動軌跡を決定する
請求項６記載のコメント情報生成装置。
前記オブジェクト動き決定部は、さらに、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いても決定できない、「動き推定不可能な状態」が生じた際に、当該状態の原因が遮蔽によるかシーンチェンジによるかを判定し、判定結果に基づいてオブジェクト動き決定方法を切り替える
請求項６又は７に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因が遮蔽によるものと判定した場合に、遮蔽が生じたフレーム以降のフレームにおける前記オブジェクトの移動軌跡を、前記遮蔽が生じたフレームまでの前記オブジェクトの移動軌跡に基づいて補外することにより、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定する
請求項８記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによるものと判定した場合に、シーンチェンジが生じたフレームまでの前記オブジェクトの移動軌跡を、出力する移動軌跡として決定する
請求項８記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記動画像を構成するフレーム間の輝度ヒストグラムの変化量が所定の閾値以上の場合に、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによると判定し、前記輝度ヒストグラムの変化量が前記所定の閾値未満の場合に、前記「動き推定不可能な状態」が生じた原因が遮蔽によると判定する
請求項８記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が前記位置情報および前記コメントの入力を受け付けたフレーム、ならびに前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの位置より、時間軸上で前のフレームへさかのぼって推定した移動軌跡を、前記オブジェクトの移動軌跡の前方につなぐことで、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定する
請求項６〜１１のいずれか１項に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置から一定の距離範囲内の位置を基点としたオブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定する
請求項６〜１１のいずれか１項に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置を含む、ユーザが指定した範囲内の位置を基点とした前記オブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定する
請求項６〜１１のいずれか１項に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記オブジェクトを複数の領域に領域分割し、分割して得られた領域のうち、前記目標時間に最も近い長さの領域の移動軌跡を、前記オブジェクトの移動軌跡として決定する
請求項６〜１１のいずれか１項に記載のコメント情報生成装置。
前記オブジェクト動き決定部は、さらに、前記コメント入力受付部が受け付けた前記位置情報が示すオブジェクトの重心について、目標時間に最も近い長さの移動軌跡を決定し、前記コメント入力受付部が受け付けた前記コメントが付与される位置と前記オブジェクトの重心との相対的な位置関係に基づいて、前記決定された前記オブジェクトの移動軌跡を、あたかもコメントが付与される位置からの移動軌跡であるかのように補正し出力する
請求項１〜１１のいずれか１項に記載のコメント情報生成装置。
さらに、
前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡に基づいて、前記オブジェクトの移動速度が速いほど前記目標時間が長くなるように、前記目標時間を補正する目標時間補正部を備え、
前記オブジェクト動き決定部は、さらに、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間補正部で補正された後の前記目標時間の時間長となるように、前記オブジェクトの移動軌跡を決定しなおす
請求項１〜１６のいずれか１項に記載のコメント情報生成装置。
動画像を入力として受け付ける動画取得ステップと、
前記動画取得ステップにおいて受け付けられた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに追従して表示させるコメントとの入力を受け付けるコメント入力受付ステップと、
前記コメント入力受付ステップにおいて受け付けられた前記コメントに基づいて、前記コメントを表示する時間長の目標値である目標時間を決定する目標時間決定ステップと、
前記位置情報で示される前記オブジェクトに、前記コメントを追従表示させるための前記オブジェクトの移動軌跡が、前記目標時間に十分近い長さとなるよう、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定ステップと、
前記コメントと、前記オブジェクト動き決定ステップにおいて決定された前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成ステップと、
前記出力コメント情報生成ステップにおいて生成された前記出力コメント情報を出力する出力ステップと
を含むコメント情報生成方法。
請求項１８に記載のコメント情報生成方法をコンピュータに実行させるためのプログラム。