JP5659307B2 - コメント情報生成装置およびコメント情報生成方法 - Google Patents

コメント情報生成装置およびコメント情報生成方法 Download PDF

Info

Publication number
JP5659307B2
JP5659307B2 JP2013557995A JP2013557995A JP5659307B2 JP 5659307 B2 JP5659307 B2 JP 5659307B2 JP 2013557995 A JP2013557995 A JP 2013557995A JP 2013557995 A JP2013557995 A JP 2013557995A JP 5659307 B2 JP5659307 B2 JP 5659307B2
Authority
JP
Japan
Prior art keywords
comment
target time
movement trajectory
time
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013557995A
Other languages
English (en)
Other versions
JPWO2014013690A1 (ja
Inventor
亜矢子 丸山
亜矢子 丸山
登 一生
一生 登
浩市 堀田
浩市 堀田
州平 笹倉
州平 笹倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2013557995A priority Critical patent/JP5659307B2/ja
Application granted granted Critical
Publication of JP5659307B2 publication Critical patent/JP5659307B2/ja
Publication of JPWO2014013690A1 publication Critical patent/JPWO2014013690A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/38Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)

Description

本発明は、動画像中のオブジェクトに追従してコメントを重畳表示させるためのコメント情報を生成するコメント情報生成装置およびコメント情報生成方法に関する。
近年、ネットワークの発達や、携帯端末の普及により、ネットワークを介して、遠隔地の相手と、手軽に動画コンテンツや静止画コンテンツを通じたコミュニケーションを楽しむことが日常的に行なわれるようになっている。例えば、既存のコンテンツに対し、コンテンツの時間軸上のとあるタイミングで、ユーザがそれぞれ、文章によって個人の嗜好や考えを書き込めるサービスが存在する。このような、コンテンツを通じたコミュニケーションは、表示デバイスや通信技術の発達とともに、今後ますます増えると考えられる。
このようなコミュニケーションを実現するため、動画像上にユーザが付与したコメントを合成した動画像を生成し、インターネット上で配信する技術が特許文献1に示されている。
特開2008−148071号公報 特開2010−244437号公報 国際公開第2010/116820号 特開2004−128614号公報 特開2009−81592号公報 特開2003−132047号公報 特許第4994525号公報
P.Anandan,"A Computational Framework and an Algorithm for the Measurement of Visual Motion",International Journal of Computer Vision, Vol.2, pp.283−310,1989 Vladimir Kolmogorov and Ramin Zabih, "Computing Visual Correspondence with Occlusions via Graph Cuts", International Conference on Computer Vision,2001 Jianbo Shi and Carlo Tomasi "Good Features to Track", IEEE Conference on Computer Vision and Pattern Recognition,pp593−600,1994 Pedro F. Felzenszwalb and Daniel P. Huttenlocher "Efficient Graph−Based Image Segmentation", International Journal of Computer Vision ,Vol.59,No.2,pp.167−181,Sept,2004
しかしながら、従来のコメント重畳(ないしコメント付き動画像生成)方法によると、コメントは動画像中のオブジェクトとは無関係な位置に表示される。また、コメントの表示時間も固定である。このため、動画像の視聴者は、どのオブジェクトに対して各コメント投稿者が付与したコメントであるのかを理解しにくい。また、非常に長いコメントの場合、前記固定されたコメントの表示時間内にコメントを読み終わることができない。このため、視聴者によるコメントの視認性が低下するという課題がある。
本発明は、上述の課題を解決するためになされたものであり、コメントの視認性を向上させることのできる出力コメント情報を生成するコメント情報生成装置およびコメント情報生成方法を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係るコメント情報生成装置は、動画像を受け付ける動画取得部と、前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部とを備える。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明によると、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。
図1は、実施の形態が対象とするコメント付き動画像配信システムの構成を示す図である。 図2Aは、動画像へのコメント付与の時間的な流れを示す図である。 図2Bは、動画像へのコメント付与および動画像視聴の時間的な流れを示す図である。 図3は、実施の形態におけるコメント情報生成装置の機能的な構成を示すブロック図である。 図4Aは、コンピュータによって構成されたコメント情報生成装置のハードウェア構成を示す図である。 図4Bは、コンピュータによって構成されたコメント情報生成装置のハードウェア構成を示す図である。 図5は、コメント情報生成装置の動作の手順を示すフローチャートである。 図6Aは、動画像の一例を示す図である。 図6Bは、動画像中の被写体領域について示す図である。 図7Aは、動画像上でユーザがコメント入力を行なう手順を説明するための図である。 図7Bは、入力コメント情報のデータ例を示す図である。 図8Aは、オブジェクト動き決定部による移動軌跡の算出方法を説明するための図である。 図8Bは、オブジェクト動き決定部による移動軌跡の算出方法を説明するための図である。 図9Aは、ノイズまたはモデル誤差の許容度を低くした場合の移動軌跡を示す図である。 図9Bは、ノイズまたはモデル誤差の許容度を高くした場合の移動軌跡を示す図である。 図10Aは、遮蔽が起こった場合の、動き推定処理について説明するための図である。 図10Bは、シーンチェンジが起こった場合の、動き推定処理について説明するための図である。 図11Aは、コメント開始時刻を遡ることによる移動軌跡の伸張処理について説明するための図である。 図11Bは、所定の画素範囲内から目標時間を満たす移動軌跡を算出する例について説明するための図である。 図12Aは、ユーザが指定した領域内から目標時間を満たす移動軌跡を算出する例について説明するための図である。 図12Bは、領域分割部により分割された同一領域内から目標時間を満たす移動軌跡を算出する例について説明するための図である。 図13Aは、粗い領域分割を行った場合の領域の移動軌跡の一例を示す図である。 図13Bは、細かい領域分割を行った場合の領域の移動軌跡の一例を示す図である。 図14は、データベースの一例を示す図である。 図15は、目標時間補正部を備えるコメント情報生成装置の機能的な構成を示すブロック図である。
(本発明の基礎となった知見)
本発明者らは、「背景技術」の欄において記載した、従来のコメント重畳方法に関し、以下の問題が生じることを見出した。
特許文献1に記載のシステムは、動画サーバ、およびコメント蓄積配信サーバを備えるシステムであり、各ユーザがネットワークを介して書き込んだコメントは、全てコメント蓄積配信サーバ上に蓄えられ、コメントが書き込まれた動画像上の再生時刻を基準点として動画像に重畳され配信される(以降、このような動画像を「コメント付き動画像」と呼ぶ)。動画像ないしコメント付動画像が配信され再生されるたびにユーザによって新たに書き込まれるコメントは、動画像時間軸上の時刻と対応付けられてコメント蓄積配信サーバ上で管理され、基本的にはコメントの新旧に関わらず、将来の配信では動画像時間軸上の時刻に基づいて配信される。各コメントは、ユーザがコメントの投稿の対象としたオブジェクトとは無関係に、動画像上を流れるように、または動画像上の一定の位置に固定して表示される。
また、特許文献2および3には、インターネットを介さずに動画像に文字情報を付加するムービー機器が開示されている。特許文献2および3は、特に、付加データをフキダシなどで表示し、動画像中のオブジェクトの移動に応じてフキダシを変化させることで、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが容易にわかる手法を提案している。
また、特許文献4には、フキダシを表示するチャットシステムが開示されている。共通背景上の特定位置に合成されたユーザの顔画像に対し、発生するフキダシが、顔画像や他のフキダシを隠さないように表示される。
また、特許文献5には、携帯電話または携帯端末から、映像記録装置に文字情報または絵情報を入力する技術が開示されている。携帯電話または携帯端末は、コメント追従メニューを備え、ユーザが指定した追従枠を動きベクトルを利用して追従させる。
なお、一般的に、人間が一秒間に認識可能な文字数は限られているといわれる。このため、例えば、映画等の字幕に関しては、1秒間あたりの表示文字数や、1分あたりの表示語数(WPM:Words Per Minute)といった自主的なガイドラインが定められて、字幕視聴時の視認性が保たれる工夫がなされている。
以上に述べたように、従来、動画像にコメントを挿入する手法が提案されている。上述したように、特許文献1に開示されている技術を用いたコメント付き動画像配信サイトでは、画面の一端から他端までの一行に表示可能な文字数が限られている。このため、例えば、一律3秒間で画面の一端から他端までコメントがスクロール表示される、という設定がデフォルトとして適用される。その一方、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが分かりづらい。
そこで、本開示では、「オブジェクトに追従して動くコメント」を実現することを目的とする。これにより、ユーザが本当に付加データを与えたかったのは、どのオブジェクトであるかが分かりやすくなり、ユーザの視認性を高め、コミュニケーションを深められると考えられる。ただし、「オブジェクトに追従して動くコメント」を得るには、オブジェクト動き推定により算出される移動軌跡の座標を「追従して動くコメント」の座標として求める必要がある。例えばオブジェクト動き推定が早く失敗すれば、コメント表示時間も短くなるため、コメントが表示されている間にユーザがコメントを読み終わらないといった課題が発生し得る。
逆に、字幕のような、コメントの文字数に応じたコメント表示時間の制御を行なうことも単純には実現できない。
コンテンツ配信者の配信する動画像や個人保有のコンテンツの多くは、シーンに複数のオブジェクトを含む。特に各オブジェクトの動きの大きさや色などが異なる場合、動画像中のオブジェクトの軌跡を算出する処理において、ユーザが選択したオブジェクトや、オブジェクト動き推定処理に用いるパラメータによって、前述したオブジェクト動き推定結果の時間長は異なることが多い。
一般的に、オブジェクト動き推定処理では、時系列の画像間で同一のオブジェクト領域を判別することで動きを求める。例えば、あるフレームでのオブジェクトをモデルとし、最もモデルを満たす(モデルとの輝度差が最も0に近い)別のフレーム上のオブジェクトを同一オブジェクトと判定し、オブジェクト間の位置変化から動きを算出する。
また、動画像中にオブジェクトが映らなくなる場合など、動き推定が不可能な場合(中断すべきケース)も存在する。その中断判定の基準としても、前述のモデルとの輝度差を用いることができる。
このようなモデルとの輝度差に基づく動き推定処理において、ノイズまたはモデルとの輝度差をどれくらい許容するか(すなわち、動き推定の精度)と、オブジェクトの追跡時間との間にトレードオフの関係がある。これらのトレードオフは、画像中に一様に存在するわけではない。例えば、動画像上のあるオブジェクトに対しては、所望の追跡時間よりも早く動き推定が中断する一方、同じ動画像中の別のオブジェクトに対しては動き推定が中断されない、といった状況は数多く起こりえる。つまり、一様な動き推定条件を用いると、ユーザがコメント付与を意図して指定した座標位置および動画像上での時刻によって、追跡が終了するまでの時間と、動き推定の精度が、ばらついてしまうという課題がある。
このような課題を解決するために、本発明の一態様に係るコメント情報生成装置は、動画像を受け付ける動画取得部と、前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部とを備える。
この構成によると、コメントに基づき、コメントを表示すべき目標時間を決定し、移動軌跡の連続する時間が目標時間に近づくようにオブジェクトの移動軌跡を決定している。
なお「目標時間の時間長の移動軌跡となるように」とは、広義には、オブジェクトの動き推定を開始した時点から中断されるまでの移動軌跡の長さが、コメントを表示する際の目標時間に十分近い時間長に相当する長さである状態を指す。狭義には、動き推定を開始した時点から中断されるまでの移動軌跡の長さが、コメントを表示する際の目標時間に相当する長さである状態を指す。以下、「目標時間」を用いる場合、上記「コメントを表示する際の目標時間」のことを指すものとする。どれぐらいの差の時間を「十分近い」と許容できるかは、表示する動画像のフレームレートや、目標時間を決定する際の係数、もしくは利用者によっても異なる可能性がある。このため、事前に実験により決定しておいてもよいし、あらかじめ利用者が選択できるようにしておいてもよい。たとえば、1文字あたりの表示時間に相当する±0.25秒では、違和感がなく「十分近い」と言えるため、この結果を利用してもよい。
決定されたオブジェクトの移動軌跡は、コメントを追従表示させるための移動軌跡として用いることができる。このため、ユーザは、コメント付き動画像表示時に、コメントを表示時間内に読むことができ、そのコメントがどのオブジェクトに対して付与されたものであるかを判断することができる。よって、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。
例えば、前記目標時間決定部は、前記コメント入力受付部が受け付けた前記コメントの長さが長いほど、前記目標時間がより長くなるように、前記目標時間を算出し、前記出力部は、前記コメント入力受付部に、より長いコメントが入力されると、より時間長が長い移動軌跡を出力しても良い。
また、前記目標時間決定部は、予め定められた一文字あたりの表示時間である単位表示時間と、前記コメント入力受付部が受け付けた前記コメントの文字数とを掛け合わせた値を、前記目標時間として算出し、前記出力部は、前記コメント入力受付部に前記コメントが入力されると、前記コメントの文字数と前記単位表示時間とを掛け合わせた長さの移動軌跡を出力しても良い。
また、前記目標時間決定部は、さらに、予め定められた、文字の視覚認識にかかる視覚認識時間に、算出した前記目標時間が満たない場合は、前記視覚認識時間を前記目標時間として算出し、前記出力部は、前記コメント入力受付部に前記コメントが入力されると、前記コメントの文字数と予め定められた一文字あたりの表示時間である単位表示時間とを掛け合わせた長さと、前記視覚認識時間の長さのうち大きい方の長さの移動軌跡を出力し、どれだけ短い前記コメントが入力された場合でも前記視覚認識時間以上の長さの移動軌跡を出力しても良い。
ここで、視覚認識時間とは文字数に関係なく、文字を認識するのに必要な最低限の時間のことである。
また、前記出力部は、前記コメント入力受付部が受け付けた複数の前記コメントが、同一のフレームの同一の位置に付与された複数の前記コメントであっても、互いに文字数が異なる場合には、互いに異なる移動軌跡を出力しても良い。
また、前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより前記オブジェクトの移動軌跡を決定しても良い。
この構成によると、複数の動き推定方法または複数の動き推定パラメータを用いて移動軌跡を算出することにより、目標時間連続する移動軌跡を推定し易くなる。
例えば、前記オブジェクト動き決定部は、前記複数の動き推定パラメータの各々として、(1)オブジェクトの追従のし易さに影響し、互いに値の異なる複数の誤差許容度パラメータの各々、(2)互いにサイズの異なる複数の探索窓領域の各々、又は(3)互いに値が異なる複数の特徴量の各々、のいずれかに基づいて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより、前記オブジェクトの移動軌跡を決定しても良い。
誤差を許容すれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、誤差を許容しなければ移動軌跡は短くなるが動き推定精度は良くなる。また、探索窓領域のサイズを小さくすれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、探索窓領域のサイズを大きくすれば移動軌跡は短くなるが動き推定精度は良くなる。また、特徴量の数を小さくすれば移動軌跡が長くなるが動き推定精度は悪くなる。逆に、特徴量の数を大きくすれば移動軌跡は短くなるが動き推定精度は良くなる。
また、前記オブジェクト動き決定部は、さらに、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いても決定できない、「動き推定不可能な状態」が生じた際に、当該状態の原因が遮蔽によるかシーンチェンジによるかを判定し、判定結果に基づいてオブジェクト動き決定方法を切り替えても良い。
また、前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因が遮蔽によるものと判定した場合に、遮蔽が生じたフレーム以降のフレームにおける前記オブジェクトの移動軌跡を、前記遮蔽が生じたフレームまでの前記オブジェクトの移動軌跡に基づいて補外することにより、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定しても良い。
この構成によると、遮蔽が生じたフレームの移動軌跡を遮蔽が生じなかったフレームの移動軌跡に基づいて補外することができる。
また、前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによるものと判定した場合に、シーンチェンジが生じたフレームまでの前記オブジェクトの移動軌跡を、出力する移動軌跡として決定しても良い。
シーンチェンジが発生した場合には、シーンチェンジを挟んでの、オブジェクトの正確な移動軌跡を求めることは非常に困難であり、シーンチェンジ以降誤った移動軌跡が求まる可能性が高い。したがって、コメントの視認性向上のために、シーンチェンジ以降の移動軌跡は推定しないと決定した方が結果として視認性がよいことがある。
また、前記オブジェクト動き決定部は、前記動画像を構成するフレーム間の輝度ヒストグラムの変化量が所定の閾値以上の場合に、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによると判定し、前記輝度ヒストグラムの変化量が前記所定の閾値未満の場合に、前記「動き推定不可能な状態」が生じた原因が遮蔽によると判定しても良い。
また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が前記位置情報および前記コメントの入力を受け付けたフレーム、ならびに前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの位置より、時間軸上で前のフレームへさかのぼって推定した移動軌跡を、前記オブジェクトの移動軌跡の前方につなぐことで、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定しても良い。
この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間に達しない場合には、領域分割して得られたいずれかの領域を追跡した結果を用いて、目標時間に最も近いオブジェクトの移動軌跡を決定できる。
また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置から一定の距離範囲内の位置を基点としたオブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定しても良い。
また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置を含む、ユーザが指定した範囲内の位置を基点とした前記オブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定しても良い。
この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間より一定時間以上短い場合には、当該移動軌跡の近傍を基点とした、別の移動軌跡を用いてオブジェクトを追跡した結果に基づき、目標時間連続するオブジェクトの移動軌跡を推定することができる。なお、空間的な近傍座標だけでなく、時間方向の近傍に対して同様の処理を行ってもよい。
また、前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記オブジェクトを複数の領域に領域分割し、分割して得られた領域のうち、前記目標時間に最も近い長さの領域の移動軌跡を、前記オブジェクトの移動軌跡として決定しても良い。
この構成によると、位置情報で示されるオブジェクトの移動軌跡が目標時間より一定時間以上短い場合でも、当該移動軌跡の近傍を基点とした、別の移動軌跡を用いることにより、目標時間を満たすオブジェクトの移動軌跡を決定できる。
また、前記オブジェクト動き決定部は、さらに、前記コメント入力受付部が受け付けた前記位置情報が示すオブジェクトの重心について、目標時間に最も近い長さの移動軌跡を決定し、前記コメント入力受付部が受け付けた前記コメントが付与される位置と前記オブジェクトの重心との相対的な位置関係に基づいて、前記決定された前記オブジェクトの移動軌跡を、あたかもコメントが付与される位置からの移動軌跡であるかのように補正し出力しても良い。
この構成によると、例えば、オブジェクトの重心座標と、位置情報で示される、コメントを付与したフレームでの座標との相対的な位置関係を以降も保つように、オブジェクトの移動軌跡を補正することができる。
なお、前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上長い場合には、最も精度が高く、最も短い時間長となった移動軌跡に対して、開始フレームから、目標時間までの範囲の移動軌跡のみを、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定し、目標時間以降のフレームに対応する移動軌跡は廃棄することで、容易に目標時間に最も近い長さの移動軌跡を得ることができる。
また、上述のコメント情報生成装置は、さらに、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡に基づいて、前記オブジェクトの移動速度が速いほど前記目標時間が長くなるように、前記目標時間を補正する目標時間補正部を備え、前記オブジェクト動き決定部は、さらに、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間補正部で補正された後の前記目標時間の時間長となるように、前記オブジェクトの移動軌跡を決定しなおしても良い。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、本発明の一態様に係るコメント情報生成装置について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
図1に、本実施の形態が対象とするコメント付き動画像配信システムの構成を示す。特許文献1と同様に、コメント付き動画像配信システムは、動画サーバ、およびコメント蓄積配信サーバを備えている。各サーバはそれぞれ同じPC(Personal Computer)上で管理されていても良いし、別のPC上で管理されていても良い。
図1に示す互いに異なるユーザA〜Dは、ネットワークを通じて各ユーザの保持する端末(スマートフォン、PCまたはタブレットPC等)に配信された動画像を閲覧する。ここではさらに、ユーザA、ユーザBが、端末に備えつけられたキーボードやソフトウェアキーボード等を通じて、動画像にコメントを付与する例が示されている。コメントはここでは文字情報であり、ユーザによって指定された、動画像中の時間的な位置(すなわち所望の時間ないしフレーム番号)、および空間的な位置(すなわち座標)に対応付けて付与される。なお、以下の説明で動画像と言う場合には、動画像データまたは動画像データが示す動画像を指しうるものとする。
ユーザが付与したコメントは、当該コメントが付与された動画像、当該ユーザのユーザIDや、当該コメントが対応付けられた(動画像中の)時刻および座標、当該コメントが投稿された実際の時刻、等の情報と合わせて、コメント蓄積配信サーバに随時蓄積される。そして、ユーザAおよびユーザBがある動画像にコメントを付与した後に、別のユーザCおよびユーザDが当該動画像を視聴した際には、当該動画像に対応付けられた他のコメントと同様に、ユーザAおよびユーザBのコメントがコメント蓄積配信サーバより配信され、前記コメントに対応付けられた情報(動画中で経過した時間である動画上時刻および座標等)に基づいて動画上にコメントが合成された動画が表示される。
図2Aおよび図2Bで、動画像へのコメント付与の時間的な流れを示す。
まず図2Aに、動画像中の時間の流れと、表示されるコメントとの関係を示す。コメントは映像内時刻(動画像の再生時刻)に対応付けられてサーバに蓄積される。各コメントは、コメントの視認に適した時間長表示されることが望ましい。時間長の算出については詳しくは後述する。
図2Aによれば、ユーザAのコメントは、映像内時刻SA秒〜EA秒の間表示され、ユーザBのコメントは、SB秒〜EB秒(秒の代わりにフレームで求めてもよい)の間表示される。なお、時間の単位として以下では”秒”を用いるが、秒の代わりに”フレーム数”を用いても良い。
また、図2Bには、実際の日時の流れを示す。図2Bに示すように、ユーザAおよびユーザBがコメントを付与(書き込み)した後に、ユーザCまたはユーザDが、コメント付き動画像を視聴するものとすると、ユーザCは、コメント付き動画像のうち、映像内時刻がSB秒〜EA秒の間の動画像を視聴している場合、図2Aに示すような、ユーザAのコメント上にユーザBのコメントが重畳されたコメント付き動画像を見ることができる。一方ユーザDは、映像内時刻がEA秒〜EB秒の間の動画像を視聴しているとする。ユーザDは、図2Aに示すような、ユーザBのコメントのみが付与された動画像を見ることができる。
以上が、本実施の形態が対象とするコメント付き動画像の概念的な説明である。
図3は、実施の形態におけるコメント情報生成装置100の機能的な構成を示すブロック図である。図3に示されるように、コメント情報生成装置100は、動画取得部101と、コメント入力受付部102と、オブジェクト動き生成部103と、出力コメント情報生成部104と、出力部105とを備える。
コメント情報生成装置100は、動画像110およびコメントの内容を示す入力コメント情報111(当該コメントに対応する動画像上の座標値であるコメント座標112を含む)を入力とし、コメント座標112で示される、ユーザが指定した動画像110中の画素または被写体の動きを算出し、出力コメント情報(オブジェクト追従コメント)を生成し、記憶装置120に出力する。
動画取得部101は、動画像、または動画像を構成する複数枚のピクチャ(「画像」とも言う)の入力を受け付ける。動画取得部101は、例えば、動画サーバなどの記憶装置に記憶されている動画像を、直接、または通信経路を介して読み出すインタフェースであっても良い。
コメント入力受付部102は、ユーザにより入力された入力コメント情報111(コメント座標112を含む)を受け付ける。コメント入力受付部102は、例えば、ユーザがマウスのクリックまたはタッチパネルへのタッチ等を行うことにより指定された動画像上の時刻や座標を、直接、または通信経路を介して読み出すインタフェースであっても良い。
オブジェクト動き生成部103は、動画取得部101が受け付けた動画像110およびコメント入力受付部102が受け付けた入力コメント情報111(コメント座標112を含む)に基づき、コメントの文字列の長さや視認性に依存する時間長分のオブジェクト動き推定結果を生成する。
出力コメント情報生成部104は、オブジェクト動き生成部103が生成したオブジェクト動き(追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡)と、入力コメント情報111とから、出力コメント情報を生成する。
出力部105は、出力コメント情報生成部104が生成した出力コメント情報を、有線または無線を介して記憶装置120に出力する。ここで、出力コメント情報は、動画像に対して付与されたコメントの文字情報、コメントを付与した座標、コメント投稿時刻、コメント表示時間などのコメントに関する情報を含む。さらに、出力コメント情報は、コメントを表示する際の、コメントの形状またはサイズを含んでいてもよい。
オブジェクト動き生成部103は、目標時間決定部106と、オブジェクト動き決定部107とを備える。
目標時間決定部106は、コメント入力受付部102が受け付けた入力コメント情報111に基づいて、コメントをオブジェクトに追従させて表示させる目標時間、すなわち入力コメント情報111が含むコメントを表示するのに適切な目標時間を決定する。目標時間は、例えば、コメントの文字数に基づいて決定することができる。
オブジェクト動き決定部107は、動画取得部101が受け付けた動画像110、コメント入力受付部102が受け付けた入力コメント情報111(コメント座標112を含む)および目標時間決定部106で決定した目標時間に基づいて、複数の動き推定方法または複数の動き推定パラメータから、目標時間に十分長さが近く、かつ長さが目標時間よりも大きく、かつ必要以上に推定精度が低下しないようなオブジェクト動きを決定する。オブジェクト動き決定部107は、コメント座標112からのオブジェクトの追従結果の時間長が目標時間よりも大きく、かつ目標時間に十分近くなるような、動き推定方法または動き推定パラメータを選択し、指定したコメント座標112からの画素(オブジェクト)の動き(移動軌跡)を決定する。
なお、コメント情報生成装置100を構成する各構成要素(動画取得部101、コメント入力受付部102、オブジェクト動き生成部103、出力コメント情報生成部104、出力部105)は、コンピュータ上で実行されるプログラム等のソフトウェアで実現されてもよいし、電子回路または集積回路等のハードウェアで実現されてもよい。図4Aおよび図4Bは、コンピュータによって構成された本実施の形態におけるコメント情報生成装置のハードウェア構成を示す図である。
図4Aおよび図4Bにおいて、記憶装置210aは、格納した動画像110をI/F(インタフェース)201aへ出力する。ユーザからの入力を受け付ける入力装置210bは、入力コメント情報111をI/F201bへ出力する。コンピュータ200は、動画像110および入力コメント情報111を取得して、オブジェクト追従コメント生成処理を行い、オブジェクト追従コメントの出力コメント情報を生成する。
記憶装置220は、コンピュータ200で生成された出力コメント情報を取得して格納する。
コンピュータ200は、I/F201aおよび201b、CPU202、ROM203、RAM204、HDD205およびI/F206を含む。コンピュータ200を動作させるプログラムは、ROM203またはHDD205にあらかじめ保持されている。プログラムは、プロセッサであるCPU202によって、ROM203またはHDD205からRAM204に読み出されて展開される。CPU202は、RAM204に展開されたプログラム中のコード化された各命令を実行する。I/F201aおよび201bは、プログラムの実行に応じて、動画像110および入力コメント情報111を、RAM204へそれぞれ取り込む。I/F206は、プログラムの実行により生成されたオブジェクト追従コメントの出力コメント情報を出力し、記憶装置220に格納する。
なお、コンピュータプログラムは、半導体であるROM203またはHDD205に限らず、例えばCD−ROMに格納されていてもよい。また、有線や無線のネットワーク、放送などを介して伝送され、コンピュータのRAM204に取り込まれてもよい。
以下、本実施の形態におけるコメント情報生成装置100の動作を、図5を用いて説明する。図5は、本実施の形態におけるコメント情報生成装置100の動作を表すフローチャートである。
図5において、7つのステップS301〜S307は、それぞれ図3の各処理部101〜107に対応している。すなわち、動画取得部101では動画取得ステップS301、コメント入力受付部102ではコメント入力受付ステップS302、オブジェクト動き生成部103ではオブジェクト動き生成ステップS303、出力コメント情報生成部104では出力コメント情報生成ステップS304、出力部105では出力ステップS305の各動作を実行する。また、オブジェクト動き生成ステップS303は、目標時間決定ステップS306、オブジェクト動き推定ステップS307の2つのステップを含む。目標時間決定部106では目標時間決定ステップS306、オブジェクト動き決定部107ではオブジェクト動き推定ステップS307の各動作を実行する。
最初に、動画取得ステップS301が、動画取得部101により実行される。動画取得部101は、動画像110を取得する。
本実施の形態では、動画取得部101が取得する動画像110として、放送動画、ユーザによって撮影された動画像等の各種動画像、および動画像を構成する複数のピクチャ(画像)を想定している。これらの動画像110は、動画サーバなどに蓄積されており、動画取得部101は、有線や無線のネットワーク、放送などを介して、動画像110を取得する。本実施の形態では、動画像は30フレーム/秒とする。
取得される動画像の例を図6Aに示す。ここでは音楽関連の動画コンテンツの例を示すが、本発明が対象とする動画像はこれに限られない。なお、以降では、説明および図面の簡略化のため、ここで示した動画像例について、図6Bのように、被写体領域を簡略表示した図を用いる。
図5を参照して、コメント入力受付ステップS302がコメント入力受付部102により実行される。コメント入力受付部102は、入力コメント情報111を取得する。ユーザによるコメント入力の例、および取得される入力コメント情報111の例を図7Aおよび図7Bにそれぞれ示す。
入力コメント情報111は図7Bに示すとおり、少なくとも、コメント時刻(time)、コメント対象座標(position)、および入力された文章情報であるコメント文字列(comment)の3つの情報を含む。コメント時刻は、動画像110中の経過時間(再生時刻)を示す情報であり、時間情報の代わりに、フレーム番号など、動画像110中でユーザによってコメントが付与されたタイミングを特定できる情報であれば他の情報であってもよい。コメント対象座標も、画素座標値の代わりに、画面の縦および横の値域が1になるように正規化した座標値など、当該フレームにおけるユーザによってコメントが付与された空間的位置が特定できる情報であれば、他の情報であってもよい。
なお、これらのコメント入力は、コメント情報生成装置100を備えたPCまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれてもよい。または、コメント情報生成装置100を備えていない一般的なPCまたは携帯端末などの機器上のユーザインタフェースを通じて行なわれた操作から、通信回線を介して、コメントおよびコメントを追従して表示させるオブジェクトの位置情報を受け付けることにより、コメント入力が行われてもよい。
なお、入力コメント情報111が含む情報は、コメント時刻(time)、および入力された文章情報であるコメント文字列(comment)の2つの情報のみであって、コメント対象座標(position)を別途備えた位置推定部によって推定する、という構成であってもよい。
あるフレーム上で表示されているコメントは、コメント対象のオブジェクトごとに内容に特徴があると考えられる。つまり、あるフレームにおけるコメント文は、コメントの位置情報と関連があるといえる。したがって、それまでに蓄積されたコメントのうち、そのフレームを通り、かつ類似するコメントの付与位置から、新たに付与するコメントのコメント対象座標を推定することができる。
また、コメントの投稿は、例えば、ユーザが閲覧している端末上での動画像110の再生に際し、ユーザのマウス入力、キー入力またはタッチ入力を端末側で検出した際、自動的に動画像110の再生が一時停止された状態で行われる。または、コメントの投稿は、ユーザの画面上での操作によって動画像110の再生が一時停止された状態で実行される。
例えば、図7Aに示す表示画面において、望ましくは対象となる動画像110の再生が一時停止されている状態で(操作のしやすさのため)、画面上のある座標をユーザが指定する(図7Aの(a))。この指定に応答して、コメント情報生成装置100にポップアップ画面が重畳表示される(図7Aの(b))。ユーザは、ポップアップ画面内にコメントを入力することにより、コメントの投稿を行う。ここで、画面上の座標の指定は、例えば、PCにおいて、ユーザがコメントを付与したい座標にマウスポインタが合わせた状態で、マウスをクリックすることや、タッチパネル式ディスプレイの画面を直接タッチすることにより行われる。なお、前記のように位置推定部を別途有する場合は、ユーザが位置を指定する必要がないため、必ずしもコメント入力時に動画像を一時停止状態にせずとも使いやすさ上は問題が生じない。
あるいは、コメントの投稿は音声入力によるとしてもよい。この場合、音声解析部を備え、音声解析部は入力された音声を、コメント文に変換するという構成にしてもよい。ただし、通常、入力される音声は話し言葉であり、書き言葉とは厳密には異なるものである。そのため、音声解析部は入力された音声を、書き言葉としてコメント文に変換する、とするのが望ましい。音声によって入力される話し言葉を、書き言葉に変換する方法はたとえば特許文献6に開示されている。入力された話し言葉データを形態素解析し、話し言葉と、書き言葉を対応付けたテーブルを用いて書き言葉の候補を得、さらに、書き言葉データベース中で出現しやすい語順や言葉を選択する、という枠組みで、書き言葉への変換を行っている。以上の仕組みによれば、話し言葉特有の表現や、同音異義語なども適切に書き言葉としてコメント文に変換できる。
図5を参照して、オブジェクト動き生成ステップS303がオブジェクト動き生成部103により実行される。
目標時間決定部106が、コメント入力受付ステップS302で受付けられた入力コメント情報111に基づき目標時間決定ステップS306を実行し、目標時間を決定する。続いて、目標時間決定部106が決定した目標時間、動画取得ステップS301で取得された動画像110、およびコメント入力受付ステップS302で受付けられた入力コメント情報111に基づき、オブジェクト動き決定部107が、オブジェクト動き決定ステップS307を実行し、追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡を決定する。以上の処理について、以下で詳しく説明する。
目標時間決定部106は、入力されたコメントを、コメントを入力したユーザまたは他のユーザが視認するために必要な時間である目標時間を決定する。
例えば映画等の字幕に関しては、英文の場合「1秒間に12文字を表示する」というガイドラインが存在する。また、単語単位で目標時間を求めてもよい。例えば、文章を読むスピードとしてWPM(Words per minute:1分に読める単語数)という単位が用いられることがある。成人アメリカ人が通常、雑誌、新聞または本を読むスピードが250〜300WPMと言われていることから、この基準を目標時間算出の際に適用することができる。
例えば、読みやすさのために、目標を少し遅めの200WPM等と設定すると、入力コメント文中のスペースを検出することで、単語数Wを求めることができる。このため、目標時間Nw=W*60/200のように、計算により目標時間Nw(秒)を求めることができる。
なお、人が視覚的な認識を行なうには、約0.5秒ほどかかるといわれている。この時間を視覚認識時間という。視覚認識時間を加味し、目標時間は、予め定めた長さ(例えば0.5秒)以上になるように求めることが望ましい。
また、既に別のコメントが表示されているフレームに、ユーザがコメントを入力する場合、表示されている過去のコメント文字情報と、新たにユーザが入力するコメント文字情報との両方が視認可能な時間となるよう、新たに入力したコメントの目標時間を長めに算出しても良い。新たなコメントの文字数または単語数に、所定の文字数または単語数を加算したうえで目標時間を算出するとしても良い。このようにすることで、コメントつき動画を閲覧するユーザにとって、より確実に、同時に表示されるコメント文を視認できるようになる。
また、ユーザがコメントを付与しようとしているフレーム上に、既に同じ文字列よりなるコメントが付与されている場合は、コメント内容の重複による冗長さが不快感を与える可能性もある。そこで、同じフレーム上に存在する同一内容のコメントの数が多いほど、新たに追加される同一内容のコメントについては、目標時間を短く、ないしゼロとしてもよい。目標時間を短くするには、例えば、文字数から求めた目標時間を、同一コメントの数で割った値に変更する、等により実現できる。また、同一のコメントが同一フレームに付与されていなくても、同一の動画像中に複数回登場するコメントについては、同様に目標時間を短く、ないしゼロとしてもよい。
なお、本開示では目標時間決定部106は、入力されたコメント文字数から目標時間を都度推定するとしていたが、目標時間決定部106の動作はこれに限られない。たとえば、別途あらかじめコメントの文字数と目標時間との関係を求めておき、これをデータベースないしテーブルとして、コメント情報生成装置内部または外部に備えた記憶装置に保存しておく。目標時間決定部106は、コメント入力を受け付けた際に、コメント文字数から目標時間を推定する代わりに、有線または無線を介して前記データベースないしテーブルを参照し、目標時間を得るとしてもよい。あらかじめ目標時間の推定を行っておくことで、コメントが入力された際により高速に目標時間決定処理を行うことができる。
なお、オブジェクト動き生成部103、出力コメント情報生成部104及び出力部105は、コメント付き動画を視聴する各端末側に設けられているとしてもよい。
昨今、異なる言語間での自動翻訳機能が当たり前となってきている。したがって、もともと動画に付与されたコメントの言語とは異なる言語に翻訳されたコメントがついた、コメント付き動画を視聴することも可能であるといえる。その場合、どの言語に翻訳されるのがよいかは、視聴側の端末ごとに選択されることが望ましい。すなわち、最も単純には、視聴側の端末が、端末の有する言語情報に基づいてコメントを別の言語に翻訳し、翻訳されたコメントに対して、オブジェクト動き生成部103、出力コメント情報生成部104及び出力部105の処理が行われるとしてもよい。
または、特定の言語圏に、コメントつき動画像を翻訳配信するサーバに、オブジェクト動き生成部103、出力コメント情報生成部104及び出力部105が設けられ、同様の処理を行うとしてもよい。
続いて、オブジェクト動き決定部107は、目標時間決定部106が決定した目標時間、入力コメント情報、および動画像110に基づいて、追従コメントを表示するための一連の時間軸に沿った座標値である移動軌跡を決定する。
具体的には、オブジェクト動き決定部107は、動画取得部101から複数のピクチャを入力し、ピクチャ間の対応点を検出して、移動軌跡を生成して出力する。以下、動画像110を構成する時間的に隣接する2枚のピクチャ間での画素または、画素を含むブロックの動きを検出し、検出した動きを前記複数枚のピクチャについて連結した一連の時間軸に沿った座標値を、移動軌跡と称する。
図8Aに示すように、オブジェクト動き決定部107は、時刻tにおける入力ピクチャ501の画素i503a、画素j503bに基づき、前記算出された2枚のピクチャ間の動きベクトル情報502を用いて、画素i503a、画素j503bの動きを追跡し、画素i503a、画素j503bの対応点を求める。この時、オブジェクト動き決定部107は、1フレームのピクチャ上のある画素iの座標値(x ,y )と、時刻tにおける画素iの対応点の画素座標値(x ,y )とから、式1のように移動軌跡xを算出する。
Figure 0005659307
本実施の形態において、移動軌跡xは、1フレームからTフレームまでのT枚のピクチャ間にわたる対応点であるものとする。
図8Bは、移動軌跡の例を示す。オブジェクト動き決定部107に入力された動画像110は、T枚のピクチャ504で構成されている。このとき移動軌跡x506a、x506bは、1フレームのある画素i505a、画素j505bにそれぞれ対応する、2フレームからTフレームのピクチャ上の対応点の集まりである。移動軌跡x506a、x506bは、各ピクチャのピクチャ座標値を要素とするベクトルで表される。ここでは1フレームのピクチャ上における全ての画素(I個)を基準として、2フレームからTフレームまでの(T−1)枚のピクチャ上の対応する画素を求めている。
なお、オブジェクト動き決定部107においてピクチャ間の対応点を求める際、ピクチャの全ての画素ごとに対応点を求める代わりに、ピクチャ内の隣接する複数の画素(ブロック)ごとに対応点を求めるものとしてもよい。本実施の形態では、画素単位の処理について説明するが、複数の画素からなるブロック(領域)単位で処理をする場合には、(i)ブロック内で画素値を合計したり、(ii)ブロック内の画素値の平均を求めたり、(iii)ブロック内の画素値の中央値を求めたりすることで、ブロックに対応するデータ(代表値)を求め、得られた代表値を用いて画素単位の処理と同様に処理すればよい。本実施の形態において、ある対応点が1画素ごとに求められたものか、または複数の画素に対して1つの対応点が求められたかを区別しない。また、あるピクチャの画素iに対応する他のピクチャの対応点、および、あるピクチャのブロックiに対応する他のピクチャの対応点を、いずれも画素iの移動軌跡と呼び、本実施の形態では、以上で説明したような動き推定の手順で求めた移動軌跡を、オブジェクト追従コメントの動きの基本とする。また、ピクチャ間の対応点を求める際、必ずしもフレームが連続している必要はなく、例えば、時刻tと時刻t+nに入力された2枚のピクチャから移動軌跡を求めてもよい。ただし、nは1以上の整数である。
上記した複数のピクチャ間の対応点を算出する具体的な手法としては、非特許文献1または非特許文献2などに開示されている方法を用いてもよい。ともに、オプティカルフローを計算することにより動きベクトルを算出する手法であり、非特許文献1では階層的なブロックマッチングをベースに、オプティカルフローを算出する。画素間の滑らかさを拘束条件とするため、隣り合うオプティカルフロー間で動きベクトルが滑らかに変化するようなオプティカルフローが得られる。特に急峻な動きまたは遮蔽がない場合に効率的かつ正確な対応点が求められる。また、推定の信頼度を計算できるため、後述するように、信頼度がある閾値より低い対応点を以降の処理より除くことで、全動きベクトルに対する誤った動きベクトルの割合を低減できる。
これに対して、非特許文献2は、グラフカットベースのオプティカルフロー算出手法を開示している。この手法は、計算コストは高いが、正確な対応点がピクチャ上で密に求まる。また、この手法では、双方向の探索を行ない、互いの相関が閾値より低い対応点は遮蔽領域の画素であると推定する。このため、遮蔽領域に位置する対応点を以降の処理より除くことができる。全動きベクトルに対する誤った動きベクトルの割合を低減できる。
この際、すべての画素について動き情報を求めてもよい。また、より高速に処理を行いたい場合には、ピクチャをグリッドに区切って一定間隔のグリッド上の画素についてのみ動き情報を求めてもよいし、上述したように、ピクチャをブロックに区切ってブロックごとに動き情報を求めてもよい。
この場合、前記ブロックの並進移動を仮定して動きベクトルを算出する方法を用いることができる。特に回転運動をする物体に対しては、並進移動を仮定するよりも、非特許文献3に開示されているアフィン変形を仮定した手法を用いることで、より高精度に画素動きを推定できる。
なお、非特許文献1の開示技術を用いて動きベクトルを算出する場合は、信頼度を計算することができる。このため、信頼度の高い動き情報を持つ画素のみを用いてもよい。また、非特許文献2の開示技術を用いて動きベクトルを算出する場合は、遮蔽を推定することができるため、遮蔽されていない画素の動き情報のみを用いてもよい。
ここで、一般的に、オブジェクト追従コメントを生成するために用いることのできる動き推定手法は、時系列画像間で同じオブジェクト領域を判別するための何らかのモデルを前提とした処理になっている。例えば、この処理は、同一オブジェクト領域間の輝度差は0、といった仮定などを含む。さらに実際の動画像110には、計測ノイズやモデルとの誤差が含まれるため、「最もモデルを満たす」領域同士を同じオブジェクトと判定し、その同一オブジェクト間の時間的な位置変化から動きを算出する。
一方、実際には動画像110中にオブジェクトが映らなくなる場合などが存在し、こういったケースは、動き推定が本来的に不可能なケースに属する。この場合、もし前記の基準によって「最もモデルを満たす」領域同士を求めたとしても、領域間の動きは実際にはないため、誤った動きが求まっていることになる。しかし、コメント入力受付部102によって受け付けられた入力コメント情報111が含む、任意のコメント時刻における任意のコメント座標が、それぞれ動き推定可能なケースであるか不可能なケースであるかを示す情報を得るためには、動画像110の全てのフレームの全ての画素について事前に手動で情報を与え(人が動きを確認し、動き推定可能かどうかを判定し)、それらの情報をサーバなどに保管しておく必要がある。しかし、大量のフレームおよび画素を有する動画像110に、手動で情報を与えることは現実的ではない。したがって、オブジェクト動き決定部107は、動き推定を行うにあたり、コメント入力受付部102によって受け付けられた入力コメント情報111が含む、あるコメント時刻におけるコメント座標のそれぞれについて、動き推定が可能なケースかどうかを判定する。判定基準としては、前述の動きを推定する「モデルが一定以上満たされている」という基準に対して別の閾値を設定する。すなわち、「モデルが一定以上満たされていない」基準を別途設定するのが一般的である。
したがって、オブジェクト動き決定部107は、動き推定で用いるモデルを「一定以上満たすかどうか」という第一の判定基準により、動き推定が可能なケースかどうかを判定する。さらに、オブジェクト動き決定部107は、動き推定が可能なケースであった場合に、「最もモデルを満たすかどうか」という第二の判定基準を互いに満たす領域同士を同じオブジェクトと判定し、それらの同一オブジェクト間の時間的な位置変化から、動きを算出するものとする。
一方で、上記のような仕組みをもつ動き推定手法には、一種のトレードオフが存在する。
動き推定が可能なケースかどうかを判定する基準を、より厳しく設定すると、モデルとの誤差が比較的小さくても、「動き推定が不可能」な状態を検出できるようになる。このように動き推定が可能なケースかどうかの判定基準を設定する、つまり、誤差許容度を小さくすると、より多くの「動き推定不可能」なケースを正しく検出できる。その一方で、実際には「動き推定が可能」で、例えば、計測ノイズ、またはモデルと実画像との間に生じる誤差等が影響しているケースに対しても、動き推定は不可能な状態として誤判定される。このため、本来中断されるべきでない動き推定の処理が中断され、得られる移動軌跡が短くなってしまう可能性がある。つまり、追従しやすさとしては低下する。
逆に、追従しやすさを上げるためには、計測ノイズ、またはモデルと実画像との間に生じる誤差が比較的大きい場合であっても、動き推定が可能とする必要がある。このように、ノイズまたはモデル誤差を過度に許容する基準を採用する、つまり、誤差許容度を大きくすると、先ほどとは逆に、動画像110中のオブジェクトがフレームアウト等で映らなくなり、実際には動き推定が不可能となってしまった場合であっても、本来中断されるべき動き推定の処理が続行される。このため、誤った動き推定結果を含む(ノイズまたはモデル誤差に非ロバストな)移動軌跡が生成される可能性がある。
以上のように、動き推定処理において、ノイズまたはモデル誤差に対してロバストな動き推定を実現することと、遮蔽やシーンチェンジによって生じる「動き推定が不可能なケース」を正確に判定することの間には、図9Aおよび図9Bに示すようなトレードオフの関係が存在する。
図9Aおよび図9Bにおいて、実線の矢印は、上記一般的な動き推定手法によって推定された移動軌跡を示し、点線の矢印は、実際の(正解の)移動軌跡を示す。図9Aのように、誤差許容度パラメータを低く設定すると、「動き推定が不可能なケース」をより正確に判定でき、移動軌跡が含むノイズを抑えられるが、実際の動きよりも、短い移動軌跡となりやすく、コメント追従を行なえる時間が短くなりやすい。一方、図9Bのように誤差許容度パラメータを高く設定すると、コメント追従を行なえる時間は長くなり、図9Aよりも長い移動軌跡が得られるが、正解の動きと異なる動きを含む動き推定結果になる可能性がある。コメントの視認性を上げるためには、図9Bのように移動軌跡がより長いほうが望ましいが、オブジェクトに追従したコメントという観点からは、図9Aのように、より正確な動きの移動軌跡が得られるほうが望ましい。
これらのトレードオフ関係のもと、コメント表示に最も適した時間長と位置精度を備えた移動軌跡を得るためには、コメントの文字列をユーザが視認するのに最低限必要な移動軌跡の時間長を求め、必要な移動軌跡の時間長を最低限に抑えながら、より正確な動きの移動軌跡が得られるようにする必要がある。
すなわち、入力コメント情報111が含む、任意のコメント時刻における任意のコメント座標ごとに、目標時間決定部106が決定した目標時間を最低限必要な移動軌跡の時間長とし、その時間長に等しい、あるいは最も近い移動軌跡を求めることが望ましい。
したがって、オブジェクト動き決定部107は、動き推定の際に、ノイズまたはモデルとの輝度差に対し「モデルを一定以上満たす」判定基準閾値を、あらかじめ複数個用意しておき、それぞれの閾値を用いて複数通りの移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部106が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることにより、前述のトレードオフを解決するものとする。
なお、一般的な動き推定におけるトレードオフの関係を調整し、「追従しやすさ」に影響を与えるパラメータは、前述した「モデルを一定以上満たす度合い(誤差許容度)」に限らない。
別の例として、動き推定に利用する窓領域のサイズを挙げることができる。すなわち、窓領域のサイズを大きくすると部分的な輝度変化や変形に対してよりロバストに動き推定が行なえる一方、指定した箇所が遮蔽されたような場合に「動き推定不可能である」ことが検出されにくくなるという、トレードオフがある。このため、窓領域のサイズを移動軌跡の時間長を調整するパラメータとして用いることができる。例えば、オブジェクト動き決定部107は、複数のサイズの窓領域をそれぞれ用いて移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部106が決定した目標時間に等しい、あるいは最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得ることができる。
さらに別の例として、動き推定に利用する特徴量(画像特徴量)の数を挙げることができる。すなわち、特徴量を多くすると、相対的に一部の特徴量変化にロバストになる。このため、異なる特徴量数の条件下でそれぞれ移動軌跡算出を行い、それら複数の結果のうち、目標時間決定部106が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得ることができる。
なお、「窓領域のサイズ」のパラメータとして、非特許文献1における窓領域のサイズ、非特許文献3における、アフィン変形を仮定するブロックのサイズ、などを同様に用いることができる。したがって、これらを調整することが、先に説明した「窓領域サイズ」に基づき移動軌跡の時間長を調節することを意味する。
また、「誤差許容度」のパラメータとして、非特許文献1の信頼度範囲(confidence measure range k3)、非特許文献2の遮蔽重み値(occlusion penalty)、または非特許文献3のテクスチャなどの特徴量類似度(feature dissimilarity)などを同様に用いることができる。信頼度範囲は、値を0とすれば、より長い移動軌跡が得られやすくなる。特徴量類似度は、値を大きくすれば、より長い移動軌跡が得られやすくなる。したがって、これらを調整することが、先に説明した「誤差許容度」に基づき移動軌跡の時間長を調節することを意味する。
また、「特徴量の数」のパラメータとして、非特許文献3における、推定に利用する特徴点数、などを同様に用いることができる。これらを調整することで、「特徴量の数」に基づく移動軌跡の時間長の調節を実現できる。もちろん、ここで挙げた例以外のパラメータを用いてもよい。非特許文献2における探索範囲(画素動きを仮定する範囲)などを用いても、移動軌跡の時間長を調節することができる。探索範囲は、前述した他の動きパラメータと同様に、移動軌跡の時間長と動き推定精度(移動軌跡の推定精度)とのトレードオフに関係しており、探索範囲を広げればより長い移動軌跡が得られる一方、正解の動きと異なる動きを含む動き推定結果になる可能性がある。なお、これまでに述べた動き検出手法以外の既知の動き検出手法においても、同様に移動軌跡の時間長と動き推定精度に関係するパラメータが存在し、同様に用いることができる。
モデル誤差の閾値、窓領域のサイズ、または特徴量の数といったパラメータは、前述のように、一つだけを用いて移動軌跡の時間長を調節してもよいし、複数を組み合わせて移動軌跡の時間長を調節してもよい。例えば、最も単純な例では、モデル誤差の閾値、窓領域のサイズ、特徴量の数の各パラメータについて2通りずつ予め設定しておき、全8通りの組合せで得られた結果のうち、目標時間決定部106が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とするとしてもよい。
また、追従対象の動きが人のように複雑で特定のモデルを仮定することが難しいような場合には、複数の動き検出手法を用いて移動軌跡を算出し、複数の手法から算出した複数の結果のうち、目標時間決定部106が決定した目標時間に最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とするとしてもよい。これにより、様々な動きに対して、よりロバストに目標時間に近い移動軌跡が得られる。
なお、ここまでは、本質的に動き推定が可能なケースについて、所望のコメント表示時間である目標時間に基づき移動軌跡を求める手法について述べた。
しかし、特に、TV番組映像またはムービーで録画した映像などの一般的な動画像110では、シーンチェンジ、他のオブジェクトによる遮蔽、自己遮蔽、またはオブジェクトもしくはカメラの移動により、指定画素または指定領域の撮影範囲外への移動、などが起こりやすい。指定画素または指定領域が、動画像中に映らなくなるような場合には、目標時間に満たないある時点で、以降の動き推定が不可能になってしまうようなケースが数多く発生する。このような場合、パラメータを調整しても、短い移動軌跡しか得られない、もしくは、得られた移動軌跡の推定精度が著しく低下する。ユーザにとって見やすいオブジェクト追従コメントを生成するためには、先にも述べた「動き推定不可能」なケースを正しく判定し、「動き推定不可能」な状態が生じた要因に応じた処理をそれぞれ導入することが望ましい。
すなわち、オブジェクト動き決定部107は、目標時間に最も近い時間長の移動軌跡であっても、目標時間に対して時間長が(一定値以上)短い場合に、「動き推定不可能」な状態が生じた要因のうち、「遮蔽」および「シーンチェンジ」のどちらが生じたかを判定し、判定結果に応じて処理を切り替える。
遮蔽が生じたかシーンチェンジが生じたかは、例えば、画像全体の輝度ヒストグラムの時間変化などから判定することができる。すなわち、輝度ヒストグラムが、フレーム間で大きく変化している場合(例えば、輝度ヒストグラムの変化量が所定の閾値以上の場合)には、シーンチェンジが生じたと判定することができるし、それ以外の場合は遮蔽が生じたと判定することができる。あるいは、メタデータとしてシーンチェンジの時間情報が動画像110に付随している場合、それを利用してシーンチェンジが生じたか否かを判定することも可能である。
図10Aを用いて、「遮蔽」と判定された場合にオブジェクト動き決定部107が行なう処理について説明する。遮蔽によって動き推定が中断されるケースではオブジェクトは見えなくなるが、遮蔽物の背後をそれまでと同様な動きでオブジェクトが動く可能性、つまり動画像の画面中にオブジェクトがまだ存在する可能性が高い。したがって、オブジェクト動き決定部107は、オブジェクトが動いていそうな領域を推定し、例えば、求められているオブジェクトの動きを補外することなどにより、移動軌跡を伸長し、コメント追従軌跡を生成する。補外には、線形補間などを用いることができる。
図10Bを用いて、「シーンチェンジ」と判定された場合に、オブジェクト動き決定部107が行なう処理について説明する。シーンチェンジの場合、追従対象オブジェクトはカメラの外にいるか、カメラの画面内に存在していても、それまでと別の場所に映っている可能性が高い。したがって、「遮蔽」と判断された場合と同じように、動きを伸長してしまうと、逆にユーザにとって違和感を与えるようなコメント追従軌跡を生成してしまう可能性が高い。したがって、「シーンチェンジ」と判定された場合は、移動軌跡は伸長しない。すなわち、例外的に、オブジェクト動き決定部107で算出する移動軌跡の時間長は、目標時間に対して短くてもよいものとし、移動軌跡はシーンチェンジが起こったフレームまでとする。なお、同様に、オブジェクトが画像端まで移動したために、動き推定不可能な状態となった場合も、「シーンチェンジ」に含める。すなわち、当該フレーム以降の動きは伸長せず、当該フレームまでの移動軌跡を出力する。
なお、「遮蔽」と判定された場合に、オブジェクト動き推決定部107は、以下に示す手順により移動軌跡を伸長しても良い。対応点の情報は、2フレーム間で定義されている。このため、移動軌跡は時間軸をさかのぼって生成することも可能である。つまり、図11Aに示すように、線形補間の代わりに、コメント開始時刻から遡って移動軌跡を伸長できる場合には、オブジェクト動き決定部107は、コメント開始時刻を前倒しすることにより目標時間分の移動軌跡を算出しても良い。オブジェクトがより見えている時間帯の方向に長い移動軌跡が得られるため、ユーザにとって違和感のないコメント表示を実現するコメント追従座標を得ることができる。
また、「遮蔽」と判定された場合に、オブジェクト動き推決定部107は、以下に示す手順により移動軌跡を伸長しても良い。つまり、画像上の距離が近接した領域の画素は、類似した動きをすると一般的に仮定できる。そこで、オブジェクト動き決定部107は、図11Bに示すように、コメント入力受付部102によって受け付けられた入力コメント情報111が含む、あるコメント時刻におけるコメント座標から、予め定められた画素範囲R内に存在する座標の画素についても同様に複数の移動軌跡を求める。オブジェクト動き決定部107は、これらの複数の移動軌跡から、最も目標時間に近い時間長の移動軌跡を選択し、選択した移動軌跡の動きを、指定画素の動きとして算出してもよい。周辺の情報を用いることにより、よりノイズなどに対しロバストなコメント追従座標を得ることができる。
別の例として、コメント入力受付部102が受け付けるコメント座標112は、図12Aのように、領域として指定されてもよい。この場合、受け付けられた入力コメント情報111が含む、あるコメント時刻における、指定領域に対応する複数のコメント座標112を、予め定められた画素範囲Rの代わりに用いることができる。
さらに別の例として、オブジェクト動き決定部107は、領域分割部を備え、領域分割部がピクチャの領域分割を行う。オブジェクト動き決定部107は、領域分割部により分割された領域のうち、図12Bに示すように、入力コメント情報111が含む、あるコメント時刻におけるコメント座標が含まれる領域を、予め定められた画素範囲Rの代わりに用いてもよい。
例えば、領域分割部は、各移動軌跡が属する画素またはブロックの色類似度に基づいて、ピクチャを複数の領域に分割する。また、画素の色類似度をもとに、いわゆる”superpixel”と呼ばれる複数の領域にピクチャを分割する方法を用いてもよい。superpixelを算出する方法については、グラフベースの手法などを用いることができる。処理手順の詳細説明は非特許文献4等に記載されているため省略する。この手法は、ピクチャのグラフ表現に基づいて各領域間の境界を推定することで、効率的かつグローバルな特徴を保持しながらピクチャを小領域に分割するものであり、遮蔽に強いため、よりロバストな分割ができる。
特に移動体の色と背景の色が異なるようなシーンにおいては、各領域が移動体のみ、または背景のみで構成される可能性が高くなる(色が異なると、別のサブクラスに分離される確率が高まる)ため、ピクチャを、類似した動きをする領域に、より正しく分割することができる。
また、動きに基づく領域分割方法を適用してもよい。具体的には、特許文献7のような手法を用いてもよい。上記のようにすることで、移動体と背景の色が類似する場合であっても、類似した動きをする被写体領域ごとに、より正しくピクチャを分割できる。
さらに別の例として、オブジェクト動き決定部107は、領域分割部を備え、複数の移動軌跡を求める代わりに、図13Aおよび図13Bに示すように領域分割結果を複数用意し、それぞれの領域の動きおよび追従時間長を、領域に含まれる移動軌跡の平均および移動軌跡の最小時間長として求める。オブジェクト動き決定部107は、そのうち、ユーザが指定した領域を分割した領域のうち、追従時間長が最も目標時間に近い領域を選択し、その領域の動きを指定画素の動きとして算出してもよい。一般的に、分割粒度と追従時間長にはトレードオフの関係がある。例えば、図13Aのような粗い領域分割の場合に、指定した領域の追従時間長が目標時間よりも短かったとしても、図13Bのように、細かい領域分割をすることで、追従時間長を目標時間に近づけることができる。図13Bのように、頭部の領域は追従時間長が短くなるが、ユーザが指定した体の領域では、より長く追従できる等の結果となることがある。この場合は、図13Bの結果を用いる。1点の画素だけでなく、周辺画素の情報も用いるため、よりノイズ等に対してロバストなオブジェクト追従コメント座標を得ることができる。領域分割方法としては、前述のような、色類似度に基づく手法や、動きに基づく手法を用いることができる。
なお、図13Aおよび図13Bのように、ユーザが指定した位置が分割領域の端のほうであった場合などでも、ユーザの意図した位置に合ったコメントを出すためには、最も簡易には、分割領域の重心座標位置を各フレームで求める。また、指示開始フレームにおけるユーザ指示座標位置の、分割領域の重心座標位置からの相対的な位置を保持しておいて、それにより常に追従結果を補正するとよい。なお、分割領域のサイズが変化した場合には、追従結果補正後の座標が、実際の分割領域上から外れてしまう可能性が高まる。したがって、そのような場合は、分割領域の外縁を矩形で囲む等により求めた分割矩形領域の中で重心を求めておき、矩形領域のサイズ変動、または矩形領域中の移動軌跡数の変動に基づいて、ユーザ指示座標位置と分割領域の重心座標位置との間の位置関係を補正し、補正した位置関係を用いて、追従結果を補正するとよい。なお、各フレームで分割領域の重心座標位置を求める代わりに、指示開始フレームで分割領域の重心座標位置を求めておき、指示開始フレームにおける分割領域の重心座標位置より移動軌跡を算出した結果を用いて、同様に相対的な位置に基づき、ユーザ指示位置からの移動軌跡を決定してもよい。
なお、本開示ではオブジェクト動き決定部107はオブジェクトの動きを動画像から推定するとしていたが、オブジェクト動き決定部107の動作はこれに限られない。たとえば、別途あらかじめ動画像から複数のパラメータを用いて、フレーム間の動きを推定しておき、データベースないしテーブルとして、コメント情報生成装置内部または外部に備えた記憶装置に保存しておく。オブジェクト動き決定部107は、コメント入力を受け付けた際には、動画像から動きを推定する代わりに、有線または無線を介して前記データベースないしテーブルを参照し、移動軌跡を得るとしてもよい。図14はデータベースの一例を示す図である。データベースは、時間長ごとに移動軌跡の情報を含んでいる。あらかじめ動き推定を行っておくことで、コメントが入力された際により高速にオブジェクト動き決定処理を行うことができる。
なお、図15に示すように、オブジェクト動き生成部103は、さらに目標時間補正部108を備え、目標時間補正部108は、オブジェクト動き決定部107が算出した移動軌跡に基づいて、目標時間決定部106が決定した目標時間を補正するとしてもよい。
例えば、全く同じコメント文を有するコメントであっても、速く移動するオブジェクトに追従して表示されるコメントは、よりゆっくり移動するオブジェクトや静止したオブジェクトに追従して表示されるコメントに比べて、コメント文が読みづらくなり、読み終わるのに時間がかかってしまう。したがって、オブジェクトの速度に応じて目標時間を補正することがより望ましい。すなわち、同じ時間でより長い距離を移動するオブジェクトに付与されたコメントについては、より目標時間が長くなるよう目標時間を補正するものとする。
具体的には、目標時間補正部108は、オブジェクト動き決定部107が決定した移動軌跡を受け取り、オブジェクトの速さ(単位時間あたりの移動距離)を算出する。オブジェクトの速さは、最も単純には、各フレームごとの動きベクトルの長さを平均した値などで表せばよい。
算出したオブジェクトの速さがゼロであった場合は、オブジェクトは静止しているため目標時間は補正しなくともよい。
それ以外の場合、オブジェクトの速さに基づき、目標時間が長くなるよう補正することが望ましい。たとえば、オブジェクトの速さとして可能性がある最大値について目標時間を2倍にするとし、速さがゼロの場合の目標時間から、算出されたオブジェクトの速さに相当する目標時間を線形に求めるものとしてもよい。画像のサイズによっては2倍以外の値を採用してもよい。また、オブジェクトの速さとして可能性がある最大値としては、たとえば、1フレームで画像の対角線上を端から端に移動した場合の動きベクトルの長さを用いてもよい。事前にシーンの種類がわかっている場合には、シーンの種類に応じて、たとえば、1フレームで画像の中心から角に移動した場合の動きベクトルの長さを用いる等としてもよい。
また、人の視野角に基づいて基準を設定してもよい。人が画面上のある部分を注視しているときに、明確に視認している領域(中心視)は、視野角にしておよそ2度程度と言われている。そこで、オブジェクトの速さとして、前記視野角に相当する速度までは中心視の領域を外れないため、オブジェクト静止時と相違ない速さでコメントを読めるものとすると、前記オブジェクトの速さは前記中心視の視野角、および視聴時の画面とユーザの目との距離、及び視聴時のディスプレイサイズおよび解像度から容易に求めることができる。
たとえば視聴時の画面とユーザの目との距離を、おおよそ40cm等と仮定し、視聴時のディスプレイサイズおよび解像度を9.7インチ(19.71cm×14.78cm)、2048×1536ピクセルと仮定すると、前記オブジェクトの速度は約145ピクセルとなる。したがって、オブジェクトの速さが145ピクセルを超えた場合について、目標時間をより長くする、としてもよい。たとえば、疑似的にオブジェクトの速さが前記中心視の視野角に相当する画素数になるよう、目標時間に対して、前記オブジェクトの速さを、中心視に対応するオブジェクトの速さ(前記の例では145ピクセル)で割った値をかけて算出した値を、補正された目標時間として求めてもよい。
上記のようにして補正された目標時間をオブジェクト動き決定部107は受け取り、前記補正された目標時間に基づき、再度オブジェクト動き決定部107は、先に述べたような方法で移動軌跡を算出する。このようにすることで、動きが速い被写体に付与されたコメントについても、視認性が低下しないような移動軌跡を生成することができる。
なお、上述した目標時間補正部108とオブジェクト動き決定部107の間での目標時間補正の処理のループは、一度だけ行ってもよいし、より精度を高めるため複数回行ってもよい。
図5を参照して、出力コメント情報生成ステップS304が出力コメント情報生成部104により実行される。出力コメント情報生成部104は、オブジェクト動き生成部103が生成したオブジェクト動き推定結果と、入力コメント情報111より出力コメント情報を生成する。
出力コメント情報は、最低限の情報として、入力コメント情報111のうちコメント時刻、コメント対象座標、および文章情報と、オブジェクト動き生成部103が生成した、複数フレーム分のオブジェクト追従コメント座標値とを含む。さらに、出力コメント情報は、入力コメント情報111が、コメントの色、コメントの表示(フキダシ)形状、コメントの文字列のフォント等を含む場合には、それらの情報を、出力コメント情報に含んでもよい。これにより、よりユーザの意向を反映した表示が可能な出力コメント情報を生成できる。
最後に、出力ステップS305が出力部105により実行される。出力部105は、出力コメント情報生成部104が生成した出力コメント情報を、記憶装置120へ有線または無線の通信経路を通じて出力する。より具体的には、出力部105は、出力コメント情報が含む、投稿されたコメント文字列、およびそのコメントを追従して表示させるオブジェクトの位置情報を、コメント蓄積配信サーバに備えられたコメントデータベースに記憶させる。
コメント情報生成装置100は、連続して入力される入力コメント情報111に対して処理を行う場合には、上述したステップS301〜S307の動作を入力コメント情報111が入力されるたびに繰り返し行うとしても良い。
なお、コメント情報生成装置100は、コメントの長さに応じて、異なる移動軌跡を生成するため、同じフレーム、座標位置につけられたコメントであっても、コメントの長さが異なれば、表示装置上でコメント付き動画像を表示した際に、異なる動きをするコメントが表示されるような、移動軌跡を生成することができる。
以上のように、本実施の形態におけるコメント情報生成装置100は、目標時間決定部106が決定した目標時間に等しい、あるいは最も近い時間長の移動軌跡の座標を、オブジェクト追従コメントの座標とすることで、コメント表示に必要な時間長を有し、かつ、ノイズまたはモデル誤差に対して、最大限ロバストな動き推定結果を得る。これによって、ユーザがコメントを付与することを意図して指定したオブジェクトを時間的に追跡した結果として、違和感のないオブジェクト追従コメントのための座標を生成することができる。
つまり、コメント情報生成装置100は、コメントに基づき、コメントを表示すべき目標時間を決定し、移動軌跡の連続する時間が目標時間になるようにオブジェクトの移動軌跡を推定している。推定されたオブジェクトの移動軌跡は、コメントを追従表示させるための移動軌跡として用いることができる。このため、ユーザは、コメント付き動画像表示時に、コメントを表示時間内に読むことができ、そのコメントがどのオブジェクトに対して付与されたものであるかを判断することができる。よって、コメントの視認性を向上させることのできる出力コメント情報を生成することができる。
本発明は、ネットワーク上における動画像を通じたコミュニケーションに際し、ユーザが指定したオブジェクトに追従するコメントの出力コメント情報を生成するコメント情報生成装置に利用できる。例えば、本発明は、ネットワーク接続を通じて動画像の取得または閲覧が可能なタブレットPC、スマートフォン、PC、ビデオカメラまたはTV等のAV機器に内蔵させるコメント情報生成装置等として利用することができる。
100 コメント情報生成装置
101 動画取得部
102 コメント入力受付部
103 オブジェクト動き生成部
104 出力コメント情報生成部
105 出力部
106 目標時間決定部
107 オブジェクト動き決定部
108 目標時間補正部
110 動画像
111 入力コメント情報
112 コメント座標
120 記憶装置
200 コンピュータ
201a、201b、206 I/F
202 CPU
203 ROM
204 RAM
205 HDD
210a、220 記憶装置
210b 入力装置

Claims (19)

  1. 動画像を受け付ける動画取得部と、
    前記動画取得部が受け付けた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに特定のタイミングから追従表示させるコメントとの入力を受け付けるコメント入力受付部と、
    前記コメントを表示し続ける時間長の目標値である目標時間を、前記コメント入力受付部が受け付けた前記コメントに基づいて決定する目標時間決定部と、
    前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間の時間長の移動軌跡となるように、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定部と、
    前記コメントと、前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成部と、
    前記出力コメント情報生成部が生成した前記出力コメント情報を出力する出力部と
    を備えるコメント情報生成装置。
  2. 前記目標時間決定部は、前記コメント入力受付部が受け付けた前記コメントの長さが長いほど、前記目標時間がより長くなるように、前記目標時間を算出す
    請求項1記載のコメント情報生成装置。
  3. 前記目標時間決定部は、予め定められた一文字あたりの表示時間である単位表示時間と、前記コメント入力受付部が受け付けた前記コメントの文字数とを掛け合わせた値を、前記目標時間として算出す
    請求項2記載のコメント情報生成装置。
  4. 前記目標時間決定部は、さらに、予め定められた、文字の視覚認識にかかる視覚認識時間に、算出した前記目標時間が満たない場合は、前記視覚認識時間を前記目標時間として算出す
    請求項2記載のコメント情報生成装置。
  5. 前記コメント情報生成装置は、前記コメント入力受付部が受け付けた複数の前記コメントが、同一のフレームの同一の位置に付与された複数の前記コメントであっても、互いに文字数が異なる場合には、互いに異なる移動軌跡を生成する
    請求項1記載のコメント情報生成装置。
  6. 前記オブジェクト動き決定部は、複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより前記オブジェクトの移動軌跡を決定する
    請求項1〜5のいずれか1項に記載のコメント情報生成装置。
  7. 前記オブジェクト動き決定部は、前記複数の動き推定パラメータの各々として、(1)オブジェクトの追従のし易さに影響し、互いに値の異なる複数の誤差許容度パラメータの各々、(2)互いにサイズの異なる複数の探索窓領域の各々、又は(3)互いに値が異なる複数の特徴量の各々、のいずれかに基づいて、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトであって、前記動画像中の前記オブジェクトの移動軌跡を算出し、算出した前記オブジェクトの移動軌跡のうち、前記目標時間に最も近い長さの移動軌跡を選択することにより、前記オブジェクトの移動軌跡を決定する
    請求項6記載のコメント情報生成装置。
  8. 前記オブジェクト動き決定部は、さらに、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を複数の動き推定方法の各々または複数の動き推定パラメータの各々を用いても決定できない、「動き推定不可能な状態」が生じた際に、当該状態の原因が遮蔽によるかシーンチェンジによるかを判定し、判定結果に基づいてオブジェクト動き決定方法を切り替える
    請求項6又は7に記載のコメント情報生成装置。
  9. 前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因が遮蔽によるものと判定した場合に、遮蔽が生じたフレーム以降のフレームにおける前記オブジェクトの移動軌跡を、前記遮蔽が生じたフレームまでの前記オブジェクトの移動軌跡に基づいて補外することにより、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定する
    請求項8記載のコメント情報生成装置。
  10. 前記オブジェクト動き決定部は、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによるものと判定した場合に、シーンチェンジが生じたフレームまでの前記オブジェクトの移動軌跡を、出力する移動軌跡として決定する
    請求項8記載のコメント情報生成装置。
  11. 前記オブジェクト動き決定部は、前記動画像を構成するフレーム間の輝度ヒストグラムの変化量が所定の閾値以上の場合に、前記「動き推定不可能な状態」が生じた原因がシーンチェンジによると判定し、前記輝度ヒストグラムの変化量が前記所定の閾値未満の場合に、前記「動き推定不可能な状態」が生じた原因が遮蔽によると判定する
    請求項8記載のコメント情報生成装置。
  12. 前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が前記位置情報および前記コメントの入力を受け付けたフレーム、ならびに前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの位置より、時間軸上で前のフレームへさかのぼって推定した移動軌跡を、前記オブジェクトの移動軌跡の前方につなぐことで、前記目標時間に最も近い長さの前記オブジェクトの移動軌跡を決定する
    請求項6〜11のいずれか1項に記載のコメント情報生成装置。
  13. 前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合に、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置から一定の距離範囲内の位置を基点としたオブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定する
    請求項6〜11のいずれか1項に記載のコメント情報生成装置。
  14. 前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記コメント入力受付部が受け付けた前記オブジェクトの位置情報が示す位置を含む、ユーザが指定した範囲内の位置を基点とした前記オブジェクトの移動軌跡のうち、時間長が前記目標時間に最も近い長さの移動軌跡を、前記コメント入力受付部が受け付けた前記位置情報で示される前記オブジェクトの移動軌跡として決定する
    請求項6〜11のいずれか1項に記載のコメント情報生成装置。
  15. 前記オブジェクト動き決定部は、前記複数の動き推定方法の各々または前記複数の動き推定パラメータの各々を用いて求めた前記オブジェクトの移動軌跡の時間長が前記目標時間より一定時間以上短い場合には、前記オブジェクトを複数の領域に領域分割し、分割して得られた領域のうち、前記目標時間に最も近い長さの領域の移動軌跡を、前記オブジェクトの移動軌跡として決定する
    請求項6〜11のいずれか1項に記載のコメント情報生成装置。
  16. 前記オブジェクト動き決定部は、さらに、前記コメント入力受付部が受け付けた前記位置情報が示すオブジェクトの重心について、目標時間に最も近い長さの移動軌跡を決定し、前記コメント入力受付部が受け付けた前記コメントが付与される位置と前記オブジェクトの重心との相対的な位置関係に基づいて、前記決定された前記オブジェクトの移動軌跡を、あたかもコメントが付与される位置からの移動軌跡であるかのように補正し出力する
    請求項1〜11のいずれか1項に記載のコメント情報生成装置。
  17. さらに、
    前記オブジェクト動き決定部が決定した前記オブジェクトの移動軌跡に基づいて、前記オブジェクトの移動速度が速いほど前記目標時間が長くなるように、前記目標時間を補正する目標時間補正部を備え、
    前記オブジェクト動き決定部は、さらに、前記位置情報で示される前記オブジェクトに前記コメントを追従表示させるための、前記オブジェクトの移動軌跡が、前記目標時間補正部で補正された後の前記目標時間の時間長となるように、前記オブジェクトの移動軌跡を決定しなおす
    請求項1〜16のいずれか1項に記載のコメント情報生成装置。
  18. 動画像を入力として受け付ける動画取得ステップと、
    前記動画取得ステップにおいて受け付けられた前記動画像中のオブジェクトの位置情報と、前記オブジェクトに追従して表示させるコメントとの入力を受け付けるコメント入力受付ステップと、
    前記コメント入力受付ステップにおいて受け付けられた前記コメントに基づいて、前記コメントを表示する時間長の目標値である目標時間を決定する目標時間決定ステップと、
    前記位置情報で示される前記オブジェクトに、前記コメントを追従表示させるための前記オブジェクトの移動軌跡が、前記目標時間に十分近い長さとなるよう、前記オブジェクトの移動軌跡を決定するオブジェクト動き決定ステップと、
    前記コメントと、前記オブジェクト動き決定ステップにおいて決定された前記オブジェクトの移動軌跡とを含む出力コメント情報を生成する出力コメント情報生成ステップと、
    前記出力コメント情報生成ステップにおいて生成された前記出力コメント情報を出力する出力ステップと
    を含むコメント情報生成方法。
  19. 請求項18に記載のコメント情報生成方法をコンピュータに実行させるためのプログラム。
JP2013557995A 2012-07-17 2013-07-04 コメント情報生成装置およびコメント情報生成方法 Expired - Fee Related JP5659307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013557995A JP5659307B2 (ja) 2012-07-17 2013-07-04 コメント情報生成装置およびコメント情報生成方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012158995 2012-07-17
JP2012158995 2012-07-17
JP2013557995A JP5659307B2 (ja) 2012-07-17 2013-07-04 コメント情報生成装置およびコメント情報生成方法
PCT/JP2013/004153 WO2014013690A1 (ja) 2012-07-17 2013-07-04 コメント情報生成装置およびコメント情報生成方法

Publications (2)

Publication Number Publication Date
JP5659307B2 true JP5659307B2 (ja) 2015-01-28
JPWO2014013690A1 JPWO2014013690A1 (ja) 2016-06-30

Family

ID=49948534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013557995A Expired - Fee Related JP5659307B2 (ja) 2012-07-17 2013-07-04 コメント情報生成装置およびコメント情報生成方法

Country Status (4)

Country Link
US (2) US9681201B2 (ja)
JP (1) JP5659307B2 (ja)
CN (1) CN103797783B (ja)
WO (1) WO2014013690A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9924130B2 (en) * 2013-07-15 2018-03-20 Allego Inc. Computer based training techniques for geographically distributed individuals
US20170164056A1 (en) * 2014-06-25 2017-06-08 Thomson Licensing Annotation method and corresponding device, computer program product and storage medium
CN104703038A (zh) * 2015-03-13 2015-06-10 天脉聚源(北京)传媒科技有限公司 一种多媒体处理方法及装置
JP6301990B2 (ja) * 2015-04-24 2018-03-28 京セラ株式会社 電子機器、画像表示システム及び制御プログラム並びに電子機器の動作方法
CN104811816B (zh) * 2015-04-29 2018-04-13 北京奇艺世纪科技有限公司 一种为视频画面中的对象打弹幕标签的方法、装置及系统
CN106303729B (zh) * 2015-05-20 2019-05-21 北京智谷睿拓技术服务有限公司 基于弹幕的交互方法、交互装置及用户设备
CN105100927A (zh) * 2015-08-07 2015-11-25 广州酷狗计算机科技有限公司 弹幕显示方法及装置
CN105430512A (zh) * 2015-11-06 2016-03-23 腾讯科技(北京)有限公司 一种在视频图像上显示信息的方法和装置
CN105430526A (zh) * 2015-11-27 2016-03-23 深圳市金立通信设备有限公司 一种字幕显示方法及终端
CN105635807A (zh) * 2015-12-30 2016-06-01 北京奇艺世纪科技有限公司 一种视频编辑方法和装置
WO2017143834A1 (zh) * 2016-02-26 2017-08-31 沈国晔 基于影片的共同创作系统及其方法
CN105847999A (zh) * 2016-03-29 2016-08-10 广州华多网络科技有限公司 一种弹幕显示的方法及显示装置
US10430835B2 (en) * 2016-04-14 2019-10-01 Google Llc Methods, systems, and media for language identification of a media content item based on comments
WO2017203432A1 (en) * 2016-05-23 2017-11-30 Robert Brouwer Video tagging and annotation
CN106131643A (zh) * 2016-07-13 2016-11-16 乐视控股(北京)有限公司 一种弹幕处理方法、处理装置及其电子设备
CN106303730B (zh) * 2016-07-28 2018-05-11 百度在线网络技术(北京)有限公司 一种用于提供组合弹幕信息的方法与设备
US20190246165A1 (en) * 2016-10-18 2019-08-08 Robert Brouwer Messaging and commenting for videos
US11037321B2 (en) * 2016-12-02 2021-06-15 Koninklijke Kpn N.V. Determining size of virtual object
EP3545686B1 (en) * 2017-03-20 2021-09-22 Samsung Electronics Co., Ltd. Methods and apparatus for generating video content
KR102500462B1 (ko) * 2017-05-17 2023-02-16 가부시키가이샤 크리프톤 화상 처리 장치, 화상 처리 프로그램 및 화상 처리 방법
KR101891582B1 (ko) 2017-07-19 2018-08-27 네이버 주식회사 컨텐츠 내 하이라이트 댓글을 처리하기 위한 방법 및 시스템
KR101933558B1 (ko) * 2017-09-14 2018-12-31 네이버 주식회사 동영상 내 하이라이트 댓글을 처리하기 위한 방법 및 시스템
CN107690078B (zh) * 2017-09-28 2020-04-21 腾讯科技(深圳)有限公司 弹幕信息显示方法、提供方法以及设备
CN108111921B (zh) * 2017-12-22 2019-07-02 咪咕视讯科技有限公司 一种弹幕处理方法、电子设备以及计算机可读存储介质
CN110062269A (zh) * 2018-01-18 2019-07-26 腾讯科技(深圳)有限公司 附加对象显示方法、装置及计算机设备
US10390097B1 (en) 2018-05-30 2019-08-20 Rovi Guides, Inc. Systems and methods for creating an asynchronous social watching experience among users
US10715871B1 (en) 2019-03-27 2020-07-14 Verizon Patent And Licensing, Inc. Determining an end screen time for displaying an end screen user interface
CN110151187B (zh) * 2019-04-09 2022-07-05 缤刻普达(北京)科技有限责任公司 健身动作识别方法、装置、计算机设备及存储介质
CN110062272B (zh) 2019-04-30 2021-09-28 腾讯科技(深圳)有限公司 一种视频数据处理方法和相关装置
CN111901658B (zh) * 2019-05-06 2022-07-22 腾讯科技(深圳)有限公司 评论信息显示方法、装置、终端及存储介质
CN110162350B (zh) * 2019-05-27 2022-10-25 天津卓漫科技有限公司 通知栏信息的显示方法、装置、服务器及存储介质
JP7434762B2 (ja) * 2019-09-10 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及系统
CN112702643B (zh) * 2019-10-22 2023-07-21 上海哔哩哔哩科技有限公司 弹幕信息显示方法、装置、移动终端
US11328031B2 (en) 2020-07-11 2022-05-10 International Business Machines Corporation Automatically generated timestamps based on comment
CN112255628A (zh) * 2020-10-09 2021-01-22 新石器慧义知行智驰(北京)科技有限公司 障碍物轨迹预测方法、装置、设备和介质
CN112272330B (zh) * 2020-10-30 2023-07-18 南京维沃软件技术有限公司 显示方法、装置和电子设备
CN114449326A (zh) * 2020-11-06 2022-05-06 上海哔哩哔哩科技有限公司 视频标注方法、客户端、服务器及系统
CN112614154B (zh) * 2020-12-08 2024-01-19 深圳市优必选科技股份有限公司 目标跟踪轨迹的获取方法、装置及计算机设备
CN112637670B (zh) * 2020-12-15 2022-07-29 上海哔哩哔哩科技有限公司 视频生成方法及装置
CN113111269B (zh) * 2021-05-10 2022-06-10 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN114302234B (zh) * 2021-12-29 2023-11-07 杭州当虹科技股份有限公司 一种空中技巧快速包装方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004128614A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 画像表示制御装置及び画像表示制御プログラム
JP2008148071A (ja) * 2006-12-11 2008-06-26 Dowango:Kk 表示装置、コメント表示方法、及びプログラム
JP2009081592A (ja) * 2007-09-26 2009-04-16 Hitachi Ltd 映像記録装置
JP2010244437A (ja) * 2009-04-08 2010-10-28 Sony Corp 画像処理装置、画像処理方法およびコンピュータプログラム
JP2012129749A (ja) * 2010-12-14 2012-07-05 Canon Inc 画像処理装置、画像処理方法、プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002262246A (ja) * 2001-03-05 2002-09-13 Mitsubishi Electric Corp 出力情報制御装置及び出力情報制御方法
JP3721397B2 (ja) 2001-10-22 2005-11-30 独立行政法人情報通信研究機構 話し言葉の書き言葉への変換装置
JP3982295B2 (ja) 2002-03-20 2007-09-26 日本電信電話株式会社 映像コメント入力・表示方法およびシステムと、クライアント装置と、映像コメント入力・表示プログラム及びその記録媒体
JP2005251034A (ja) * 2004-03-05 2005-09-15 Konami Co Ltd 文字列表示システム、文字列表示方法及びプログラム
CN100471255C (zh) * 2006-10-25 2009-03-18 浙江大学 用于制作和播放具有热点区域的交互式视频的方法
JP2009253342A (ja) 2008-04-01 2009-10-29 Sony Corp 情報処理装置および方法
US8566353B2 (en) * 2008-06-03 2013-10-22 Google Inc. Web-based system for collaborative generation of interactive videos
JP5474953B2 (ja) * 2008-06-18 2014-04-16 ヴァイアップ リミテッド 商品情報のタグ付け
CN102292713A (zh) * 2009-06-30 2011-12-21 唐桥科技有限公司 多媒体协作系统
WO2012101723A1 (ja) 2011-01-26 2012-08-02 パナソニック株式会社 関節領域表示装置、関節領域検出装置、関節領域帰属度算出装置、関節状領域帰属度算出装置および関節領域表示方法
US8990690B2 (en) * 2011-02-18 2015-03-24 Futurewei Technologies, Inc. Methods and apparatus for media navigation
US20140012910A1 (en) * 2012-07-09 2014-01-09 Mobitude, LLC, a Delaware LLC Video comment feed

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004128614A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 画像表示制御装置及び画像表示制御プログラム
JP2008148071A (ja) * 2006-12-11 2008-06-26 Dowango:Kk 表示装置、コメント表示方法、及びプログラム
JP2009081592A (ja) * 2007-09-26 2009-04-16 Hitachi Ltd 映像記録装置
JP2010244437A (ja) * 2009-04-08 2010-10-28 Sony Corp 画像処理装置、画像処理方法およびコンピュータプログラム
JP2012129749A (ja) * 2010-12-14 2012-07-05 Canon Inc 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
CN103797783B (zh) 2017-09-29
JPWO2014013690A1 (ja) 2016-06-30
US20160309239A1 (en) 2016-10-20
WO2014013690A1 (ja) 2014-01-23
CN103797783A (zh) 2014-05-14
US9681201B2 (en) 2017-06-13
US20140196082A1 (en) 2014-07-10

Similar Documents

Publication Publication Date Title
JP5659307B2 (ja) コメント情報生成装置およびコメント情報生成方法
US9398349B2 (en) Comment information generation device, and comment display device
US20180088679A1 (en) Motion-Assisted Visual Language for Human Computer Interfaces
CN107430629B (zh) 计算机呈现中的视觉内容的分优先级显示
US10861159B2 (en) Method, system and computer program product for automatically altering a video stream
JP5857450B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10248216B2 (en) Method for operating terminal device with gesture and device
CN110322542B (zh) 重建真实世界3d场景的视图
CN110035329B (zh) 图像处理方法、装置及存储介质
EP2428036B1 (en) Systems and methods for the autonomous production of videos from multi-sensored data
US20180189975A1 (en) Information processing apparatus and information processing method
US11184558B1 (en) System for automatic video reframing
JP2012248070A (ja) 情報処理装置、メタデータ設定方法、及びプログラム
CN109960452B (zh) 图像处理方法及其装置、存储介质
JP2011076255A (ja) ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム
WO2010073177A1 (en) Image processing
CN112752158B (zh) 一种视频展示的方法、装置、电子设备及存储介质
US8494216B2 (en) Image processing device and image processing method and program
WO2023160617A1 (zh) 视频插帧处理方法、视频插帧处理装置和可读存储介质
JP2007006111A (ja) トリミング制御装置及びトリミング制御プログラム
Cho et al. Temporal incoherence-free video retargeting using foreground aware extrapolation
Lee Novel video stabilization for real-time optical character recognition applications
JP2006279413A (ja) 動きベクトル検出装置、画像表示装置、画像撮像装置、動きベクトル検出方法、プログラムおよび記録媒体
JP6212878B2 (ja) 画像処理装置、画像処理システム及びプログラム
JP4921543B2 (ja) トリミング制御装置及びトリミング制御プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141201

R150 Certificate of patent or registration of utility model

Ref document number: 5659307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

SZ03 Written request for cancellation of trust registration

Free format text: JAPANESE INTERMEDIATE CODE: R313Z03

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees