JP6378292B2 - 動画ファイル中の対象物を識別する方法 - Google Patents

動画ファイル中の対象物を識別する方法 Download PDF

Info

Publication number
JP6378292B2
JP6378292B2 JP2016223884A JP2016223884A JP6378292B2 JP 6378292 B2 JP6378292 B2 JP 6378292B2 JP 2016223884 A JP2016223884 A JP 2016223884A JP 2016223884 A JP2016223884 A JP 2016223884A JP 6378292 B2 JP6378292 B2 JP 6378292B2
Authority
JP
Japan
Prior art keywords
image
moving image
file
key frame
image file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016223884A
Other languages
English (en)
Other versions
JP2017103762A (ja
Inventor
イー チー ルー
イー チー ルー
Original Assignee
ブラボ アイディアズ デジタル カンパニー,リミティド
ブラボ アイディアズ デジタル カンパニー,リミティド
イー チー ルー
イー チー ルー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブラボ アイディアズ デジタル カンパニー,リミティド, ブラボ アイディアズ デジタル カンパニー,リミティド, イー チー ルー, イー チー ルー filed Critical ブラボ アイディアズ デジタル カンパニー,リミティド
Publication of JP2017103762A publication Critical patent/JP2017103762A/ja
Application granted granted Critical
Publication of JP6378292B2 publication Critical patent/JP6378292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06V10/476Contour-based spatial representations, e.g. vector-coding using statistical shape modelling, e.g. point distribution models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • H04N21/4725End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content using interactive regions of the image, e.g. hot spots
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は動画ファイル中の対象物を識別する方法に関する。
米国特許出願公開第2015058160号には、インターネット商品を推奨する方法及びシステムが記載されている。この方法では、問合せのある商品の画像を受信すると、上記システムがその画像の色特徴を抽出した上で、複数のお勧め商品画像の中から、カラーマッチングで類似した適合商品画像を見つける。
具体的には、上記システムにより、商品画像のデータベースを検索し、問合せのある製品の画像の色特徴と商品画像の色特徴とを比較して、一致する商品画像を取得する。また、上記プロセスの効率を高めるために、機械学習が用いられる。
米国特許出願公開第2015058160号明細書
本発明の目的は、動画ファイル中の対象物を識別する方法を提供することにある。
本発明の一実施形態によれば、本方法は識別システムを用いて実行されるものであって、
(a)動画ファイルと画像を取得するステップと、
(b)前記画像に対してエッジ検出を行い対象物を取得するステップと、
(c)前記対象物の少なくとも1つの特徴を検出し、当該少なくとも1つの特徴に基づいて画像モデルを構成するステップと、
(d)前記動画ファイルから複数のキーフレームを順次抽出するステップと、
(e)前記複数のキーフレームのそれぞれに対して比較処理を行って前記キーフレームが前記画像モデルに対応する類似物を含んでいるか否かの判定を行うステップと、
(f)前記複数のキーフレームのそれぞれに対して、前記ステップ(e)における前記判定の結果が肯定的であるときに、前記キーフレームから前記類似物を含む部分を抽出して対象物画像を取得し、前記対象物画像の存在により前記動画ファイルにおいて前記対象物が識別されたことが示されるステップと、を含む。
本発明の他の特徴および利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になるであろう。
本発明の一実施形態による識別システムを示すブロック図である。 本発明の一実施形態による識別システムにより実行される動画ファイル中の対象物を識別する方法における各ステップを示すフローチャートである。 画像と、画像から取得された対象物と、対象物を基に構成された画像モデルとを示す図である。 動画ファイルと、キーフレームとして選択抽出されたフレームを例示する図である。 本発明の一実施形態による各キーフレームに対する比較処理を示す図である。 本発明の一実施形態による結合動画ファイルを生成するための識別システムを示すブロック図である。 本発明の一実施形態による結合動画ファイルを生成する方法における各ステップを示すフローチャートである。 対象物画像に関する画像情報を入力するためのセットアップページを示す図である。 結合動画ファイルを出力するためのオンラインメディア再生インターフェースを示す図である。
本発明をより詳細に説明する前に、適切と考えられる場合において、符号又は符号の末端部は、同様の特性を有し得る対応の又は類似の要素を示すために各図面間で繰り返し用いられることに留意されたい。
図1には、本発明の一実施形態による識別システム1が示されている。識別システム1は、電子機器11と、記憶装置12と、動画記録装置13を含む。
本実施形態において、電子機器11の具体例としては、パソコン、ポータブル電子機器(ノートパソコン、タッチスクリーンを有するタブレットコンピュータ等)、またはモバイル機器(スマートフォン、携帯型情報端末(PDA)等)が挙げられる。電子機器11は、通信モジュール111とプロセッサ112を具える。
記憶装置12の具体例としては、ハードディスクドライブ、フラッシュドライブ、ポータブルストレージドライブが挙げられ、電子機器11に一体に組み込まれていてもよく、或いは取り外し可能に電子機器11に接続されていてもよい。また、実施形態によっては、記憶装置12は、電子機器11とネットワークを介して通信可能なクラウドドライブであってもよい。
動画記録装置13は、電子機器11に一体に組み込まれていてもよく、或いは取り外し可能に電子機器11にネットワークを介して接続されていてもよく、動画ファイルを記録できるよう構成されている。
図2には、本発明の一実施形態による、識別システム1により実行される動画ファイル中の対象物を識別する方法における各ステップが示されている。以下、図1〜図5を合わせて参照されたい。
ステップ21では、識別システム1の電子機器11が動画ファイル4と画像51を取得する。
具体的には、動画ファイル4は、動画記録装置13により記録されたものか、或いは電子機器11に外付けされた記憶媒体(例えば記憶装置12やクラウドドライブ等)から取得されたものである。
動画ファイル4としては各種のフォーマットが用いられ、例えば、フラッシュビデオ(.flv、.f4v)、H.26xコーディング標準(H.263、H.264)、RealMedia(.rm)、アドバンストシステムフォーマット(.wmv)、Apple M4Vファイルフォーマット(.M4V)、QuickTimeムービー(.mov)、WebMファイルフォーマット(.webm)などが挙げられる。
画像51は、様々な方法で取得される。例としては、別個の電子機器を操作するユーザーが画像を識別システム1にアップロードする。また、画像51は識別システム1に外付けされた記憶媒体から取得されてもよく、或いはユーザーから提供されるリンクを介して取得されてもよい。実施形態によっては、画像51は3次元画像であり得る。画像のフォーマットとしては、例えば.bmp、.gif、.jpg、.jpeg、.pngそして.tifが挙げられる。
ステップ22では、電子機器11のプロセッサ112が画像51に対してエッジ検出を行い対象物511を取得する。
ここで、エッジ検出とは、例えば一セットのアルゴリズムにより画像51における複数のポイントを検出することを指す。これら複数のポイントは対象物511を画定するエッジとされる。
ステップ23では、プロセッサ112により対象物511の特徴を少なくとも1つ検出し、この少なくとも1つの特徴を基に画像モデル6を構成する。
具体的には、上記少なくとも1つの特徴を検出するプロセスにおいては、加速ロバスト特徴(SURF)等の局所的特徴検出アルゴリズムを用いることができる。SURFは、対象物511のスケール不変な特徴ポイントを特定するためにプロセッサ112に画像変換を実行させる。その後、上記少なくとも1つの特徴の記述子、例えば1組の特徴ベクトルが取得される。
図3に示されているように、本実施形態においては、ハンドバッグ(対象物511として検出されるもの)を持った人を示す画像51が用意されている。この例では、画像51はより大きな画像から切り出された部分画像である。対象物511の画像モデル6は3D再構成プロセスを用いて構成された3次元モデルである。即ち、画像モデル6は任意の角度から観察される。また、画像モデル6の輪郭も取得される。
ステップ24では、プロセッサ112は動画ファイル4から順次に複数のキーフレームを抽出する。そして、プロセッサ112は更にこれら複数のキーフレームのそれぞれに対して、キーフレームの動画ファイル4に関連するタイムインスタンスを記録する。
キーフレームは、動画ファイル4としての動画における遷移の開始および/または終了を示すものであってもよい。
例えば、動画ファイルの一例において、互いの差異が比較的小さい複数のフレームとしてのフレーム列が用意される(図4の上段を参照)。この例では、V及びVとそれぞれ示されている最初のフレーム及び最後のフレームがそれぞれキーフレームとして選ばれて抽出される(図4の下段を参照)。
キーフレームが抽出された後に、プロセッサ112はキーフレームのそれぞれに対して比較処理を行い、画像モデル6に対応する類似物(即ち、画像モデル6が関連付けられている対象物に類似する物体)がキーフレームに含まれているかどうかを判定する。
具体的には、上述したキーフレームのそれぞれに対して行う比較処理は、以下のステップを含む。
ステップ25では、キーフレーム内に比較の対象となる物体が存在する場合、プロセッサ112はその比較の対象となる物体と画像モデル6の輪郭との間の類似度を計算する。なお、このような処理は当業者にとって周知のものなので、簡潔を期すため詳細を省く。
算出された類似度が所定の閾値より大きいと判定された場合、ステップ26において、プロセッサ112は上記比較の対象となる物体の画像特徴を検出する。本実施形態においては、上記閾値は50%である。一方、算出された類似度が所定の閾値以下であると判定された場合、ステップ29に進む。なお、プロセッサ112が比較の対象となる物体の画像特徴を検出する方法は、対象物511の特徴を少なくとも1つ検出する方法と同じであってもよい。
ステップ27では、プロセッサ112は、比較の対象となる物体の画像特徴と画像モデル6とを比較する。より詳しく言うと、比較処理は、画像モデル6に対応する類似物をキーフレームが含んでいるか否かを判定するためになされるものであり、ここで画像モデル6は任意の角度で取得された3次元モデルである。
比較の対象となる物体の画像特徴が画像モデル6に一致すると判定された場合、ステップ28において、プロセッサ112は、比較の対象となる物体を類似物として分類し、キーフレームから当該類似物を含む一部分を抽出して対象物画像52を取得する。
具体的には、対象物画像52が類似物41を含むので、対象物画像52の存在は、動画ファイル4内において対象物511が特定されたことを示すと言える。
図5には、一例として、動画ファイル4から350個のキーフレームが抽出され、対象物511はハンドバッグである例が示される。画像モデル6は、任意の角度から観察したハンドバッグに関する情報を含む。比較処理においては、20番目のキーフレームが比較の対象となる物体を含み、プロセッサ112は、比較の対象となる物体が、前面側から観察した画像モデル6と対応すると判定する。従って、20番目のキーフレームは類似物41を含むと判定され、続いて対象物画像52の抽出に用いられる。
その後、150番目と350番目のキーフレームもそれぞれ比較の対象となる物体を含むと判定され、そしてプロセッサ112は、それらに含まれる比較の対象となる物体が、側面側からまた底面側から観察された画像モデル6とそれぞれ対応すると判定する。従って、更に2つの対象物画像52が抽出される。
これに加えて、プロセッサ112は、キーフレームのタイムインスタンスに基づいて、対象物画像52の動画ファイル4における時間点を取得するようにしてもよい。
ステップ29では、プロセッサ112は、現下のキーフレームが最後のキーフレームであるか否かを判定する。現下のキーフレームが最後のキーフレームであると判定された場合には本方法を終了する。そうでない場合、ステップ30に進み、次のキーフレームを選択してからステップ25に戻り、比較処理を再び行う。
実施において、本方法は様々な応用が可能である。例えば、車両を識別したい場合、対象物511としてはナンバープレートが用いられ、動画ファイル4としては交通監視システムにより記録されたビデオフィルムが用いられる。同様に、人を識別したい場合、対象物511としては人の顔が用いられる。
実施形態によっては、抽出された対象物画像52は動画ファイル4と共に結合動画ファイルを作成するために利用される。
図6に示されているように、識別システム1の電子機器11は、外部電子機器14と接続され、そこからユーザーが入力する指示を受信するようにしてもよい。
図7には、結合動画を生成するための方法における各ステップが示されている。
ステップ32では、外部電子機器14からの指示に応じて、プロセッサ112は制御信号を生成してこれを外部電子機器14に送信し、外部電子機器14にステップ28にて取得された対象物画像52を表示させるよう制御する。
実施形態によっては、外部電子機器14は、ユーザーが入力する指示を受け取るようにディスプレイインターフェース(図示せず)を含み、入力された指示に応じて、対象物画像52をディスプレイインターフェースに表示する。
ステップ33では、対象物画像52の内の1つを指し示す外部からのトリガー信号の受信に応じて、プロセッサ112は、外部電子機器14を制御して当該1つの対象物画像52に関する画像情報を入力するためのセットアップページ7を表示させる。
図8に示されているように、セットアップページ7に表示される画像情報は、当該1つの対象物画像52と、動画ファイル4と、当該1つの対象物画像52に含まれている類似物41に関連するウェブサイトのハイパーリンクと、類似物41の名称と、類似物41の価格等が含まれ得る。
ステップ34では、プロセッサ112は当該1つの対象物画像52に関する画像情報の入力を受信する。なお、複数の対象物画像52に関する画像情報が結合動画において入手できることが望まれる場合、ステップ33とステップ34が繰り返される。
ステップ35では、プロセッサ112は、動画ファイル4と上記1つの対象物画像52を結合させて結合動画ファイルを生成する。
ステップ36では、プロセッサ112は、結合動画ファイルの出力のために、オンラインメディア再生インターフェース8(図9参照)を作成する。また、プロセッサ112は通信モジュール111を制御してオンラインメディア再生インターフェース8をウェブサイトにアップロードしたりオンラインメディア再生インターフェース8をアプリケーションに組み込んだりしてもよい。
図9に示されているように、オンラインメディア再生インターフェース8は、動画ファイル4を再生するための第1のフレーム81と、上記1つの対象物画像52を表示させるための第2のフレーム82とを有する。
実施形態によっては、結合動画ファイルは、動画ファイル4がオンラインメディア再生インターフェース8の第1のフレーム81で再生されている時に、再生中の動画ファイル4の時間軸83における各時間点で対象物画像52を表示する方法で作成される多数の対象物画像52を含んでもよい。
また、他の実施形態では、キーフレームに複数の類似物が含まれてもよい。その後に、これら複数の類似物にそれぞれ対応する複数の対象物画像が取得される。その結果、動画ファイル4がオンラインメディア再生インターフェース8の第1のフレーム81で再生されている時に、複数の対象物画像52を同時に第2のフレーム82で表示する方法で結合動画ファイルが作成される。
総括すると、上記の各実施形態で開示した方法によって、与えられた画像51にふさわしい動画ファイル4中の類似物41を識別する方法が提供される。本方法はその実施のために機械学習やデータベースを必要としないので、より効果的に実行することができる。特に、本方法の実行にかかる時間は、動画ファイル4の長さの一部(3分の1から4分の1)と同じくらいの短さである。更に、本方法は、画像51として3次元画像を扱うことも可能であり、従って応用範囲が広い。
また、結合動画ファイルが生成される場合には、類似物41を含む各対象物52が、動画ファイル4におけるそれぞれの時間点で識別され、結合動画ファイルが様々な目的(例えば商業目的)に応用されることを可能とする。
上記においては、本発明の全体的な理解を促すべく、多くの具体的な詳細が示された。しかしながら、当業者であれば、一またはそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一つの実施形態」「一実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本説明において、時には複数の変化例が一つの実施形態、態様に組み込まれているが、これは本説明を合理化させるためのもので、また、本発明の多面性が理解されることを目的としたものである。

Claims (12)

  1. 識別システム(1)を用いて実行される、動画ファイル(4)中の対象物(511)を識別する方法であって、
    (a1)前記識別システム(1)に外付けされた記憶媒体と、動画記録装置とのうちの一方から動画ファイル(4)を取得するステップと、
    (a2)ユーザによって入力された画像(51)を取得するステップと、
    (b)前記画像(51)に対してエッジ検出を行い対象物(511)を取得するステップと、
    (c)前記対象物(511)の少なくとも1つの特徴を検出し、当該少なくとも1つの特徴に基づいて画像モデル(6)を構成するステップと、
    (d)前記動画ファイル(4)から複数のキーフレームを順次抽出するステップと、
    (e)前記複数のキーフレームのそれぞれに対して比較処理を行って前記キーフレームが前記画像モデル(6)に対応する類似物を含んでいるか否かの判定を行うステップと、
    (f)前記複数のキーフレームのそれぞれに対して、前記ステップ(e)における前記判定の結果が肯定的であるときに、前記キーフレームから前記類似物を含む部分を抽出して対象物画像(52)を取得し、前記対象物画像(52)の存在により前記動画ファイル(4)において前記対象物(511)が識別されたことが示されるステップと、を含む、方法。
  2. 前記ステップ(d)は、前記複数のキーフレームのそれぞれに対して、前記キーフレームの前記動画ファイル(4)に関連するタイムインスタンスを記録することを含み、
    前記ステップ(f)は、前記対象物画像(52)が取得された前記キーフレームの前記タイムインスタンスに基づいて前記対象物画像(52)の前記動画ファイル(4)における時間点を取得することを含む、請求項1に記載の方法。
  3. 前記ステップ(c)において前記画像モデル(6)は3次元モデルであり、前記ステップ(e)において前記比較処理は、前記キーフレームが、任意の角度から観察された前記画像モデル(6)に対応する前記類似物を含むか否かを判定するように行う、請求項1または2に記載の方法。
  4. 前記ステップ(c)は、前記画像モデル(6)の輪郭を取得することを含み、前記ステップ(e)において、前記複数のキーフレームのそれぞれに対する前記比較処理は、
    前記キーフレーム内に比較の対象となる物体が存在するときに、当該比較の対象となる物体と前記画像モデル(6)の前記輪郭との間の類似度を計算するサブステップと、
    前記類似度が所定の閾値よりも大きいときに、当該比較の対象となる物体の画像特徴を検出するサブステップと、
    当該比較の対象となる物体の前記画像特徴と前記画像モデル(6)とを比較するサブステップと、
    当該比較の対象となる物体の前記画像特徴が前記画像モデル(6)と一致すると判定されたときに、当該比較の対象となる物体が類似物であると判定するサブステップと、含む、請求項1〜3のいずれか一項に記載の方法。
  5. 前記所定の閾値が50%である、請求項4に記載の方法。
  6. 前記ステップ(c)において、前記対象物(511)の前記少なくとも1つの特徴は、加速ロバスト特徴(SURF)検出器を用いて検出する、請求項1〜のいずれか一項に記載の方法。
  7. 前記ステップ(f)の後に、更に、
    (g)前記動画ファイル(4)と、前記ステップ(f)で取得された前記対象物画像(52)とを結合して結合動画ファイル(4)を生成するステップと、
    (h)前記結合動画ファイル(4)の出力のために、前記動画ファイル(4)を再生するための第1のフレームと、前記対象物画像(52)を表示させるための第2のフレームとを有するオンラインメディア再生インターフェースを作成するステップと、を更に含む、請求項1〜のいずれか一項に記載の方法。
  8. 前記ステップ(d)においては、前記複数のキーフレームのそれぞれに対して、前記識別システム(1)が前記キーフレームの前記動画ファイル(4)に関連するタイムインスタンスを記録し、
    前記ステップ(f)において、前記識別システム(1)は、前記キーフレームの前記タイムインスタンスに基づいて前記対象物画像(52)の前記動画ファイル(4)における時間点を取得し、
    前記ステップ(g)において、前記結合動画ファイル(4)は、前記オンラインメディア再生インターフェースに出力されるときに、前記対象物画像(52)が、再生中の前記動画ファイル(4)の時間軸における前記時間点で表示される方式で作成される、請求項に記載の方法。
  9. 前記ステップ(e)において、前記キーフレームは複数の類似物を含み、
    前記ステップ(f)において、前記複数の類似物にそれぞれ対応する複数の対象物画像(52)が取得され、
    前記ステップ(g)において、前記結合動画ファイル(4)は、前記オンラインメディア再生インターフェースに出力されるときに、前記複数の対象物画像(52)が前記第2のフレームに同時に表示される方式で作成される、請求項に記載の方法。
  10. 前記ステップ(f)と前記ステップ(g)との間に、更に、
    前記ステップ(f)で取得された前記対象物画像(52)を表示するステップと、
    前記対象物画像(52)を指し示す外部からのトリガー信号の受信に応じて、前記対象物画像(52)に関する画像情報を入力するためのセットアップページを表示するステップと、を含む、請求項に記載の方法。
  11. 前記画像情報は、前記対象物画像(52)に含まれる前記類似物に関連するウェブサイトにリンクする少なくとも1つのハイパーリンクと、前記類似物の名称と、前記類似物の価格を含む、請求項10に記載の方法。
  12. 前記画像(51)が3次元画像である、請求項1〜11のいずれか一項に記載の方法。
JP2016223884A 2015-11-18 2016-11-17 動画ファイル中の対象物を識別する方法 Active JP6378292B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW104137999A TWI582710B (zh) 2015-11-18 2015-11-18 The method of recognizing the object of moving image and the interactive film establishment method of automatically intercepting target image
TW104137999 2015-11-18

Publications (2)

Publication Number Publication Date
JP2017103762A JP2017103762A (ja) 2017-06-08
JP6378292B2 true JP6378292B2 (ja) 2018-08-22

Family

ID=58690165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016223884A Active JP6378292B2 (ja) 2015-11-18 2016-11-17 動画ファイル中の対象物を識別する方法

Country Status (4)

Country Link
US (1) US9928397B2 (ja)
JP (1) JP6378292B2 (ja)
KR (1) KR101901026B1 (ja)
TW (1) TWI582710B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI582710B (zh) * 2015-11-18 2017-05-11 Bravo Ideas Digital Co Ltd The method of recognizing the object of moving image and the interactive film establishment method of automatically intercepting target image
KR102612821B1 (ko) * 2017-12-11 2023-12-12 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법
CN110971939B (zh) * 2018-09-30 2022-02-08 武汉斗鱼网络科技有限公司 一种违规图片的识别方法及相关装置
CN109587512B (zh) * 2018-10-30 2020-10-02 视联动力信息技术股份有限公司 一种音视频数据的存储方法和系统
CN109495616B (zh) * 2018-11-30 2021-02-26 维沃移动通信(杭州)有限公司 一种拍照方法及终端设备
CN110244925B (zh) * 2019-04-30 2023-05-09 深圳数联天下智能科技有限公司 影像显示装置、方法和系统
WO2021007846A1 (zh) * 2019-07-18 2021-01-21 华为技术有限公司 一种视频相似检测的方法、装置及设备
CN113469200A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法和系统、存储介质、计算设备
CN111967062A (zh) * 2020-08-21 2020-11-20 支付宝(杭州)信息技术有限公司 基于区块链的数据处理系统、方法及装置
CN114637890A (zh) * 2020-12-16 2022-06-17 花瓣云科技有限公司 在图像画面中显示标签的方法、终端设备及存储介质
CN112434684B (zh) * 2021-01-27 2021-04-27 萱闱(北京)生物科技有限公司 基于目标检测的图像显示方法、介质、装置和计算设备
CN113822849A (zh) * 2021-06-11 2021-12-21 腾讯科技(深圳)有限公司 识别码检测方法及装置、电子设备和存储介质
CN113792600B (zh) * 2021-08-10 2023-07-18 武汉光庭信息技术股份有限公司 一种基于深度学习的视频抽帧方法和系统
CN114567798B (zh) * 2022-02-28 2023-12-12 南京烽火星空通信发展有限公司 一种针对互联网短视频变种的溯源方法
CN114979745A (zh) * 2022-05-06 2022-08-30 维沃移动通信有限公司 视频处理方法、装置、电子设备及可读存储介质
TWI794132B (zh) * 2022-09-19 2023-02-21 威盛電子股份有限公司 偵測誤判物件的系統

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347508B2 (ja) * 1995-02-24 2002-11-20 キヤノン株式会社 撮像画像処理装置および撮像画像処理方法
US5999651A (en) * 1997-06-06 1999-12-07 Matsushita Electric Industrial Co., Ltd. Apparatus and method for tracking deformable objects
JP3549725B2 (ja) * 1998-04-13 2004-08-04 シャープ株式会社 画像処理装置
US6968004B1 (en) * 1999-08-04 2005-11-22 Kabushiki Kaisha Toshiba Method of describing object region data, apparatus for generating object region data, video processing method, and video processing apparatus
KR100415266B1 (ko) * 2000-05-11 2004-01-16 가부시끼가이샤 도시바 물체영역정보 기술방법과 물체영역정보 생성장치 및 기록매체
KR100413679B1 (ko) * 2000-10-21 2003-12-31 삼성전자주식회사 형상 기술자 추출방법
JP2004240750A (ja) * 2003-02-06 2004-08-26 Canon Inc 画像検索装置
JP4473754B2 (ja) * 2005-03-11 2010-06-02 株式会社東芝 仮想試着装置
US20060262112A1 (en) * 2005-05-23 2006-11-23 Carnegie Mellon University System and method for three-dimensional shape generation from partial and incomplete views, and interactive design system using same
EP1736928A1 (en) * 2005-06-20 2006-12-27 Mitsubishi Electric Information Technology Centre Europe B.V. Robust image registration
JP2007072918A (ja) * 2005-09-08 2007-03-22 Fuji Xerox Co Ltd 情報検索システム
US8036416B2 (en) * 2007-11-06 2011-10-11 Palo Alto Research Center Incorporated Method and apparatus for augmenting a mirror with information related to the mirrored contents and motion
JP4627553B2 (ja) * 2008-03-28 2011-02-09 株式会社日立製作所 プラントの制御装置および火力発電プラントの制御装置
JP5104743B2 (ja) * 2008-12-16 2012-12-19 富士通株式会社 画像検索プログラム、画像検索方法及び記録媒体
JPWO2010122721A1 (ja) * 2009-04-22 2012-10-25 日本電気株式会社 照合装置、照合方法および照合プログラム
JP5479230B2 (ja) * 2010-05-31 2014-04-23 楽天株式会社 情報表示プログラム、情報表示プログラムを記録したコンピュータ読み取り可能な記録媒体、情報表示方法、情報表示装置及び情報提供システム
KR20110131947A (ko) * 2010-06-01 2011-12-07 삼성전자주식회사 영상 처리 장치 및 방법
TWI394087B (zh) * 2010-12-31 2013-04-21 Ind Tech Res Inst 追蹤目標物的方法及裝置
WO2012128121A1 (ja) * 2011-03-18 2012-09-27 国立大学法人岐阜大学 パノラマエックス線写真を利用した診断支援システム、及びパノラマエックス線写真を利用した診断支援プログラム
GB2506028B (en) * 2011-04-12 2018-11-28 Nat Univ Singapore In-video product annotation with web information mining
KR101804848B1 (ko) * 2011-04-22 2017-12-06 삼성전자주식회사 비디오 객체 탐색 장치, 비디오 객체 변형 장치 및 그 방법
JP5485954B2 (ja) * 2011-09-06 2014-05-07 東芝テック株式会社 店舗システム及びプログラム
EP2754131B1 (en) * 2011-09-08 2022-10-26 Nautilus, Inc. System and method for visualizing synthetic objects withinreal-world video clip
WO2013040673A1 (en) * 2011-09-19 2013-03-28 The University Of British Columbia Method and systems for interactive 3d image segmentation
US9152888B2 (en) * 2012-09-13 2015-10-06 Los Alamos National Security, Llc System and method for automated object detection in an image
TWI501754B (zh) * 2012-10-19 2015-10-01 Univ Nat Taiwan Science Tech 影像辨識方法及影像辨識系統
CN104125392B (zh) * 2013-04-24 2017-10-10 株式会社摩如富 图像合成装置及图像合成方法
JP6281207B2 (ja) * 2013-08-14 2018-02-21 富士通株式会社 情報処理装置、情報処理方法、及びプログラム
TW201523459A (zh) * 2013-12-06 2015-06-16 Utechzone Co Ltd 物件追蹤方法及電子裝置
TWI528790B (zh) * 2013-12-13 2016-04-01 瑞昱半導體股份有限公司 多媒體系統之視窗偵測裝置與方法
US9474495B2 (en) * 2014-12-22 2016-10-25 General Electric Company System and method for joint estimation of attenuation and activity information
US9641794B2 (en) * 2015-01-09 2017-05-02 Avigilon Fortress Corporation Smudge removal
KR20160093291A (ko) * 2015-01-29 2016-08-08 한국전자통신연구원 사용자 단말 및 상기 사용자 단말이 수행하는 액세서리 정보 제공 방법
US10609307B2 (en) * 2015-09-28 2020-03-31 Gopro, Inc. Automatic composition of composite images or videos from frames captured with moving camera
TWI582710B (zh) * 2015-11-18 2017-05-11 Bravo Ideas Digital Co Ltd The method of recognizing the object of moving image and the interactive film establishment method of automatically intercepting target image

Also Published As

Publication number Publication date
JP2017103762A (ja) 2017-06-08
US9928397B2 (en) 2018-03-27
US20170140541A1 (en) 2017-05-18
KR20170058301A (ko) 2017-05-26
TW201719502A (zh) 2017-06-01
KR101901026B1 (ko) 2018-09-20
TWI582710B (zh) 2017-05-11

Similar Documents

Publication Publication Date Title
JP6378292B2 (ja) 動画ファイル中の対象物を識別する方法
JP7181437B2 (ja) 制御されていない照明条件の画像中の肌色を識別する技術
US20210166035A1 (en) Selecting and presenting representative frames for video previews
KR101535579B1 (ko) 증강 현실 인터액션 구현 방법 및 시스템
US20170065888A1 (en) Identifying And Extracting Video Game Highlights
US8107689B2 (en) Apparatus, method and computer program for processing information
US10169684B1 (en) Methods and systems for recognizing objects based on one or more stored training images
US20220172476A1 (en) Video similarity detection method, apparatus, and device
US20170068643A1 (en) Story albums
EP2674911B1 (en) Differing region detection system and differing region detection method
TW201340690A (zh) 視訊推薦系統及其方法
CN103608826A (zh) 利用网络信息挖掘的视频内产品注释
CN112714349B (zh) 数据处理方法、商品展示方法和视频播放方法
CN113329261B (zh) 视频处理方法及装置
US9165220B2 (en) Image object recognition based on a feature vector with context information
KR102592904B1 (ko) 영상 요약 장치 및 방법
WO2019127940A1 (zh) 视频分类模型训练方法、装置、存储介质及电子设备
US20160027050A1 (en) Method of providing advertisement service using cloud album
US9224069B2 (en) Program, method and apparatus for accumulating images that have associated text information
KR101640317B1 (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
JP6132996B1 (ja) 画像処理装置,画像処理方法,画像処理プログラム
CN116109368A (zh) 用于电子商务应用的图像和视频实例关联
JP6794740B2 (ja) プレゼンテーション資料生成装置、プレゼンテーション資料生成システム、コンピュータプログラム及びプレゼンテーション資料生成方法
US20160105731A1 (en) Systems and methods for identifying and acquiring information regarding remotely displayed video content
US10489654B1 (en) Video analysis method and system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180726

R150 Certificate of patent or registration of utility model

Ref document number: 6378292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250