JP6378292B2

JP6378292B2 - 動画ファイル中の対象物を識別する方法

Info

Publication number: JP6378292B2
Application number: JP2016223884A
Authority: JP
Inventors: イーチールー
Original assignee: ブラボアイディアズデジタルカンパニー，リミティド; イーチールー
Priority date: 2015-11-18
Filing date: 2016-11-17
Publication date: 2018-08-22
Anticipated expiration: 2036-11-17
Also published as: JP2017103762A; US9928397B2; US20170140541A1; KR20170058301A; TW201719502A; KR101901026B1; TWI582710B

Description

本発明は動画ファイル中の対象物を識別する方法に関する。

米国特許出願公開第２０１５０５８１６０号には、インターネット商品を推奨する方法及びシステムが記載されている。この方法では、問合せのある商品の画像を受信すると、上記システムがその画像の色特徴を抽出した上で、複数のお勧め商品画像の中から、カラーマッチングで類似した適合商品画像を見つける。

具体的には、上記システムにより、商品画像のデータベースを検索し、問合せのある製品の画像の色特徴と商品画像の色特徴とを比較して、一致する商品画像を取得する。また、上記プロセスの効率を高めるために、機械学習が用いられる。

米国特許出願公開第２０１５０５８１６０号明細書

本発明の目的は、動画ファイル中の対象物を識別する方法を提供することにある。

本発明の一実施形態によれば、本方法は識別システムを用いて実行されるものであって、
（ａ）動画ファイルと画像を取得するステップと、
（ｂ）前記画像に対してエッジ検出を行い対象物を取得するステップと、
（ｃ）前記対象物の少なくとも１つの特徴を検出し、当該少なくとも１つの特徴に基づいて画像モデルを構成するステップと、
（ｄ）前記動画ファイルから複数のキーフレームを順次抽出するステップと、
（ｅ）前記複数のキーフレームのそれぞれに対して比較処理を行って前記キーフレームが前記画像モデルに対応する類似物を含んでいるか否かの判定を行うステップと、
（ｆ）前記複数のキーフレームのそれぞれに対して、前記ステップ（ｅ）における前記判定の結果が肯定的であるときに、前記キーフレームから前記類似物を含む部分を抽出して対象物画像を取得し、前記対象物画像の存在により前記動画ファイルにおいて前記対象物が識別されたことが示されるステップと、を含む。

本発明の他の特徴および利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になるであろう。

本発明の一実施形態による識別システムを示すブロック図である。本発明の一実施形態による識別システムにより実行される動画ファイル中の対象物を識別する方法における各ステップを示すフローチャートである。画像と、画像から取得された対象物と、対象物を基に構成された画像モデルとを示す図である。動画ファイルと、キーフレームとして選択抽出されたフレームを例示する図である。本発明の一実施形態による各キーフレームに対する比較処理を示す図である。本発明の一実施形態による結合動画ファイルを生成するための識別システムを示すブロック図である。本発明の一実施形態による結合動画ファイルを生成する方法における各ステップを示すフローチャートである。対象物画像に関する画像情報を入力するためのセットアップページを示す図である。結合動画ファイルを出力するためのオンラインメディア再生インターフェースを示す図である。

本発明をより詳細に説明する前に、適切と考えられる場合において、符号又は符号の末端部は、同様の特性を有し得る対応の又は類似の要素を示すために各図面間で繰り返し用いられることに留意されたい。

図１には、本発明の一実施形態による識別システム１が示されている。識別システム１は、電子機器１１と、記憶装置１２と、動画記録装置１３を含む。

本実施形態において、電子機器１１の具体例としては、パソコン、ポータブル電子機器（ノートパソコン、タッチスクリーンを有するタブレットコンピュータ等）、またはモバイル機器（スマートフォン、携帯型情報端末（ＰＤＡ）等）が挙げられる。電子機器１１は、通信モジュール１１１とプロセッサ１１２を具える。

記憶装置１２の具体例としては、ハードディスクドライブ、フラッシュドライブ、ポータブルストレージドライブが挙げられ、電子機器１１に一体に組み込まれていてもよく、或いは取り外し可能に電子機器１１に接続されていてもよい。また、実施形態によっては、記憶装置１２は、電子機器１１とネットワークを介して通信可能なクラウドドライブであってもよい。

動画記録装置１３は、電子機器１１に一体に組み込まれていてもよく、或いは取り外し可能に電子機器１１にネットワークを介して接続されていてもよく、動画ファイルを記録できるよう構成されている。

図２には、本発明の一実施形態による、識別システム１により実行される動画ファイル中の対象物を識別する方法における各ステップが示されている。以下、図１〜図５を合わせて参照されたい。

ステップ２１では、識別システム１の電子機器１１が動画ファイル４と画像５１を取得する。

具体的には、動画ファイル４は、動画記録装置１３により記録されたものか、或いは電子機器１１に外付けされた記憶媒体（例えば記憶装置１２やクラウドドライブ等）から取得されたものである。

動画ファイル４としては各種のフォーマットが用いられ、例えば、フラッシュビデオ（.flv、.f4v）、H.26xコーディング標準（H.263、H.264）、RealMedia（.rm）、アドバンストシステムフォーマット（.wmv）、Apple M4Vファイルフォーマット（.M4V）、QuickTimeムービー（.mov）、WebMファイルフォーマット（.webm）などが挙げられる。

画像５１は、様々な方法で取得される。例としては、別個の電子機器を操作するユーザーが画像を識別システム１にアップロードする。また、画像５１は識別システム１に外付けされた記憶媒体から取得されてもよく、或いはユーザーから提供されるリンクを介して取得されてもよい。実施形態によっては、画像５１は３次元画像であり得る。画像のフォーマットとしては、例えば.bmp、.gif、.jpg、.jpeg、.pngそして.tifが挙げられる。

ステップ２２では、電子機器１１のプロセッサ１１２が画像５１に対してエッジ検出を行い対象物５１１を取得する。

ここで、エッジ検出とは、例えば一セットのアルゴリズムにより画像５１における複数のポイントを検出することを指す。これら複数のポイントは対象物５１１を画定するエッジとされる。

ステップ２３では、プロセッサ１１２により対象物５１１の特徴を少なくとも１つ検出し、この少なくとも１つの特徴を基に画像モデル６を構成する。

具体的には、上記少なくとも１つの特徴を検出するプロセスにおいては、加速ロバスト特徴（ＳＵＲＦ）等の局所的特徴検出アルゴリズムを用いることができる。ＳＵＲＦは、対象物５１１のスケール不変な特徴ポイントを特定するためにプロセッサ１１２に画像変換を実行させる。その後、上記少なくとも１つの特徴の記述子、例えば1組の特徴ベクトルが取得される。

図３に示されているように、本実施形態においては、ハンドバッグ（対象物５１１として検出されるもの）を持った人を示す画像５１が用意されている。この例では、画像５１はより大きな画像から切り出された部分画像である。対象物５１１の画像モデル６は３Ｄ再構成プロセスを用いて構成された３次元モデルである。即ち、画像モデル６は任意の角度から観察される。また、画像モデル６の輪郭も取得される。

ステップ２４では、プロセッサ１１２は動画ファイル４から順次に複数のキーフレームを抽出する。そして、プロセッサ１１２は更にこれら複数のキーフレームのそれぞれに対して、キーフレームの動画ファイル４に関連するタイムインスタンスを記録する。

キーフレームは、動画ファイル４としての動画における遷移の開始および/または終了を示すものであってもよい。

例えば、動画ファイルの一例において、互いの差異が比較的小さい複数のフレームとしてのフレーム列が用意される（図４の上段を参照）。この例では、Ｖ_１及びＶ_Ｎとそれぞれ示されている最初のフレーム及び最後のフレームがそれぞれキーフレームとして選ばれて抽出される（図４の下段を参照）。

キーフレームが抽出された後に、プロセッサ１１２はキーフレームのそれぞれに対して比較処理を行い、画像モデル６に対応する類似物（即ち、画像モデル６が関連付けられている対象物に類似する物体）がキーフレームに含まれているかどうかを判定する。

具体的には、上述したキーフレームのそれぞれに対して行う比較処理は、以下のステップを含む。

ステップ２５では、キーフレーム内に比較の対象となる物体が存在する場合、プロセッサ１１２はその比較の対象となる物体と画像モデル６の輪郭との間の類似度を計算する。なお、このような処理は当業者にとって周知のものなので、簡潔を期すため詳細を省く。

算出された類似度が所定の閾値より大きいと判定された場合、ステップ２６において、プロセッサ１１２は上記比較の対象となる物体の画像特徴を検出する。本実施形態においては、上記閾値は５０％である。一方、算出された類似度が所定の閾値以下であると判定された場合、ステップ２９に進む。なお、プロセッサ１１２が比較の対象となる物体の画像特徴を検出する方法は、対象物５１１の特徴を少なくとも１つ検出する方法と同じであってもよい。

ステップ２７では、プロセッサ１１２は、比較の対象となる物体の画像特徴と画像モデル６とを比較する。より詳しく言うと、比較処理は、画像モデル６に対応する類似物をキーフレームが含んでいるか否かを判定するためになされるものであり、ここで画像モデル６は任意の角度で取得された３次元モデルである。

比較の対象となる物体の画像特徴が画像モデル６に一致すると判定された場合、ステップ２８において、プロセッサ１１２は、比較の対象となる物体を類似物として分類し、キーフレームから当該類似物を含む一部分を抽出して対象物画像５２を取得する。

具体的には、対象物画像５２が類似物４１を含むので、対象物画像５２の存在は、動画ファイル４内において対象物５１１が特定されたことを示すと言える。

図５には、一例として、動画ファイル４から３５０個のキーフレームが抽出され、対象物５１１はハンドバッグである例が示される。画像モデル６は、任意の角度から観察したハンドバッグに関する情報を含む。比較処理においては、２０番目のキーフレームが比較の対象となる物体を含み、プロセッサ１１２は、比較の対象となる物体が、前面側から観察した画像モデル６と対応すると判定する。従って、２０番目のキーフレームは類似物４１を含むと判定され、続いて対象物画像５２の抽出に用いられる。

その後、１５０番目と３５０番目のキーフレームもそれぞれ比較の対象となる物体を含むと判定され、そしてプロセッサ１１２は、それらに含まれる比較の対象となる物体が、側面側からまた底面側から観察された画像モデル６とそれぞれ対応すると判定する。従って、更に２つの対象物画像５２が抽出される。

これに加えて、プロセッサ１１２は、キーフレームのタイムインスタンスに基づいて、対象物画像５２の動画ファイル４における時間点を取得するようにしてもよい。

ステップ２９では、プロセッサ１１２は、現下のキーフレームが最後のキーフレームであるか否かを判定する。現下のキーフレームが最後のキーフレームであると判定された場合には本方法を終了する。そうでない場合、ステップ３０に進み、次のキーフレームを選択してからステップ２５に戻り、比較処理を再び行う。

実施において、本方法は様々な応用が可能である。例えば、車両を識別したい場合、対象物５１１としてはナンバープレートが用いられ、動画ファイル４としては交通監視システムにより記録されたビデオフィルムが用いられる。同様に、人を識別したい場合、対象物５１１としては人の顔が用いられる。

実施形態によっては、抽出された対象物画像５２は動画ファイル４と共に結合動画ファイルを作成するために利用される。

図６に示されているように、識別システム１の電子機器１１は、外部電子機器１４と接続され、そこからユーザーが入力する指示を受信するようにしてもよい。

図７には、結合動画を生成するための方法における各ステップが示されている。

ステップ３２では、外部電子機器１４からの指示に応じて、プロセッサ１１２は制御信号を生成してこれを外部電子機器１４に送信し、外部電子機器１４にステップ２８にて取得された対象物画像５２を表示させるよう制御する。

実施形態によっては、外部電子機器１４は、ユーザーが入力する指示を受け取るようにディスプレイインターフェース（図示せず）を含み、入力された指示に応じて、対象物画像５２をディスプレイインターフェースに表示する。

ステップ３３では、対象物画像５２の内の１つを指し示す外部からのトリガー信号の受信に応じて、プロセッサ１１２は、外部電子機器１４を制御して当該１つの対象物画像５２に関する画像情報を入力するためのセットアップページ７を表示させる。

図８に示されているように、セットアップページ７に表示される画像情報は、当該１つの対象物画像５２と、動画ファイル４と、当該１つの対象物画像５２に含まれている類似物４１に関連するウェブサイトのハイパーリンクと、類似物４１の名称と、類似物４１の価格等が含まれ得る。

ステップ３４では、プロセッサ１１２は当該１つの対象物画像５２に関する画像情報の入力を受信する。なお、複数の対象物画像５２に関する画像情報が結合動画において入手できることが望まれる場合、ステップ３３とステップ３４が繰り返される。

ステップ３５では、プロセッサ１１２は、動画ファイル４と上記１つの対象物画像５２を結合させて結合動画ファイルを生成する。

ステップ３６では、プロセッサ１１２は、結合動画ファイルの出力のために、オンラインメディア再生インターフェース８（図９参照）を作成する。また、プロセッサ１１２は通信モジュール１１１を制御してオンラインメディア再生インターフェース８をウェブサイトにアップロードしたりオンラインメディア再生インターフェース８をアプリケーションに組み込んだりしてもよい。

図９に示されているように、オンラインメディア再生インターフェース８は、動画ファイル４を再生するための第１のフレーム８１と、上記１つの対象物画像５２を表示させるための第２のフレーム８２とを有する。

実施形態によっては、結合動画ファイルは、動画ファイル４がオンラインメディア再生インターフェース８の第１のフレーム８１で再生されている時に、再生中の動画ファイル４の時間軸８３における各時間点で対象物画像５２を表示する方法で作成される多数の対象物画像５２を含んでもよい。

また、他の実施形態では、キーフレームに複数の類似物が含まれてもよい。その後に、これら複数の類似物にそれぞれ対応する複数の対象物画像が取得される。その結果、動画ファイル４がオンラインメディア再生インターフェース８の第１のフレーム８１で再生されている時に、複数の対象物画像５２を同時に第２のフレーム８２で表示する方法で結合動画ファイルが作成される。

総括すると、上記の各実施形態で開示した方法によって、与えられた画像５１にふさわしい動画ファイル４中の類似物４１を識別する方法が提供される。本方法はその実施のために機械学習やデータベースを必要としないので、より効果的に実行することができる。特に、本方法の実行にかかる時間は、動画ファイル４の長さの一部（３分の１から４分の１）と同じくらいの短さである。更に、本方法は、画像５１として３次元画像を扱うことも可能であり、従って応用範囲が広い。

また、結合動画ファイルが生成される場合には、類似物４１を含む各対象物５２が、動画ファイル４におけるそれぞれの時間点で識別され、結合動画ファイルが様々な目的（例えば商業目的）に応用されることを可能とする。

上記においては、本発明の全体的な理解を促すべく、多くの具体的な詳細が示された。しかしながら、当業者であれば、一またはそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一つの実施形態」「一実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本説明において、時には複数の変化例が一つの実施形態、態様に組み込まれているが、これは本説明を合理化させるためのもので、また、本発明の多面性が理解されることを目的としたものである。

Claims

識別システム（１）を用いて実行される、動画ファイル（４）中の対象物（５１１）を識別する方法であって、
（ａ１）前記識別システム（１）に外付けされた記憶媒体と、動画記録装置とのうちの一方から動画ファイル（４）を取得するステップと、
（ａ２）ユーザによって入力された画像（５１）を取得するステップと、
（ｂ）前記画像（５１）に対してエッジ検出を行い対象物（５１１）を取得するステップと、
（ｃ）前記対象物（５１１）の少なくとも１つの特徴を検出し、当該少なくとも１つの特徴に基づいて画像モデル（６）を構成するステップと、
（ｄ）前記動画ファイル（４）から複数のキーフレームを順次抽出するステップと、
（ｅ）前記複数のキーフレームのそれぞれに対して比較処理を行って前記キーフレームが前記画像モデル（６）に対応する類似物を含んでいるか否かの判定を行うステップと、
（ｆ）前記複数のキーフレームのそれぞれに対して、前記ステップ（ｅ）における前記判定の結果が肯定的であるときに、前記キーフレームから前記類似物を含む部分を抽出して対象物画像（５２）を取得し、前記対象物画像（５２）の存在により前記動画ファイル（４）において前記対象物（５１１）が識別されたことが示されるステップと、を含む、方法。
前記ステップ（ｄ）は、前記複数のキーフレームのそれぞれに対して、前記キーフレームの前記動画ファイル（４）に関連するタイムインスタンスを記録することを含み、
前記ステップ（ｆ）は、前記対象物画像（５２）が取得された前記キーフレームの前記タイムインスタンスに基づいて前記対象物画像（５２）の前記動画ファイル（４）における時間点を取得することを含む、請求項１に記載の方法。
前記ステップ（ｃ）において前記画像モデル（６）は３次元モデルであり、前記ステップ（ｅ）において前記比較処理は、前記キーフレームが、任意の角度から観察された前記画像モデル（６）に対応する前記類似物を含むか否かを判定するように行う、請求項１または２に記載の方法。
前記ステップ（ｃ）は、前記画像モデル（６）の輪郭を取得することを含み、前記ステップ（ｅ）において、前記複数のキーフレームのそれぞれに対する前記比較処理は、
前記キーフレーム内に比較の対象となる物体が存在するときに、当該比較の対象となる物体と前記画像モデル（６）の前記輪郭との間の類似度を計算するサブステップと、
前記類似度が所定の閾値よりも大きいときに、当該比較の対象となる物体の画像特徴を検出するサブステップと、
当該比較の対象となる物体の前記画像特徴と前記画像モデル（６）とを比較するサブステップと、
当該比較の対象となる物体の前記画像特徴が前記画像モデル（６）と一致すると判定されたときに、当該比較の対象となる物体が類似物であると判定するサブステップと、含む、請求項１〜３のいずれか一項に記載の方法。
前記所定の閾値が５０％である、請求項４に記載の方法。
前記ステップ（ｃ）において、前記対象物（５１１）の前記少なくとも１つの特徴は、加速ロバスト特徴（ＳＵＲＦ）検出器を用いて検出する、請求項１〜５のいずれか一項に記載の方法。
前記ステップ（ｆ）の後に、更に、
（ｇ）前記動画ファイル（４）と、前記ステップ（ｆ）で取得された前記対象物画像（５２）とを結合して結合動画ファイル（４）を生成するステップと、
（ｈ）前記結合動画ファイル（４）の出力のために、前記動画ファイル（４）を再生するための第１のフレームと、前記対象物画像（５２）を表示させるための第２のフレームとを有するオンラインメディア再生インターフェースを作成するステップと、を更に含む、請求項１〜６のいずれか一項に記載の方法。
前記ステップ（ｄ）においては、前記複数のキーフレームのそれぞれに対して、前記識別システム（１）が前記キーフレームの前記動画ファイル（４）に関連するタイムインスタンスを記録し、
前記ステップ（ｆ）において、前記識別システム（１）は、前記キーフレームの前記タイムインスタンスに基づいて前記対象物画像（５２）の前記動画ファイル（４）における時間点を取得し、
前記ステップ（ｇ）において、前記結合動画ファイル（４）は、前記オンラインメディア再生インターフェースに出力されるときに、前記対象物画像（５２）が、再生中の前記動画ファイル（４）の時間軸における前記時間点で表示される方式で作成される、請求項７に記載の方法。
前記ステップ（ｅ）において、前記キーフレームは複数の類似物を含み、
前記ステップ（ｆ）において、前記複数の類似物にそれぞれ対応する複数の対象物画像（５２）が取得され、
前記ステップ（ｇ）において、前記結合動画ファイル（４）は、前記オンラインメディア再生インターフェースに出力されるときに、前記複数の対象物画像（５２）が前記第２のフレームに同時に表示される方式で作成される、請求項７に記載の方法。
前記ステップ（ｆ）と前記ステップ（ｇ）との間に、更に、
前記ステップ（ｆ）で取得された前記対象物画像（５２）を表示するステップと、
前記対象物画像（５２）を指し示す外部からのトリガー信号の受信に応じて、前記対象物画像（５２）に関する画像情報を入力するためのセットアップページを表示するステップと、を含む、請求項７に記載の方法。
前記画像情報は、前記対象物画像（５２）に含まれる前記類似物に関連するウェブサイトにリンクする少なくとも１つのハイパーリンクと、前記類似物の名称と、前記類似物の価格を含む、請求項１０に記載の方法。
前記画像（５１）が３次元画像である、請求項１〜１１のいずれか一項に記載の方法。