JP7105309B2

JP7105309B2 - 映像前処理方法、装置及びコンピュータプログラム

Info

Publication number: JP7105309B2
Application number: JP2020535971A
Authority: JP
Inventors: ジュン，テヨン
Original assignee: オ－ディーディーコンセプツインク．
Priority date: 2018-01-17
Filing date: 2019-01-17
Publication date: 2022-07-22
Anticipated expiration: 2039-01-17
Also published as: KR102102164B1; JP2021509201A; WO2019143137A1; KR20190087711A; US20210182566A1

Description

本発明は、映像前処理方法、装置及びコンピュータプログラムに関し、より詳細には、映像に含まれた客体の検索を容易にするための映像前処理方法、装置及びコンピュータプログラムに関する。

イメージ、ビデオなどのマルチメディアサービスの需要が増加し、携帯用マルチメディア機器が普遍化するにつれて、膨大な量のマルチメディアデータを管理し、消費者の所望するコンテンツを迅速且つ正確に捜して提供する効率的なマルチメディア検索システムの必要性も増大している。

従来は、映像に含まれた商品客体と類似の商品の情報を提供するサービスにおいて、イメージ検索を行うよりは、映像内の商品客体を管理者が別途に定義し、それを含む映像を提供する方式を多く利用した。このような方式は、特定映像に含まれた客体のうち、管理者の指定した客体に対してのみ類似商品の確認が可能であるという点で、消費者のニーズを満たすには限界があった。

ただし、映像に含まれた商品客体に対していちいち検索を行うには、データ処理量があまりにも膨大である問題がある。また、映像は一つ以上のフレーム（イメージ）からなっており、各フレームは複数の客体を含むので、数多くの客体中のいずれの客体をクエリーイメージと定義するかも問題になる。

映像に含まれた客体を識別するための技術として、韓国公開特許第１０－２００８－００７８２１７号（発明の名称：映像に含まれた客体索引方法とその索引情報を用いた付加サービス方法及びその映像処理装置、公開日：２００８．０８．２７．）がある。この先行文献は、特定映像に含まれた客体の認識のために映像に含まれた客体の相対的な位置を管理し保存するための仮想のフレームとセルを管理することによって、表示装置上で視聴者の指定した位置の客体を正確に判断できるようにする方法を提供している。

しかしながら、この先行文献は客体を識別する方法の一つを開示しているだけで、検索を効率的に行うために映像処理に要求されるリソースを減らす問題については認識していない。したがって、映像処理に要求されるリソースを最小化し、検索の正確性及び効率性を高める方案が望まれる。

本発明は、前述した問題点を解決するためのものであり、映像に含まれた客体の中から、検索の必要な客体を迅速且つ正確に識別することを一目的とする。

また、本発明は、客体ベースイメージ検索（Objective-based imaging search）の効率性を極大化し、映像処理に用いられるリソースを最小化できる映像処理方法を提供することを他の目的とする。

また、本発明は、映像を視聴する消費者が必要とする情報を正確に提供し、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供ができるように映像を処理することを他の目的とする。

このような目的を達成するための本発明は、任意の映像を処理する方法において、前記映像を、一つ以上のフレームを含む場面（ｓｃｅｎｅ）単位に区分する段階、前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階、前記検索対象フレームにおいて、あらかじめ設定された主題に関連した客体を識別する段階、前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階を含むこと特徴とする。

前述したような本発明によれば、映像に含まれた客体のうち、検索が必要な客体を迅速且つ正確に識別することができる。

また、本発明によれば、客体ベースイメージ検索の効率性を極大化し、映像処理に用いられるリソースを最小化することができる。

また、本発明によれば、映像を視聴する消費者が必要とする情報を正確に提供でき、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供が可能になる。

本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。本発明の一実施例に係る客体情報提供方法を説明するためのフローチャートである。本発明の一実施例に係る映像処理方法を説明するためのフローチャートである。本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。本発明の一実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。本発明の他の実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。本発明の一実施例によって映像において識別される客体を示す図である。

前述した目的、特徴及び長所が添付の図面を参照して詳しく後述され、これによって、本発明の属する技術の分野における通常の知識を有する者が本発明の技術的思想を容易に実施できるだろう。本発明を説明する上で本発明に関する公知技術の具体的な説明が本発明の要旨を却って曖昧にし得ると判断される場合には、その詳細な説明を省く。以下、添付の図面を参照して本発明に係る好ましい実施例を詳しく説明する。図面中、同一の参照符号は同一又は類似の構成要素を示すものとして使用され、明細書及び特許請求の範囲に記載された全ての組合せは任意の方式で組み合わせ可能である。そして、特に規定しない限り、単数と言及された場合、一つ以上を含み得ると理解し、単数表現に対する言及も複数表現を含み得ると理解すべきである。

図１は、本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。図１を参照すると、本発明の一実施例に係る客体情報提供装置１００は、通信部１１０、出力部１３０、入力部１５０、制御部１７０を含む。

客体情報提供装置１００は、コンピュータ、ノートパソコン、又はタブレット、スマートフォンのような携帯用端末機であり得る。なお、客体情報提供装置１００は、有線または無線ネットワークを用いてサーバーからデータを受信し、ユーザ入力に応じて、受信したデータを制御、管理又は出力する端末であり、人工知能スピーカー、セットトップボックス（Ｓｅｔ－ＴｏｐＢｏｘ）の形態で具現され得る。

通信部１１０は、サーバーから、本発明の一実施例に係る映像処理方法によって処理された映像を受信することができる。

出力部１３０は、本発明の一実施例に係る映像処理方法によって処理された映像をディスプレイモジュール（図示せず）に出力することができる。出力部１３０の出力する映像は、通信部１１０から受信したものでもよいが、データベース（図示せず）にあらかじめ保存されたものであってもよい。仮に、客体情報提供装置内で本発明の一実施例に係る映像処理がなされた場合、出力部１３０は、映像処理装置から処理された映像を受信して出力することができる。本発明の一実施例に係る映像処理方法に関する詳細な説明は、図３～図１１を用いて後述する。本発明の一実施例によって処理された映像には、映像内に含まれている客体に関する情報がマッピングされているが、出力部１３０は、ユーザ設定にしたがって映像を再生しながら客体情報を共に表示することもでき、オリジナル映像を再生する途中にユーザ入力が受信されると、マッピングされた客体情報を表示してもよい。出力部１３０はディスプレイモジュールに伝送される映像を編集及び管理し、以下では、ユーザ入力が受信されると客体情報を表示する場合の一実施例を説明する。

入力部１５０は、ユーザからあらかじめ設定された選択命令が入力される。入力部１５０はユーザから情報を受け取るためのもので、入力部１５０は機械式（ｍｅｃｈａｎｉｃａｌ）入力手段（又は、メカニカルキー、例えば移動端末機１００の前・後面又は側面に位置するボタン、ドームスイッチ（ｄｏｍｅｓｗｉｔｃｈ）、ジョグホイール、ジョグスイッチなど）及びタッチ式入力手段を含むことができる。一例として、タッチ式入力手段は、ソフトウェア的な処理によってタッチスクリーンに表示される仮想キー（ｖｉｒｔｕａｌｋｅｙ）、ソフトキー（ｓｏｆｔｋｅｙ）又はビジュアルキー（ｖｉｓｕａｌｋｅｙ）からなるか、前記タッチスクリーン以外の部分に配置されるタッチキー（ｔｏｕｃｈｋｅｙ）からなり得る。一方、前記仮想キー又はビジュアルキーは、様々な形態でタッチスクリーン上に表示されることが可能であり、例えば、グラフィック（ｇｒａｐｈｉｃ）、テキスト（ｔｅｘｔ）、アイコン（ｉｃｏｎ）、ビデオ（ｖｉｄｅｏ）又はこれらの組合せからなり得る。

また、入力部１５０は、外部の音響信号を電気的な音声データとして処理するマイクロホンであり得る。マイクロホンから客体情報提供装置１００を活性化させる音声又はあらかじめ設定された音声命令が入力されると、入力部１５０は選択命令が受信されたと判断できる。例えば、客体情報提供装置１００のニックネームが‘テリー’であり、‘ハイテリー’という音声が入力されると客体情報提供装置１００が活性化されるように設定することができる。もし、活性化音声を選択命令として設定した場合、映像出力中にユーザの‘ハイテリー’という音声が入力部１５０から受信されると、制御部１７０は、入力された時点のフレームをキャプチャーする選択命令が受信されたと判断し、当該時点のフレームをキャプチャーすることができる。

また、入力部１５０はカメラモジュールを含むことができる。この場合、あらかじめ設定された選択命令は、カメラモジュールによって認識されるユーザジェスチャーであってもよく、カメラモジュールによってあらかじめ設定されたジェスチャーが認識されると、制御部１７０はそれを選択命令として認知できる。

制御部１７０は、映像から、選択命令が入力された時点のフレームをキャプチャーし、キャプチャーしたフレームに含まれた客体を識別することができる。フレームはディスプレイ装置に出力されている映像のスクリーンショトであり得、選択命令が入力された時点の前後における、あらかじめ設定された範囲内に含まれる複数のフレームのうち一つであり得る。この場合、入力時点を中心に一定範囲内のフレームのいずれか一つを選択することは、後述する検索対象フレームの選定方法と類似であり得る。

制御部１７０は、ユーザ選択入力に対応するフレームから客体を識別すると、当該客体にマッピングされた客体情報を確認して出力部１３０に伝送することができる。出力部１３０は確認された客体情報を出力できるが、ディスプレイ装置で表示される方式に特に制限はない。

図２は、本発明の一実施例に係る電子装置の客体情報提供方法を説明するためのフローチャートである。図２を参照すると、まず、本発明の一実施例による映像処理がなされる（Ｓ１０００）。映像処理はサーバーでなされてもよく、電子装置内でなされてもよい。映像処理がサーバーでなされた場合、電子装置は、処理された映像をサーバーから受信し、それを再生することができる。段階１０００に関する詳細な説明は、図３で後述する。

電子装置は、処理された映像を再生し（Ｓ２０００）、ユーザからあらかじめ設定された選択命令が入力されると、選択命令が入力された時点のフレームをキャプチャーできる（Ｓ４０００）。そして、フレームに含まれた客体にマッピングされた客体情報を画面に表示することができる（Ｓ５０００）。客体情報は、処理された映像に含まれるものであり、段階３０００でユーザ要請に対応する選択命令が入力されると画面に表示され得る。

他の実施例として、電子装置は処理された映像を再生しながら、ユーザの選択命令に関係なく、各客体にマッピングされた客体情報を共に表示してもよい。

図３は、本発明の一実施例に係る電子装置の映像処理方法を説明するためのフローチャートである。以下では説明の便宜のために、サーバーが映像を処理する実施例を中心に説明する。

図３を参照すると、サーバーは客体情報を提供するために映像を処理するとき、映像を、一つ以上のフレームを含む場面（ｓｃｅｎｅ）単位に区分することができる（Ｓ１００）。

図４を参照して映像を場面単位に区分する段階１００の一実施例について説明する。場面（Ｓｃｅｎｅ）は、類似の主題又は出来事に関連している映像の一単位であり、辞典的には映画、演劇、文学作品におけるある情景を意味する。本明細書で映像を区分する場面単位も、一つの出来事又は主題に関連している一つ以上のフレームを意味するものと理解され得る。すなわち、一場面は、空間又は人物の変化が急激でないので、映像内に含まれる客体が（動くことを除けば）フレーム内で大きく変化することなく維持され得る。本発明は、映像を場面単位に区分し、場面のいずれか一つのフレームだけを選択してイメージ分析に活用することによって、分析すべきデータ量を著しく減らす。

例えば、フレーム単位で客体をトラッキング（ｔｒａｃｋｉｎｇ）する場合、過多なリソースを消耗する問題がある。一般に、映像は秒当たり２０～６０枚程度のフレームを使用し、フレームレート（ＦＰＳ：ＦｒａｍｅＰｅｒＳｅｃｏｎｄ）は、電子装置の性能が改善されるにつれて益々増加する趨勢にある。秒当たり５０枚のフレームが用いられるとすれば、１０分の映像は３万枚のフレームからなる。フレーム単位の客体トラッキングは、３万枚のフレームのそれぞれにどのような客体が含まれているかをいちいち分析すべきことを意味するので、機械学習を用いてフレーム中の客体の特徴を分析するとしても処理容量があまりにも大きくなってしまうという問題がある。したがって、サーバーは次のような方式で映像を場面単位に区分することによって処理容量を減らし、処理速度を上げることができる。

サーバーは、段階１００でフレームのカラースペクトルを識別し（Ｓ１１３）、連続する第１フレームと第２フレーム間のカラースペクトルの変化があらかじめ設定された臨界値以上か否か判断し（Ｓ１１５）、カラースペクトルの変化があらかじめ設定された臨界値以上であれば、第１フレームと第２フレームの場面を区分することができる（Ｓ１１７）。仮に、連続する２フレーム間にカラースペクトルの変化がなければ、次のフレームに対して段階１１５の判断を再び行うことができる。

段階１００のさらに他の実施例として、サーバーはフレームから任意の客体と推定される特徴情報を探知（ｄｅｔｅｃｔ）し、第１フレームに含まれた第１特徴情報が連続する第２フレームに含まれているか判断することができる。サーバーは、第２フレームに第１特徴情報が含まれていなければ、第１フレームと第２フレームの場面を区分することができる。すなわち、任意の客体と推定される特徴情報が含まれているフレームを一場面として設定するものの、特定フレームで当該特徴情報がそれ以上含まれないと、そのフレームから別の場面として区分できる。探知（ｄｅｔｅｃｔ）は認識（ｒｅｃｏｇｎｉｔｉｏｎ）又は識別（ｉｄｅｎｔｉｆｙ）とは異なる概念であり、イメージにおける客体の存在有無を検知するためのものである点で、客体がどのような客体であるかを識別する認識よりは一レベル低い作業であるといえる。より具体的に、任意の客体と推定される特徴情報の探知は、客体（ｏｂｊｅｃｔ）と背景との間の境界などを用いて物体であるか否かを区別したり、或いはグローバルディスクリプタを利用することができる。

段階１００のさらに他の実施例として、図５を参照すると、サーバーは、連続する第１フレームと第２フレームとのマッチング率を演算し（Ｓ１３３）、マッチング率があらかじめ設定された値未満であるかどうか判断できる（Ｓ１３５）。マッチング率は、両フレーム間のイメージのマッチング程度を示す指標であり、背景が重複したり、フレームに含まれた人物が同じ場合にはマッチング率が高くなり得る。

例えば、映画やドラマのような映像で同一の人物が同一の空間で繰り広げる出来事と関連している連続したフレームは人物と空間がマッチングされるため、マッチング率が非常に高く現れるはずであり、したがって、これらのフレームは同一場面として分類され得る。サーバーは、段階１３５の判断結果、マッチング率があらかじめ設定された値未満であれば、第１フレームと第２フレームの場面を区分できる。すなわち、映像に表示される空間が変化されたり登場人物が変化したりする場合には、連続するフレーム間のマッチング率が顕著に低下するので、このような場合、サーバーは、場面が切り替わったと判断し、各フレームの場面を区分することができ、第１フレームは第１場面に、第２フレームは第２場面に設定され得る。

段階１００のさらに他の実施例として、図６を参照すると、サーバーは、各フレームの周波数スペクトルを識別し（Ｓ１５３）、連続する第１フレームと第２フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば（Ｓ１５５）、前記第１フレームと前記第２フレームの場面を区分することができる（Ｓ１５７）。段階１５３でサーバーは、ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）、ＤＳＴ（ＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）、ＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤＣＴ，ＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）などを用いて各フレームの周波数スペクトルを識別することができる。周波数スペクトルは、フレームに含まれるイメージの周波数成分の分布を表すものであり、低い周波数領域には全体的なイメージの輪郭に関する情報を表し、高い周波数領域にはイメージの細かい部分に関する情報を表すと理解され得る。段階１５５における周波数スペクトルの変化は、成分別に大きさの比較を用いて測定可能である。

段階１００のさらに他の実施例として、図７を参照すると、サーバーは各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し（Ｓ１７１）、領域別にカラースペクトル又は周波数スペクトルを識別することができる（Ｓ１７３）。サーバーは、連続する第１フレームと第２フレームにおいて対応する領域のカラースペクトルの差又は周波数スペクトルの差を演算し（Ｓ１７５）、領域別の差の絶対値を合算する（Ｓ１７７）。そして、合算した結果値があらかじめ設定された臨界値以上であれば、第１フレームと第２フレームの場面を区分することができる。

さらに他の実施例として、図８に示すように、各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し（Ｓ１８３）、連続する第１フレームと第２フレームにおいて対応する領域別マッチング率を演算し（Ｓ１８５）、前記マッチング率の平均があらかじめ設定された値未満であれば（Ｓ１８７）、前記第１フレームと前記第２フレームの場面を区分することができる（Ｓ１８９）。

図７及び図８を参照して上述した例示のように、フレームを一つ以上の領域に分割し、前後のフレームを領域別に比較すると、フレームが全体的には似ているが、部分的には差異が大きい場合を見出すことができる。すなわち、前述する２つの実施例によれば、さらに細分化した場面の区分が可能である。

段階１００の後に、サーバーは、場面から、あらかじめ設定された基準による検索対象フレームを選定することができる（Ｓ２００）。本明細書において検索対象フレームは、客体ベース検索を行うための対象客体を含むフレームを意味するものと理解され得る。すなわち、本発明の一実施例においてサーバーは、映像に含まれた全フレームの客体をトラッキングして分析するのではなく、検索対象フレームを指定し、検索対象フレームに含まれた客体だけを分析することによって、リソースを減らすことができる。サーバーは全フレームを分析するわけではないので、検索の正確性を最も高くできる客体を抽出するために、段階２００で客体ベース検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定することができる。

一例として、図９を参照すると、サーバーは検索対象フレームを選定するとき、フレームにおいてブラー領域を識別し（Ｓ２１３）、ブラー領域がフレームに占める比重を演算することができる（Ｓ２１５）。そして、サーバーは、第１場面に含まれる一つ以上のフレームのうち、ブラー領域の比重が最も低いフレームを、第１場面の検索対象フレームとして選定できる（Ｓ２１７）。ブラー領域は、映像でぼやけて表示される領域であり、客体検出が不可能であるか、客体ベースイメージ検索の正確性を低下させることがある。ブラー領域には、客体性を不明瞭にするピクセルが多数混合されることがあり、このようなピクセルは、客体を検出又は分析する際に誤りを生じさせる。したがって、サーバーは、ブラー領域の比重が最も低いフレームを各場面の検索対象フレームとして選定することによって、以降の客体検出及び分析、客体ベースイメージ検索の正確性を高くすることができる。

本発明の一実施例において、サーバーは、フレームにおいてローカルディスクリプタが抽出されない領域をブラー領域として識別することによって、ブラー領域を検出することができる。ローカルディスクリプタは、客体イメージの核心部分を示す特徴ベクトルであり、ＳＩＦＴ、ＳＵＲＦ、ＬＢＰ、ＢＲＩＳＫ、ＭＳＥＲ、ＦＲＥＡＫなどの様々な方式で抽出可能である。ローカルディスクリプタは、客体イメージ全体を説明するグローバルディスクリプタと区別され、客体認識のような上位レベルの応用プログラムで用いられる概念である。本明細書においてローカルディスクリプタは通常の技術者に通用される意味で使われた。

検索対象フレームを選定する段階２００の他の実施例として、図１０を参照すると、サーバーはフレームから特徴情報を抽出し（Ｓ２３３）、第１場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多いフレームを第１場面の検索対象フレームとして選定できる（Ｓ２３５）。特徴情報は、グローバルディスクリプタもローカルディスクリプタも含む概念であり、客体の輪郭、形態、テクスチャー又は特定客体を認識できる特徴点、特徴ベクトルを含むことができる。

すなわち、サーバーは、客体を認識する程度ではないが、客体が存在するということを探知できるレベルの特徴情報を抽出し、特徴情報を最も多く含んでいるフレームを検索対象として指定できる。その結果、サーバーは、段階３００で、場面別に特徴情報を最も多く含むフレームを用いて客体ベースイメージ検索を行うことができ、全フレームで客体を抽出しなくても、見逃す客体を最小化し、高い正確性で客体を検出、活用することができる。

３００でサーバーは検索対象フレームから、あらかじめ設定された主題に関連した客体を識別することができる。客体の識別は、客体の特徴情報を抽出する動作によって行い得る。この段階で、サーバーは、以前の段階（Ｓ１００，Ｓ２００）でなされた客体の探知に比べてより詳細に客体を識別することができる。すなわち、客体識別アルゴリズムにおいてより正確性の高いアルゴリズムを用いることができ、したがって、検索対象フレームから客体を見逃すことなく抽出する。

例えば、ドラマ映像を処理する場合を仮定する。サーバーは段階１００において、ドラマ映像において台所で行われる一つ以上のフレームを一場面として区分でき、段階２００で、あらかじめ設定された基準による検索対象フレームを選定することができる。

図１１が段階２００で選定された検索対象フレームである場合、図１１のフレームは、台所でなされる場面のうち、ブラー領域の比重が最も低いため、検索対象フレームとして選定されたものであってもよく、当該場面のうち、探知される客体の数が最も多いため選定されたものであってもよい。図１１の検索対象フレームには鍋Ｋ１０，Ｋ４０、冷蔵庫Ｋ２０，Ｋ３０などの台所家電／機器と関連した客体が含まれており、上着Ｃ１０、スカートＣ２０、ワンピースＣ３０のような衣類関連客体も含まれている。段階３００でサーバーは前記客体Ｋ１０～Ｋ４０，Ｃ１０～Ｃ３０を検索対象フレームから識別する。

この時、サーバーはあらかじめ設定された主題と関連している客体を識別することができる。図１１に示すように、検索対象フレームでは多数の客体が探知され得るが、サーバーは、あらかじめ設定された主題に関連した客体を識別することによって必要な情報だけを抽出することができる。例えば、あらかじめ設定された主題が衣類である場合、サーバーは、検索対象フレームにおいて衣類に関連した客体だけを識別でき、この場合、上着Ｃ１０、スカートＣ２０、ワンピースＣ３０などを識別できる。もし、あらかじめ設定された主題が台所家電／機器である場合には、Ｋ１０、Ｋ２０、Ｋ３０、Ｋ４０を識別するだろう。ここで、‘主題’は、客体を区別するカテゴリーを意味し、ユーザ設定によって任意の客体を定義するカテゴリーは上位概念であってもよく、下位概念であってもよい。例えば、主題は、衣類のような上位概念として設定されてもよく、スカート、ワンピース、Ｔシャツのような下位概念として設定されてもよい。

主題を設定する主体は、サーバーを管理する管理者であってもよく、ユーザであってもよい。主題がユーザによって定められる場合、サーバーはユーザ端末から主題に関する情報を受信し、受信した主題情報に基づいて検索対象フレームから客体を識別することができる。

次に、サーバーは、段階４００で、識別された客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、段階５００で客体に検索結果をマッピングすることができる。例えば、衣類に関連する客体が識別された場合、サーバーは、識別された上着Ｃ１０と類似するイメージをイメージデータベースから検索し、上着Ｃ１０に対応するイメージを取得することができる。また、サーバーはデータベースで上着Ｃ１０に関連した客体情報、すなわち、黒色の生地に白色の斜線柄がプリンティングされている上着に関連した広告イメージ及び／又は映像、価格、ブランド名、購入可能なオンライン／オフラインの売り場などの客体情報を取得することができる。この時、データベースは、あらかじめ生成されてサーバー内に含まれていてもよいが、ウェブページなどをクローリングして類似イメージのリアルタイム検索によって実時間で構築されてもよい。また、サーバーが外部に構築されたデータベースを用いて検索を行ってもよい。

検索結果、すなわち、前記識別された客体に対応するイメージ、客体に対応する商品情報（価格、ブランド名、商品名、商品コード、商品種類、商品特徴、購買場所など）、広告テキスト、広告映像、広告イメージなどは、識別された客体にマッピングされ、このようにマッピングされた検索結果は、映像再生の際に、映像に隣接したレイヤに表示されたり、或いは映像内又は映像の上位レイヤに表示され得る。または、映像再生時にユーザ要請に対応して検索結果が表示されてもよい。

本明細書で省略された一部の実施例は、その実施主体が同じ場合、同一に適用可能である。また、前述した本発明は、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であり、前述した実施例及び添付の図面によって限定されるものではない。

Claims

任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面（ｓｃｅｎｅ）単位に区分する段階と、
前記場面に含まれる一つ以上のフレームのうち、客体ベースイメージ検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含む映像処理方法。
前記映像を場面単位に区分する段階は、
前記フレームのカラースペクトルを識別する段階と、
連続する第１フレームと第２フレーム間の前記カラースペクトルの変化があらかじめ設定された臨界値以上であれば、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
前記映像を場面単位に区分する段階は、
前記フレームにおいて任意の客体と推定される特徴情報を探知する段階と、
第１フレームに含まれた第１特徴情報が連続する第２フレームに含まれるか否かを判断する段階と、
前記第２フレームに前記第１特徴情報が含まれていなければ、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
前記映像を場面単位に区分する段階は、
連続する第１フレームと第２フレームのマッチング率を演算する段階と、
前記マッチング率があらかじめ設定された値未満であれば、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
前記映像を場面単位に区分する段階は、
前記フレームの周波数スペクトルを識別する段階と、
連続する第１フレームと第２フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
前記映像を場面単位に区分する段階は、
前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
前記領域別にカラースペクトル又は周波数スペクトルを識別する段階と、
連続する第１フレームと第２フレームにおいて互いに対応する領域の前記カラースペクトルの差又は前記周波数スペクトルの差を演算する段階と、
前記領域別に演算された差の絶対値を合算する段階と、
前記合算した結果値があらかじめ設定された臨界値以上であれば、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
前記映像を場面単位に区分する段階は、
前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
連続する第１フレームと第２フレームにおいて互いに対応する領域別マッチング率を演算する段階と、
前記マッチング率の平均があらかじめ設定された値未満であれば、前記第１フレームと前記第２フレームの場面を区分する段階とを含む、請求項１に記載の映像処理方法。
任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面（ｓｃｅｎｅ）単位に区分する段階と、
前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含み、
前記検索対象フレームを選定する段階は、
前記フレームにおいてブラー領域を識別する段階と、
前記ブラー領域が前記フレームに占める比重を演算する段階と、
第１場面に含まれる一つ以上のフレームのうち、前記ブラー領域の比重が最も低いフレームを前記第１場面の検索対象フレームとして選定する段階とを含む映像処理方法。
前記ブラー領域を識別する段階は、前記フレームでローカルディスクリプタが抽出されない領域をブラー領域として識別する段階を含む、請求項８に記載の映像処理方法。
任意の映像を処理する方法であって、
前記映像を、一つ以上のフレームを含む場面（ｓｃｅｎｅ）単位に区分する段階と、
前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
を含み、
前記検索対象フレームを選定する段階は、
前記フレームから特徴情報を抽出する段階と、
第１場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多く含まれたフレームを前記第１場面の検索対象フレームとして選定する段階とを含む映像処理方法。
請求項１～１０のいずれか一項の方法を用いた電子装置の客体情報提供方法であって、
請求項１～１０のいずれか一項の方法を用いて処理された映像を再生する段階と、
ユーザからあらかじめ設定された選択命令が入力されると、該選択命令が入力された時点のフレームをキャプチャーする段階と、
前記フレームに含まれた客体にマッピングされた客体情報を画面に表示する段階と、
を含む、客体情報提供方法。
請求項１～１０のいずれか一項の方法を用いて客体情報を提供する装置であって、
請求項１～１０のいずれか一項の方法を用いて処理された映像を出力する出力部と、
ユーザからあらかじめ設定された選択命令が入力される入力部と、
前記映像から前記選択命令が入力された時点のフレームをキャプチャーし、前記フレームに含まれた客体を識別する制御部と、
を含み、
前記出力部は、前記識別された客体にマッピングされた客体情報を出力する客体情報提供装置。
請求項１～１０のいずれか一項の方法を実行させるためにコンピュータ読取り可能媒体に格納された映像処理応用プログラム。