JP7105309B2 - 映像前処理方法、装置及びコンピュータプログラム - Google Patents

映像前処理方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP7105309B2
JP7105309B2 JP2020535971A JP2020535971A JP7105309B2 JP 7105309 B2 JP7105309 B2 JP 7105309B2 JP 2020535971 A JP2020535971 A JP 2020535971A JP 2020535971 A JP2020535971 A JP 2020535971A JP 7105309 B2 JP7105309 B2 JP 7105309B2
Authority
JP
Japan
Prior art keywords
frame
image
frames
scene
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020535971A
Other languages
English (en)
Other versions
JP2021509201A (ja
Inventor
ジュン,テヨン
Original Assignee
オ-ディーディー コンセプツ インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オ-ディーディー コンセプツ インク. filed Critical オ-ディーディー コンセプツ インク.
Publication of JP2021509201A publication Critical patent/JP2021509201A/ja
Application granted granted Critical
Publication of JP7105309B2 publication Critical patent/JP7105309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Description

本発明は、映像前処理方法、装置及びコンピュータプログラムに関し、より詳細には、映像に含まれた客体の検索を容易にするための映像前処理方法、装置及びコンピュータプログラムに関する。
イメージ、ビデオなどのマルチメディアサービスの需要が増加し、携帯用マルチメディア機器が普遍化するにつれて、膨大な量のマルチメディアデータを管理し、消費者の所望するコンテンツを迅速且つ正確に捜して提供する効率的なマルチメディア検索システムの必要性も増大している。
従来は、映像に含まれた商品客体と類似の商品の情報を提供するサービスにおいて、イメージ検索を行うよりは、映像内の商品客体を管理者が別途に定義し、それを含む映像を提供する方式を多く利用した。このような方式は、特定映像に含まれた客体のうち、管理者の指定した客体に対してのみ類似商品の確認が可能であるという点で、消費者のニーズを満たすには限界があった。
ただし、映像に含まれた商品客体に対していちいち検索を行うには、データ処理量があまりにも膨大である問題がある。また、映像は一つ以上のフレーム(イメージ)からなっており、各フレームは複数の客体を含むので、数多くの客体中のいずれの客体をクエリーイメージと定義するかも問題になる。
映像に含まれた客体を識別するための技術として、韓国公開特許第10-2008-0078217号(発明の名称:映像に含まれた客体索引方法とその索引情報を用いた付加サービス方法及びその映像処理装置、公開日:2008.08.27.)がある。この先行文献は、特定映像に含まれた客体の認識のために映像に含まれた客体の相対的な位置を管理し保存するための仮想のフレームとセルを管理することによって、表示装置上で視聴者の指定した位置の客体を正確に判断できるようにする方法を提供している。
しかしながら、この先行文献は客体を識別する方法の一つを開示しているだけで、検索を効率的に行うために映像処理に要求されるリソースを減らす問題については認識していない。したがって、映像処理に要求されるリソースを最小化し、検索の正確性及び効率性を高める方案が望まれる。
本発明は、前述した問題点を解決するためのものであり、映像に含まれた客体の中から、検索の必要な客体を迅速且つ正確に識別することを一目的とする。
また、本発明は、客体ベースイメージ検索(Objective-based imaging search)の効率性を極大化し、映像処理に用いられるリソースを最小化できる映像処理方法を提供することを他の目的とする。
また、本発明は、映像を視聴する消費者が必要とする情報を正確に提供し、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供ができるように映像を処理することを他の目的とする。
このような目的を達成するための本発明は、任意の映像を処理する方法において、前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階、前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階、前記検索対象フレームにおいて、あらかじめ設定された主題に関連した客体を識別する段階、前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階を含むこと特徴とする。
前述したような本発明によれば、映像に含まれた客体のうち、検索が必要な客体を迅速且つ正確に識別することができる。
また、本発明によれば、客体ベースイメージ検索の効率性を極大化し、映像処理に用いられるリソースを最小化することができる。
また、本発明によれば、映像を視聴する消費者が必要とする情報を正確に提供でき、映像提供者中心の情報提供ではなく、ユーザ中心の情報提供が可能になる。
本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。 本発明の一実施例に係る客体情報提供方法を説明するためのフローチャートである。 本発明の一実施例に係る映像処理方法を説明するためのフローチャートである。 本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。 本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。 本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。 本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。 本発明の一実施例に係る映像の場面単位区分方法を説明するためのフローチャートである。 本発明の一実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。 本発明の他の実施例に係る検索対象フレーム選定方法を説明するためのフローチャートである。 本発明の一実施例によって映像において識別される客体を示す図である。
前述した目的、特徴及び長所が添付の図面を参照して詳しく後述され、これによって、本発明の属する技術の分野における通常の知識を有する者が本発明の技術的思想を容易に実施できるだろう。本発明を説明する上で本発明に関する公知技術の具体的な説明が本発明の要旨を却って曖昧にし得ると判断される場合には、その詳細な説明を省く。以下、添付の図面を参照して本発明に係る好ましい実施例を詳しく説明する。図面中、同一の参照符号は同一又は類似の構成要素を示すものとして使用され、明細書及び特許請求の範囲に記載された全ての組合せは任意の方式で組み合わせ可能である。そして、特に規定しない限り、単数と言及された場合、一つ以上を含み得ると理解し、単数表現に対する言及も複数表現を含み得ると理解すべきである。
図1は、本発明の一実施例に係る客体情報提供装置を説明するためのブロック図である。図1を参照すると、本発明の一実施例に係る客体情報提供装置100は、 通信部110、出力部130、入力部150、制御部170を含む。
客体情報提供装置100は、コンピュータ、ノートパソコン、又はタブレット、スマートフォンのような携帯用端末機であり得る。なお、客体情報提供装置100は、有線または無線ネットワークを用いてサーバーからデータを受信し、ユーザ入力に応じて、受信したデータを制御、管理又は出力する端末であり、人工知能スピーカー、セットトップボックス(Set-Top Box)の形態で具現され得る。
通信部110は、サーバーから、本発明の一実施例に係る映像処理方法によって処理された映像を受信することができる。
出力部130は、本発明の一実施例に係る映像処理方法によって処理された映像をディスプレイモジュール(図示せず)に出力することができる。出力部130の出力する映像は、通信部110から受信したものでもよいが、データベース(図示せず)にあらかじめ保存されたものであってもよい。仮に、客体情報提供装置内で本発明の一実施例に係る映像処理がなされた場合、出力部130は、映像処理装置から処理された映像を受信して出力することができる。本発明の一実施例に係る映像処理方法に関する詳細な説明は、図3~図11を用いて後述する。本発明の一実施例によって処理された映像には、映像内に含まれている客体に関する情報がマッピングされているが、出力部130 は、ユーザ設定にしたがって映像を再生しながら客体情報を共に表示することもでき、オリジナル映像を再生する途中にユーザ入力が受信されると、マッピングされた客体情報を表示してもよい。出力部130 はディスプレイモジュールに伝送される映像を編集及び管理し、以下では、ユーザ入力が受信されると客体情報を表示する場合の一実施例を説明する。
入力部150は、ユーザからあらかじめ設定された選択命令が入力される。入力部150はユーザから情報を受け取るためのもので、入力部150は機械式(mechanical)入力手段(又は、メカニカルキー、例えば移動端末機100の前・後面又は側面に位置するボタン、ドームスイッチ(dome switch)、ジョグホイール、ジョグスイッチなど)及びタッチ式入力手段を含むことができる。一例として、タッチ式入力手段は、ソフトウェア的な処理によってタッチスクリーンに表示される仮想キー(virtual key)、ソフトキー(soft key)又はビジュアルキー(visual key)からなるか、前記タッチスクリーン以外の部分に配置されるタッチキー(touch key)からなり得る。一方、前記仮想キー又はビジュアルキーは、様々な形態でタッチスクリーン上に表示されることが可能であり、例えば、グラフィック(graphic)、テキスト(text)、アイコン(icon)、ビデオ(video)又はこれらの組合せからなり得る。
また、入力部150は、外部の音響信号を電気的な音声データとして処理するマイクロホンであり得る。マイクロホンから客体情報提供装置100を活性化させる音声又はあらかじめ設定された音声命令が入力されると、入力部150は選択命令が受信されたと判断できる。例えば、客体情報提供装置100のニックネームが‘テリー’であり、‘ハイテリー’という音声が入力されると客体情報提供装置100が活性化されるように設定することができる。もし、活性化音声を選択命令として設定した場合、映像出力中にユーザの‘ハイテリー’という音声が入力部150から受信されると、制御部170は、入力された時点のフレームをキャプチャーする選択命令が受信されたと判断し、当該時点のフレームをキャプチャーすることができる。
また、入力部150はカメラモジュールを含むことができる。この場合、あらかじめ設定された選択命令は、カメラモジュールによって認識されるユーザジェスチャーであってもよく、カメラモジュールによってあらかじめ設定されたジェスチャーが認識されると、制御部170はそれを選択命令として認知できる。
制御部170は、映像から、選択命令が入力された時点のフレームをキャプチャーし、キャプチャーしたフレームに含まれた客体を識別することができる。フレームはディスプレイ装置に出力されている映像のスクリーンショトであり得、選択命令が入力された時点の前後における、あらかじめ設定された範囲内に含まれる複数のフレームのうち一つであり得る。この場合、入力時点を中心に一定範囲内のフレームのいずれか一つを選択することは、後述する検索対象フレームの選定方法と類似であり得る。
制御部170は、ユーザ選択入力に対応するフレームから客体を識別すると、当該客体にマッピングされた客体情報を確認して出力部130に伝送することができる。出力部130は確認された客体情報を出力できるが、ディスプレイ装置で表示される方式に特に制限はない。
図2は、本発明の一実施例に係る電子装置の客体情報提供方法を説明するためのフローチャートである。図2を参照すると、まず、本発明の一実施例による映像処理がなされる(S1000)。映像処理はサーバーでなされてもよく、電子装置内でなされてもよい。映像処理がサーバーでなされた場合、電子装置は、処理された映像をサーバーから受信し、それを再生することができる。段階1000に関する詳細な説明は、図3で後述する。
電子装置は、処理された映像を再生し(S2000)、ユーザからあらかじめ設定された選択命令が入力されると、選択命令が入力された時点のフレームをキャプチャーできる(S4000)。そして、フレームに含まれた客体にマッピングされた客体情報を画面に表示することができる(S5000)。客体情報は、処理された映像に含まれるものであり、段階3000でユーザ要請に対応する選択命令が入力されると画面に表示され得る。
他の実施例として、電子装置は処理された映像を再生しながら、ユーザの選択命令に関係なく、各客体にマッピングされた客体情報を共に表示してもよい。
図3は、本発明の一実施例に係る電子装置の映像処理方法を説明するためのフローチャートである。以下では説明の便宜のために、サーバーが映像を処理する実施例を中心に説明する。
図3を参照すると、サーバーは客体情報を提供するために映像を処理するとき、映像を、一つ以上のフレームを含む場面(scene)単位に区分することができる(S100)。
図4を参照して映像を場面単位に区分する段階100の一実施例について説明する。場面(Scene)は、類似の主題又は出来事に関連している映像の一単位であり、辞典的には映画、演劇、文学作品におけるある情景を意味する。本明細書で映像を区分する場面単位も、一つの出来事又は主題に関連している一つ以上のフレームを意味するものと理解され得る。すなわち、一場面は、空間又は人物の変化が急激でないので、映像内に含まれる客体が(動くことを除けば)フレーム内で大きく変化することなく維持され得る。本発明は、映像を場面単位に区分し、場面のいずれか一つのフレームだけを選択してイメージ分析に活用することによって、分析すべきデータ量を著しく減らす。
例えば、フレーム単位で客体をトラッキング(tracking)する場合、過多なリソースを消耗する問題がある。一般に、映像は秒当たり20~60枚程度のフレームを使用し、フレームレート(FPS:Frame Per Second)は、電子装置の性能が改善されるにつれて益々増加する趨勢にある。秒当たり50枚のフレームが用いられるとすれば、10分の映像は3万枚のフレームからなる。フレーム単位の客体トラッキングは、3万枚のフレームのそれぞれにどのような客体が含まれているかをいちいち分析すべきことを意味するので、機械学習を用いてフレーム中の客体の特徴を分析するとしても処理容量があまりにも大きくなってしまうという問題がある。したがって、サーバーは次のような方式で映像を場面単位に区分することによって処理容量を減らし、処理速度を上げることができる。
サーバーは、段階100でフレームのカラースペクトルを識別し(S113)、連続する第1フレームと第2フレーム間のカラースペクトルの変化があらかじめ設定された臨界値以上か否か判断し(S115)、カラースペクトルの変化があらかじめ設定された臨界値以上であれば、第1フレームと第2フレームの場面を区分することができる(S117)。仮に、連続する2フレーム間にカラースペクトルの変化がなければ、次のフレームに対して段階115の判断を再び行うことができる。
段階100のさらに他の実施例として、サーバーはフレームから任意の客体と推定される特徴情報を探知(detect)し、第1フレームに含まれた第1特徴情報が連続する第2フレームに含まれているか判断することができる。サーバーは、第2フレームに第1特徴情報が含まれていなければ、第1フレームと第2フレームの場面を区分することができる。すなわち、任意の客体と推定される特徴情報が含まれているフレームを一場面として設定するものの、特定フレームで当該特徴情報がそれ以上含まれないと、そのフレームから別の場面として区分できる。探知(detect)は認識(recognition)又は識別(identify)とは異なる概念であり、イメージにおける客体の存在有無を検知するためのものである点で、客体がどのような客体であるかを識別する認識よりは一レベル低い作業であるといえる。より具体的に、任意の客体と推定される特徴情報の探知は、客体(object)と背景との間の境界などを用いて物体であるか否かを区別したり、或いはグローバルディスクリプタを利用することができる。
段階100のさらに他の実施例として、図5を参照すると、サーバーは、連続する第1フレームと第2フレームとのマッチング率を演算し(S133)、マッチング率があらかじめ設定された値未満であるかどうか判断できる(S135)。マッチング率は、両フレーム間のイメージのマッチング程度を示す指標であり、背景が重複したり、フレームに含まれた人物が同じ場合にはマッチング率が高くなり得る。
例えば、映画やドラマのような映像で同一の人物が同一の空間で繰り広げる出来事と関連している連続したフレームは人物と空間がマッチングされるため、マッチング率が非常に高く現れるはずであり、したがって、これらのフレームは同一場面として分類され得る。サーバーは、段階135の判断結果、マッチング率があらかじめ設定された値未満であれば、第1フレームと第2フレームの場面を区分できる。すなわち、映像に表示される空間が変化されたり登場人物が変化したりする場合には、連続するフレーム間のマッチング率が顕著に低下するので、このような場合、サーバーは、場面が切り替わったと判断し、各フレームの場面を区分することができ、第1フレームは第1場面に、第2フレームは第2場面に設定され得る。
段階100のさらに他の実施例として、図6を参照すると、サーバーは、各フレームの周波数スペクトルを識別し(S153)、連続する第1フレームと第2フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば(S155)、前記第1フレームと前記第2フレームの場面を区分することができる(S157)。段階153でサーバーは、DCT(Discrete Cosine Transform)、DST(Discrete Sine Transform)、DFT(Discrete Fourier Transform)、MDCT(Modified DCT,Modulated Lapped Transform)などを用いて各フレームの周波数スペクトルを識別することができる。周波数スペクトルは、フレームに含まれるイメージの周波数成分の分布を表すものであり、低い周波数領域には全体的なイメージの輪郭に関する情報を表し、高い周波数領域にはイメージの細かい部分に関する情報を表すと理解され得る。段階155における周波数スペクトルの変化は、成分別に大きさの比較を用いて測定可能である。
段階100のさらに他の実施例として、図7を参照すると、サーバーは各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し(S171)、領域別にカラースペクトル又は周波数スペクトルを識別することができる(S173)。サーバーは、連続する第1フレームと第2フレームにおいて対応する領域のカラースペクトルの差又は周波数スペクトルの差を演算し(S175)、領域別の差の絶対値を合算する(S177)。そして、合算した結果値があらかじめ設定された臨界値以上であれば、第1フレームと第2フレームの場面を区分することができる。
さらに他の実施例として、図8に示すように、各フレームをあらかじめ設定された大きさの一つ以上の領域に分割し(S183)、連続する第1フレームと第2フレームにおいて対応する領域別マッチング率を演算し(S185)、前記マッチング率の平均があらかじめ設定された値未満であれば(S187)、前記第1フレームと前記第2フレームの場面を区分することができる(S189)。
図7及び図8を参照して上述した例示のように、フレームを一つ以上の領域に分割し、前後のフレームを領域別に比較すると、フレームが全体的には似ているが、部分的には差異が大きい場合を見出すことができる。すなわち、前述する2つの実施例によれば、さらに細分化した場面の区分が可能である。
段階100の後に、サーバーは、場面から、あらかじめ設定された基準による検索対象フレームを選定することができる(S200)。本明細書において検索対象フレームは、客体ベース検索を行うための対象客体を含むフレームを意味するものと理解され得る。すなわち、本発明の一実施例においてサーバーは、映像に含まれた全フレームの客体をトラッキングして分析するのではなく、検索対象フレームを指定し、検索対象フレームに含まれた客体だけを分析することによって、リソースを減らすことができる。サーバーは全フレームを分析するわけではないので、検索の正確性を最も高くできる客体を抽出するために、段階200で客体ベース検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定することができる。
一例として、図9を参照すると、サーバーは検索対象フレームを選定するとき、フレームにおいてブラー領域を識別し(S213)、ブラー領域がフレームに占める比重を演算することができる(S215)。そして、サーバーは、第1場面に含まれる一つ以上のフレームのうち、ブラー領域の比重が最も低いフレームを、第1場面の検索対象フレームとして選定できる(S217)。ブラー領域は、映像でぼやけて表示される領域であり、客体検出が不可能であるか、客体ベースイメージ検索の正確性を低下させることがある。ブラー領域には、客体性を不明瞭にするピクセルが多数混合されることがあり、このようなピクセルは、客体を検出又は分析する際に誤りを生じさせる。したがって、サーバーは、ブラー領域の比重が最も低いフレームを各場面の検索対象フレームとして選定することによって、以降の客体検出及び分析、客体ベースイメージ検索の正確性を高くすることができる。
本発明の一実施例において、サーバーは、フレームにおいてローカルディスクリプタが抽出されない領域をブラー領域として識別することによって、ブラー領域を検出することができる。ローカルディスクリプタは、客体イメージの核心部分を示す特徴ベクトルであり、SIFT、SURF、LBP、BRISK、MSER、FREAKなどの様々な方式で抽出可能である。ローカルディスクリプタは、客体イメージ全体を説明するグローバルディスクリプタと区別され、客体認識のような上位レベルの応用プログラムで用いられる概念である。本明細書においてローカルディスクリプタは通常の技術者に通用される意味で使われた。
検索対象フレームを選定する段階200の他の実施例として、図10を参照すると、サーバーはフレームから特徴情報を抽出し(S233)、第1場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多いフレームを第1場面の検索対象フレームとして選定できる(S235)。特徴情報は、グローバルディスクリプタもローカルディスクリプタも含む概念であり、客体の輪郭、形態、テクスチャー又は特定客体を認識できる特徴点、特徴ベクトルを含むことができる。
すなわち、サーバーは、客体を認識する程度ではないが、客体が存在するということを探知できるレベルの特徴情報を抽出し、特徴情報を最も多く含んでいるフレームを検索対象として指定できる。その結果、サーバーは、段階300で、場面別に特徴情報を最も多く含むフレームを用いて客体ベースイメージ検索を行うことができ、全フレームで客体を抽出しなくても、見逃す客体を最小化し、高い正確性で客体を検出、活用することができる。
300でサーバーは検索対象フレームから、あらかじめ設定された主題に関連した客体を識別することができる。客体の識別は、客体の特徴情報を抽出する動作によって行い得る。この段階で、サーバーは、以前の段階(S100,S200)でなされた客体の探知に比べてより詳細に客体を識別することができる。すなわち、客体識別アルゴリズムにおいてより正確性の高いアルゴリズムを用いることができ、したがって、検索対象フレームから客体を見逃すことなく抽出する。
例えば、ドラマ映像を処理する場合を仮定する。サーバーは段階100において、ドラマ映像において台所で行われる一つ以上のフレームを一場面として区分でき、段階200で、あらかじめ設定された基準による検索対象フレームを選定することができる。
図11が段階200で選定された検索対象フレームである場合、図11のフレームは、台所でなされる場面のうち、ブラー領域の比重が最も低いため、検索対象フレームとして選定されたものであってもよく、当該場面のうち、探知される客体の数が最も多いため選定されたものであってもよい。図11の検索対象フレームには鍋K10,K40、冷蔵庫K20,K30などの台所家電/機器と関連した客体が含まれており、上着C10、スカートC20、ワンピースC30のような衣類関連客体も含まれている。段階300でサーバーは前記客体K10~K40,C10~C30を検索対象フレームから識別する。
この時、サーバーはあらかじめ設定された主題と関連している客体を識別することができる。図11に示すように、検索対象フレームでは多数の客体が探知され得るが、サーバーは、あらかじめ設定された主題に関連した客体を識別することによって必要な情報だけを抽出することができる。例えば、あらかじめ設定された主題が衣類である場合、サーバーは、検索対象フレームにおいて衣類に関連した客体だけを識別でき、この場合、上着C10、スカートC20、ワンピースC30などを識別できる。もし、あらかじめ設定された主題が台所家電/機器である場合には、K10、K20、K30、K40を識別するだろう。ここで、‘主題’は、客体を区別するカテゴリーを意味し、ユーザ設定によって任意の客体を定義するカテゴリーは上位概念であってもよく、下位概念であってもよい。例えば、主題は、衣類のような上位概念として設定されてもよく、スカート、ワンピース、Tシャツのような下位概念として設定されてもよい。
主題を設定する主体は、サーバーを管理する管理者であってもよく、ユーザであってもよい。主題がユーザによって定められる場合、サーバーはユーザ端末から主題に関する情報を受信し、受信した主題情報に基づいて検索対象フレームから客体を識別することができる。
次に、サーバーは、段階400で、識別された客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、段階500で客体に検索結果をマッピングすることができる。例えば、衣類に関連する客体が識別された場合、サーバーは、識別された上着C10と類似するイメージをイメージデータベースから検索し、上着C10に対応するイメージを取得することができる。また、サーバーはデータベースで上着C10に関連した客体情報、すなわち、黒色の生地に白色の斜線柄がプリンティングされている上着に関連した広告イメージ及び/又は映像、価格、ブランド名、購入可能なオンライン/オフラインの売り場などの客体情報を取得することができる。この時、データベースは、あらかじめ生成されてサーバー内に含まれていてもよいが、ウェブページなどをクローリングして類似イメージのリアルタイム検索によって実時間で構築されてもよい。また、サーバーが外部に構築されたデータベースを用いて検索を行ってもよい。
検索結果、すなわち、前記識別された客体に対応するイメージ、客体に対応する商品情報(価格、ブランド名、商品名、商品コード、商品種類、商品特徴、購買場所など)、広告テキスト、広告映像、広告イメージなどは、識別された客体にマッピングされ、このようにマッピングされた検索結果は、映像再生の際に、映像に隣接したレイヤに表示されたり、或いは映像内又は映像の上位レイヤに表示され得る。または、映像再生時にユーザ要請に対応して検索結果が表示されてもよい。
本明細書で省略された一部の実施例は、その実施主体が同じ場合、同一に適用可能である。また、前述した本発明は、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であり、前述した実施例及び添付の図面によって限定されるものではない。

Claims (13)

  1. 任意の映像を処理する方法であって、
    前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
    前記場面に含まれる一つ以上のフレームのうち、客体ベースイメージ検索時に正確性の高い検索結果が得られるフレームを検索対象フレームとして選定する段階と、
    前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
    前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
    を含む映像処理方法。
  2. 前記映像を場面単位に区分する段階は、
    前記フレームのカラースペクトルを識別する段階と、
    連続する第1フレームと第2フレーム間の前記カラースペクトルの変化があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  3. 前記映像を場面単位に区分する段階は、
    前記フレームにおいて任意の客体と推定される特徴情報を探知する段階と、
    第1フレームに含まれた第1特徴情報が連続する第2フレームに含まれるか否かを判断する段階と、
    前記第2フレームに前記第1特徴情報が含まれていなければ、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  4. 前記映像を場面単位に区分する段階は、
    連続する第1フレームと第2フレームのマッチング率を演算する段階と、
    前記マッチング率があらかじめ設定された値未満であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  5. 前記映像を場面単位に区分する段階は、
    前記フレームの周波数スペクトルを識別する段階と、
    連続する第1フレームと第2フレーム間の前記周波数スペクトルの変化があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  6. 前記映像を場面単位に区分する段階は、
    前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
    前記領域別にカラースペクトル又は周波数スペクトルを識別する段階と、
    連続する第1フレームと第2フレームにおいて互いに対応する領域の前記カラースペクトルの差又は前記周波数スペクトルの差を演算する段階と、
    前記領域別に演算された差の絶対値を合算する段階と、
    前記合算した結果値があらかじめ設定された臨界値以上であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  7. 前記映像を場面単位に区分する段階は、
    前記フレームのそれぞれをあらかじめ設定された大きさの一つ以上の領域に分割する段階と、
    連続する第1フレームと第2フレームにおいて互いに対応する領域別マッチング率を演算する段階と、
    前記マッチング率の平均があらかじめ設定された値未満であれば、前記第1フレームと前記第2フレームの場面を区分する段階とを含む、請求項1に記載の映像処理方法。
  8. 任意の映像を処理する方法であって、
    前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
    前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
    前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
    前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
    を含み、
    前記検索対象フレームを選定する段階は、
    前記フレームにおいてブラー領域を識別する段階と、
    前記ブラー領域が前記フレームに占める比重を演算する段階と、
    第1場面に含まれる一つ以上のフレームのうち、前記ブラー領域の比重が最も低いフレームを前記第1場面の検索対象フレームとして選定する段階とを含む映像処理方法。
  9. 前記ブラー領域を識別する段階は、前記フレームでローカルディスクリプタが抽出されない領域をブラー領域として識別する段階を含む、請求項8に記載の映像処理方法。
  10. 任意の映像を処理する方法であって、
    前記映像を、一つ以上のフレームを含む場面(scene)単位に区分する段階と、
    前記場面からあらかじめ設定された基準による検索対象フレームを選定する段階と、
    前記検索対象フレームからあらかじめ設定された主題に関連した客体を識別する段階と、
    前記客体に対応するイメージ又は客体情報のうち少なくとも一つを検索し、前記客体に検索結果をマッピングする段階と、
    を含み、
    前記検索対象フレームを選定する段階は、
    前記フレームから特徴情報を抽出する段階と、
    第1場面に含まれる一つ以上のフレームのうち、抽出された特徴情報が最も多く含まれたフレームを前記第1場面の検索対象フレームとして選定する段階とを含む映像処理方法。
  11. 請求項1~10のいずれか一項の方法を用いた電子装置の客体情報提供方法であって、
    請求項1~10のいずれか一項の方法を用いて処理された映像を再生する段階と、
    ユーザからあらかじめ設定された選択命令が入力されると、該選択命令が入力された時点のフレームをキャプチャーする段階と、
    前記フレームに含まれた客体にマッピングされた客体情報を画面に表示する段階と、
    を含む、客体情報提供方法。
  12. 請求項1~10のいずれか一項の方法を用いて客体情報を提供する装置であって、
    請求項1~10のいずれか一項の方法を用いて処理された映像を出力する出力部と、
    ユーザからあらかじめ設定された選択命令が入力される入力部と、
    前記映像から前記選択命令が入力された時点のフレームをキャプチャーし、前記フレームに含まれた客体を識別する制御部と、
    を含み、
    前記出力部は、前記識別された客体にマッピングされた客体情報を出力する客体情報提供装置。
  13. 請求項1~10のいずれか一項の方法を実行させるためにコンピュータ読取り可能媒体に格納された映像処理応用プログラム。

JP2020535971A 2018-01-17 2019-01-17 映像前処理方法、装置及びコンピュータプログラム Active JP7105309B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0005820 2018-01-17
KR1020180005820A KR102102164B1 (ko) 2018-01-17 2018-01-17 영상 전처리 방법, 장치 및 컴퓨터 프로그램
PCT/KR2019/000676 WO2019143137A1 (ko) 2018-01-17 2019-01-17 영상 전처리 방법, 장치 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
JP2021509201A JP2021509201A (ja) 2021-03-18
JP7105309B2 true JP7105309B2 (ja) 2022-07-22

Family

ID=67302353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020535971A Active JP7105309B2 (ja) 2018-01-17 2019-01-17 映像前処理方法、装置及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20210182566A1 (ja)
JP (1) JP7105309B2 (ja)
KR (1) KR102102164B1 (ja)
WO (1) WO2019143137A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380255B1 (ko) * 2019-10-10 2022-03-28 주식회사 신세계아이앤씨 영상 기반 선반 상품 재고 모니터링 시스템 및 방법
KR102395876B1 (ko) * 2020-04-14 2022-05-10 빅베이스 주식회사 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법
KR102423968B1 (ko) * 2020-10-06 2022-07-22 동명대학교산학협력단 영상의 객체 재인식 방법
KR102558504B1 (ko) 2021-06-04 2023-07-25 주식회사 지에프티 장면 기반의 동영상 정리 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003087771A (ja) 2001-09-07 2003-03-20 Oki Electric Ind Co Ltd 監視システム及び方法
JP2009015672A (ja) 2007-07-06 2009-01-22 Mitsubishi Electric Corp 顔検出装置及び顔検出方法
JP2012523607A (ja) 2009-04-10 2012-10-04 サムスン エレクトロニクス カンパニー リミテッド 放送プログラム関連情報提供装置および方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175632B2 (ja) * 1997-04-18 2001-06-11 松下電器産業株式会社 シーンチェンジ検出方法およびシーンチェンジ検出装置
KR20090093904A (ko) * 2008-02-28 2009-09-02 미디어코러스 주식회사 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
KR102278048B1 (ko) * 2014-03-18 2021-07-15 에스케이플래닛 주식회사 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체
KR102298066B1 (ko) * 2014-08-14 2021-09-06 삼성전자주식회사 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
KR20160027486A (ko) * 2014-08-29 2016-03-10 주식회사 테라클 광고 제공 장치, 광고 표시 장치, 광고 제공 방법, 및 광고 표시 방법
KR102206184B1 (ko) * 2014-09-12 2021-01-22 삼성에스디에스 주식회사 동영상 내 객체 관련 정보 검색 방법 및 동영상 재생 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003087771A (ja) 2001-09-07 2003-03-20 Oki Electric Ind Co Ltd 監視システム及び方法
JP2009015672A (ja) 2007-07-06 2009-01-22 Mitsubishi Electric Corp 顔検出装置及び顔検出方法
JP2012523607A (ja) 2009-04-10 2012-10-04 サムスン エレクトロニクス カンパニー リミテッド 放送プログラム関連情報提供装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Quang Nhat Vo et al.,A feature-based adaptive model for realtime face tracking on smart phones,18th Acadinavian Conference. SCIA 2013,SCIA,2013年06月17日,630-639

Also Published As

Publication number Publication date
KR102102164B1 (ko) 2020-04-20
JP2021509201A (ja) 2021-03-18
WO2019143137A1 (ko) 2019-07-25
KR20190087711A (ko) 2019-07-25
US20210182566A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP7105309B2 (ja) 映像前処理方法、装置及びコンピュータプログラム
US20230012732A1 (en) Video data processing method and apparatus, device, and medium
US9323785B2 (en) Method and system for mobile visual search using metadata and segmentation
JP5358083B2 (ja) 人物画像検索装置及び画像検索装置
CN105373768B (zh) 提供图像内容的方法和设备
JP5827445B2 (ja) 拡張現実インタラクションを実現する方法およびシステム
CN104994426B (zh) 节目视频识别方法及系统
KR102206184B1 (ko) 동영상 내 객체 관련 정보 검색 방법 및 동영상 재생 장치
US20130101209A1 (en) Method and system for extraction and association of object of interest in video
US8805123B2 (en) System and method for video recognition based on visual image matching
WO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
CN111581423B (zh) 一种目标检索方法及装置
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
WO2014100936A1 (zh) 视频的关联信息库制作和视频播放的方法、平台及系统
CN113596496A (zh) 虚拟直播间的交互控制方法、装置、介质及电子设备
US20170013309A1 (en) System and method for product placement
KR20180025754A (ko) 디스플레이장치 및 그 제어방법
CN110636322B (zh) 多媒体数据的处理方法、装置、智能终端及存储介质
JP5685958B2 (ja) 画像表示システム
CN115379290A (zh) 视频处理方法、装置、设备及存储介质
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
CN113297405A (zh) 数据处理方法和系统、计算机可读存储介质及处理设备
CN115086774B (zh) 资源显示方法、装置、电子设备及存储介质
Karthick et al. Automatic genre classification from videos
Aggarwal et al. Automated Navigation System for News Videos: A Survey

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210914

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20211006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150