JP2021504855A

JP2021504855A - ビデオ特徴の抽出方法および装置

Info

Publication number: JP2021504855A
Application number: JP2020545849A
Authority: JP
Inventors: ▲軼▼ 何; 磊李; 成 ▲楊▼; 根李; 亦▲タン▼ 李
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-12-29
Publication date: 2021-02-15
Anticipated expiration: 2038-12-29
Also published as: SG11202008272RA; US20210089785A1; CN110321759A; JP6982194B2; CN110321759B; WO2019184520A1; US11455802B2

Abstract

本開示は、ビデオ特徴の抽出方法及び装置に関する。抽出方法は、ビデオ対象からフレームを抽出し、一つ以上のフレーム画像を取得するステップと、前記フレーム画像の画像特徴を取得するよう、各前記フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行するステップと、前記一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するステップと、を含む。

Description

関連出願の参照
本願は、２０１８年３月２９日に提出された中国特許出願第２０１８１０２７１７７４．６の優先権を主張するものであり、当該出願の内容は全て本文に取り込まれる。

本開示は、ビデオ処理技術に関し、特にビデオ特徴の抽出方法および装置に関する。

今日のマルチメディア情報化社会では、毎日、超大量のビデオがユーザーによりビデオプラットフォームにアップロードされる。それらのビデオのほとんどは通常の値打ちのあるビデオであるが、一部のビデオは、プラットフォームのビデオデータベースの既有ビデオと同一であり、著作権データベースのビデオ（例えば、ロイヤルティが必要なビデオ）と同一であり、公開禁止または不適宜なビデオであるなど不適合がある。そのため、ユーザーによりアップロードされた超大量のビデオに対し、すばやく比較して選択する必要がある。ビデオに対する比較の速さ、正確性を向上させる主要手段は、ビデオフレームの特徴を適宜に抽出して類似性の判断を行うことである。

比較の速さ、正確性を向上させるために、二つビデオのそれぞれの特徴を比較してビデオの類似度の判断ができるよう、ビデオ毎に、該ビデオが特定されるビデオ特徴を生成する必要がある。ビデオ特徴の抽出方法とビデオ特徴の良さは、ビデオの比較の効率と精度で決まる。

本開示の目的は、新しいビデオ特徴の抽出方法および装置を提供することである。

本開示は、課題を解決するために以下の技術的手段を採用する。本開示によるビデオ特徴の抽出方法は、ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するステップと、前記フレーム画像の画像特徴を取得するよう、各前記フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化が段階的に実行されるステップと、前記一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するステップと、を含む。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。

前記のビデオ特徴の抽出方法において、各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、前記フレーム画像の複数種の色チャネルに応じて、前記複数種のプーリング化を段階的に実行すること、を含む。

前記のビデオ特徴の抽出方法において、前記フレーム画像の画像特徴を取得するよう各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、前記フレーム画像に基づいて行列を決定して、前記複数種のプーリング化によって、１点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記１点のみを含む行列に基づいて画像特徴を決定すること、を含む。

前記のビデオ特徴の抽出方法において、前記フレーム画像の画像特徴を取得するよう各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、以下のステップを含み。ステップ（ａ）、一つの前記フレーム画像に基づいて、第１の行列次元と第２の行列次元を含有する一つの第１行列決定する。前記第１行列における点が、前記フレーム画像における画素に対応しており、前記第１行列における点の値が第１ベクトルとなり、前記第１ベクトルが３次元のベクトルであり、対応する画素の三つ色チャネルの輝度を表すものである。ステップ（ｂ）、前記第１行列において複数の第１ブロックを設け、各前記第１ブロックには、複数の前記第１ベクトルが含まれる。第１の行列次元で前記複数の第１ブロックの数が、第１の行列次元で前記第１行列に含まれた点の数よりも少なく、且つ、第２の行列次元で前記複数の第１ブロックの数が、第２の行列次元で前記第１行列に含まれた点の数よりも少ない。各前記第１ブロックに対し、前記第１ブロックに含まれた複数の前記第１ベクトルの各次元での最大値、最小値、平均値をそれぞれ算出して、９次元の第２ベクトルを取得する。ステップ（ｃ）、前記複数の第１ブロックが対応される前記第２ベクトルに基づいて、第２行列を決定する。前記第２行列における点が前記第１ブロックに対応しており、前記第２行列における点の値が前記第２ベクトルとなる。ステップ（ｄ）、前記第１行列は、値が３^Ｎ次元ベクトル（Ｎは正の整数である）の１点になるまで、ステップ（ｂ）とステップ（ｃ）を繰り返す。前記３^Ｎ次元ベクトルが、前記フレーム画像の画像特徴として決定される。

前記のビデオ特徴の抽出方法において、前記フレーム画像に基づいて行列を決定することは、前記画像特徴に対し２値化処理を実行して２値化画像特徴を取得することと、前記一つ以上のフレーム画像の前記２値化画像特徴に基づいてビデオ特徴を決定することと、を含む。

前記ビデオ特徴の抽出方法において、前記画像特徴に対し２値化処理を実行して２値化画像特徴を取得することは、以下のステップを含む。前記画像特徴に基づいて複数のグループを生成し、各前記グループは前記画像特徴における複数の元素を含む。各前記グループにおける前記複数の元素をそれぞれ合計して、各前記グループの加算値を取得する。前記複数のグループを二つずつペアリングして、複数のグループペアを取得する。各前記グループに対し、前記グループペアにおける二つ前記グループの前記加算値の大きさを比較して、比較結果に基づいて２値化の画像特徴ビットを生成する。前記複数のグループペアの前記画像特徴ビットに基づいて、前記フレーム画像の２値化画像特徴を決定する。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴データベースの構築方法は、前記のいずれかのビデオ特徴の抽出方法によってビデオ対象のビデオ特徴を抽出するステップと、前記のビデオ特徴をビデオ特徴データベースに記憶するステップと、を含む。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴の抽出装置は、ビデオ対象からフレームを抽出して一つ以上のフレームを取得するための画像フレーム抽出モジュールと、各前記フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、前記フレーム画像の画像特徴を取得するための画像特徴決定モジュールと、前記一つ以上のフレーム画像の前記画像特徴ベクトルに基づいて、ビデオ特徴を決定するためのビデオ特徴決定モジュールと、を含む。

前記のビデオ特徴の抽出装置は、さらに、前記のいずれかのビデオ特徴の抽出方法ステップを実行するモジュールを含む。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示による音声認識データベース構築装置は、前記のいずれかのビデオ特徴の抽出方法に従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、前記ビデオ特徴をビデオ特徴データベースに記憶するためのビデオ特徴記憶モジュールと、前記ビデオ特徴を記憶するためのビデオ特徴データベースと、を備える。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴の抽出ハードウェア装置は、非一時的なコンピュータ可読命令を記憶するためのメモリと、前記のいずれかのビデオ特徴の抽出方法を実行するよう、前記コンピュータ可読命令を実行するためのプロセッサと、を備える。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるコンピュータ可読記憶媒体は、コンピュータによって前記のいずれかのビデオ特徴の抽出方法が実行されるよう、コンピュータに実行される非一時的なコンピュータ可読命令を記憶する。

本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示による端末機器は、前記のいずれかのビデオ特徴の抽出装置を含む。

上記説明は、本開示の技術的手段の概要に過ぎず、本開示の技術的手段はより明確に理解されるため、明細書の内容に従って実施可能であり、さらに、本開示の上記および他の目的、特徴および利点はより明らかになるため、以下に添付図面を参照しながら、好適な実施例について詳細に説明する。

本開示の一実施例による、ビデオ特徴の抽出方法のフローチャートである。本開示の一実施例による、複数種のプーリング化処理を段階的に実行するフローチャートである。本開示の一実施例による、画像特徴に対しランダム投影法によって２値化処理を実行するフローチャートである。本開示の方法によって、フレーム画像の画像特徴を抽出する一例のフローの概念図である。本開示の一実施例による、ビデオ特徴データベースの構築方法のフローチャートである。本開示の一実施例に係るビデオ特徴の抽出装置の構成ブロック図である。本開示の一実施例に係るビデオ特徴データベースの構築装置の構成ブロック図である。本開示の一実施例に係るビデオ特徴の抽出ハードウェア装置の構成ブロック図である。本開示の一実施例に係るコンピュータ可読記憶媒体の概念図である。本開示の一実施例に係る端末機器の構成ブロック図である。

本開示の予定されている目的を達成するために採用される技術的手段および効果をさらに説明するために、本開示に係るビデオ特徴の抽出方法および装置の具体的な実施形態、構造、特徴および効果を、添付の図面および好適な実施例を参照しながら以下に詳細に説明する。

図１は、本開示の一実施例によるビデオ特徴の抽出方法を模式的に示すフローチャートである。図１を参照すると、本開示の一例のビデオ特徴の抽出方法は、主に以下のステップＳ１１、Ｓ１２、及びＳ１３を含む。

ステップＳ１１では、ビデオ対象からフレームを抽出し、一つ以上のフレーム画像を取得する。なお、ビデオ対象の種類は限定されず、ビデオ信号であってもよく、ビデオファイルであってもよい。その後、処理はステップＳ１２に進む。

ステップＳ１２では、各フレーム画像に対し、該フレーム画像の画像特徴を取得するよう、複数種のプーリング化（Ｐｏｏｌｉｎｇ）処理が段階的に実行される。ただし、プーリング化（Ｐｏｏｌｉｎｇ）は、畳み込みニューラルネットワークセント分野の次元削減方法であり、複数種のプーリング化は、最大プーリング化、最小プーリング化、平均プーリング化からなるものである。その後、処理はステップＳ１３に進む。

具体的に、フレーム画像の複数の色チャネルに応じて画像特徴を取得するよう、フレーム画像の複数の色チャネルに応じて複数種のプーリング化を段階的に実行してもよい。

ステップＳ１３では、前記の一つ以上のフレーム画像に対応する複数の画像特徴に基づいて、該ビデオ対象のビデオ特徴を決定する。具体的には、複数の画像特徴をフレーム画像の時系列に組み合わせて、ビデオ特徴を取得してもよい。

本開示に係るビデオ特徴の抽出方法は、抽出されたフレーム画像に対し複数種のプーリング化を段階的に実行してビデオ特徴を生成することにより、ビデオ特徴の抽出の正確性と抽出の効率を大幅向上させ、取得されたビデオ特徴の良さと頑健性（Ｒｏｂｕｓｔ）を向上できる。

本開示に係る一実施例において、フレーム画像に対し複数種のプーリング化を段階的に実行することは、フレーム画像に基づいて一つの行列を決定して、複数種のプーリング化によって、１点のみを含む行列に縮小するまで（また、行列の「点」が、行列の「元素」と呼ばれる）、段階的に小さな行列を生成して、該１点のみを含む行列に基づいて該フレーム画像の画像特徴を決定すること、を含む。

図２は、本開示のビデオ特徴の抽出方法の一実施例に係る複数種のプーリング化処理を段階的に実行する模式的なフローチャートである。具体的に、図２を参照すると、本開示のビデオ特徴の抽出方法の一実施例によるステップＳ１２で、複数種のプーリング化処理が段階的に実行されることは、以下のステップ（ａ）、（ｂ）、（ｃ）及び（ｄ）を含む。

ステップ（ａ）では、フレーム画像に基づいて、第１の行列次元と第２の行列次元（或いは、長さ方向と幅方向）を含有する第１行列を決定する。該フレーム画像の長さはｘ画素であり、幅はｙ画素であると仮定される。ただし、ｘとｙは、正の整数である。第１行列の１点（行列の点は、行列の元素ともいうが、ベクトルの元素と区別するために、以下、行列の元素が「点」と示す）は、フレーム画像の一つの画素に対応するので、第１行列は、第１の行列次元の長さがｘとなり、且つ、第２の行列次元の長さがｙとなる行列（即ち、ｘ＊ｙ行列）である。ここで、行列の第１の行列次元/第２の行列次元の長さは、第１の行列次元/第２の行列次元で、該行列に含まれる点の数を表すものである。該第１行列の各点の値は、３次元のベクトルとなる。該３次元のベクトルは、該フレーム画像における対応画素の三つ色チャネルの輝度を表す第１ベクトルとして定義される。注意が必要なのは、ビデオ対象の色モードは赤緑青モード（ＲＧＢモード）である場合に、赤・緑・青の三つ色チャネルとしてもよいが、赤・緑・青の三つ色チャネルに限定せず、例えば、ビデオ対象による色モードに応じて選択してもよい。選択された色チャネルの数は、三つに限定せず、例えば、赤・緑・青の三つ色チャネルのうち二つを選択してもよい。その後、処理は、ステップ（ｂ）に進む。

ステップ（ｂ）では、第１行列に複数の第１ブロック（実際、各ブロックは一つのプーリングウィンドウに相当するため、第１ブロックが第１プーリングウィンドウと呼ばれてもよい）を設ける。ｘ_１＊ｙ_１個の第１ブロックを設け、ただし、ｘ_１とｙ_１が正の整数である。各第１ブロックには、複数の該第１行列の点（或いは、複数の第１ベクトル）が含まれる。第１の行列次元における該複数の第１ブロックの数は、該第１行列の第１の行列次元の長さ（或いは、第１の行列次元で該第１行列に含まれた点の数）よりも少なく、且つ、第２の行列次元における該複数の第１ブロックの数は、該第１行列における第２の行列次元の長さ（或いは、第２の行列次元で該第１行列に含まれた点の数）よりも少ない。即ち、ｘ_１の値はｘ未満であり、且つ、ｙ_１の値はｙ未満である。各第１ブロックに対し、第１ブロックに含まれた複数の第１ベクトルの各次元での最大値、最小値、平均値を算出して、該第１ブロックに対応する９次元のベクトルを取得する。該９次元のベクトルは、第２ベクトルとして定義される。なお、各第１ブロックは、互いに部分が重なって、同一の点が含まれてもよいし、互いに重なってなくてもよい。その後、処理は、ステップ（ｃ）に進む。

具体的に、第１ブロックを設ける際、第１行列の第１の行列次元をｘ_１セグメントに均一に分割して、各セグメントの長さは、同一であり、且つ、隣接する二つセグメントが同一の点を含む（一部が重なる）。同様、第１行列の第２の行列次元をｙ_１セグメントに分割し、該ｘ_１セグメントと該ｙ_１セグメントとを組み合わせて、第１行列のｘ_１＊ｙ_１個の第１ブロックを取得する。

なお、設けられた各第１ブロックが同一の大きさと同一の間隔を持つと（隣接する二つの第１ブロックが重なってもよい）、前記第１行列において複数の第１ブロックを設け、各第１ブロックの第２ベクトルを算出することは、以下のことに該当する。実際に一つのプーリングウィンドウを利用して一定間隔で第１行列全体を走査（或いは、擦り通す）し、走査毎に、該プーリングウィンドウに被覆されたブロックの第２ベクトルを算出する。

ステップ（ｃ）では、該複数のｘ_１＊ｙ_１個の第１ブロック及び各第１ブロックに対応する第２ベクトルに基づいて、第２行列を決定する。該第２行列の１点は一つの第１ブロックに対応し、ｘ_１＊ｙ_１個の第１ブロックを設けると、該第２行列は、第１の行列次元の長さがｘ_１となり、第２の行列次元の長さがｙ_１となる行列（即ち、ｘ_１＊ｙ_１行列）である。該第２行列の各点の値は、対応する第１ブロックの該第２ベクトルとなる。その後、処理は、ステップ（ｄ）に進む。

なお、第２行列を決定する際、所定の順序で第１ブロックと第２行列との点の対応が実行される必要がある。具体的な一例として、第１行列における各第１ブロックの位置順に、第２行列の各点を配置してもよい。

ステップ（ｄ）では、以下のように、ステップ（ｂ）とステップ（ｃ）を繰り返す。ｘ_１＊ｙ_１個の点を含み且つ各点の値が９次元ベクトルとなる第２行列に基づいて、ｘ_２＊ｙ_２の点を含み、且つ各点の値が２７次元ベクトルとなる第３行列を取得する（ただし、ｘ_２はｘ_１未満の正の整数であり、ｙ２はｙ１未満の正の整数である）。ｘ_２＊ｙ_２の点を含み且つ各点の値が２７次元ベクトルとなる第３行列に基づいて、ｘ_３＊ｙ_３の点を含み且つ各点の値が８１次元ベクトルとなる第３行列を取得する（ただし、ｘ_３はｘ_２未満の正の整数であり、ｙ_３はｙ_２未満の正の整数である）。・・・、該第１行列（或いは、該フレーム画像）が１＊１の第Ｎ行列（Ｎは正の整数である）に縮小される（実際、行列が１点に次元削減された）まで、該第Ｎ行列は１点のみを含み、該点の値が一つの３Ｎ次元のベクトルとなる。該３Ｎ次元ベクトルが該フレーム画像の画像特徴として決定される。
なお、ステップ（ｄ）では、各のブロックの設定する際に、行列の第１の行列次元と第２の行列次元が段階的に削減することに適合するよう、行列の大きさに応じて相応の態様を採用してブロックを設ける。

本開示の実施例において、さらに、以下のステップを含む。決定された画像特徴に対して２値化処理を実行して、０と１からなるビット列である２値化画像特徴を取得する。さらに、取得された２値化画像特徴に基づいて、ビデオ特徴が決定される。

画像特徴を２値化処理することは、ビデオ特徴の格納を圧縮でき、且つ、ビデオ比較の類似度の算出も高速化できる。また、２値化処理を実行することは、ビデオ比較のインデックスデータベースの再現過程にも有益である。

具体的に、ベクトル形式の画像特徴を２値化するのに特に適したランダム投影（random projection）法によって、画像特徴を２値化の画像特徴に変換してもよい。図３は、本開示のビデオ特徴の抽出方法一実施例に係るランダム投影法によって画像特徴に対して２値化を実行する模式的なブロック図である。図３を参照すると、本開示の例において、ランダム投影法によって画像特徴に対し２値化処理を実行することは、以下のステップＳ２１、Ｓ２２、Ｓ２３、Ｓ２４、及びＳ２５を含む。

ステップＳ２１では、長さがｎである２値化画像特徴を生成するために、画像特徴に基づいて、２ｎ個のグループ（ｇｒｏｕｐ）を生成し、各グループは、該画像特徴の複数の元素を含む（即ち、各グループは画像特徴の複数次元の値を含む）。ただし、ｎは、正の整数である。その後、処理はステップＳ２２に進む。

なお、グループにおいてどの元素が具体に含まれるかは限定せず、且つ、異なるグループにおいて同一の元素が含まれてもよい。しかし、ビデオを比較しやすいために、各グループにおいて具体に含まれた元素が事前に設定されてもよく、または複数のビデオ対象に対し同じ方法によって該グループを生成してもよい。

本例において、各グループに含まれた元素の数は、同一である。なお、実際に各グループに含まれた元素の数は、同一ではなくてもよい。

ステップＳ２２では、各グループに含まれた複数の元素をそれぞれ合計して、各グループの加算値を取得する。その後、処理はステップＳ２３に進む。

ステップＳ２３では、該２ｎ個のグループを二つずつペアリングして、ｎ個のグループペアを取得する。その後、処理はステップＳ２４に進む。

具体的に、２ｎ個のグループを予めに順列して（或いは、グループに番号を付け）、隣接する二つものをグループペアに配成する。

ステップＳ２４では、ｎ個のグループペアをそれぞれ比較し、各グループペアのうち二つのグループの加算値の大きさを比較して、比較の結果に基づいて一つの２値化された画像特徴ビットを生成する。その後、処理はステップＳ２５に進む。

具体的に、グループを予めに順列した（或いは、番号を付けた）例において、ペアグループのうち前のグループの加算値が後のグループの加算値より大きい場合、値が１となる一つの２値化画像特徴ビットを生成し、逆に、値が０となる一つの２値化画像特徴ビットを生成する。なお、２値化画像特徴ビットの生成方法は限定されず、例えば、前のグループの加算値が後のグループの加算値より小さい場合、値が１となる２値化画像特徴ビットを生成してもよい。

ステップＳ２５では、該ｎ個のグループペアの該ｎ個の２値化画像特徴ビットに基づいて、該フレーム画像の長さがｎとなる２値化画像特徴を形成する。

図４は、本開示のビデオ特徴の抽出方法によって、具体的にフレーム画像の画像特徴を抽出する過程の模式的なフローチャートである。図４を参照すると、本開示の実施例に係るフレーム画像の画像特徴を抽出する具体例は、以下のステップＳ３１、Ｓ３２、Ｓ３３、及びＳ３４を含む。

ステップＳ３１では、ビデオ対象からサンプリングされた一つの２４３＊２４３のフレーム画像（長さが２４３画素であり、幅が２４３画素である）に対し、各画素が赤・緑・青の三つのチャネルを有し、図４において、Ｉ、ＩＩ、ＩＩＩで赤・緑・青の三つチャネルをそれぞれ標示する。以下のように、フレーム画像に基づいて第１行列を定義する。第１行列における各点を、フレーム画像における同じ位置の画素に対応して、各画素の赤・緑・青の三つチャネルの輝度値に応じて、対応する点の値を決定して、一つの２４３＊２４３の第１行列を取得し、第１行列における点の値が一つの３次元ベクトルとなる。

ステップＳ３２では、１３＊１３の行列ブロック（あるいは、該行列ブロックはプーリングウィンドウと呼ばれることもある）で、第１行列を引く。

行列ブロックに被覆された１３＊１３個の点の各次元（実際に、赤・緑・青の三つの色チャネルの輝度）の最大値、最小値、中間値を取得して、９次元ベクトルを取得する。

行列ブロックは、第１行列の長さ方向または幅方向に、三つの点ずつ移動し、行列ブロックは長さ方向または幅方向に沿ってすべての点を順次に引き、行列ブロックに被覆された複数の点の各次元の最大値、最小値、中間値を算出する。

第１行列全体が処理されて、８１＊８１の第２行列を取得して、該第２行列における点の値が９次元ベクトルとなる。

ステップＳ３３では、ステップＳ３２を繰り返して、１０＊１０の行列ブロックを使用して第２行列を移動し、三点ずつ移動し、２７＊２７の第３行列を取得し、該第３行列における点の値が２７次元ベクトルである。６＊６の行列ブロックを使用して、第３行列を移動し、二点ずつ移動し、９＊９の第四行列を取得し、該第四行列における点の値が８１次元ベクトルである。・・・、１＊１の１点行列が取得されるまで、該１点行列に含まれた点の値が７２９次元ベクトルとなり、該７２９次元ベクトルがプーリングベクトルとして定義される。

ステップＳ３４では、ランダム投影法によって、該プーリングベクトルに対し２値化処理を実行して、該フレーム画像の２値化された画像特徴を取得する。

図５は、本開示のビデオ特徴データベースの構築方法の一実施例の模式的なフローチャートである。図５を参照すると、本開示の例のビデオ特徴データベースの構築方法は、以下のステップＳ４１、及びＳ４２を含む。

ステップＳ４１では、前記の本開示の例のビデオ特徴の抽出方法のステップに従って、ビデオ対象のビデオ特徴を抽出する。その後、処理はステップＳ４２に進む。

ステップＳ４２では、ビデオ対象のビデオ特徴をビデオ特徴データベースに記憶する。

なお、ビデオ特徴データベースにおけるビデオ特徴は、同じ特徴抽出方法によって取得されたものであり、即ち、ステップＳ４１のビデオ特徴の抽出中に、ステップＳ１１で同じ方法によってフレームの抽出を実行して、ステップＳ１２で同じ方法によってフレーム画像に対し複数種のプーリング化を段階的に実行して、ステップＳ１３で同じ方法によって画像特徴がビデオ特徴として形成される。また、時間の経過とともに、リアルタイムでビデオ特徴データベースを更新してもよい。

図６は、本開示のビデオ特徴の抽出装置の一実施例の模式的な構成ブロック図である。図６を参照すると、本開示の例のビデオ特徴の抽出装置１００は、主に
ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するためのフレーム抽出モジュール１１０と、
各フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、該フレーム画像の画像特徴を取得するための画像特徴決定モジュール１２０と、
該一つ以上のフレーム画像に対応する複数画像特徴に基づいてビデオ特徴を決定するためのビデオ特徴決定モジュール１３０と、を備える。

具体的に、画像特徴決定モジュール１２０は、さらに、本開示のビデオ特徴の抽出方法の実施例に示すステップに従って、フレーム画像に対し複数種のプーリング化を段階的に実行する。

本開示の例のビデオ特徴の抽出装置１００は、さらに、前記の本開示のビデオ特徴の抽出方法の実施例に示すステップに従って、画像特徴に対し２値化処理を実行するための２値化モジュール（図示せず）を備える。このとき、該ビデオ特徴決定モジュール１３０は、２値化された画像特徴に基づいてビデオ特徴を決定する。

図７は、本開示のビデオ特徴データベースの構築装置の一実施例の模式的な構成図である。図７を参照すると、本開示の例のビデオ特徴データベースの構築装置２００は、主に
前記の本開示の例のビデオ特徴の抽出装置のフレーム抽出モジュール１１０、画像特徴決定モジュール１２０、ビデオ特徴決定モジュール１３０を備え、２値化モジュールを備えてもよく、前記の本開示の例のビデオ特徴の抽出方法のステップに従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出モジュール２０１と、
ビデオ特徴をビデオ特徴データベースに記憶するためのビデオ特徴記憶モジュール２０２と、
各ビデオ対象のビデオ特徴を記憶するためのビデオ特徴データベース２０３と、を備える。

図８は、本開示の実施例のビデオ特徴の抽出ハードウェア装置を示すハードウェアブロック図である。図８に示すように、本開示の実施例のビデオ特徴抽出ハードウェア装置３００は、メモリ３０１と、プロセッサ３０２と、を備える。ビデオ特徴抽出ハードウェア装置３００の各モジュールは、バスシステムおよび／またはその他のコネクション機構（図示せず）に介して、互いに接続する。

該メモリ３０１は、非一時的なコンピュータ可読命令を記憶する。具体的に、メモリ３０１は、一つ以上のコンピュータプログラム製品を含有してもよく、該コンピュータプログラム製品は、各種のコンピュータ可読記憶媒体、例えば、揮発性メモリおよび／または不揮発性メモリであってもよい。該揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）および／またはキャッシュメモリ（ｃａｃｈｅ）などであってもよい。該不揮発性メモリは、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ハードディスク、フラッシュメモリなどであってもよい。

該プロセッサ３０２は、ＣＰＵ、またはデータ処理機能および／または指令実行機能をもつその他の処理ユニットであってもよく、且つ、所望の機能ができるよう、コントロールビデオ特徴抽出ハードウェア装置３００におけるその他のモジュールを制御してもよい。本開示の一実施例において、該ビデオ特徴抽出ハードウェア装置３００が前記の本開示の各実施例のビデオ特徴の抽出方法の全部または一部ステップを実行させるよう、該プロセッサ３０２は該メモリ３０１に記憶された該コンピュータ可読命令を実行する。

図９は、本開示の実施例のコンピュータ可読記憶媒体を示す概念図である。図９に示すように、本開示の実施例のコンピュータ可読記憶媒体４００には、非一時的なコンピュータ可読命令４０１が記憶されている。該非一時的なコンピュータ可読命令４０１がプロセッサにより実行される際には、前記の本開示の各実施例のビデオ特徴の抽出方法の全てまたは一部ステップが実行される。

図１０は、本開示の実施例の端末機器のコントローラのハードウェア構成を示す概念図である。端末機器は各種の形式で実現してもよい。本開示の端末機器は、限定せず、携帯電話、スマートフォン、ラップトップ、ディジタル放送受信器、ＰＤＡ、ＰＡＤ（タブレット）、ＰＭＰ（携帯マルチメディア再生装置）、ナビゲーション装置、車載端末機器、車載表示端末、車載電気ドアミラーなどの移動端末機器と、ディジタルＴＶ、デスクトップなどの固定端末機器と、を含む。

図１０に示すように、端末機器１１００は、無線通信ユニット１１１０、Ａ／Ｖ（音声／ビデオ）入力ユニット１１２０、ユーザー入力ユニット１１３０、検知ユニット１１４０、出力ユニット１１５０、メモリ１１６０、ポートユニット１１７０、コントローラ１１８０、電源ユニット１１９０などを含む。図１０には、各モジュールを有する端末機器が示されてが、示されているすべての構成要素を実装する必要があるわけではないことを理解されたい。代わりに、より多い、またはより少ない構成要素を実装してもよい。

そのうち、無線通信ユニット１１１０は、端末機器１１００と、無線通信システム、またはネットワークとの間の無線通信に使用される。Ａ／Ｖ入力ユニット１１２０は、音声、またはビデオ信号を受信する。ユーザー入力ユニット１１３０は、端末機器の各作業を制御するよう、ユーザーから入力された命令に基づいて入力データを生成する。検知ユニット１１４０は、端末機器１１００の現在状態、端末機器１１００の位置、ユーザーが端末機器１１００に対するタッチ入力の有無、端末機器１１００の配向、端末機器１１００の加速・減速の移動及び向きなどを検出して、且つ端末機器１１００の作業を制御するための命令または信号を生成する。ポートユニット１１７０は、少なくとも一つの外部装置と端末機器１１００と接続するポートとして使用される。出力ユニット１１５０は、視覚的、聴覚的、および／または触覚的な出力信号を提供するように構成される。メモリ１１６０には、コントローラ１１８０により実行される処理及び制御作業のソフトウェアプログラムなどを記憶してもよく、または出力された或いは出力されるデータを一時的に記憶してもよい。メモリ１１６０には、少なくとも一種類の記憶媒体を含有してもよい。しかも、端末機器１１００は、ネットワークに介して接続されたメモリ１１６０の記憶機能を実行するネットワーク記憶装置と協働することができる。コントローラ１１８０は、通常、端末機器の全体的な動作を制御する。また、コントローラ１１８０は、マルチメディアデータを再生または再放送するためのマルチメディアモジュールを備えてもよい。コントローラ１１８０は、タッチパネルで実行された手書き入力または絵描画入力を文字または画像として認識するよう、パターン認識処理を実行できる。電源ユニット１１９０は、コントローラ１１８０の制御下で外部電力または内部電力を受け取り、各素子及びモジュールを動作させるのに必要な適切な電力を提供する。

本開示によるビデオ特徴の抽出方法の各実施形態は、例えば、コンピュータソフトウェア、ハードウェア、またはそれらを組み合わせたコンピュータ可読媒体で実現できる。ハードウェアで実現する場合、本開示によるビデオ特徴の抽出方法の各実施形態は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＤＳＰＤ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、プロセッサ、コントローラ、マイクロコントローラー、マイクロプロセッサを使用して、前記の機能を実行する電子ユニットの少なくとも一つで実現できる。なお、本開示によるビデオ特徴の抽出方法の各実施形態は、コントローラ１１８０において実現してもよい。ソフトウェアで実現する場合、本開示によるビデオ特徴の抽出方法の各実施形態は、少なくとも１つ機能または作業を実行する個別のソフトウェアモジュールで実現できる。ソフトウェアコードは、任意の適切なプログラミング言語で書かれたソフトウェアアプリケーション（またはプログラム）によって実現でき、メモリ１１６０に記憶し、コントローラ１１８０によって実行することができる。

以上、本開示の実施例のビデオ特徴の抽出方法、装置、ハードウェア装置、コンピュータ可読記憶媒体及び端末機器によれば、ビデオからフレームを抽出されたフレーム画像に対し複数種のプーリング化を段階的に実行してビデオ特徴を生成することにより、ビデオ特徴の抽出の正確性と効率を大幅向上させ、取得されたビデオ特徴の良さと頑健性（Ｒｏｂｕｓｔ）を向上でき、本開示のビデオ特徴の抽出方法によって取得されたビデオ特徴に対しビデオ比較、ビデオ検索、ビデオの重複排除及びビデオコンテンツの監視を実行する際に、精度、効率、頑健性が向上できる。

本開示の基本原理は、特定の実施形態に関連して上記で説明されたが、本開示で言及される利点、効果などは単なる例であり、限定ではなく、その利点、効果などは各実施形態の必要な要件と考慮されないことに留意されたい。さらに、上記の開示の具体的な内容は、一例または理解しやすくするためのものであり、本発明を限定することを意図するものではない。

本開示の装置、ユニット、デバイス、モジュール、システムのブロック図は単なる例示であり、必ずブロック図の通りで接続、配置、構成されるわけではない。当業者には理解されるように、これらの装置、ユニット、デバイス、モジュール、システムは、任意の方法で接続、配置、構成することができる。「含む」、「含有」、「備える」などの言葉は、「含むがこれに限定されない」という意味の一般的な言葉であり、同じ意味で使用される。「または」と「および」という用語は、本明細書では「および／または」という言葉を意味するために使用され、文脈がそうでないことを明確に示さない限り互換的に使用される。本明細書で使用される「〜など」という用語は、「〜などであるがこれに限定されない」という語句を指し、交換可能に使用される。

さらに、ここで使用される「少なくとも１つ」で始まる例で使用される「または」は、たとえば「Ａ、Ｂ、Ｃの少なくとも１つ」がＡまたはＢまたはＣ、或いは、ＡＢまたはＡＣまたはＢＣ、或いは、ＡＢＣ（ＡおよびＢおよびＣ）を意味する。さらに、「例示」という表現は、説明された例が他の例よりも好ましいまたはより良いことを意味しない。

また、本開示のシステムおよび方法では、各構成要素またはステップが分解および／または再結合できることに留意されたい。これらの分解および／または再結合は、本開示の同等物と見なされるべきである。

請求範囲で定義される本発明の教示から逸脱することなく、本明細書に記載された技術の様々な変更、置換、および変化を行うことができる。さらに、本開示の請求範囲は、上記の処理、機械、製造、モジュールの構成、手段、方法、および動作の態様に限定されない。既存のまたは後に開発される処理、機械、製造、モジュール、またはモジュールの構成、メカニズム、方法、または動作を利用して、本明細書で説明するさまざまな態様と実質的に同じ機能を実行することができる。したがって、請求範囲は、そのような処理、機械、製造、モジュール、またはモジュールの構成、メカニズム、方法、または動作を含むことに留意されたい。

開示された態様の上記の説明は、当業者が本開示を作成または使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者には明らかであり、本明細書で定義される一般原理は、本開示の範囲から逸脱することなく他の態様に適用できる。したがって、本開示は、本明細書に示される態様に限定されるものではなく、本明細書に開示される原理および新規の特徴の最も広い範囲内にあるものとする。

上記の説明は、例示および説明の目的で提示された。さらに、説明の内容は、本開示の実施形態を本明細書に開示された形態に限定することを意図していない。多くの例示的な態様および実施形態が上記で提出されたが、当業者は、それらの特定の変形、修正、変更、追加、およびサブコンビネーションを認識するであろう。

100 ビデオ特徴の抽出装置
110 フレーム抽出モジュール
120 画像特徴決定モジュール
130 ビデオ特徴決定モジュール
200 ビデオ特徴データベースの構築装置
201 ビデオ特徴抽出モジュール
202 ビデオ特徴記憶モジュール
203 ビデオ特徴データベース
300 ビデオ特徴抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ可読記憶媒体
401 非一時的なコンピュータ可読命令
1110 無線通信ユニット
1120 Ａ／Ｖ入力ユニット
1130 ユーザー入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インタフェースユニット
1180 コントローラ
1190 電源ユニット

Claims

ビデオ特徴の抽出方法であって、
ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するステップと、
各フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、該フレーム画像の画像特徴を取得するステップと、
前記の一つ以上のフレーム画像に対応する複数の画像特徴に基づいて、前記のビデオ対象のビデオ特徴を決定するステップと、
を含むビデオ特徴の抽出方法。
請求項１に記載されたビデオ特徴の抽出方法において、
各前記フレーム画像に対し複数種のプーリング化を段階的に実行することは、
前記フレーム画像の複数の色チャネルに応じて、前記複数種のプーリング化を段階的に実行すること、を含む。
請求項１に記載されたビデオ特徴の抽出方法において、
各前記フレーム画像に対し複数種のプーリング化を段階的に実行して前記フレーム画像の画像特徴を取得することは、
前記フレーム画像に基づいて行列を決定して、前記複数種のプーリング化によって、１点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記１点のみを含む行列に基づいて画像特徴を決定すること、を含む。
請求項３に記載されたビデオ特徴の抽出方法において、
前記フレーム画像に基づいて1つの行列を決定して、前記複数種のプーリング化によって、１点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記１点のみを含む行列に基づいて画像特徴を決定するステップは、以下のステップ（ａ）、（ｂ）、（ｃ）及び（ｄ）を含み、
ステップ（ａ）では、1つの前記フレーム画像に基づいて、第１の行列次元と第２の行列次元を含有する一つの第１行列を決定して、前記第１行列における点が前記フレーム画像における画素に対応しており、前記第１行列における点の値が第１ベクトルとなり、前記第１ベクトルが、３次元のベクトルとなり、対応する画素の三つ色チャネルの輝度を表し、
ステップ（ｂ）では、前記第１行列において複数の第１ブロックを設け、各前記第１ブロックには複数の前記第１ベクトルが含まれ、第１の行列次元における前記複数の第１ブロックの数が、第１の行列次元における前記第１行列に含まれた点の数よりも少なく、且つ、第２の行列次元における前記複数の第１ブロックの数が、第２の行列次元における前記第１行列に含まれた点の数よりも少なく、各前記第１ブロックについて、前記第１ブロックに含まれた複数の前記第１ベクトルの各次元の最大値、最小値、平均値をそれぞれ算出して、９次元の第２ベクトルを取得し、
ステップ（ｃ）では、前記複数の第１ブロックに対応された前記第２ベクトルに基づいて、第２行列を決定して、前記第２行列における点が前記第１ブロックに対応し、前記第２行列における点の値が前記第２ベクトルとなり、
ステップ（ｄ）では、前記第１行列を、値が３Ｎ次元ベクトル（Ｎは正の整数である）となる点に縮小されるまで、ステップ（ｂ）とステップ（ｃ）を繰り返して、前記３Ｎ次元ベクトルを前記フレーム画像の画像特徴として決定する。
請求項１に記載されたビデオ特徴の抽出方法において、
前記の一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するステップは、
前記画像特徴に対して２値化処理を実行し、２値化画像特徴を取得するステップ、
前記の一つ以上のフレーム画像の前記２値化画像特徴に基づいてビデオ特徴を決定するステップ、を含む。
請求項５に記載されたビデオ特徴の抽出方法において、
前記画像特徴に対して２値化処理を実行して２値化画像特徴を取得するステップは、
前記画像特徴に基づいて複数のグループを生成し、各前記グループが前記画像特徴における複数の元素を含有するステップと、
各前記グループにおける前記複数の元素をそれぞれ合計して、各前記グループの加算値を取得するステップと、
前記複数のグループを二つずつペアリングして、複数のグループペアを取得するステップと、
各前記グループについて、前記グループペアのうち二つ前記グループの前記加算値の大きさを比較して、比較結果に基づいて一つの２値化の画像特徴ビットを生成するステップと、
前記複数のグループペアの前記画像特徴ビットに基づいて、前記フレーム画像の２値化画像特徴を決定するステップと、を含む。
ビデオ特徴データベースの構築方法であって、
請求項１ないし６のいずれかに記載されたビデオ特徴の抽出方法に従って、ビデオ対象のビデオ特徴を抽出するステップと、
前記ビデオ特徴をビデオ特徴データベースに記憶するステップと、
を含むビデオ特徴データベースの構築方法。
ビデオ特徴の抽出装置であって、
ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するためのフレーム抽出モジュールと、
各フレーム画像に対して、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、前記フレーム画像の画像特徴を取得するための画像特徴決定モジュールと、
前記一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するためのビデオ特徴決定モジュールと、
を備えるビデオ特徴の抽出装置。
請求項８に記載されたビデオ特徴の抽出装置は、
請求項２ないし６のいずれかに記載されたステップを実行するモジュールを備える。
ビデオ特徴データベースの構築装置であって、
請求項１ないし６のいずれかに記載されたビデオ特徴の抽出方法に従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、
前記ビデオ特徴をビデオ特徴データベースに記憶するためのビデオ特徴記憶モジュールと、
前記ビデオ特徴を記憶するためのビデオ特徴データベースと、
を備えるビデオ特徴データベースの構築装置。
ビデオ特徴抽出ハードウェア装置であって、
非一時的なコンピュータ可読命令を記憶するためのメモリと、
請求項１ないし６のいずれかに記載されたビデオ特徴の抽出方法を実現するよう、前記コンピュータ可読命令を実行するためのプロセッサと、
を備えるビデオ特徴抽出ハードウェア装置。
請求項１ないし６のいずれかに記載されたビデオ特徴の抽出方法がコンピュータによって実行されるよう、非一時的なコンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体。
請求項８または９に記載されたビデオ特徴の抽出装置を備える端末装置。