JP7007474B2

JP7007474B2 - ビデオ特徴抽出方法及び装置

Info

Publication number: JP7007474B2
Application number: JP2020520052A
Authority: JP
Inventors: ▲軼▼ 何; 磊李; 成 ▲楊▼; 根李; 亦▲タン▼ 李
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-12-29
Publication date: 2022-01-24
Anticipated expiration: 2038-12-29
Also published as: CN110324659A; US20200302183A1; US11055536B2; SG11202008423YA; JP2020536335A; WO2019184521A1; CN110324659B

Description

「関連出願の相互参照」
本願は、２０１８年３月２９日に中国専利局に提出された出願番号が２０１８１０２７１７７３．１である中国特許出願の優先権を主張し、その全ての内容を援用する形で本願に組み込む。

本開示は、ビデオ処理技術の分野に関し、特に、ビデオ特徴の抽出方法及び装置に関する。

今日のマルチメディア情報社会では、ユーザは毎日大量のビデオをビデオプラットフォームにアップロードするが、これらのビデオのほとんどは通常の価値のあるビデオであるが、問題のあるビデオもあり、問題のあるビデオは主に、プラットフォームビデオデータベースにおける既存のビデオと重複するビデオ、著作権データベースにおけるビデオと重複するビデオ（例えば、著作権料を支払う必要のあるビデオ）、及び不適切なビデオ又は表示禁止のビデオを含む。そのためユーザがアップロードした大量のビデオに対して高速照合及びフィルタリングを行う必要がある。ビデオ照合速度及び正確性を向上させるコア技術はビデオフレームの特徴に対して合理的な抽出及び類似度判定を行うことである。

照合速度及び正確性を向上させるために、１つのビデオに該ビデオを特徴付けるビデオ特徴を生成する必要があり、目的は２つのビデオの特徴を照合することによりビデオの類似度を判断することである。ビデオ特徴の抽出方法及びビデオ特徴の優良度はビデオ照合の効率と正確率を決定する。

本開示の目的は、新たなビデオ特徴抽出方法及び装置を提供することである。

本開示の目的は、以下の技術的解決手段によって達成される。

本開示にて提案されるビデオ特徴抽出方法は、ビデオオブジェクトに対してフレームを抽出して１つ又は複数のフレーム画像を得るステップと、前記フレーム画像のそれぞれについて１つ又は複数の検出ベクトルを取得し、各前記検出ベクトルを用いて、前記フレーム画像内の任意のピクセルを始点とし、前記検出ベクトルが指す前記始点の終点を決定し、前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定するステップと、前記１つ又は複数のフレーム画像の前記画像特徴に基づいて前記ビデオオブジェクトのビデオ特徴を決定するステップと、を含む。

本開示の目的は、以下の技術的解決手段によってさらに達成され得る。

上述したビデオ特徴抽出方法において、前記検出ベクトルの長さと方向は任意である。

上述したビデオ特徴抽出方法において、前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定する前記ステップは、前記検出ベクトルのそれぞれについて１つの前記フレーム画像における各前記始点と対応する前記終点との差分を決定し、前記検出ベクトル毎の特徴ビットを得るために、同一の前記検出ベクトルのそれぞれの前記差分の総合に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することと、前記１つ又は複数の検出ベクトルに基づく前記フレーム画像の前記特徴ビットに基づいて前記フレーム画像の画像特徴を決定することと、を含む。

上述したビデオ特徴抽出方法において、１つ又は複数の検出ベクトルを取得する前記ステップは、前記検出ベクトル毎にカウンタを割り当てることを含む。同一の前記検出ベクトルのそれぞれの前記差分の総合に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することは、前記検出ベクトルの各前記始点と前記終点との差分に基づいて、前記検出ベクトルに対応する前記カウンタの値を増減することと、前記カウンタの値と予め設定された設定値との間で大きさを比較し、前記比較結果に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することとを含む。

上述したビデオ特徴抽出方法において、前記始点と前記終点との差分は、前記始点の輝度情報と前記終点の輝度情報との差分を含む。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案されるビデオ特徴ライブラリ構築方法は、上述したいずれかのビデオ特徴抽出方法に基づいてビデオオブジェクトのビデオ特徴を抽出するステップと、前記ビデオ特徴をビデオ特徴ライブラリに記憶するステップと、を含む。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案されるビデオ特徴抽出装置は、ビデオオブジェクトに対してフレームを抽出して１つ又は複数のフレーム画像を得るためのフレーム抽出モジュールと、画像特徴決定モジュールであって、前記フレーム画像のそれぞれについて１つ又は複数の検出ベクトルを取得し、各前記検出ベクトルを用いて、前記フレーム画像内の任意のピクセルを始点とし、前記検出ベクトルが指す前記始点の終点を決定し、前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定するためのモジュールと、前記１つ又は複数のフレーム画像の前記画像特徴に基づいて前記ビデオオブジェクトのビデオ特徴を決定するためのビデオ特徴決定モジュールと、を含む。

上述したビデオ特徴抽出装置は、上述したビデオ特徴抽出方法のいずれかのステップを実行するモジュールをさらに含む。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案されるオーディオ指紋ライブラリ構築装置は、上述したビデオ特徴抽出方法のいずれかに従ってビデオオブジェクトのビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、前記ビデオ特徴をビデオ特徴ライブラリに記憶するためのビデオ特徴記憶モジュールと、前記ビデオ特徴を記憶するためのビデオ特徴ライブラリと、を含む。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案されるビデオ特徴抽出ハードウェア装置は、非一時的なコンピュータ読み取り可能な命令を記憶するためのメモリと、実行時に上述したビデオ特徴抽出方法のいずれかを実現するように前記コンピュータ読み取り可能な命令を実行するプロセッサと、を含む。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案される、非一時的なコンピュータ読み取り可能な命令を記憶するためのコンピュータ読み取り可能な記憶媒体は、前記非一時的なコンピュータ読み取り可能な命令がコンピュータによって実行される際に、前記コンピュータに前記ビデオ特徴抽出方法のいずれかを実行させる。

本開示の目的は、さらに以下の技術的解決手段によって達成される。本開示にて提案される端末機器は、上述したビデオ特徴抽出装置のいずれかを含む。

上記の説明は、本開示の技術的解決手段の概要に過ぎず、本開示の技術的手段をより明確に理解し、本明細書の内容に従って実施することができ、また本開示の上記及び他の目的、特徴、及び利点をより明確に理解するように、以下、添付図面を参照して、好適な実施例を挙げて詳細に説明する。

本開示の一実施例によるビデオ特徴抽出方法のフローを示すブロック図である。本開示の一実施例によるビデオ特徴抽出方法のフローチャートである。本開示の一実施例によるフレーム画像の画像特徴を決定するプロセスのフローを示すブロック図である。本開示の一実施例によるビデオ特徴ライブラリ構築方法のフローを示すブロック図である。本開示の一実施例によるビデオ特徴抽出装置の構造を示すブロック図である。本開示の一実施例による画像特徴決定モジュールの構造を示すブロック図である。本開示の一実施例によるビデオ特徴ライブラリ構築装置の構造を示すブロック図である。本開示の一実施例によるビデオ特徴抽出ハードウェア装置のハードウェアを示すブロック図である。本開示の一実施例によるコンピュータ読み取り可能な記憶媒体を示す概略図である。本開示の一実施例による端末機器の構造を示すブロック図である。

発明の意図する目的を達成するための本開示の技術的手段及び効果をさらに説明するために、本開示によるビデオ特徴抽出方法及び装置の具体的な実施形態、構造、特徴、及び効果を、添付図面及び好適な実施例を参照して以下のように詳しく説明する。

図１は本開示によるビデオ特徴抽出方法の一実施例を示すブロック図である。図２は本開示によるビデオ特徴抽出方法の一実施例を示すフローチャートである。図１、図２に示すように、本開示の例示によるビデオ特徴抽出方法は主に、ステップＳ１１～ステップＳ１３を含む。

ステップＳ１１：ビデオオブジェクト（例えば、ビデオ信号又はビデオファイルであってもよい）に対してフレームを抽出して１つ又は複数のフレーム画像を取得する。抽出されたフレーム画像の具体的な数を設定することができ、例えば、１秒間のビデオから２つのフレーム画像を抽出してもよく、１秒間のビデオから１つのフレーム画像を抽出してもよい。なお、フレームを均一に抽出することができ、すなわち隣接する２つのフレーム画像間の時間間隔は同じである。その後、処理はステップＳ１２に進む。

ステップＳ１２：フレーム画像のそれぞれについて１つ又は複数の検出ベクトル（ｓｈｉｆｔｖｅｃｔｏｒｓ）を取得し、仮に取得された検出ベクトルの数はＮ個であり、ここでＮは正の整数である。各検出ベクトルを用いて、該フレーム画像内の任意のピクセルを始点とし、該検出ベクトルが指す該始点の終点のピクセルを決定し、該始点と対応する該終点との差分に基づいて該フレーム画像の画像特徴を決定する。その後、処理はステップＳ１３に進む。

具体的に言えば、該Ｎ個の検出ベクトルは、事前に設定されてもよく、ランダムに生成されてもよい。取得された検出ベクトルは図２における００１に示すとおりである。さらに、各検出ベクトルの長さと方向は任意である。また、それぞれの検出ベクトルは独立しており、関連付けを必要としない。なお、フレーム抽出によって取得された複数のフレーム画像では、一般に、同じ群の検出ベクトルを使用して各フレーム画像の画像特徴を決定できるが、異なる複数群の検出ベクトルを使用して各フレーム画像の画像特徴をそれぞれ決定することもできる。

なお、任意のピクセルを始点とするとは、一般的には、フレーム画像内の全てのピクセルを起点として定義してもよく、あるいは、フレーム画像のうち、１つ又は複数の予め設定された位置のピクセルを始点として定義してもよく、具体的な位置が任意であり、例えば、１つのフレーム画像におけるエッジ上にない全ての点を始点としてもよいことをいう。

本開示の一具体例では、１つのフレーム画像の画像特徴を決定するプロセスにおいて、各検出ベクトルを用いて、該フレーム画像における各ピクセルを始点とし、各始点ピクセルと対応する終点ピクセルとの差分を走査し、各検出ベクトルの特徴ビットを得るように、同一の検出ベクトルに基づく各差分の総合に基づいて該検出ベクトルに基づく該フレーム画像の特徴ビット（ｂｉｔ）を決定する。一例では、該各差分の総合を決定するように同一の検出ベクトルに基づく各差分を合計してもよい。そして、得られたＮ個の検出ベクトルに対応する該特徴ビットに基づいて、該フレーム画像に対応する長さがＮである１つの画像特徴（ビデオ特徴単体ともいう）を決定する。得られた長さがＮである画像特徴は、図２における００４に示すとおりである。

本開示のいくつかの実施例では、上述した始点と終点との差分は、始点の輝度情報と終点の輝度情報との差分を含む。

ステップＳ１３：該ビデオオブジェクトに対応する各フレーム画像の画像特徴に基づいて該ビデオオブジェクトのビデオ特徴を決定する。具体的には、画像特徴シーケンスを取得するように、対応するフレーム画像の時系列順に従って複数の画像特徴を配列し、そして該画像特徴シーケンスをビデオ特徴として決定する。

本開示の例示によるビデオ特徴抽出方法は、ビデオオブジェクトから抽出されたフレーム画像に対して、長さ及び方向の任意な検出ベクトルに従ってフレーム画像内の始点ピクセル及び終点ピクセルを決定し、また始点ピクセルと終点ピクセルとの差分を比較してビデオ特徴を生成し、ビデオ特徴抽出の正確性と抽出効率を向上させ、取得したビデオ特徴の優良度を向上させることができる。さらに、本開示のビデオ特徴抽出方法によって得られたビデオ特徴に基づいて行われたビデオ照合、ビデオ検索、ビデオ重複排除、及びビデオコンテンツ監視においてより高い正確率及び効率を有する。

図３は本開示のビデオ特徴抽出方法の一実施例によるフレーム画像の画像特徴を決定するフローを示すブロック図である。図２、図３に示すように、本開示の一実施例では、ステップＳ１２に記載のＮ個の検出ベクトルを用いて、フレーム画像の１つの画像特徴を決定するプロセスは具体的には、ステップＳ２１～ステップＳ２４を含む。

ステップＳ２１：Ｎ個の検出ベクトルのそれぞれに１つのカウンタ（ｃｏｕｎｔｅｒ）を割り当てる。その後、処理はステップＳ２２に進む。

ステップＳ２２：１つの検出ベクトルに基づいて、１つのフレーム画像内の任意のピクセルに対して該ピクセルを始点とし、該検出ベクトルが指す終点のピクセルを決定し、該始点と該終点との輝度値の差分を決定するように該始点及び該終点の輝度値を取得し、例えば、該差分は始点がより明るい場合と、終点がより明るい場合とを含み、該検出ベクトルの各始点の該差分に基づいて、該検出ベクトルに対応するカウンタの値を増減する。その後、処理はステップＳ２３に進む。

具体的に言えば、図２における００２に示すように、一例では、フレーム画像内の任意のピクセルを始点とし、１つの検出ベクトル（図２における００１の中で最も右側の検出ベクトルを取っても構わない）に基づいて各始点が指す終点を決定し、対応する始点の輝度値と終点の輝度値を比較し、始点の輝度値が終点の輝度値よりも大きい場合（図２に示すように始点が終点よりも浅い場合）は、カウンタの値が＋１となり、逆に始点の輝度値が終点の輝度値よりも小さい場合（図２に示すように始点の輝度値が終点の輝度値よりも黒い場合）は、カウンタの値が－１となる。全てのピクセルを統計し、カウンタの値を増減し、得られたカウンタは図２における００３に示すとおりである。

なお、検出ベクトルの終点がフレーム画像の範囲を超えれば、カウンタの値を変更しなくてもよく、該フレーム画像に対して周期的に遅延させ、該フレーム画像の４つの面に該フレーム画像と同様のフレーム画像を設定することで、検出ベクトルの終点に対応するピクセルが必ず存在するようにしてもよい。

ステップＳ２３：該カウンタの値と予め設定された設定値との間の大きさを比較して比較結果を取得し、該比較結果に基づいて該検出ベクトルに基づく該フレーム画像の特徴ビットを決定する。その後、処理はステップＳ２４に進む。

具体的に言えば、該設定値を０に予め設定してもよい。該カウンタの値が予め設定された設定値よりも大きいか否かを判断し、該カウンタの値が該設定値よりも大きい場合、値が１の特徴ビットを生成し、逆に値が０の特徴ビットを生成する。図２の００３及び００４に示すように、カウンタの値が＋２であれば、値が１の特徴ビットを生成する。

ステップＳ２４：該Ｎ個の検出ベクトルに基づく１つのフレーム画像の特徴ビットに基づいて、該フレーム画像の画像特徴を決定する。取得された画像特徴は図２における００４に示すとおりである。

なお、ステップＳ２２におけるカウンタの増加と減少の規則は上記の実施例の態様に限定されず、例えば始点輝度値が終点輝度値よりも小さい場合にカウンタの値が＋１となり、逆にカウンタの値が－１となり、また、始点と終点の輝度値が等しい場合には、カウンタの値を＋１に一律に設定してもよいし、カウンタの値を－１に一律に設定してもよいし、カウンタの値を変更しないように一律に設定してもよい。同様に、ステップＳ２３について、他の方式を用いて特徴ビットの値を決定してもよく、例えば以下のようにしてもよい。ステップＳ２２で値を変更した後のカウンタに基づき、カウンタの値が０よりも小さい場合に値が１の特徴ビットを生成し、逆に値が０の特徴ビットを生成する。

図４は本開示によるビデオ特徴ライブラリ構築方法の一実施例を示すフローチャートである。図４に示すように、本開示の例示によるビデオ特徴ライブラリ構築方法は、主にステップＳ３１とステップＳ３２を含む。

ステップＳ３１：上記の本開示の例示によるビデオ特徴抽出方法のステップに従ってビデオオブジェクトのビデオ特徴を抽出する。その後、処理はステップＳ３２に進む。

ステップＳ３２：ビデオオブジェクトのビデオ特徴をビデオ特徴ライブラリに記憶する。

なお、１つのビデオ特徴ライブラリにおけるビデオ特徴は同様の特徴抽出方法に基づいて得られ、すなわちステップＳ３１のビデオ特徴抽出のプロセスにおいて、ステップＳ１１では同様の方法でフレームを抽出し、ステップＳ１２で取得されたのは同様の検出ベクトルであり、また同様の方法で画像特徴を決定し、且つステップＳ１３では同様の方法でビデオ特徴を決定する。また、時間の経過とともに、ビデオ特徴ライブラリを随時更新することができる。

図５は本開示によるビデオ特徴抽出装置の一実施例の構造を示すブロック図である。図５に示すように、本開示の例示によるビデオ特徴抽出装置１００は主に、
ビデオオブジェクトに対してフレームを抽出して１つ又は複数のフレーム画像を得るためのフレーム抽出モジュール１１０と、
画像特徴決定モジュール１２０であって、フレーム画像のそれぞれについて１つ又は複数の検出ベクトルを取得し、各検出ベクトルを用いて、該フレーム画像内の任意のピクセルを始点とし、該検出ベクトルが指す該始点の終点のピクセルを決定し、該始点と該終点との差分に基づいて該フレーム画像の画像特徴を決定するためのモジュールと、
該ビデオオブジェクトに対応する各フレーム画像の画像特徴に基づいて該ビデオオブジェクトのビデオ特徴を決定するためのビデオ特徴決定モジュール１３０と、を含む。

図６は本開示のビデオ特徴抽出装置の一実施例による画像特徴決定モジュール１２０の構造を示すブロック図である。図６に示すように、本開示の一実施例では、画像特徴決定モジュール１２０は具体的に、
Ｎ個の検出ベクトルのそれぞれに１つのカウンタを割り当てるためのカウンタ生成ユニット１２１と、
カウントユニット１２２であって、１つの検出ベクトルに基づいて、１つのフレーム画像内の任意のピクセルに対して該ピクセルを始点とし、該検出ベクトルが指す終点のピクセルを決定し、該始点と該終点との輝度値の差分を決定するように該始点及び該終点の輝度値を取得し、該検出ベクトルの各始点の該差分に基づいて、該検出ベクトルに対応するカウンタの値を増減するためのユニットと、
該カウンタの値と予め設定された設定値との間の大きさを比較して比較結果を取得し、該比較結果に基づいて該検出ベクトルに基づく該フレーム画像の特徴ビットを決定するための特徴ビット決定ユニット１２３と、
該Ｎ個の検出ベクトルに基づく１つのフレーム画像の特徴ビットに基づいて、該フレーム画像の画像特徴を決定するための画像特徴決定ユニット１２４と、を含む。

図７は本開示によるビデオ特徴ライブラリ構築装置の一実施例の構造を示す概略図である。図７に示すように、本開示の例示によるビデオ特徴ライブラリ構築装置２００は主に、
ビデオ特徴抽出モジュール２０１であって、上述した本開示の例示によるビデオ特徴抽出装置のフレーム抽出モジュール１１０と、画像特徴決定モジュール１２０と、ビデオ特徴決定モジュール１３０とを含み、上述した本開示の例示によるビデオ特徴抽出方法のステップに従ってビデオオブジェクトのビデオ特徴を抽出するためのモジュールと、
ビデオ特徴をビデオ特徴ライブラリに記憶するためのビデオ特徴記憶モジュール２０２と、
各ビデオオブジェクトのビデオ特徴を記憶するためのビデオ特徴ライブラリ２０３と、を含む。

図８は本開示の実施例によるビデオ特徴抽出ハードウェア装置のハードウェアを示すブロック図である。図８に示すように、本開示の実施例によるビデオ特徴抽出ハードウェア装置３００はメモリ３０１と、プロセッサ３０２とを含む。ビデオ特徴抽出ハードウェア装置３００のコンポーネントのそれぞれは、バスシステム及び／又は他の形態の接続機構（図示せず）によって相互接続される。

該メモリ３０１は非一時的なコンピュータ読み取り可能な命令を記憶するために用いられる。具体的に言えば、メモリ３０１は、１つ又は複数のコンピュータプログラム製品を含むことができ、該コンピュータプログラム製品は揮発性メモリ及び／又は不揮発性メモリなどの様々な形態のコンピュータ読み取り可能な記憶媒体を含むことができる。該揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュ（ｃａｃｈｅ）などを含むことができる。該不揮発性メモリは、例えば、読み取り専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含むことができる。

該プロセッサ３０２は、中央処理ユニット（ＣＰＵ）又はデータ処理機能及び／又は命令実行機能を備えた他の形態の処理ユニットであってもよく、所望の機能を実行するためにビデオ特徴抽出ハードウェア装置３００の他のコンポーネントを制御することができる。本開示の一実施例において、該プロセッサ３０２は該メモリ３０１に記憶された該コンピュータ読み取り可能な命令を実行し、該ビデオ特徴抽出ハードウェア装置３００に上述した本開示の各実施例のビデオ特徴抽出方法のステップの全て又は一部を実行させる。

図９は本開示の実施例によるコンピュータ読み取り可能な記憶媒体を示す概略図である。図９に示すように、本開示の実施例によるコンピュータ読み取り可能な記憶媒体４００には、非一時的なコンピュータ読み取り可能な命令４０１が記憶されている。該非一時的なコンピュータ読み取り可能な命令４０１がプロセッサによって実行される際に、上述した本開示の各実施例のビデオ特徴抽出方法のステップの全て又は一部を実行する。

図１０は本開示の実施例による端末機器のハードウェアの構造を示す概略図である。端末機器はいくつかの形態で実施されることが可能であり、本開示における端末機器は、携帯電話、スマートフォン、ノートブックコンピュータ、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレット）、ＰＭＰ（ポータブルマルチメディアプレーヤー）、ナビゲーション装置、車載端末機器、車載表示端末、車載電子バックミラーなどの携帯端末機器及びデジタルＴＶ、デスクトップコンピュータなどの固定端末機器などを含んでもよいが、これらに限定されない。

図１０に示すように、端末機器１１００は、無線通信ユニット１１１０、Ａ／Ｖ（オーディオ／ビデオ）入力ユニット１１２０、ユーザ入力ユニット１１３０、検知ユニット１１４０、出力ユニット１１５０、メモリ１１６０、インタフェースユニット１１７０、コントローラ１１８０及び電源ユニット１１９０などを含んでもよい。図１０は、各種のコンポーネントを有する端末機器を示したが、図示されている全てのコンポーネントを実施する必要があるわけではないことを理解されたい。代わりに、より多く又はより少ないコンポーネントを実施できる。

そのうち、無線通信ユニット１１１０は端末機器１１００と無線通信システム又はネットワークとの間の無線通信を許可する。Ａ／Ｖ入力ユニット１１２０は、オーディオ又はビデオ信号を受信する。ユーザ入力ユニット１１３０は、ユーザが入力した命令に応じてキー入力データを生成し、端末機器の各種の動作を制御することができる。検知ユニット１１４０は、端末機器１１００の現在の状態、端末機器１１００の位置、端末機器１１００に対するユーザのタッチ入力の有無、端末機器１１００の向き、端末機器１１００の加減速や方向などを検出し、且つ端末機器１１００の動作を制御するための命令や信号を生成する。インタフェースユニット１１７０は、少なくとも１つの外部装置と端末機器１１００とを接続するためのインタフェースとして機能する。出力ユニット１１５０は、視覚的、音響的及び／又は触覚的に出力信号を提供するものである。メモリ１１６０は、コントローラ１１８０が実行する処理、動作を制御するソフトウェアプログラムなどを記憶してもよいし、出力されたデータ又は出力されるデータを一時的に記憶してもよい。メモリ１１６０は、少なくとも１種類の記憶媒体を含むことができる。また、端末機器１１００は、ネットワーク接続によってメモリ１１６０の記憶機能を実行するネットワーク記憶装置と連携することができる。コントローラ１１８０は、通常、端末機器全体の動作を制御する。また、コントローラ１１８０は、マルチメディアデータを再生又は再放送するためのマルチメディアモジュールを含むことができる。コントローラ１１８０は、タッチスクリーン上での手書き入力又は描画入力を文字又は画像として認識するようにパターン認識処理を行うことができる。電源ユニット１１９０は、コントローラ１１８０の制御に基づいて、外部電力又は内部電力を受信し、各素子及びコンポーネントを動作させるために必要な電力を供給する。

本開示にて提案されるビデオ特徴抽出方法の様々な実施形態は例えばコンピュータソフトウェア、ハードウェア又はそれらの任意の組み合わせのコンピュータ可読媒体を用いて実施することができる。ハードウェアによる実施について、本開示にて提案されるビデオ特徴抽出方法の様々な実施形態は特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブル論理装置（ＰＬＤ）、現場でプログラム可能なゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサは、ここで説明した機能を実行する電子ユニットのうちの少なくとも１つを用いて実施し、いくつかの場合は、本開示にて提案されるビデオ特徴抽出方法の様々な実施形態はコントローラ１１８０において実施可能である。ソフトウェアによる実施について、本開示にて提案されるビデオ特徴抽出方法の様々な実施形態は、少なくとも１つの機能又は動作の実行を可能にする個別のソフトウェアモジュールで実施されてもよい。ソフトウェアコードは、任意の適切なプログラミング言語で書かれたソフトウェアアプリケーション（又はプログラム）によって実施することができ、ソフトウェアコードはメモリ１１６０に記憶され、コントローラ１１８０により実行されてもよい。

以上、本開示の実施例によるビデオ特徴抽出方法、装置、ハードウェア装置、コンピュータ読み取り可能な記憶媒体及び端末機器は、任意の長さ及び任意の方向の複数の検出ベクトルを取得し、検出ベクトルの始点ピクセルと終点ピクセルとの差分を判断してビデオ特徴を生成し、ビデオ特徴抽出の正確性と抽出効率を向上させ、取得したビデオ特徴の優良度を向上させることができ、さらに、本開示のビデオ特徴抽出方法によって得られたビデオ特徴に基づいて行われたビデオ照合、ビデオ検索、ビデオ重複排除、及びビデオコンテンツ監視においてより高い正確率及び効率を有する。

本開示の基本的な原理は、上記で具体的な実施例を参照しながら説明されたが、本開示で言及されている利点、長所、効果などは、限定ではなく例示に過ぎず、これらの利点、長所、効果などは本開示の様々な実施例に必要であると考えられるべきではない。また、上記の開示の特定の詳細は、例示と理解の容易化のためだけのものであり、限定ではなく、上記の詳細は、本開示を上記の特定の詳細に限定することを意図したものではない。

本開示に係るデバイス、装置、機器、システムのブロック図は単なる例示であり、ブロック図に示されている方法で接続、配置、又は構造を意図又は要求するものではない。当業者には理解されるように、これらのデバイス、装置、機器、システムは任意の方法で接続、配置、及び構造することができる。「備える」、「含む」、「有する」などの言葉はオープンボキャブラリーであり、「含むが、これらに限定されない」ことを意味し、且つ交換可能に使用されてもよい。ここで使用される「又は」と「及び」とは「及び／又は」という用語であり、文脈からそうでないことが明確に示されていない限り交換可能に使用されてもよい。本明細書で使用される「～など」という用語は、「～などであるがこれらに限定されない」という語句を指し、それと交換可能に使用されてもよい。

また、ここで使用されているように、「少なくとも１つ」で始まる項目の列挙で使用されている「又は」は、別々の列挙を示し、例えば「Ａ、Ｂ、又はＣの少なくとも１つ」の列挙とは、Ａ、又はＢ、又はＣ、又はＡＢ、又はＡＣ、又はＢＣ、又はＡＢＣ（すなわちＡ、Ｂ、及びＣ）を意味する。さらに、「例示的な」という表現は、説明された例が他の例よりも好ましい又は優れていることを意味しない。

また、本開示のシステム及び方法では、各部材又は各ステップが分解及び／又は再結合され得ることに留意されたい。これらの分解及び／又は再結合は、本開示と同等であると見なされるべきである。

添付の特許請求の範囲で定義される本開示の教示から逸脱することなく、本明細書に記載の技術の様々な変更、置換、及び変更を行うことができる。さらに、本開示の特許請求の範囲は、上記のプロセス、機械、製造、イベントの組成、手段、方法、及び動作の特定の態様に限定されない。本明細書で説明する対応する態様を利用して実質的に同じ機能を実行し又は実質的に同じ結果の現在存在する、又は後に開発されるプロセス、機械、製造、イベントの組成、手段、方法、又は動作を実現することができる。従って、添付の特許請求の範囲はその範囲内のこのようなプロセス、機械、製造、イベントの組成、手段、方法又は動作を含む。

開示された態様の上記の説明は、当業者が本開示を作成又は使用することを可能にするために提供される。これらの態様に対する様々な補正は、当業者には明らかであり、本明細書で定義される一般原理は、本開示の範囲から逸脱することなく他の態様に適用されてもよい。従って、本開示は、本明細書に示される態様に限定されるものではなく、本明細書に開示される原理及び新規の特徴の最も広い範囲内にあるものとする。

上記の説明は、例示及び説明の目的で提案されたものである。さらに、本説明は、本開示の実施例を本明細書に開示された形態に限定することを意図するものではない。多くの例示的な態様及び実施例が上記で議論されたが、当業者は、それらの特定の変形、補正、変更、追加、及びサブコンビネーションを認識するであろう。

100 ビデオ特徴抽出装置
110 フレーム抽出モジュール
120 画像特徴決定モジュール
121 カウンタ生成ユニット
122 カウントユニット
123 特徴ビット決定ユニット
124 画像特徴決定ユニット
130 ビデオ特徴決定モジュール
200 ビデオ特徴ライブラリ構築装置
201 ビデオ特徴抽出モジュール
202 ビデオ特徴記憶モジュール
203 ビデオ特徴ライブラリ
300 ビデオ特徴抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ読み取り可能な記憶媒体
401 非一時的なコンピュータ読み取り可能な命令
1110 無線通信ユニット
1120 Ａ／Ｖ入力ユニット
1130 ユーザ入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インタフェースユニット
1180 コントローラ
1190 電源ユニット

Claims

ビデオ特徴抽出方法であって、
ビデオオブジェクトに対してフレームを抽出して１つ又は複数のフレーム画像を得ることと、
前記フレーム画像のそれぞれについて１つ又は複数の検出ベクトルを取得し、各前記検出ベクトルを用いて、前記フレーム画像内の任意のピクセルを始点とし、前記検出ベクトルが指す前記始点の終点を決定し、前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定することと、
前記１つ又は複数のフレーム画像の前記画像特徴に基づいて前記ビデオオブジェクトのビデオ特徴を決定することと、を含み、
前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定することは、
前記検出ベクトルのそれぞれについて１つの前記フレーム画像における各前記始点と対応する前記終点との差分を決定し、前記検出ベクトルのそれぞれの特徴ビットを得るために、同一の前記検出ベクトルのそれぞれの前記差分の総合に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することと、
前記１つ又は複数の検出ベクトルに基づく前記フレーム画像の前記特徴ビットに基づいて前記フレーム画像の画像特徴を決定することと、を含む、ビデオ特徴抽出方法。
請求項１に記載のビデオ特徴抽出方法であって、
前記検出ベクトルの長さと方向は任意である、ビデオ特徴抽出方法。
請求項１に記載のビデオ特徴抽出方法であって、
前記１つ又は複数の検出ベクトルを取得することは、さらに、前記検出ベクトルのそれぞれにカウンタを割り当てることを含み、
前記同一の前記検出ベクトルのそれぞれの前記差分の総合に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することは、前記検出ベクトルごとの前記差分に基づいて、前記検出ベクトルに対応する前記カウンタの値を増減することと、前記カウンタの値と予め設定された設定値との間で大きさを比較し、前記比較の結果に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定することとを含む、ビデオ特徴抽出方法。
請求項１から３のいずれか一項に記載のビデオ特徴抽出方法であって、
前記始点と前記終点との差分は、前記始点の輝度情報と前記終点の輝度情報との差分を含む、ビデオ特徴抽出方法。
ビデオ特徴ライブラリ構築方法であって、
請求項１～４の何れか一項に記載のビデオ特徴抽出方法に基づいてビデオオブジェクトのビデオ特徴を抽出することと、
前記ビデオ特徴をビデオ特徴ライブラリに記憶することと、を含む、ビデオ特徴ライブラリ構築方法。
ビデオ特徴抽出装置であって、
ビデオオブジェクトに対してフレームを抽出して１つ又は複数のフレーム画像を得るためのフレーム抽出モジュールと、
画像特徴決定モジュールであって、前記フレーム画像のそれぞれについて１つ又は複数の検出ベクトルを取得し、各前記検出ベクトルを用いて、前記フレーム画像内の任意のピクセルを始点とし、前記検出ベクトルが指す前記始点の終点を決定し、前記始点と前記終点との差分に基づいて前記フレーム画像の画像特徴を決定するためのモジュールと、
前記１つ又は複数のフレーム画像の前記画像特徴に基づいて前記ビデオオブジェクトのビデオ特徴を決定するためのビデオ特徴決定モジュールと、を含み、
前記画像特徴決定モジュールは、前記検出ベクトルのそれぞれについて１つの前記フレーム画像における各前記始点と対応する前記終点との差分を決定し、前記検出ベクトルのそれぞれの特徴ビットを得るために、同一の前記検出ベクトルのそれぞれの前記差分の総合に基づいて前記検出ベクトルに基づく前記フレーム画像の特徴ビットを決定し、前記１つ又は複数の検出ベクトルに基づく前記フレーム画像の前記特徴ビットに基づいて前記フレーム画像の画像特徴を決定する、ビデオ特徴抽出装置。
請求項６に記載のビデオ特徴抽出装置であって、
請求項１～４のいずれか一項に記載のビデオ特徴抽出方法のステップを実行するモジュールをさらに含む、ビデオ特徴抽出装置。
ビデオ特徴ライブラリ構築装置であって、
請求項１～４のいずれか一項に記載のビデオ特徴抽出方法に従ってビデオオブジェクトのビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、
前記ビデオ特徴をビデオ特徴ライブラリに記憶するためのビデオ特徴記憶モジュールと、
前記ビデオ特徴を記憶するためのビデオ特徴ライブラリと、を含む、ビデオ特徴ライブラリ構築装置。
ビデオ特徴抽出ハードウェア装置であって、
非一時的なコンピュータ読み取り可能な命令を記憶するためのメモリと、
実行時に請求項１～４のいずれか一項に記載のビデオ特徴抽出方法を実現するように前記コンピュータ読み取り可能な命令を実行するプロセッサと、を含む、ビデオ特徴抽出ハードウェア装置。
非一時的なコンピュータ読み取り可能な命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、
前記非一時的なコンピュータ読み取り可能な命令がコンピュータによって実行される際に、前記コンピュータに請求項１～４のいずれか一項に記載のビデオ特徴抽出方法を実行させる、コンピュータ読み取り可能な記憶媒体。
端末機器であって、請求項６または７に記載のビデオ特徴抽出装置を含む、端末機器。