JP6982194B2 - ビデオ特徴の抽出方法および装置 - Google Patents

ビデオ特徴の抽出方法および装置 Download PDF

Info

Publication number
JP6982194B2
JP6982194B2 JP2020545849A JP2020545849A JP6982194B2 JP 6982194 B2 JP6982194 B2 JP 6982194B2 JP 2020545849 A JP2020545849 A JP 2020545849A JP 2020545849 A JP2020545849 A JP 2020545849A JP 6982194 B2 JP6982194 B2 JP 6982194B2
Authority
JP
Japan
Prior art keywords
matrix
video
image
pooling
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020545849A
Other languages
English (en)
Other versions
JP2021504855A (ja
Inventor
▲軼▼ 何
磊 李
成 ▲楊▼
根 李
亦▲タン▼ 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2021504855A publication Critical patent/JP2021504855A/ja
Application granted granted Critical
Publication of JP6982194B2 publication Critical patent/JP6982194B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Description

関連出願の参照
本願は、2018年3月29日に提出された中国特許出願第201810271774.6の優先権を主張するものであり、当該出願の内容は全て本文に取り込まれる。
本開示は、ビデオ処理技術に関し、特にビデオ特徴の抽出方法および装置に関する。
今日のマルチメディア情報化社会では、毎日、超大量のビデオがユーザーによりビデオプラットフォームにアップロードされる。それらのビデオのほとんどは通常の値打ちのあるビデオであるが、一部のビデオは、プラットフォームのビデオデータベースの既有ビデオと同一であり、著作権データベースのビデオ(例えば、ロイヤルティが必要なビデオ)と同一であり、公開禁止または不適宜なビデオであるなど不適合がある。そのため、ユーザーによりアップロードされた超大量のビデオに対し、すばやく比較して選択する必要がある。ビデオに対する比較の速さ、正確性を向上させる主要手段は、ビデオフレームの特徴を適宜に抽出して類似性の判断を行うことである。
比較の速さ、正確性を向上させるために、二つビデオのそれぞれの特徴を比較してビデオの類似度の判断ができるよう、ビデオ毎に、該ビデオが特定されるビデオ特徴を生成する必要がある。ビデオ特徴の抽出方法とビデオ特徴の良さは、ビデオの比較の効率と精度で決まる。
本開示の目的は、新しいビデオ特徴の抽出方法および装置を提供することである。
本開示は、課題を解決するために以下の技術的手段を採用する。本開示によるビデオ特徴の抽出方法は、ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するステップと、前記フレーム画像の画像特徴を取得するよう、各前記フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化が段階的に実行されるステップと、前記一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するステップと、を含む。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。
前記のビデオ特徴の抽出方法において、各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、前記フレーム画像の複数種の色チャネルに応じて、前記複数種のプーリング化を段階的に実行すること、を含む。
前記のビデオ特徴の抽出方法において、前記フレーム画像の画像特徴を取得するよう各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、前記フレーム画像に基づいて行列を決定して、前記複数種のプーリング化によって、1点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記1点のみを含む行列に基づいて画像特徴を決定すること、を含む。
前記のビデオ特徴の抽出方法において、前記フレーム画像の画像特徴を取得するよう各前記フレーム画像に対し複数種のプーリング化が段階的に実行されることは、以下のステップを含み。ステップ(a)、一つの前記フレーム画像に基づいて、第1の行列次元と第2の行列次元を含有する一つの第1行列決定する。前記第1行列における点が、前記フレーム画像における画素に対応しており、前記第1行列における点の値が第1ベクトルとなり、前記第1ベクトルが3次元のベクトルであり、対応する画素の三つ色チャネルの輝度を表すものである。ステップ(b)、前記第1行列において複数の第1ブロックを設け、各前記第1ブロックには、複数の前記第1ベクトルが含まれる。第1の行列次元で前記複数の第1ブロックの数が、第1の行列次元で前記第1行列に含まれた点の数よりも少なく、且つ、第2の行列次元で前記複数の第1ブロックの数が、第2の行列次元で前記第1行列に含まれた点の数よりも少ない。各前記第1ブロックに対し、前記第1ブロックに含まれた複数の前記第1ベクトルの各次元での最大値、最小値、平均値をそれぞれ算出して、9次元の第2ベクトルを取得する。ステップ(c)、前記複数の第1ブロックが対応される前記第2ベクトルに基づいて、第2行列を決定する。前記第2行列における点が前記第1ブロックに対応しており、前記第2行列における点の値が前記第2ベクトルとなる。ステップ(d)、前記第1行列は、値が3^N次元ベクトル(Nは正の整数である)の1点になるまで、ステップ(b)とステップ(c)を繰り返す。前記3^N次元ベクトルが、前記フレーム画像の画像特徴として決定される。
前記のビデオ特徴の抽出方法において、前記フレーム画像に基づいて行列を決定することは、前記画像特徴に対し2値化処理を実行して2値化画像特徴を取得することと、前記一つ以上のフレーム画像の前記2値化画像特徴に基づいてビデオ特徴を決定することと、を含む。
前記ビデオ特徴の抽出方法において、前記画像特徴に対し2値化処理を実行して2値化画像特徴を取得することは、以下のステップを含む。前記画像特徴に基づいて複数のグループを生成し、各前記グループは前記画像特徴における複数の元素を含む。各前記グループにおける前記複数の元素をそれぞれ合計して、各前記グループの加算値を取得する。前記複数のグループを二つずつペアリングして、複数のグループペアを取得する。各前記グループに対し、前記グループペアにおける二つ前記グループの前記加算値の大きさを比較して、比較結果に基づいて2値化の画像特徴ビットを生成する。前記複数のグループペアの前記画像特徴ビットに基づいて、前記フレーム画像の2値化画像特徴を決定する。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴データベースの構築方法は、前記のいずれかのビデオ特徴の抽出方法によってビデオ対象のビデオ特徴を抽出するステップと、前記のビデオ特徴をビデオ特徴データベースに記憶するステップと、を含む。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴の抽出装置は、ビデオ対象からフレームを抽出して一つ以上のフレームを取得するための画像フレーム抽出モジュールと、各前記フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、前記フレーム画像の画像特徴を取得するための画像特徴決定モジュールと、前記一つ以上のフレーム画像の前記画像特徴ベクトルに基づいて、ビデオ特徴を決定するためのビデオ特徴決定モジュールと、を含む。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。
前記のビデオ特徴の抽出装置は、さらに、前記のいずれかのビデオ特徴の抽出方法ステップを実行するモジュールを含む。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示による音声認識データベース構築装置は、前記のいずれかのビデオ特徴の抽出方法に従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、前記ビデオ特徴をビデオ特徴データベースに記憶するためのビデオ特徴記憶モジュールと、前記ビデオ特徴を記憶するためのビデオ特徴データベースと、を備える。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるビデオ特徴の抽出ハードウェア装置は、非一時的なコンピュータ可読命令を記憶するためのメモリと、前記のいずれかのビデオ特徴の抽出方法を実行するよう、前記コンピュータ可読命令を実行するためのプロセッサと、を備える。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示によるコンピュータ可読記憶媒体は、コンピュータによって前記のいずれかのビデオ特徴の抽出方法が実行されるよう、コンピュータに実行される非一時的なコンピュータ可読命令を記憶する。
本開示は、課題を解決するために、さらに、以下の技術的手段を採用する。本開示による端末機器は、前記のいずれかのビデオ特徴の抽出装置を含む。
上記説明は、本開示の技術的手段の概要に過ぎず、本開示の技術的手段はより明確に理解されるため、明細書の内容に従って実施可能であり、さらに、本開示の上記および他の目的、特徴および利点はより明らかになるため、以下に添付図面を参照しながら、好適な実施例について詳細に説明する。
本開示の一実施例による、ビデオ特徴の抽出方法のフローチャートである。 本開示の一実施例による、複数種のプーリング化処理を段階的に実行するフローチャートである。 本開示の一実施例による、画像特徴に対しランダム投影法によって2値化処理を実行するフローチャートである。 本開示の方法によって、フレーム画像の画像特徴を抽出する一例のフローの概念図である。 本開示の一実施例による、ビデオ特徴データベースの構築方法のフローチャートである。 本開示の一実施例に係るビデオ特徴の抽出装置の構成ブロック図である。 本開示の一実施例に係るビデオ特徴データベースの構築装置の構成ブロック図である。 本開示の一実施例に係るビデオ特徴の抽出ハードウェア装置の構成ブロック図である。 本開示の一実施例に係るコンピュータ可読記憶媒体の概念図である。 本開示の一実施例に係る端末機器の構成ブロック図である。
本開示の予定されている目的を達成するために採用される技術的手段および効果をさらに説明するために、本開示に係るビデオ特徴の抽出方法および装置の具体的な実施形態、構造、特徴および効果を、添付の図面および好適な実施例を参照しながら以下に詳細に説明する。
図1は、本開示の一実施例によるビデオ特徴の抽出方法を模式的に示すフローチャートである。図1を参照すると、本開示の一例のビデオ特徴の抽出方法は、主に以下のステップS11、S12、及びS13を含む。
ステップS11では、ビデオ対象からフレームを抽出し、一つ以上のフレーム画像を取得する。なお、ビデオ対象の種類は限定されず、ビデオ信号であってもよく、ビデオファイルであってもよい。その後、処理はステップS12に進む。
ステップS12では、各フレーム画像に対し、該フレーム画像の画像特徴を取得するよう、複数種のプーリング化(Pooling)処理が段階的に実行される。ただし、プーリング化(Pooling)は、畳み込みニューラルネットワークセント分野の次元削減方法であり、複数種のプーリング化は、最大プーリング化、最小プーリング化、平均プーリング化からなるものである。その後、処理はステップS13に進む。
具体的に、フレーム画像の複数の色チャネルに応じて画像特徴を取得するよう、フレーム画像の複数の色チャネルに応じて複数種のプーリング化を段階的に実行してもよい。
ステップS13では、前記の一つ以上のフレーム画像に対応する複数の画像特徴に基づいて、該ビデオ対象のビデオ特徴を決定する。具体的には、複数の画像特徴をフレーム画像の時系列に組み合わせて、ビデオ特徴を取得してもよい。
本開示に係るビデオ特徴の抽出方法は、抽出されたフレーム画像に対し複数種のプーリング化を段階的に実行してビデオ特徴を生成することにより、ビデオ特徴の抽出の正確性と抽出の効率を大幅向上させ、取得されたビデオ特徴の良さと頑健性(Robust)を向上できる。
本開示に係る一実施例において、フレーム画像に対し複数種のプーリング化を段階的に実行することは、フレーム画像に基づいて一つの行列を決定して、複数種のプーリング化によって、1点のみを含む行列に縮小するまで(また、行列の「点」が、行列の「元素」と呼ばれる)、段階的に小さな行列を生成して、該1点のみを含む行列に基づいて該フレーム画像の画像特徴を決定すること、を含む。
図2は、本開示のビデオ特徴の抽出方法の一実施例に係る複数種のプーリング化処理を段階的に実行する模式的なフローチャートである。具体的に、図2を参照すると、本開示のビデオ特徴の抽出方法の一実施例によるステップS12で、複数種のプーリング化処理が段階的に実行されることは、以下のステップ(a)、(b)、(c)及び(d)を含む。
ステップ(a)では、フレーム画像に基づいて、第1の行列次元と第2の行列次元(或いは、長さ方向と幅方向)を含有する第1行列を決定する。該フレーム画像の長さはx画素であり、幅はy画素であると仮定される。ただし、xとyは、正の整数である。第1行列の1点(行列の点は、行列の元素ともいうが、ベクトルの元素と区別するために、以下、行列の元素が「点」と示す)は、フレーム画像の一つの画素に対応するので、第1行列は、第1の行列次元の長さがxとなり、且つ、第2の行列次元の長さがyとなる行列(即ち、x*y行列)である。ここで、行列の第1の行列次元/第2の行列次元の長さは、第1の行列次元/第2の行列次元で、該行列に含まれる点の数を表すものである。該第1行列の各点の値は、3次元のベクトルとなる。該3次元のベクトルは、該フレーム画像における対応画素の三つ色チャネルの輝度を表す第1ベクトルとして定義される。注意が必要なのは、ビデオ対象の色モードは赤緑青モード(RGBモード)である場合に、赤・緑・青の三つ色チャネルとしてもよいが、赤・緑・青の三つ色チャネルに限定せず、例えば、ビデオ対象による色モードに応じて選択してもよい。選択された色チャネルの数は、三つに限定せず、例えば、赤・緑・青の三つ色チャネルのうち二つを選択してもよい。その後、処理は、ステップ(b)に進む。
ステップ(b)では、第1行列に複数の第1ブロック(実際、各ブロックは一つのプーリングウィンドウに相当するため、第1ブロックが第1プーリングウィンドウと呼ばれてもよい)を設ける。x*y個の第1ブロックを設け、ただし、xとyが正の整数である。各第1ブロックには、複数の該第1行列の点(或いは、複数の第1ベクトル)が含まれる。第1の行列次元における該複数の第1ブロックの数は、該第1行列の第1の行列次元の長さ(或いは、第1の行列次元で該第1行列に含まれた点の数)よりも少なく、且つ、第2の行列次元における該複数の第1ブロックの数は、該第1行列における第2の行列次元の長さ(或いは、第2の行列次元で該第1行列に含まれた点の数)よりも少ない。即ち、xの値はx未満であり、且つ、yの値はy未満である。各第1ブロックに対し、第1ブロックに含まれた複数の第1ベクトルの各次元での最大値、最小値、平均値を算出して、該第1ブロックに対応する9次元のベクトルを取得する。該9次元のベクトルは、第2ベクトルとして定義される。なお、各第1ブロックは、互いに部分が重なって、同一の点が含まれてもよいし、互いに重なってなくてもよい。その後、処理は、ステップ(c)に進む。
具体的に、第1ブロックを設ける際、第1行列の第1の行列次元をxセグメントに均一に分割して、各セグメントの長さは、同一であり、且つ、隣接する二つセグメントが同一の点を含む(一部が重なる)。同様、第1行列の第2の行列次元をyセグメントに分割し、該xセグメントと該yセグメントとを組み合わせて、第1行列のx*y個の第1ブロックを取得する。
なお、設けられた各第1ブロックが同一の大きさと同一の間隔を持つと(隣接する二つの第1ブロックが重なってもよい)、前記第1行列において複数の第1ブロックを設け、各第1ブロックの第2ベクトルを算出することは、以下のことに該当する。実際に一つのプーリングウィンドウを利用して一定間隔で第1行列全体を走査(或いは、擦り通す)し、走査毎に、該プーリングウィンドウに被覆されたブロックの第2ベクトルを算出する。
ステップ(c)では、該複数のx*y個の第1ブロック及び各第1ブロックに対応する第2ベクトルに基づいて、第2行列を決定する。該第2行列の1点は一つの第1ブロックに対応し、x*y個の第1ブロックを設けると、該第2行列は、第1の行列次元の長さがxとなり、第2の行列次元の長さがyとなる行列(即ち、x*y行列)である。該第2行列の各点の値は、対応する第1ブロックの該第2ベクトルとなる。その後、処理は、ステップ(d)に進む。
なお、第2行列を決定する際、所定の順序で第1ブロックと第2行列との点の対応が実行される必要がある。具体的な一例として、第1行列における各第1ブロックの位置順に、第2行列の各点を配置してもよい。
ステップ(d)では、以下のように、ステップ(b)とステップ(c)を繰り返す。x*y個の点を含み且つ各点の値が9次元ベクトルとなる第2行列に基づいて、x*yの点を含み、且つ各点の値が27次元ベクトルとなる第3行列を取得する(ただし、xはx未満の正の整数であり、y2はy1未満の正の整数である)。x*yの点を含み且つ各点の値が27次元ベクトルとなる第3行列に基づいて、x*yの点を含み且つ各点の値が81次元ベクトルとなる第3行列を取得する(ただし、xはx未満の正の整数であり、yはy未満の正の整数である)。・・・、該第1行列(或いは、該フレーム画像)が1*1の第N行列(Nは正の整数である)に縮小される(実際、行列が1点に次元削減された)まで、該第N行列は1点のみを含み、該点の値が一つの3N次元のベクトルとなる。該3N次元ベクトルが該フレーム画像の画像特徴として決定される。
なお、ステップ(d)では、各のブロックの設定する際に、行列の第1の行列次元と第2の行列次元が段階的に削減することに適合するよう、行列の大きさに応じて相応の態様を採用してブロックを設ける。
本開示の実施例において、さらに、以下のステップを含む。決定された画像特徴に対して2値化処理を実行して、0と1からなるビット列である2値化画像特徴を取得する。さらに、取得された2値化画像特徴に基づいて、ビデオ特徴が決定される。
画像特徴を2値化処理することは、ビデオ特徴の格納を圧縮でき、且つ、ビデオ比較の類似度の算出も高速化できる。また、2値化処理を実行することは、ビデオ比較のインデックスデータベースの再現過程にも有益である。
具体的に、ベクトル形式の画像特徴を2値化するのに特に適したランダム投影(random projection)法によって、画像特徴を2値化の画像特徴に変換してもよい。図3は、本開示のビデオ特徴の抽出方法一実施例に係るランダム投影法によって画像特徴に対して2値化を実行する模式的なブロック図である。図3を参照すると、本開示の例において、ランダム投影法によって画像特徴に対し2値化処理を実行することは、以下のステップS21、S22、S23、S24、及びS25を含む。
ステップS21では、長さがnである2値化画像特徴を生成するために、画像特徴に基づいて、2n個のグループ(group)を生成し、各グループは、該画像特徴の複数の元素を含む(即ち、各グループは画像特徴の複数次元の値を含む)。ただし、nは、正の整数である。その後、処理はステップS22に進む。
なお、グループにおいてどの元素が具体に含まれるかは限定せず、且つ、異なるグループにおいて同一の元素が含まれてもよい。しかし、ビデオを比較しやすいために、各グループにおいて具体に含まれた元素が事前に設定されてもよく、または複数のビデオ対象に対し同じ方法によって該グループを生成してもよい。
本例において、各グループに含まれた元素の数は、同一である。なお、実際に各グループに含まれた元素の数は、同一ではなくてもよい。
ステップS22では、各グループに含まれた複数の元素をそれぞれ合計して、各グループの加算値を取得する。その後、処理はステップS23に進む。
ステップS23では、該2n個のグループを二つずつペアリングして、n個のグループペアを取得する。その後、処理はステップS24に進む。
具体的に、2n個のグループを予めに順列して(或いは、グループに番号を付け)、隣接する二つものをグループペアに配成する。
ステップS24では、n個のグループペアをそれぞれ比較し、各グループペアのうち二つのグループの加算値の大きさを比較して、比較の結果に基づいて一つの2値化された画像特徴ビットを生成する。その後、処理はステップS25に進む。
具体的に、グループを予めに順列した(或いは、番号を付けた)例において、ペアグループのうち前のグループの加算値が後のグループの加算値より大きい場合、値が1となる一つの2値化画像特徴ビットを生成し、逆に、値が0となる一つの2値化画像特徴ビットを生成する。なお、2値化画像特徴ビットの生成方法は限定されず、例えば、前のグループの加算値が後のグループの加算値より小さい場合、値が1となる2値化画像特徴ビットを生成してもよい。
ステップS25では、該n個のグループペアの該n個の2値化画像特徴ビットに基づいて、該フレーム画像の長さがnとなる2値化画像特徴を形成する。
図4は、本開示のビデオ特徴の抽出方法によって、具体的にフレーム画像の画像特徴を抽出する過程の模式的なフローチャートである。図4を参照すると、本開示の実施例に係るフレーム画像の画像特徴を抽出する具体例は、以下のステップS31、S32、S33、及びS34を含む。
ステップS31では、ビデオ対象からサンプリングされた一つの243*243のフレーム画像(長さが243画素であり、幅が243画素である)に対し、各画素が赤・緑・青の三つのチャネルを有し、図4において、I、II、IIIで赤・緑・青の三つチャネルをそれぞれ標示する。以下のように、フレーム画像に基づいて第1行列を定義する。第1行列における各点を、フレーム画像における同じ位置の画素に対応して、各画素の赤・緑・青の三つチャネルの輝度値に応じて、対応する点の値を決定して、一つの243*243の第1行列を取得し、第1行列における点の値が一つの3次元ベクトルとなる。
ステップS32では、13*13の行列ブロック(あるいは、該行列ブロックはプーリングウィンドウと呼ばれることもある)で、第1行列を引く。
行列ブロックに被覆された13*13個の点の各次元(実際に、赤・緑・青の三つの色チャネルの輝度)の最大値、最小値、中間値を取得して、9次元ベクトルを取得する。
行列ブロックは、第1行列の長さ方向または幅方向に、三つの点ずつ移動し、行列ブロックは長さ方向または幅方向に沿ってすべての点を順次に引き、行列ブロックに被覆された複数の点の各次元の最大値、最小値、中間値を算出する。
第1行列全体が処理されて、81*81の第2行列を取得して、該第2行列における点の値が9次元ベクトルとなる。
ステップS33では、ステップS32を繰り返して、10*10の行列ブロックを使用して第2行列を移動し、三点ずつ移動し、27*27の第3行列を取得し、該第3行列における点の値が27次元ベクトルである。6*6の行列ブロックを使用して、第3行列を移動し、二点ずつ移動し、9*9の第四行列を取得し、該第四行列における点の値が81次元ベクトルである。・・・、1*1の1点行列が取得されるまで、該1点行列に含まれた点の値が729次元ベクトルとなり、該729次元ベクトルがプーリングベクトルとして定義される。
ステップS34では、ランダム投影法によって、該プーリングベクトルに対し2値化処理を実行して、該フレーム画像の2値化された画像特徴を取得する。
図5は、本開示のビデオ特徴データベースの構築方法の一実施例の模式的なフローチャートである。図5を参照すると、本開示の例のビデオ特徴データベースの構築方法は、以下のステップS41、及びS42を含む。
ステップS41では、前記の本開示の例のビデオ特徴の抽出方法のステップに従って、ビデオ対象のビデオ特徴を抽出する。その後、処理はステップS42に進む。
ステップS42では、ビデオ対象のビデオ特徴をビデオ特徴データベースに記憶する。
なお、ビデオ特徴データベースにおけるビデオ特徴は、同じ特徴抽出方法によって取得されたものであり、即ち、ステップS41のビデオ特徴の抽出中に、ステップS11で同じ方法によってフレームの抽出を実行して、ステップS12で同じ方法によってフレーム画像に対し複数種のプーリング化を段階的に実行して、ステップS13で同じ方法によって画像特徴がビデオ特徴として形成される。また、時間の経過とともに、リアルタイムでビデオ特徴データベースを更新してもよい。
図6は、本開示のビデオ特徴の抽出装置の一実施例の模式的な構成ブロック図である。図6を参照すると、本開示の例のビデオ特徴の抽出装置100は、主に
ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するためのフレーム抽出モジュール110と、
各フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、該フレーム画像の画像特徴を取得するための画像特徴決定モジュール120と、
該一つ以上のフレーム画像に対応する複数画像特徴に基づいてビデオ特徴を決定するためのビデオ特徴決定モジュール130と、を備える。
具体的に、画像特徴決定モジュール120は、さらに、本開示のビデオ特徴の抽出方法の実施例に示すステップに従って、フレーム画像に対し複数種のプーリング化を段階的に実行する。
本開示の例のビデオ特徴の抽出装置100は、さらに、前記の本開示のビデオ特徴の抽出方法の実施例に示すステップに従って、画像特徴に対し2値化処理を実行するための2値化モジュール(図示せず)を備える。このとき、該ビデオ特徴決定モジュール130は、2値化された画像特徴に基づいてビデオ特徴を決定する。
図7は、本開示のビデオ特徴データベースの構築装置の一実施例の模式的な構成図である。図7を参照すると、本開示の例のビデオ特徴データベースの構築装置200は、主に
前記の本開示の例のビデオ特徴の抽出装置のフレーム抽出モジュール110、画像特徴決定モジュール120、ビデオ特徴決定モジュール130を備え、2値化モジュールを備えてもよく、前記の本開示の例のビデオ特徴の抽出方法のステップに従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出モジュール201と、
ビデオ特徴をビデオ特徴データベースに記憶するためのビデオ特徴記憶モジュール202と、
各ビデオ対象のビデオ特徴を記憶するためのビデオ特徴データベース203と、を備える。
図8は、本開示の実施例のビデオ特徴の抽出ハードウェア装置を示すハードウェアブロック図である。図8に示すように、本開示の実施例のビデオ特徴抽出ハードウェア装置300は、メモリ301と、プロセッサ302と、を備える。ビデオ特徴抽出ハードウェア装置300の各モジュールは、バスシステムおよび/またはその他のコネクション機構(図示せず)に介して、互いに接続する。
該メモリ301は、非一時的なコンピュータ可読命令を記憶する。具体的に、メモリ301は、一つ以上のコンピュータプログラム製品を含有してもよく、該コンピュータプログラム製品は、各種のコンピュータ可読記憶媒体、例えば、揮発性メモリおよび/または不揮発性メモリであってもよい。該揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)および/またはキャッシュメモリ(cache)などであってもよい。該不揮発性メモリは、例えば、ROM(Read Only Memory)、ハードディスク、フラッシュメモリなどであってもよい。
該プロセッサ302は、CPU、またはデータ処理機能および/または指令実行機能をもつその他の処理ユニットであってもよく、且つ、所望の機能ができるよう、コントロールビデオ特徴抽出ハードウェア装置300におけるその他のモジュールを制御してもよい。本開示の一実施例において、該ビデオ特徴抽出ハードウェア装置300が前記の本開示の各実施例のビデオ特徴の抽出方法の全部または一部ステップを実行させるよう、該プロセッサ302は該メモリ301に記憶された該コンピュータ可読命令を実行する。
図9は、本開示の実施例のコンピュータ可読記憶媒体を示す概念図である。図9に示すように、本開示の実施例のコンピュータ可読記憶媒体400には、非一時的なコンピュータ可読命令401が記憶されている。該非一時的なコンピュータ可読命令401がプロセッサにより実行される際には、前記の本開示の各実施例のビデオ特徴の抽出方法の全てまたは一部ステップが実行される。
図10は、本開示の実施例の端末機器のコントローラのハードウェア構成を示す概念図である。端末機器は各種の形式で実現してもよい。本開示の端末機器は、限定せず、携帯電話、スマートフォン、ラップトップ、ディジタル放送受信器、PDA、PAD(タブレット)、PMP(携帯マルチメディア再生装置)、ナビゲーション装置、車載端末機器、車載表示端末、車載電気ドアミラーなどの移動端末機器と、ディジタルTV、デスクトップなどの固定端末機器と、を含む。
図10に示すように、端末機器1100は、無線通信ユニット1110、A/V(音声/ビデオ)入力ユニット1120、ユーザー入力ユニット1130、検知ユニット1140、出力ユニット1150、メモリ1160、ポートユニット1170、コントローラ1180、電源ユニット1190などを含む。図10には、各モジュールを有する端末機器が示されてが、示されているすべての構成要素を実装する必要があるわけではないことを理解されたい。代わりに、より多い、またはより少ない構成要素を実装してもよい。
そのうち、無線通信ユニット1110は、端末機器1100と、無線通信システム、またはネットワークとの間の無線通信に使用される。A/V入力ユニット1120は、音声、またはビデオ信号を受信する。ユーザー入力ユニット1130は、端末機器の各作業を制御するよう、ユーザーから入力された命令に基づいて入力データを生成する。検知ユニット1140は、端末機器1100の現在状態、端末機器1100の位置、ユーザーが端末機器1100に対するタッチ入力の有無、端末機器1100の配向、端末機器1100の加速・減速の移動及び向きなどを検出して、且つ端末機器1100の作業を制御するための命令または信号を生成する。ポートユニット1170は、少なくとも一つの外部装置と端末機器1100と接続するポートとして使用される。出力ユニット1150は、視覚的、聴覚的、および/または触覚的な出力信号を提供するように構成される。メモリ1160には、コントローラ1180により実行される処理及び制御作業のソフトウェアプログラムなどを記憶してもよく、または出力された或いは出力されるデータを一時的に記憶してもよい。メモリ1160には、少なくとも一種類の記憶媒体を含有してもよい。しかも、端末機器1100は、ネットワークに介して接続されたメモリ1160の記憶機能を実行するネットワーク記憶装置と協働することができる。コントローラ1180は、通常、端末機器の全体的な動作を制御する。また、コントローラ1180は、マルチメディアデータを再生または再放送するためのマルチメディアモジュールを備えてもよい。コントローラ1180は、タッチパネルで実行された手書き入力または絵描画入力を文字または画像として認識するよう、パターン認識処理を実行できる。電源ユニット1190は、コントローラ1180の制御下で外部電力または内部電力を受け取り、各素子及びモジュールを動作させるのに必要な適切な電力を提供する。
本開示によるビデオ特徴の抽出方法の各実施形態は、例えば、コンピュータソフトウェア、ハードウェア、またはそれらを組み合わせたコンピュータ可読媒体で実現できる。ハードウェアで実現する場合、本開示によるビデオ特徴の抽出方法の各実施形態は、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、DSPD(Digital Signal Processing Device)、PLD(Programmable Logic Device)、FPGA(Field−Programmable Gate Array)、プロセッサ、コントローラ、マイクロコントローラー、マイクロプロセッサを使用して、前記の機能を実行する電子ユニットの少なくとも一つで実現できる。なお、本開示によるビデオ特徴の抽出方法の各実施形態は、コントローラ1180において実現してもよい。ソフトウェアで実現する場合、本開示によるビデオ特徴の抽出方法の各実施形態は、少なくとも1つ機能または作業を実行する個別のソフトウェアモジュールで実現できる。ソフトウェアコードは、任意の適切なプログラミング言語で書かれたソフトウェアアプリケーション(またはプログラム)によって実現でき、メモリ1160に記憶し、コントローラ1180によって実行することができる。
以上、本開示の実施例のビデオ特徴の抽出方法、装置、ハードウェア装置、コンピュータ可読記憶媒体及び端末機器によれば、ビデオからフレームを抽出されたフレーム画像に対し複数種のプーリング化を段階的に実行してビデオ特徴を生成することにより、ビデオ特徴の抽出の正確性と効率を大幅向上させ、取得されたビデオ特徴の良さと頑健性(Robust)を向上でき、本開示のビデオ特徴の抽出方法によって取得されたビデオ特徴に対しビデオ比較、ビデオ検索、ビデオの重複排除及びビデオコンテンツの監視を実行する際に、精度、効率、頑健性が向上できる。
本開示の基本原理は、特定の実施形態に関連して上記で説明されたが、本開示で言及される利点、効果などは単なる例であり、限定ではなく、その利点、効果などは各実施形態の必要な要件と考慮されないことに留意されたい。さらに、上記の開示の具体的な内容は、一例または理解しやすくするためのものであり、本発明を限定することを意図するものではない。
本開示の装置、ユニット、デバイス、モジュール、システムのブロック図は単なる例示であり、必ずブロック図の通りで接続、配置、構成されるわけではない。当業者には理解されるように、これらの装置、ユニット、デバイス、モジュール、システムは、任意の方法で接続、配置、構成することができる。「含む」、「含有」、「備える」などの言葉は、「含むがこれに限定されない」という意味の一般的な言葉であり、同じ意味で使用される。「または」と「および」という用語は、本明細書では「および/または」という言葉を意味するために使用され、文脈がそうでないことを明確に示さない限り互換的に使用される。本明細書で使用される「〜など」という用語は、「〜などであるがこれに限定されない」という語句を指し、交換可能に使用される。
さらに、ここで使用される「少なくとも1つ」で始まる例で使用される「または」は、たとえば「A、B、Cの少なくとも1つ」がAまたはBまたはC、或いは、ABまたはACまたはBC、或いは、ABC(AおよびBおよびC)を意味する。さらに、「例示」という表現は、説明された例が他の例よりも好ましいまたはより良いことを意味しない。
また、本開示のシステムおよび方法では、各構成要素またはステップが分解および/または再結合できることに留意されたい。これらの分解および/または再結合は、本開示の同等物と見なされるべきである。
請求範囲で定義される本発明の教示から逸脱することなく、本明細書に記載された技術の様々な変更、置換、および変化を行うことができる。さらに、本開示の請求範囲は、上記の処理、機械、製造、モジュールの構成、手段、方法、および動作の態様に限定されない。既存のまたは後に開発される処理、機械、製造、モジュール、またはモジュールの構成、メカニズム、方法、または動作を利用して、本明細書で説明するさまざまな態様と実質的に同じ機能を実行することができる。したがって、請求範囲は、そのような処理、機械、製造、モジュール、またはモジュールの構成、メカニズム、方法、または動作を含むことに留意されたい。
開示された態様の上記の説明は、当業者が本開示を作成または使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者には明らかであり、本明細書で定義される一般原理は、本開示の範囲から逸脱することなく他の態様に適用できる。したがって、本開示は、本明細書に示される態様に限定されるものではなく、本明細書に開示される原理および新規の特徴の最も広い範囲内にあるものとする。
上記の説明は、例示および説明の目的で提示された。さらに、説明の内容は、本開示の実施形態を本明細書に開示された形態に限定することを意図していない。多くの例示的な態様および実施形態が上記で提出されたが、当業者は、それらの特定の変形、修正、変更、追加、およびサブコンビネーションを認識するであろう。
100 ビデオ特徴の抽出装置
110 フレーム抽出モジュール
120 画像特徴決定モジュール
130 ビデオ特徴決定モジュール
200 ビデオ特徴データベースの構築装置
201 ビデオ特徴抽出モジュール
202 ビデオ特徴記憶モジュール
203 ビデオ特徴データベース
300 ビデオ特徴抽出ハードウェア装置
301 メモリ
302 プロセッサ
400 コンピュータ可読記憶媒体
401 非一時的なコンピュータ可読命令
1110 無線通信ユニット
1120 A/V入力ユニット
1130 ユーザー入力ユニット
1140 検知ユニット
1150 出力ユニット
1160 メモリ
1170 インタフェースユニット
1180 コントローラ
1190 電源ユニット

Claims (8)

  1. ビデオ特徴の抽出方法であって、
    ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するステップと、
    各フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、該フレーム画像の画像特徴を取得するステップと、
    前記の一つ以上のフレーム画像に対応する複数の画像特徴に基づいて、前記のビデオ対象のビデオ特徴を決定するステップと、
    を含み、
    各前記フレーム画像に対し複数種のプーリング化を段階的に実行して前記フレーム画像の画像特徴を取得することは、
    前記フレーム画像に基づいて行列を決定して、前記複数種のプーリング化によって、1点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記1点のみを含む行列に基づいて画像特徴を決定すること、を含み、
    前記フレーム画像に基づいて1つの行列を決定して、前記複数種のプーリング化によって、1点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記1点のみを含む行列に基づいて画像特徴を決定するステップは、以下のステップ(a)、(b)、(c)及び(d)を含み、
    ステップ(a)では、1つの前記フレーム画像に基づいて、第1の行列次元と第2の行列次元を含有する一つの第1行列を決定して、前記第1行列における点が前記フレーム画像における画素に対応しており、前記第1行列における点の値が第1ベクトルとなり、前記第1ベクトルが、3次元のベクトルとなり、対応する画素の三つ色チャネルの輝度を表し、
    ステップ(b)では、前記第1行列において複数の第1ブロックを設け、各前記第1ブロックには複数の前記第1ベクトルが含まれ、第1の行列次元における前記複数の第1ブロックの数が、第1の行列次元における前記第1行列に含まれた点の数よりも少なく、且つ、第2の行列次元における前記複数の第1ブロックの数が、第2の行列次元における前記第1行列に含まれた点の数よりも少なく、各前記第1ブロックについて、前記第1ブロックに含まれた複数の前記第1ベクトルの各次元の最大値、最小値、平均値をそれぞれ算出して、9次元の第2ベクトルを取得し、
    ステップ(c)では、前記複数の第1ブロックに対応された前記第2ベクトルに基づいて、第2行列を決定して、前記第2行列における点が前記第1ブロックに対応し、前記第2行列における点の値が前記第2ベクトルとなり、
    ステップ(d)では、前記第1行列を、値が3N次元ベクトル(Nは正の整数である)となる点に縮小されるまで、ステップ(b)とステップ(c)を繰り返して、前記3N次元ベクトルを前記フレーム画像の画像特徴として決定する
    ビデオ特徴の抽出方法。
  2. ビデオ特徴の抽出方法であって、
    ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するステップと、
    各フレーム画像に対し、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、該フレーム画像の画像特徴を取得するステップと、
    前記の一つ以上のフレーム画像に対応する複数の画像特徴に基づいて、前記のビデオ対象のビデオ特徴を決定するステップと、
    を含み、
    前記の一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するステップは、
    前記画像特徴に対して2値化処理を実行し、2値化画像特徴を取得するステップ、
    前記の一つ以上のフレーム画像の前記2値化画像特徴に基づいてビデオ特徴を決定するステップ、を含み、
    前記画像特徴に対して2値化処理を実行して2値化画像特徴を取得するステップは、
    前記画像特徴に基づいて複数のグループを生成し、各前記グループが前記画像特徴における複数の元素を含有するステップと、
    各前記グループにおける前記複数の元素をそれぞれ合計して、各前記グループの加算値を取得するステップと、
    前記複数のグループを二つずつペアリングして、複数のグループペアを取得するステップと、
    各前記グループについて、前記グループペアのうち二つ前記グループの前記加算値の大きさを比較して、比較結果に基づいて一つの2値化の画像特徴ビットを生成するステップと、
    前記複数のグループペアの前記画像特徴ビットに基づいて、前記フレーム画像の2値化画像特徴を決定するステップと、を含む、
    ビデオ特徴の抽出方法
  3. ビデオ特徴データベースの構築方法であって、
    請求項1または2に記載されたビデオ特徴の抽出方法に従って、ビデオ対象のビデオ特徴を抽出するステップと、
    前記ビデオ特徴をビデオ特徴データベースに記憶するステップと、
    を含むビデオ特徴データベースの構築方法。
  4. ビデオ特徴の抽出プログラムであって、
    ビデオ対象からフレームを抽出して、一つ以上のフレーム画像を取得するためのフレーム抽出ステップと、
    各フレーム画像に対して、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、前記フレーム画像の画像特徴を取得するための画像特徴決定ステップと、
    前記一つ以上のフレーム画像の前記画像特徴に基づいてビデオ特徴を決定するためのビデオ特徴決定ステップを、
    コンピュータによって実行し、
    各フレーム画像に対して、最大プーリング化、最小プーリング化、平均プーリング化からなる複数種のプーリング化を段階的に実行して、前記フレーム画像の画像特徴を取得することは、
    前記フレーム画像に基づいて行列を決定して、前記複数種のプーリング化によって、1点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記1点のみを含む行列に基づいて画像特徴を決定すること、を含み、
    前記フレーム画像に基づいて1つの行列を決定して、前記複数種のプーリング化によって、1点のみを含む行列に縮小するまで、段階的に小さな行列を生成して、前記1点のみを含む行列に基づいて画像特徴を決定するステップは、以下のステップ(a)、(b)、(c)及び(d)を含み、
    ステップ(a)では、1つの前記フレーム画像に基づいて、第1の行列次元と第2の行列次元を含有する一つの第1行列を決定して、前記第1行列における点が前記フレーム画像における画素に対応しており、前記第1行列における点の値が第1ベクトルとなり、前記第1ベクトルが、3次元のベクトルとなり、対応する画素の三つ色チャネルの輝度を表し、
    ステップ(b)では、前記第1行列において複数の第1ブロックを設け、各前記第1ブロックには複数の前記第1ベクトルが含まれ、第1の行列次元における前記複数の第1ブロックの数が、第1の行列次元における前記第1行列に含まれた点の数よりも少なく、且つ、第2の行列次元における前記複数の第1ブロックの数が、第2の行列次元における前記第1行列に含まれた点の数よりも少なく、各前記第1ブロックについて、前記第1ブロックに含まれた複数の前記第1ベクトルの各次元の最大値、最小値、平均値をそれぞれ算出して、9次元の第2ベクトルを取得し、
    ステップ(c)では、前記複数の第1ブロックに対応された前記第2ベクトルに基づいて、第2行列を決定して、前記第2行列における点が前記第1ブロックに対応し、前記第2行列における点の値が前記第2ベクトルとなり、
    ステップ(d)では、前記第1行列を、値が3N次元ベクトル(Nは正の整数である)となる点に縮小されるまで、ステップ(b)とステップ(c)を繰り返して、前記3N次元ベクトルを前記フレーム画像の画像特徴として決定する
    ビデオ特徴の抽出プログラム。
  5. ビデオ特徴データベースの構築プログラムであって、
    請求項1または2に記載されたビデオ特徴の抽出方法に従ってビデオ対象のビデオ特徴を抽出するためのビデオ特徴抽出ステップと、
    前記ビデオ特徴を前記ビデオ特徴を記憶するためのビデオ特徴データベースに記憶するビデオ特徴記憶ステップを、
    コンピュータによって実行するビデオ特徴データベースの構築プログラム。
  6. ビデオ特徴抽出ハードウェアシステムであって、
    非一時的なコンピュータ可読命令を記憶するためのメモリと、
    請求項1または2に記載されたビデオ特徴の抽出方法を実現するよう、前記コンピュータ可読命令を実行するためのプロセッサと、
    を備えるビデオ特徴抽出ハードウェアシステム。
  7. 請求項1または2に記載されたビデオ特徴の抽出方法がコンピュータによって実行されるよう、非一時的なコンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体。
  8. 請求項に記載されたビデオ特徴の抽出プログラムをコンピュータによって実行する装置を備える端末システム。
JP2020545849A 2018-03-29 2018-12-29 ビデオ特徴の抽出方法および装置 Active JP6982194B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810271774.6 2018-03-29
CN201810271774.6A CN110321759B (zh) 2018-03-29 2018-03-29 一种视频特征提取方法及装置
PCT/CN2018/125496 WO2019184520A1 (zh) 2018-03-29 2018-12-29 一种视频特征提取方法及装置

Publications (2)

Publication Number Publication Date
JP2021504855A JP2021504855A (ja) 2021-02-15
JP6982194B2 true JP6982194B2 (ja) 2021-12-17

Family

ID=68062443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545849A Active JP6982194B2 (ja) 2018-03-29 2018-12-29 ビデオ特徴の抽出方法および装置

Country Status (5)

Country Link
US (1) US11455802B2 (ja)
JP (1) JP6982194B2 (ja)
CN (1) CN110321759B (ja)
SG (1) SG11202008272RA (ja)
WO (1) WO2019184520A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807769B (zh) * 2019-10-30 2021-12-14 腾讯科技(深圳)有限公司 图像显示控制方法及装置
CN111369472B (zh) * 2020-03-12 2021-04-23 北京字节跳动网络技术有限公司 图像去雾方法、装置、电子设备及介质
US20240037385A1 (en) * 2022-07-27 2024-02-01 Verb Surgical Inc. Energy tool activation detection in surgical videos using deep learning
CN115714882B (zh) * 2022-11-24 2024-08-06 北京香哈网络股份有限公司 一种视频时长优化处理方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007516A1 (en) * 2001-07-06 2003-01-09 Yuri Abramov System and method for the application of a statistical multiplexing algorithm for video encoding
US9396621B2 (en) * 2012-03-23 2016-07-19 International Business Machines Corporation Systems and methods for false alarm reduction during event detection
JP6211407B2 (ja) 2013-12-06 2017-10-11 株式会社デンソーアイティーラボラトリ 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
US9432702B2 (en) * 2014-07-07 2016-08-30 TCL Research America Inc. System and method for video program recognition
JP2018514844A (ja) 2015-03-11 2018-06-07 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 細胞画像および映像の深層畳み込みネットワークベースの分類のためのシステムおよび方法
US10068138B2 (en) * 2015-09-17 2018-09-04 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
CN105574215B (zh) 2016-03-04 2019-11-12 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
JP6525912B2 (ja) 2016-03-23 2019-06-05 富士フイルム株式会社 画像分類装置、方法およびプログラム
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível
US10803318B1 (en) * 2016-05-18 2020-10-13 Educational Testing Service Automated scoring of video clips using extracted physiological features
US10681391B2 (en) * 2016-07-13 2020-06-09 Oath Inc. Computerized system and method for automatic highlight detection from live streaming media and rendering within a specialized media player
JP6612196B2 (ja) * 2016-07-27 2019-11-27 日本システムウエア株式会社 岩盤強度判定装置、岩盤強度判定方法、及び岩盤強度判定プログラム
CN106295605A (zh) * 2016-08-18 2017-01-04 宁波傲视智绘光电科技有限公司 红绿灯检测与识别方法
CN106649663B (zh) * 2016-12-14 2018-10-16 大连理工大学 一种基于紧凑视频表征的视频拷贝检测方法
CN107169415B (zh) * 2017-04-13 2019-10-11 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107092960A (zh) 2017-04-17 2017-08-25 中国民航大学 一种改进的并行通道卷积神经网络训练方法
CN107247949B (zh) 2017-08-02 2020-06-19 智慧眼科技股份有限公司 基于深度学习的人脸识别方法、装置和电子设备
CN107491748B (zh) * 2017-08-09 2018-10-02 电子科技大学 一种基于视频的目标车辆提取方法
CN107564009B (zh) 2017-08-30 2021-02-05 电子科技大学 基于深度卷积神经网络的室外场景多目标分割方法
CN107844766A (zh) 2017-10-31 2018-03-27 北京小米移动软件有限公司 人脸图像模糊度的获取方法、装置和设备
US10552671B2 (en) * 2017-11-22 2020-02-04 King Fahd University Of Petroleum And Minerals Multi-kernel fuzzy local Gabor feature extraction method for automatic gait recognition
CN110324660B (zh) * 2018-03-29 2021-01-19 北京字节跳动网络技术有限公司 一种重复视频的判断方法及装置
US20200258616A1 (en) * 2019-02-07 2020-08-13 The Regents Of The University Of Michigan Automated identification and grading of intraoperative quality

Also Published As

Publication number Publication date
CN110321759A (zh) 2019-10-11
WO2019184520A1 (zh) 2019-10-03
SG11202008272RA (en) 2020-09-29
US11455802B2 (en) 2022-09-27
JP2021504855A (ja) 2021-02-15
CN110321759B (zh) 2020-07-07
US20210089785A1 (en) 2021-03-25

Similar Documents

Publication Publication Date Title
JP6982194B2 (ja) ビデオ特徴の抽出方法および装置
JP7000468B2 (ja) 重複ビデオの判定方法及び装置
US8644620B1 (en) Processing of matching regions in a stream of screen images
US10455229B2 (en) Prediction mode selection method, apparatus and device
US9076221B2 (en) Removing an object from an image
JP7209044B2 (ja) ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム
US10249029B2 (en) Reconstruction of missing regions of images
CN110139149B (zh) 一种视频优化的方法、装置、电子设备
CN109801279B (zh) 图像中的目标检测方法及装置、电子设备、存储介质
US20180247152A1 (en) Method and apparatus for distance measurement
KR20130115341A (ko) 제스쳐 인식 메커니즘을 제공하는 방법 및 장치
CN111428740A (zh) 网络翻拍照片的检测方法、装置、计算机设备及存储介质
US11017254B2 (en) Image data retrieving method and image data retrieving device
CN113453017B (zh) 视频处理方法、装置、设备及计算机程序产品
KR20120035360A (ko) 문자 인식 장치 및 방법
CN104954892A (zh) 一种展示视频主题内容的方法及装置
JP7007474B2 (ja) ビデオ特徴抽出方法及び装置
JP2015060421A (ja) 類似画像検索方法及び類似画像検索装置
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
JP7106144B2 (ja) 画像解析装置
CN112070718A (zh) 一种区域量化参数的确定方法、装置、存储介质及终端
JP6482452B2 (ja) 画面遷移特定装置、画面遷移特定システム及び画面遷移特定方法
JP2020119001A (ja) 情報処理装置、情報処理方法、及びプログラム
CN112053277B (zh) 一种图像换肤的方法、装置、设备及存储介质
US8768060B2 (en) Image processing apparatus, image processing method and computer-readable medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211118

R150 Certificate of patent or registration of utility model

Ref document number: 6982194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250