JP7491867B2 - ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 - Google Patents

ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 Download PDF

Info

Publication number
JP7491867B2
JP7491867B2 JP2021078002A JP2021078002A JP7491867B2 JP 7491867 B2 JP7491867 B2 JP 7491867B2 JP 2021078002 A JP2021078002 A JP 2021078002A JP 2021078002 A JP2021078002 A JP 2021078002A JP 7491867 B2 JP7491867 B2 JP 7491867B2
Authority
JP
Japan
Prior art keywords
clip
video
clips
target
annotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021078002A
Other languages
English (en)
Other versions
JP2022037878A (ja
Inventor
ホゥ,ジアガオ
ワン,フェイ
ユィ,ポンフェイ
ジョウ,ダイグオ
Original Assignee
ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド filed Critical ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Publication of JP2022037878A publication Critical patent/JP2022037878A/ja
Application granted granted Critical
Publication of JP7491867B2 publication Critical patent/JP7491867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本出願は、ビデオ処理の技術分野に関し、特に、ビデオクリップ抽出方法、ビデオクリップ抽出装置及びコンピュータ読み取り可能な記憶媒体に関する。
ネットワーク技術の迅速な発展につれて、大量のビデオが生じ、人々の日常生活を非常に豊かにしている。しかしながら、時間などの原因で、ユーザがビデオを見終わることができない場合、人々は、短時間内でビデオの一部のクリップ(例えばハイライトクリップ)を見ることで当該ビデオの主な内容を迅速に把握することを希望している。
関連技術において、ビデオクリップ抽出用のモデルをトレーニングし、モデルを利用してビデオにおける目標クリップを抽出し、例えばビデオのハイライトクリップを抽出する。しかしながら、現在のビデオクリップ抽出用のモデルをトレーニングするためのデータには、大量のノイズデータが含まれており、クリップ選択の正確性を高めるために複雑なネットワーク構造が必要とされる。ユーザが当該トレーニング済みのモデルを使用してビデオクリップを抽出する時、所望のクリップを迅速且つ正確に取得することができず、ユーザの使用体験に影響を及ぼす。また、ノイズデータが多過ぎるため、トレーニングの難易度が高く、トレーニングコストが高く、短時間内で有効なビデオクリップ抽出モデルを迅速に取得することができない。
関連技術における問題を克服するために、本出願は、ビデオクリップ抽出方法、ビデオクリップ抽出装置及びコンピュータ読み取り可能な記憶媒体を提供する。
本出願の実施例の第1の態様によれば、ビデオを取得し、前記ビデオを複数のクリップに分割するステップと、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップであって、前記採点モデルが、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第1のクリップと第2のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含むステップと、前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するステップと、を含むビデオクリップ抽出方法を提供する。
一実施例において、前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、1つ又は複数の注釈クリップを含むサンプルビデオを取得し、前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る手段であって、第1のクリップが目標クリップとなる可能性が、第2のクリップが目標クリップとなる可能性よりも高い手段である。
別の実施例において、前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得るステップは、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップ、もしくは、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップ、もしくは、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップであって、前記データペアが、前記第1のクリップと前記第2のクリップとからなるデータペア、前記第1のクリップと第2のクリップとされる前記一部のクリップからなるデータペア、又は前記第2のクリップと第1のクリップとされる前記一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含むステップ、を含む。
更に別の実施例において、前記採点モデルは、以下の手段を採用して、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出し、前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である。
更に別の実施例において、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップは、前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得るステップ、を含む。
更に別の実施例において、前記ビデオを複数のクリップに分割するステップは、ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得るステップ、又は、スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得るステップ、を含む。
本出願の実施例の第2の態様によれば、ビデオクリップ抽出装置を提供し、ビデオを取得し、前記ビデオを複数のクリップに分割するための取得ユニットと、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るための評価ユニットであって、前記採点モデルが、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第1のクリップと第2のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む評価ユニットと、前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するための抽出ユニットと、を含む。
一実施例において、前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、1つ又は複数の注釈クリップを含むサンプルビデオを取得し、前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る手段であって、第1のクリップが目標クリップとなる可能性が、第2のクリップが目標クリップとなる可能性よりも高い手段である。
別の実施例において、前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づいて得られ、即ち、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段、もしくは、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段、もしくは、前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段であって、前記データペアが、前記第1のクリップと前記第2のクリップとからなるデータペア、前記第1のクリップと第2のクリップとされる前記一部のクリップからなるデータペア、又は前記第2のクリップと第1のクリップとされる前記一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含む手段である。
更に別の実施例において、前記採点モデルは、以下の手段を採用して、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出し、前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である。
更に別の実施例において、前記評価ユニットは、以下の手段を採用して、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得て、即ち、前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得る手段である。
更に別の実施例において、前記取得ユニットは、以下の手段を採用して、前記ビデオを複数のクリップに分割し、即ち、ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得る手段、又は、スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得る手段である。
本出願の実施例の第3の態様によれば、ビデオクリップ抽出装置を提供し、命令を記憶するためのメモリと、前記メモリに記憶されている命令を呼び出し、上記したいずれか一項に記載のビデオクリップ抽出方法を実行するためのプロセッサと、を含む。
本出願の実施例の第4の態様によれば、命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供し、前記命令がプロセッサに実行されるとき、上記したいずれか一項に記載のビデオクリップ抽出方法が実行される。
本出願の実施例により提供される技術案は、以下の有益な効果をもたらすことができる。本出願では、採点モデルは、明確な目標プロパティを有する注釈クリップに基づいてトレーニングされて得られる。トレーニングの過程で、ノイズデータが少なく、正確度が高く、更に、採点モデルのネットワーク構造がシンプルであり、より速く収束することができ、トレーニングプロセスを加速させ、トレーニングコストを削減することに役立つ。また、採点モデルのネットワーク構造がシンプルであるため、当該採点モデルを使用して取得されたビデオの各クリップに対して採点する時、計算時間を短縮することができ、ユーザが見たがる目標クリップを迅速に抽出し、ユーザ体験を高めることに役立つ。
以上の一般的な説明及び後述する詳細な説明は、単なる例示的及び解釈的なものであり、本出願を制限するものではないことを理解されたい。
ここの図面は、明細書に組み込まれて、本明細書の一部を構成し、本出願に基づく実施例を示し、明細書と共に本出願の原理を解釈するために用いられる。
例示的な一実施例により示されるビデオクリップ抽出方法のフローチャート 例示的な一実施例により示されるクリップ分割の模式図 例示的な一実施例により示される別のクリップ分割の模式図 例示的な一実施例により示されるクリップ表示の模式 例示的な一実施例により示される別のクリップ表示の模式図 例示的な一実施例により示されるデータペア取得方法のフローチャート 例示的な一実施例により示されるサンプルビデオの注釈模式図 例示的な一実施例により示される別のサンプルビデオの注釈模式図 例示的な一実施例により示される更に別のサンプルビデオの注釈模式図 例示的な一実施例により示される採点モデルのトレーニング方法のフローチャート 例示的な一実施例により示されるビデオクリップ抽出装置のブロック図 例示的な一実施例により示される別のビデオクリップ抽出装置のブロック図
ここで、例示的な一実施例を詳しく説明し、その例を図面に示す。以下の説明において、図面に及ぶ場合、別途示していない限り、異なる図面における同一の数字は、同一の又は類似する要素を表す。以下の例示的な一実施例で説明される実施形態は、本出願に基づく全ての実施形態を表すわけではない。むしろ、それらは、添付される特許請求の範囲において詳しく説明される、本出願の一部の態様に基づく装置及び方法の例に過ぎない。
本出願の実施例により提供されるビデオクリップ抽出方法は、ハイライトクリップを抽出するシナリオのような、目標クリップを抽出するシナリオに適用される。例えば、携帯電話のフォトアルバムでユーザのためにビデオのハイライトクリップを生成し、プレビューとしてユーザに表示するシナリオでもよいし、ショートビデオアプリケーションにおいて、ショートビデオのハイライトクリップを取得してgif画像を生成し、ビデオポスターとしてユーザに表示するシナリオでもよい。
ここで、目標クリップの抽出は、通常、モデルによる抽出手段を採用するため、ビデオクリップ抽出用のモデルをトレーニングする必要がある。
関連技術において、ビデオクリップ抽出モデルをトレーニングする方法は、主にマッチング法に基づくもの、分類法に基づくもの及びランキング法に基づくものの3種類を含む。以下、本出願の実施例において、ビデオにおけるハイライトクリップを抽出するようにトレーニングすることを例として、上述した技術に関連するモデルトレーニング方法について説明する。
マッチング法に基づくものでは、複数の所定のハイライトタイプを予め定義し、複数の所定のハイライトタイプをそれぞれに取得されたビデオ内容とマッチングし、ビデオ内容と各所定のハイライトタイプとの間のマッチング度を決定し、更に当該ビデオにおける各クリップのハイライトさを計算し、ハイライトさが最も高いクリップを当該ビデオのハイライトクリップとする。しかしながら、ハイライトタイプを予め定義する必要があり、且つ、各クリップのうち予め定義されたハイライトタイプに関連するクリップのみを計算することができるため、抽出可能なハイライトクリップのビデオタイプが限られている。
分類法に基づくものでは、大量のハイライトクリップ及び非ハイライトクリップを予め収集してトレーニングセットとし、更にクリップがハイライトであるかハイライトでないかを区別可能な二項分類モデルをトレーニングする。よって、使用時に、ビデオにおけるどのクリップがハイライトクリップに属するか、どのクリップが非ハイライトクリップに属するかを決定することができる。しかしながら、この方法によれば、各種類のクリップの間のハイライトさの相違を明確にして、ハイライトであるクリップのうちのどのクリップが最もハイライトであり得るかを区別することができない。
上述技術に関連するビデオクリップ抽出モデルのトレーニング方法では、トレーニングデータが注釈し難く、且つ、取得されたデータが十分に正確でない。また、トレーニングデータの品質が悪く、複雑なモデルが必要とされ、トレーニングがより困難である。
これを鑑み、本出願の実施例は、ビデオクリップ抽出方法を提供し、このビデオクリップ抽出方法で使用されるビデオクリップ抽出モデルは、トレーニング時に簡単に注釈し、高品質のトレーニングデータを取得することができ、また、単純な多層パーセプトロンモデルを利用すればよく、モデルトレーニングの難易度も高くない。
本出願で提供されるビデオクリップ抽出方法は、ビデオクリップを採点モデルに入力し、各クリップの点数を得て、各クリップの点数に基づき、目標クリップの抽出を行うことを採用する。ここで、採用された採点モデルは、目標プロパティが予め注釈された第1のクリップと第2のクリップとのデータペアに基づいてトレーニングされて得られたものである。注釈されたクリップに基づけば、トレーニングの過程で、ノイズデータによる干渉を減少させ、トレーニングデータの正確度を高めることに役立ち、トレーニングデータの正確度を高めるように他のネットワーク構造を採用する必要がなく、更に採点モデルのネットワーク構造がシンプルであり、トレーニングの難易度が低く、迅速に収束することができ、トレーニングプロセスを加速させ、トレーニングコストを削減することに役立つ。また、採点モデルのネットワーク構造がシンプルであるため、当該採点モデルを使用して取得されたビデオの各クリップに対して採点する時、各クリップの点数を計算する時間を短縮することができ、ユーザが見たがる目標クリップを迅速に抽出し、ユーザ体験を高めることに役立つ。
図1は、例示的な一実施例により示されるビデオクリップ抽出方法のフローチャートであり、図1に示すように、ビデオクリップ抽出方法は、以下のステップS11~ステップS13を含む。
ステップS11では、ビデオを取得し、ビデオを複数のクリップに分割する。
本出願の実施例において、1つのビデオに、抽出対象である目標クリップを有するし、非目標クリップをも有する。目標クリップは、目標クリッププロパティを有し、非目標クリップは、同じく非目標クリッププロパティを有する。例えば、目標クリップがハイライトクリップである場合、ビデオに、相対的に最もハイライトであり得るクリップを有すると同時に、相対的に最もハイライトであり得ないクリップをも有する。ユーザのニーズが異なるため、所望の目標クリップが異なる。取得されたビデオに基づいてユーザの所望の目標クリップを迅速に抽出するように、当該ビデオを複数のクリップに分割し、更に、採点モデルにより各クリップの点数を得ることができ、迅速な抽出に役立つ。
通常、目標クリップは、ビデオにおける1つ又は複数のクリップとすることができ、且つ、目標クリッププロパティを有する。例えば、ハイライトクリップは、ビデオにおける1つ又は複数の相対的に短いクリップであり、内容が他のクリップの内容に比べてよりハイライトであり得て、より人の目を引く。例えば、バスケットボール試合のビデオを例とし、当該ビデオにおけるダンクショット、スマッシュなどのクリップは、当該バスケットボール試合のビデオにおけるハイライトクリップであり、普通のドリブルなどのクリップは、非ハイライトクリップであり、ショットを切り替える時の黒幕、動画などは、最もハイライトであり得ないクリップである。
本出願の実施例において、ビデオにおけるクリップの分割を行う際に、様々な手段を採用することができる。
一実施例において、ビデオショット境界検出方法を採用し、ビデオのショット境界を検出し、更にショット境界を分割点として、ビデオを複数のクリップに分割することができる。よって、各クリップ内容の連続性及び完全性を保護することに役立つ。例えば、図2に示すように、ショット境界検出方法により現在のビデオが3つのショット境界を有すると検出した場合、当該ビデオを、検出された3つのショット境界に基づいてa、b、c、dの4つのクリップに分割する。本出願では、ビデオショット境界検出方法は、フレーム間差分絶対値法、色ヒストグラム法又は知覚的ハッシュアルゴリズムを含むことができる。フレーム間差分絶対値法によって、隣接する画像フレームの画素の合計輝度の差を比較することができ、隣接する画像フレームの画素の合計輝度の差が所定の閾値よりも大きい場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。色ヒストグラム法によって、画像の色ヒストグラムに基づいて画像特徴とし、ヒストグラムを利用して隣接する画像の間の類似度を評価する。類似度が所定の閾値よりも低い場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。知覚的ハッシュアルゴリズムによって、両フレームの画像の間の類似度を決定することができ、画像の類似度が所定の閾値よりも低い場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。
別の実施例において、特定の時間のスライディングウィンドウがタイミングに沿って所定のステップ長さでビデオにスライドし、スライディングウィンドウが毎回スライドする時に網羅した範囲は、1つのクリップである。図3に示すように、スライディングウィンドウが毎回スライドし、スライディングウィンドウの末尾位置からスライディングウィンドウの開始位置までスライドした場合、1つのビデオクリップが生成される。一例において、ビデオを分割して最後に残った時間がスライディングウィンドウの時間よりも短い場合、当該クリップを保留する。スライディングウィンドウによりクリップを分割することで、ユーザがクリップの分割時間を定義することができ、得られた目標クリップがユーザの所望の時間さを満たし、ユーザの使用体験を高めることに役立つ。
ステップS12では、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得る。
本出願の実施例において、トレーニング済みの採点モデルにより、分割された各クリップに対して採点し、各クリップの点数を得る。採点モデルは、各クリップ内容のハイライトさに基づいて採点することができる。同一のビデオの異なるクリップに対して、採点モデルにより出力された点数が高いほど、その内容のハイライトさが高い。各点数の間の相対的な高さは、各クリップの内容の間の相対的なハイライトさの相違として特徴付けることができる。得られた各クリップの点数を介して、各クリップの内容の間の相対的なハイライトさを直感的に区別することができ、更にユーザの所望の目標クリップを迅速に抽出することに役立つ。
本出願では、採点モデルは、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られる。データペアを得る過程で、得られた注釈クリップに対して、クリップ内容に基づいて注釈し、更に注釈クリップが第1のクリップに属するか第2のクリップに属するかを決定する。目標プロパティは、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む。一例において、目標クリップは、ビデオのうち最もハイライトであり得るクリップとし、非目標クリップは、ビデオのうち最もハイライトであり得ないクリップとすることができる。よって、得られたデータペアに基づき、第1のクリップと第2のクリップとの間の相違を明確に区別することができ、採点モデルをトレーニングする際に、採点モデルは、異なるプロパティの間のクリップ特徴を迅速に学習することができる。更に、注釈クリップに対するプロパティ注釈に基づき、トレーニングデータの正確度を高め、ノイズデータのモデルトレーニングに対する干渉を減少することができ、更にトレーニングデータのクリーン度を高めることに役立ち、トレーニングモデルの構造をより簡単にし、別のネットワークモデルを採用して注釈クリップの信頼性を計算する必要がない。よって、採点モデルのトレーニング過程が加速して収束することができ、コストを節約することに役立つ。
ステップS13では、各クリップの点数に基づき、複数のクリップから目標クリップを抽出する。
本出願の実施例において、ユーザのニーズに応じて、得られた各クリップの点数に基づき、ユーザの所望の目標クリップを抽出する。
本出願の実施例において、目標クリップがハイライトクリップであることを例として説明する。ビデオにおける複数のクリップに対して、点数に基づいてハイライトクリップ抽出を行い、ユーザが抽出された当該目標クリップに基づいて当該ビデオのハイライトの内容を迅速に把握することに役立つ。例えば、ユーザが当該ビデオのうち最もハイライトであり得るクリップを所望する場合、各クリップの点数に基づき、点数の最も高いクリップを目標クリップとすることができる。一例において、ユーザが複数のハイライトクリップを所望する場合、各クリップを対応する点数に基づいてランキングし、点数の相対的に高い複数のクリップを目標クリップとすることができる。
例えば、分割されたクリップは6つであり、それぞれがクリップ1、クリップ2、クリップ3、クリップ4、クリップ5、クリップ6である。各クリップを、各クリップのそれぞれに対応する点数に基づいてランキングし、クリップ4の点数が最も高く、その次はクリップ3、クリップ2、クリップ6、クリップ5、クリップ1である。ユーザのニーズに応じて、3つの精選クリップを取得する必要がある場合、点数の最も高いクリップ4及び相対的に高いクリップ3とクリップ2を抽出し、ユーザのニーズを満たす。
本出願の実施例において、実際の応用に応じて、目標クリップを抽出した後、当該抽出された目標クリップをユーザに表示することができる。ここで、表示手段は、抽出された当該クリップを当該ビデオのハイライトとして、単独に別途記憶するステップ、又は抽出された当該クリップをgif画像として別途記憶するステップ、又は当該ビデオ表示の代わりに初期ポスターを用いることを含むことができる。本出願の実施例において、コレクションの形で複数のクリップを統一して記憶してもよい。
1つの実施シナリオでは、目標クリップがハイライトクリップであることを例として説明する。図4に示すように、携帯電話で取得したビデオに基づき、採点モデルにより当該ビデオのうち点数の最も高いクリップを抽出し、更に携帯電話のフォトアルバムで当該ビデオのハイライトクリップを生成し、当該ビデオのプレビューとしてユーザに表示する。当該クリップは、別途記憶されたショートビデオであってもよいし、生成されたgif画像であってもよい。当該ビデオのプレビューとして表示する時に、ショートビデオ、gif画像又はショートビデオとgif画像の同時表示を含むことができる。ユーザが携帯電話のフォトアルバムで上スライド操作を行う時、当該ビデオのハイライトなどの情報が現れる。ここで、ハイライトは、当該ビデオのうち点数の最も高いクリップである。更に、ユーザが当該ビデオのハイライトの内容を迅速に把握することに役立つ。ハイライトであり得るクリップが多過ぎる場合、抽出された複数のクリップを当該ビデオのハイライトコレクションに記憶することができ、ユーザが一括して閲覧しやすくなる。
別の実施シナリオでは、依然として目標クリップがハイライトクリップであることを例として説明する。端末で取得したビデオが時間の短いビデオに属する場合、当該ビデオのハイライトクリップをgif画像に生成し、ビデオポスターとしてユーザに表示することができ、ユーザが当該ビデオをクリックして見るように引くことに役立つ。図5に示すように、端末のアプリケーションソフトウェアのページに4つのビデオポスターが表示されている。いずれのビデオポスターについても、採点モデルによりビデオにおける点数の最も高いクリップを抽出し、最もハイライトであり得るクリップをgif画像に生成し、元々のビデオポスターを置き換えることができ、ユーザがポスターを介するだけで当該ビデオのハイライトの内容を迅速に把握することができ、当該ビデオをクリックして見るようにユーザを引く。
上記ビデオクリップ抽出方法によれば、構造がシンプルなトレーニング済みの採点モデルにより、ビデオにおける各クリップの点数を迅速に取得し、更に点数に基づいてユーザの所望の目標クリップを抽出することができ、ユーザ体験が向上する。また、採点モデルは、トレーニングの過程で、予め目標プロパティが注釈された第1のクリップと第2のクリップのデータに基づいてトレーニングされたため、トレーニングデータにおけるノイズデータが少なく、トレーニングされた後に得られた採点モデルの採点正確度がより高くなり、各クリップの内容の間のハイライトさを区別することにより役立ち、更に高精度の抽出に役立つ。
以下、本出願の実施例において、採点モデルのトレーニング過程について説明する。
採点モデルをトレーニングする前、採点モデルのトレーニングに適合するデータペアを予め得ることによって、採点モデルをトレーニングする際に、採点モデルは異なるビデオ内容の間のハイライトさの相違を区別することができ、採点の正確度を高めやすい。且つ、トレーニングに用いられるデータペアは、サンプルビデオにおける目標プロパティが注釈された注釈クリップに基づいて得られたので、ノイズデータの混入を回避し、トレーニングデータの品質を高めることに役立ち、トレーニングの難易度を低下させ、トレーニングプロセスを加速させることに寄与する。
図6は、例示的な一実施例により示されるデータペア取得方法のフローチャートであり、図6に示すように、データペア取得方法は、以下のステップS21~ステップS22を含む。
ステップS21では、1つ又は複数の注釈クリップを含むサンプルビデオを取得する。
一実施例において、採点モデルをトレーニングする前に、一定の量のサンプルビデオを予め取得し、サンプルビデオセットを得て、十分なトレーニングデータで採点モデルをトレーニングすることができる。
ステップS22では、1つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る。
当該サンプルビデオセットでは、各サンプルビデオはいずれも1つ又は複数の注釈クリップ及び非注釈クリップを有する。各サンプルビデオにおける注釈クリップを内容に基づいて注釈し、各注釈クリップの目標プロパティを明確にする。注釈された目標プロパティに基づき、各注釈クリップ及び各非注釈クリップから第1のクリップと第2のクリップとからなるデータペアを得る。ここで、第1のクリップが目標クリップとなる可能性は、第2のクリップが目標クリップとなる可能性よりも高い。第1のクリップと第2のクリップの間の相違に基づき、採点モデルが目標クリップと非目標クリップと非注釈クリップの間の特徴の相違を正確に区別することができ、更に採点モデルの正確度を高めることに役立つ。
一例において、採点モデルが同一のビデオにおける異なるクリップの間のハイライトさの相違よりよく区別できるように、データペアを得る時、第1のクリップと第2のクリップは、同一のサンプルビデオに由来することができ、更に各クリップの間の相対的な点数の相違を得ることができ、同一のビデオにおける各クリップの間のハイライトさを区別することに役立ち、サンプルビデオを十分に利用することに役立つ。例えば、ダンクショットハイライトビデオについて、全てのダンクショットクリップもハイライトクリップに属する。同一のサンプルビデオに由来する第1のクリップと第2のクリップとから得られたデータペアを利用してトレーニングして得られた採点モデルによって、各ダンクショットクリップの点数の間の相対的な大きさを得ることができ、相対的によりハイライトであり得るダンクショットクリップを区別することに役立ち、目標ビデオを抽出しやすくなる。
以下、本出願の実施例において、目標クリップがハイライトビデオクリップであることを例として説明する。
ここで、サンプルビデオにおける目標プロパティが目標クリッププロパティの注釈クリップであるように注釈する場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最もハイライトであり得るクリップを、目標クリッププロパティを有するクリップとし、即ち、当該クリップは、同一のサンプルビデオにおける他の時点の内容に比べて、よりハイライトであり得て、より人の目を引く。更に、当該クリップの開始・終了時点を注釈し、目標クリッププロパティを有する注釈クリップを得る。サンプルビデオにおける非目標プロパティが目標クリッププロパティの注釈クリップであるように注釈する場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最もハイライトであり得ないクリップを、非目標クリッププロパティを有するクリップとし、即ち、当該クリップは、同一のサンプルビデオにおける他の時点の内容に比べて、よりハイライトであり得なく、より人の目を引かない。更に、当該クリップの開始・終了時点を注釈し、非目標クリッププロパティを有する注釈クリップを得る。
一例において、サンプルビデオは、1つ又は複数の目標プロパティが目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアを得る時、1つ又は複数の注釈クリップを第1のクリップとし、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとすることができる。サンプルビデオに1つの注釈クリップのみが存在し、且つ、非注釈クリップの時間が注釈クリップの時間に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈クリップを第1のクリップとし、非注釈クリップを第2のクリップとすることができる。例えば、図7に示すように、クリップ2は、目標プロパティが目標クリッププロパティである注釈クリップであり、クリップ1及びクリップ3は、非注釈クリップである。更に、データペアを得る時、クリップ2が第1のクリップで、クリップ1が第2のクリップであるデータペア、及びクリップ2が第1のクリップで、クリップ3が第2のクリップであるデータペアを得ることができる。サンプルビデオに1つの注釈クリップのみが存在し、非注釈クリップの時間が長過ぎる場合、非注釈クリップを所定の時間範囲内の複数のサブ非注釈クリップに分割することができ、更に注釈クリップを第1のクリップとし、サブ非注釈クリップを第2のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低減させることに役立ち、且つ、少量の注釈クリップを注釈するだけで大量のトレーニングデータペアを取得することができる。例えば、サンプルビデオの時間が60秒であり、ここで、注釈クリップが10秒であり、非注釈クリップが50秒である。大量のトレーニングデータペアを容易に取得するために、非注釈クリップを注釈クリップの時間に近い複数のサブ非注釈クリップに分割することができる。非注釈クリップを複数の10秒を超えていないサブ非注釈クリップに分割すれば、少なくとも5つのサブ非注釈クリップを得ることができ、例えば、サブ非注釈クリップ1、サブ非注釈クリップ2、サブ非注釈クリップ3、サブ非注釈クリップ4、サブ非注釈クリップ5である。更に、点数モデルのトレーニングに用いられる5対のデータペアを得ることができ、即ち、注釈クリップが第1のクリップで、サブ非注釈クリップ1が第2のクリップであるデータペア、注釈クリップが第1のクリップで、サブ非注釈クリップ2が第2のクリップであるデータペア、注釈クリップが第1のクリップで、サブ非注釈クリップ3が第2のクリップであるデータペア、注釈クリップが第1のクリップで、サブ非注釈クリップ4が第2のクリップであるデータペア、注釈クリップが第1のクリップで、サブ非注釈クリップ5が第2のクリップであるデータペアである。
別の例において、サンプルビデオは、1つ又は複数の目標プロパティが非目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアを得る時、1つ又は複数の注釈クリップを第2のクリップとし、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して正第2のクリップとすることができる。サンプルビデオに1つの注釈クリップのみが存在し、且つ、非注釈クリップの時間が注釈クリップの時間に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈クリップを第2のクリップとし、非注釈クリップを第1のクリップとすることができる。例えば、図8に示すように、クリップ3は、目標プロパティが非目標クリッププロパティである注釈クリップであり、クリップ1及びクリップ2は、非注釈クリップである。更に、データペアを得る時、クリップ1が第1のクリップで、クリップ3が第2のクリップであるデータペア、及びクリップ2が第1のクリップで、クリップ3が第2のクリップであるデータペアを得ることができる。サンプルビデオに1つの注釈クリップのみが存在し、非注釈クリップの時間が長過ぎる場合、非注釈クリップを所定の時間範囲内の複数のサブ非注釈クリップに分割することができ、更に、注釈クリップを第2のクリップとし、サブ非注釈クリップを第1のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈クリップを注釈するだけで大量のトレーニングデータペアを取得することができる。
更に別の例において、サンプルビデオは、1つ又は複数の目標プロパティが目標クリッププロパティである注釈クリップ、1つ又は複数の目標プロパティが非目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアは、第1のクリップと第2のクリップとからなるデータペア、第1のクリップと第2のクリップとされる一部のクリップからなるデータペア、又は第2のクリップと第1のクリップとされる一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含むことができる。即ち、データペアを得る時、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとする場合、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、又は非注釈クリップから一部のクリップを抽出して第2のクリップとする。非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとする場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、又は非注釈クリップから一部のクリップを抽出して第1のクリップとする。例えば、図9に示すように、クリップ2は、目標クリップを特徴付けるプロパティの注釈クリップであり、クリップ3は、目標プロパティが非目標クリッププロパティである注釈クリップであり、クリップ1は、非注釈クリップである。更にデータペアを得る時、クリップ2が第1のクリップで、クリップ1が第2のクリップであるデータペアを得て、クリップ2が第1のクリップで、クリップ3が第2のクリップであるデータペアを得て、クリップ1が第1のクリップで、クリップ3が第2のクリップであるデータペアを得ることができる。
注釈付きのトレーニングデータペアを得ることで、ノイズデータの発生を効果的に減少させ、ノイズデータによる干渉を回避することができ、更に、トレーニングデータのクリーン度を高めることに役立ち、採点モデルの構造を簡単にし、トレーニングデータの信頼性を高めるように他のネットワークモデルを採用したり、他のパラメータを追加したりする必要がなく、トレーニングの難易度が低く、トレーニング過程で採点モデルの収束を加速させることに役立つ。
図10は、例示的な一実施例により示される採点モデルのトレーニング方法のフローチャートである。本出願では、採点モデルは、上記で得られた第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られたものである。図10に示すように、採点モデルのトレーニング方法は、以下のステップS31~ステップS32を含む。
ステップS31では、ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出する。
本出願の実施例において、データペアにおける第1のクリップ及び第2のクリップの特徴ベクトルは、ビデオ理解モデルにより抽出され得る。更に、得られた第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを採点モデルの入力として、採点モデルをトレーニングするために使用し、第1のクリップの点数及び第2のクリップの点数を得る。第1のクリップ及び第2のクリップに特徴ベクトル抽出を行うことで、採点モデルがトレーニングの過程で異なるクリップ内容の間の類似度及び相違点を学習することに役立ち、採点の正確率を高めやすい。ビデオ理解モデルは、3D畳み込みニューラルネットワーク(C3D)、膨脹3D畳み込みネットワーク(Inflated 3D ConvNet)、又は時間セグメントネットワーク(Temporal Segment Networks,TSN)を含むことができ、本出願において限定されない。ビデオ理解モデルを使用して特徴ベクトルを抽出する時、ビデオ理解モデル分類層の前の層の出力ベクトルを、入力されるクリップの特徴ベクトルとすることができる。
ステップS32では、第1のクリップ特徴ベクトル及び第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第1のクリップの点数及び第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得て、シャムニューラルネットワークは、パラメータを共有する2つの多層パーセプトロンモデルを含み、採点モデルは、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである。
本出願の実施例において、採点モデルは、多層パーセプトロンモデルから得られたものであってよい。多層パーセプトロンモデルをコピーし、パラメータを共有することで、シャムニューラルネットワークが得られ、シャムニューラルネットワークをトレーニングすることで、トレーニング済みの採点モデルが得られる。第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングする時、取得された第1のクリップ特徴ベクトル及び第2のクリップ特徴ベクトルを同時に入力とすることができ、第1のクリップの点数及び第2のクリップの点数を得て、第1のクリップ及び第2のクリップの点数に基づき、損失値を計算し、バックプロパゲーションアルゴリズムによりシャムニューラルネットワークをトレーニングする。多層パーセプトロンの隠れ層の数を2~4個と設定することができる。例えば、ビデオ特徴ベクトルの次元がNである場合、当該多層パーセプトロンの最初の全接続層の入力次元はNであり、最後の全接続層の出力次元は1である。トレーニングする時、各データペアにおける第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを多層パーセプトロンモデルから構成されたシャムニューラルネットワークに順に入力し、各クリップの点数を得る。
ランキング損失関数を利用して、採点モデルから出力された点数にバックプロパゲーションを行い、シャムニューラルネットワークにおける各パラメータ及び重み割合を調整し、採点モデルの正確率を高め、トレーニング過程における採点モデルの収束スピードを加速させる。一例において、第1のクリップの特徴ベクトルをS+と記し、第2のクリップの特徴ベクトルをS-と記すことができ、その場合、ランキング損失は、L(S+,S-)=max(0,1-MLP(S+)+MLP(S-))のように記すことができ、ここで、MLP(S+)及び MLP(S-)は、それぞれにシャムニューラルネットワークが第1のクリップ及び第2のクリップに対して出力した点数値である。
上記採点モデルのトレーニング方法によれば、注釈クリップに対する注釈によって、トレーニングデータのクリーン度を高め、更にノイズデータの混入を効果的に回避し、トレーニングデータの品質を高めることができる。また、高品質のトレーニングデータに基づき、採点モデルをトレーニングする時、単純な多層パーセプトロンモデルを直接に採用してトレーニングすることができ、更にトレーニングの難易度を低減させることに寄与し、有効な採点モデルを迅速に取得しやすく、且つ、トレーニングコストを節約することに役立つ。
一実施例において、トレーニング用のデータペアのサンプル数が少ない場合、トレーニング済みのビデオ理解モデルを採用して注釈クリップの特徴ベクトルを抽出し、更に得られた注釈クリップの特徴ベクトルを多層パーセプトロンモデルに入力して、採点モデルをトレーニングすることができる。トレーニング用のデータペアのサンプル数が十分に多い場合、採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含むことができ、更にビデオ理解モデル及び多層パーセプトロンモデルを共同してトレーニングし、両者のマッチング度を高め、ビデオ理解モデル及び多層パーセプトロンモデルの正確度を高める。
1つの実施シナリオでは、採点モデルのトレーニングが完了した後、得られた採点モデルは、取得されたビデオクリップに対して直接採点することができる。ここで、採点モデルによりビデオクリップに対して採点することは、トレーニング済みのシャムニューラルネットワークの1つの分岐ネットワークにより当該クリップに対応する点数を得ることであると理解できる。同一のビデオにおける異なるクリップに対して、採点モデルから出力された点数の相対的な高さは、異なるクリップの間の相対的なハイライトさの相違として見なすことができる。即ち、同一のビデオで、クリップの点数が高いほど、そのハイライトさが高いことを示す。ビデオにおけるハイライトクリップを抽出しやすくするために、まず、取得されたビデオを複数のクリップに分割する必要があり、更にトレーニング済みのビデオ理解モデルにより各クリップの特徴ベクトルを抽出し、各クリップの特徴ベクトルをトレーニング済みの多層パーセプトロンに入力して採点し、各クリップに対応する点数を得る。各クリップに対応する点数に基づき、点数の高さに応じてクリップをランキングし、ここで、点数の最も高いものは、当該ビデオの最もハイライトであり得るクリップである。点数の最も高いクリップを抽出することができ、ユーザが短時間内でビデオにおける最もハイライトであり得る内容を迅速に取得することができ、ユーザ体験が高められる。点数の高い幾つかのクリップを、当該ビデオの幾つかのハイライトクリップとすることもでき、ユーザが短時間内で当該ビデオの主な内容を迅速に取得し、ビデオの主な内容や筋を把握し、不必要な時間の浪費を減少することに役立つ。
同様な構想に基づき、本出願の実施例は、更にビデオクリップ抽出装置を提供する。
本出願の実施例により提供されるビデオクリップ抽出装置は、上記機能を実現するために、各機能を実行するためのハードウェア構造及び/又はソフトウェアモジュールを含むことが理解できる。本出願の実施例に開示された各例のユニット及びアルゴリズムステップと組み合わせて、本出願の実施例は、ハードウェア又はハードウェアとコンピュータソフトウェアを組み合わせた形態で実現することができる。ある機能が一体ハードウェア又はコンピュータソフトウェアによりハードウェアをドライブする形態のどちらで実行されるかは、技術案の特定の応用及び設計制約条件によるものである。当業者は、各特定の応用に対して異なる方法で説明される機能を実現することができるが、このような実現は本出願の実施例の技術案の範囲を超えていると考えられるべきではない。
図11は、例示的な一実施例により示されるビデオクリップ抽出装置のブロック図である。図11を参照し、当該ビデオクリップ抽出装置100は、取得ユニット101と、評価ユニット102と、抽出ユニット103と、を含む。
取得ユニット101は、ビデオを取得し、ビデオを複数のクリップに分割するために用いられる。
評価ユニット102は、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得るために用いられ、採点モデルが、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、第1のクリップと第2のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む。
抽出ユニット103は、各クリップの点数に基づき、複数のクリップから目標クリップを抽出するために用いられる。
一実施例において、第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、1つ又は複数の注釈クリップを含むサンプルビデオを取得し、1つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る手段であって、第1のクリップが目標クリップとなる可能性が、第2のクリップが目標クリップとなる可能性よりも高い手段である。
別の実施例において、第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、1つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づいて得られる。即ち、1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、1つ又は複数の注釈クリップを第1のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段である。もしくは、1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、1つ又は複数の注釈クリップを第2のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段である。もしくは、1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段であって、前記データペアが、第1のクリップと第2のクリップとからなるデータペア、第1のクリップと第2のクリップとされる一部のクリップからなるデータペア、又は第2のクリップと第1のクリップとされる一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含む手段である。
更に別の実施例において、採点モデルは、以下の手段を採用して、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られる。即ち、ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出し、第1のクリップ特徴ベクトル及び第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第1のクリップの点数及び第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得て、シャムニューラルネットワークは、パラメータを共有する2つの多層パーセプトロンモデルを含み、採点モデルは、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである。
更に別の実施例において、評価ユニット102は、以下の手段を採用して、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得る。即ち、複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、各クリップの点数を得る。
更に別の実施例において、取得ユニット101は、以下の手段を採用して、ビデオを複数のクリップに分割する。即ち、ビデオショット境界検出法を採用して、ビデオを複数のクリップに分割し、ビデオの複数のクリップを得る。又は、スライディングウィンドウに基づき、ビデオを複数のクリップに分割し、ビデオの複数のクリップを得る。
上記実施例における装置について、各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳しく説明したため、ここで詳しく説明しない。
図12は、例示的な一実施例により示されるビデオクリップ抽出装置200のブロック図である。例えば、装置200は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコンソール、タブレット型デバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。
図12を参照し、ビデオクリップ抽出装置200は、処理コンポーネント202、メモリ204、電力コンポーネント206、マルチメディアコンポーネント208、オーディオコンポーネント210、入力/出力(I/O)インタフェース212、センサコンポーネント214、及び通信コンポーネント216の1つ又は複数のコンポーネントを含むことができる。
処理コンポーネント202は、通常、ビデオクリップ抽出装置200の全体的な操作を制御し、例えば、表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理コンポーネント202は、上記した方法の全部又は一部のステップを完成するように、命令を実行する1つ又は複数のプロセッサ220を含むことができる。また、処理コンポーネント202は、処理コンポーネント202と他のコンポーネントの間のインタラクションのために、1つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント202は、マルチメディアコンポーネント208と処理コンポーネント202の間のインタラクションのために、マルチメディアモジュールを含むことができる。
メモリ204は、ビデオクリップ抽出装置200の操作をサポートするために様々なタイプのデータを記憶するように配置されている。これらのデータの例は、ビデオクリップ抽出装置200で操作するための任意のアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ204は、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)、プログラマブルリードオンリーメモリ(PROM)、リードオンリーメモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのような任意のタイプの揮発性又は非揮発性メモリ装置又はそれらの組み合わせにより実現することができる。
電力コンポーネント206は、ビデオクリップ抽出装置200の各種のコンポーネントに電力を提供する。電力コンポーネント206は、電源管理システム、1つ又は複数の電源、及びビデオクリップ抽出装置200のための電力の生成、管理及び分配に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント208は、前記ビデオクリップ抽出装置200とユーザとの間にあるとともに出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザから入力された信号を受信するように、タッチスクリーンとして実現することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、1つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント208は、1つのフロントカメラ及び/又はリアカメラを含む。ビデオクリップ抽出装置200が撮像モード又はビデオモードなどの操作モードにある場合、フロントカメラ及び/又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、特定の光学レンズシステムであってもよく、又は焦点距離及び光学ズーミング能力を有する。
オーディオコンポーネント210は、オーディオ信号を出力及び/又は入力するように配置されている。例えば、オーディオコンポーネント210は、マイクロホン(MIC)を含み、ビデオクリップ抽出装置200が呼び出しモード、記録モード及び音声識別モードなどの操作モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように配置されている。受信したオーディオ信号は、更にメモリ204に記憶されるか、又は通信コンポーネント216を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント210は、オーディオ信号を出力するためのスピーカを更に含む。
I/Oインタフェース212は、処理コンポーネント202とペリフェラルインタフェースモジュールとの間にインタフェースを提供し、上記ペリフェラルインタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント214は、ビデオクリップ抽出装置200に各方面の状態の評価を提供するための1つ又は複数のセンサを含む。例えば、センサコンポーネント214は、ビデオクリップ抽出装置200のオン/オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば前記コンポーネントはビデオクリップ抽出装置200のディスプレイ及びキーパッドであり、センサコンポーネント214は、ビデオクリップ抽出装置200又はビデオクリップ抽出装置200のあるコンポーネントの位置変更、ユーザがビデオクリップ抽出装置200に接触しているか否か、ビデオクリップ抽出装置200の方位又は加速/減速、及びビデオクリップ抽出装置200の温度変化を検出することもできる。センサコンポーネント214は、何の物理的接触もない場合に近くに物体が存在するか否かを検出するために配置されている近接センサを含むことができる。センサコンポーネント214は、CMOS又はCCD画像センサなどの光センサを更に含んでもよく、結像応用において使用される。いくつかの実施例において、当該センサコンポーネント214は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含んでもよい。
通信コンポーネント216は、ビデオクリップ抽出装置200及び他の機器の間で有線又は無線方式の通信を行うように配置されている。ビデオクリップ抽出装置200は、WiFi、2G又は3G、又はそれらの組み合わせのような通信標準に基づく無線ネットワークにアクセスすることができる。1つの例示的な一実施例において、通信コンポーネント216は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。1つの例示的な一実施例において、前記通信コンポーネント216は、近距離通信を促進するように、近距離無線通信(NFC)モジュールを更に含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
例示的な一実施例において、ビデオクリップ抽出装置200は、上記方法を実行するために、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現することができる。
例示的な一実施例において、更に命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ204であり、上記方法を完成するように、上記命令がビデオクリップ抽出装置200のプロセッサ220により実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
なお、本出願における「複数」は、2つ又は2つ以上を指し、他の数量詞はそれと類似する。「及び/又は」は、関連対象の関連関係を説明するものであり、3種類の関係が存在可能であることを表し、例えば、A及び/又はBは、Aのみが存在するか、A及びBが同時に存在するか、Bのみが存在するという3つの場合を表すことができる。符号「/」は、一般的に前後の関連対象が「又は」の関係であることを表す。単数の形の「1種」、「前記」及び「当該」は、文脈において他の意味を明らかに表記していない限り、複数の形を含むことも意図している。
なお、「第1」、「第2」などの用語は、各種の情報を説明するためのものであるが、これらの情報は、これらの用語に限定されるべきではない。これらの用語は、同じタイプの情報を互いに区別するためのものに過ぎず、特定の順番又は重要程度を表すわけではない。実際には、「第1」、「第2」などの表現は、全く交換可能に使用することができる。例えば、本出願の範囲を逸脱しない限り、第1の情報は第2の情報と称されてもよく、同じく、第2の情報も第1の情報と称されてもよい。
なお、特に説明されていない限り、「接続」は、両者の間に他の構成要素が介在しない直接接続を含むし、両者の間に他の元件が介在する間接接続をも含む。
なお、本出願の実施例では、図面において特定の順番で操作を説明したが、示されている特定の順番又はシリアル順番でそれらの操作を実行するように要求しているか、又は希望の結果を得るように示されている全ての操作を実行するように要求していると理解してはいけない。特定の環境では、マルチタスク及びパラレル処理が有利になる場合がある。
当業者は、明細書を考慮して、ここで開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の全ての変形、用途、又は適応のための変化を含むことを意図しており、これらの変形、用途、又は適応のための変化は、本出願の一般的原理に準じるものであり、本出願に開示されていない本技術分野における公知の知識又は慣用の技術手段を含む。明細書及び実施例は、例示的なもののみとして見なされ、本出願の実際の範囲及び精神は、下記の特許請求の範囲により指摘される。
なお、本出願は、以上に説明されて図面に示されている正確な構造に制限されず、その範囲を逸脱することなく様々な修正及び変更を行うことができる。本出願の範囲は、添付される特許請求の範囲のみにより制限される。

Claims (12)

  1. ビデオクリップ抽出方法であって、
    ビデオを取得し、前記ビデオを複数のクリップに分割するステップと、
    前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップであって、前記採点モデルが、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第1のクリップと第2のクリップからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含むステップと、
    前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するステップと、
    を含み、
    前記採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含み、前記ビデオ理解モデル及び前記多層パーセプトロンモデルが共同でトレーニングされ、前記ビデオ理解モデルの入力はクリップであり、前記ビデオ理解モデルの出力はクリップのN次元の特徴ベクトルであり、前記多層パーセプトロンモデルの最初の全接続層の入力次元はNであり、最後の全接続層の出力次元は1であり、
    前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップは、
    前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得るステップ、を含む、
    ことを特徴とするビデオクリップ抽出方法。
  2. 前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、
    1つ又は複数の注釈クリップを含むサンプルビデオを取得し、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る手段であって、第1のクリップが目標クリップとなる可能性が、第2のクリップが目標クリップとなる可能性よりも高い手段である、
    ことを特徴とする請求項1に記載のビデオクリップ抽出方法。
  3. 前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得るステップは、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップ、もしくは、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップ、もしくは、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得るステップであって、前記データペアが、前記第1のクリップと前記第2のクリップとからなるデータペア、前記第1のクリップと第2のクリップとされる前記一部のクリップからなるデータペア、又は前記第2のクリップと第1のクリップとされる前記一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含む手段、を含む、
    ことを特徴とする請求項2に記載のビデオクリップ抽出方法。
  4. 前記採点モデルは、以下の手段を採用して、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、
    ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出し、
    前記第1のクリップの特徴ベクトル及び前記第2のクリップの特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である、
    ことを特徴とする請求項2又は3に記載のビデオクリップ抽出方法。
  5. 前記ビデオを複数のクリップに分割するステップは、
    ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得るステップ、又は、
    スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得るステップ、を含む、
    ことを特徴とする請求項1に記載のビデオクリップ抽出方法。
  6. ビデオクリップ抽出装置であって、
    ビデオを取得し、前記ビデオを複数のクリップに分割するための取得ユニットと、
    前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るための評価ユニットであって、前記採点モデルが、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第1のクリップと第2のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む評価ユニットと、
    前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するための抽出ユニットと、
    を含み、
    前記採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含み、前記ビデオ理解モデル及び前記多層パーセプトロンモデルが共同でトレーニングされ、前記ビデオ理解モデルの入力はクリップであり、前記ビデオ理解モデルの出力はクリップのN次元の特徴ベクトルであり、前記多層パーセプトロンモデルの最初の全接続層の入力次元はNであり、最後の全接続層の出力次元は1であり、
    前記評価ユニットは、以下の手段を採用して、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得て、即ち、
    前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得る手段である、
    ことを特徴とするビデオクリップ抽出装置。
  7. 前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、
    1つ又は複数の注釈クリップを含むサンプルビデオを取得し、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第1のクリップと第2のクリップとからなるデータペアを得る手段であって、第1のクリップが目標クリップとなる可能性が、第2のクリップが目標クリップとなる可能性よりも高い手段である、
    ことを特徴とする請求項に記載のビデオクリップ抽出装置。
  8. 前記第1のクリップと第2のクリップとからなるデータペアは、以下の手段を採用して、前記1つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づいて得られ、即ち、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段、もしくは、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数の注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段、もしくは、
    前記1つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第1のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第1のクリップと第2のクリップとからなる1つ又は複数のデータペアを得る手段であって、前記データペアが、前記第1のクリップと前記第2のクリップとからなるデータペア、前記第1のクリップと第2のクリップとされる前記一部のクリップからなるデータペア、又は前記第2のクリップと第1のクリップとされる前記一部のクリップからなるデータペアの1つ又は組み合わせを少なくとも含む手段である、
    ことを特徴とする請求項に記載のビデオクリップ抽出装置。
  9. 前記採点モデルは、以下の手段を採用して、第1のクリップと第2のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、
    ビデオ理解モデルに基づき、第1のクリップと第2のクリップとからなるデータペアのうちの第1のクリップの特徴ベクトル及び第2のクリップの特徴ベクトルを抽出し、
    前記第1のクリップの特徴ベクトル及び前記第2のクリップの特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である、
    ことを特徴とする請求項又はに記載のビデオクリップ抽出装置。
  10. 前記取得ユニットは、以下の手段を採用して、前記ビデオを複数のクリップに分割し、即ち、
    ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得る手段、又は、
    スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得る手段である、
    ことを特徴とする請求項に記載のビデオクリップ抽出装置。
  11. ビデオクリップ抽出装置であって、
    命令を記憶するためのメモリと、
    前記メモリに記憶されている命令を呼び出し、請求項1~のいずれか一項に記載のビデオクリップ抽出方法を実行するためのプロセッサと、
    を含むビデオクリップ抽出装置。
  12. 命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行されるとき、請求項1~のいずれか一項に記載のビデオクリップ抽出方法が実行される、コンピュータ読み取り可能な記憶媒体。
JP2021078002A 2020-08-25 2021-04-30 ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 Active JP7491867B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010866461.2 2020-08-25
CN202010866461.2A CN112069951A (zh) 2020-08-25 2020-08-25 视频片段提取方法、视频片段提取装置及存储介质

Publications (2)

Publication Number Publication Date
JP2022037878A JP2022037878A (ja) 2022-03-09
JP7491867B2 true JP7491867B2 (ja) 2024-05-28

Family

ID=73659354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021078002A Active JP7491867B2 (ja) 2020-08-25 2021-04-30 ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体

Country Status (5)

Country Link
US (1) US11847818B2 (ja)
EP (1) EP3961491A1 (ja)
JP (1) JP7491867B2 (ja)
KR (1) KR102456264B1 (ja)
CN (1) CN112069951A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112738557A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN115708359A (zh) * 2021-08-20 2023-02-21 小米科技(武汉)有限公司 视频片段的截取方法、装置及存储介质
CN116777914B (zh) * 2023-08-22 2023-11-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109584A1 (en) 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111480166B (zh) 2018-12-05 2023-05-05 北京百度网讯科技有限公司 从视频中定位目标视频片段的方法和装置
KR101993001B1 (ko) * 2019-01-16 2019-06-25 영남대학교 산학협력단 영상 하이라이트 제작 장치 및 방법
CN110516749A (zh) 2019-08-29 2019-11-29 网易传媒科技(北京)有限公司 模型训练方法、视频处理方法、装置、介质和计算设备
CN112069952A (zh) * 2020-08-25 2020-12-11 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109584A1 (en) 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking

Also Published As

Publication number Publication date
KR102456264B1 (ko) 2022-10-19
CN112069951A (zh) 2020-12-11
US11847818B2 (en) 2023-12-19
EP3961491A1 (en) 2022-03-02
US20220067387A1 (en) 2022-03-03
KR20220026470A (ko) 2022-03-04
JP2022037878A (ja) 2022-03-09

Similar Documents

Publication Publication Date Title
JP7292325B2 (ja) ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体
JP7491867B2 (ja) ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体
US20210133459A1 (en) Video recording method and apparatus, device, and readable storage medium
US10684754B2 (en) Method of providing visual sound image and electronic device implementing the same
RU2664003C2 (ru) Способ и устройство для определения ассоциированного пользователя
EP2998960B1 (en) Method and device for video browsing
JP6474393B2 (ja) 顔アルバムに基づく音楽再生方法、装置および端末デバイス
WO2022198934A1 (zh) 卡点视频的生成方法及装置
CN112672208B (zh) 视频播放方法、装置、电子设备、服务器及系统
US20210029304A1 (en) Methods for generating video, electronic device and storage medium
WO2020119254A1 (zh) 滤镜推荐方法、装置、电子设备及存储介质
CN111553372A (zh) 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN112115894A (zh) 手部关键点检测模型的训练方法、装置及电子设备
CN113312967B (zh) 一种检测方法、装置和用于检测的装置
CN112115341A (zh) 内容展示方法、装置、终端、服务器、系统及存储介质
US11715234B2 (en) Image acquisition method, image acquisition device, and storage medium
CN109086764A (zh) 台标检测方法、装置及存储介质
CN114299427A (zh) 目标对象关键点的检测方法、装置、电子设备及存储介质
CN115713641A (zh) 视频获取方法、装置及存储介质
CN113965792A (zh) 视频展示方法、装置、电子设备及可读存储介质
CN113709571A (zh) 视频展示方法、装置、电子设备及可读存储介质
CN112784858A (zh) 一种图像数据的处理方法、装置及电子设备
CN112825544A (zh) 图片处理方法、装置及存储介质
WO2023077755A1 (zh) 行人信息确定方法、装置、车辆、电子设备及存储介质
CN114598923A (zh) 视频文字清除方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230330

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230418

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230425

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240516

R150 Certificate of patent or registration of utility model

Ref document number: 7491867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150