JP7491867B2

JP7491867B2 - ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体

Info

Publication number: JP7491867B2
Application number: JP2021078002A
Authority: JP
Inventors: ホゥ，ジアガオ; ワン，フェイ; ユィ，ポンフェイ; ジョウ，ダイグオ
Original assignee: ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド
Priority date: 2020-08-25
Filing date: 2021-04-30
Publication date: 2024-05-28
Anticipated expiration: 2041-04-30
Also published as: KR102456264B1; CN112069951A; US11847818B2; EP3961491A1; US20220067387A1; KR20220026470A; JP2022037878A

Description

本出願は、ビデオ処理の技術分野に関し、特に、ビデオクリップ抽出方法、ビデオクリップ抽出装置及びコンピュータ読み取り可能な記憶媒体に関する。

ネットワーク技術の迅速な発展につれて、大量のビデオが生じ、人々の日常生活を非常に豊かにしている。しかしながら、時間などの原因で、ユーザがビデオを見終わることができない場合、人々は、短時間内でビデオの一部のクリップ（例えばハイライトクリップ）を見ることで当該ビデオの主な内容を迅速に把握することを希望している。

関連技術において、ビデオクリップ抽出用のモデルをトレーニングし、モデルを利用してビデオにおける目標クリップを抽出し、例えばビデオのハイライトクリップを抽出する。しかしながら、現在のビデオクリップ抽出用のモデルをトレーニングするためのデータには、大量のノイズデータが含まれており、クリップ選択の正確性を高めるために複雑なネットワーク構造が必要とされる。ユーザが当該トレーニング済みのモデルを使用してビデオクリップを抽出する時、所望のクリップを迅速且つ正確に取得することができず、ユーザの使用体験に影響を及ぼす。また、ノイズデータが多過ぎるため、トレーニングの難易度が高く、トレーニングコストが高く、短時間内で有効なビデオクリップ抽出モデルを迅速に取得することができない。

関連技術における問題を克服するために、本出願は、ビデオクリップ抽出方法、ビデオクリップ抽出装置及びコンピュータ読み取り可能な記憶媒体を提供する。

本出願の実施例の第１の態様によれば、ビデオを取得し、前記ビデオを複数のクリップに分割するステップと、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップであって、前記採点モデルが、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第１のクリップと第２のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含むステップと、前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するステップと、を含むビデオクリップ抽出方法を提供する。

一実施例において、前記第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、１つ又は複数の注釈クリップを含むサンプルビデオを取得し、前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得る手段であって、第１のクリップが目標クリップとなる可能性が、第２のクリップが目標クリップとなる可能性よりも高い手段である。

別の実施例において、前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得るステップは、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップ、もしくは、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップ、もしくは、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップであって、前記データペアが、前記第１のクリップと前記第２のクリップとからなるデータペア、前記第１のクリップと第２のクリップとされる前記一部のクリップからなるデータペア、又は前記第２のクリップと第１のクリップとされる前記一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含むステップ、を含む。

更に別の実施例において、前記採点モデルは、以下の手段を採用して、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、ビデオ理解モデルに基づき、第１のクリップと第２のクリップとからなるデータペアのうちの第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを抽出し、前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である。

更に別の実施例において、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップは、前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得るステップ、を含む。

更に別の実施例において、前記ビデオを複数のクリップに分割するステップは、ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得るステップ、又は、スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得るステップ、を含む。

本出願の実施例の第２の態様によれば、ビデオクリップ抽出装置を提供し、ビデオを取得し、前記ビデオを複数のクリップに分割するための取得ユニットと、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るための評価ユニットであって、前記採点モデルが、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第１のクリップと第２のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む評価ユニットと、前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するための抽出ユニットと、を含む。

別の実施例において、前記第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づいて得られ、即ち、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段、もしくは、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段、もしくは、前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段であって、前記データペアが、前記第１のクリップと前記第２のクリップとからなるデータペア、前記第１のクリップと第２のクリップとされる前記一部のクリップからなるデータペア、又は前記第２のクリップと第１のクリップとされる前記一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含む手段である。

更に別の実施例において、前記評価ユニットは、以下の手段を採用して、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得て、即ち、前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得る手段である。

更に別の実施例において、前記取得ユニットは、以下の手段を採用して、前記ビデオを複数のクリップに分割し、即ち、ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得る手段、又は、スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得る手段である。

本出願の実施例の第３の態様によれば、ビデオクリップ抽出装置を提供し、命令を記憶するためのメモリと、前記メモリに記憶されている命令を呼び出し、上記したいずれか一項に記載のビデオクリップ抽出方法を実行するためのプロセッサと、を含む。

本出願の実施例の第４の態様によれば、命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供し、前記命令がプロセッサに実行されるとき、上記したいずれか一項に記載のビデオクリップ抽出方法が実行される。

本出願の実施例により提供される技術案は、以下の有益な効果をもたらすことができる。本出願では、採点モデルは、明確な目標プロパティを有する注釈クリップに基づいてトレーニングされて得られる。トレーニングの過程で、ノイズデータが少なく、正確度が高く、更に、採点モデルのネットワーク構造がシンプルであり、より速く収束することができ、トレーニングプロセスを加速させ、トレーニングコストを削減することに役立つ。また、採点モデルのネットワーク構造がシンプルであるため、当該採点モデルを使用して取得されたビデオの各クリップに対して採点する時、計算時間を短縮することができ、ユーザが見たがる目標クリップを迅速に抽出し、ユーザ体験を高めることに役立つ。

以上の一般的な説明及び後述する詳細な説明は、単なる例示的及び解釈的なものであり、本出願を制限するものではないことを理解されたい。

ここの図面は、明細書に組み込まれて、本明細書の一部を構成し、本出願に基づく実施例を示し、明細書と共に本出願の原理を解釈するために用いられる。
例示的な一実施例により示されるビデオクリップ抽出方法のフローチャート例示的な一実施例により示されるクリップ分割の模式図例示的な一実施例により示される別のクリップ分割の模式図例示的な一実施例により示されるクリップ表示の模式例示的な一実施例により示される別のクリップ表示の模式図例示的な一実施例により示されるデータペア取得方法のフローチャート例示的な一実施例により示されるサンプルビデオの注釈模式図例示的な一実施例により示される別のサンプルビデオの注釈模式図例示的な一実施例により示される更に別のサンプルビデオの注釈模式図例示的な一実施例により示される採点モデルのトレーニング方法のフローチャート例示的な一実施例により示されるビデオクリップ抽出装置のブロック図例示的な一実施例により示される別のビデオクリップ抽出装置のブロック図

ここで、例示的な一実施例を詳しく説明し、その例を図面に示す。以下の説明において、図面に及ぶ場合、別途示していない限り、異なる図面における同一の数字は、同一の又は類似する要素を表す。以下の例示的な一実施例で説明される実施形態は、本出願に基づく全ての実施形態を表すわけではない。むしろ、それらは、添付される特許請求の範囲において詳しく説明される、本出願の一部の態様に基づく装置及び方法の例に過ぎない。

本出願の実施例により提供されるビデオクリップ抽出方法は、ハイライトクリップを抽出するシナリオのような、目標クリップを抽出するシナリオに適用される。例えば、携帯電話のフォトアルバムでユーザのためにビデオのハイライトクリップを生成し、プレビューとしてユーザに表示するシナリオでもよいし、ショートビデオアプリケーションにおいて、ショートビデオのハイライトクリップを取得してｇｉｆ画像を生成し、ビデオポスターとしてユーザに表示するシナリオでもよい。

ここで、目標クリップの抽出は、通常、モデルによる抽出手段を採用するため、ビデオクリップ抽出用のモデルをトレーニングする必要がある。

関連技術において、ビデオクリップ抽出モデルをトレーニングする方法は、主にマッチング法に基づくもの、分類法に基づくもの及びランキング法に基づくものの３種類を含む。以下、本出願の実施例において、ビデオにおけるハイライトクリップを抽出するようにトレーニングすることを例として、上述した技術に関連するモデルトレーニング方法について説明する。

マッチング法に基づくものでは、複数の所定のハイライトタイプを予め定義し、複数の所定のハイライトタイプをそれぞれに取得されたビデオ内容とマッチングし、ビデオ内容と各所定のハイライトタイプとの間のマッチング度を決定し、更に当該ビデオにおける各クリップのハイライトさを計算し、ハイライトさが最も高いクリップを当該ビデオのハイライトクリップとする。しかしながら、ハイライトタイプを予め定義する必要があり、且つ、各クリップのうち予め定義されたハイライトタイプに関連するクリップのみを計算することができるため、抽出可能なハイライトクリップのビデオタイプが限られている。

分類法に基づくものでは、大量のハイライトクリップ及び非ハイライトクリップを予め収集してトレーニングセットとし、更にクリップがハイライトであるかハイライトでないかを区別可能な二項分類モデルをトレーニングする。よって、使用時に、ビデオにおけるどのクリップがハイライトクリップに属するか、どのクリップが非ハイライトクリップに属するかを決定することができる。しかしながら、この方法によれば、各種類のクリップの間のハイライトさの相違を明確にして、ハイライトであるクリップのうちのどのクリップが最もハイライトであり得るかを区別することができない。

上述技術に関連するビデオクリップ抽出モデルのトレーニング方法では、トレーニングデータが注釈し難く、且つ、取得されたデータが十分に正確でない。また、トレーニングデータの品質が悪く、複雑なモデルが必要とされ、トレーニングがより困難である。

これを鑑み、本出願の実施例は、ビデオクリップ抽出方法を提供し、このビデオクリップ抽出方法で使用されるビデオクリップ抽出モデルは、トレーニング時に簡単に注釈し、高品質のトレーニングデータを取得することができ、また、単純な多層パーセプトロンモデルを利用すればよく、モデルトレーニングの難易度も高くない。

本出願で提供されるビデオクリップ抽出方法は、ビデオクリップを採点モデルに入力し、各クリップの点数を得て、各クリップの点数に基づき、目標クリップの抽出を行うことを採用する。ここで、採用された採点モデルは、目標プロパティが予め注釈された第１のクリップと第２のクリップとのデータペアに基づいてトレーニングされて得られたものである。注釈されたクリップに基づけば、トレーニングの過程で、ノイズデータによる干渉を減少させ、トレーニングデータの正確度を高めることに役立ち、トレーニングデータの正確度を高めるように他のネットワーク構造を採用する必要がなく、更に採点モデルのネットワーク構造がシンプルであり、トレーニングの難易度が低く、迅速に収束することができ、トレーニングプロセスを加速させ、トレーニングコストを削減することに役立つ。また、採点モデルのネットワーク構造がシンプルであるため、当該採点モデルを使用して取得されたビデオの各クリップに対して採点する時、各クリップの点数を計算する時間を短縮することができ、ユーザが見たがる目標クリップを迅速に抽出し、ユーザ体験を高めることに役立つ。

図１は、例示的な一実施例により示されるビデオクリップ抽出方法のフローチャートであり、図１に示すように、ビデオクリップ抽出方法は、以下のステップＳ１１～ステップＳ１３を含む。

ステップＳ１１では、ビデオを取得し、ビデオを複数のクリップに分割する。

本出願の実施例において、１つのビデオに、抽出対象である目標クリップを有するし、非目標クリップをも有する。目標クリップは、目標クリッププロパティを有し、非目標クリップは、同じく非目標クリッププロパティを有する。例えば、目標クリップがハイライトクリップである場合、ビデオに、相対的に最もハイライトであり得るクリップを有すると同時に、相対的に最もハイライトであり得ないクリップをも有する。ユーザのニーズが異なるため、所望の目標クリップが異なる。取得されたビデオに基づいてユーザの所望の目標クリップを迅速に抽出するように、当該ビデオを複数のクリップに分割し、更に、採点モデルにより各クリップの点数を得ることができ、迅速な抽出に役立つ。

通常、目標クリップは、ビデオにおける１つ又は複数のクリップとすることができ、且つ、目標クリッププロパティを有する。例えば、ハイライトクリップは、ビデオにおける１つ又は複数の相対的に短いクリップであり、内容が他のクリップの内容に比べてよりハイライトであり得て、より人の目を引く。例えば、バスケットボール試合のビデオを例とし、当該ビデオにおけるダンクショット、スマッシュなどのクリップは、当該バスケットボール試合のビデオにおけるハイライトクリップであり、普通のドリブルなどのクリップは、非ハイライトクリップであり、ショットを切り替える時の黒幕、動画などは、最もハイライトであり得ないクリップである。

本出願の実施例において、ビデオにおけるクリップの分割を行う際に、様々な手段を採用することができる。

一実施例において、ビデオショット境界検出方法を採用し、ビデオのショット境界を検出し、更にショット境界を分割点として、ビデオを複数のクリップに分割することができる。よって、各クリップ内容の連続性及び完全性を保護することに役立つ。例えば、図２に示すように、ショット境界検出方法により現在のビデオが３つのショット境界を有すると検出した場合、当該ビデオを、検出された３つのショット境界に基づいてａ、ｂ、ｃ、ｄの４つのクリップに分割する。本出願では、ビデオショット境界検出方法は、フレーム間差分絶対値法、色ヒストグラム法又は知覚的ハッシュアルゴリズムを含むことができる。フレーム間差分絶対値法によって、隣接する画像フレームの画素の合計輝度の差を比較することができ、隣接する画像フレームの画素の合計輝度の差が所定の閾値よりも大きい場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。色ヒストグラム法によって、画像の色ヒストグラムに基づいて画像特徴とし、ヒストグラムを利用して隣接する画像の間の類似度を評価する。類似度が所定の閾値よりも低い場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。知覚的ハッシュアルゴリズムによって、両フレームの画像の間の類似度を決定することができ、画像の類似度が所定の閾値よりも低い場合、ショット画面が急変したと考えられ、現在の位置がショット境界に属すると決定する。

別の実施例において、特定の時間のスライディングウィンドウがタイミングに沿って所定のステップ長さでビデオにスライドし、スライディングウィンドウが毎回スライドする時に網羅した範囲は、１つのクリップである。図３に示すように、スライディングウィンドウが毎回スライドし、スライディングウィンドウの末尾位置からスライディングウィンドウの開始位置までスライドした場合、１つのビデオクリップが生成される。一例において、ビデオを分割して最後に残った時間がスライディングウィンドウの時間よりも短い場合、当該クリップを保留する。スライディングウィンドウによりクリップを分割することで、ユーザがクリップの分割時間を定義することができ、得られた目標クリップがユーザの所望の時間さを満たし、ユーザの使用体験を高めることに役立つ。

ステップＳ１２では、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得る。

本出願の実施例において、トレーニング済みの採点モデルにより、分割された各クリップに対して採点し、各クリップの点数を得る。採点モデルは、各クリップ内容のハイライトさに基づいて採点することができる。同一のビデオの異なるクリップに対して、採点モデルにより出力された点数が高いほど、その内容のハイライトさが高い。各点数の間の相対的な高さは、各クリップの内容の間の相対的なハイライトさの相違として特徴付けることができる。得られた各クリップの点数を介して、各クリップの内容の間の相対的なハイライトさを直感的に区別することができ、更にユーザの所望の目標クリップを迅速に抽出することに役立つ。

本出願では、採点モデルは、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られる。データペアを得る過程で、得られた注釈クリップに対して、クリップ内容に基づいて注釈し、更に注釈クリップが第１のクリップに属するか第２のクリップに属するかを決定する。目標プロパティは、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む。一例において、目標クリップは、ビデオのうち最もハイライトであり得るクリップとし、非目標クリップは、ビデオのうち最もハイライトであり得ないクリップとすることができる。よって、得られたデータペアに基づき、第１のクリップと第２のクリップとの間の相違を明確に区別することができ、採点モデルをトレーニングする際に、採点モデルは、異なるプロパティの間のクリップ特徴を迅速に学習することができる。更に、注釈クリップに対するプロパティ注釈に基づき、トレーニングデータの正確度を高め、ノイズデータのモデルトレーニングに対する干渉を減少することができ、更にトレーニングデータのクリーン度を高めることに役立ち、トレーニングモデルの構造をより簡単にし、別のネットワークモデルを採用して注釈クリップの信頼性を計算する必要がない。よって、採点モデルのトレーニング過程が加速して収束することができ、コストを節約することに役立つ。

ステップＳ１３では、各クリップの点数に基づき、複数のクリップから目標クリップを抽出する。

本出願の実施例において、ユーザのニーズに応じて、得られた各クリップの点数に基づき、ユーザの所望の目標クリップを抽出する。

本出願の実施例において、目標クリップがハイライトクリップであることを例として説明する。ビデオにおける複数のクリップに対して、点数に基づいてハイライトクリップ抽出を行い、ユーザが抽出された当該目標クリップに基づいて当該ビデオのハイライトの内容を迅速に把握することに役立つ。例えば、ユーザが当該ビデオのうち最もハイライトであり得るクリップを所望する場合、各クリップの点数に基づき、点数の最も高いクリップを目標クリップとすることができる。一例において、ユーザが複数のハイライトクリップを所望する場合、各クリップを対応する点数に基づいてランキングし、点数の相対的に高い複数のクリップを目標クリップとすることができる。

例えば、分割されたクリップは６つであり、それぞれがクリップ１、クリップ２、クリップ３、クリップ４、クリップ５、クリップ６である。各クリップを、各クリップのそれぞれに対応する点数に基づいてランキングし、クリップ４の点数が最も高く、その次はクリップ３、クリップ２、クリップ６、クリップ５、クリップ１である。ユーザのニーズに応じて、３つの精選クリップを取得する必要がある場合、点数の最も高いクリップ４及び相対的に高いクリップ３とクリップ２を抽出し、ユーザのニーズを満たす。

本出願の実施例において、実際の応用に応じて、目標クリップを抽出した後、当該抽出された目標クリップをユーザに表示することができる。ここで、表示手段は、抽出された当該クリップを当該ビデオのハイライトとして、単独に別途記憶するステップ、又は抽出された当該クリップをｇｉｆ画像として別途記憶するステップ、又は当該ビデオ表示の代わりに初期ポスターを用いることを含むことができる。本出願の実施例において、コレクションの形で複数のクリップを統一して記憶してもよい。

１つの実施シナリオでは、目標クリップがハイライトクリップであることを例として説明する。図４に示すように、携帯電話で取得したビデオに基づき、採点モデルにより当該ビデオのうち点数の最も高いクリップを抽出し、更に携帯電話のフォトアルバムで当該ビデオのハイライトクリップを生成し、当該ビデオのプレビューとしてユーザに表示する。当該クリップは、別途記憶されたショートビデオであってもよいし、生成されたｇｉｆ画像であってもよい。当該ビデオのプレビューとして表示する時に、ショートビデオ、ｇｉｆ画像又はショートビデオとｇｉｆ画像の同時表示を含むことができる。ユーザが携帯電話のフォトアルバムで上スライド操作を行う時、当該ビデオのハイライトなどの情報が現れる。ここで、ハイライトは、当該ビデオのうち点数の最も高いクリップである。更に、ユーザが当該ビデオのハイライトの内容を迅速に把握することに役立つ。ハイライトであり得るクリップが多過ぎる場合、抽出された複数のクリップを当該ビデオのハイライトコレクションに記憶することができ、ユーザが一括して閲覧しやすくなる。

別の実施シナリオでは、依然として目標クリップがハイライトクリップであることを例として説明する。端末で取得したビデオが時間の短いビデオに属する場合、当該ビデオのハイライトクリップをｇｉｆ画像に生成し、ビデオポスターとしてユーザに表示することができ、ユーザが当該ビデオをクリックして見るように引くことに役立つ。図５に示すように、端末のアプリケーションソフトウェアのページに４つのビデオポスターが表示されている。いずれのビデオポスターについても、採点モデルによりビデオにおける点数の最も高いクリップを抽出し、最もハイライトであり得るクリップをｇｉｆ画像に生成し、元々のビデオポスターを置き換えることができ、ユーザがポスターを介するだけで当該ビデオのハイライトの内容を迅速に把握することができ、当該ビデオをクリックして見るようにユーザを引く。

上記ビデオクリップ抽出方法によれば、構造がシンプルなトレーニング済みの採点モデルにより、ビデオにおける各クリップの点数を迅速に取得し、更に点数に基づいてユーザの所望の目標クリップを抽出することができ、ユーザ体験が向上する。また、採点モデルは、トレーニングの過程で、予め目標プロパティが注釈された第１のクリップと第２のクリップのデータに基づいてトレーニングされたため、トレーニングデータにおけるノイズデータが少なく、トレーニングされた後に得られた採点モデルの採点正確度がより高くなり、各クリップの内容の間のハイライトさを区別することにより役立ち、更に高精度の抽出に役立つ。

以下、本出願の実施例において、採点モデルのトレーニング過程について説明する。

採点モデルをトレーニングする前、採点モデルのトレーニングに適合するデータペアを予め得ることによって、採点モデルをトレーニングする際に、採点モデルは異なるビデオ内容の間のハイライトさの相違を区別することができ、採点の正確度を高めやすい。且つ、トレーニングに用いられるデータペアは、サンプルビデオにおける目標プロパティが注釈された注釈クリップに基づいて得られたので、ノイズデータの混入を回避し、トレーニングデータの品質を高めることに役立ち、トレーニングの難易度を低下させ、トレーニングプロセスを加速させることに寄与する。

図６は、例示的な一実施例により示されるデータペア取得方法のフローチャートであり、図６に示すように、データペア取得方法は、以下のステップＳ２１～ステップＳ２２を含む。

ステップＳ２１では、１つ又は複数の注釈クリップを含むサンプルビデオを取得する。

一実施例において、採点モデルをトレーニングする前に、一定の量のサンプルビデオを予め取得し、サンプルビデオセットを得て、十分なトレーニングデータで採点モデルをトレーニングすることができる。

ステップＳ２２では、１つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得る。

当該サンプルビデオセットでは、各サンプルビデオはいずれも１つ又は複数の注釈クリップ及び非注釈クリップを有する。各サンプルビデオにおける注釈クリップを内容に基づいて注釈し、各注釈クリップの目標プロパティを明確にする。注釈された目標プロパティに基づき、各注釈クリップ及び各非注釈クリップから第１のクリップと第２のクリップとからなるデータペアを得る。ここで、第１のクリップが目標クリップとなる可能性は、第２のクリップが目標クリップとなる可能性よりも高い。第１のクリップと第２のクリップの間の相違に基づき、採点モデルが目標クリップと非目標クリップと非注釈クリップの間の特徴の相違を正確に区別することができ、更に採点モデルの正確度を高めることに役立つ。

一例において、採点モデルが同一のビデオにおける異なるクリップの間のハイライトさの相違よりよく区別できるように、データペアを得る時、第１のクリップと第２のクリップは、同一のサンプルビデオに由来することができ、更に各クリップの間の相対的な点数の相違を得ることができ、同一のビデオにおける各クリップの間のハイライトさを区別することに役立ち、サンプルビデオを十分に利用することに役立つ。例えば、ダンクショットハイライトビデオについて、全てのダンクショットクリップもハイライトクリップに属する。同一のサンプルビデオに由来する第１のクリップと第２のクリップとから得られたデータペアを利用してトレーニングして得られた採点モデルによって、各ダンクショットクリップの点数の間の相対的な大きさを得ることができ、相対的によりハイライトであり得るダンクショットクリップを区別することに役立ち、目標ビデオを抽出しやすくなる。

以下、本出願の実施例において、目標クリップがハイライトビデオクリップであることを例として説明する。

ここで、サンプルビデオにおける目標プロパティが目標クリッププロパティの注釈クリップであるように注釈する場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最もハイライトであり得るクリップを、目標クリッププロパティを有するクリップとし、即ち、当該クリップは、同一のサンプルビデオにおける他の時点の内容に比べて、よりハイライトであり得て、より人の目を引く。更に、当該クリップの開始・終了時点を注釈し、目標クリッププロパティを有する注釈クリップを得る。サンプルビデオにおける非目標プロパティが目標クリッププロパティの注釈クリップであるように注釈する場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最もハイライトであり得ないクリップを、非目標クリッププロパティを有するクリップとし、即ち、当該クリップは、同一のサンプルビデオにおける他の時点の内容に比べて、よりハイライトであり得なく、より人の目を引かない。更に、当該クリップの開始・終了時点を注釈し、非目標クリッププロパティを有する注釈クリップを得る。

一例において、サンプルビデオは、１つ又は複数の目標プロパティが目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアを得る時、１つ又は複数の注釈クリップを第１のクリップとし、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとすることができる。サンプルビデオに１つの注釈クリップのみが存在し、且つ、非注釈クリップの時間が注釈クリップの時間に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈クリップを第１のクリップとし、非注釈クリップを第２のクリップとすることができる。例えば、図７に示すように、クリップ２は、目標プロパティが目標クリッププロパティである注釈クリップであり、クリップ１及びクリップ３は、非注釈クリップである。更に、データペアを得る時、クリップ２が第１のクリップで、クリップ１が第２のクリップであるデータペア、及びクリップ２が第１のクリップで、クリップ３が第２のクリップであるデータペアを得ることができる。サンプルビデオに１つの注釈クリップのみが存在し、非注釈クリップの時間が長過ぎる場合、非注釈クリップを所定の時間範囲内の複数のサブ非注釈クリップに分割することができ、更に注釈クリップを第１のクリップとし、サブ非注釈クリップを第２のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低減させることに役立ち、且つ、少量の注釈クリップを注釈するだけで大量のトレーニングデータペアを取得することができる。例えば、サンプルビデオの時間が６０秒であり、ここで、注釈クリップが１０秒であり、非注釈クリップが５０秒である。大量のトレーニングデータペアを容易に取得するために、非注釈クリップを注釈クリップの時間に近い複数のサブ非注釈クリップに分割することができる。非注釈クリップを複数の１０秒を超えていないサブ非注釈クリップに分割すれば、少なくとも５つのサブ非注釈クリップを得ることができ、例えば、サブ非注釈クリップ１、サブ非注釈クリップ２、サブ非注釈クリップ３、サブ非注釈クリップ４、サブ非注釈クリップ５である。更に、点数モデルのトレーニングに用いられる５対のデータペアを得ることができ、即ち、注釈クリップが第１のクリップで、サブ非注釈クリップ１が第２のクリップであるデータペア、注釈クリップが第１のクリップで、サブ非注釈クリップ２が第２のクリップであるデータペア、注釈クリップが第１のクリップで、サブ非注釈クリップ３が第２のクリップであるデータペア、注釈クリップが第１のクリップで、サブ非注釈クリップ４が第２のクリップであるデータペア、注釈クリップが第１のクリップで、サブ非注釈クリップ５が第２のクリップであるデータペアである。

別の例において、サンプルビデオは、１つ又は複数の目標プロパティが非目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアを得る時、１つ又は複数の注釈クリップを第２のクリップとし、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して正第２のクリップとすることができる。サンプルビデオに１つの注釈クリップのみが存在し、且つ、非注釈クリップの時間が注釈クリップの時間に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈クリップを第２のクリップとし、非注釈クリップを第１のクリップとすることができる。例えば、図８に示すように、クリップ３は、目標プロパティが非目標クリッププロパティである注釈クリップであり、クリップ１及びクリップ２は、非注釈クリップである。更に、データペアを得る時、クリップ１が第１のクリップで、クリップ３が第２のクリップであるデータペア、及びクリップ２が第１のクリップで、クリップ３が第２のクリップであるデータペアを得ることができる。サンプルビデオに１つの注釈クリップのみが存在し、非注釈クリップの時間が長過ぎる場合、非注釈クリップを所定の時間範囲内の複数のサブ非注釈クリップに分割することができ、更に、注釈クリップを第２のクリップとし、サブ非注釈クリップを第１のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈クリップを注釈するだけで大量のトレーニングデータペアを取得することができる。

更に別の例において、サンプルビデオは、１つ又は複数の目標プロパティが目標クリッププロパティである注釈クリップ、１つ又は複数の目標プロパティが非目標クリッププロパティである注釈クリップ、及び非注釈クリップを含むことができる。データペアは、第１のクリップと第２のクリップとからなるデータペア、第１のクリップと第２のクリップとされる一部のクリップからなるデータペア、又は第２のクリップと第１のクリップとされる一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含むことができる。即ち、データペアを得る時、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとする場合、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、又は非注釈クリップから一部のクリップを抽出して第２のクリップとする。非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとする場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、又は非注釈クリップから一部のクリップを抽出して第１のクリップとする。例えば、図９に示すように、クリップ２は、目標クリップを特徴付けるプロパティの注釈クリップであり、クリップ３は、目標プロパティが非目標クリッププロパティである注釈クリップであり、クリップ１は、非注釈クリップである。更にデータペアを得る時、クリップ２が第１のクリップで、クリップ１が第２のクリップであるデータペアを得て、クリップ２が第１のクリップで、クリップ３が第２のクリップであるデータペアを得て、クリップ１が第１のクリップで、クリップ３が第２のクリップであるデータペアを得ることができる。

注釈付きのトレーニングデータペアを得ることで、ノイズデータの発生を効果的に減少させ、ノイズデータによる干渉を回避することができ、更に、トレーニングデータのクリーン度を高めることに役立ち、採点モデルの構造を簡単にし、トレーニングデータの信頼性を高めるように他のネットワークモデルを採用したり、他のパラメータを追加したりする必要がなく、トレーニングの難易度が低く、トレーニング過程で採点モデルの収束を加速させることに役立つ。

図１０は、例示的な一実施例により示される採点モデルのトレーニング方法のフローチャートである。本出願では、採点モデルは、上記で得られた第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られたものである。図１０に示すように、採点モデルのトレーニング方法は、以下のステップＳ３１～ステップＳ３２を含む。

ステップＳ３１では、ビデオ理解モデルに基づき、第１のクリップと第２のクリップとからなるデータペアのうちの第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを抽出する。

本出願の実施例において、データペアにおける第１のクリップ及び第２のクリップの特徴ベクトルは、ビデオ理解モデルにより抽出され得る。更に、得られた第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを採点モデルの入力として、採点モデルをトレーニングするために使用し、第１のクリップの点数及び第２のクリップの点数を得る。第１のクリップ及び第２のクリップに特徴ベクトル抽出を行うことで、採点モデルがトレーニングの過程で異なるクリップ内容の間の類似度及び相違点を学習することに役立ち、採点の正確率を高めやすい。ビデオ理解モデルは、３Ｄ畳み込みニューラルネットワーク（Ｃ３Ｄ）、膨脹３Ｄ畳み込みネットワーク（Ｉｎｆｌａｔｅｄ３ＤＣｏｎｖＮｅｔ）、又は時間セグメントネットワーク（ＴｅｍｐｏｒａｌＳｅｇｍｅｎｔＮｅｔｗｏｒｋｓ，ＴＳＮ）を含むことができ、本出願において限定されない。ビデオ理解モデルを使用して特徴ベクトルを抽出する時、ビデオ理解モデル分類層の前の層の出力ベクトルを、入力されるクリップの特徴ベクトルとすることができる。

ステップＳ３２では、第１のクリップ特徴ベクトル及び第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第１のクリップの点数及び第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得て、シャムニューラルネットワークは、パラメータを共有する２つの多層パーセプトロンモデルを含み、採点モデルは、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである。

本出願の実施例において、採点モデルは、多層パーセプトロンモデルから得られたものであってよい。多層パーセプトロンモデルをコピーし、パラメータを共有することで、シャムニューラルネットワークが得られ、シャムニューラルネットワークをトレーニングすることで、トレーニング済みの採点モデルが得られる。第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングする時、取得された第１のクリップ特徴ベクトル及び第２のクリップ特徴ベクトルを同時に入力とすることができ、第１のクリップの点数及び第２のクリップの点数を得て、第１のクリップ及び第２のクリップの点数に基づき、損失値を計算し、バックプロパゲーションアルゴリズムによりシャムニューラルネットワークをトレーニングする。多層パーセプトロンの隠れ層の数を２～４個と設定することができる。例えば、ビデオ特徴ベクトルの次元がＮである場合、当該多層パーセプトロンの最初の全接続層の入力次元はＮであり、最後の全接続層の出力次元は１である。トレーニングする時、各データペアにおける第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを多層パーセプトロンモデルから構成されたシャムニューラルネットワークに順に入力し、各クリップの点数を得る。

ランキング損失関数を利用して、採点モデルから出力された点数にバックプロパゲーションを行い、シャムニューラルネットワークにおける各パラメータ及び重み割合を調整し、採点モデルの正確率を高め、トレーニング過程における採点モデルの収束スピードを加速させる。一例において、第１のクリップの特徴ベクトルをＳ⁺と記し、第２のクリップの特徴ベクトルをＳ^-と記すことができ、その場合、ランキング損失は、Ｌ（Ｓ⁺，Ｓ^-）＝ｍａｘ（０，１－ＭＬＰ（Ｓ⁺）＋ＭＬＰ（Ｓ^-））のように記すことができ、ここで、ＭＬＰ（Ｓ⁺）及びＭＬＰ（Ｓ^-）は、それぞれにシャムニューラルネットワークが第１のクリップ及び第２のクリップに対して出力した点数値である。

上記採点モデルのトレーニング方法によれば、注釈クリップに対する注釈によって、トレーニングデータのクリーン度を高め、更にノイズデータの混入を効果的に回避し、トレーニングデータの品質を高めることができる。また、高品質のトレーニングデータに基づき、採点モデルをトレーニングする時、単純な多層パーセプトロンモデルを直接に採用してトレーニングすることができ、更にトレーニングの難易度を低減させることに寄与し、有効な採点モデルを迅速に取得しやすく、且つ、トレーニングコストを節約することに役立つ。

一実施例において、トレーニング用のデータペアのサンプル数が少ない場合、トレーニング済みのビデオ理解モデルを採用して注釈クリップの特徴ベクトルを抽出し、更に得られた注釈クリップの特徴ベクトルを多層パーセプトロンモデルに入力して、採点モデルをトレーニングすることができる。トレーニング用のデータペアのサンプル数が十分に多い場合、採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含むことができ、更にビデオ理解モデル及び多層パーセプトロンモデルを共同してトレーニングし、両者のマッチング度を高め、ビデオ理解モデル及び多層パーセプトロンモデルの正確度を高める。

１つの実施シナリオでは、採点モデルのトレーニングが完了した後、得られた採点モデルは、取得されたビデオクリップに対して直接採点することができる。ここで、採点モデルによりビデオクリップに対して採点することは、トレーニング済みのシャムニューラルネットワークの１つの分岐ネットワークにより当該クリップに対応する点数を得ることであると理解できる。同一のビデオにおける異なるクリップに対して、採点モデルから出力された点数の相対的な高さは、異なるクリップの間の相対的なハイライトさの相違として見なすことができる。即ち、同一のビデオで、クリップの点数が高いほど、そのハイライトさが高いことを示す。ビデオにおけるハイライトクリップを抽出しやすくするために、まず、取得されたビデオを複数のクリップに分割する必要があり、更にトレーニング済みのビデオ理解モデルにより各クリップの特徴ベクトルを抽出し、各クリップの特徴ベクトルをトレーニング済みの多層パーセプトロンに入力して採点し、各クリップに対応する点数を得る。各クリップに対応する点数に基づき、点数の高さに応じてクリップをランキングし、ここで、点数の最も高いものは、当該ビデオの最もハイライトであり得るクリップである。点数の最も高いクリップを抽出することができ、ユーザが短時間内でビデオにおける最もハイライトであり得る内容を迅速に取得することができ、ユーザ体験が高められる。点数の高い幾つかのクリップを、当該ビデオの幾つかのハイライトクリップとすることもでき、ユーザが短時間内で当該ビデオの主な内容を迅速に取得し、ビデオの主な内容や筋を把握し、不必要な時間の浪費を減少することに役立つ。

同様な構想に基づき、本出願の実施例は、更にビデオクリップ抽出装置を提供する。

本出願の実施例により提供されるビデオクリップ抽出装置は、上記機能を実現するために、各機能を実行するためのハードウェア構造及び／又はソフトウェアモジュールを含むことが理解できる。本出願の実施例に開示された各例のユニット及びアルゴリズムステップと組み合わせて、本出願の実施例は、ハードウェア又はハードウェアとコンピュータソフトウェアを組み合わせた形態で実現することができる。ある機能が一体ハードウェア又はコンピュータソフトウェアによりハードウェアをドライブする形態のどちらで実行されるかは、技術案の特定の応用及び設計制約条件によるものである。当業者は、各特定の応用に対して異なる方法で説明される機能を実現することができるが、このような実現は本出願の実施例の技術案の範囲を超えていると考えられるべきではない。

図１１は、例示的な一実施例により示されるビデオクリップ抽出装置のブロック図である。図１１を参照し、当該ビデオクリップ抽出装置１００は、取得ユニット１０１と、評価ユニット１０２と、抽出ユニット１０３と、を含む。

取得ユニット１０１は、ビデオを取得し、ビデオを複数のクリップに分割するために用いられる。

評価ユニット１０２は、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得るために用いられ、採点モデルが、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、第１のクリップと第２のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む。

抽出ユニット１０３は、各クリップの点数に基づき、複数のクリップから目標クリップを抽出するために用いられる。

一実施例において、第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、１つ又は複数の注釈クリップを含むサンプルビデオを取得し、１つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得る手段であって、第１のクリップが目標クリップとなる可能性が、第２のクリップが目標クリップとなる可能性よりも高い手段である。

別の実施例において、第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、１つ又は複数の注釈クリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈クリップに基づいて得られる。即ち、１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、１つ又は複数の注釈クリップを第１のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段である。もしくは、１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、１つ又は複数の注釈クリップを第２のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段である。もしくは、１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、且つ、サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段であって、前記データペアが、第１のクリップと第２のクリップとからなるデータペア、第１のクリップと第２のクリップとされる一部のクリップからなるデータペア、又は第２のクリップと第１のクリップとされる一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含む手段である。

更に別の実施例において、採点モデルは、以下の手段を採用して、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られる。即ち、ビデオ理解モデルに基づき、第１のクリップと第２のクリップとからなるデータペアのうちの第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを抽出し、第１のクリップ特徴ベクトル及び第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第１のクリップの点数及び第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得て、シャムニューラルネットワークは、パラメータを共有する２つの多層パーセプトロンモデルを含み、採点モデルは、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである。

更に別の実施例において、評価ユニット１０２は、以下の手段を採用して、複数のクリップを予めトレーニングされた採点モデルに入力し、各クリップの点数を得る。即ち、複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、各クリップの点数を得る。

更に別の実施例において、取得ユニット１０１は、以下の手段を採用して、ビデオを複数のクリップに分割する。即ち、ビデオショット境界検出法を採用して、ビデオを複数のクリップに分割し、ビデオの複数のクリップを得る。又は、スライディングウィンドウに基づき、ビデオを複数のクリップに分割し、ビデオの複数のクリップを得る。

上記実施例における装置について、各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳しく説明したため、ここで詳しく説明しない。

図１２は、例示的な一実施例により示されるビデオクリップ抽出装置２００のブロック図である。例えば、装置２００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコンソール、タブレット型デバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。

図１２を参照し、ビデオクリップ抽出装置２００は、処理コンポーネント２０２、メモリ２０４、電力コンポーネント２０６、マルチメディアコンポーネント２０８、オーディオコンポーネント２１０、入力／出力（Ｉ／Ｏ）インタフェース２１２、センサコンポーネント２１４、及び通信コンポーネント２１６の１つ又は複数のコンポーネントを含むことができる。

処理コンポーネント２０２は、通常、ビデオクリップ抽出装置２００の全体的な操作を制御し、例えば、表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理コンポーネント２０２は、上記した方法の全部又は一部のステップを完成するように、命令を実行する１つ又は複数のプロセッサ２２０を含むことができる。また、処理コンポーネント２０２は、処理コンポーネント２０２と他のコンポーネントの間のインタラクションのために、１つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント２０２は、マルチメディアコンポーネント２０８と処理コンポーネント２０２の間のインタラクションのために、マルチメディアモジュールを含むことができる。

メモリ２０４は、ビデオクリップ抽出装置２００の操作をサポートするために様々なタイプのデータを記憶するように配置されている。これらのデータの例は、ビデオクリップ抽出装置２００で操作するための任意のアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ２０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、リードオンリーメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのような任意のタイプの揮発性又は非揮発性メモリ装置又はそれらの組み合わせにより実現することができる。

電力コンポーネント２０６は、ビデオクリップ抽出装置２００の各種のコンポーネントに電力を提供する。電力コンポーネント２０６は、電源管理システム、１つ又は複数の電源、及びビデオクリップ抽出装置２００のための電力の生成、管理及び分配に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント２０８は、前記ビデオクリップ抽出装置２００とユーザとの間にあるとともに出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザから入力された信号を受信するように、タッチスクリーンとして実現することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、１つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント２０８は、１つのフロントカメラ及び／又はリアカメラを含む。ビデオクリップ抽出装置２００が撮像モード又はビデオモードなどの操作モードにある場合、フロントカメラ及び／又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、特定の光学レンズシステムであってもよく、又は焦点距離及び光学ズーミング能力を有する。

オーディオコンポーネント２１０は、オーディオ信号を出力及び／又は入力するように配置されている。例えば、オーディオコンポーネント２１０は、マイクロホン（ＭＩＣ）を含み、ビデオクリップ抽出装置２００が呼び出しモード、記録モード及び音声識別モードなどの操作モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように配置されている。受信したオーディオ信号は、更にメモリ２０４に記憶されるか、又は通信コンポーネント２１６を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント２１０は、オーディオ信号を出力するためのスピーカを更に含む。

Ｉ／Ｏインタフェース２１２は、処理コンポーネント２０２とペリフェラルインタフェースモジュールとの間にインタフェースを提供し、上記ペリフェラルインタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント２１４は、ビデオクリップ抽出装置２００に各方面の状態の評価を提供するための１つ又は複数のセンサを含む。例えば、センサコンポーネント２１４は、ビデオクリップ抽出装置２００のオン／オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば前記コンポーネントはビデオクリップ抽出装置２００のディスプレイ及びキーパッドであり、センサコンポーネント２１４は、ビデオクリップ抽出装置２００又はビデオクリップ抽出装置２００のあるコンポーネントの位置変更、ユーザがビデオクリップ抽出装置２００に接触しているか否か、ビデオクリップ抽出装置２００の方位又は加速／減速、及びビデオクリップ抽出装置２００の温度変化を検出することもできる。センサコンポーネント２１４は、何の物理的接触もない場合に近くに物体が存在するか否かを検出するために配置されている近接センサを含むことができる。センサコンポーネント２１４は、ＣＭＯＳ又はＣＣＤ画像センサなどの光センサを更に含んでもよく、結像応用において使用される。いくつかの実施例において、当該センサコンポーネント２１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含んでもよい。

通信コンポーネント２１６は、ビデオクリップ抽出装置２００及び他の機器の間で有線又は無線方式の通信を行うように配置されている。ビデオクリップ抽出装置２００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信標準に基づく無線ネットワークにアクセスすることができる。１つの例示的な一実施例において、通信コンポーネント２１６は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。１つの例示的な一実施例において、前記通信コンポーネント２１６は、近距離通信を促進するように、近距離無線通信（ＮＦＣ）モジュールを更に含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現することができる。

例示的な一実施例において、ビデオクリップ抽出装置２００は、上記方法を実行するために、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現することができる。

例示的な一実施例において、更に命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ２０４であり、上記方法を完成するように、上記命令がビデオクリップ抽出装置２００のプロセッサ２２０により実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、テープ、フロッピーディスク及び光データ記憶装置などであってもよい。

なお、本出願における「複数」は、２つ又は２つ以上を指し、他の数量詞はそれと類似する。「及び／又は」は、関連対象の関連関係を説明するものであり、３種類の関係が存在可能であることを表し、例えば、Ａ及び／又はＢは、Ａのみが存在するか、Ａ及びＢが同時に存在するか、Ｂのみが存在するという３つの場合を表すことができる。符号「／」は、一般的に前後の関連対象が「又は」の関係であることを表す。単数の形の「１種」、「前記」及び「当該」は、文脈において他の意味を明らかに表記していない限り、複数の形を含むことも意図している。

なお、「第１」、「第２」などの用語は、各種の情報を説明するためのものであるが、これらの情報は、これらの用語に限定されるべきではない。これらの用語は、同じタイプの情報を互いに区別するためのものに過ぎず、特定の順番又は重要程度を表すわけではない。実際には、「第１」、「第２」などの表現は、全く交換可能に使用することができる。例えば、本出願の範囲を逸脱しない限り、第１の情報は第２の情報と称されてもよく、同じく、第２の情報も第１の情報と称されてもよい。

なお、特に説明されていない限り、「接続」は、両者の間に他の構成要素が介在しない直接接続を含むし、両者の間に他の元件が介在する間接接続をも含む。

なお、本出願の実施例では、図面において特定の順番で操作を説明したが、示されている特定の順番又はシリアル順番でそれらの操作を実行するように要求しているか、又は希望の結果を得るように示されている全ての操作を実行するように要求していると理解してはいけない。特定の環境では、マルチタスク及びパラレル処理が有利になる場合がある。

当業者は、明細書を考慮して、ここで開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の全ての変形、用途、又は適応のための変化を含むことを意図しており、これらの変形、用途、又は適応のための変化は、本出願の一般的原理に準じるものであり、本出願に開示されていない本技術分野における公知の知識又は慣用の技術手段を含む。明細書及び実施例は、例示的なもののみとして見なされ、本出願の実際の範囲及び精神は、下記の特許請求の範囲により指摘される。

なお、本出願は、以上に説明されて図面に示されている正確な構造に制限されず、その範囲を逸脱することなく様々な修正及び変更を行うことができる。本出願の範囲は、添付される特許請求の範囲のみにより制限される。

Claims

ビデオクリップ抽出方法であって、
ビデオを取得し、前記ビデオを複数のクリップに分割するステップと、
前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップであって、前記採点モデルが、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第１のクリップと第２のクリップからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含むステップと、
前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するステップと、
を含み、
前記採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含み、前記ビデオ理解モデル及び前記多層パーセプトロンモデルが共同でトレーニングされ、前記ビデオ理解モデルの入力はクリップであり、前記ビデオ理解モデルの出力はクリップのＮ次元の特徴ベクトルであり、前記多層パーセプトロンモデルの最初の全接続層の入力次元はＮであり、最後の全接続層の出力次元は１であり、
前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るステップは、
前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得るステップ、を含む、
ことを特徴とするビデオクリップ抽出方法。
前記第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、
１つ又は複数の注釈クリップを含むサンプルビデオを取得し、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得る手段であって、第１のクリップが目標クリップとなる可能性が、第２のクリップが目標クリップとなる可能性よりも高い手段である、
ことを特徴とする請求項１に記載のビデオクリップ抽出方法。
前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得るステップは、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップ、もしくは、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップ、もしくは、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得るステップであって、前記データペアが、前記第１のクリップと前記第２のクリップとからなるデータペア、前記第１のクリップと第２のクリップとされる前記一部のクリップからなるデータペア、又は前記第２のクリップと第１のクリップとされる前記一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含む手段、を含む、
ことを特徴とする請求項２に記載のビデオクリップ抽出方法。
前記採点モデルは、以下の手段を採用して、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、
ビデオ理解モデルに基づき、第１のクリップと第２のクリップとからなるデータペアのうちの第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを抽出し、
前記第１のクリップの特徴ベクトル及び前記第２のクリップの特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である、
ことを特徴とする請求項２又は３に記載のビデオクリップ抽出方法。
前記ビデオを複数のクリップに分割するステップは、
ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得るステップ、又は、
スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得るステップ、を含む、
ことを特徴とする請求項１に記載のビデオクリップ抽出方法。
ビデオクリップ抽出装置であって、
ビデオを取得し、前記ビデオを複数のクリップに分割するための取得ユニットと、
前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得るための評価ユニットであって、前記採点モデルが、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、前記第１のクリップと第２のクリップとからなるデータペアが、目標プロパティが注釈された注釈クリップに基づいて得られ、前記目標プロパティが、クリップが目標クリップ又は非目標クリップであることを特徴付けるプロパティを含む評価ユニットと、
前記各クリップの点数に基づき、前記複数のクリップから目標クリップを抽出するための抽出ユニットと、
を含み、
前記採点モデルは、ビデオ理解モデル及び多層パーセプトロンモデルを含み、前記ビデオ理解モデル及び前記多層パーセプトロンモデルが共同でトレーニングされ、前記ビデオ理解モデルの入力はクリップであり、前記ビデオ理解モデルの出力はクリップのＮ次元の特徴ベクトルであり、前記多層パーセプトロンモデルの最初の全接続層の入力次元はＮであり、最後の全接続層の出力次元は１であり、
前記評価ユニットは、以下の手段を採用して、前記複数のクリップを予めトレーニングされた採点モデルに入力し、前記各クリップの点数を得て、即ち、
前記複数のクリップをビデオ理解モデルに入力し、ビデオ理解モデルに基づき、前記複数のクリップのうちの各クリップの特徴ベクトルを抽出し、且つ、前記各クリップの特徴ベクトルを多層パーセプトロンモデルに入力し、前記各クリップの点数を得る手段である、
ことを特徴とするビデオクリップ抽出装置。
前記第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、目標プロパティが注釈された注釈クリップに基づいて得られ、即ち、
１つ又は複数の注釈クリップを含むサンプルビデオを取得し、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づき、第１のクリップと第２のクリップとからなるデータペアを得る手段であって、第１のクリップが目標クリップとなる可能性が、第２のクリップが目標クリップとなる可能性よりも高い手段である、
ことを特徴とする請求項６に記載のビデオクリップ抽出装置。
前記第１のクリップと第２のクリップとからなるデータペアは、以下の手段を採用して、前記１つ又は複数の注釈クリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非注釈クリップに基づいて得られ、即ち、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段、もしくは、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが非目標クリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数の注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段、もしくは、
前記１つ又は複数の注釈クリップにて注釈された目標プロパティが、クリップが目標クリップであることを特徴付けるプロパティ及びクリップが非目標クリップであることを特徴付けるプロパティを含む場合、目標クリップを特徴付けるプロパティが注釈された注釈クリップを第１のクリップとし、非目標クリップを特徴付けるプロパティが注釈された注釈クリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈クリップから一部のクリップを抽出し、第１のクリップと第２のクリップとからなる１つ又は複数のデータペアを得る手段であって、前記データペアが、前記第１のクリップと前記第２のクリップとからなるデータペア、前記第１のクリップと第２のクリップとされる前記一部のクリップからなるデータペア、又は前記第２のクリップと第１のクリップとされる前記一部のクリップからなるデータペアの１つ又は組み合わせを少なくとも含む手段である、
ことを特徴とする請求項７に記載のビデオクリップ抽出装置。
前記採点モデルは、以下の手段を採用して、第１のクリップと第２のクリップとからなるデータペアに基づいてトレーニングされて得られ、即ち、
ビデオ理解モデルに基づき、第１のクリップと第２のクリップとからなるデータペアのうちの第１のクリップの特徴ベクトル及び第２のクリップの特徴ベクトルを抽出し、
前記第１のクリップの特徴ベクトル及び前記第２のクリップの特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である、
ことを特徴とする請求項７又は８に記載のビデオクリップ抽出装置。
前記取得ユニットは、以下の手段を採用して、前記ビデオを複数のクリップに分割し、即ち、
ビデオショット境界検出法を採用して、前記ビデオを複数のクリップに分割し、前記ビデオの複数のクリップを得る手段、又は、
スライディングウィンドウに基づき、前記ビデオを複数のクリップに分割し、前記ビデオの複数の前記クリップを得る手段である、
ことを特徴とする請求項６に記載のビデオクリップ抽出装置。
ビデオクリップ抽出装置であって、
命令を記憶するためのメモリと、
前記メモリに記憶されている命令を呼び出し、請求項１～５のいずれか一項に記載のビデオクリップ抽出方法を実行するためのプロセッサと、
を含むビデオクリップ抽出装置。
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行されるとき、請求項１～５のいずれか一項に記載のビデオクリップ抽出方法が実行される、コンピュータ読み取り可能な記憶媒体。