JP2021168117A

JP2021168117A - 動画クリップの検索方法及び装置

Info

Publication number: JP2021168117A
Application number: JP2021037355A
Authority: JP
Inventors: ロン・シアン; Xiang Long; ワン・ピン; Ping Wang; リー・フー; Fu Li; ホー・ドンリアン; Dongliang He; スン・ハオ; Hao Sun; ウェン・シレイ; Shilei Wen
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2021-03-09
Publication date: 2021-10-21
Anticipated expiration: 2041-03-09
Also published as: JP7222008B2; CN111522996A; US11625433B2; CN111522996B; KR20210125902A; EP3893125A1; US20210319062A1

Abstract

【課題】本開示の実施例は、動画クリップの検索方法及び装置を開示し、動画データ検索の分野に関する。
【解決手段】当該方法は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、を含む。当該方法は、動画検索の正確性を向上させる。
【選択図】図２

Description

本開示の実施例は、コンピュータ技術の分野に関し、具体的には動画検索技術の分野に関し、特に動画クリップの検索方法及び装置に関する。

動画は、画像よりも豊富な動的コンテンツを提供することができる。動画アプリケーションの多様化に伴って、動画検索技術はますます重要になった。インターネットには、様々な動画が存在する。従来の動画検索方法とは、動画に対しフレームを均一に抽出し、抽出されたマッチング待ち動画の画像フレームとライブラリ内の動画の画像フレームとの整合度を計算し、動画から抽出されたすべての画像フレームの整合度を統計して動画のマッチング結果を得ることである。

動画カッティングの敷居が低くなるにつれて、動画の生成方式も多様化してきた。多くの動画は、他の複数の動画クリップからカッティングされて合成されたものであり、このタイプの動画については、動画全体に基づいて検索すると正確な結果を得ることは難しい。

本開示の実施例では、動画クリップの検索方法及び装置、電子機器、コンピュータ可読媒体を提案する。

第１側面において、本開示の実施例は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算することと、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することと、を含む動画クリップの検索方法に関する。

いくつかの実施例では、上記サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することは、
サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定することと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定することと、を含む。

いくつかの実施例では、上記候補検索待ち動画から少なくとも１つの候補動画クリップを確定することは、候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得ることを含む。

いくつかの実施例では、上記各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算することは、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算することと、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定することと、を含む。

いくつかの実施例では、上記ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定することは、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定することと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得ることと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。

いくつかの実施例では、上記候補検索待ち動画から少なくとも１つの候補動画クリップを確定することは、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定することを含む。

いくつかの実施例では、上記ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することは、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定することと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定することと、を含む。

第２側面において、本開示の実施例は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成される抽出ユニットと、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成される第１の確定ユニットと、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算するように構成される計算ユニットと、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定するように構成される第２の確定ユニットと、を含む動画クリップの検索装置。

いくつかの実施例では、上記第１の確定ユニットは、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、を含む。

いくつかの実施例では、上記計算ユニットは、以下のようにして、候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得る。

いくつかの実施例では、上記計算ユニットは、各サンプルフレームの特徴に基づいて、以下のようにして、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、即ち、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算し、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。

いくつかの実施例では、上記第２の確定ユニットは、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。

いくつかの実施例では、上記計算ユニットは、以下のようにして、候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定する。

いくつかの実施例では、上記第２の確定ユニットは、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、を含む。

第３側面において、本開示の実施例は、１つ以上のプロセッサと、１つ以上のプログラムを記憶するための記憶装置と、を含み、１つ以上のプログラムが１つ以上のプロセッサによって実行されるとき、第１側面による動画クリップの検索方法を１つ以上のプロセッサに実現させる電子機器に関する。

第４側面において、本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第１側面による動画クリップの検索方法を実現するコンピュータ可読媒体に関する。

第５側面において、本開示の実施例は、コンピュータプログラムであって、コンピュータプログラムがプロセッサによって実行されるとき、第１側面による動画クリップの検索方法を実現するコンピュータプログラムに関する。

本開示の上記実施例による動画クリップの検索方法及び装置は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行い、そして、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定し、この後、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算し、最後に、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することにより、クリップ型の動画検索が実現され、長い動画からターゲット動画に合致するクリップを検索することができ、動画検索の正確性を向上させた。

本開示のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本開示の実施例が適用可能な例示的なシステムアーキテクチャ図である。本開示による動画クリップの検索方法の一実施例のフローチャートである。本開示による動画クリップの検索方法の別の実施例のフローチャートである。本開示の動画クリップの検索装置の一実施例の概略構成図である。本開示の実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。

以下、図面及び実施例を参照して本開示についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。

なお、矛盾しない場合には、本開示の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本開示を詳細に説明する。

図１には、本開示が適用され得る、動画クリップの検索方法又は動画クリップの検索装置の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４およびサーバー１０５を含むことができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバー１０５との間に通信リンクの媒体を提供するために使用される。ネットワーク１０４は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

端末機器１０１、１０２、１０３は、ネットワーク１０４を介してサーバー１０５とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器１０１、１０２、１０３は、ユーザ１１０側の装置であってもよく、様々なクライアントアプリケーションがインストールされることができる。例えば様々な動画編集アプリケーション、メディア再生アプリケーション、検索アプリケーションなどが挙げられている。

端末機器１０１、１０２、１０３は、ハードウェアでもソフトウェアでもよい。端末機器１０１、１０２、１０３がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、ラップトップパソコン、デスクトップコンピュータなどを含むがこれらに限定されない。端末機器１０１、１０２、１０３がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

サーバー１０５は、様々なサービスを実行するサーバーであってもよく、例えば、検索アプリケーションまたは動画サイトに対しバックグラウンドサポートを提供するサーバーである。サーバー１０５は、端末機器１０１、１０２、１０３の動画検索要求を取得し、動画検索要求を解析することにより、ターゲット動画を抽出し、ネットワークデータベースまたは動画ライブラリから合致した動画または動画クリップを検索し、検索結果を端末機器１０１、１０２、１０３にフィードバックすることができる。

なお、サーバー１０５は、ハードウェアでもソフトウェアでもよい。サーバー１０５がハードウェアである場合、複数のサーバーからなる分散型サーバークラスターとして実現されてもよく、単一のサーバーとして実現されてもよい。サーバー１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

または、いくつかのシーンでは、端末機器１０１、１０２、１０３は、動画検索動作を実行してもよく、例えば、ローカル動画ライブラリからユーザが所望する動画または動画クリップを検索することができる。

本開示の実施例による動画クリップの検索方法は、端末機器１０１、１０２、１０３またはサーバー１０５によって実行されることができ、これに対応して、動画クリップの検索装置は、端末機器１０１、１０２、１０３またはサーバー１０５に配置されることができる。

いくつかのシーンでは、端末機器１０１、１０２、１０３またはサーバー１０５は、ターゲット動画と動画データベースをローカルから読み取ったり、データベースなどから取得してもよい。この場合、例示的なシステムアーキテクチャ１００は、ネットワーク１０４およびサーバー１０５を含まなくてもよく、または端末機器１０１、１０２、１０３およびネットワーク１０４を含まなくてもよい。

図１の端末機器、ネットワーク、およびサーバーの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバーを備えることができる。

続けて図２を参照すると、本開示による動画クリップの検索方法の一実施例のフロー２００が示されている。当該動画クリップの検索方法は、以下のステップを含む。

ステップ２０１において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行う。

本実施例において、動画クリップの検索方法の実行主体は、ターゲット動画を取得し、動画ライブラリにおける検索待ち動画を読み取ることができる。ここで、ターゲット動画は、ユーザが検索したい動画であってもよい。動画ライブラリは、事前に構築され、複数の動画を含んでもよい。

実際には、動画ライブラリは、動画サイトの動画ライブラリであってもよく、またはサービスを検索するバックグラウンドサーバのメンテナンスまたはアクセス許可を得た動画データベースであってもよい。ユーザは、ターゲット動画をアップロードすることによって、動画クリップ検索要求を提出することができる。サーバーは、ユーザの動画クリップ検索要求を取得した後、動画ライブラリにおける動画を検索待ち動画として読み取ることができる。

本実施例において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行うことができ、具体的に、設定されたサンプリングレート（例えば、毎秒１フレームをサンプリングし）または予め設定されたサンプルフレームの数（例えば、１００フレームをサンプリングし）に従って、それぞれターゲット動画と検索待ち動画からいくつかのサンプルフレームを均一または非均一にサンプリングすることができる。

次に、上記実行本体は、サンプルフレームに対し特徴抽出を行うことができ、具体的な特徴抽出方法は、既存の画像特徴抽出方法を用いることができ、例えば、特徴点に基づくＳＩＦＴ（Ｓｃａｌｅ-ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ、スケール不変特徴変換）アルゴリズムなどが挙げられ、または訓練されたニューラルネットワークを用いて抽出することができる。

本実施例のいくつかの選択可能な実施形態において、訓練された画像識別ニューラルネットワークまたは画像分類ニューラルネットワークを用いて、サンプルフレームに対し特徴抽出を行ってもよい。ここで、画像識別ニューラルネットワークまたは画像分類ニューラルネットワークは、特徴抽出層および分類器を含み、特徴抽出層は、複数の畳み込み層を含むことができ、分類器は、プーリング化層、全結合層、および非線形層を含むことができる。特徴抽出層を用いてサンプルフレームの特徴を抽出することができ、具体的には、特徴抽出層における最後の畳み込み層の出力を抽出されたサンプルフレームの特徴とする。

さらに、動画クリップの検索方法は、上述画像識別ニューラルネットワークまたは画像分類ニューラルネットワークを訓練するステップを含んでもよく、訓練において識別アノテーション情報または分類アノテーション情報を含むサンプル画像に基づいて特徴抽出層のパラメータを反復的に調整してもよく、訓練された後の画像識別ニューラルネットワークまたは画像分類ニューラルネットワークが画像特徴の抽出を正確に実現できるように、複数回パラメータを反復的に調整して特徴抽出層を絶えず最適化する。

ステップ２０２において、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定する。

上記の各サンプルフレームの特徴は、フレームレベルの特徴である。本実施例では、ターゲット動画における各サンプルフレームの特徴を融合させて、ターゲット動画の動画レベルの特徴を得ることができる。同様に、検索待ち動画ごとに、各サンプルフレームの特徴を融合させて、検索待ち動画の動画レベルの特徴を得ることができる。

ここで、同じ動画における各サンプルフレームの特徴融合は、特徴スティッチングの方法を採用してもよく、例えば、各サンプルフレームの特徴を正規化し、同じ長さに変換してからスティッチングする。または、各サンプルフレームの特徴を対応する動画の多次元特徴になるように組み合わせる方法を採用してもよく、例えば、各サンプルフレームの特徴が３２次元の特徴ベクトルであり、動画におけるサンプルフレームの数が１００フレームである場合、当該動画の特徴として、各サンプルフレームの特徴を３２×１００次元の特徴マトリックスになるように組み合わせる。

次いで、ターゲット動画の特徴と各検索待ち動画の特徴をマッチングすることができ、具体的に、コサイン類似度のような両者の間の類似度を計算することができる。類似度が予め設定された類似度閾値より大きいかどうかを判断することができ、類似度が予め設定された類似度閾値より大きい場合、対応する検索待ち動画がターゲット動画に合致する候補検索待ち動画であると確定し、類似度が予め設定された類似度閾値より小さい場合、対応する検索待ち動画がターゲット動画に合致する候補検索待ち動画ではないと確定する。または、ターゲット動画に合致した候補検索待ち動画として、すべての検索待ち動画の中から、上記の類似度の降順で並べ替えられた前に予め設定されたビットの検索待ち動画を選択することができる。

本実施例のいくつかの選択可能な実施形態において、以下のようにして、ターゲット動画に合致する候補検索待ち動画を確定することができ、即ち、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定し、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定する。

上記実施形態では、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと検索待ち動画における各サンプルフレームをマッチングすることにより、サンプルフレーム間の整合度を得ることができ、この後、整合度が予め設定されたフレームレベル整合度閾値を超えたサンプルフレームの数を統計し、ちなみに、検索待ち動画における各サンプルフレームとターゲット動画における各サンプルフレームとのマッチング結果に対する統計値として、各検索待ち動画においてターゲット動画におけるサンプルフレームとの整合度が予め設定されたフレームレベル整合度閾値を超えたサンプルフレームを抽出し、対応する整合度の平均値または総和を計算する。次いで、候補検索待ち動画として、統計値が最も大きい少なくとも１つの検索待ち動画が選択された。

当該実施形態により、ターゲット動画と検索待ち動画とのフレームレベルのマッチングが可能となり、この結果、動画クリップの検索範囲が縮小され、合致する動画クリップを含むことができる候補検索待ち動画が初歩的に選別されることができる。

ステップ２０３において、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算する。

候補検索待ち動画に対し動画クリップを切り分けることができる。例えば、スライディングウィンドウ方式で候補検索待ち動画から複数の候補動画クリップを抽出することができ、ここで、スライディングウィンドウの境界は、候補動画クリップの開始位置および終了位置に対応する。または、いくつかの選択可能な実施形態において、サンプルフレームの特徴に基づいて、各サンプルフレームのコンテンツテーマを識別し、同じ候補検索待ち動画における異なるサンプルフレームのコンテンツテーマ間の相関に基づいて、異なるサンプルフレームが同じ動画クリップに属するかどうかを確定することにより、動画クリップの分割を実現することができる。ここで、サンプルフレームのコンテンツテーマは、例えば歩行者の姿勢、人物のアイデンティティ、障害物の形状／色／位置などの画像内のオブジェクト属性を含むことができ、画像のスタイル、色調、シーンなどのコンテンツ属性であってもよい。

選択肢の一つとして、ターゲット動画の長さを取得し、候補検索待ち動画からターゲット動画の長さに近い少なくとも１つの候補動画クリップを確定することができる。例えば、ターゲット動画の長さが１分である場合、候補動画クリップの長さは、５５秒から６５秒の間とすることができる。

実践において、動画編集では倍速再生またはスロー再生が使用されるので、候補動画クリップの長さもターゲット動画の長さと大きく異なることがある。

各候補動画クリップについて、当該候補動画クリップに含まれる各サンプルフレームに基づいて、当該候補動画クリップの動画レベル特徴を確定することができる。それから、ターゲット動画の動画レベルの特徴と候補動画クリップの動画レベルの特徴とに基づいて、ターゲット動画と候補動画クリップとの整合度を計算することができる。例えば、両者のコサイン類似度を計算することができ、両者の間の距離などを整合度とする。

いくつかの選択可能な実施形態において、以下のようにして、候補検索待ち動画から少なくとも１つの候補動画クリップを確定することができ、即ち、候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得る。

候補検索待ち動画から、それぞれＢ_１、Ｂ_２、…、Ｂ_ＮであるＮ個のサンプルフレームがサンプリングされたと仮定すると、Ｎ個のサンプルフレームを２つずつ組み合わせることにより、サンプルフレームペア（Ｂ_１、Ｂ_２）、（Ｂ_１、Ｂ_３）、…、（Ｂ_１、Ａ_Ｎ）、（Ｂ_２、Ｂ_３）、（Ｂ_２、Ｂ_４）、…、（Ｂ_２、Ｂ_Ｎ）、…、（Ｂ_Ｎ−１、Ｂ_Ｎ）を得て、サンプルフレーム毎に１つの候補動画クリップに対応し、ここで、サンプルフレームペアのうち、元の候補検索待ち動画における時間値が小さいものは、候補動画クリップの開始フレームであり、元の候補検索待ち動画における時間値が大きいものは、候補動画クリップの終了フレームである。このようにすると、候補検索待ち動画におけるすべてのサンプルフレームによって形成された動画クリップを巡回することができ、且つ動画クリップの長さを制限することなく、当該方法は、倍速再生またはスロー再生の動画クリップのマッチングに適用されることができる。

ステップ２０４において、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定する。

ターゲット動画に合致する動画クリップとして、ターゲット動画との整合度が最も高い候補動画クリップが確定されることができる。または、当該候補動画クリップに含まれるすべてのサンプルフレームの対応する検索待ち動画の時間軸上の位置に基づいて、それぞれ候補動画クリップの開始時刻と終了時刻に対し、前後に向かって検索して最適化することにより、検索待ち動画におけるターゲット動画に合致する完全な動画クリップを特定することができる。

本開示の上記実施例による動画クリップの検索方法は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行い、そして、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定し、この後、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算し、最後に、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することにより、クリップ型の動画検索が実現され、長い動画からターゲット動画に合致するクリップを検索することができ、動画検索の正確性を向上させた。

続けて図３を参照すると、本開示による動画クリップの検索方法の別の実施例のフローが示されている。図３に示すように、本実施例の動画クリップの検索方法のフロー３００は、以下のステップを含む。

ステップ３０１において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行う。

ステップ３０２において、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定する。

本実施例のステップ３０１、ステップ３０２は、それぞれ上述実施例のステップ２０１、ステップ２０２と一致し、ステップ３０１とステップ３０２の具体的な実施形態について、それぞれ上述実施例のステップ２０１とステップ２０２の説明を参照してもよく、ここでは説明を省略する。

ステップ３０３において、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算する。

本実施例では、候補検索待ち動画を確定した後、候補検索待ち動画に対し動画クリップを切り分けることにより、少なくとも１つの候補動画クリップを得ることができる。具体的に、スライディングウィンドウ方式で候補検索待ち動画から複数の候補動画クリップを抽出することができ、サンプルフレームの特徴に基づいて、各サンプルフレームのコンテンツテーマを識別し、候補検索待ち動画における各サンプルフレームのコンテンツテーマ間の相関に基づいて、動画クリップを分割することもできる。または、いくつかの選択可能な実施形態において、候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得ることができる。

なお、長い動画について、上記した２つずつ組み合わせることにより得られた候補動画クリップの数が多い。動画クリップの検索速度を向上させるために、本開示の実施例では、より長い候補検索待ち動画について、プルーニングの方法によって候補動画クリップをフィルタリングすることができ、例えば、含まれた各サンプルフレームとターゲット動画のサンプルフレームとの類似度の平均値が閾値未満の候補動画クリップをフィルタリングすることができる。または、予め訓練された検出ネットワークを用いて、候補動画クリップを初歩的に選別することができる。

次に、サンプルフレームの特徴に基づいて、候補動画クリップにおける各サンプルフレームとターゲット動画におけるサンプルフレームとの類似性を計算することができる。具体的に、サンプルフレームＸの特徴が{Ｘ_ｉ}であり、サンプルフレームＹの特徴が{Ｙ_ｉ}である場合、サンプルフレームＸとＹとの類似度ｓｉｍ（Ｘ、Ｙ）は、

である。
ここで、Ｗ×Ｈは、サンプルフレームから抽出された特徴の数であり、ｄｏｔ（Ｘ_ｉ、Ｙ_ｊ）は、Ｘ_ｉとＹ_ｊの内積であり、ｄｏｔ（Ｙ_ｊ、Ｘ_ｉ）は、Ｙ_ｊとＸ_ｉの内積である。

本実施例では、上記の式（１）を用いて、ターゲット動画における各サンプルフレームと候補動画クリップにおける各サンプルフレームとの類似度を計算することにより、フレームレベルの類似度を得ることができる。

ステップ３０４において、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。

次に、動画レベルの整合度を計算することができる。具体的に、ターゲット動画Ａのサンプルフレームを（Ａ_ａ１、Ａ_ａ１＋１、…、Ａ_ａ２）と表し、候補動画クリップＢにおけるサンプルフレームは、（Ｂ_ｂ１、Ｂ_ｂ１＋１、…、Ｂ_ｂ２）であり、ここで、ａ１、ａ２、ｂ１、ｂ２は、正の整数であり、ａ１<ａ２、ｂ１<ｂ２である。以下のようにして、ターゲット動画と候補動画クリップとのフレームレベルの類似度ＳＩＭ（Ａ（ａ１、ａ２）、Ｂ（ｂ１、ｂ２））を計算することができ、即ち、

である。
ターゲット動画と候補動画クリップとのフレームレベルの類似性を両者の整合度とすることができる。

または、本実施例のいくつかの選択可能な実施形態において、さらに、ターゲット動画と候補動画クリップとのフレームレベルの類似性に基づいて、以下のようにして、ターゲット動画と候補動画クリップとの整合度を確定することができ、即ち、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得て、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。

報酬関数Ｒは、

である。
または、いくつかの実施例では、予め設定された報酬関数の値は、ターゲット動画の長さと正の相関がある場合、報酬関数は、

になる。
このようにすると、ターゲット動画Ａと候補動画クリップＢとの整合度Ｐは、

になる。
ここで、λとｌ_０は、超パラメータであり、予め設定されたり、訓練によって学習されたりできる。λとｌ_０が大きいほど、より長い動画クリップの検索が奨励される。

このようにすると、検索された動画クリップの長さを奨励することによって、より長い動画クリップの検索を奨励することができ、これにより、動画クリップの検索結果の正確性を向上させることができる。

さらに、候補動画クリップを確定する場合、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定することができる。

具体的に、ターゲット動画と候補動画クリップの長さの比の範囲を設定することにより、動画の倍速再生またはスロー再生の倍率を制限することができ、具体的に、

である。
ここで、ｋは、倍速再生またはスロー再生の最大スケール因子であり、予め設定されてもよく、例えば２に設定される。なお、ここで、ターゲット動画と検索待ち動画のフレームレートは、同じである。

上記実施形態は、動画の倍速再生またはスロー再生のスケール因子を制限することにより、当該方法を、倍速再生またはスロー再生によってカッティングまたはスティッチングされて合成された動画におけるクリップ検索に適用することができる。

ステップ３０５において、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定する。

ターゲット動画と各候補動画クリップとの整合度が確定された後、検索されたターゲット動画に合致する動画クリップとして、最も整合度の高い候補動画クリップを選択することができる。

本実施例の動画クリップの検索方法のフロー３００では、まず、ターゲット動画と候補動画クリップに対しフレームレベルの整合度を計算し、各サンプルフレームのフレームレベルの整合度の平均値に基づいて動画レベルの整合度を確定することにより、より正確な動画レベルのマッチング結果を得ることができる。ちなみに、動画クリップの長さに関する報酬関数を設定することにより、時間が短すぎる動画クリップの検索をさらに回避し、検索結果の信頼性を向上させることができる。

上述した図２および図３を参照して説明された実施例のいくつかの選択可能な実施形態において、ターゲット動画と各候補動画クリップとの整合度に基づいて、以下のようにして、検索待ち動画においてターゲット動画に合致する動画クリップを確定することもでき、即ち、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定し、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する。

具体的に、候補動画クリップから、ターゲット動画との整合度が最大であり、または整合度が予め設定された閾値を超えたターゲット動画クリップが確定された後、当該ターゲット動画クリップの元の検索待ち動画内の位置を確定し、検索待ち動画における当該ターゲット動画クリップの開始フレームと終了フレームを特定することができる。

上記ターゲット動画クリップがサンプルフレームに基づいて確定されたので、サンプリングによる誤差をさらに補償するために、上記検索待ち動画においてターゲット動画クリップの開始フレームを起点として前に向かって予め設定された期間（例えば、１分間以内）の動画フレームにおいて、当該ターゲット動画クリップのコンテンツテーマに一致または連続する前フレームを検索し、ターゲット動画クリップの終了フレームを起点として後に向かって予め設定された期間（例えば、１分間以内）の動画フレームにおいて、当該ターゲット動画クリップのコンテンツテーマに一致または連続する後フレームを検索し、これによって、検索待ち動画においてターゲット動画に合致する動画クリップの位置を較正する。このようにすると、動画クリップの検索結果の正確性をさらに向上させることができる。

上記方法では、検索された動画クリップが備えられた検索待ち動画と当該動画クリップの検索待ち動画内の開始時間および終了時間をユーザにプッシュして、ユーザに動画クリップの検索結果を知らせることにより、ユーザが取得したい情報を素早く閲覧することを助ける。

図４を参照して、上記動画クリップの検索方法の実現として、本開示は動画クリップの検索装置の一実施例を提供し、当該装置の実施例は、図２及び図３に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図４に示すように、本実施例に係る動画クリップの検索装置４００は、抽出ユニット４０１と、第１の確定ユニット４０２と、計算ユニット４０３と、第２の確定ユニット４０４とを含む。ここで、抽出ユニット４０１は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成され、第１の確定ユニット４０２は、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成され、計算ユニット４０３は、候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、第２の確定ユニット４０４は、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定するように構成される。

いくつかの実施例において、上記第１の確定ユニット４０２は、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、を含む。

いくつかの実施例において、上記計算ユニット４０３は、以下のようにして、候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得る。

いくつかの実施例において、上記計算ユニット４０３は、各サンプルフレームの特徴に基づいて、以下のようにして、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、即ち、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算し、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。

いくつかの実施例において、上記第２の確定ユニット４０４は、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。

いくつかの実施例において、上記計算ユニット４０３は、以下のようにして、候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定する。

いくつかの実施例において、上記第２の確定ユニット４０４は、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、を含む。

上記装置４００における各ユニットは、図２及び図３を参照して説明された方法におけるステップに対応する。したがって、動画クリップの検索方法について説明された動作、特徴、および達成可能な技術的効果は、装置４００およびその中に含まれるユニットにも同様に適用でき、ここでは説明を省略する。

以下、図５を参照し、本開示の実施例を実現するための電子機器（例えば図１に示されたサーバー）５００の概略構造図が示されている。図５に示した電子機器は一例であり、本開示の実施例の機能と使用範囲を限定するものではない。

図５に示すように、電子機器５００は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているプログラムまたは記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置（例えば中央処理装置、グラフィックスプロセッサなど）５０１を含むことができる。ＲＡＭ５０３には、電子機器５００の操作に必要な様々なプログラムとデータが記憶されている。処理装置５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４によって相互に接続されている。入力/出力(Ｉ/Ｏ)インターフェース５０５もバス５０４に接続されている。

通常、Ｉ/Ｏインターフェース５０５には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置５０６と、例えば液晶ディスプレイ（ＬＣＤ）、スピーカー、振動器などを含む出力装置５０７と、例えばハードディスクなどを含む記憶装置５０８と、通信装置５０９とが接続されている。通信装置５０９は、データを交換するために電子機器５００が他の機器と無線通信または有線通信することを許可できる。図５は、様々な装置を有する電子機器５００を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図５に示した各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を表してもよい。

特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードされてインストールされ、または記憶装置６０８からインストールされ、またはＲＯＭ６０２からインストールされることができる。このコンピュータプログラムが処理装置６０１によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、１本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むが、これらに限らない。

上記コンピュータ可読媒体は、上記電子機器に含まれてもよく、個別に存在しこの電子機器に組み込まれなくてもよい。上記のコンピュータ可読媒体は、１つ以上のプログラムを担持し、上記の１つ以上のプログラムが当該電子機器によって実行されたとき、当該電子機器は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、を含む。当該方法は、動画検索の正確性を向上させる。

本開示の実施例の操作を実行するためのコンピュータプログラムコードを、１以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、さらに「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、１つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバー上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダを利用してインターネットを介して接続する）。

図の中のフローチャートおよびブロック図には、本開示の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための１つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す２つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。

本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「抽出ユニットと、第１の確定ユニットと、計算ユニットと、第２の確定ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、抽出ユニットを「ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うユニット」と記載してもよい。

上記の説明は、本開示の好ましい実施例および応用された技術の原理の説明にすぎない。本開示に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上述の特徴が本開示において開示されているもの（しかしこれに限らず）と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims

ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、
サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、
前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、
前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、
を含む、
動画クリップの検索方法。
前記サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することは、
前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を確定することと、
前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、前記ターゲット動画に合致する候補検索待ち動画を確定することと、
を含む、
請求項１に記載の方法。
前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定することは、
前記候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、前記サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得ることを含む、
請求項１に記載の方法。
前記各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することは、
各前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度を計算することと、
前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定することと、
を含む、
請求項１に記載の方法。
前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定することは、
前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの類似度を確定することと、
前記ターゲット動画と前記候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、前記ターゲット動画と前記候補動画クリップとの整合度を得ることと、
を含み、
ここで、前記予め設定された報酬関数の値は、前記候補動画クリップの長さと正の相関を有する、
請求項４に記載の方法。
前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定することは、
前記候補検索待ち動画から、長さと前記ターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定することを含む、
請求項１に記載の方法。
前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することは、
前記候補動画クリップから、前記ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定することと、
前記ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、前記ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、前記対応する検索待ち動画において前記ターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定することと、
を含む、
請求項１から６のいずれか１項に記載の方法。
ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成される抽出ユニットと、
サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成される第１の確定ユニットと、
前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算するように構成される計算ユニットと、
前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定するように構成される第２の確定ユニットと、
を含む、
動画クリップの検索装置。
前記第１の確定ユニットは、
前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、
前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、前記ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、
を含む、
請求項８に記載の装置。
前記計算ユニットは、以下のようにして、前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、
前記候補検索待ち動画のサンプルフレームを２つずつ組み合わせることにより、少なくとも１つのサンプルフレームペアを得て、前記サンプルフレームペアのうちの２つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも１つの候補動画クリップを得る、
請求項８に記載の装置。
前記計算ユニットは、各前記サンプルフレームの特徴に基づいて、以下のようにして、前記ターゲット動画と各前記候補動画クリップとの整合度を計算するように構成され、即ち、
各前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度を計算し、
前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定する、
請求項８に記載の装置。
前記第２の確定ユニットは、
前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、
前記ターゲット動画と前記候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、前記ターゲット動画と前記候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、
を含み、
ここで、前記予め設定された報酬関数の値は、前記候補動画クリップの長さと正の相関を有する、
請求項１１に記載の装置。
前記計算ユニットは、以下のようにして、前記候補検索待ち動画から少なくとも１つの候補動画クリップを確定するように構成され、即ち、
前記候補検索待ち動画から、長さと前記ターゲット動画の長さとの比が予め設定された区間内である少なくとも１つの候補動画クリップを確定する、
請求項８に記載の装置。
前記第２の確定ユニットは、
前記候補動画クリップから、前記ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、
前記ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、前記ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、前記対応する検索待ち動画において前記ターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、
を含む、
請求項８から１３のいずれか１項に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムが記憶された記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から７のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
電子機器。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から７のいずれか１項に記載の方法を実現する、
コンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から７のいずれか１項に記載の方法を実現する、
コンピュータプログラム。