JP2021168117A - 動画クリップの検索方法及び装置 - Google Patents

動画クリップの検索方法及び装置 Download PDF

Info

Publication number
JP2021168117A
JP2021168117A JP2021037355A JP2021037355A JP2021168117A JP 2021168117 A JP2021168117 A JP 2021168117A JP 2021037355 A JP2021037355 A JP 2021037355A JP 2021037355 A JP2021037355 A JP 2021037355A JP 2021168117 A JP2021168117 A JP 2021168117A
Authority
JP
Japan
Prior art keywords
video
candidate
search
target
clip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021037355A
Other languages
English (en)
Other versions
JP7222008B2 (ja
Inventor
ロン・シアン
Xiang Long
ワン・ピン
Ping Wang
リー・フー
Fu Li
ホー・ドンリアン
Dongliang He
スン・ハオ
Hao Sun
ウェン・シレイ
Shilei Wen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021168117A publication Critical patent/JP2021168117A/ja
Application granted granted Critical
Publication of JP7222008B2 publication Critical patent/JP7222008B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本開示の実施例は、動画クリップの検索方法及び装置を開示し、動画データ検索の分野に関する。
【解決手段】当該方法は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、を含む。当該方法は、動画検索の正確性を向上させる。
【選択図】図2

Description

本開示の実施例は、コンピュータ技術の分野に関し、具体的には動画検索技術の分野に関し、特に動画クリップの検索方法及び装置に関する。
動画は、画像よりも豊富な動的コンテンツを提供することができる。動画アプリケーションの多様化に伴って、動画検索技術はますます重要になった。インターネットには、様々な動画が存在する。従来の動画検索方法とは、動画に対しフレームを均一に抽出し、抽出されたマッチング待ち動画の画像フレームとライブラリ内の動画の画像フレームとの整合度を計算し、動画から抽出されたすべての画像フレームの整合度を統計して動画のマッチング結果を得ることである。
動画カッティングの敷居が低くなるにつれて、動画の生成方式も多様化してきた。多くの動画は、他の複数の動画クリップからカッティングされて合成されたものであり、このタイプの動画については、動画全体に基づいて検索すると正確な結果を得ることは難しい。
本開示の実施例では、動画クリップの検索方法及び装置、電子機器、コンピュータ可読媒体を提案する。
第1側面において、本開示の実施例は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算することと、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することと、を含む動画クリップの検索方法に関する。
いくつかの実施例では、上記サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することは、
サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定することと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定することと、を含む。
いくつかの実施例では、上記候補検索待ち動画から少なくとも1つの候補動画クリップを確定することは、候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得ることを含む。
いくつかの実施例では、上記各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算することは、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算することと、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定することと、を含む。
いくつかの実施例では、上記ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定することは、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定することと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得ることと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。
いくつかの実施例では、上記候補検索待ち動画から少なくとも1つの候補動画クリップを確定することは、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定することを含む。
いくつかの実施例では、上記ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することは、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定することと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定することと、を含む。
第2側面において、本開示の実施例は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成される抽出ユニットと、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成される第1の確定ユニットと、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算するように構成される計算ユニットと、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定するように構成される第2の確定ユニットと、を含む動画クリップの検索装置。
いくつかの実施例では、上記第1の確定ユニットは、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、を含む。
いくつかの実施例では、上記計算ユニットは、以下のようにして、候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得る。
いくつかの実施例では、上記計算ユニットは、各サンプルフレームの特徴に基づいて、以下のようにして、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、即ち、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算し、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。
いくつかの実施例では、上記第2の確定ユニットは、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。
いくつかの実施例では、上記計算ユニットは、以下のようにして、候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定する。
いくつかの実施例では、上記第2の確定ユニットは、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、を含む。
第3側面において、本開示の実施例は、1つ以上のプロセッサと、1つ以上のプログラムを記憶するための記憶装置と、を含み、1つ以上のプログラムが1つ以上のプロセッサによって実行されるとき、第1側面による動画クリップの検索方法を1つ以上のプロセッサに実現させる電子機器に関する。
第4側面において、本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第1側面による動画クリップの検索方法を実現するコンピュータ可読媒体に関する。
第5側面において、本開示の実施例は、コンピュータプログラムであって、コンピュータプログラムがプロセッサによって実行されるとき、第1側面による動画クリップの検索方法を実現するコンピュータプログラムに関する。
本開示の上記実施例による動画クリップの検索方法及び装置は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行い、そして、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定し、この後、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算し、最後に、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することにより、クリップ型の動画検索が実現され、長い動画からターゲット動画に合致するクリップを検索することができ、動画検索の正確性を向上させた。
本開示のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本開示の実施例が適用可能な例示的なシステムアーキテクチャ図である。 本開示による動画クリップの検索方法の一実施例のフローチャートである。 本開示による動画クリップの検索方法の別の実施例のフローチャートである。 本開示の動画クリップの検索装置の一実施例の概略構成図である。 本開示の実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。
以下、図面及び実施例を参照して本開示についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。
なお、矛盾しない場合には、本開示の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本開示を詳細に説明する。
図1には、本開示が適用され得る、動画クリップの検索方法又は動画クリップの検索装置の例示的なシステムアーキテクチャ100が示されている。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104およびサーバー105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバー105との間に通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
端末機器101、102、103は、ネットワーク104を介してサーバー105とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器101、102、103は、ユーザ110側の装置であってもよく、様々なクライアントアプリケーションがインストールされることができる。例えば様々な動画編集アプリケーション、メディア再生アプリケーション、検索アプリケーションなどが挙げられている。
端末機器101、102、103は、ハードウェアでもソフトウェアでもよい。端末機器101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、ラップトップパソコン、デスクトップコンピュータなどを含むがこれらに限定されない。端末機器101、102、103がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
サーバー105は、様々なサービスを実行するサーバーであってもよく、例えば、検索アプリケーションまたは動画サイトに対しバックグラウンドサポートを提供するサーバーである。サーバー105は、端末機器101、102、103の動画検索要求を取得し、動画検索要求を解析することにより、ターゲット動画を抽出し、ネットワークデータベースまたは動画ライブラリから合致した動画または動画クリップを検索し、検索結果を端末機器101、102、103にフィードバックすることができる。
なお、サーバー105は、ハードウェアでもソフトウェアでもよい。サーバー105がハードウェアである場合、複数のサーバーからなる分散型サーバークラスターとして実現されてもよく、単一のサーバーとして実現されてもよい。サーバー105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
または、いくつかのシーンでは、端末機器101、102、103は、動画検索動作を実行してもよく、例えば、ローカル動画ライブラリからユーザが所望する動画または動画クリップを検索することができる。
本開示の実施例による動画クリップの検索方法は、端末機器101、102、103またはサーバー105によって実行されることができ、これに対応して、動画クリップの検索装置は、端末機器101、102、103またはサーバー105に配置されることができる。
いくつかのシーンでは、端末機器101、102、103またはサーバー105は、ターゲット動画と動画データベースをローカルから読み取ったり、データベースなどから取得してもよい。この場合、例示的なシステムアーキテクチャ100は、ネットワーク104およびサーバー105を含まなくてもよく、または端末機器101、102、103およびネットワーク104を含まなくてもよい。
図1の端末機器、ネットワーク、およびサーバーの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバーを備えることができる。
続けて図2を参照すると、本開示による動画クリップの検索方法の一実施例のフロー200が示されている。当該動画クリップの検索方法は、以下のステップを含む。
ステップ201において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行う。
本実施例において、動画クリップの検索方法の実行主体は、ターゲット動画を取得し、動画ライブラリにおける検索待ち動画を読み取ることができる。ここで、ターゲット動画は、ユーザが検索したい動画であってもよい。動画ライブラリは、事前に構築され、複数の動画を含んでもよい。
実際には、動画ライブラリは、動画サイトの動画ライブラリであってもよく、またはサービスを検索するバックグラウンドサーバのメンテナンスまたはアクセス許可を得た動画データベースであってもよい。ユーザは、ターゲット動画をアップロードすることによって、動画クリップ検索要求を提出することができる。サーバーは、ユーザの動画クリップ検索要求を取得した後、動画ライブラリにおける動画を検索待ち動画として読み取ることができる。
本実施例において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行うことができ、具体的に、設定されたサンプリングレート(例えば、毎秒1フレームをサンプリングし)または予め設定されたサンプルフレームの数(例えば、100フレームをサンプリングし)に従って、それぞれターゲット動画と検索待ち動画からいくつかのサンプルフレームを均一または非均一にサンプリングすることができる。
次に、上記実行本体は、サンプルフレームに対し特徴抽出を行うことができ、具体的な特徴抽出方法は、既存の画像特徴抽出方法を用いることができ、例えば、特徴点に基づくSIFT(Scale-invariant feature transform、スケール不変特徴変換)アルゴリズムなどが挙げられ、または訓練されたニューラルネットワークを用いて抽出することができる。
本実施例のいくつかの選択可能な実施形態において、訓練された画像識別ニューラルネットワークまたは画像分類ニューラルネットワークを用いて、サンプルフレームに対し特徴抽出を行ってもよい。ここで、画像識別ニューラルネットワークまたは画像分類ニューラルネットワークは、特徴抽出層および分類器を含み、特徴抽出層は、複数の畳み込み層を含むことができ、分類器は、プーリング化層、全結合層、および非線形層を含むことができる。特徴抽出層を用いてサンプルフレームの特徴を抽出することができ、具体的には、特徴抽出層における最後の畳み込み層の出力を抽出されたサンプルフレームの特徴とする。
さらに、動画クリップの検索方法は、上述画像識別ニューラルネットワークまたは画像分類ニューラルネットワークを訓練するステップを含んでもよく、訓練において識別アノテーション情報または分類アノテーション情報を含むサンプル画像に基づいて特徴抽出層のパラメータを反復的に調整してもよく、訓練された後の画像識別ニューラルネットワークまたは画像分類ニューラルネットワークが画像特徴の抽出を正確に実現できるように、複数回パラメータを反復的に調整して特徴抽出層を絶えず最適化する。
ステップ202において、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定する。
上記の各サンプルフレームの特徴は、フレームレベルの特徴である。本実施例では、ターゲット動画における各サンプルフレームの特徴を融合させて、ターゲット動画の動画レベルの特徴を得ることができる。同様に、検索待ち動画ごとに、各サンプルフレームの特徴を融合させて、検索待ち動画の動画レベルの特徴を得ることができる。
ここで、同じ動画における各サンプルフレームの特徴融合は、特徴スティッチングの方法を採用してもよく、例えば、各サンプルフレームの特徴を正規化し、同じ長さに変換してからスティッチングする。または、各サンプルフレームの特徴を対応する動画の多次元特徴になるように組み合わせる方法を採用してもよく、例えば、各サンプルフレームの特徴が32次元の特徴ベクトルであり、動画におけるサンプルフレームの数が100フレームである場合、当該動画の特徴として、各サンプルフレームの特徴を32×100次元の特徴マトリックスになるように組み合わせる。
次いで、ターゲット動画の特徴と各検索待ち動画の特徴をマッチングすることができ、具体的に、コサイン類似度のような両者の間の類似度を計算することができる。類似度が予め設定された類似度閾値より大きいかどうかを判断することができ、類似度が予め設定された類似度閾値より大きい場合、対応する検索待ち動画がターゲット動画に合致する候補検索待ち動画であると確定し、類似度が予め設定された類似度閾値より小さい場合、対応する検索待ち動画がターゲット動画に合致する候補検索待ち動画ではないと確定する。または、ターゲット動画に合致した候補検索待ち動画として、すべての検索待ち動画の中から、上記の類似度の降順で並べ替えられた前に予め設定されたビットの検索待ち動画を選択することができる。
本実施例のいくつかの選択可能な実施形態において、以下のようにして、ターゲット動画に合致する候補検索待ち動画を確定することができ、即ち、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定し、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定する。
上記実施形態では、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと検索待ち動画における各サンプルフレームをマッチングすることにより、サンプルフレーム間の整合度を得ることができ、この後、整合度が予め設定されたフレームレベル整合度閾値を超えたサンプルフレームの数を統計し、ちなみに、検索待ち動画における各サンプルフレームとターゲット動画における各サンプルフレームとのマッチング結果に対する統計値として、各検索待ち動画においてターゲット動画におけるサンプルフレームとの整合度が予め設定されたフレームレベル整合度閾値を超えたサンプルフレームを抽出し、対応する整合度の平均値または総和を計算する。次いで、候補検索待ち動画として、統計値が最も大きい少なくとも1つの検索待ち動画が選択された。
当該実施形態により、ターゲット動画と検索待ち動画とのフレームレベルのマッチングが可能となり、この結果、動画クリップの検索範囲が縮小され、合致する動画クリップを含むことができる候補検索待ち動画が初歩的に選別されることができる。
ステップ203において、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算する。
候補検索待ち動画に対し動画クリップを切り分けることができる。例えば、スライディングウィンドウ方式で候補検索待ち動画から複数の候補動画クリップを抽出することができ、ここで、スライディングウィンドウの境界は、候補動画クリップの開始位置および終了位置に対応する。または、いくつかの選択可能な実施形態において、サンプルフレームの特徴に基づいて、各サンプルフレームのコンテンツテーマを識別し、同じ候補検索待ち動画における異なるサンプルフレームのコンテンツテーマ間の相関に基づいて、異なるサンプルフレームが同じ動画クリップに属するかどうかを確定することにより、動画クリップの分割を実現することができる。ここで、サンプルフレームのコンテンツテーマは、例えば歩行者の姿勢、人物のアイデンティティ、障害物の形状/色/位置などの画像内のオブジェクト属性を含むことができ、画像のスタイル、色調、シーンなどのコンテンツ属性であってもよい。
選択肢の一つとして、ターゲット動画の長さを取得し、候補検索待ち動画からターゲット動画の長さに近い少なくとも1つの候補動画クリップを確定することができる。例えば、ターゲット動画の長さが1分である場合、候補動画クリップの長さは、55秒から65秒の間とすることができる。
実践において、動画編集では倍速再生またはスロー再生が使用されるので、候補動画クリップの長さもターゲット動画の長さと大きく異なることがある。
各候補動画クリップについて、当該候補動画クリップに含まれる各サンプルフレームに基づいて、当該候補動画クリップの動画レベル特徴を確定することができる。それから、ターゲット動画の動画レベルの特徴と候補動画クリップの動画レベルの特徴とに基づいて、ターゲット動画と候補動画クリップとの整合度を計算することができる。例えば、両者のコサイン類似度を計算することができ、両者の間の距離などを整合度とする。
いくつかの選択可能な実施形態において、以下のようにして、候補検索待ち動画から少なくとも1つの候補動画クリップを確定することができ、即ち、候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得る。
候補検索待ち動画から、それぞれB、B、…、BであるN個のサンプルフレームがサンプリングされたと仮定すると、N個のサンプルフレームを2つずつ組み合わせることにより、サンプルフレームペア(B、B)、(B、B)、…、(B、A)、(B、B)、(B、B)、…、(B、B)、…、(BN−1、B)を得て、サンプルフレーム毎に1つの候補動画クリップに対応し、ここで、サンプルフレームペアのうち、元の候補検索待ち動画における時間値が小さいものは、候補動画クリップの開始フレームであり、元の候補検索待ち動画における時間値が大きいものは、候補動画クリップの終了フレームである。このようにすると、候補検索待ち動画におけるすべてのサンプルフレームによって形成された動画クリップを巡回することができ、且つ動画クリップの長さを制限することなく、当該方法は、倍速再生またはスロー再生の動画クリップのマッチングに適用されることができる。
ステップ204において、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定する。
ターゲット動画に合致する動画クリップとして、ターゲット動画との整合度が最も高い候補動画クリップが確定されることができる。または、当該候補動画クリップに含まれるすべてのサンプルフレームの対応する検索待ち動画の時間軸上の位置に基づいて、それぞれ候補動画クリップの開始時刻と終了時刻に対し、前後に向かって検索して最適化することにより、検索待ち動画におけるターゲット動画に合致する完全な動画クリップを特定することができる。
本開示の上記実施例による動画クリップの検索方法は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行い、そして、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定し、この後、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算し、最後に、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定することにより、クリップ型の動画検索が実現され、長い動画からターゲット動画に合致するクリップを検索することができ、動画検索の正確性を向上させた。
続けて図3を参照すると、本開示による動画クリップの検索方法の別の実施例のフローが示されている。図3に示すように、本実施例の動画クリップの検索方法のフロー300は、以下のステップを含む。
ステップ301において、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行う。
ステップ302において、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定する。
本実施例のステップ301、ステップ302は、それぞれ上述実施例のステップ201、ステップ202と一致し、ステップ301とステップ302の具体的な実施形態について、それぞれ上述実施例のステップ201とステップ202の説明を参照してもよく、ここでは説明を省略する。
ステップ303において、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算する。
本実施例では、候補検索待ち動画を確定した後、候補検索待ち動画に対し動画クリップを切り分けることにより、少なくとも1つの候補動画クリップを得ることができる。具体的に、スライディングウィンドウ方式で候補検索待ち動画から複数の候補動画クリップを抽出することができ、サンプルフレームの特徴に基づいて、各サンプルフレームのコンテンツテーマを識別し、候補検索待ち動画における各サンプルフレームのコンテンツテーマ間の相関に基づいて、動画クリップを分割することもできる。または、いくつかの選択可能な実施形態において、候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得ることができる。
なお、長い動画について、上記した2つずつ組み合わせることにより得られた候補動画クリップの数が多い。動画クリップの検索速度を向上させるために、本開示の実施例では、より長い候補検索待ち動画について、プルーニングの方法によって候補動画クリップをフィルタリングすることができ、例えば、含まれた各サンプルフレームとターゲット動画のサンプルフレームとの類似度の平均値が閾値未満の候補動画クリップをフィルタリングすることができる。または、予め訓練された検出ネットワークを用いて、候補動画クリップを初歩的に選別することができる。
次に、サンプルフレームの特徴に基づいて、候補動画クリップにおける各サンプルフレームとターゲット動画におけるサンプルフレームとの類似性を計算することができる。具体的に、サンプルフレームXの特徴が{X}であり、サンプルフレームYの特徴が{Y}である場合、サンプルフレームXとYとの類似度sim(X、Y)は、
Figure 2021168117
である。
ここで、W×Hは、サンプルフレームから抽出された特徴の数であり、dot(X、Y)は、XとYの内積であり、dot(Y、X)は、YとXの内積である。
本実施例では、上記の式(1)を用いて、ターゲット動画における各サンプルフレームと候補動画クリップにおける各サンプルフレームとの類似度を計算することにより、フレームレベルの類似度を得ることができる。
ステップ304において、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。
次に、動画レベルの整合度を計算することができる。具体的に、ターゲット動画Aのサンプルフレームを(Aa1、Aa1+1、…、Aa2)と表し、候補動画クリップBにおけるサンプルフレームは、(Bb1、Bb1+1、…、Bb2)であり、ここで、a1、a2、b1、b2は、正の整数であり、a1<a2、b1<b2である。以下のようにして、ターゲット動画と候補動画クリップとのフレームレベルの類似度SIM(A(a1、a2)、B(b1、b2))を計算することができ、即ち、
Figure 2021168117
である。
ターゲット動画と候補動画クリップとのフレームレベルの類似性を両者の整合度とすることができる。
または、本実施例のいくつかの選択可能な実施形態において、さらに、ターゲット動画と候補動画クリップとのフレームレベルの類似性に基づいて、以下のようにして、ターゲット動画と候補動画クリップとの整合度を確定することができ、即ち、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得て、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。
報酬関数Rは、
Figure 2021168117
である。
または、いくつかの実施例では、予め設定された報酬関数の値は、ターゲット動画の長さと正の相関がある場合、報酬関数は、
Figure 2021168117
になる。
このようにすると、ターゲット動画Aと候補動画クリップBとの整合度Pは、
Figure 2021168117
になる。
ここで、λとlは、超パラメータであり、予め設定されたり、訓練によって学習されたりできる。λとlが大きいほど、より長い動画クリップの検索が奨励される。
このようにすると、検索された動画クリップの長さを奨励することによって、より長い動画クリップの検索を奨励することができ、これにより、動画クリップの検索結果の正確性を向上させることができる。
さらに、候補動画クリップを確定する場合、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定することができる。
具体的に、ターゲット動画と候補動画クリップの長さの比の範囲を設定することにより、動画の倍速再生またはスロー再生の倍率を制限することができ、具体的に、
Figure 2021168117
である。
ここで、kは、倍速再生またはスロー再生の最大スケール因子であり、予め設定されてもよく、例えば2に設定される。なお、ここで、ターゲット動画と検索待ち動画のフレームレートは、同じである。
上記実施形態は、動画の倍速再生またはスロー再生のスケール因子を制限することにより、当該方法を、倍速再生またはスロー再生によってカッティングまたはスティッチングされて合成された動画におけるクリップ検索に適用することができる。
ステップ305において、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定する。
ターゲット動画と各候補動画クリップとの整合度が確定された後、検索されたターゲット動画に合致する動画クリップとして、最も整合度の高い候補動画クリップを選択することができる。
本実施例の動画クリップの検索方法のフロー300では、まず、ターゲット動画と候補動画クリップに対しフレームレベルの整合度を計算し、各サンプルフレームのフレームレベルの整合度の平均値に基づいて動画レベルの整合度を確定することにより、より正確な動画レベルのマッチング結果を得ることができる。ちなみに、動画クリップの長さに関する報酬関数を設定することにより、時間が短すぎる動画クリップの検索をさらに回避し、検索結果の信頼性を向上させることができる。
上述した図2および図3を参照して説明された実施例のいくつかの選択可能な実施形態において、ターゲット動画と各候補動画クリップとの整合度に基づいて、以下のようにして、検索待ち動画においてターゲット動画に合致する動画クリップを確定することもでき、即ち、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定し、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する。
具体的に、候補動画クリップから、ターゲット動画との整合度が最大であり、または整合度が予め設定された閾値を超えたターゲット動画クリップが確定された後、当該ターゲット動画クリップの元の検索待ち動画内の位置を確定し、検索待ち動画における当該ターゲット動画クリップの開始フレームと終了フレームを特定することができる。
上記ターゲット動画クリップがサンプルフレームに基づいて確定されたので、サンプリングによる誤差をさらに補償するために、上記検索待ち動画においてターゲット動画クリップの開始フレームを起点として前に向かって予め設定された期間(例えば、1分間以内)の動画フレームにおいて、当該ターゲット動画クリップのコンテンツテーマに一致または連続する前フレームを検索し、ターゲット動画クリップの終了フレームを起点として後に向かって予め設定された期間(例えば、1分間以内)の動画フレームにおいて、当該ターゲット動画クリップのコンテンツテーマに一致または連続する後フレームを検索し、これによって、検索待ち動画においてターゲット動画に合致する動画クリップの位置を較正する。このようにすると、動画クリップの検索結果の正確性をさらに向上させることができる。
上記方法では、検索された動画クリップが備えられた検索待ち動画と当該動画クリップの検索待ち動画内の開始時間および終了時間をユーザにプッシュして、ユーザに動画クリップの検索結果を知らせることにより、ユーザが取得したい情報を素早く閲覧することを助ける。
図4を参照して、上記動画クリップの検索方法の実現として、本開示は動画クリップの検索装置の一実施例を提供し、当該装置の実施例は、図2及び図3に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。
図4に示すように、本実施例に係る動画クリップの検索装置400は、抽出ユニット401と、第1の確定ユニット402と、計算ユニット403と、第2の確定ユニット404とを含む。ここで、抽出ユニット401は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成され、第1の確定ユニット402は、サンプルフレームの特徴に基づいて、ターゲット動画と検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成され、計算ユニット403は、候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各サンプルフレームの特徴に基づいて、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、第2の確定ユニット404は、ターゲット動画と各候補動画クリップとの整合度に基づいて、検索待ち動画においてターゲット動画に合致する動画クリップを確定するように構成される。
いくつかの実施例において、上記第1の確定ユニット402は、サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、ターゲット動画における各サンプルフレームと検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、を含む。
いくつかの実施例において、上記計算ユニット403は、以下のようにして、候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得る。
いくつかの実施例において、上記計算ユニット403は、各サンプルフレームの特徴に基づいて、以下のようにして、ターゲット動画と各候補動画クリップとの整合度を計算するように構成され、即ち、各サンプルフレームの特徴に基づいて、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度を計算し、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの整合度を確定する。
いくつかの実施例において、上記第2の確定ユニット404は、ターゲット動画における各サンプルフレームのそれぞれと候補動画クリップにおける各サンプルフレームとの類似度に基づいて、ターゲット動画と候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、ターゲット動画と候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、ターゲット動画と候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、を含み、ここで、予め設定された報酬関数の値は、候補動画クリップの長さと正の相関を有する。
いくつかの実施例において、上記計算ユニット403は、以下のようにして、候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、候補検索待ち動画から、長さとターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定する。
いくつかの実施例において、上記第2の確定ユニット404は、候補動画クリップから、ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、対応する検索待ち動画においてターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、を含む。
上記装置400における各ユニットは、図2及び図3を参照して説明された方法におけるステップに対応する。したがって、動画クリップの検索方法について説明された動作、特徴、および達成可能な技術的効果は、装置400およびその中に含まれるユニットにも同様に適用でき、ここでは説明を省略する。
以下、図5を参照し、本開示の実施例を実現するための電子機器(例えば図1に示されたサーバー)500の概略構造図が示されている。図5に示した電子機器は一例であり、本開示の実施例の機能と使用範囲を限定するものではない。
図5に示すように、電子機器500は、読み出し専用メモリ(ROM)502に記憶されているプログラムまたは記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置(例えば中央処理装置、グラフィックスプロセッサなど)501を含むことができる。RAM503には、電子機器500の操作に必要な様々なプログラムとデータが記憶されている。処理装置501、ROM502、およびRAM503は、バス504によって相互に接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
通常、I/Oインターフェース505には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置506と、例えば液晶ディスプレイ(LCD)、スピーカー、振動器などを含む出力装置507と、例えばハードディスクなどを含む記憶装置508と、通信装置509とが接続されている。通信装置509は、データを交換するために電子機器500が他の機器と無線通信または有線通信することを許可できる。図5は、様々な装置を有する電子機器500を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図5に示した各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を表してもよい。
特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置609を介してネットワークからダウンロードされてインストールされ、または記憶装置608からインストールされ、またはROM602からインストールされることができる。このコンピュータプログラムが処理装置601によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、1本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むが、これらに限らない。
上記コンピュータ可読媒体は、上記電子機器に含まれてもよく、個別に存在しこの電子機器に組み込まれなくてもよい。上記のコンピュータ可読媒体は、1つ以上のプログラムを担持し、上記の1つ以上のプログラムが当該電子機器によって実行されたとき、当該電子機器は、ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、を含む。当該方法は、動画検索の正確性を向上させる。
本開示の実施例の操作を実行するためのコンピュータプログラムコードを、1以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Java(登録商標)、Smalltalk、C ++などのオブジェクト指向プログラミング言語を含み、さらに「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、1つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバー上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダを利用してインターネットを介して接続する)。
図の中のフローチャートおよびブロック図には、本開示の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための1つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す2つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。
本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「抽出ユニットと、第1の確定ユニットと、計算ユニットと、第2の確定ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、抽出ユニットを「ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うユニット」と記載してもよい。
上記の説明は、本開示の好ましい実施例および応用された技術の原理の説明にすぎない。本開示に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上述の特徴が本開示において開示されているもの(しかしこれに限らず)と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims (17)

  1. ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うことと、
    サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することと、
    前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することと、
    前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することと、
    を含む、
    動画クリップの検索方法。
  2. 前記サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定することは、
    前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を確定することと、
    前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、前記ターゲット動画に合致する候補検索待ち動画を確定することと、
    を含む、
    請求項1に記載の方法。
  3. 前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定することは、
    前記候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、前記サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得ることを含む、
    請求項1に記載の方法。
  4. 前記各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算することは、
    各前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度を計算することと、
    前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定することと、
    を含む、
    請求項1に記載の方法。
  5. 前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定することは、
    前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの類似度を確定することと、
    前記ターゲット動画と前記候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、前記ターゲット動画と前記候補動画クリップとの整合度を得ることと、
    を含み、
    ここで、前記予め設定された報酬関数の値は、前記候補動画クリップの長さと正の相関を有する、
    請求項4に記載の方法。
  6. 前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定することは、
    前記候補検索待ち動画から、長さと前記ターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定することを含む、
    請求項1に記載の方法。
  7. 前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定することは、
    前記候補動画クリップから、前記ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定することと、
    前記ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、前記ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、前記対応する検索待ち動画において前記ターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定することと、
    を含む、
    請求項1から6のいずれか1項に記載の方法。
  8. ターゲット動画と動画ライブラリにおける検索待ち動画に対し動画のフレームサンプリングを行って、サンプリングされたサンプルフレームに対し特徴抽出を行うように構成される抽出ユニットと、
    サンプルフレームの特徴に基づいて、前記ターゲット動画と前記検索待ち動画をマッチングし、ターゲット動画に合致する候補検索待ち動画を確定するように構成される第1の確定ユニットと、
    前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定し、各前記サンプルフレームの特徴に基づいて、前記ターゲット動画と各前記候補動画クリップとの整合度を計算するように構成される計算ユニットと、
    前記ターゲット動画と各前記候補動画クリップとの整合度に基づいて、検索待ち動画において前記ターゲット動画に合致する動画クリップを確定するように構成される第2の確定ユニットと、
    を含む、
    動画クリップの検索装置。
  9. 前記第1の確定ユニットは、
    前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を確定するように構成されるマッチングユニットと、
    前記ターゲット動画における各サンプルフレームと前記検索待ち動画における各サンプルフレームとのマッチング結果を統計し、統計結果に基づいて、前記ターゲット動画に合致する候補検索待ち動画を確定するように構成される統計ユニットと、
    を含む、
    請求項8に記載の装置。
  10. 前記計算ユニットは、以下のようにして、前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、
    前記候補検索待ち動画のサンプルフレームを2つずつ組み合わせることにより、少なくとも1つのサンプルフレームペアを得て、前記サンプルフレームペアのうちの2つのサンプルフレームをそれぞれ候補動画クリップの開始フレームと終了フレームとして、少なくとも1つの候補動画クリップを得る、
    請求項8に記載の装置。
  11. 前記計算ユニットは、各前記サンプルフレームの特徴に基づいて、以下のようにして、前記ターゲット動画と各前記候補動画クリップとの整合度を計算するように構成され、即ち、
    各前記サンプルフレームの特徴に基づいて、前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度を計算し、
    前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの整合度を確定する、
    請求項8に記載の装置。
  12. 前記第2の確定ユニットは、
    前記ターゲット動画における各サンプルフレームのそれぞれと前記候補動画クリップにおける各サンプルフレームとの類似度に基づいて、前記ターゲット動画と前記候補動画クリップとの類似度を確定するように構成される動画レベルの類似度計算ユニットと、
    前記ターゲット動画と前記候補動画クリップとの類似度を予め設定された報酬関数の値に重畳することにより、前記ターゲット動画と前記候補動画クリップとの整合度を得るように構成される報酬関数重畳ユニットと、
    を含み、
    ここで、前記予め設定された報酬関数の値は、前記候補動画クリップの長さと正の相関を有する、
    請求項11に記載の装置。
  13. 前記計算ユニットは、以下のようにして、前記候補検索待ち動画から少なくとも1つの候補動画クリップを確定するように構成され、即ち、
    前記候補検索待ち動画から、長さと前記ターゲット動画の長さとの比が予め設定された区間内である少なくとも1つの候補動画クリップを確定する、
    請求項8に記載の装置。
  14. 前記第2の確定ユニットは、
    前記候補動画クリップから、前記ターゲット動画との整合度が予め設定された条件を満たすターゲット候補動画クリップを確定するように構成される選別ユニットと、
    前記ターゲット候補動画クリップの開始フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、前に向かってフレーム検索を行って、前記ターゲット候補動画クリップの終了フレームであるサンプルフレームの対応する検索待ち動画内の位置に基づいて、後に向かってフレーム検索を行うことにより、前記対応する検索待ち動画において前記ターゲット動画に合致する動画クリップの開始フレーム及び終了フレームを確定する検索ユニットと、
    を含む、
    請求項8から13のいずれか1項に記載の装置。
  15. 1つ以上のプロセッサと、
    1つ以上のプログラムが記憶された記憶装置と、
    を含み、
    前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、請求項1から7のいずれか1項に記載の方法を前記1つ以上のプロセッサに実現させる、
    電子機器。
  16. コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1から7のいずれか1項に記載の方法を実現する、
    コンピュータ可読媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1から7のいずれか1項に記載の方法を実現する、
    コンピュータプログラム。
JP2021037355A 2020-04-09 2021-03-09 動画クリップの検索方法及び装置 Active JP7222008B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010274782.3A CN111522996B (zh) 2020-04-09 2020-04-09 视频片段的检索方法和装置
CN202010274782.3 2020-04-09

Publications (2)

Publication Number Publication Date
JP2021168117A true JP2021168117A (ja) 2021-10-21
JP7222008B2 JP7222008B2 (ja) 2023-02-14

Family

ID=71902507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021037355A Active JP7222008B2 (ja) 2020-04-09 2021-03-09 動画クリップの検索方法及び装置

Country Status (5)

Country Link
US (1) US11625433B2 (ja)
EP (1) EP3893125A1 (ja)
JP (1) JP7222008B2 (ja)
KR (1) KR20210125902A (ja)
CN (1) CN111522996B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004163A (zh) * 2020-08-31 2020-11-27 北京市商汤科技开发有限公司 视频生成方法及装置、电子设备和存储介质
CN113836351A (zh) * 2020-09-15 2021-12-24 阿里巴巴集团控股有限公司 一种同源视频片段的确定方法、装置及电子设备
CN112836600B (zh) * 2021-01-19 2023-12-22 新华智云科技有限公司 一种视频相似度的计算方法与系统
CN113038195B (zh) * 2021-03-17 2023-04-11 北京市商汤科技开发有限公司 视频处理方法、装置、系统、介质及计算机设备
CN113190713A (zh) * 2021-05-06 2021-07-30 百度在线网络技术(北京)有限公司 视频搜索方法及装置、电子设备和介质
CN113301408B (zh) * 2021-05-21 2023-01-10 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
US11954145B2 (en) 2021-06-22 2024-04-09 Huawei Technologies Co., Ltd. Methods, systems, and media for image searching
CN114329063A (zh) * 2021-10-29 2022-04-12 腾讯科技(深圳)有限公司 视频片段检测方法、装置以及设备
CN116186329B (zh) * 2023-02-10 2023-09-12 阿里巴巴(中国)有限公司 视频处理、搜索、索引构建方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237879A (ja) * 2010-05-06 2011-11-24 Hitachi Ltd 類似映像検索装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
US20080288509A1 (en) * 2007-05-16 2008-11-20 Google Inc. Duplicate content search
US20100085481A1 (en) * 2008-07-23 2010-04-08 Alexandre Winter Frame based video matching
US8953836B1 (en) * 2012-01-31 2015-02-10 Google Inc. Real-time duplicate detection for uploaded videos
CN102890700B (zh) * 2012-07-04 2015-05-13 北京航空航天大学 一种基于体育比赛视频的相似视频片段检索方法
CN102737135B (zh) * 2012-07-10 2015-07-01 北京大学 基于变形敏感的软级联模型的视频拷贝检测方法及系统
JP2016502194A (ja) * 2012-11-30 2016-01-21 トムソン ライセンシングThomson Licensing ビデオ検索方法及び装置
US10152479B1 (en) * 2014-08-01 2018-12-11 Google Llc Selecting representative media items based on match information
CN104239566B (zh) * 2014-09-28 2019-02-12 小米科技有限责任公司 视频搜索的方法及装置
RU2632127C1 (ru) * 2016-04-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система сравнения видеофайлов
CN110019895B (zh) * 2017-07-27 2021-05-14 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置及电子设备
CN107943849B (zh) * 2017-11-03 2020-05-08 绿湾网络科技有限公司 视频文件的检索方法及装置
CN108427925B (zh) * 2018-03-12 2020-07-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108763295B (zh) * 2018-04-18 2021-04-30 复旦大学 一种基于深度学习的视频近似拷贝检索算法
CN109977262B (zh) * 2019-03-25 2021-11-16 北京旷视科技有限公司 从视频中获取候选片段的方法、装置及处理设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237879A (ja) * 2010-05-06 2011-11-24 Hitachi Ltd 類似映像検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LING WANG,外4名: "Compact CNN Based Video Representation for Efficient Video Copy Detection", INTERNATIONAL CONFERENCE ON MULTIMEDIA MODELING,MMM 2017, vol. Part I,LNCS 10132, JPN6022030919, 2017, pages 576 - 587, ISSN: 0004835025 *

Also Published As

Publication number Publication date
JP7222008B2 (ja) 2023-02-14
CN111522996A (zh) 2020-08-11
US11625433B2 (en) 2023-04-11
CN111522996B (zh) 2023-09-08
KR20210125902A (ko) 2021-10-19
EP3893125A1 (en) 2021-10-13
US20210319062A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
JP2021168117A (ja) 動画クリップの検索方法及び装置
CN111428088B (zh) 视频分类方法、装置及服务器
JP5801395B2 (ja) シャッタクリックを介する自動的メディア共有
WO2020087979A1 (zh) 生成模型的方法和装置
WO2019242222A1 (zh) 用于生成信息的方法和装置
KR20210144625A (ko) 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체
US20240107127A1 (en) Video display method and apparatus, video processing method, apparatus, and system, device, and medium
CN109740018B (zh) 用于生成视频标签模型的方法和装置
JP2020528705A (ja) 認知的洞察を使用したビデオ・シーンの移動
CN109993150B (zh) 用于识别年龄的方法和装置
CN106973244A (zh) 使用弱监督为图像配字幕
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
EP3514728A1 (en) Machine-in-the-loop, image-to-video computer vision bootstrapping
CN111523413B (zh) 生成人脸图像的方法和装置
CN112235641B (zh) 一种视频推荐方法、装置、设备和介质
CN113806588B (zh) 搜索视频的方法和装置
JP2021535508A (ja) 顔認識において偽陽性を低減するための方法および装置
WO2021190625A1 (zh) 拍摄方法和设备
WO2024099171A1 (zh) 视频生成方法和装置
CN111970536B (zh) 一种基于音频生成视频的方法和装置
CN112040339A (zh) 一种视频数据的制作方法、装置、计算机设备和存储介质
JP2016181143A (ja) ユーザプロファイル作成装置、動画像分析装置、動画像再生装置、及びユーザプロファイル作成プログラム
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN109816023B (zh) 用于生成图片标签模型的方法和装置
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7222008

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150