JP7059508B2

JP7059508B2 - ビデオ時系列動作の検出方法、装置、電子デバイス、プログラム及び記憶媒体

Info

Publication number: JP7059508B2
Application number: JP2021001252A
Authority: JP
Inventors: リン、ティアンウェイ; リ、シン; ヘ、ドンリャン; リ、フ; スン、ハオ; ウェン、シレイ; ディン、エルイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2021-01-07
Publication date: 2022-04-26
Anticipated expiration: 2041-01-07
Also published as: KR102567161B1; KR20210091057A; EP3848852B1; US20210216782A1; CN111222476A; EP3848852A1; CN111222476B; US11600069B2; JP2021111401A

Description

本出願はコンピュータ技術分野、特にビデオ処理技術分野に関し、具体的にはビデオ時系列動作の検出方法、装置、プログラム、電子デバイス及び記憶媒体に関する。

高品質の短いビデオコンテンツを作成するためには、ビデオ制作者は通常、オリジナルの長いビデオ素材から興味のあるビデオを手動でクリップし、不要な素材を大量に除去する必要がある。このプロセスは、ビデオ制作者の多くの労力を必要とする。例えば、ビデオクリップの効率を向上させるためには、通常、ビデオ作成者またはビデオプラットフォームは長いビデオから指定された動作種類の短いビデオセグメントを自動的にクリップすることを支援する技術手段を使用する必要がある。そのクリップ中に関連するアルゴリズムタスクはビデオ時系列動作検出タスクであり、その目的はクリップされていない長いビデオから時系列動作セグメントの開始時間、終了時間、信頼度スコア及び動作種類を検出することである。この技術は、優れたビデオをスマートに編集するための重要な技術である。

既存のビデオ時系列動作検出方法は時系列次元における目標検出タスクに類似し、一般的に時系列指名生成と時系列指名分類との2つのステップを採用して完成することができる。具体的に、まずスライディングウィンドウ或いは時系列指名生成アルゴリズムを採用して時系列指名を生成し、更に分類ネットワークを通じて時系列指名の動作類別を分類する。

しかし、従来の前記のビデオ時系列動作検出方案の実現過程は煩雑であり、時系列動作の検出効率が低い。

本出願は、上記の技術的課題を解決するために、ビデオにおける時系列動作の検出の精度を向上させるためのビデオ時系列動作の検出方法、装置、電子デバイス及び記憶媒体を提供する。

一局面によれば、本出願は、検出すべきビデオの初期時系列特徴シーケンスを取得し、予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得し、前記ビデオ時系列動作検出モジュールを用いて、前記複数の時系列アンカーボックスの明示的な特徴と暗黙的な特徴とに基づいて、前記複数の時系列アンカーボックスから、特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得することを含むビデオ時系列動作の検出方法を提供する。

好ましくは、前記の方法において、検出すべきビデオの初期時系列特徴シーケンスを取得することは、前記検出すべきビデオから、予め設定されたサンプリング周期を用いて、前から後への抽出順序で複数枚の画像を順次抽出して画像シーケンスを構成し、前記画像シーケンス中の各前記画像の特徴を抽出し、前記画像シーケンス中の前後順序に従って前記初期時系列特徴シーケンスとしてスプライシングすることを含む。

好ましくは、前記の方法では、予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴を取得することは、前記ビデオ時系列動作検出モジュールが予め設定された複数種の時系列長の減少方式に従って、前記初期時系列特徴シーケンスの時系列長を減少して複数種の調整された参照時系列特徴シーケンスを取得し、各前記参照時系列特徴シーケンスについて、各時系列の位置に予め設定された数量の、スケールが異なる、複数の時系列アンカーボックスを配置し、各前記時系列アンカーボックスの暗黙的な特徴を対応する前記参照時系列特徴シーケンスにおける対応する前記時系列位置の特徴として配置することを含む。

好ましくは、前記の方法では、予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの明示的な特徴を取得することは、複数の前記参照時系列特徴シーケンスの中で長さの最も長い参照時系列特徴シーケンスをサンプリングサンプルとし、各前記時系列アンカーボックスに対して構成されたサンプリング特徴に従って、前記サンプリング特徴を前記サンプリングサンプルに乗算して各前記時系列アンカーボックスの明示的な特徴を取得することを含む。

好ましくは、前記の方法では、前記ビデオ時系列動作検出モジュールにより、前記複数の時系列アンカーボックスの明示的な特徴および暗黙的な特徴に従って、前記複数の時系列アンカーボックスから特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得することは、前記ビデオ時系列動作検出モジュールにより、各前記時系列アンカーボックスの明示的な特徴と暗黙的な特徴とをスプライシングして各前記時系列アンカーボックスの総合的特徴を取得し、各前記時系列アンカーボックスの総合的な特徴に基づいて各前記時系列アンカーボックスに対して検出して、前記特定動作を含む目標時系列アンカーボックス、前記特定動作の種類、および前記特定動作が前記種類に属する確率をスクリーニングし、前記初期時系列特徴シーケンスにおいて前記特定動作を含む目標時系列アンカーボックスの境界に対して検出し、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得することを含む。

好ましくは、前記の方法では、前記初期時系列特徴シーケンスにおいて前記特定動作を含む前記目標時系列アンカーボックスの境界に対して検出することの後であって、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得する前に、更に、前記初期時系列特徴シーケンスのうち検出された前記目標時系列アンカーボックスの境界の前後の複数の時系列特徴を組合わせて、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置に対して論理回帰分析を行うことを含む。

他の局面によれば、本出願は更に、検出すべきビデオの初期時系列特徴シーケンスを取得する特徴シーケンス取得モジュールと、予め訓練された、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得するビデオ時系列動作検出モジュールと、を備え、前記ビデオ時系列動作検出モジュールは、更に、前記複数の時系列アンカーボックスの明示的な特徴と暗黙的な特徴とに基づいて、前記複数の時系列アンカーボックスから特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得するビデオ時系列動作の検出装置を提供する。

他の局面によれば、本出願は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記の何れか一つの方法を実行させる電子デバイスを提供する。

他の局面によれば、本出願は、更にコンピュータに前記の何れか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

前記の出願の一実施形態は、予め訓練されたビデオ時系列動作検出モジュールによりビデオの時系列動作を検出することにより、従来技術のように検出過程を時系列指名生成と時系列指名分類との2つのステップに分けて実現することを避け、実現の過程が簡単であり、ビデオ時系列動作の検出効率を効果的に向上することができる、という利点または有益な効果を有する。

更に、本出願では、時系列アンカーボックスの表示特徴を効率的かつ正確に配置し、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴とを組み合わせて時系列動作を検出することにより、時系列動作の検出の正確度をさらに向上させることができる。

前記選択可能な方式が有する他の効果は、以下で具体的な実施例と合わせて説明する。

図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
本出願の第1の実施形態による模式図である。本出願におけるスケールの異なる時系列アンカーボックスの模式図である。本出願の時系列アンカーボックスの表示特徴の取得の模式図である。本出願のビデオ時系列動作検出モジュールの動作原理図である。本出願の第2の実施形態による模式図である。本出願の実施形態に係るビデオ時系列動作の検出方法を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は、本発明の第1の実施形態により提供されるビデオ時系列動作の検出方法のフローチャートである。図1に示されたように、本実施形態に係るビデオ時系列動作の検出方法は、具体的には以下のステップを含むことができる。

S101において、検出すべきビデオの初期時系列特徴シーケンスを取得する。

本実施形態のビデオ時系列動作の検出方法の実行主体は、ビデオ時系列動作の検出装置である。このビデオ時系列動作の検出装置は、電子エンティティであってもよく、ソフトウェア統合されたアプリケーションシステムを用いて実現されてもよい。使用時には、当該ビデオ時系列動作の検出装置に検出すべきビデオを入力すると、当該ビデオにおける特定の動作が含まれるビデオセグメントの開始位置、終了位置、動作種類、および当該動作種類に属する確率などの情報を取得することができる。

ステップS101は、例えば、検出すべきビデオの初期時系列特徴シーケンスを取得し、具体的に、以下のステップを含むことができる。

（a1）検出すべきビデオから、予め設定されたサンプリング周期を用いて、前から後への抽出順序で複数枚の画像を順次抽出して画像シーケンスを構成する。

例えば、本実施形態のサンプリング周期は、検出すべきビデオにおける全てのフレームの画像を抽出しても良く、2フレームおき、5フレームおき、又は他の数のフレームおきに1枚の画像を抽出してもよい。

（b1）画像シーケンスのうちの各画像の特徴を抽出し、画像シーケンスのうちの前後順序で初期時系列特徴シーケンスとしてスプライシングする。

本実施形態では、画像の特徴を抽出するために、画像分類されたコンボリューションニューラルネットワークモデルを使用することができ、例えば、当該画像分類されたコンボリューションニューラルネットワークは、imagenetデータセット上で予め訓練され、そのネットワーク構造は、resnet50と類似するネットワーク構造とすることができる。具体的には、入力された画像の特徴として、ネットワークの最後から2番目の層の結果を採用することができる。あるいは、実際の応用では、訓練済みのコンボリューションニューラルネットワーク構造を用いた他の画像特徴抽出モデルを用いて画像の特徴を抽出することも可能である。あるいは、他の画像特徴の抽出方法を用いることも可能であるが、ここで詳しく説明しない。

好ましくは、実際の応用において、前記ステップS101をビデオ時系列動作検出モジュールに組み込んで実現してもよい。

S102において、予め訓練されたビデオ時系列動作検出モジュールにより、初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得する。

本実施形態のビデオ時系列動作検出モジュールは、予め訓練されたニューラルネットワークモデルである。使用時には、このビデオ時系列動作検出モジュールに検出すべきビデオの初期時系列特徴シーケンスが入力される。このビデオ時系列動作検出モジュールは、例えば特徴取得ユニット、動作分類器、境界回帰器などに分けることができる。

具体的に、特徴取得ユニットにおいて、初期時系列特徴シーケンスに基づいて、複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得することができる。たとえば、暗黙的な特徴を取得する場合に、具体的に以下の手順を含んで良い。

（a2）ビデオ時系列動作検出モジュールにより、予め設定された複数種類の時系列長の減少方式に従って初期時系列特徴シーケンスの時系列長を減少し、複数種類の調整後の参照時系列特徴シーケンスを得る。

例えば、初期時系列特徴シーケンスの長さをTとし、予め設定された方式により時系列長の異なる4種類の参照時系列特徴シーケンスをT/4、T/8、T/16、T/32においてそれぞれ取得することができる。初期時系列特徴シーケンスと各種の参照時系列特徴シーケンスにおいて対応するビデオの時間は同じであるが、区別は隣接する2つの時系列特徴において対応する時系列位置の間の間隔が異なることにある。

（b2）各参照時系列特徴シーケンスについて、各時系列位置毎に予め設定された数量の、スケールが異なる、複数の時系列アンカーボックスを配置する。

本実施形態における各時系列アンカーボックスは、1つの時間帯内の特徴情報に対応する。本実施形態の構成によれば、検出すべきビデオから可能な限りに多いビデオセグメントを取得するように、時間粒度の異なる時系列特徴シーケンスにおいて異なるスケールで時系列アンカーボックスを配置することにより、後続の特定動作を含むビデオセグメントの検出を容易にすることができる。

（c2）各時系列アンカーボックスの暗黙的な特徴を対応する参照時系列特徴シーケンスにおける対応する時系列位置の特徴として配置する。

例えば、図2は、本出願の異なるスケールの時系列アンカーボックスの模式図である。図2に示されたように、時系列位置ごとに、中心が同じでスケールの異なるD個の時系列アンカーボックスが配置されることを例とする。そして、図2において、Dが3であることを例とする。また、中心が同じでスケールの異なるD個の時系列アンカーボックスは、対応する時系列位置の特徴を共有する。長さTの時系列特徴シーケンスの場合に、サイズはTxCであり、Cは特徴のチャネル数であり、t番目の時系列位置の特徴のサイズは1xCである。

異なる参照時系列特徴シーケンスの長さは異なり、対応する時系列アンカーボックスの数も異なる。しかし、各時系列アンカーボックスに対応する暗黙的な特徴のサイズは同じである。

例えば、図2に示されたように、長さTの時系列特徴シーケンス

の場合に、

個目の時系列位置は、特徴が

であって良く、正規化された中心点位置が

であり、隣接する2つの時系列特徴の間隔は

である。暗黙的な特徴を取得する過程において、ある時系列特徴シーケンス内の

個目の時系列位置について、それぞれ中心が当該時系列位置の中心であり、長さが時系列間隔

の倍数、例えば{0.5，0.75，1.0，1.25，1.5}のようなD個の時系列アンカーボックスが関連付けられる。D個の時系列アンカーボックスに対応する特徴は同じであることが分かる。本出願では、ネットワーク学習、即ちネットワークモデル訓練の過程によって異なる時系列アンカーボックスに対して異なる予測を行うことができるため、ここでの特徴相関過程は、時系列アンカーボックスと時系列特徴との対応関係が暗黙的であり、その対応するスケールの中心位置の特徴のみを取るという暗黙的な特徴サンプリングと呼ぶことができる。時系列アンカーボックス

について、使用する場合にその暗黙的な（implicit）特徴を

と表記できる。

さらに、予め訓練されたビデオ時系列動作検出モジュールにより、初期時系列特性シーケンスに基づいて、複数の時系列アンカーボックスの明示的な特性を取得することは、具体的に、複数の参照時系列特徴シーケンスの中で長さの最も長い参照時系列特徴シーケンスをサンプリングサンプルとし、各時系列アンカーボックスに対して構築されたサンプリング特徴に従って、サンプリング特徴にサンプリングサンプルを乗算する方式を採用して、各時系列アンカーボックスの明示的な特徴を取得することを含んで良い。具体的に、このステップも、ビデオ時系列動作検出モジュールにおける特徴取得ユニットにより実行される。

例えば、図3は、本出願の時系列アンカーボックスの表示特徴の取得の模式図である。図3に示されるように、長さTの時系列特徴シーケンス

および予め設定された時系列アンカーボックス

について、最初に時系列アンカーボックスの時系列範囲を

として拡張し、ここで

。次に、時系列アンカーボックスごとに一つのサンプリング特徴が構築され、具体的にサンプリングベクトルとも呼ばれるベクトルの形式を用い、

で示されて良く、且つ当該サンプリングベクトルは学習可能なベクトルであり、モデル訓練に各時系列アンカーボックスに対応する最適な特徴表現に調整して学習することができる。ここで、時系列アンカーボックスの時系列範囲内の値はすべて[0,1]範囲内の乱数に設定され、且つ勾配降下によって最適化可能であり、当該時系列範囲外の値は0であり、最適化不可能である。図3に示されたように、時系列アンカーボックス

の明示的な特徴は具体的に一つである形式が得られ、

で示すことができる。このサンプリング特徴と時系列特徴シーケンスFとを時系列次元においてドット積を計算することにより、サンプリングされた明示的な（explicit）サンプリング特徴が得られ、

で示すことができる。

説明すべきなのは、サンプリング特徴の正確度を確保するために、異なるスケールの時系列特徴シーケンスに関連付けられた時系列アンカーボックスについて、明示的な特徴サンプリングモジュールは、分解能の最も高い、即ち時系列の長さが最も長い時系列特徴シーケンスからサンプリングを行う。

S103において、ビデオ時系列動作検出モジュールにより、複数の時系列アンカーボックスの明示的な特徴と暗黙的な特徴とに基づいて、複数の時系列アンカーボックスから、特定動作を含むビデオセグメントの開始位置、終了位置、特定動作の種類、および特定動作が種類に属する確率を取得する。

例えば、このステップは、具体的に、ビデオ時系列動作検出モジュールにおける動作分類器および境界回帰器により実現することができる。例えば、以下のステップを含むことができる。

（a3）ビデオ時系列動作検出モジュールを用いて、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴をスプライシングして各時系列アンカーボックスの総合的な特徴を得る。

このステップは、ビデオ時系列動作検出モジュールにおける特徴取得ユニットにより実現される。

（b3）各時系列アンカーボックスの統合的な特徴に基づいて、各時系列アンカーボックスに対して検出して、特定動作を含む目標時系列アンカーボックスと、特定動作の種類と、特定動作が種類に属する確率とをスクリーニングする。

このステップは、ビデオ時系列動作検出モジュールにおける動作分類器により実現される。

（c3）初期時系列特徴シーケンスにおいて、特定動作を含む目標時系列アンカーボックスの境界に対して検出して、目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得する。

このステップは、ビデオ時系列動作検出モジュールにおける境界回帰器により実現される。

さらに、例えば、このステップ（c3）では、初期時系列特徴シーケンスにおいて、特定動作を含む目標時系列アンカーボックスの境界を検出することの後であって、目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得することの前に、初期時系列特徴シーケンスのうち、検出された目標時系列アンカーボックスの境界の前後の複数の時系列特徴を組合わせて、目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置に対して論理回帰分析を行うことを更に含む。

つまり、目標時系列アンカーボックスの境界の前後の時系列特徴を分析し、目標時系列アンカーボックスの特徴との類似度が非常に高い場合に、当該時系列特徴がその目標時系列アンカーボックスに含まれる特定動作を疑似的に含むと考えて良い。この場合に、この一部の時系列特徴も特定動作のビデオセグメントに統合することにより、特定動作を含むビデオセグメントの開始位置と終了位置を調整しても良い。当該方案の実現は、具体的に境界回帰器に実装して実現されても良い。

例えば、図4は、本願のビデオ時系列動作検出モジュールの動作原理図である。図4に示されたように、まず、あるビデオについて、一定の間隔（例えば5FPS）で画像の特徴を抽出してビデオ特徴シーケンス、例えば

を構成した後に、ビデオ時系列動作検出モジュールに入力する。このビデオ時系列動作検出モジュールでは、まず、基礎コンボリューションモジュールにより時系列長を減少し、受容野を強調して第1の時系列特徴シーケンス

を生成した後に、コンボリューション層とプーリング層を継続して使って時系列長を減少して

、

を得る。各時系列特徴シーケンスにおける各時系列位置について、D個の時系列アンカーボックスが関連付けられており、合計で

個の時系列アンカーボックスが関連付けられる。前記の暗黙的な特徴サンプリングの方式によりすべての時系列アンカーボックスの暗黙的な特徴

が得られ、同様に、明示的な特徴サンプリングの方式により明示的な特徴

が得られる。その後、両者をスプライシングすれば、完全な時系列アンカーボックスの特徴

を得ることができる。最後に、スプライシングされた時系列アンカーボックスの特徴に基づいて各時系列アンカーボックスに含まれる特定動作の種類、当該種類に属する確率、およびビデオセグメントの境界オフセットを予測する。詳細は上記実施形態の記載を参照することができ、ここでは詳しく説明しない。

また、説明すべきなのは、本実施形態のビデオ時系列動作検出モジュールの訓練過程は、上記の使用過程とほぼ一致するが、訓練時に各訓練ビデオのうち特定動作を含むビデオセグメントの開始位置、終了位置、含まれる特定動作の種類、およびその種類に属する確率が標識され、訓練時に確率がいずれも1であることだけに区別がある。これにより、前記実施例の使用手順を用いて、各訓練ビデオのうち特定動作を含むビデオセグメントの開始位置、終了位置、含まれる特定動作の種類、当該種類に属する確率を予測した後に，予測されたものと標識されたものとを比較し，一致でなければ，訓練の結果と標識の結果が一致するようにモデル中の全ての学習すべきパラメータを調整する。以上のように、予測の結果が標識の結果と常に一致するまで数本の訓練サンプルを用いてビデオ時系列動作検出モジュールに対して継続的に訓練し、一致になったタイミングで学習可能なパラメータの値を全て確定することにより、当該ビデオ時系列動作検出モジュールを確定する。

本実施形態に係るビデオ時系列動作の検出方法は、予め訓練されたビデオ時系列動作検出モジュールを用いてビデオの時系列動作を検出することにより、従来技術において検出過程を時系列指名生成と時系列指名分類の2つのステップに分けて実現することを避け、実現過程が簡単であり、ビデオ時系列動作の検出効率を効果的に高めることができる。

また、本実施形態では、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴とを組み合わせることにより、各時系列アンカーボックスの動作種類情報および時系列境界のオフセット量をより正確に予測し、より良い時系列動作検出効果を得ることができる。

一方、時系列アンカーボックスの暗黙的な特徴のみを用いて予測する場合、前記の実施例に示されたように、時系列アンカーボックスの暗黙的な特徴によって採用される時系列位置の特徴は、時系列アンカーボックスが対応する情報に大まかにしか対応できず、正確に対応できない。不正確な特徴の対応は、ビデオ時系列動作検出モジュールが動作種類の分類および時系列エッジの回帰を非常に正確に行うことができない原因となる。したがって、本実施形態では、時系列アンカーボックスの表示特徴も効率的かつ正確に配置し、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴とを組み合わせて時系列動作を検出することで、時系列動作の検出の正確度をさらに向上させることができる。

図5は、本出願の第2の実施形態に係るビデオ時系列動作の検出装置の構成図である。図5に示されたように、本実施形態のビデオ時系列動作の検出装置500は、検出すべきビデオの初期時系列特徴シーケンスを取得する特徴シーケンス取得モジュール501と、予め訓練された、初期時系列特徴シーケンスに基づいて、配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得するビデオ時系列動作検出モジュール502とを備える。

ビデオ時系列動作検出モジュール502は、更に、複数の時系列アンカーボックスの明示的な特徴および暗黙的な特徴に基づいて、複数の時系列アンカーボックスから、特定動作を含むビデオセグメントの開始位置、終了位置、特定動作の種類、および特定動作が種類に属する確率を取得するために用いられる。

更に、好ましくは、特徴シーケンス取得モジュール501は、検出すべきビデオから、予め設定されたサンプリング周期を用いて、前から後への抽出順序で複数枚の画像を順次抽出して画像シーケンスを構成し、画像シーケンスのうちの各画像の特徴を抽出して画像シーケンスにおける前後の順序に従って初期時系列特徴シーケンスとしてスプライシングする。

更に、好ましくは、ビデオ時系列動作検出モジュール502は、ビデオ時系列動作検出モジュールにより、予め設定された複数種の時系列長の減少方式に従って、初期時系列特徴シーケンスの時系列長を減少させて複数種の調整後の参照時系列特徴シーケンスを取得し、各参照時系列特徴シーケンスについて、各時系列位置に予め設定された数量の、スケールが異なる、複数の時系列アンカーボックスを配置し、各時系列アンカーボックスの暗黙的な特徴を対応する参照時系列特徴シーケンスにおける対応する時系列位置の特徴として配置する。

更に、好ましくは、ビデオ時系列動作検出モジュール502は、複数種類の参照時系列特徴シーケンスの中で長さの最も長い参照時系列特徴シーケンスをサンプリングサンプルとし、各時系列アンカーボックスに対して構築されたサンプリング特徴に従って、サンプリング特徴にサンプリングサンプルを乗算する方式で各時系列アンカーボックスの明示的な特徴を取得する。

更に、好ましくは、ビデオ時系列動作検出モジュール502は、ビデオ時系列動作検出モジュールにより、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴をスプライシングして各時系列アンカーボックスの総合的な特徴を取得し、各時系列アンカーボックスの総合的な特徴に基づいて、各時系列アンカーボックスに対して検出して、特定動作を含む目標時系列アンカーボックス、特定動作の種類及び特定動作が種類に属する確率をスクリーニングし、初期時系列特徴シーケンスにおいて特定動作を含む目標時系列アンカーボックスの境界に対して検出して目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得する。

更に、好ましくは、ビデオ時系列動作検出モジュール502は、初期時系列特徴シーケンスのうち、検出された目標時系列アンカーボックスの境界の前後の複数の時系列特徴を組み合わせて、目標時系列アンカーボックスに対応するビデオセグメントの開始位置と終了位置に論理回帰分析を行う。

本実施形態のビデオ時系列動作の検出装置500は、前記モジュールを用いることにより本実施形態のビデオ時系列動作の検出の実現原理及び技術的効果を実現し、前記関連方法の実施例の実現と同様である。詳細は前記関連方法の実施例の記載を参照することができるため、ここでは詳しく説明しない。

本発明の実施形態によれば、電子デバイスおよび可読記憶媒体も提供される。

図6は、本発明の実施形態に係るビデオ時系列動作の検出方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図6に示すように、この電子デバイスは、一つ又は複数のプロセッサ601、メモリ602、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図6において、一つのプロセッサ601を例とする。

メモリ602は、本出願で提供される非一時的なコンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供されたビデオ時系列動作の検出方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供されたビデオ時系列動作の検出方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータに実行可能なプログラム、モジュール、例えば、本出願の実施例におけるビデオ時系列動作の検出方法に対応するプログラムコマンド/モジュール（例えば、図５に示された関連モジュール）を記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるビデオ時系列動作の検出方法を実現する。

メモリ602は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はビデオ時系列動作の検出方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ602は、プロセッサ601に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してビデオ時系列動作の検出方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

ビデオ時系列動作の検出方法を実現する電子デバイスは、更に、入力装置603と出力装置604とを備えても良い。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の手段により接続されても良く、図6においてバスによる接続を例とする。

入力装置603は、入力された数字又はキャラクタ情報を受信し、ビデオ時系列動作の検出方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

本出願の実施形態に係る技術案によれば、予め訓練されたビデオ時系列動作検出モジュールによりビデオの時系列動作を検出することにより、従来技術のように検出過程を時系列指名生成と時系列指名分類の2つのステップに分けて実現することを避け、実現過程が簡単であり、ビデオ時系列動作の検出効率を効果的に高めることができる。

更に、本出願の実施形態の技術案によれば、時系列アンカーボックスの表示特徴をさらに効率的かつ正確に配置し、各時系列アンカーボックスの明示的な特徴と暗黙的な特徴とを組み合わせて時系列動作を検出することで、時系列動作の検出の正確度をさらに向上させることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

ビデオ時系列動作の検出方法であって、
検出すべきビデオの初期時系列特徴シーケンスを取得し、
予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて、配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得し、
前記ビデオ時系列動作検出モジュールを用いて、前記複数の時系列アンカーボックスの前記明示的な特徴と前記暗黙的な特徴とに基づいて、前記複数の時系列アンカーボックスから、特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得する、
ことを含む方法。
検出すべきビデオの初期時系列特徴シーケンスを取得することは、
前記検出すべきビデオから、予め設定されたサンプリング周期を用いて、前から後への抽出順序で複数枚の画像を順次抽出して画像シーケンスを構成し、
前記画像シーケンス中の前記画像の各々の特徴を抽出し、前記画像シーケンスの中の前後順序に従ってスプライシングして前記初期時系列特徴シーケンスを得ることを含む、請求項１に記載の方法。
予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴を取得することは、
前記ビデオ時系列動作検出モジュールにより、予め設定された複数種の時系列長の減少方式に従って、前記初期時系列特徴シーケンスの時系列長を減少して複数種の調整された参照時系列特徴シーケンスを取得し、
前記参照時系列特徴シーケンスの各々について、各時系列の位置に予め設定された数量の、スケールが異なる、複数の時系列アンカーボックスを配置し、
前記時系列アンカーボックスの各々の暗黙的な特徴を対応する前記参照時系列特徴シーケンスにおける対応する前記時系列の位置の特徴として配置することを含む、請求項１または２に記載の方法。
予め訓練されたビデオ時系列動作検出モジュールにより、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの明示的な特徴を取得することは、
複数種の前記参照時系列特徴シーケンスの中で長さの最も長い参照時系列特徴シーケンスをサンプリングサンプルとし、前記時系列アンカーボックスの各々に対して構成されたサンプリング特徴に従って、前記サンプリング特徴を前記サンプリングサンプルに乗算して前記時系列アンカーボックスの各々の明示的な特徴を取得することを含む、請求項３に記載の方法。
前記ビデオ時系列動作検出モジュールを用いて、前記複数の時系列アンカーボックスの前記明示的な特徴と前記暗黙的な特徴とに基づいて、前記複数の時系列アンカーボックスから、特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得することは、
前記ビデオ時系列動作検出モジュールにより、前記時系列アンカーボックスの各々の明示的な特徴と暗黙的な特徴とをスプライシングして前記時系列アンカーボックスの各々の総合的な特徴を取得し、
前記時系列アンカーボックスの各々の総合的な特徴に基づいて、前記時系列アンカーボックスの各々に対して検出して、前記特定動作を含む目標時系列アンカーボックス、前記特定動作の種類、および前記特定動作が前記種類に属する確率をスクリーニングし、
前記初期時系列特徴シーケンスにおいて前記特定動作を含む目標時系列アンカーボックスの境界に対して検出して、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得することを含む、請求項１から４の何れか一項に記載の方法。
前記初期時系列特徴シーケンスにおいて前記特定動作を含む前記目標時系列アンカーボックスの境界に対して検出することの後であって、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得することの前に、
前記初期時系列特徴シーケンスのうち検出された前記目標時系列アンカーボックスの境界の前後の複数の時系列特徴を組合わせて、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置に対して論理回帰分析を行うことを更に含む、請求項５に記載の方法。
ビデオ時系列動作の検出装置であって、
検出すべきビデオの初期時系列特徴シーケンスを取得する特徴シーケンス取得モジュールと、
予め訓練された、前記初期時系列特徴シーケンスに基づいて配置された複数の時系列アンカーボックスの暗黙的な特徴および明示的な特徴を取得するビデオ時系列動作検出モジュールと、を備え、
前記ビデオ時系列動作検出モジュールは、前記複数の時系列アンカーボックスの前記明示的な特徴と前記暗黙的な特徴とに基づいて、前記複数の時系列アンカーボックスから特定動作を含むビデオセグメントの開始位置、終了位置、前記特定動作の種類、および前記特定動作が前記種類に属する確率を取得する、ことに更に用いられる、
装置。
前記特徴シーケンス取得モジュールは、
前記検出すべきビデオから、予め設定されたサンプリング周期を用いて、前から後への抽出順序で複数枚の画像を順次抽出して画像シーケンスを構成し、
前記画像シーケンス中の前記画像の各々の特徴を抽出し、前記画像シーケンスの中の前後順序に従ってスプライシングして前記初期時系列特徴シーケンスを得る、請求項７に記載の装置。
前記ビデオ時系列動作検出モジュールは、
前記ビデオ時系列動作検出モジュールにより、予め設定された複数種の時系列長の減少方式に従って、前記初期時系列特徴シーケンスの時系列長を減少して複数種の調整された参照時系列特徴シーケンスを取得し、
前記参照時系列特徴シーケンスの各々について、各時系列の位置に予め設定された数量の、スケールが異なる、複数の時系列アンカーボックスを配置し、
前記時系列アンカーボックスの各々の暗黙的な特徴を対応する前記参照時系列特徴シーケンスにおける対応する前記時系列の位置の特徴として配置する、請求項７に記載の装置。
前記ビデオ時系列動作検出モジュールは、
複数種の前記参照時系列特徴シーケンスの中で長さの最も長い参照時系列特徴シーケンスをサンプリングサンプルとし、前記時系列アンカーボックスの各々に対して構成されたサンプリング特徴に従って、前記サンプリング特徴を前記サンプリングサンプルに乗算して前記時系列アンカーボックスの各々の明示的な特徴を取得する、請求項９に記載の装置。
前記ビデオ時系列動作検出モジュールは、
前記ビデオ時系列動作検出モジュールにより、前記時系列アンカーボックスの各々の明示的な特徴と暗黙的な特徴とをスプライシングして前記時系列アンカーボックスの各々の総合的な特徴を取得し、
前記時系列アンカーボックスの各々の総合的な特徴に基づいて前記時系列アンカーボックスの各々に対して検出して、前記特定動作を含む目標時系列アンカーボックス、前記特定動作の種類、および前記特定動作が前記種類に属する確率をスクリーニングし、
前記初期時系列特徴シーケンスにおいて前記特定動作を含む目標時系列アンカーボックスの境界に対して検出して、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置を取得する、請求項７に記載の装置。
前記ビデオ時系列動作検出モジュールは、
前記初期時系列特徴シーケンスのうち検出された前記目標時系列アンカーボックスの境界の前後の複数の時系列特徴を組合わせて、前記目標時系列アンカーボックスに対応するビデオセグメントの開始位置および終了位置に対して論理回帰分析を行う、請求項１１に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項１～６の何れか一つに記載の方法を実行させる、電子デバイス。
コンピュータコマンドが記憶されており、
前記コンピュータコマンドは、コンピュータに請求項１～６の何れか一つに記載の方法を実行させる非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～６の何れか一つに記載の方法を実行させるプログラム。