JP2020512647A

JP2020512647A - ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体

Info

Publication number: JP2020512647A
Application number: JP2019553919A
Authority: JP
Inventors: タンツォンルイホー; ホンウェイチン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2017-12-13
Filing date: 2018-10-16
Publication date: 2020-04-23
Anticipated expiration: 2038-10-16
Also published as: WO2019114405A1; SG11201909887RA; CN110546645A; KR20190126366A; KR102365521B1; JP6837158B2; US10909380B2; CN110546645B; US20190266409A1; CN108229336B; CN108229336A

Abstract

本開示の実施例は、ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体を開示し、ビデオ識別方法は、ビデオ中の第１のキーフレームの特徴を抽出することと、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得し、前記第２のキーフレームの前記ビデオにおける検出時間順序が前記第１のキーフレームの前であることと、前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得することと、を含む。本開示の実施例は、反復式の複数のフレーム特徴における融合方法によってビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度及びビデオ識別効率を向上させる。【選択図】図１

Description

（関連出願の相互参照）
本願は、２０１７年１２月１３日に中国特許局に提出された、出願番号ＣＮ２０１７１１３２９７１８．５、発明の名称「ビデオ識別及びトレーニング方法、装置、電子デバイス、プログラム及び媒体」の中国特許出願の優先権を主張し、そのすべての内容は参照により本願に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特にビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体に関する。

ビデオ識別とは、深層学習法に基づいて実現される画像内容の理解を指し、ピクセルレベルのセマンティックセグメンテーション、物体検出、キーポイント検出などを含むが、これらに限定されない。ビデオ識別は、自動運転、セキュリティ監視などの分野に重要な応用がある。ビデオ識別の基礎は画像認識であり、しかしながら、ビデオにはモーションブラー、ピンぼけなどの画像フレームが存在するため、一つの画像に向ける識別技術を直接ビデオ識別に拡張して使用する場合、その識別性能が低下し、実行速度が遅くなり、ビデオ識別のニーズを満たすことができない。

本開示の実施例は、ビデオ識別の技術的解決策及びビデオ識別ネットワークのトレーニングの技術的解決策を提供する。

本開示の実施例の一態様によれば、ビデオ中の第１のキーフレームの特徴を抽出することと、前記第１のキーフレームの特徴と、前記ビデオにおける検出時間順序が前記第１のキーフレームの前である第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得することと、前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得することと、を含むビデオ識別方法を提供する。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第２のキーフレームは、前記ビデオにおける前記第１のキーフレームと隣接する１つ前のキーフレームを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第２のキーフレームの融合特徴は、前記第２のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第２のキーフレームの前である第３のキーフレームの融合特徴を融合処理して得られる。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合する前に、前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドを取得することと、前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドに基づいて、前記第２のキーフレームの融合特徴と前記第１のキーフレームを位置合わせることと、をさらに含み、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、位置合わせた前記第２のキーフレームの融合特徴と前記第１のキーフレームの特徴を融合することを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数を決定することと、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数に基づいて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合することと、を含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記方法は、前記第１のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定することをさらに含み、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、前記第１のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合することを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記方法は、前記第１のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記第１のキーフレームの特徴に基づいて、前記第１のキーフレームにおける物体検出結果を取得することをさらに含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中から第１のキーフレームを選択することをさらに含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中から前記第１のキーフレームを選択することは、前記ビデオ中からランダムに選択された画像フレームを前記第１のキーフレームとすること、又は、前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第１のキーフレームとすること、または、前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとすることであって、前記複数の短いビデオシーケンスのキーフレームが前記第１のキーフレームを含むこと、又は、前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとすることを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとすることは、前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第１のキーフレームとすること、又は、前記短いビデオシーケンス中の中間フレームを選択して前記第１のキーフレームとすることを含み、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得することと、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することと、前記第１の非キーフレームの特徴に基づいて前記第１の非キーフレームを検出し、前記第１の非キーフレームにおける物体検出結果を取得することと、をさらに含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第１のキーフレームと前記第１の非キーフレームの間の距離が予設閾値よりも小さく、又は、前記第１のキーフレームが前記ビデオのキーフレーム内の、前記第１の非キーフレームとの距離が最も近いキーフレームであり、又は、前記第１の非キーフレームと前記第１のキーフレームとが同一の短いビデオシーケンスに属する。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得した後、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドに基づいて、前記第１のキーフレームの融合特徴と前記第１の非キーフレームを位置合わせることをさらに含み、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することは、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することを含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中の画像フレームはラベル情報を有し、前記方法は、前記ビデオ中前記第１のキーフレームを含む少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることをさらに含む。

任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ラベル情報には、画像フレームに含まれる少なくとも１つの物体の位置情報及び種別情報を含み、前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることは、前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。

本開示の実施例の別の態様によれば、ビデオ識別ネットワークを利用してビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出することと、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整することと、を含むビデオ識別ネットワークのトレーニング方法を提供する。

任意選択で、本開示の各トレーニング方法の実施例では、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合することは、前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドを取得することと、前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームを位置合わせることと、位置合わせた前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含む。

任意選択で、本開示の各トレーニング方法の実施例では、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することは、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定することと、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含む。

任意選択で、本開示の各トレーニング方法の実施例では、前記のビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出する前に、前記ビデオサンプル中から前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームを選択することをさらに含む。

任意選択で、本開示の各トレーニング方法の実施例では、前記ビデオサンプル中から前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームを選択することは、前記ビデオサンプル中から選択された画像フレームを前記現在ターゲットフレームとすることと、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第１の距離の前でサンプリングされた画像フレームを前記１つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第２の距離の後でサンプリングされた画像フレームを前記現在キーフレームとすることと、を含む。

任意選択で、本開示の各トレーニング方法の実施例では、前記第２の距離が前記第１の距離よりも小さい。

任意選択で、本開示の各トレーニング方法の実施例では、前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも１つの物体の位置情報及び種別情報を含み、前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。

任意選択で、本開示の各トレーニング方法の実施例では、各組の前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームからトレーニングサンプルを構成し、少なくとも１つのトレーニングサンプルからトレーニングサンプルセットを構成し、前記トレーニングサンプルセット中から順次トレーニングサンプルを選択し、予設トレーニング完了条件を満たすまで、前記ビデオ識別ネットワークを反復トレーニングする。

本開示の実施例の別の態様によれば、識別待ちのビデオを取得することと、本開示のいずれか１つの実施例で説明されるトレーニング方法によってトレーニングされて得られたビデオ識別ネットワークを利用して前記ビデオを識別し、前記ビデオの識別結果を取得することと、を含む別のビデオ識別方法を提供する。

本開示の実施例の別の態様によれば、ビデオ中の第１のキーフレームの特徴を抽出するための特徴抽出ネットワークと、前記第１のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第１のキーフレームの前である第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得するための融合ネットワークと、前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得するための検出ネットワークと、を含むビデオ識別装置を提供する。

任意選択で、前記ビデオ識別装置は前記のいずれか１つの可能なビデオ識別方法を実行するために用いられ、これに応じて、前記ビデオ識別装置は、前記ビデオ識別方法の任意のステップ又は流れを実行するためのモジュールを含む。

本開示の実施例の別の態様によれば、ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出し、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するためのビデオ識別ネットワークと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整するためのトレーニングモジュールと、を含むビデオ識別ネットワークのトレーニング装置を提供する。

任意選択で、前記ビデオ識別ネットワークのトレーニング装置は、前記のいずれか１つの可能なビデオ識別ネットワークのトレーニング方法を実行するために用いられ、これに応じて、前記ビデオ識別方法のトレーニング装置は、前記ビデオ識別ネットワークのトレーニング方法の任意のステップ又は流れを実行するためのモジュールを含む。

本開示の実施例の別の態様によれば、識別待ちのビデオを取得するための取得モジュールと、前記のいずれか１つの可能なトレーニング方法によってトレーニングされて得られたビデオ識別ネットワークを利用して前記ビデオを識別し、前記ビデオの識別結果を取得するための識別モジュールと、を含むビデオ識別装置を提供する。

本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのメモリと、前記コンピュータ可読命令を実行することにより本開示のいずれか１つの実施例の方法を実行するためのプロセッサーと、を含む電子デバイスを提供する。

本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記コンピュータ可読命令をデバイス上で実行する時に、前記デバイス中のプロセッサーによって本開示のいずれか１つの実施例の方法を実行するコンピュータ記憶媒体を提供する。

本開示の実施例の別の態様によれば、コンピュータ可読命令を含み、前記コンピュータ可読命令をデバイス上で実行する時に、前記デバイス中のプロセッサーによって本開示のいずれか１つの実施例の方法を実行するコンピュータプログラムを提供する。

本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータプログラム製品であって、前記命令を実行する時にコンピュータに前記のいずれか１つの可能な実現態様中の方法を実行させるコンピュータプログラム製品を提供する。

１つの選択可能な実施形態では、前記コンピュータプログラム製品はコンピュータ記憶媒体であってもよく、もう１つの選択可能な実施形態では、前記コンピュータプログラム製品はＳＤＫなどのソフトウェア製品であってもよい。

本開示の実施例によって提供されるビデオ識別方法及び装置、電子デバイス、プログラム及び媒体によれば、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合し、第１のキーフレームの融合特徴を取得し、第１のキーフレームの融合特徴に基づいて第１のキーフレームを検出し、第１のキーフレームにおける物体検出結果を取得するために、ビデオ識別效率の向上に寄与する。

以下、図面及び実施例を参照して、本開示の技術的解決策をより詳細に説明する。

本開示の実施例のビデオ識別方法のフローチャートである。本開示の実施例のビデオ識別方法の別のフローチャートである。図２に示すビデオ識別方法の一例の対応過程の模式図である。本開示の実施例のビデオ識別ネットワークのトレーニング方法のフローチャートである。図４に示すトレーニング方法の一例の対応過程の模式図である。本開示の実施例のビデオ識別装置の構造模式図である。本開示の実施例のビデオ識別装置の別の構造模式図である。本開示の実施例のビデオ識別ネットワークのトレーニング装置の模式図である。本開示の実施例のビデオ識別ネットワークのトレーニング装置の別の模式図である。本開示の実施例の電子デバイスの一応用例の模式図である。

明細書の一部を構成する図面は本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。

図面を参照して、以下の詳細な説明からより明確に本開示を理解することができる。

ここで、本開示の様々な例示的な実施例を、図面を参照して詳細に説明する。特に断りしない限り、これらの実施例に示される構成要素及びステップの相対的な配置、数値表現及び数値は、本開示の範囲を限定することを意図するものではないことに注意されたい。

本発明の実施例における「第１」、「第２」などの用語は、区別するために用いられ、本発明の実施例を限定するものではないことを理解されたい。

本発明において「複数」は２つ又は２つ以上を意味し、「少なくとも１つ」は１つ、２つ又は２つ以上を意味していることも理解されたい。

本発明で言及される構成要素、データ又は構造のいずれも、明示的に定義されない、又はそうでない場合に、一般的に１つ又は複数であると理解されることも理解されたい。

また、本発明において、各実施例間の相違点を中心として各実施例を説明するが、同一又は類似な部分について相互に参照すればよく、簡略化のために、重複に説明されない。

同時に、図面に示された各部分の寸法は、説明の便宜上、実際の縮尺関係では描かれていないことを理解されたい。

少なくとも１つの例示的な実施例の以下の説明は、単なる例示であり、本開示及びその応用又は使用は何らかの制限も受けない。

関連技術の当業者に知られている技術、方法及びデバイスは、詳細に議論されないかもしれないが、適切な場合、前記技術、方法及びデバイスは明細書の一部として考慮されるべきである。

同様の参照番号及び文字は、以下の図の同様の構成要素を示すため、ある構成要素がある図で定義されると、以降の図でさらに説明する必要はないことに注意されたい。

本開示の実施例は、他の多数の汎用又は専用コンピューティングシステム環境又は配置とともに動作できる端末デバイス、コンピュータシステム、サーバなどの電子デバイスに適用され得る。端末デバイス、コンピュータシステム、サーバなどの電子デバイスとの使用に適した周知の端末デバイス、コンピューティングシステム、環境及び／又は配置の例には、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム及び前記のいずれかのシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末デバイス、コンピュータシステム、サーバなどの電子デバイスは、コンピュータシステムによって実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的な言語環境において記述できる。常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでもよく、それらは特定のタスクを実行するか又は特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカル又は遠隔計算システムの記憶媒体に存在してもよい。

図１は、本開示の実施例で提供されるビデオ識別方法のフローチャートである。任意選択で、該ビデオ識別方法は、ビデオ識別ネットワークを利用して実現され得るが、本開示の実施例はここに限定されない。

１０２、ビデオ中の第１のキーフレームの特徴を抽出する。

ここで、任意選択で、該第１のキーフレームは、ビデオ中のいずれか１つのキーフレームであり得、例えば、該第１のキーフレームはビデオの複数のキーフレーム中の現在処理するキーフレームであり得る。又は、該第１のキーフレームは複数のフレームを含み、本開示の実施例では限定されない。

１つの選択可能な例では、該操作１０２は、メモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される特徴抽出ネットワークによって実行されてもよい。

１０４、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合し、前記第１のキーフレームの融合特徴を取得する。

ここで、第２のキーフレームは前記ビデオ中での検出時間順序が第１のキーフレームの前である。１つ又は複数の選択可能な実施例では、該第２のキーフレームは、例えば前記ビデオ中の第１のキーフレームと隣接する１つ前のキーフレームであり得る。すなわち、該第２のキーフレームは、ビデオの複数のキーフレーム中の第１のキーフレームの前に位置し且つ第１のキーフレームと隣接するキーフレームであり得る。又は、該第２のキーフレームは、該第１のキーフレームの前に位置する他のキーフレームであってもよく、本開示の実施例では限定されない。

該第２のキーフレームの融合特徴は、該第２のキーフレームの特徴及び１つ又は複数の他のフレームの特徴を融合して取得し得る。ここで、ここでの他のフレームは該第２のキーフレームと異なるフレームであり得、任意選択で、該他のフレームは、前記ビデオ中での検出時間順序が該第２のキーフレームの前のフレームであり得る。１つの選択可能な例では、該他のフレームは、該第２のキーフレームの前に位置する１つ又は複数のキーフレームを含む。本開示の各実施例の１つの選択可能な実施形態では、第２のキーフレームの融合特徴は、該第２のキーフレームの特徴及び前記ビデオにおける検出時間順序が該第２のキーフレームの前の第３のキーフレームの融合特徴を融合処理して取得し得る。ここで、任意選択で、第３のキーフレームは、第２のキーフレームの１つ前のキーフレームであり得、まず第２のキーフレームの特徴及びその１つ前のキーフレーム（第３のキーフレーム）の融合特徴を融合し、第２のキーフレームの融合特徴を取得し、その後第２のキーフレームの融合特徴及びその後のキーフレーム（第１のキーフレーム）の特徴を融合し、第１のキーフレームの融合特徴を取得し、このようにして、ビデオ中の最新の未融合のキーフレームの特徴を加えて融合し、特徴融合−伝播−融合−伝播を交互に行うように、第１のキーフレームの特徴と第１のキーフレームの前の全てのキーフレームの特徴を一度に融合する方法に比べて、特徴融合の計算オーバーヘッドを低減させる。

本開示の１つ又は複数の選択可能な実施例では、該第２のキーフレームの融合特徴は、ビデオの複数のキーフレーム中の該第２のキーフレームの前に位置する少なくとも１つのキーフレームの特徴を融合して得られた特徴であるが、本開示の実施例ではここに限定されない。

１つの選択可能な例では、該操作１０４はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される融合ネットワークによって実行されてもよい。

１０６、前記第１のキーフレームの融合特徴に基づいて第１のキーフレームを検出し、第１のキーフレームにおける物体検出結果を取得する。

ここで、第１のキーフレームにおける物体検出結果は、例えば第１のキーフレームの種別、又は第１のキーフレーム中の物体検出ボックス及びその対応の物体種別を含む。

１つの選択可能な例では、該操作１０６はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。

本開示の実施例で提供されるビデオ識別方法によれば、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合し、前記第１のキーフレームの融合特徴を取得し、該第１のキーフレームの融合特徴に基づいて該第１のキーフレームを検出し、該第１のキーフレームにおける物体検出結果を取得するため、ビデオ識別效率を向上させることができる。

本開示の実施例では、ビデオを識別する時に、それぞれのキーフレームを現在キーフレーム（即ち前記第１のキーフレーム）とし、該現在キーフレームの特徴とビデオ中の履歴キーフレーム（即ち該現在キーフレームの前に位置するキーフレーム）の融合特徴を融合し、現在キーフレームの融合特徴を取得して、取得した現在キーフレームの融合特徴に基づいて該現在キーフレームを識別し、反復複数のフレーム特徴における融合方法によってビデオ中のキーフレームの共有特徴に含まれる情報を強調することにより、フレーム識別の精度が向上し、ビデオ識別性能が向上する。

本開示の実施例のビデオ識別方法の別の例では、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合する前に、さらに第１のキーフレームと第２のキーフレームの間のオプティカルフローフィールドを取得し得、該オプティカルフローフィールドは第１のキーフレームと第２のキーフレーム中の画素ポイントごどの変位ベクトルを含む。また、第１のキーフレームと第２のキーフレームの間のオプティカルフローフィールドに基づいて、第２のキーフレームの融合特徴と第１のキーフレームを位置合わせてもよく、例えば、オプティカルフローフィールド中の変位ベクトルに基づいて第２のキーフレームの融合特徴を歪めて第１のキーフレームと位置合わせてもよい。この時に、１０４では、位置合わせた第２のキーフレームの融合特徴と第１のキーフレームの特徴を融合し、第１のキーフレームの融合特徴を取得し得る。

本開示の実施例のビデオ識別方法の１つの選択可能な実施形態では、第１のキーフレームの特徴と第２のキーフレームの融合特徴を融合することは、第１のキーフレームの特徴と第２のキーフレームの融合特徴の重み係数を決定することと、第１のキーフレームの特徴と第２のキーフレームの融合特徴の重み係数に基づいて、第１のキーフレームの特徴と第２のキーフレームの融合特徴を融合することと、を含む。ここで、第１のキーフレームの特徴の重み係数と第２のキーフレームの融合特徴の重み係数は、それぞれ第１のキーフレームの特徴と第２のキーフレームの融合特徴の特徴融合時の占有割合を示す。少なくとも１つの選択可能な実施例では、第１のキーフレームの特徴と第２のキーフレームの融合特徴の重み係数に基づいて、第１のキーフレームの特徴及びその重み係数の積と、第２のキーフレームの融合特徴及びその重み係数の積とを融合し得るが、本開示の実施例では他の方法で特徴を融合してもよく、本開示の実施例では特徴融合の実現について限定されない。

例えば、前記選択可能な実施形態では、以下のような式によって第１のキーフレームの融合特徴を取得することができる。

式（１）
ただし、前記式（１）では、

は第１のキーフレームの融合特徴を示し、

は第１のキーフレームの特徴を示し、

は第１のキーフレームの特徴の重み係数を示し、

は第２のキーフレームの融合特徴を示し、

は第２のキーフレームの融合特徴の重み係数を示し、

の値が０より大きく１未満である。

本開示の実施例のビデオ識別方法のさらに別の例では、あるキーフレームがビデオの最初のキーフレームであると、特徴融合のステップを実行せず、直接に該最初のキーフレームの特徴に基づいて物体を検出してもよい。これに応じて、該ビデオ識別方法は、
前記第１のキーフレームがビデオ中の最初のキーフレーム（以下１^ｓｔキーフレームと呼ぶ）であるかどうかを確定することをさらに含み、
前記第１のキーフレームがビデオ中の１^ｓｔキーフレームであることに応じて、該１^ｓｔキーフレームの特徴に基づいて１^ｓｔキーフレームを検出し、該１^ｓｔキーフレームにおける物体検出結果を取得する。

また、１^ｓｔキーフレームの特徴を次のキーフレーム（以下２^ｎｄキーフレームと呼ぶ）へ伝播して該次のキーフレームの特徴と特徴融合し得る。すなわち、ビデオ中の２^ｎｄキーフレームの融合特徴は、１^ｓｔキーフレームの特徴及び２^ｎｄキーフレームの特徴を融合処理して取得し得、この時に、１^ｓｔキーフレームの特徴は、１^ｓｔキーフレームの融合特徴と見なすこともできるが、本開示の実施例ではここに限定されない。

任意選択で、第１のキーフレームがビデオ中の１^ｓｔキーフレームではないことに応じて、前記各実施例中の第１のキーフレームの特徴と第２のキーフレームの融合特徴を融合する操作を実行し得る。

なお、本開示の実施例のビデオ識別方法の１つ又は複数の選択可能な例では、さらにビデオ中から第１のキーフレームを選択し得る。

本開示の各ビデオ識別方法の実施例の１つの選択可能な実施形態では、ビデオ中から第１のキーフレームを選択する。本開示の実施例では、様々な方法でキーフレームを選択することができる。１つの選択可能な例では、ビデオ中からランダムに選択された画像フレームを第１のキーフレームとしてもよい。もう１つの選択可能な例では、ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを第１のキーフレームとしてもよく、例えば、ビデオ中から９つのフレームごとに１つのフレームを選択してキーフレームとしてもよい。このように、ビデオの複数の第１のキーフレームの間の間隔を固定することができる。もう１つの選択可能な例では、ビデオを複数の短いビデオシーケンス（又はセグメント）に分割し、それぞれの短いビデオシーケンス（又はセグメント）中からそれぞれ画像フレームを選択して該短いビデオシーケンス（又はセグメント）のキーフレームとしてもよく、前記複数の短いビデオシーケンス（又はセグメント）のキーフレームは前記第１のキーフレームを含む。例えば、ビデオを括数フレーム〜数十フレームを含む複数の短いビデオシーケンス又はセグメントに分割し、ここで、該複数の短いビデオシーケンス又はセグメントは同じ長さを有し、即ち該複数の短いビデオシーケンス又はセグメントは同じ数、例えば１０フレームのフレームを含み得、又は、該複数の短いビデオシーケンス又はセグメントの長さが異ならせ、それぞれの短いビデオシーケンス又はセグメント中からキーフレームを選択してもよいが、本開示の実施例では限定されない。このように、まず複数の短いビデオシーケンス又はセグメント及びその対応のキーフレームを決定して、それぞれのキーフレームに対して物体検出を行うことができる。

もう１つの選択可能な例では、ビデオ中から１つの短いビデオシーケンスを選択して、選択された短いビデオシーケンス中から選択された画像フレームを第１のキーフレームとしてもよい。このように、物体検出する必要がある時に短いビデオシーケンス又はセグメント及びその第１のキーフレームを選択し得、ここで、任意選択で、予設長さの短いビデオシーケンスを選択してもよく、ランダムにある長さの短いビデオシーケンスを選択してもよいが、本開示の実施例では限定されない。

本開示の実施例では、様々な方法で短いビデオシーケンス又はセグメント中から第１のキーフレームを選択し得る。１つの選択可能な例では、短いビデオシーケンス中からランダムに選択された画像フレームを第１のキーフレームとしてもよい。又は、短いビデオシーケンス中の中間フレームを選択して第１のキーフレームとしてもよく、ここで、ここでの中間フレームとは短いビデオシーケンス中の最初フレーム（第１のフレーム）及び最後フレーム（最後のフレーム）以外の画像フレームを指し、例えば、１０フレーム（第０〜９のフレーム）を含む短いビデオシーケンスについて、中間フレームは第１〜８フレーム中の画像フレームであり得る。該中間フレームは、例えば該中間フレームのフレーム番号が予設値であるなどの予設条件を満たしても良い。１つの選択可能な例では、中間フレームは短いビデオシーケンス中の中央位置又は中央位置の近くに位置する画像フレームであり得る。例えば、１０フレーム（第０〜９のフレーム）を含む短いビデオシーケンスについて、該中間フレームは第４フレーム又は第５フレームであってもよく、第３フレーム又は第６フレームであってもよく、１１フレーム（第０〜１０のフレーム）を含む短いビデオシーケンスについて、該中間フレームは第５フレームであってもよく、隣接の第４フレーム又は第６フレームであってもよい。任意選択で、本開示の実施例では、短いビデオシーケンス中の最初フレーム又は最後フレームを該短いビデオシーケンス中の第１のキーフレームとして選択してもよい。

任意選択で、他の方法で第１のキーフレームを選択してもよいが、本開示の実施例では第１のキーフレームの選択方法がここに限定されない。

ビデオ中の共有特徴を多重化するために、本開示の実施例は、識別過程でビデオを短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から１つのフレーム（キーフレーム）のみの特徴を抽出し、そしてオプティカルフローフィールドに基づく特徴伝播方法で、該キーフレームの特徴を該短いビデオシーケンス中の他のフレーム（非キーフレーム）に伝播する。短いビデオシーケンス中の最初フレーム又は最後フレームをキーフレームとして選択する手法に対して、中間フレームをキーフレームとして選択するには、平均特徴伝播距離が短くなり、短いビデオシーケンス中のフレーム間の特徴伝播によって生じる誤差を最小限に抑え、短いビデオシーケンス中の総特徴伝播時間を短縮でき、検出結果の精度を向上させることができる。

本開示の実施例のビデオ識別方法のもう１つの例では、さらにキーフレームの特徴に基づいて、非キーフレームに対して物体検出を行っても良い。容易に理解するために、以下、第１の非キーフレームの物体検出を例にして説明するが、ここで、任意選択で、該第１の非キーフレームがビデオ中のいずれか１つの非キーフレームであるフレーム、又はビデオ中のある条件を満たす非キーフレームであり得る。

１つの選択可能な例では、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドを取得し、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールド、及び第１のキーフレームの融合特徴に基づいて、第１の非キーフレームの特徴を取得して、第１の非キーフレームの特徴に基づいて該第１の非キーフレームを検出し、第１の非キーフレームにおける物体検出結果を取得し得る。

例示的に、第１のキーフレームと第１の非キーフレームの間の距離が予設閾値よりも小さくても良く、この時、ある非キーフレームについて、その距離が予設閾値以下であるキーフレームを利用し、該非キーフレームに対して物体検出を行っても良く、任意選択で、前記距離条件を満たすキーフレームの数が少なくとも２つ（即ち複数）である場合に、条件を満たす少なくとも２つのキーフレーム中からランダムに選択又は一定の予設条件で１つのキーフレームを選択すればよい。又は、第１のキーフレームは、ビデオの複数のキーフレーム中の、第１の非キーフレームとの距離が最も近いキーフレームであり得、この時に、ビデオ中のある非キーフレームについて、その距離が最も近いキーフレームを利用し、該非キーフレームに対して物体検出を行っても良い。又は、第１の非キーフレームと第１のキーフレームが同一の短いビデオシーケンス又はセグメントに属し、この時に、短いビデオシーケンス又はセグメント中の非キーフレームの全てについては、同一のキーフレーム（即ち該短いビデオシーケンス又はセグメント中のキーフレーム）の融合特徴を利用し物体検出を行えるが、本開示の実施例はここに限定されない。

１つの選択可能な例では、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドを取得した後、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドに基づいて、第１のキーフレームの融合特徴と第１の非キーフレームを位置合わせてもよい。この時に、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第１のキーフレームの融合特徴に基づいて、第１の非キーフレームの特徴を取得し得る。任意選択で、他の方法で第１の非キーフレームの特徴を取得しても良いが、本開示の実施例はここに限定されない。

該少なくとも１つの実施例によれば、短いビデオシーケンス中の注目された非キーフレームを検出でき、短いビデオシーケンス中の全てのフレームを検出する必要がなく、例えば１０フレームの短いビデオシーケンスについて、その内の第５フレームをキーフレームとして検出する以外に、第２、８フレームを選択し検出してもよい。

該少なくとも１つの実施例によれば、短いビデオシーケンス中のフレームごとに検出でき、ビデオのフレームごとの検出を実現することができる。

このように、１つの短いビデオシーケンスについて、１つだけのフレーム（即ちキーフレーム）の特徴が抽出され、他のフレームの特徴がオプティカルフロー伝播によって取得され、キーフレーム特徴が多重化されて、非キーフレームの特徴抽出を回避することにより、冗長計算を避けて、フレームの識別速度を向上させる。

図２は本開示の実施例のビデオ識別方法のもう１つの模式的なフローチャートである。

２０２、ビデオを複数の短いビデオシーケンス（又はセグメント）に分割する。

該複数の短いビデオシーケンスは、同じ数のフレーム、又は異なる数のフレームを含むか、又は短いビデオシーケンスの一部が同じ数のフレームを含み、短いビデオシーケンスの別の部分が異なる数のフレームを含んでもよい。

２０４、複数の短いビデオシーケンス中から１つの短いビデオシーケンスを順次選択して現在短いビデオシーケンスとする。

２０６、現在短いビデオシーケンス中から１つの中間フレームを現在短いビデオシーケンスのキーフレーム、すなわち第１のキーフレームとして選択し、第１のキーフレームの特徴を抽出する。

１つの選択可能な例では、該操作２０２〜２０６はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される選択モジュールによって実行されてもよい。

２０８、第１のキーフレームがビデオ中の最初のキーフレーム（即ち１^ｓｔキーフレーム）であるかどうかを確定する。

任意選択で、現在短いビデオシーケンスが複数の短いビデオシーケンス中の最初に検出される短いビデオシーケンスであるかどうかを確定することができる。

第１のキーフレームがビデオ中の１^ｓｔキーフレームであると、操作２１０〜２１２を実行する。逆に、第１のキーフレームがビデオ中の１^ｓｔキーフレームではないと、操作２１４を実行する。

１つの選択可能な例では、該操作２０８はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される確定モジュールによって実行されてもよい。

２１０、１^ｓｔキーフレームの特徴を該１^ｓｔキーフレームの融合特徴とする。

任意選択で、１^ｓｔキーフレームの特徴を１^ｓｔキーフレームの融合特徴としてキャッシュしてもよい。

１つの選択可能な例では、該操作２１０はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される光線処理モジュールによって実行されてもよい。

２１２、１^ｓｔキーフレームの特徴に基づいて１^ｓｔキーフレームを検出し、該１^ｓｔキーフレームにおける物体検出結果を取得する。

１つの選択可能な例では、該操作２１２はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。

その後、操作２２０を実行することができる。

２１４、第１のキーフレームと第２のキーフレームの間のオプティカルフローフィールドに基づいて、該第２のキーフレームの融合特徴と第１のキーフレームを位置合わせる。

第２のキーフレームのビデオにおける検出時間順序が第１のキーフレームの前である。任意選択で、該第２のキーフレームが１つ前の検出のキーフレームであってもよい。

第２のキーフレームの融合特徴は、該第２のキーフレームの特徴、及び前記ビデオにおける検出時間順序が該第２のキーフレームの前である第３のキーフレームの融合特徴を融合処理することにより取得される。

１つの選択可能な例では、該操作２１４はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるオプティカルフロー伝播モジュールによって実行される。

２１６、位置合わせた第２のキーフレームの融合特徴と第１のキーフレームの特徴を融合し、第１のキーフレームの融合特徴を取得する。

１つの選択可能な例では、該操作２１６はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される融合ネットワークによって実行されてもよい。

２１８、第１のキーフレームの融合特徴に基づいて該第１のキーフレームを検出し、第１のキーフレームにおける物体検出結果を取得する。

本開示の各実施例では、画像フレームにおける物体検出結果は該画像フレームの種別、又は該画像フレーム中の少なくとも１つの物体検出ボックス及びその対応の物体種別であり得る。ここで、第１のキーフレームにおける物体検出結果は、例えば第１のキーフレームの種別、又は第１のキーフレーム中の少なくとも１つの物体検出ボックス及びその対応の物体種別であってもよく、本開示の実施例では限定されない。

１つの選択可能な例では、該操作２１８はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。

２２０、現在短いビデオシーケンス中から１つの他のフレームを選択して第１の非キーフレームとし、該第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドを取得する。

ここで、１つの選択可能な実施形態では、現在短いビデオシーケンス中の全てのフレームが選択されるまで、現在短いビデオシーケンス中から１つの他のフレームを選択して第１の非キーフレームとし、第１のキーフレームから時間順序逆方向に沿って順次１つの他のフレームを第１の非キーフレームとして選択してもよく、時間順序正方向に沿って順次１つの他のフレームを第１の非キーフレームとして選択してもよく、又は第１のキーフレームから時間順序正方向、時間順序逆方向に沿って順次交互に１つの他のフレームを第１の非キーフレームとして選択し、第１のキーフレームから時間順序逆方向、時間順序正方向に沿って順次交互に１つの他のフレームを第１の非キーフレームとして選択してもよい。なお、もう１つの選択可能な実施形態では、現在短いビデオシーケンス中の各画像フレームのそれぞれを識別する必要がない場合があり、この時に、類似の方法を参照し、現在短いビデオシーケンス中から１つ又は複数の他のフレームを第１の非キーフレームとして選択してもよいが、本開示の実施例はここに限定されない。

２２２、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドに基づいて、該第１の非キーフレームと第１のキーフレームの融合特徴を位置合わせる。

２２４、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第１のキーフレームの融合特徴に基づいて、第１の非キーフレームの特徴を取得する。

１つの選択可能な例では、該操作２２０〜２２６はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるオプティカルフロー伝播モジュールによって実行されてもよい。

２２６、第１の非キーフレームの特徴に基づいて該第１の非キーフレームを検出し、第１の非キーフレームにおける物体検出結果を取得する。

ここで、第１の非キーフレームにおける物体検出結果は、例えば第１の非キーフレームの種別、又は第１の非キーフレーム中の少なくとも１つの物体検出ボックス及びその対応の物体種別であり得る。

１つの選択可能な例では、該操作２２６はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。

１つ又は複数の選択可能な例では、現在短いビデオシーケンス中の識別必要のある非キーフレームについて、現在短いビデオシーケンス中の識別必要のある非キーフレームがすべて識別されるまで順次操作２２０〜２２６を実行し、その後、次の短いビデオシーケンスについて、全ての短いビデオシーケンスが識別されるまで前記流れを実行する。

本開示の実施例で提供されるビデオ識別方法では、それぞれのキーフレームの特徴が本フレームの識別に使用されるだけでなく、ビデオ全体に共有される融合特徴にも寄与する。該共有融合特徴は、複数のキーフレームの情報を吸収し、それぞれのキーフレームで現在キーフレーム自体の深層特徴とを融合し、対応の画像がぼやけている時に識別が失敗しないようにこのキーフレーム特徴を強化する。各キーフレームごとに共有の融合特徴を伝播し、同時にそれぞれのキーフレームで更新する。強化のキーフレーム特徴が他の非キーフレームの識別のためにも伝播される。

一般的なのビデオ特徴の多重化では、まずより高速なアルゴリズムを使用して２つのフレーム間のオプティカルフローフィールドを計算し、その後双線形差分特徴変形を使用して参照フレームの特徴を高速にターゲットフレームに伝播する。ただし、オプティカルフローアルゴリズムの誤差によるノイズが発生し、精度が低下する。アテンションメカニズムに基づくビデオ特徴の強化により、モーションブラー、ピンぼけなどによる精度低下の問題をある程度対処できるが、この方法ではオプティカルフローフィールドにより特徴を位置合わせる必要があるので、多数のオプティカルフロー計算により速度が大幅に低下する。本開示の実施例で提供されるビデオ識別方法は、ビデオ情報の冗長性及び相補性を十分に利用し、疎な特徴抽出により冗長計算を回避し、オプティカルフローを通じて多重化特徴を伝播し、これに基づいて、最適化されたキーフレームの位置選択によりオプティカルフロー計算によるノイズを低減し、他のビデオ特徴の多重化方法と比較して、反復式の特徴融合アルゴリズムにより共有特徴に含まれる情報を強化し、同時に速度及び制度を確保する。

本開示の実施例は、反復式の複数のフレーム特徴における融合方法によりビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度を向上させ、ビデオ識別性能を向上させるとともに、第２のキーフレームの特徴と第１のキーフレームの特徴をすべて融合するではなく、最新の１つの未融合フレームの特徴だけを加えて融合し、特徴融合の計算オーバーヘッドが削減され、ビデオ識別効率が向上する。次に、中間フレームをキーフレームのキーフレーム位置として選択する方法は、最初フレームを固定的にキーフレームとして選択する方法と比較して、平均特徴伝播距離が短縮され、短いビデオシーケンス中の画像フレーム間の特徴伝播取込の誤差が低減され、短いビデオシーケンス中の総特徴伝播時間が短縮され、かつ検出結果の精度が向上する。なお、ビデオ中の各画像フレーム間の情報の冗長性及び相補性を十分に利用して、画像フレームごとに特徴を抽出するのではなく、キーフレームの特徴を抽出し、オプティカルフロー伝播方法により画像フレーム間の特徴が多重化され、疎の特徴抽出により冗長計算を回避し、フレームごとに特徴を抽出する方法と比較してビデオ識別の速度及び効率が向上する。

また、「融合−伝播−融合−伝播」方法を交互に採用することにより、融合ごとに最新の１つの未融合フレームの特徴を伝播するだけでよく、融合操作時にオプティカルフローにより各融合するフレームの特徴を伝播する他の方法と比較して、特徴伝播の計算オーバーヘッドが削減される。

本開示の実施例で提供されるビデオ識別方法は様々なシーンに応用され得る。例えば、インテリジェントドローンは、航空写真で野生動物を撮像する場合に、リアルタイム分析を実現するために、写真内の動物をできるだけ迅速かつ正確に識別する必要がある。しかしながら、気流などの影響により、写真が揺れたりぼやけたりすることがあり、同時に野生動物自体も速く走っている場合がある。これらの要素により、写真の品質が低下し、従来のビデオ識別ネットワークは実際の応用における精度及び速度のニーズを満たすことができず、本開示の実施例で提出される技術的解決策は、ビデオ識別の精度及び速度を向上させることができる。

図３に示すように、図２に示すビデオ識別方法の一例の対応過程の模式図である。図２及び図３の例は、本開示の技術的解決策を理解するのを助けることのみを目的としており、本開示を限定するものとして解釈されるべきではないことを理解されたい。

本開示の前記の各実施例のビデオ識別方法は、トレーニングされたビデオ識別ネットワークによって実現され、ビデオ識別ネットワークはニューラルネットワークによって実現され、例えば、ニューラルネットワークは深層ニューラルネットワークであり得る。ビデオ識別ネットワークによって前記各実施例のビデオ識別方法を実現する前に、ビデオ識別ネットワークをトレーニングすることができる。

１つ又は複数の選択可能な実施例では、前記ビデオ識別方法は、ビデオ識別ネットワークのトレーニングを実現することができる。任意選択で、前記ビデオ中の画像フレーム（キーフレーム及び／又は非キーフレームを含む）をサンプル画像フレームとして使用してもよく、ここで、サンプル画像フレームはラベル情報を有しても良い。この時に、該ビデオ識別方法は、ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングすることをさらに含み、ここで、前記少なくとも１つの画像フレームは前記第１のキーフレームを含む。例えば、予設トレーニング完了条件を満たすまで、ランダム勾配降下法を使用してトビデオ識別ネットワークをレーニングすることができる。予設トレーニング完了条件は、例えば、少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違が特定の条件を満たすこと、及び／又はビデオ識別ネットワークのトレーニングが予設回数に達することを含む。

１つの選択可能な実施形態では、前記ラベル情報には、画像フレーム中に含まれる少なくとも１つの物体の位置情報（例えば物体フレームの位置情報）及び／又は種別情報が含まれる。これに応じて、物体検出結果には、物体検出ボックス及び／又は物体検出ボックスに対応する物体種別が含まれる。１つ又は複数の選択可能な例では、ビデオ識別ネットワークをトレーニングする時に、ビデオ中の少なくとも１つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の対応の位置情報との相違、及び／又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整する。

以下、図４を参照して、本開示の実施例で提供されるビデオ識別ネットワークのトレーニング方法を詳細に説明する。

図４は、本開示の実施例のビデオ識別ネットワークのトレーニング方法のフローチャートである。

４０２、ビデオ識別ネットワークを利用して、ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出する。

４０４、ビデオ識別ネットワークを利用して、現在キーフレームの特徴と１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、ビデオサンプル中の現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得する。

ここで、現在ターゲットフレームと現在キーフレームがビデオサンプル中の同一のセグメント（現在セグメントとも呼ぶ）に属し、該現在セグメント中のキーフレーム以外のフレームであり得る。

４０６、ビデオ識別ネットワークを利用して、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得する。

４０８、ビデオ識別ネットワークを利用して、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得する。

１つの選択可能な例では、該操作４０２〜４０８はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるビデオ識別ネットワーク又はビデオ識別装置中の対応のモジュールによって実行されてもよい。

４１０、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、即ち、ビデオ識別ネットワークのネットワークパラメータ値を調整する。

１つの選択可能な例では、該操作４１０はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるトレーニングモジュールによって実行されてもよい。

本開示の実施例で提供されるビデオ識別ネットワークのトレーニング方法により、ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、また該現在キーフレームの融合特徴を現在ターゲットフレームに伝播して検出し、現在ターゲットフレームにおける物体検出結果を取得し、現在ターゲットフレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、本開示の実施例のビデオ識別ネットワークのトレーニング方法によってトレーニングされて取得されたビデオ識別ネットワークに基づいて、ビデオを識別する時に、それぞれのキーフレームについてビデオ中の１つ前のキーフレームの特徴とを融合して現在ターゲットフレームに伝播し検出するようにして、反復式の複数のフレーム特徴における融合方法を通じてビデオ中のこれらのキーフレームの共有特徴に含まれる情報を増強し、フレーム識別の精度が向上し、ビデオ識別性能が向上し、且つ全ての第２のキーフレームの特徴と第１のキーフレームの特徴を融合することではなく、最新１つの未融合キーフレームの特徴を融合するだけで、特徴融合の計算オーバーヘッドを低減でき、ビデオ識別効率を向上させる。

１つの選択可能な例では、前記トレーニング方法は反復実行過程であり得、つまり、予設のトレーニング完了条件を満たすまで、ビデオ中のそれぞれのフレームを現在ターゲットフレームとして前記流れを実行し、ビデオ識別ネットワークのトレーニングが完成する。

本開示の実施例のトレーニング方法の１つの選択可能な実施形態では、現在キーフレームの特徴と１つ前のキーフレームの特徴を融合することは、
現在キーフレームと１つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
現在キーフレームと１つ前のキーフレームの間のオプティカルフローフィールドに基づいて、１つ前のキーフレームの特徴と現在キーフレームを位置合わせることと、
位置合わせた１つ前のキーフレームの特徴と現在キーフレームの特徴を融合することと、を含む。

本開示の実施例のトレーニング方法の１つの選択可能な実施形態では、１つ前のキーフレームの特徴と現在キーフレームの特徴を融合することは、
１つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数を決定することと、
１つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数に基づいて、１つ前のキーフレームの特徴と現在キーフレームの特徴を融合する。

本開示の前記各トレーニング方法の実施例の前に、ビデオサンプル中から現在キーフレーム、１つ前のキーフレーム及び現在ターゲットフレームを選択することをさらに含む。

１つの選択可能な実施形態では、ビデオサンプル中から現在キーフレーム、１つ前のキーフレーム及び現在ターゲットフレームを選択することは、
ビデオサンプル中から選択された画像フレームを現在ターゲットフレームとすることと、
前記ビデオサンプル中の該現在ターゲットフレームを始点としての第１の距離前のサンプリングされた画像フレームを１つ前のキーフレームとし、前記ビデオ中の現在ターゲットフレームを始点としての第２の距離後のサンプリングされた画像フレームを現在キーフレームとすることを含む。

１つの選択可能な例では、前記第２の距離が第１の距離よりも小さくても良い。このように、該現在ターゲットフレームと現在キーフレームの距離が該現在ターゲットフレームと１つ前のキーフレームの距離よりも小さく良い。

例えば、１つの応用例では、ビデオサンプル中からランダムに１つの画像フレームを現在ターゲットフレームとして選択し、該現在ターゲットフレームに前記ラベル情報を付ける。また、該ビデオサンプル中の現在ターゲットフレームから、前へあるランダム距離に向かって、1つの画像フレームをサンプリングして１つ前の短いビデオシーケンスのキーフレーム（即ち１つ前のキーフレーム）とすることができ、例えば、仮に短いビデオシーケンス長さを１０フレームとすると、該１つ前のキーフレームが現在ターゲットフレームから前へ５フレーム〜１５フレームの間に位置してもよい。該ビデオサンプル中の現在ターゲットフレームから、後へやや小さいランダム距離（即ち第２の距離）に向かって、１つの画像フレームをサンプリングして現在セグメントのキーフレーム（即ち現在キーフレーム）とすることができ、例えば、短いビデオシーケンス長さを１０フレームとすると、該現在キーフレームが現在ターゲットフレームから後へ−５フレーム〜５フレームの間に位置してもよい。任意選択で、本開示の実施例は、他の方法によってある画像フレームの１つ前のキーフレーム及び現在キーフレームを取得してもよいが、本開示の実施例では限定されない。

なお、本開示の実施例の前記トレーニング方法において、任意選択で、前記ビデオ中の現在ターゲットフレームフレームのラベル情報には、現在ターゲットフレーム中に含まれる少なくとも１つの物体の位置情報（例えば物体フレームの位置情報）及び／又は種別情報が含まれ、現在ターゲットフレームにおける物体検出結果には現在ターゲットフレーム中の少なくとも１つの物体検出ボックス及び／又は物体検出ボックスに対応する物体種別が含まれる。これに応じて、該実施例では、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングすることは、現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び／又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。

本開示の各トレーニング方法の実施例では、選択された各組の現在キーフレーム、１つ前のキーフレーム及び現在ターゲットフレームによってトレーニングサンプルを構成し、少なくとも１つのトレーニングサンプルによってトレーニングサンプルセットを構成し、順次トレーニングサンプルセット中からトレーニングサンプルを選択し、前記トレーニング方法の流れを実行し、予設トレーニング完了条件、例えば、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル種別情報との相違が予設違いよりも小さく、及び／又はビデオ識別ネットワークのトレーニングが予設回数に達することを満たすまで、ビデオ識別ネットワークを反復にトレーニングする。図５に示すように、図４に示す実施例の１つの対応過程の模式図である。図４及び図５の例は、本開示の技術的解決策を理解するのを助けるためのものであり、本開示を限定するものとして解釈されるべきではないことを理解されたい。

本開示の実施例で提供されるトレーニング方法において、ビデオ中のランダムにサンプリングされた３つの画像を使用して、応用時の動作状態をミュレートする。まず、ランダムに１つのフレームを現在識別ターゲットフレームとして選択し、その後ランダム距離前の段でサンプリングされたフレームを１つ前のセグメントのキーフレームとし、そしてやや小さいランダム距離後の段でサンプリングされたフレームを現在セグメントのキーフレームとする。前のセグメントのキーフレーム特徴をオプティカルフローによって現在セグメントのキーフレームに伝播し、１つのサブネットワークによって位置ごとの融合重みを生成して、この重みにより両者の融合したキーフレーム特徴を取得する。融合のキーフレーム特徴をオプティカルフローによって現在識別ターゲットフレームに伝播し、具体的な識別タスクネットワークに取り込み、ラベルとの誤差が発生し、この誤差を逆方向に伝播することによってフレーム全体を最適化する。

なお、本開示の実施例は、もう１つのビデオ識別方法を提供し、識別待ちのビデオを取得することと、本開示のいずれか１つの実施例のトレーニング方法によってトレーニングされたビデオ識別ネットワークを利用してビデオを識別し、ビデオの識別結果を取得することと、を含む。

本開示の実施例で提供されるいずれか１つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法は、データ処理能力を有する任意の適当なデバイス、例えば端末デバイス及びサーバなどによって実行され得るが、これらに限定されない。又は、本開示の実施例で提供されるいずれか１つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法は、プロセッサーによって実行され得、例えばプロセッサーによってメモリに記憶された対応の命令を呼び出し本開示の実施例のいずれか１つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法を実行する。これは以下では繰り返されない。

上記方法の実施例を実現する全部または一部のステップは、プログラム命令に関連するハードウェアによって実行され、前記のプログラムがコンピュータ可読取記憶媒体に記憶され、該プログラムが実行される時に、上記方法の実施例を含むステップを実行し、前記の記憶媒体にはＲＯＭ、ＲＡＭ、磁気ディスクまたはコンパクトディスクなどのプログラムコードを記憶可能な各種の媒体が含まれることが当業者に理解可能である。

図６は本開示の実施例のビデオ識別装置の構造模式図である。該ビデオ識別装置は本開示の実施例で提供される前記ビデオ識別方法を実現するために用いられ得る。図６に示すように、該ビデオ識別装置は、特徴抽出ネットワーク、融合ネットワーク及び検出ネットワークを含む。

特徴抽出ネットワークはビデオ中の第１のキーフレームの特徴を抽出するために用いられる。ここで、該第１のキーフレームはビデオ中のいずれか１つのキーフレームであり得、ビデオの複数のキーフレーム中の現在処理するキーフレームと見なす。

融合ネットワークは、第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合し、第１のキーフレームの融合特徴を取得するために用いられ、ここで、第２のキーフレームのビデオにおける検出時間順序が第１のキーフレームの前であり、該第２のキーフレームは例えば前記ビデオ中の第１のキーフレームと隣接する１つ前のキーフレームであり得る。本開示の各実施例の１つの実施形態では、第２のキーフレームの融合特徴は、該第２のキーフレームの特徴と前記ビデオにおける検出時間順序が該第２のキーフレームの前である第３のキーフレームの融合特徴を融合処理し取得され得る。

検出ネットワークは、前記第１のキーフレームの融合特徴に基づいて第１のキーフレームを検出し、第１のキーフレームにおける物体検出結果を取得するために用いられる。ここで、第１のキーフレームにおける物体検出結果は、例えば第１のキーフレームの種別、又は第１のキーフレーム中の物体検出ボックス及びその対応の物体種別を含む。

本開示の実施例で提供されるビデオ識別装置によれば、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合し、第１のキーフレームの融合特徴を取得し、第１のキーフレームの融合特徴に基づいて第１のキーフレームを検出し、非キーフレームにおける物体検出結果を取得する。本開示の実施例は、ビデオを識別する時に、それぞれのキーフレームについて、ビデオ中の第２のキーフレームの融合特徴と融合し、取得された第１のキーフレームの融合特徴に基づいてさらに識別し、反復式の複数のフレーム特徴における融合方法によってビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度が向上し、ビデオ識別性能も向上し、そして、全ての第２のキーフレームの特徴と第１のキーフレームの特徴を融合することではなく、最新の未融合キーフレームの特徴を加えて融合し、特徴融合の計算オーバーヘッドを低減し、ビデオ識別効率を向上させる。

図７は本開示の実施例のビデオ識別装置の別の構造模式図である。図７に示すように、図６に示すビデオ識別装置と比較して、該ビデオ識別装置は、第１のキーフレームと第２のキーフレームの間のオプティカルフローフィールドを取得し、第１のキーフレームと第２のキーフレームの間のオプティカルフローフィールドに基づいて、第２のキーフレームの融合特徴と第１のキーフレームとを位置合わせるために用いられるオプティカルフロー伝播モジュールをさらに含む。これに応じて、融合ネットワークは、位置合わせた第２のキーフレームの融合特徴と第１のキーフレームの融合特徴を融合し、第１のキーフレームの融合特徴を取得するために用いられる。

本開示１つの選択可能な実施形態では、融合ネットワークは第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合する時に、第１のキーフレームの特徴と第２のキーフレームの融合特徴の重み係数を決定し、第１のキーフレームの特徴と第２のキーフレームの融合特徴の重み係数に基づいて、第１のキーフレームの特徴と第２のキーフレームの融合特徴を融合するために用いられる。

なお、また図７を参照して、本開示の実施例のビデオ識別装置のさらに別の例では、第１のキーフレームがビデオ中の最初のキーフレームであるかどうかを確定するための確定モジュールをさらに含む。これに応じて、融合ネットワークは、確定モジュールの確定結果に基づいて、第１のキーフレームがビデオ中の最初のキーフレームではないことに応じて、第１のキーフレームの特徴とビデオ中の第２のキーフレームの融合特徴を融合するために用いられる。

なお、任意選択で、もう１つの可能な実現態様では、検出ネットワークは、さらに、確定モジュールの確定結果に基づいて、第１のキーフレームがビデオ中の最初のキーフレームであることに応じて、最初のキーフレームの特徴に基づいて第１のキーフレームを検出し、最初のキーフレームにおける物体検出結果を取得するために用いられる。

なお、また図７を参照して、本開示の実施例のビデオ識別装置のもう１つの例では、ビデオ中から第１のキーフレームを選択するための選択モジュールをさらに含む。

１つの実施形態では、選択モジュールは、ビデオ中からランダムに選択された画像フレームを第１のキーフレームとし、又は、ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを第１のキーフレームとし、又は、ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれの短いビデオシーケンスのキーフレームとして選択し、複数の短いビデオシーケンスのキーフレームには第１のキーフレームが含まれ、又は、ビデオ中から１つの短いビデオシーケンスを選択し、選択された短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとするために用いられる。

１つの選択可能な例では、選択モジュールは短いビデオシーケンス中から選択された画像フレームを第１のキーフレームとし、短いビデオシーケンス中からランダムに選択された画像フレームを第１のキーフレームとし、又は、短いビデオシーケンス中の中間フレームを第１のキーフレームとして選択するために用いられ、ここで、中間フレームは、該中間フレームの所在する短いビデオシーケンス中の最初フレーム及び最後フレーム以外の画像フレームを含む。中間フレームは、例えば該中間フレームの所在する短いビデオシーケンス中の中央位置又は中央位置の近くに位置する画像フレームを含む。

なお、前記各ビデオ識別装置の実施例では、オプティカルフロー伝播モジュールは、さらに、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドを取得し、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールド、及び第１のキーフレームの融合特徴に基づいて、第１の非キーフレームの特徴を取得するために用いられる。これに応じて、検出ネットワークは、さらに、第１の非キーフレームの特徴に基づいて第１の非キーフレームを検出し、第１の非キーフレームにおける物体検出結果を取得するために用いられる。

ここで、第１のキーフレームと第１の非キーフレームの間の距離が予設閾値よりも小さく、又は、第１のキーフレームがビデオのキーフレーム中の、第１の非キーフレームとの距離が最も近いキーフレームであり、又は、第１の非キーフレームと第１のキーフレームが同一の短いビデオシーケンスに属する。

１つの実施形態では、オプティカルフロー伝播モジュールは、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールドに基づいて、第１のキーフレームの融合特徴と第１の非キーフレームとを位置合わせ、第１の非キーフレームと第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第１のキーフレームの融合特徴に基づいて、第１の非キーフレームの特徴を取得するために用いられる。

任意選択で、本開示の実施例で提供される前記ビデオ識別装置は、ビデオ識別ネットワークによって実現され、前記ビデオ中の画像フレームにラベル情報が付けられる。これに応じて、ビデオ識別装置のいくつかの可能な実現態様では、ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングするために用いられるトレーニングモジュールをさらに含み、ここで、前記少なくとも１つの画像フレームには第１のキーフレームが含まれる。

１つの実施形態では、前記ラベル情報には、少なくとも１つの物体の位置情報（例えば物体フレームの位置情報）および種別情報が含まれ、種別検出結果には物体検出ボックス及び物体検出ボックスに対応する物体種別が含まれる。これに応じて、トレーニングモジュールは、ビデオ中の少なくとも１つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び／又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられる。

図８は本開示の実施例のビデオ識別ネットワークのトレーニング装置の構造模式図である。該トレーニング装置は、本開示の図４に示すビデオ識別ネットワークのトレーニング方法を実現するために用いられる。図８に示すように、該トレーニング装置は、ビデオ識別ネットワーク及びトレーニングモジュールを含む。

ビデオ識別ネットワークは、ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出し、現在キーフレームの特徴と１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、ビデオサンプル中の現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、現在ターゲットフレームと現在キーフレームがビデオサンプル中の同一セグメントに属し、例えば該現在キーフレームが位置するセグメント中の現在キーフレーム以外の他のフレームであり得、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得し、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得するために用いられる。

トレーニングモジュールは、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングする、すなわち、ビデオ識別ネットワークのネットワークパラメータ値を調整するために用いられる。

本開示の実施例ビデオ識別ネットワークのトレーニング装置に基づいて、ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得して、該現在キーフレームの融合特徴を現在ターゲットフレームに伝播して検出し、現在ターゲットフレームにおける物体検出結果を取得し、現在ターゲットフレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、本開示の実施例のビデオ識別ネットワークのトレーニング装置によってトレーニングされて得られたビデオ識別ネットワークに基づいて、ビデオを識別する時に、それぞれのキーフレームについてビデオ中の１つ前のキーフレームの特徴と融合してから現在ターゲットフレームに伝播して検出し、反復式の複数のフレーム特徴における融合方法によって、ビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度が向上し、ビデオ識別性能が向上し、そして、全ての第２のキーフレームの特徴と第１のキーフレームの特徴を融合するではなく、最新の未融合キーフレームの特徴を加えて融合し、特徴融合の計算オーバーヘッドを低減し、ビデオ識別効率が向上する。

図９は、本開示の実施例のビデオ識別ネットワークのトレーニング装置の別の構造模式図である。図９に示すように、ビデオ識別ネットワークは、特徴抽出ネットワーク、オプティカルフロー伝播モジュール、融合ネットワーク及び検出ネットワークを含む。

特徴抽出ネットワークは、ビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出するために用いられる。

オプティカルフロー伝播モジュールは、現在キーフレームと１つ前のキーフレームの間のオプティカルフローフィールドを取得し、現在キーフレームと１つ前のキーフレームの間のオプティカルフローフィールドに基づいて、１つ前のキーフレームの特徴と現在キーフレームとを位置合わせて、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得し、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得するために用いられる。

融合ネットワークは、位置合わせた１つ前のキーフレームの特徴と現在キーフレームの特徴を融合し、現在キーフレームの融合特徴を取得するために用いられる。

検出ネットワークは、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得するために用いられる。

１つの実施形態では、融合ネットワークは１つ前のキーフレームの特徴と現在キーフレームの特徴を融合する時に、１つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数を決定し、１つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数に基づいて、１つ前のキーフレームの特徴と現在キーフレームの特徴を融合するために用いられる。

なお、また図９を参照して、ビデオ識別ネットワークのトレーニング装置のさらに別の例では、ビデオサンプル中から現在キーフレーム、１つ前のキーフレーム及び現在ターゲットフレームを選択するために用いられる選択モジュールをさらに含む。

１つの実施形態では、選択モジュールは、ビデオサンプル中から選択された画像フレームを現在ターゲットフレームとし、ビデオサンプル中の現在ターゲットフレームを始点としての第１の距離前へサンプリングされた画像フレームを１つ前のキーフレームとし、ビデオサンプル中の現在ターゲットフレームを始点としての第２の距離後へサンプリングされた画像フレームを現在キーフレームとする。

例示的に、第２の距離が第１の距離よりも小さくても良い。

前記トレーニング装置では、任意選択で、現在ターゲットフレームのラベル情報には、現在ターゲットフレーム中に含まれる少なくとも１つの物体の位置情報（例えば物体フレームの位置情報）および種別情報が含まれ、現在ターゲットフレームの種別検出結果には現在ターゲットフレーム中の物体検出ボックスと物体検出ボックスに対応する物体種別が含まれる。これに応じて、トレーニングモジュールは、現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び／又は物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられる。

前記トレーニング装置の様々な可能な実現態様では、各組の現在キーフレーム、１つ前のキーフレーム及び現在ターゲットフレームによってトレーニングサンプルを構成し、少なくとも１つのトレーニングサンプルによってトレーニングサンプルセットを構成する。トレーニングモジュールは、順次トレーニングサンプルセット中からトレーニングサンプルを選択し、予設トレーニング完了条件を満たすまでビデオ識別ネットワークを反復トレーニングするために用いられる。

なお、本開示の実施例は、本開示のいずれか１つの実施例のビデオ識別装置又はビデオ識別ネットワークのトレーニング装置を含む電子デバイスをさらに提供する。

なお、本開示の実施例は、
実行可能命令を記憶するためのメモリと、
メモリと通信し実行可能命令を実行することにより本開示のいずれか１つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実現するためのプロセッサーと、を含むもう１つの電子デバイスをさらに提供する。

図１０は本開示の実施例の電子デバイスの応用例の構造模式図である。以下、図１０を参照して、本願の実施例の端末デバイス又はサーバの電子デバイスを実現するのに適する構造模式図である。図１０に示すように、該電子デバイスは、１つ又は複数のプロセッサー、通信部などを含み、前記１つ又は複数のプロセッサーは、例えば１つ又は複数の中央処理ユニット（ＣＰＵ）、及び／又は１つ又は複数の画像プロセッサー（ＧＰＵ）などであり、プロセッサーは読み取り専用メモリ（ＲＯＭ）中に記憶された実行可能命令又は記憶部からランダムアクセスメモリ（ＲＡＭ）中にロードされた実行可能命令を実行することによって、各種の適当な動作及び処理を実現する。通信部は、ＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むネットワークカードを含むが、これに限定されなく、プロセッサーは読み取り専用メモリ及び／又はランダムアクセスメモリと通信し実行可能命令を実行し、バスを介して通信部と接続され、かつ通信部を介して他の目標デバイス通信と通信することによって、本願の実施例で提供されるいずれか１つの方法に対応する操作を実現し、例えば、ビデオ中の第１のキーフレームの特徴を抽出し、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得し、ここで、前記第２のキーフレームの前記ビデオにおける検出時間順序が前記第１のキーフレームよりも前であり、前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得する。また、ビデオ識別ネットワークを利用しビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出し、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、前記ビデオ中の現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、前記現在ターゲットフレームが前記現在キーフレームが位置するセグメント中の前記現在キーフレーム以外の他のフレームであり、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得し、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングする。

また、ＲＡＭには、装置操作に必要な各種プログラムやデータを記憶することができる。ＣＰＵ、ＲＯＭ及びＲＡＭはバスを介して相互に接続される。ＲＡＭを有する場合に、ＲＯＭは任意選択可能なモジュールである。ＲＡＭは実行可能命令を記憶するか、または動作時に実行可能命令をＲＯＭに書き込み、実行可能命令によってプロセッサーに上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェースもバスに接続される。通信部は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウス等を含む入力部と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）等及びスピーカ等を含む出力部と、ハードディスク等を含む記憶部と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信インタフェースなどがＩ／Ｏインタフェースに接続されている。ドライバも必要に応じてＩ／Ｏインタフェースに接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体は、必要に応じてドライバ上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部にインストールする。

なお、図１０に示す構造は任意選択的な一実施例に過ぎず、具体的な実践では、実際の必要に応じて上記の図１０の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施例を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、通信デバイスは分離設置してもよく、またＣＰＵまたはＧＰＵに統合してもよいことである。これらの置換可能な実施例はいずれも本願の保護範囲に属する。

なお、本開示の実施例は、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令が実行される時に本開示のいずれか１つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実現するコンピュータ記憶媒体をさらに提供する。

なお、本開示の実施例は、コンピュータ可読命令を含み、コンピュータ可読命令がデバイス中で実行される時に、デバイス中のプロセッサーは本開示のいずれか１つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作中のステップを実現するための実行可能命令を実行するコンピュータプログラムをさらに提供する。

１つの選択可能な実施形態では、前記コンピュータプログラムは、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）、などのソフトウェア製品であり得る。

１つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラムプログラム製品であって、前記命令が実行される時にコンピュータに前記のいずれか１つの可能な実現態様中の本開示のいずれか１つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実行させるコンピュータプログラムプログラム製品をさらに提供する。

該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組合わせによって実現され得る。１つの選択可能な例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として表現され、もう１つの選択可能な例では、前記コンピュータプログラム製品は、ＳＤＫなどのソフトウェア製品として表現されてもよい。

１つ又は複数の選択可能な実施形態では、本開示の実施例は、ビデオ識別方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品をさらに提供し、ここで、該方法は、ビデオ中の第１のキーフレームの特徴を抽出することと、前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合し、前記第１のキーフレームの融合特徴を取得し、ここで、前記第２のキーフレームの前記ビデオにおける検出時間順序が前記第１のキーフレームの前であることと、前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得することと、を含む。

１つ又は複数の選択可能な実施形態では、本開示の実施例は、ビデオ識別トレーニングのトレーニング方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品を提供し、ここで、該方法は、ビデオ識別ネットワークを利用しビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出することと、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得することと、前記ビデオ中の現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、前記現在ターゲットフレームが前記現在キーフレームが位置するセグメント中の前記現在キーフレーム以外の他のフレームであることと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることと、を含む。

特に、本開示の実施例によれば、フローチャートを参照して説明した過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例の実施例は、機械可読媒体で有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含み、プログラムコードは本開示の実施例で提供される方法ステップに対応する命令を含む。

１つ又は複数の選択可能な実施形態では、本発明の実施例は、ビデオ識別方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品をさらに提供し、ここで、該方法は、第１の装置から第２の装置へビデオ識別指示を送信し、該指示によって第２の装置に前記のいずれか１つの可能な実施例中のビデオ識別方法を実行させ、第１の装置は第２の装置から送信した物体検出結果を受信する。

いくつかの実施例では、該ビデオ識別指示は命令を呼び出し、第１の装置は、呼び出し方法によって第２の装置にビデオ識別を実行させ、呼び出し命令を受信したことに応じて、第２の装置は前記ビデオ識別方法中の任意の実施例中のステップ及び／又は流れを実行することができる。

本開示の実施例は、任意のビデオ識別シーンに応用され得、例えば、インテリジェントドローンは、航空写真で野生動物を撮像する場合に、リアルタイム分析を実現するために、写真内の動物をできるだけ迅速かつ正確に識別する必要がある。しかしながら、気流などの影響により、写真が揺れたりぼやけたりすることがあり、同時に野生動物自体も速く走っている場合があり、これらの要素により写真の品質が低下し、従来の識別ネットワークが失効になる。本開示の実施例のビデオ識別方法によれば、ビデオ中の他のフレームの融合特徴を現在フレームに伝播し、低い品質の画面の識別精度を向上させる。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の一部については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連一部は方法実施例の説明を参照すればよい。

本発明の方法及び装置、機器は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本発明の方法及び装置、機器を実現することができる。方法のステップのための上記順序は説明のために用いられ、本発明の方法のステップは、特に断らない限り、以上説明した順序に限定されない。また、いくつかの実施例では、本発明は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本発明による方法を実現するための機械可読命令を含む。従って、本発明は本発明による方法を実現するためのプログラムが記憶された記録媒体も含む。

本願の説明は、全部ではなく、一部の例示及び説明のために提示されたものであり、本願はこれらに限定されない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者は本願を理解して特定用途に適した各種修正を加えた各種実施例を設計可能にするように選択され説明されたものである。

Claims

ビデオ中の第１のキーフレームの特徴を抽出することと、
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得することであって、ここで、前記第２のキーフレームの前記ビデオにおける検出時間順序が前記第１のキーフレームの前である、ことと、
前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得することと、を含むことを特徴とするビデオ識別方法。
前記第２のキーフレームは、前記ビデオにおける前記第１のキーフレームと隣接する１つ前のキーフレームを含むことを特徴とする請求項１に記載の方法。
前記第２のキーフレームの融合特徴は、前記第２のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第２のキーフレームの前である第３のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項１又は２に記載の方法。
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合する前に、
前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドを取得することと、
前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドに基づいて、前記第２のキーフレームの融合特徴と前記第１のキーフレームを位置合わせることと、をさらに含み、
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、位置合わせた前記第２のキーフレームの融合特徴と前記第１のキーフレームの特徴を融合することを含むことを特徴とする請求項１〜３のいずれか１項に記載の方法。
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、
前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数を決定することと、
前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数に基づいて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合することと、を含むことを特徴とする請求項１〜４のいずれか１項に記載の方法。
前記第１のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定することをさらに含み、
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合することは、前記第１のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合することを含むことを特徴とする請求項１〜５のいずれか１項に記載の方法。
前記第１のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記第１のキーフレームの特徴に基づいて、前記第１のキーフレームにおける物体検出結果を取得することをさらに含むことを特徴とする請求項６に記載の方法。
前記ビデオ中から前記第１のキーフレームを選択することをさらに含むことを特徴とする請求項１〜７のいずれか１項に記載の方法。
前記ビデオ中から前記第１のキーフレームを選択することは、
前記ビデオ中からランダムに選択された画像フレームを前記第１のキーフレームとすること、または、
前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第１のキーフレームとすること、または、
前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとすることであって、前記複数の短いビデオシーケンスのキーフレームが前記第１のキーフレームを含むこと、又は、
前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとすることを含むことを特徴とする請求項８に記載の方法。
前記短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとすることは、
前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第１のキーフレームとすること、または、
前記短いビデオシーケンス中の中間フレームを選択して前記第１のキーフレームとすることであって、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを含むことを特徴とする請求項９に記載の方法。
前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項１０に記載の方法。
第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得することと、
前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することと、
前記第１の非キーフレームの特徴に基づいて前記第１の非キーフレームを検出し、前記第１の非キーフレームにおける物体検出結果を取得することと、をさらに含むことを特徴とする請求項１〜１１のいずれか１項に記載の方法。
前記第１のキーフレームと前記第１の非キーフレームの間の距離が予設閾値よりも小さく、又は、
前記第１のキーフレームが前記ビデオの複数のキーフレーム中の、前記第１の非キーフレームとの距離が最も近いキーフレームである、又は、
前記第１の非キーフレームと前記第１のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項１２に記載の方法。
前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得した後、
前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドに基づいて、前記第１のキーフレームの融合特徴と前記第１の非キーフレームを位置合わせることをさらに含み、
前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することは、
前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得することを含むことを特徴とする請求項１２又は１３に記載の方法。
前記ビデオ中の画像フレームはラベル情報を有し、
前記方法は、
前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることであって、ここで、前記少なくとも１つの画像フレームが前記第１のキーフレームを含むことをさらに含むことを特徴とする請求項１〜１４のいずれか１項に記載の方法。
前記ラベル情報は、画像フレームに含まれる少なくとも１つの物体の位置情報及び種別情報を含み、
前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることは、前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項１５に記載の方法。
ビデオ識別ネットワークを利用してビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出することと、
前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得することと、
前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、
前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とするビデオ識別ネットワークのトレーニング方法。
前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合することは、
前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームを位置合わせることと、
位置合わせた前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項１７に記載の方法。
前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することは、
前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定することと、
前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項１７又は１８に記載の方法。
前記のビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出する前に、
前記ビデオサンプル中から前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームを選択することを更に含むことを特徴とする請求項１７〜１９のいずれか１項に記載の方法。
前記ビデオサンプル中から前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームを選択することは、
前記ビデオサンプル中から選択された画像フレームを前記現在ターゲットフレームとすることと、
前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第１の距離の前でサンプリングされた画像フレームを前記１つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第２の距離の後でサンプリングされた画像フレームを前記現在キーフレームとすることと、を含むことを特徴とする請求項２０に記載の方法。
前記第２の距離が前記第１の距離よりも小さいことを特徴とする請求項２１に記載の方法。
前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも１つの物体の位置情報及び種別情報を含み、
前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項１７〜２２のいずれか１項に記載の方法。
識別待ちのビデオを取得することと、
ビデオ識別ネットワークを利用し前記ビデオを識別し、前記ビデオの識別結果を取得し、ここで、前記ビデオ識別ネットワークが請求項１７−２３のいずれか１項に記載のトレーニング方法によってトレーニングされて得られることと、を含むことを特徴とするビデオ識別方法。
ビデオ中の第１のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
前記第１のキーフレームの特徴と前記ビデオ中の第２のキーフレームの融合特徴を融合して、前記第１のキーフレームの融合特徴を取得するための融合ネットワークであって、ここで、前記第２のキーフレームの前記ビデオにおける検出時間順序が前記第１のキーフレームの前である、融合ネットワークと、
前記第１のキーフレームの融合特徴に基づいて前記第１のキーフレームを検出し、前記第１のキーフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とするビデオ識別装置。
前記第２のキーフレームは、前記ビデオにおける前記第１のキーフレームと隣接する１つ前のキーフレームを含むことを特徴とする請求項２５に記載の装置。
前記第２のキーフレームの融合特徴は、前記第２のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第２のキーフレームの前である第３のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項２５又は２６に記載の装置。
前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドを取得し、前記第１のキーフレームと前記第２のキーフレームの間のオプティカルフローフィールドに基づいて、前記第２のキーフレームの融合特徴と前記第１のキーフレームを位置合わせるためのオプティカルフロー伝播モジュールを更に含み、
前記融合ネットワークは、位置合わせた前記第２のキーフレームの融合特徴と前記第１のキーフレームの特徴を融合し、前記第１のキーフレームの融合特徴を取得するために用いられることを特徴とする請求項２５〜２７のいずれか１項に記載の装置。
前記融合ネットワークは、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合する時に、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数を決定し、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴の重み係数に基づいて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合するために用いられることを特徴とする請求項２５〜２８のいずれか１項に記載の装置。
前記第１のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定するための確定モジュールを更に含み、
前記融合ネットワークは、前記確定モジュールの確定結果に基づいて、前記第１のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第１のキーフレームの特徴と前記第２のキーフレームの融合特徴を融合することを特徴とする請求項２５〜２９のいずれか１項に記載の装置。
前記検出ネットワークは、更に前記確定モジュールの確定結果に基づいて、前記第１のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記最初のキーフレームの特徴に基づいて前記第１のキーフレームを検出し、前記最初のキーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項３０に記載の装置。
前記ビデオ中から第１のキーフレームを選択するための選択モジュールを更に含むことを特徴とする請求項２５〜３１のいずれか１項に記載の装置。
前記選択モジュールは、
前記ビデオ中からランダムに選択された１つの画像フレームを前記第１のキーフレームとするために用いられ、又は、
前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第１のキーフレームとするために用いられ、又は、
前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとするために用いられ、前記複数の短いビデオシーケンスのキーフレームが前記第１のキーフレームを含み、又は、
前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第１のキーフレームとするために用いられることを特徴とする請求項３２に記載の装置。
前記選択モジュールは、前記短いビデオシーケンス中から選択されたフレーム画像を前記第１のキーフレームとする時に、
前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第１のキーフレームとするために用いられ、または、
前記短いビデオシーケンス中の中間フレームを選択して前記第１のキーフレームとするために用いられ、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを特徴とする請求項３３に記載の装置。
前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項３４に記載の装置。
前記オプティカルフロー伝播モジュールは、さらに、第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得し、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得するために用いられ、
前記検出ネットワークは、さらに、前記第１の非キーフレームの特徴に基づいて前記第１の非キーフレームを検出し、前記第１の非キーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項２５〜３５のいずれか１項に記載の装置。
前記第１のキーフレームと前記第１の非キーフレームの間の距離が予設閾値よりも小さく、又は、
前記第１のキーフレームが前記ビデオのキーフレーム内の、前記第１の非キーフレームとの距離が最も近いキーフレームであり、又は、
前記第１の非キーフレームと前記第１のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項３６に記載の装置。
前記オプティカルフロー伝播モジュールは、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドを取得し、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールドに基づいて、前記第１のキーフレームの融合特徴と前記第１の非キーフレームを位置合わせ、前記第１の非キーフレームと前記第１のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第１のキーフレームの融合特徴に基づいて、前記第１の非キーフレームの特徴を取得するために用いられることを特徴とする請求項３６又は３７に記載の装置。
前記ビデオ識別装置はビデオ識別ネットワークを含み、前記ビデオ中の画像フレームはラベル情報を有し、
前記装置は、
前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングするためのトレーニングモジュールであって、ここで、前記少なくとも１つの画像フレームが前記第１のキーフレームを含む、トレーニングモジュールを更に含むことを特徴とする請求項２５〜３８のいずれか１項に記載の装置。
前記ラベル情報は、画像フレームに含まれる少なくとも１つの物体の位置情報及び種別情報を含み、
前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記トレーニングモジュールは、前記ビデオ中の少なくとも１つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項３９に記載の装置。
ビデオサンプル中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出し、前記現在キーフレームの特徴と前記１つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するためのビデオ識別ネットワークと、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整するためのトレーニングモジュールと、を含むビデオ識別ネットワークのトレーニング装置。
前記ビデオ識別ネットワークは、
ビデオ中の現在キーフレームの特徴及び１つ前のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドを取得し、前記現在キーフレームと前記１つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームを位置合わせて、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得するためのオプティカルフロー伝播モジュールと、
位置合わせた前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合し、現在キーフレームの融合特徴を取得するための融合ネットワークと、
前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とする請求項４１に記載の装置。
前記融合ネットワークは前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合する時に、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定し、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記１つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合するために用いられることを特徴とする請求項４１又は４２に記載の装置。
前記ビデオサンプル中から前記現在キーフレーム、前記１つ前のキーフレーム及び前記現在ターゲットフレームを選択することための選択モジュールを更に含むことを特徴とする請求項４１〜４３のいずれか１項に記載の装置。
前記選択モジュールは、前記ビデオサンプル中から画像フレームを前記現在ターゲットフレームとして選択し、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第１の距離の前でサンプリングされた画像フレームを前記１つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第２の距離の後でサンプリングされた画像フレームを前記現在キーフレームとするために用いられることを特徴とする請求項４４に記載の装置。
前記第２の距離が前記第１の距離よりも小さいことを特徴とする請求項４５に記載の装置。
前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも１つの物体の位置情報及び種別情報を含み、
前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記トレーニングモジュールは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び／又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項４１〜４６のいずれか１項に記載の装置。
コンピュータ可読命令を記憶するためのメモリと、前記コンピュータ可読命令を実行することによって請求項１〜２４のいずれか１項に記載の方法を実行するためのプロセッサーと、を含むことを特徴とする電子デバイス。
コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、
前記コンピュータ可読命令がデバイス中で実行される時に、前記デバイス中のプロセッサーが請求項１〜２４のいずれか１項に記載の方法を実行することを特徴とするコンピュータ記憶媒体。