JP6932254B2

JP6932254B2 - キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体

Info

Publication number: JP6932254B2
Application number: JP2020519444A
Authority: JP
Inventors: 石建萍; 李玉▲楽▼; 林▲達▼▲華▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-12-27
Filing date: 2018-12-25
Publication date: 2021-09-08
Anticipated expiration: 2038-12-25
Also published as: EP3644221A4; KR20200102409A; MY182985A; US20200394414A1; CN108229363A; JP2020536332A; US11164004B2; KR102305023B1; WO2019128979A1; SG11202000578UA; EP3644221A1

Description

（関連出願の相互参照）
本願は、２０１７年１２月２７日に中国特許局に提出された、出願番号がＣＮ２０１７１１４５５８３８．Ｘであり、発明の名称が「キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願は、コンピュータビジョン技術に関し、特に、キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体に関する。

ビデオセマンティックセグメンテーションは、コンピュータビジョンとビデオセマンティック理解タスクの重要な課題となっている。ビデオセマンティックセグメンテーションモデルは例えば、自動運転、ビデオ監視及びビデオ目標解析などの多くの分野に重要な用途を持っている。ビデオセマンティックセグメンテーション速度はビデオセマンティックセグメンテーションタスクにおける重要なことである。

本願の実施例は、キーフレームスケジューリングの技術的手段を提供する。

本願の実施例の一態様によれば、提供されるキーフレームスケジューリング方法は、
ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得ることと、
前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することであって、前記１つ前のキーフレームの低層特徴が、前記第１のネットワーク層により前記１つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であることと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定することと、
前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、第２のネットワーク層によって前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得ることであって、前記ニューラルネットワークにおいて、前記第１のネットワーク層のネットワーク深度が前記第２のネットワーク層のネットワーク深度より浅いことと、を含む。

選択可能に、本願の上記のいずれか１つの方法の実施例では、
初期キーフレームを決定することと、
前記第１のネットワーク層によって前記初期キーフレームに対して特徴抽出を行い、前記初期キーフレームの低層特徴を得てキャッシュすることと、
前記第２のネットワーク層によって前記初期キーフレームの低層特徴に対して特徴抽出を行い、前記初期キーフレームの高層特徴を得ることと、を更に含む。

選択可能に、本願の上記のいずれか１つの方法の実施例では、
前記初期キーフレームに対してセマンティックセグメンテーションを行い、前記初期キーフレームのセマンティックラベルを出力することを更に含む。

選択可能に、本願の上記のいずれか１つの方法の実施例では、前記現在フレームがキーフレームとしてスケジューリングされることを決定した後に、
前記現在キーフレームの低層特徴をキャッシュすることを更に含む。

選択可能に、本願の上記のいずれか１つの方法の実施例では、前記の前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することは、
前記１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得ることと、
キーフレームスケジューリングネットワークによって、前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得することと、を含む。

選択可能に、本願の上記のいずれか１つの方法の実施例では、
前記現在キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力することを更に含む。

本願の実施例の別の態様によれば、提供されるキーフレームスケジューリング装置は、
ニューラルネットワークの第１のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる第１の特徴抽出ユニットと、
前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得するために用いられるスケジューリングユニットであって、前記１つ前のキーフレームの低層特徴が、前記第１のネットワーク層により前記１つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であるスケジューリングユニットと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる決定ユニットと、
第２のネットワーク層を含み、前記決定ユニットの決定結果により、前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得るために用いられる第２の特徴抽出ユニットであって、前記ニューラルネットワークにおいて、前記第１のネットワーク層のネットワーク深度が前記第２のネットワーク層のネットワーク深度より浅い第２の特徴抽出ユニットと、を含む。

選択可能に、本願の上記のいずれか１つの装置の実施例では、前記１つ前のキーフレームに予め決定された初期キーフレームを含み、
前記装置は、
前記初期キーフレームを含むキーフレームの低層特徴と高層特徴をキャッシュするために用いられるキャッシュユニットを更に含む。

選択可能に、本願の上記のいずれか１つの装置の実施例では、前記第１の特徴抽出ユニットは、更に、前記決定ユニットの決定結果により、前記キャッシュユニットに前記現在キーフレームの低層特徴をキャッシュするために用いられる。

選択可能に、本願の上記のいずれか１つの装置の実施例では、前記スケジューリングユニットは、
前記１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得るために用いられる接合サブユニットと、
前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークと、を含む。

選択可能に、本願の上記のいずれか１つの装置の実施例では、前記装置は、
初期キーフレーム、前記１つ前のキーフレーム又は前記現在キーフレームを含む前記キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含む。

本願の実施例の更に別の態様によれば、提供される電子機器は、本願のいずれか１つの実施例に記載のキーフレームスケジューリング装置を含む。

本願の実施例のまた１つの態様によれば、提供される電子機器は、
プロセッサと本願のいずれか１つの実施例に記載のキーフレームスケジューリング装置とを含み、
プロセッサにより前記キーフレームスケジューリング装置を作動させる時に、本願のいずれか１つの実施例に記載のキーフレームスケジューリング装置のユニットが作動する。

本願の実施例のまた１つの態様によれば、提供される電子機器は、プロセッサとメモリとを含み、
前記メモリは少なくとも１つの実行可能コマンドを格納するために用いられ、前記実行可能コマンドは前記プロセッサに本願のいずれか１つの実施例に記載のキーフレームスケジューリング方法中の各ステップの操作を実行させる。

本願の実施例のまた１つの態様によれば、提供されるコンピュータプログラムは、コンピュータ読取可能コードを含み、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが本願のいずれか１つの実施例に記載の車両運転模擬方法中の各ステップを実現するためのコマンドを実行する。

本願の実施例のまた１つの態様によれば、提供されるコンピュータ可読媒体は、コンピュータ読取可能コマンドを記憶するために用いられ、前記コマンドが実行される時に本願のいずれか１つの実施例に記載のキーフレームスケジューリング方法中の各ステップの操作を実現する。

本願の上記実施例で提供されるキーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、１つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの１つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。

以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。

本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す一模式図である。本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す別の模式図である。本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す一模式図である。本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す別の模式図である。本願の実施例で提供される電子機器の一応用実施例の構造模式図である。

明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す模式図である。図１に示すように、この実施例の方法は、以下のステップを含む。

１０２において、ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得る。

選択可能に、現在フレームはビデオ中の任意のフレームの画像であってもよい。

選択可能な一例では、このステップ１０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第１の特徴抽出ユニットによって実行されてもよい。

１０４において、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得する。

ここで、１つ前のキーフレームの低層特徴は上記第１のネットワーク層によりこの１つ前のキーフレームに対して特徴抽出を行って得られるものであり、選択可能に、本願の実施例に係るスケジューリング確率値は現在フレームがキーフレームとしてスケジューリングされる確率である。

選択可能な一例では、このステップ１０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するスケジューリングユニットによって実行されてもよい。

１０６において、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定する。

本願の実施例の選択可能な一例では、現在フレームのスケジューリング確率値が予め設定された閾値より大きいか否かに応じて、現在フレームがキーフレームとしてスケジューリングされるか否かを決定するようにしてもよい。例えば、予め設定された閾値が８０％であって、現在フレームのスケジューリング確率値がこの予め設定された閾値以上であれば、現在フレームがキーフレームとしてスケジューリングされることを決定し、即ち、この現在フレームがキーフレームであると考えられ、現在フレームのスケジューリング確率値がこの予め設定された閾値より小さければ、現在フレームがキーフレームとしてスケジューリングされないと決定する。

選択可能な一例では、このステップ１０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する決定ユニットによって実行されてもよい。

１０８において、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、上記ニューラルネットワークの第２のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。

ここで、ニューラルネットワークにおいて、上記第１のネットワーク層のネットワーク深度が上記第２のネットワーク層のネットワーク深度より浅い。

選択可能な一例では、このステップ１０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第２の特徴抽出ユニットによって実行されてもよい。

本願の実施例では、ニューラルネットワークには２つ以上のネットワーク深度が異なったネットワーク層を含み、ニューラルネットワークに含まれるネットワーク層のうち、特徴抽出を行うためのネットワーク層は特徴層と呼んでもよく、ニューラルネットワークは１フレームを受信した後、第１の特徴層によって入力されたフレームに対して特徴抽出を行い、且つそれを第２の特徴層に入力し、第２の特徴層から各特徴層は入力された特徴に対して順に特徴抽出を行い、抽出された特徴を次のネットワーク層に入力して特徴抽出を行い、セマンティックセグメンテーションを行うために利用可能な特徴が得られるまで継続する。ニューラルネットワーク中の少なくとも１つの特徴層のネットワーク深度は特徴抽出順序により浅いから深いようになっており、ニューラルネットワーク中の特徴抽出のための特徴層はネットワーク深度により低層特徴層と高層特徴層という２つの部分、即ち上記第１のネットワーク層と第２のネットワーク層に分けてもよい。ここで、低層特徴層中の少なくとも１つの特徴層が順に特徴抽出を行って最終的に出力した特徴は低層特徴と呼ばれ、高層特徴層中の少なくとも１つの特徴層が順に特徴抽出を行って最終的に出力した特徴は高層特徴と呼ばれる。同一のニューラルネットワーク中のネットワーク深度が浅い特徴層に対して、ネットワーク深度が深い特徴層は視野域が大きく、空間構造情報が多く注目され、抽出された特徴をセマンティックセグメンテーションに用いる時に、セマンティックセグメンテーションがより精確になるが、ネットワーク深度が深くなるほど、計算上の難度と複雑度が高くなる。実際の応用において、例えば、計算量のような事前設定基準により、ニューラルネットワーク中の特徴層を低層特徴層と高層特徴層に分けてもよく、この事前設定基準は実際の要求に応じて調整可能である。例えば、順に連結された１００個の特徴層を含むニューラルネットワークは、事前設定により、この１００個の特徴層中の１番目から３０番目までの前の３０個（他の数量であってもよい）の特徴層を低層特徴層とし、３１番目から１００番目までの後の７０個の特徴層を高層特徴層とするようにしてもよい。例えば、ピラミッドシーン解析ネットワーク（ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ、ＰＳＰＮ）に関しては、このニューラルネットワークはそれぞれ複数の畳み込み層を含む４部分の畳み込みネットワーク（ｃｏｎｖ１〜ｃｏｎｖ４）と１つの分類層とを含み、計算量の大きさに基づいて、このＰＳＰＮ中のｃｏｎｖ１〜ｃｏｎｖ４＿３におけるこのＰＳＰＮの約１／８の計算量を占める畳み込み層を低層特徴層とし、このＰＳＰＮ中のｃｏｎｖ４＿４〜分類層前のＰＳＰＮの約７／８の計算量を占める少なくとも１つの畳み込み層を高層特徴層とするようにしてもよく、分類層は高層特徴層の出力する高層特徴に対してセマンティックセグメンテーションを行ってフレームのセマンティックラベル、即ちフレーム中の少なくとも１つの画素の分類を得るために用いられる。

高層特徴の抽出にはネットワーク深度が深い第２のネットワーク層が必要とされ、その計算上の難度と複雑度が高く、フレームのセマンティックラベルを精確に得るために、フレームの高層特徴に基づいてセマンティックセグメンテーションを行う必要があるので、本願の実施例ではキーフレームのみに対して高層特徴抽出を行ってセマンティックセグメンテーションに用いるようになっており、ビデオからフレームごとに高層特徴抽出を行うことに対して、計算上の難度と複雑性を低減することに寄与するだけでなく、ビデオのセマンティックセグメンテーション結果を得ることができる。

本願の上記実施例で提供されるキーフレームスケジューリング方法によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、１つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの１つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。

また、本願のキーフレームスケジューリング方法の別の実施例では、上記図１に示す実施例の前に、更に、以下を含んでもよい。

初期キーフレームを決定する。例えば、ビデオ中の第１のフレーム又は他の任意のフレームを初期キーフレームとして指定し、
上記第１のネットワーク層によって初期キーフレームに対して特徴抽出を行い、初期キーフレームの低層特徴を取得しキャッシュし、続いてこのキーフレームの低層特徴に基づいて他のフレームをキーフレームとしてスケジューリングするか否かを決定してよく（上記ステップ１０２を参照して決定してよい）、
上記第２のネットワーク層によって初期キーフレームの低層特徴に対して特徴抽出を行い、初期キーフレームの高層特徴を得てセマンティックセグメンテーションに用いる。

選択可能に、本願のキーフレームスケジューリング方法のまた１つの実施例では、上記初期キーフレームに対してセマンティックセグメンテーションを行い、このキーフレームのセマンティックラベルを出力することを更に含んでもよい。

また、本願の実施例で提供されるキーフレームスケジューリング方法のまた１つの実施例では、現在フレームがキーフレームとしてスケジューリングされることを決定した後、現在フレームを現在キーフレームと呼び、現在キーフレームの低層特徴をキャッシュして、ビデオ中の現在キーフレームの後の他のフレームがキーフレームとしてスケジューリングされ使用されるか否かを決定することに用いることを更に含んでもよい。

また、本願の実施例で提供されるキーフレームスケジューリング方法の更に１つの実施例では、現在フレームがキーフレームとしてスケジューリングされることを決定した後、現在フレームを現在キーフレームと呼び、この現在キーフレームに対してセマンティックセグメンテーションを行い、この現在キーフレームのセマンティックラベルを出力することを更に含んでもよい。本願の実施例では、キーフレームについては、計算コストが大きい単一フレームモデル、例えば、ＰＳＰＮを呼び出してセマンティックセグメンテーションを行って高精度のセマンティックセグメンテーション結果を得るようにしてもよい。本願の実施例では、キーフレームと現在フレームはニューラルネットワークの低層特徴層（即ち、第１のネットワーク層）を共用して低層特徴抽出を行ってもよく、ここのニューラルネットワークとしてピラミッドシーン解析ネットワーク（ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ、ＰＳＰＮ）を用いてもよく、このニューラルネットワークは、それぞれ複数の畳み込み層に分けられる４部分の畳み込みネットワーク（ｃｏｎｖ１〜ｃｏｎｖ４）と１つの分類層とを含み、ここで、ニューラルネットワークの低層特徴層はＰＳＰＮ中のｃｏｎｖ１〜ｃｏｎｖ４＿３におけるＰＳＰＮの約１／８の計算量を占める畳み込み層を含んでもよく、ニューラルネットワークの高層特徴層（即ち、第２のネットワーク層）はｃｏｎｖ４＿４〜分類層前のＰＳＰＮの約７／８の計算量を占める少なくとも１つの畳み込み層を含んでもよく、それはキーフレームの高層特徴を抽出するために用いられ、分類層はキーフレームの高層特徴に基づいてキーフレーム中の少なくとも１つの画素の種類を対応して認識してキーフレームのセマンティックセグメンテーションを実現するために用いられる。

図２は本願の実施例で提供されるキーフレームスケジューリング方法の別の流れを示す模式図である。図２に示すように、この実施例のキーフレームスケジューリング方法は、以下のステップを含む。

２０２において、ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得る。

本願の実施例の一例では、ニューラルネットワークの低層特徴層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るようにしてもよい。

選択可能な一例では、このステップ２０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第１の特徴抽出ユニットによって実行されてもよい。

２０４において、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得する。

選択可能な一例では、このステップ２０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するスケジューリングユニットによって実行されてもよい。

２０６において、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定する。

現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、操作２０８を実行する。逆に現在フレームがキーフレームとしてスケジューリングされないと決定した場合に、本実施例の後続の流れを実行しない。

出願者は本願を実現する過程で研究することで、２フレームの低層特徴の間の相違性（２フレームの低層特徴の間の差として定義される）が大きいほど、対応するセマンティックラベルの相違性値（２フレームのセマンティックラベル中の非重合部分が占める割合として定義される）が大きくなることを分かり、本願の実施例は現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴との相違性によって現在フレームがキーフレームとしてスケジューリングされるか否かを確認する。２つのフレームの低層特徴の間の相違性がこの予め設定された閾値より大きい時に、精確なセマンティック結果を取得するために、現在フレームをキーフレームとすることができる（即ち、キーフレームとしてスケジューリングする）。

選択可能な一例では、このステップ２０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する決定ユニットによって実行されてもよい。

２０８において、上記ニューラルネットワークの第２のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、且つ現在キーフレームの低層特徴をキャッシュする。

選択可能な一例では、このステップ２０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第２の特徴抽出ユニットとキャッシュユニットによって実行されてもよい。

２１０において、現在キーフレームに対してセマンティックセグメンテーションを行い、現在キーフレームのセマンティックラベルを出力する。

選択可能な一例では、このステップ２１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するセマンティックセグメンテーションユニットによって実行されてもよい。

出願者は本願を実現する過程で研究することで、ビデオ中のフレームの間の低層特徴変化が大きければセマンティックセグメンテーションを行って得られるセマンティックラベルの間の振れが大きく、逆には振れが小さいことを分かった。本願の実施例では、深層学習方法を利用してビデオ中の少なくとも１つのフレームの特徴情報を取得し、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴との相違性により低層特徴の変化を決定し、ビデオ中のフレームの間の振れを解析し、現在フレームと隣接する１つ前のキーフレーム低層特徴との重合程度を計算し、低層特徴変化が大きければラベル振れが大きく、逆には振れが小さく、それにより低層特徴によってセマンティックラベルの振れ程度を回帰させ、それによりキーフレームを適応的にスケジューリングすることができる。

本願の上記の任意の実施例の選択可能な一例では、操作１０４又は２０４は、
１つ前のキーフレームの低層特徴と現在フレームの低層特徴を接合し、接合特徴を得ることと、
キーフレームスケジューリングネットワークによってこの接合特徴に基づいて現在フレームのスケジューリング確率値を取得し出力することと、を含んでもよい。

本願の実施例は自動運転シーン、ビデオ監視シーン、人物画像分割などのインターネットエンタテインメント製品などに利用可能であり、例えば、
１、自動運転のシーンで、本願の実施例を利用してビデオ中の目標、例えば、人物と車両を速やかに分割することができ、
２、ビデオ監視シーンで、人物を速やかに分割することができ、
３、人物画像分割などのインターネットエンタテインメント製品中で、ビデオフレームから人物を速やかに分割することができる。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図３は本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す一模式図である。本願の実施例で提供されるキーフレームスケジューリング装置は本願の上記の各実施例で提供されるキーフレームスケジューリング方法を実現するために利用可能である。図３に示すように、キーフレームスケジューリング装置の一実施例では、第１の特徴抽出ユニット、スケジューリングユニット、決定ユニット及び第２の特徴抽出ユニットを含む。

第１の特徴抽出ユニットは、ニューラルネットワークの第１のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる。

スケジューリングユニットは、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得するために用いられる。ここで、１つ前のキーフレームの低層特徴は第１のネットワーク層により１つ前のキーフレームに対して特徴抽出を行って得られるものであり、選択可能に、本願の実施例に係るスケジューリング確率値は現在フレームがキーフレームとしてスケジューリングされる確率である。

決定ユニットは、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる。

第２の特徴抽出ユニットは、ニューラルネットワークの第２のネットワーク層を含み、決定ユニットの決定結果により、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得るために用いられる。ここで、ニューラルネットワークにおいて、上記第１のネットワーク層のネットワーク深度が第２のネットワーク層のネットワーク深度より浅い。

本願の上記実施例で提供されるキーフレームスケジューリング装置によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、１つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの１つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。

本願の実施例で提供されるキーフレームスケジューリング装置の選択可能な一実施形態では、上記１つ前のキーフレームは予め決定された初期キーフレームを含む。

図４は本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す別の模式図である。図４に示すように、図３に示す実施例と比べると、この実施例では、キーフレームスケジューリング装置は、キーフレームの低層特徴をキャッシュするために用いられるキャッシュユニットを更に含み、本願の実施例中のキーフレームは初期キーフレームを含む。

また、本願の実施例に基づいて提供されるキーフレームスケジューリング装置のまた１つの実施例では、第１の特徴抽出ユニットは更に決定ユニットの得た決定結果により、キャッシュユニットに現在キーフレームの低層特徴をキャッシュするために用いられてもよい。

本願の実施例で提供されるキーフレームスケジューリング装置の一実施形態では、スケジューリングユニットは、１つ前のキーフレームの低層特徴と現在フレームの低層特徴を接合し、接合特徴を得るために用いられる接合サブユニットと、接合特徴に基づいて現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークとを含んでもよい。

また、更に図４に示すように、本願の実施例で提供されるキーフレームスケジューリング装置は、キーフレームに対してセマンティックセグメンテーションを行い、キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含んでもよく、本願の実施例におけるキーフレームは、初期キーフレーム、１つ前のキーフレーム又は現在キーフレームを含んでもよい。

また、本願の実施例は、本願の上記のいずれか１つの実施例のキーフレームスケジューリング装置を含む電子機器を更に提供する。

また、本願の実施例は、
プロセッサと本願の上記のいずれか１つの実施例のキーフレームスケジューリング装置とを含み、
プロセッサによりキーフレームスケジューリング装置を作動させる時に、本願の上記のいずれか１つの実施例のキーフレームスケジューリング装置中のユニットが作動する別の電子機器を更に提供する。

また、本願の実施例は、プロセッサとメモリとを含み、
メモリが少なくとも１つの実行可能コマンドを格納するために用いられ、実行可能コマンドがプロセッサに本願の上記のいずれか１つの実施例のキーフレームスケジューリング方法中の各ステップの操作を実行させるまた１つの電子機器を更に提供する。

本願の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。図５は本願の実施例で提供される電子機器の応用実施例の構造模式図である。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器５００の構造模式図を示す図５を参照し、図５に示すように、電子機器５００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）５０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）５１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）５０２に記憶された実行可能コマンド又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部５１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。

プロセッサは読み取り専用メモリ５０２及び／又はランダムアクセスメモリ５０３と通信して実行可能コマンドを実行し、通信バス５０４を介して通信部５１２に接続され、通信部５１２を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、１つ前のキーフレームが、第１のネットワーク層により１つ前のキーフレームに対して特徴抽出を行って得られ、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、ニューラルネットワークの第２のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、ここで、ニューラルネットワークにおいて、第１のネットワーク層のネットワーク深度が第２のネットワーク層のネットワーク深度より浅い。

また、ＲＡＭ５０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、通信バス５０４を介して相互に接続される。ＲＡＭ５０３を有する場合に、ＲＯＭ５０２は選択可能なモジュールである。ＲＡＭ５０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ５０２に書き込み、実行可能コマンドによって中央処理ユニット５０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェース５０５も通信バス５０４に接続される。通信部５１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部５０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部５０７と、ハードディスクなどを含む記憶部５０８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部５０９とがＩ／Ｏインタフェース５０５に接続されている。通信部５０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ５１０も必要に応じてＩ／Ｏインタフェース５０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体５１１は、必要に応じてドライブ５１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部５０８にインストールする。

なお、図５に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図５の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵ５１３とＣＰＵ５０１は分離設置するかまたはＧＰＵ５１３をＣＰＵ５０１に統合するようにしてよく、通信部は分離設置するか、またはＣＰＵ５０１やＧＰＵ５１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、現在フレームに隣接する１つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、１つ前のキーフレームが第１のネットワーク層により１つ前のキーフレームに対して特徴抽出を行って得られ、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、ニューラルネットワークの第２のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、ここで、ニューラルネットワークにおいて、第１のネットワーク層のネットワーク深度が第２のネットワーク層のネットワーク深度より浅い。このような実施例では、該コンピュータプログラムは通信部５０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体５１１からインストールされ得る。中央処理ユニット（ＣＰＵ）５０１によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能の操作を実行する。

また、本願の実施例は、コンピュータ読取可能コマンドを記憶するために用いられるコンピュータ記憶媒体であって、このコマンドが実行される時に本願の上記のいずれか１つの実施例のキーフレームスケジューリング方法の操作を実現するコンピュータ記憶媒体を更に提供する。

また、本願の実施例は、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、コンピュータ読取可能コマンドが機器上で作動する時に、機器中のプロセッサが本願の上記のいずれか１つの実施例のキーフレームスケジューリング方法中のステップを実現するための実行可能コマンドを実行するコンピュータプログラムを更に提供する。

選択可能な一実施形態では、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品である。

１つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ読取可能コマンドを記憶するために用いられるコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか１つの可能な実現形態に記載のキーフレームスケジューリング方法を実行させるコンピュータプログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばＳＤＫなどのソフトウェア製品として実現される。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

キーフレームスケジューリング方法であって、
ニューラルネットワークの第１のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得ることと、
前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することであって、前記１つ前のキーフレームの低層特徴が、前記第１のネットワーク層により前記１つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であることと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定することと、
前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、第２のネットワーク層によって前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得ることであって、前記ニューラルネットワークにおいて、前記第１のネットワーク層のネットワーク深度が前記第２のネットワーク層のネットワーク深度より浅いことと、を含むことを特徴とするキーフレームスケジューリング方法。
前記方法は、
初期キーフレームを決定することと、
前記第１のネットワーク層によって前記初期キーフレームに対して特徴抽出を行い、前記初期キーフレームの低層特徴を得てキャッシュすることと、
前記第２のネットワーク層によって前記初期キーフレームの低層特徴に対して特徴抽出を行い、前記初期キーフレームの高層特徴を得ることと、を更に含むことを特徴とする請求項１に記載の方法。
前記方法は、
前記初期キーフレームに対してセマンティックセグメンテーションを行い、前記初期キーフレームのセマンティックラベルを出力することを更に含むことを特徴とする請求項２に記載の方法。
前記現在フレームがキーフレームとしてスケジューリングされることを決定した後に、前記方法は、
前記現在キーフレームの低層特徴をキャッシュすることを更に含むことを特徴とする請求項１〜３のいずれか一項に記載の方法。
前記の前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することは、
前記１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得ることと、
キーフレームスケジューリングネットワークによって、前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得することと、を含むことを特徴とする請求項１〜４のいずれか一項に記載の方法。
前記方法は、
前記現在キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力することを更に含むことを特徴とする請求項１〜５のいずれか一項に記載の方法。
キーフレームスケジューリング装置であって、
ニューラルネットワークの第１のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる第１の特徴抽出ユニットと、
前記現在フレームに隣接する１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得するために用いられるスケジューリングユニットであって、前記１つ前のキーフレームの低層特徴が、前記第１のネットワーク層により前記１つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であるスケジューリングユニットと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる決定ユニットと、
第２のネットワーク層を含み、前記決定ユニットの決定結果により、前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得るために用いられる第２の特徴抽出ユニットであって、前記ニューラルネットワークにおいて、前記第１のネットワーク層のネットワーク深度が前記第２のネットワーク層のネットワーク深度より浅い第２の特徴抽出ユニットと、を含むことを特徴とするキーフレームスケジューリング装置。
前記１つ前のキーフレームに予め決定された初期キーフレームを含み、
前記装置は、
前記初期キーフレームを含むキーフレームの低層特徴をキャッシュするために用いられるキャッシュユニットを更に含むことを特徴とする請求項７に記載の装置。
前記第１の特徴抽出ユニットは、更に、前記決定ユニットの決定結果により前記キャッシュユニットに前記現在キーフレームの低層特徴をキャッシュするために用いられることを特徴とする請求項８に記載の装置。
前記スケジューリングユニットは、
前記１つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得るために用いられる接合サブユニットと、
前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークと、を含むことを特徴とする請求項７〜９のいずれか一項に記載の装置。
初期キーフレーム、前記１つ前のキーフレーム又は前記現在キーフレームを含む前記キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含むことを特徴とする請求項７〜１０のいずれか一項に記載の装置。
電子機器であって、
請求項７〜１１のいずれか一項に記載のキーフレームスケジューリング装置を含むことを特徴とする電子機器。
電子機器であって、
プロセッサと請求項７〜１１のいずれか一項に記載のキーフレームスケジューリング装置とを含み、
プロセッサにより前記キーフレームスケジューリング装置を作動させる時に、請求項７〜１１のいずれか一項に記載のキーフレームスケジューリング装置中のユニットが作動することを特徴とする電子機器。
電子機器であって、
プロセッサとメモリとを含み、
前記メモリは少なくとも１つの実行可能コマンドを格納するために用いられ、前記プロセッサは、前記実行可能コマンドを実行することで、請求項１〜６のいずれか一項に記載のキーフレームスケジューリング方法中の各ステップの操作を実行するために用いられることを特徴とする電子機器。
コンピュータに、請求項１〜６のいずれか一項に記載のキーフレームスケジューリング方法を実行させることを特徴とするコンピュータプログラム。
コンピュータに、請求項１〜６のいずれか一項に記載のキーフレームスケジューリング方法を実行させるコンピュータ読取可能コマンドを記憶したコンピュータ可読記憶媒体。