JP6932254B2 - キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体 - Google Patents

キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体 Download PDF

Info

Publication number
JP6932254B2
JP6932254B2 JP2020519444A JP2020519444A JP6932254B2 JP 6932254 B2 JP6932254 B2 JP 6932254B2 JP 2020519444 A JP2020519444 A JP 2020519444A JP 2020519444 A JP2020519444 A JP 2020519444A JP 6932254 B2 JP6932254 B2 JP 6932254B2
Authority
JP
Japan
Prior art keywords
keyframe
layer
current frame
scheduling
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020519444A
Other languages
English (en)
Other versions
JP2020536332A (ja
Inventor
石建萍
李玉▲楽▼
林▲達▼▲華▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2020536332A publication Critical patent/JP2020536332A/ja
Application granted granted Critical
Publication of JP6932254B2 publication Critical patent/JP6932254B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement

Description

(関連出願の相互参照)
本願は、2017年12月27日に中国特許局に提出された、出願番号がCN201711455838.Xであり、発明の名称が「キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体に関する。
ビデオセマンティックセグメンテーションは、コンピュータビジョンとビデオセマンティック理解タスクの重要な課題となっている。ビデオセマンティックセグメンテーションモデルは例えば、自動運転、ビデオ監視及びビデオ目標解析などの多くの分野に重要な用途を持っている。ビデオセマンティックセグメンテーション速度はビデオセマンティックセグメンテーションタスクにおける重要なことである。
本願の実施例は、キーフレームスケジューリングの技術的手段を提供する。
本願の実施例の一態様によれば、提供されるキーフレームスケジューリング方法は、
ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得ることと、
前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することであって、前記1つ前のキーフレームの低層特徴が、前記第1のネットワーク層により前記1つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であることと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定することと、
前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、第2のネットワーク層によって前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得ることであって、前記ニューラルネットワークにおいて、前記第1のネットワーク層のネットワーク深度が前記第2のネットワーク層のネットワーク深度より浅いことと、を含む。
選択可能に、本願の上記のいずれか1つの方法の実施例では、
初期キーフレームを決定することと、
前記第1のネットワーク層によって前記初期キーフレームに対して特徴抽出を行い、前記初期キーフレームの低層特徴を得てキャッシュすることと、
前記第2のネットワーク層によって前記初期キーフレームの低層特徴に対して特徴抽出を行い、前記初期キーフレームの高層特徴を得ることと、を更に含む。
選択可能に、本願の上記のいずれか1つの方法の実施例では、
前記初期キーフレームに対してセマンティックセグメンテーションを行い、前記初期キーフレームのセマンティックラベルを出力することを更に含む。
選択可能に、本願の上記のいずれか1つの方法の実施例では、前記現在フレームがキーフレームとしてスケジューリングされることを決定した後に、
前記現在キーフレームの低層特徴をキャッシュすることを更に含む。
選択可能に、本願の上記のいずれか1つの方法の実施例では、前記の前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することは、
前記1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得ることと、
キーフレームスケジューリングネットワークによって、前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得することと、を含む。
選択可能に、本願の上記のいずれか1つの方法の実施例では、
前記現在キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力することを更に含む。
本願の実施例の別の態様によれば、提供されるキーフレームスケジューリング装置は、
ニューラルネットワークの第1のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる第1の特徴抽出ユニットと、
前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得するために用いられるスケジューリングユニットであって、前記1つ前のキーフレームの低層特徴が、前記第1のネットワーク層により前記1つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であるスケジューリングユニットと、
前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる決定ユニットと、
第2のネットワーク層を含み、前記決定ユニットの決定結果により、前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得るために用いられる第2の特徴抽出ユニットであって、前記ニューラルネットワークにおいて、前記第1のネットワーク層のネットワーク深度が前記第2のネットワーク層のネットワーク深度より浅い第2の特徴抽出ユニットと、を含む。
選択可能に、本願の上記のいずれか1つの装置の実施例では、前記1つ前のキーフレームに予め決定された初期キーフレームを含み、
前記装置は、
前記初期キーフレームを含むキーフレームの低層特徴と高層特徴をキャッシュするために用いられるキャッシュユニットを更に含む。
選択可能に、本願の上記のいずれか1つの装置の実施例では、前記第1の特徴抽出ユニットは、更に、前記決定ユニットの決定結果により、前記キャッシュユニットに前記現在キーフレームの低層特徴をキャッシュするために用いられる。
選択可能に、本願の上記のいずれか1つの装置の実施例では、前記スケジューリングユニットは、
前記1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得るために用いられる接合サブユニットと、
前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークと、を含む。
選択可能に、本願の上記のいずれか1つの装置の実施例では、前記装置は、
初期キーフレーム、前記1つ前のキーフレーム又は前記現在キーフレームを含む前記キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含む。
本願の実施例の更に別の態様によれば、提供される電子機器は、本願のいずれか1つの実施例に記載のキーフレームスケジューリング装置を含む。
本願の実施例のまた1つの態様によれば、提供される電子機器は、
プロセッサと本願のいずれか1つの実施例に記載のキーフレームスケジューリング装置とを含み、
プロセッサにより前記キーフレームスケジューリング装置を作動させる時に、本願のいずれか1つの実施例に記載のキーフレームスケジューリング装置のユニットが作動する。
本願の実施例のまた1つの態様によれば、提供される電子機器は、プロセッサとメモリとを含み、
前記メモリは少なくとも1つの実行可能コマンドを格納するために用いられ、前記実行可能コマンドは前記プロセッサに本願のいずれか1つの実施例に記載のキーフレームスケジューリング方法中の各ステップの操作を実行させる。
本願の実施例のまた1つの態様によれば、提供されるコンピュータプログラムは、コンピュータ読取可能コードを含み、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが本願のいずれか1つの実施例に記載の車両運転模擬方法中の各ステップを実現するためのコマンドを実行する。
本願の実施例のまた1つの態様によれば、提供されるコンピュータ可読媒体は、コンピュータ読取可能コマンドを記憶するために用いられ、前記コマンドが実行される時に本願のいずれか1つの実施例に記載のキーフレームスケジューリング方法中の各ステップの操作を実現する。
本願の上記実施例で提供されるキーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、1つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの1つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す一模式図である。 本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す別の模式図である。 本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す一模式図である。 本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す別の模式図である。 本願の実施例で提供される電子機器の一応用実施例の構造模式図である。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は本願の実施例で提供されるキーフレームスケジューリング方法の流れを示す模式図である。図1に示すように、この実施例の方法は、以下のステップを含む。
102において、ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得る。
選択可能に、現在フレームはビデオ中の任意のフレームの画像であってもよい。
選択可能な一例では、このステップ102はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第1の特徴抽出ユニットによって実行されてもよい。
104において、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得する。
ここで、1つ前のキーフレームの低層特徴は上記第1のネットワーク層によりこの1つ前のキーフレームに対して特徴抽出を行って得られるものであり、選択可能に、本願の実施例に係るスケジューリング確率値は現在フレームがキーフレームとしてスケジューリングされる確率である。
選択可能な一例では、このステップ104はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するスケジューリングユニットによって実行されてもよい。
106において、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定する。
本願の実施例の選択可能な一例では、現在フレームのスケジューリング確率値が予め設定された閾値より大きいか否かに応じて、現在フレームがキーフレームとしてスケジューリングされるか否かを決定するようにしてもよい。例えば、予め設定された閾値が80%であって、現在フレームのスケジューリング確率値がこの予め設定された閾値以上であれば、現在フレームがキーフレームとしてスケジューリングされることを決定し、即ち、この現在フレームがキーフレームであると考えられ、現在フレームのスケジューリング確率値がこの予め設定された閾値より小さければ、現在フレームがキーフレームとしてスケジューリングされないと決定する。
選択可能な一例では、このステップ106はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する決定ユニットによって実行されてもよい。
108において、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、上記ニューラルネットワークの第2のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。
ここで、ニューラルネットワークにおいて、上記第1のネットワーク層のネットワーク深度が上記第2のネットワーク層のネットワーク深度より浅い。
選択可能な一例では、このステップ108はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第2の特徴抽出ユニットによって実行されてもよい。
本願の実施例では、ニューラルネットワークには2つ以上のネットワーク深度が異なったネットワーク層を含み、ニューラルネットワークに含まれるネットワーク層のうち、特徴抽出を行うためのネットワーク層は特徴層と呼んでもよく、ニューラルネットワークは1フレームを受信した後、第1の特徴層によって入力されたフレームに対して特徴抽出を行い、且つそれを第2の特徴層に入力し、第2の特徴層から各特徴層は入力された特徴に対して順に特徴抽出を行い、抽出された特徴を次のネットワーク層に入力して特徴抽出を行い、セマンティックセグメンテーションを行うために利用可能な特徴が得られるまで継続する。ニューラルネットワーク中の少なくとも1つの特徴層のネットワーク深度は特徴抽出順序により浅いから深いようになっており、ニューラルネットワーク中の特徴抽出のための特徴層はネットワーク深度により低層特徴層と高層特徴層という2つの部分、即ち上記第1のネットワーク層と第2のネットワーク層に分けてもよい。ここで、低層特徴層中の少なくとも1つの特徴層が順に特徴抽出を行って最終的に出力した特徴は低層特徴と呼ばれ、高層特徴層中の少なくとも1つの特徴層が順に特徴抽出を行って最終的に出力した特徴は高層特徴と呼ばれる。同一のニューラルネットワーク中のネットワーク深度が浅い特徴層に対して、ネットワーク深度が深い特徴層は視野域が大きく、空間構造情報が多く注目され、抽出された特徴をセマンティックセグメンテーションに用いる時に、セマンティックセグメンテーションがより精確になるが、ネットワーク深度が深くなるほど、計算上の難度と複雑度が高くなる。実際の応用において、例えば、計算量のような事前設定基準により、ニューラルネットワーク中の特徴層を低層特徴層と高層特徴層に分けてもよく、この事前設定基準は実際の要求に応じて調整可能である。例えば、順に連結された100個の特徴層を含むニューラルネットワークは、事前設定により、この100個の特徴層中の1番目から30番目までの前の30個(他の数量であってもよい)の特徴層を低層特徴層とし、31番目から100番目までの後の70個の特徴層を高層特徴層とするようにしてもよい。例えば、ピラミッドシーン解析ネットワーク(Pyramid Scene Parsing Network、PSPN)に関しては、このニューラルネットワークはそれぞれ複数の畳み込み層を含む4部分の畳み込みネットワーク(conv1〜conv4)と1つの分類層とを含み、計算量の大きさに基づいて、このPSPN中のconv1〜conv4_3におけるこのPSPNの約1/8の計算量を占める畳み込み層を低層特徴層とし、このPSPN中のconv4_4〜分類層前のPSPNの約7/8の計算量を占める少なくとも1つの畳み込み層を高層特徴層とするようにしてもよく、分類層は高層特徴層の出力する高層特徴に対してセマンティックセグメンテーションを行ってフレームのセマンティックラベル、即ちフレーム中の少なくとも1つの画素の分類を得るために用いられる。
高層特徴の抽出にはネットワーク深度が深い第2のネットワーク層が必要とされ、その計算上の難度と複雑度が高く、フレームのセマンティックラベルを精確に得るために、フレームの高層特徴に基づいてセマンティックセグメンテーションを行う必要があるので、本願の実施例ではキーフレームのみに対して高層特徴抽出を行ってセマンティックセグメンテーションに用いるようになっており、ビデオからフレームごとに高層特徴抽出を行うことに対して、計算上の難度と複雑性を低減することに寄与するだけでなく、ビデオのセマンティックセグメンテーション結果を得ることができる。
本願の上記実施例で提供されるキーフレームスケジューリング方法によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、1つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの1つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。
また、本願のキーフレームスケジューリング方法の別の実施例では、上記図1に示す実施例の前に、更に、以下を含んでもよい。
初期キーフレームを決定する。例えば、ビデオ中の第1のフレーム又は他の任意のフレームを初期キーフレームとして指定し、
上記第1のネットワーク層によって初期キーフレームに対して特徴抽出を行い、初期キーフレームの低層特徴を取得しキャッシュし、続いてこのキーフレームの低層特徴に基づいて他のフレームをキーフレームとしてスケジューリングするか否かを決定してよく(上記ステップ102を参照して決定してよい)、
上記第2のネットワーク層によって初期キーフレームの低層特徴に対して特徴抽出を行い、初期キーフレームの高層特徴を得てセマンティックセグメンテーションに用いる。
選択可能に、本願のキーフレームスケジューリング方法のまた1つの実施例では、上記初期キーフレームに対してセマンティックセグメンテーションを行い、このキーフレームのセマンティックラベルを出力することを更に含んでもよい。
また、本願の実施例で提供されるキーフレームスケジューリング方法のまた1つの実施例では、現在フレームがキーフレームとしてスケジューリングされることを決定した後、現在フレームを現在キーフレームと呼び、現在キーフレームの低層特徴をキャッシュして、ビデオ中の現在キーフレームの後の他のフレームがキーフレームとしてスケジューリングされ使用されるか否かを決定することに用いることを更に含んでもよい。
また、本願の実施例で提供されるキーフレームスケジューリング方法の更に1つの実施例では、現在フレームがキーフレームとしてスケジューリングされることを決定した後、現在フレームを現在キーフレームと呼び、この現在キーフレームに対してセマンティックセグメンテーションを行い、この現在キーフレームのセマンティックラベルを出力することを更に含んでもよい。本願の実施例では、キーフレームについては、計算コストが大きい単一フレームモデル、例えば、PSPNを呼び出してセマンティックセグメンテーションを行って高精度のセマンティックセグメンテーション結果を得るようにしてもよい。本願の実施例では、キーフレームと現在フレームはニューラルネットワークの低層特徴層(即ち、第1のネットワーク層)を共用して低層特徴抽出を行ってもよく、ここのニューラルネットワークとしてピラミッドシーン解析ネットワーク(Pyramid Scene Parsing Network、PSPN)を用いてもよく、このニューラルネットワークは、それぞれ複数の畳み込み層に分けられる4部分の畳み込みネットワーク(conv1〜conv4)と1つの分類層とを含み、ここで、ニューラルネットワークの低層特徴層はPSPN中のconv1〜conv4_3におけるPSPNの約1/8の計算量を占める畳み込み層を含んでもよく、ニューラルネットワークの高層特徴層(即ち、第2のネットワーク層)はconv4_4〜分類層前のPSPNの約7/8の計算量を占める少なくとも1つの畳み込み層を含んでもよく、それはキーフレームの高層特徴を抽出するために用いられ、分類層はキーフレームの高層特徴に基づいてキーフレーム中の少なくとも1つの画素の種類を対応して認識してキーフレームのセマンティックセグメンテーションを実現するために用いられる。
図2は本願の実施例で提供されるキーフレームスケジューリング方法の別の流れを示す模式図である。図2に示すように、この実施例のキーフレームスケジューリング方法は、以下のステップを含む。
202において、ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得る。
本願の実施例の一例では、ニューラルネットワークの低層特徴層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るようにしてもよい。
選択可能な一例では、このステップ202はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第1の特徴抽出ユニットによって実行されてもよい。
204において、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得する。
ここで、1つ前のキーフレームの低層特徴は上記第1のネットワーク層によりこの1つ前のキーフレームに対して特徴抽出を行って得られるものであり、選択可能に、本願の実施例に係るスケジューリング確率値は現在フレームがキーフレームとしてスケジューリングされる確率である。
選択可能な一例では、このステップ204はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するスケジューリングユニットによって実行されてもよい。
206において、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定する。
現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、操作208を実行する。逆に現在フレームがキーフレームとしてスケジューリングされないと決定した場合に、本実施例の後続の流れを実行しない。
出願者は本願を実現する過程で研究することで、2フレームの低層特徴の間の相違性(2フレームの低層特徴の間の差として定義される)が大きいほど、対応するセマンティックラベルの相違性値(2フレームのセマンティックラベル中の非重合部分が占める割合として定義される)が大きくなることを分かり、本願の実施例は現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴との相違性によって現在フレームがキーフレームとしてスケジューリングされるか否かを確認する。2つのフレームの低層特徴の間の相違性がこの予め設定された閾値より大きい時に、精確なセマンティック結果を取得するために、現在フレームをキーフレームとすることができる(即ち、キーフレームとしてスケジューリングする)。
選択可能な一例では、このステップ206はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する決定ユニットによって実行されてもよい。
208において、上記ニューラルネットワークの第2のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、且つ現在キーフレームの低層特徴をキャッシュする。
選択可能な一例では、このステップ208はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第2の特徴抽出ユニットとキャッシュユニットによって実行されてもよい。
210において、現在キーフレームに対してセマンティックセグメンテーションを行い、現在キーフレームのセマンティックラベルを出力する。
選択可能な一例では、このステップ210はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動するセマンティックセグメンテーションユニットによって実行されてもよい。
出願者は本願を実現する過程で研究することで、ビデオ中のフレームの間の低層特徴変化が大きければセマンティックセグメンテーションを行って得られるセマンティックラベルの間の振れが大きく、逆には振れが小さいことを分かった。本願の実施例では、深層学習方法を利用してビデオ中の少なくとも1つのフレームの特徴情報を取得し、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴との相違性により低層特徴の変化を決定し、ビデオ中のフレームの間の振れを解析し、現在フレームと隣接する1つ前のキーフレーム低層特徴との重合程度を計算し、低層特徴変化が大きければラベル振れが大きく、逆には振れが小さく、それにより低層特徴によってセマンティックラベルの振れ程度を回帰させ、それによりキーフレームを適応的にスケジューリングすることができる。
本願の上記の任意の実施例の選択可能な一例では、操作104又は204は、
1つ前のキーフレームの低層特徴と現在フレームの低層特徴を接合し、接合特徴を得ることと、
キーフレームスケジューリングネットワークによってこの接合特徴に基づいて現在フレームのスケジューリング確率値を取得し出力することと、を含んでもよい。
本願の実施例は自動運転シーン、ビデオ監視シーン、人物画像分割などのインターネットエンタテインメント製品などに利用可能であり、例えば、
1、自動運転のシーンで、本願の実施例を利用してビデオ中の目標、例えば、人物と車両を速やかに分割することができ、
2、ビデオ監視シーンで、人物を速やかに分割することができ、
3、人物画像分割などのインターネットエンタテインメント製品中で、ビデオフレームから人物を速やかに分割することができる。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図3は本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す一模式図である。本願の実施例で提供されるキーフレームスケジューリング装置は本願の上記の各実施例で提供されるキーフレームスケジューリング方法を実現するために利用可能である。図3に示すように、キーフレームスケジューリング装置の一実施例では、第1の特徴抽出ユニット、スケジューリングユニット、決定ユニット及び第2の特徴抽出ユニットを含む。
第1の特徴抽出ユニットは、ニューラルネットワークの第1のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる。
スケジューリングユニットは、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得するために用いられる。ここで、1つ前のキーフレームの低層特徴は第1のネットワーク層により1つ前のキーフレームに対して特徴抽出を行って得られるものであり、選択可能に、本願の実施例に係るスケジューリング確率値は現在フレームがキーフレームとしてスケジューリングされる確率である。
決定ユニットは、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる。
第2の特徴抽出ユニットは、ニューラルネットワークの第2のネットワーク層を含み、決定ユニットの決定結果により、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得るために用いられる。ここで、ニューラルネットワークにおいて、上記第1のネットワーク層のネットワーク深度が第2のネットワーク層のネットワーク深度より浅い。
本願の上記実施例で提供されるキーフレームスケジューリング装置によれば、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得る。本願の実施例は、1つ前のキーフレームの低層特徴と現在フレームの低層特徴により現在フレームの1つ前のキーフレームに対する低層特徴変化を取得でき、ビデオ中の異なったフレームの間の低層特徴の変化により、速やかで精確で適応的なキーフレームスケジューリングを可能にし、キーフレームのスケジューリング効率を高める。
本願の実施例で提供されるキーフレームスケジューリング装置の選択可能な一実施形態では、上記1つ前のキーフレームは予め決定された初期キーフレームを含む。
図4は本願の実施例で提供されるキーフレームスケジューリング装置の構造を示す別の模式図である。図4に示すように、図3に示す実施例と比べると、この実施例では、キーフレームスケジューリング装置は、キーフレームの低層特徴をキャッシュするために用いられるキャッシュユニットを更に含み、本願の実施例中のキーフレームは初期キーフレームを含む。
また、本願の実施例に基づいて提供されるキーフレームスケジューリング装置のまた1つの実施例では、第1の特徴抽出ユニットは更に決定ユニットの得た決定結果により、キャッシュユニットに現在キーフレームの低層特徴をキャッシュするために用いられてもよい。
本願の実施例で提供されるキーフレームスケジューリング装置の一実施形態では、スケジューリングユニットは、1つ前のキーフレームの低層特徴と現在フレームの低層特徴を接合し、接合特徴を得るために用いられる接合サブユニットと、接合特徴に基づいて現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークとを含んでもよい。
また、更に図4に示すように、本願の実施例で提供されるキーフレームスケジューリング装置は、キーフレームに対してセマンティックセグメンテーションを行い、キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含んでもよく、本願の実施例におけるキーフレームは、初期キーフレーム、1つ前のキーフレーム又は現在キーフレームを含んでもよい。
また、本願の実施例は、本願の上記のいずれか1つの実施例のキーフレームスケジューリング装置を含む電子機器を更に提供する。
また、本願の実施例は、
プロセッサと本願の上記のいずれか1つの実施例のキーフレームスケジューリング装置とを含み、
プロセッサによりキーフレームスケジューリング装置を作動させる時に、本願の上記のいずれか1つの実施例のキーフレームスケジューリング装置中のユニットが作動する別の電子機器を更に提供する。
また、本願の実施例は、プロセッサとメモリとを含み、
メモリが少なくとも1つの実行可能コマンドを格納するために用いられ、実行可能コマンドがプロセッサに本願の上記のいずれか1つの実施例のキーフレームスケジューリング方法中の各ステップの操作を実行させるまた1つの電子機器を更に提供する。
本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。図5は本願の実施例で提供される電子機器の応用実施例の構造模式図である。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器500の構造模式図を示す図5を参照し、図5に示すように、電子機器500は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)501、及び/又は1つ又は複数の画像プロセッサ(GPU)513などであり、プロセッサは、読み取り専用メモリ(ROM)502に記憶された実行可能コマンド又は記憶部508からランダムアクセスメモリ(RAM)503にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部512はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。
プロセッサは読み取り専用メモリ502及び/又はランダムアクセスメモリ503と通信して実行可能コマンドを実行し、通信バス504を介して通信部512に接続され、通信部512を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、1つ前のキーフレームが、第1のネットワーク層により1つ前のキーフレームに対して特徴抽出を行って得られ、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、ニューラルネットワークの第2のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、ここで、ニューラルネットワークにおいて、第1のネットワーク層のネットワーク深度が第2のネットワーク層のネットワーク深度より浅い。
また、RAM503には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU501、ROM502及びRAM503は、通信バス504を介して相互に接続される。RAM503を有する場合に、ROM502は選択可能なモジュールである。RAM503は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM502に書き込み、実行可能コマンドによって中央処理ユニット501に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インタフェース505も通信バス504に接続される。通信部512は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部506と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部507と、ハードディスクなどを含む記憶部508と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部509とがI/Oインタフェース505に接続されている。通信部509は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ510も必要に応じてI/Oインタフェース505に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体511は、必要に応じてドライブ510上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部508にインストールする。
なお、図5に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図5の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU513とCPU501は分離設置するかまたはGPU513をCPU501に統合するようにしてよく、通信部は分離設置するか、またはCPU501やGPU513に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得、現在フレームに隣接する1つ前のキーフレームの低層特徴と現在フレームの低層特徴により、現在フレームのスケジューリング確率値を取得し、1つ前のキーフレームが第1のネットワーク層により1つ前のキーフレームに対して特徴抽出を行って得られ、現在フレームのスケジューリング確率値により現在フレームがキーフレームとしてスケジューリングされるか否かを決定し、現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、現在フレームを現在キーフレームとして決定し、ニューラルネットワークの第2のネットワーク層によって現在キーフレームの低層特徴に対して特徴抽出を行い、現在キーフレームの高層特徴を得、ここで、ニューラルネットワークにおいて、第1のネットワーク層のネットワーク深度が第2のネットワーク層のネットワーク深度より浅い。このような実施例では、該コンピュータプログラムは通信部509によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体511からインストールされ得る。中央処理ユニット(CPU)501によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能の操作を実行する。
また、本願の実施例は、コンピュータ読取可能コマンドを記憶するために用いられるコンピュータ記憶媒体であって、このコマンドが実行される時に本願の上記のいずれか1つの実施例のキーフレームスケジューリング方法の操作を実現するコンピュータ記憶媒体を更に提供する。
また、本願の実施例は、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、コンピュータ読取可能コマンドが機器上で作動する時に、機器中のプロセッサが本願の上記のいずれか1つの実施例のキーフレームスケジューリング方法中のステップを実現するための実行可能コマンドを実行するコンピュータプログラムを更に提供する。
選択可能な一実施形態では、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品である。
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ読取可能コマンドを記憶するために用いられるコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか1つの可能な実現形態に記載のキーフレームスケジューリング方法を実行させるコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばSDKなどのソフトウェア製品として実現される。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (16)

  1. キーフレームスケジューリング方法であって、
    ニューラルネットワークの第1のネットワーク層によって現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得ることと、
    前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することであって、前記1つ前のキーフレームの低層特徴が、前記第1のネットワーク層により前記1つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であることと、
    前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定することと、
    前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、第2のネットワーク層によって前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得ることであって、前記ニューラルネットワークにおいて、前記第1のネットワーク層のネットワーク深度が前記第2のネットワーク層のネットワーク深度より浅いことと、を含むことを特徴とするキーフレームスケジューリング方法。
  2. 前記方法は、
    初期キーフレームを決定することと、
    前記第1のネットワーク層によって前記初期キーフレームに対して特徴抽出を行い、前記初期キーフレームの低層特徴を得てキャッシュすることと、
    前記第2のネットワーク層によって前記初期キーフレームの低層特徴に対して特徴抽出を行い、前記初期キーフレームの高層特徴を得ることと、を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記方法は、
    前記初期キーフレームに対してセマンティックセグメンテーションを行い、前記初期キーフレームのセマンティックラベルを出力することを更に含むことを特徴とする請求項2に記載の方法。
  4. 前記現在フレームがキーフレームとしてスケジューリングされることを決定した後に、前記方法は、
    前記現在キーフレームの低層特徴をキャッシュすることを更に含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  5. 前記の前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得することは、
    前記1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得ることと、
    キーフレームスケジューリングネットワークによって、前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得することと、を含むことを特徴とする請求項1〜4のいずれか一項に記載の方法。
  6. 前記方法は、
    前記現在キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力することを更に含むことを特徴とする請求項1〜5のいずれか一項に記載の方法。
  7. キーフレームスケジューリング装置であって、
    ニューラルネットワークの第1のネットワーク層を含み、現在フレームに対して特徴抽出を行って現在フレームの低層特徴を得るために用いられる第1の特徴抽出ユニットと、
    前記現在フレームに隣接する1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴により、前記現在フレームのスケジューリング確率値を取得するために用いられるスケジューリングユニットであって、前記1つ前のキーフレームの低層特徴が、前記第1のネットワーク層により前記1つ前のキーフレームに対して特徴抽出を行って得られ、前記スケジューリング確率値が、現在フレームがキーフレームとしてスケジューリングされる確率であるスケジューリングユニットと、
    前記現在フレームのスケジューリング確率値により、前記現在フレームがキーフレームとしてスケジューリングされるか否かを決定するために用いられる決定ユニットと、
    第2のネットワーク層を含み、前記決定ユニットの決定結果により、前記現在フレームがキーフレームとしてスケジューリングされることを決定した場合に、前記現在フレームを現在キーフレームとして決定し、前記現在キーフレームの低層特徴に対して特徴抽出を行い、前記現在キーフレームの高層特徴を得るために用いられる第2の特徴抽出ユニットであって、前記ニューラルネットワークにおいて、前記第1のネットワーク層のネットワーク深度が前記第2のネットワーク層のネットワーク深度より浅い第2の特徴抽出ユニットと、を含むことを特徴とするキーフレームスケジューリング装置。
  8. 前記1つ前のキーフレームに予め決定された初期キーフレームを含み、
    前記装置は、
    前記初期キーフレームを含むキーフレームの低層特徴をキャッシュするために用いられるキャッシュユニットを更に含むことを特徴とする請求項7に記載の装置。
  9. 前記第1の特徴抽出ユニットは、更に、前記決定ユニットの決定結果により前記キャッシュユニットに前記現在キーフレームの低層特徴をキャッシュするために用いられることを特徴とする請求項8に記載の装置。
  10. 前記スケジューリングユニットは、
    前記1つ前のキーフレームの低層特徴と前記現在フレームの低層特徴を接合して接合特徴を得るために用いられる接合サブユニットと、
    前記接合特徴に基づいて前記現在フレームのスケジューリング確率値を取得するために用いられるキーフレームスケジューリングネットワークと、を含むことを特徴とする請求項7〜9のいずれか一項に記載の装置。
  11. 初期キーフレーム、前記1つ前のキーフレーム又は前記現在キーフレームを含む前記キーフレームに対してセマンティックセグメンテーションを行い、前記キーフレームのセマンティックラベルを出力するために用いられるセマンティックセグメンテーションユニットを更に含むことを特徴とする請求項7〜10のいずれか一項に記載の装置。
  12. 電子機器であって、
    請求項7〜11のいずれか一項に記載のキーフレームスケジューリング装置を含むことを特徴とする電子機器。
  13. 電子機器であって、
    プロセッサと請求項7〜11のいずれか一項に記載のキーフレームスケジューリング装置とを含み、
    プロセッサにより前記キーフレームスケジューリング装置を作動させる時に、請求項7〜11のいずれか一項に記載のキーフレームスケジューリング装置中のユニットが作動することを特徴とする電子機器。
  14. 電子機器であって、
    プロセッサとメモリとを含み、
    前記メモリは少なくとも1つの実行可能コマンドを格納するために用いられ、前記プロセッサは、前記実行可能コマンドを実行することで、請求項1〜6のいずれか一項に記載のキーフレームスケジューリング方法中の各ステップの操作を実行するために用いられることを特徴とする電子機器。
  15. コンピュータに、請求項1〜6のいずれか一項に記載のキーフレームスケジューリング方法を実行させることを特徴とするコンピュータプログラム。
  16. コンピュータに、請求項1〜6のいずれか一項に記載のキーフレームスケジューリング方法を実行させるコンピュータ読取可能コマンドを記憶したコンピュータ可読記憶媒体。
JP2020519444A 2017-12-27 2018-12-25 キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体 Active JP6932254B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711455838.X 2017-12-27
CN201711455838.XA CN108229363A (zh) 2017-12-27 2017-12-27 关键帧调度方法和装置、电子设备、程序和介质
PCT/CN2018/123445 WO2019128979A1 (zh) 2017-12-27 2018-12-25 关键帧调度方法和装置、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
JP2020536332A JP2020536332A (ja) 2020-12-10
JP6932254B2 true JP6932254B2 (ja) 2021-09-08

Family

ID=62648208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020519444A Active JP6932254B2 (ja) 2017-12-27 2018-12-25 キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体

Country Status (8)

Country Link
US (1) US11164004B2 (ja)
EP (1) EP3644221A4 (ja)
JP (1) JP6932254B2 (ja)
KR (1) KR102305023B1 (ja)
CN (1) CN108229363A (ja)
MY (1) MY182985A (ja)
SG (1) SG11202000578UA (ja)
WO (1) WO2019128979A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229363A (zh) 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
JP7257756B2 (ja) * 2018-08-20 2023-04-14 キヤノン株式会社 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN111862030B (zh) 2020-07-15 2024-02-09 北京百度网讯科技有限公司 一种人脸合成图检测方法、装置、电子设备及存储介质
DE102021204846B4 (de) 2021-05-12 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung
CN114222124B (zh) * 2021-11-29 2022-09-23 广州波视信息科技股份有限公司 一种编解码方法及设备
CN115908280B (zh) * 2022-11-03 2023-07-18 广东科力新材料有限公司 基于数据处理的pvc钙锌稳定剂的性能确定方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003134450A (ja) * 2001-10-24 2003-05-09 Ricoh Co Ltd 代表フレーム画像検出装置及びそのプログラム
JP4546157B2 (ja) * 2004-06-03 2010-09-15 キヤノン株式会社 情報処理方法、情報処理装置、撮像装置
CN102799684B (zh) * 2012-07-27 2015-09-09 成都索贝数码科技股份有限公司 一种视音频文件编目标引、元数据存储索引与搜索方法
KR20160083127A (ko) * 2013-11-30 2016-07-11 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지 인식 방법 및 시스템
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
US10062412B2 (en) * 2015-06-05 2018-08-28 Apple Inc. Hierarchical segmentation and quality measurement for video editing
US20160378863A1 (en) 2015-06-24 2016-12-29 Google Inc. Selecting representative video frames for videos
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
CN105095862B (zh) * 2015-07-10 2018-05-29 南开大学 一种基于深度卷积条件随机场的人体动作识别方法
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
WO2017166019A1 (en) * 2016-03-28 2017-10-05 Xiaogang Wang Method and system for pose estimation
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108229363A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
US11577388B2 (en) * 2019-06-27 2023-02-14 Intel Corporation Automatic robot perception programming by imitation learning

Also Published As

Publication number Publication date
MY182985A (en) 2021-02-05
WO2019128979A1 (zh) 2019-07-04
KR20200102409A (ko) 2020-08-31
EP3644221A1 (en) 2020-04-29
CN108229363A (zh) 2018-06-29
EP3644221A4 (en) 2020-10-28
KR102305023B1 (ko) 2021-09-24
US11164004B2 (en) 2021-11-02
JP2020536332A (ja) 2020-12-10
SG11202000578UA (en) 2020-02-27
US20200394414A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
JP6932254B2 (ja) キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
JP7165731B2 (ja) 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
US11062453B2 (en) Method and system for scene parsing and storage medium
US10891465B2 (en) Methods and apparatuses for searching for target person, devices, and media
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
US20190156144A1 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
JP2020524861A (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
CN113033537B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
EP3555812A1 (en) Transforming source domain images into target domain images
US9269025B1 (en) Object detection in images
US20180173966A1 (en) Method and device for target detection
CN113326773A (zh) 识别模型训练方法、识别方法、装置、设备及存储介质
CN108734718B (zh) 用于图像分割的处理方法、装置、存储介质及设备
CN108509876B (zh) 针对视频的物体检测方法、装置、设备、存储介质及程序
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN116030140A (zh) 输出虚拟相机运镜路径的方法、装置及电子设备
US10559129B2 (en) Method for navigating between navigation points of a 3-dimensional space, a related system and a related device
CN113657596A (zh) 训练模型和图像识别的方法和装置
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
WO2024012143A1 (zh) 图像数据处理方法、装置和存储介质
CN110232407B (zh) 图像处理方法和装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210817

R150 Certificate of patent or registration of utility model

Ref document number: 6932254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250