JP2022526513A

JP2022526513A - ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP2022526513A
Application number: JP2021556971A
Authority: JP
Inventors: ▲鋭▼正 ▲呉▼; 佳▲亞▼ ▲賈▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2020-08-03
Publication date: 2022-05-25
Anticipated expiration: 2040-08-03
Also published as: EP4009231A4; EP4009231A1; US20210406553A1; WO2021036699A1; US11727688B2; CN110503074A; JP7147078B2; CN110503074B

Abstract

ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体を提供する。この方法は、処理対象ビデオを取得するステップ（６０１）と、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得るステップ（６０２）と、目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームのガイドビデオフレームを決定するステップであって、ガイドビデオフレームは目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、画像特徴一致度は目標画像特徴とラベリング済みビデオフレームに対応する画像特徴との一致度である、ステップ（６０３）と、ガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成するステップ（６０４）と、を含む。ガイドビデオフレームの選択品質を向上させることによって、生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、ラベリング情報の伝播品質を向上させる。

Description

（関連出願の相互参照）
本願の実施例は、２０１９年８月２９日に提出された、出願番号が第２０１９１０８０７７７４．８号であり、発明の名称が「ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照によって本願の実施例に組み込まれる。

本願の実施例は、人工知能の分野に関し、特に、ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体に関する。

ビデオラベリング情報伝播は、ビデオ処理分野の重要な技術であり、ビデオ内の物体追跡及びグレースケールビデオのカラー化等によく使用される。

関連技術において、ディープラーニングによる方法を用いて、畳み込みニューラルネットワークに基づいてビデオフレーム間の画素関係に対してモデルを構築して、ビデオフレーム間のラベリング情報を画素間の関係によって伝播させることが一般である。ただし、上記方法を採用する時に、通常、畳み込みニューラルネットワークを用いて隣接ビデオフレームに対してモデルを構築する。対応的に、構築されたモデルを用いてラベリング情報を伝播させる時に、現在ビデオフレームの１個前のビデオフレームをガイドビデオフレームとして決定して、モデルによってガイドビデオフレームのラベリング情報を現在ビデオフレームに伝達することになる。

しかしながら、上記方法によって隣接ビデオフレームをガイドビデオフレームとする時に、あるビデオフレームは物体による遮断、高速運動等の原因でラベリング情報が欠落した場合に、直接的に後続の全てのビデオフレームの情報伝播に影響を及ぼしてしまい、しかも、ラベリング情報の伝播誤差が継続的に積み重なって、ラベリング情報伝播効果が悪くなる。

本願の実施例は、ビデオフレームに対して情報ラベリングを行う時に生成するラベリング情報の正確性を向上させることができるビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体を提供する。前記技術的解決手段は以下のとおりである。

一態様では、本願の実施例は、コンピュータ機器に用いられる方法であって、
処理対象ビデオを取得するステップと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含むビデオフレームの情報ラベリング方法を提供する。

別の態様では、本願の実施例は、
処理対象ビデオを取得するように構成される取得モジュールと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含むビデオフレームの情報ラベリング装置を提供する。

別の態様では、本願の実施例は、プロセッサとメモリを含み、前記メモリには少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は前記命令セットが前記プロセッサによってロード、実行されて上記態様に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ機器を提供する。

別の態様では、少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は前記命令セットがプロセッサによってロード、実行されて上記態様に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ読取可能記憶媒体を提供する。

別の態様では、コンピュータ読取可能記憶媒体に記憶されるコンピュータコマンドを含むコンピュータプログラム製品又はコンピュータプログラムを提供する。コンピュータ機器のプロセッサがコンピュータ読取可能記憶媒体からこのコンピュータコマンドを読み取り、このコンピュータコマンドを実行することで、このコンピュータ機器は上記態様によるビデオフレームの情報ラベリング方法を実行する。

本願の実施例で提供された技術的解決手段によって図られる有用な効果は、少なくとも以下を含む。

処理対象ビデオ内の目標ビデオフレームに対して情報ラベリングを行う時に、目標ビデオフレームに対して特徴抽出を行って目標ビデオフレームの目標画像特徴を得、目標ビデオフレームと処理対象ビデオ内のラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームに対応するガイドビデオフレームを決定し、それによって、ガイドビデオフレームのラベリング情報に基づいて目標ビデオフレームの目標ラベリング情報を生成し、本願の実施例で、直接的に隣接ビデオフレームを選択してガイドビデオフレームとすることではなく、目標ビデオフレームの画像特徴に基づいて、目標ビデオフレームに対して高い画像特徴一致度を有するラベリング済みビデオフレームを選択してガイドビデオフレームとすることで、ガイドビデオフレームの選択品質を向上させ、更に生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、更にラベリング情報の伝播品質を向上させる。

関連技術と本願の実施例で提供された方法によってビデオ内の物体にラベルを付けた実施模式図である。本願の実施例で提供されたビデオフレームの情報ラベリング方法の原理の模式図である。ビデオ内の対象に対する自動追跡・位置決定過程のインターフェイスの模式図である。グレースケールビデオに対するカラー化過程のインターフェイスの模式図である。本願の例示的な一実施例で提供された実施環境の模式図を示す。本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。図８に示すビデオフレームの情報ラベリング方法の実施模式図である。選択ネットワークの第１選択ブランチによって特徴抽出を行った実施模式図である。関連技術と本願の実施例によるラベリング情報正確率の対比図である。例示的な一実施例で提供されたネットワークトレーニング過程のフローチャートである。本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング装置の構造のブロック図である。本願の例示的な一実施例で提供されたコンピュータ機器の構造の模式図を示す。

本願の目的、技術的解決手段及び利点をより明確にするために、以下に図面を参照しながら、本願の実施形態を更に詳細に記述する。

コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＣＶ）は、機器に如何に「見られる」ことを研究する科学であり、更に、人間の目の代わりにカメラやコンピュータを用いて目標の認識、追跡、測定等を行う機器視覚を指し、更に画像処理を行わせ、コンピュータの処理結果が人間の目で観察し、又は器械に伝送して検知する画像に一層適合するようにさせる。科学学科として、コンピュータビジョン研究に関連する理論と技術は、画像又は多次元データから情報を取得できる人工知能システムを構築しようとしている。コンピュータビジョン技術は、一般に画像処理、画像認識、画像意味理解、画像検索、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）、ビデオ処理、ビデオ意味理解、ビデオ内容／行為認識、三次元物体再構築、３Ｄ技術、仮想現実、拡張現実、同期位置決定及びマップ構築等の技術を含み、更によく見られる顔認識、指紋認識等の生物学的特徴認識技術を含む。本願の実施例で提供された方法はコンピュータビジョン技術のビデオ情報ラベリング分野への応用に関する。

ビデオフレーム系列ｘ＿ｔ（ｔ＝０，１，…，Ｔ）について、そのうちのあるビデオフレームに対してラベリング情報を予め設定する時に、このラベリング情報によりビデオフレーム系列内の他のビデオフレームに対してラベリング情報を設定する過程は、ビデオラベリング情報伝播と言う。例えば、ビデオフレーム系列内の第０ビデオフレームｘ＿０に対してラベリング情報ｙ＿０を予め設定した場合に、ラベリング情報ｙ＿０により順に第１ビデオフレームのラベリング情報ｙ＿１、第２ビデオフレームのラベリング情報ｙ＿２…第Ｔのビデオフレームのラベリング情報ｙ＿Ｔを求める過程はビデオラベリング情報伝播となる。

関連技術において、隣接ビデオフレームを現在ビデオフレームのガイドビデオフレームとし、且つガイドビデオフレーム内のラベリング情報を用いて現在ビデオフレームにラベリング情報を生成するようになっている。例えば、ビデオフレーム系列ｘ＿ｔ内の第０ビデオフレームにラベリング情報ｙ＿０を含む場合に、第１ビデオフレームに対しては第０ビデオフレームをガイドビデオフレームとして、ラベリング情報ｙ＿０により第１ビデオフレームのラベリング情報ｙ＿１を生成し、第２ビデオフレームに対しては第１ビデオフレームをガイドビデオフレームとして、ラベリング情報ｙ＿１により第２ビデオフレームのラベリング情報ｙ＿２を生成し、これによって類推して、ビデオフレームの各々にラベリング情報を設定する。

しかしながら、上記方式を採用する場合に、ラベリング情報の伝播過程で、伝播誤差が継続的に積み重なり、特にいくつかのビデオフレームにおいてラベリング対象物体が遮断されたか、一時的に離れた時に、このビデオフレームの後の全てのビデオフレームに対して正確なラベリング情報を設定することができなくなり、最終的にラベリング情報の伝播効果に影響を及ぼすことがある。

例示的に、図１内の（ａ）に示すように、手動のラベリング方式でビデオフレーム系列内の第０フレームに対してラベリング情報を設定し、このラベリング情報はビデオフレーム内の対象１１（図１で白線で囲まれた領域）にラベルを付けるためのものである。隣接ビデオフレームをガイドビデオフレームとしてラベリング情報伝播を行えば、第５０ビデオフレームにおいて対象１１がビデオフレーム画面から離れたので、第５０ビデオフレーム以降、ビデオフレームに対して正確なラベリング情報を設定できなくなる。しかしながら、実際には第７５フレームから、対象１１が次第にビデオフレーム画面に入って来た。

ビデオ内のラベリング情報の正確性を向上させるために、図２に示すように、本願の実施例で、処理対象ビデオ２１内の目標ビデオフレームｔに対して情報ラベリングを行う必要がある場合、直接的に目標ビデオフレームｔの隣接ビデオフレーム（即ち、ビデオフレームｔ－１）をガイドビデオフレームとすることではなく、まず目標ビデオフレームｔに対して特徴抽出を行って、目標ビデオフレームｔの目標画像特徴２２を得る。キャッシュされているラベリング済みビデオフレームの画像特徴２３及び目標画像特徴２２に基づいて、コンピュータ機器は、ラベリング済みビデオフレームから、目標ビデオフレームｔに対して高い画像特徴一致度を有するビデオフレームを選択してガイドビデオフレーム２４とする。更に、コンピュータ機器は、ガイドビデオフレーム２４、ガイドビデオフレームのラベリング情報２５及び目標ビデオフレームｔにより、目標ビデオフレームｔに対して目標ラベリング情報２６を生成して、目標ビデオフレームｔの情報ラベリングを遂行する。

例示的に、図１内の（ｂ）に示すように、本願の実施例で提供された方法を採用すれば、第７５ビデオフレームにラベリング情報を生成する時に、コンピュータ機器は、第７４ビデオフレームをガイドビデオフレームとして決定することではなく、画像特徴の一致度に基づいて第３５ビデオフレームをガイドビデオフレームとして決定し、更にこのガイドビデオフレームのラベリング情報に基づいて、第７５ビデオフレームにおいて対象１１にラベルを付け、類似的に、第１００ビデオフレームにラベリング情報を生成する時に、コンピュータ機器は第９８ビデオフレームをガイドビデオフレームとして決定し、最終的に第１００ビデオフレームにおいて対象１１にラベルを付ける。以上から分かるように、本願の実施例で提供された方法を採用すれば、中間のビデオフレーム内のラベリング対象物体が遮断されたか、又は一時的に離れた場合であっても、コンピュータ機器は依然として後続ビデオフレームに対して正確なラベリングを行うことができる。また、ラベリング情報はビデオフレーム間においてチェーン方式で伝搬されることではないので、伝播過程で発生する伝播誤差を回避可能であり、更にビデオフレームのラベリング正確性を向上させる。

以下、本願の実施例で提供されるビデオフレームの情報ラベリング方法の適用場面について概略的に説明する。

１．ビデオ対象の自動追跡・位置決定
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、室内監視アプリケーション、道路監視アプリケーション、駐車場監視アプリケーション等のビデオ対象自動追跡・位置決定機能を有するアプリケーションに利用可能である。対象自動追跡・位置決定を行う時に、ユーザは、まず、ビデオをアプリケーションに読み込み、次に、ビデオにおけるあるビデオフレームにおいて自動追跡・位置決定を行おうとする対象にラベルを付け、アプリケーションは初期ラベリング情報によりビデオ内の他のビデオフレームにラベリング情報を生成し、更にラベリング情報により各ビデオフレームにおいて自動追跡・位置決定を行う対象にラベルを付けて表示する。

例示的に、図３に示すように、ビデオをアプリケーションに読み込んだ後、アプリケーションの画面にビデオ内の第１ビデオフレームが表示され、ボックスで囲む方式によって追跡しようとする対象にラベルを付けることがユーザに通知する。ユーザは追跡しようとする対象「犬」をボックス３１で囲み、且つ追跡開始コントロールをクリックした後、アプリケーションは第１ビデオフレーム及びそのラベリング情報に基づいて、順にビデオ内の各ビデオフレームにラベリング情報を生成し、且つ生成したラベリング情報によりビデオフレーム内の犬をリアルタイムにボックス３１で囲んで表示する。

２．グレースケール（白黒）ビデオの自動カラー化
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、ビデオカラー化機能を有するアプリケーション、例えばビデオ編集アプリケーションに利用可能である。ビデオをカラー化する時に、ユーザは、まず、グレースケールビデオにおける一画像フレームをカラー化し、次に、初期色情報を含んでいるグレースケールビデオをアプリケーションに入力し、アプリケーションは初期色ラベリング情報によりビデオ内の他のビデオフレームに色ラベリング情報を生成し、更に生成した色ラベリング情報に基づいて、各ビデオフレームをカラー化し、最後にカラー化したビデオを出力する。

例示的に、図４に示すように、ユーザは、まず、グレースケールビデオにおける第１ビデオフレームをカラー化し（それぞれ人間４１と犬４２をカラー化する）、次に、カラー化した後のグレースケールビデオをアプリケーションに入力し、アプリケーションは第１ビデオフレームの色ラベリング情報により順にビデオ内の各ビデオフレームに色ラベリング情報を生成し、且つ色ラベリング情報により各ビデオフレームにおける人間４１と犬４２をカラー化し、最後にカラー化したビデオを出力する。

勿論、上記適用場面への利用に加えて、本願の実施例で提供された方法は更にビデオ内のラベリング情報を伝播する必要がある他の適用場面にも利用可能であり、本願の実施例は具体的な適用場面を限定しない。

本願の実施例で提供されたビデオフレームの情報ラベリング方法は端末又はサーバ等のコンピュータ機器に利用可能である。可能な一実施形態では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、アプリケーション又はアプリケーションの一部として実現され、端末にインストールされ、自動的にビデオ内のビデオフレームにラベリング情報を設定する機能を端末に持たせるようになってもよく、又は、アプリケーションのバックエンドサーバに用いられ、サーバによって端末内のアプリケーションにビデオフレームの情報ラベリング機能を提供するようになってもよい。

本願の例示的な一実施例で提供された実施環境の模式図を示す図５を参照されたい。この実施環境には端末５１０とサーバ５２０を含み、ここで、端末５１０とサーバ５２０との間は通信ネットワークによってデータ通信を行い、選択可能に、通信ネットワークは有線ネットワークであっても、無線ネットワークであってもよく、また、この通信ネットワークはローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワーク及び広域ネットワークのうちの少なくとも１種であってもよい。

端末５１０にはビデオフレーム情報ラベリングを要求するアプリケーションがインストールされている。このアプリケーションは監視類アプリケーション、ビデオカラー化類アプリケーション等であってもよく、本願の実施例はそれについて限定しない。選択的に、端末５１０は携帯電話、タブレット、ラップトップ、視力障害者補助装置等の携帯端末であってもよいし、デスクトップコンピュータ、投影型コンピュータ等の端末であってもよく、本願の実施例はそれについて限定しない。

サーバ５２０はサーバとして実現されてもよいし、一組のサーバで構成されたサーバ群として実現されてもよく、それは物理サーバであってもよいし、クラウドサーバとして実現されてもよい。可能な一実施形態では、サーバ５２０は端末５１０におけるアプリケーションのバックエンドサーバである。

図５に示すように、本願の実施例で、サーバ５２０には予めトレーニングされたメモリ選択ネットワーク５２１とテンポラル伝播ネットワーク５２２が設置されており、ここで、メモリ選択ネットワーク５２１はラベリングされたビデオフレームからラベリング対象ビデオフレームのガイドビデオフレームを選択するためのものであり、テンポラル伝播ネットワーク５２２はメモリ選択ネットワーク５２１で選択したガイドビデオフレームによりラベリング対象ビデオフレームにラベリング情報を生成するためのものである。

可能な一適用場面で、サーバ５２０は、メモリ選択ネットワーク５２１とテンポラル伝播ネットワーク５２２によって処理対象ビデオフレームのうちの各ビデオフレームに対してラベリング情報を生成した後、ラベリング情報を端末５１０にフィードバックし、端末５１０はラベリング情報によりビデオを処理して、処理後のビデオを表示する。ここで、ラベリング情報が物体分割情報である場合、端末５１０は物体分割情報により各ビデオフレーム内の目標物体を囲んで表示し、ラベリング情報が色情報の場合に、端末５１０は色情報によりビデオフレーム内の各対象をカラー化する。

他の可能な実施形態で、上記メモリ選択ネットワーク５２１とテンポラル伝播ネットワーク５２２はアプリケーションの一部又は全部として実現されてもよく、対応的に、端末５１０は、サーバ５２０を利用せずに、ローカルでビデオフレームに対して情報ラベリングを行うことができ、本実施例はそれについて限定しない。

説明の便宜上、下記の各実施例はビデオフレームの情報ラベリング方法をコンピュータ機器で実行することを例として説明する。

本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す図６を参照されたい。本実施例はこの方法をコンピュータ機器に用いることを例として説明し、この方法は下記ステップを含む。

ステップ６０１で、処理対象ビデオを取得する。

ここで、この処理対象ビデオはリアルタイムストリーミングメディアビデオであっても、撮影したビデオ又はダウンロードしたビデオであってもよく、本願の実施例はそれについて限定しない。

可能な一実施形態では、この処理対象ビデオは、ラベリング情報が予め設定された初期ラベリングビデオフレームを含む。ここで、初期ラベリングビデオフレームのラベリング情報はユーザによって手動で設定されてもよく、初期ラベリングビデオフレームの数は少なくとも１フレームである。

例示的な一例において、処理対象ビデオの第０ビデオフレームを初期ラベリングビデオフレームとする。勿論、他の可能な実現形態で、第０フレーム（即ち、最先頭のフレーム）ではなく、処理対象ビデオにおけるいずれかのフレーム（例えば、画像内容が最も豊富な１フレーム又は全てのラベリングしようとする対象を含む１フレーム）を初期ラベリングビデオフレームとしてもよく、本願の実施例はそれについて限定しない。

選択的に、処理対象ビデオをカラー化することが必要になる場合、即ち、処理対象ビデオがグレースケールビデオである場合、このラベリング情報はビデオフレームの色情報であってもよく、例えば、ラベリング情報はビデオフレームにおける各画素点の赤緑青（Ｒｅｄ－Ｇｒｅｅｎ－Ｂｌｕｅ：ＲＧＢ）値であり、処理対象ビデオ内の物体の追跡・位置決定が必要になる場合、このラベリング情報は物体分割情報であってもよく、例えば、ラベリング情報はビデオフレームにおける目標物体に対応する画素点の画素点座標である。上記表現形式のラベリング情報に加えて、このラベリング情報は更に他の表現形式を採用してもよく、本願の実施例はそれについて限定しない。

ステップ６０２で、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。

可能な一実施形態では、コンピュータ機器は順に処理対象ビデオ内の各ビデオフレームにラベリング情報を生成し、目標ビデオフレームは、現在、コンピュータ機器が処理しているビデオフレームである。例えば、処理対象ビデオ内の初期ラベリングビデオフレームが第０ビデオフレームの場合、コンピュータ機器は第１ビデオフレームから各ビデオフレームにラベリング情報を生成する。

直接的に目標ビデオフレームの隣接ビデオフレーム（例えば、目標ビデオフレームの１個前のビデオフレーム）をガイドビデオフレームとする関連技術と異なるところとして、本願の実施例では、コンピュータ機器は、まず目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。

選択的に、コンピュータ機器は目標ビデオフレームを予めトレーニングされた特徴抽出ネットワークに入力して、特徴抽出ネットワークから出力する目標画像特徴を得、ここで、この特徴抽出ネットワークはディープ畳み込みニューラルネットワークに基づいてトレーニングされたものであってもよく、例えば、この特徴抽出ネットワークは視覚幾何学グループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ：ＶＧＧ）ネットワーク構成を採用してもよく、また、出力する特徴マップ（即ち、目標画像特徴）のサイズは入力ビデオフレームの１／３２である。本願の実施例は画像特徴を抽出する具体的な方式について限定しない。

ステップ６０３で、目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームのガイドビデオフレームを決定し、ラベリング済みビデオフレームは処理対象ビデオに属するものであり、ガイドビデオフレームは目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、画像特徴一致度は目標画像特徴とラベリング済みビデオフレームに対応する画像特徴との一致度であり、ガイドビデオフレームと目標ビデオフレームとの画像特徴一致度が他のラベリング済みビデオフレームと目標ビデオフレームとの画像特徴一致度より高い。

可能な一実施形態では、コンピュータ機器にはそれぞれのラベリング済みビデオフレームに対応する画像特徴がキャッシュされており（即ち、記憶機能を実現）、ガイドビデオフレームを選択する時に、目標画像特徴とそれぞれのラベリング済みビデオフレームに対応する画像特徴との一致度を計算し、目標ビデオフレームとそれぞれのラベリング済みビデオフレームとの間の画像特徴一致度を得、更に画像特徴一致度に基づいてガイドビデオフレームを決定する（即ち、選択機能を実現する）。

例示的な一例において、処理対象ビデオ内の第０ビデオフレームを初期ラベリングビデオフレームとし、即ち、第１ビデオフレームのガイドビデオフレームは第０ビデオフレームであり、第２ビデオフレームのガイドビデオフレームは第０、１ビデオフレームから決定され、これによって類推すると、第ｎのビデオフレームのガイドビデオフレームは第０～ｎ－１のビデオフレームから決定される。

なお、この例は目標ビデオフレームの前のビデオフレームからガイドビデオフレームを決定することのみを例として説明したが、他の可能な実現形態では、目標ビデオフレームの後ろのビデオフレーム（情報ラベリング済み）からガイドビデオフレームを決定してもよく、本実施例はそれについて限定しない。

ステップ６０４で、ガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成する。

更に、コンピュータ機器はガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成する。

選択的に、目標ビデオフレームｘ＿ｔの場合、それに対応するガイドビデオフレームがｘ＿ｇであり、且つガイドビデオフレームｘ＿ｇがラベリング情報ｙ＿ｇに対応する場合に、目標ビデオフレームｘ＿ｔに対応するラベリング情報ｙ＿ｔを求める過程は下式で表してもよい。
ｙ＿ｔ＝Ｐ（ｘ＿ｔ，ｘ＿ｇ，ｙ＿ｇ）
ここで、Ｐは畳み込みニューラルネットワークに基づいて構築される。

上記に記載される通りに、本願の実施例で、処理対象ビデオ内の目標ビデオフレームに対して情報ラベリングを行う時に、目標ビデオフレームに対して特徴抽出を行って目標ビデオフレームの目標画像特徴を得、目標ビデオフレームと処理対象ビデオ内のラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームに対応するガイドビデオフレームを決定することによって、ガイドビデオフレームのラベリング情報に基づいて目標ビデオフレームの目標ラベリング情報を生成し、本願の実施例で、直接的に隣接ビデオフレームを選択してガイドビデオフレームとすることではなく、目標ビデオフレームの画像特徴に基づいて、目標ビデオフレームに対して高い画像特徴一致度を有するラベリング済みビデオフレームを選択してガイドビデオフレームとすることで、ガイドビデオフレームの選択品質を向上させ、更に生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、更にラベリング情報の伝播品質を向上させる。

可能な一実施形態において、本願の実施例で、コンピュータ機器には予め構築されたメモリ選択ネットワーク（ＭｅｍｏｒｙＳｅｌｅｃｔｉｏｎＮｅｔｗｏｒｋ：ＭＳＮ）が記憶されており、対応的に、目標ビデオフレームのガイドビデオフレームを決定する時に、抽出した目標画像特徴に関して、コンピュータ機器は目標画像特徴をメモリ選択ネットワークに入力し、メモリ選択ネットワークはラベリング済みビデオフレームから、１フレームのラベリング済みビデオフレームを選択してガイドビデオフレームとして出力する。

選択的に、メモリ選択ネットワークは「メモリプール＋選択ネットワーク」の構成を採用し、ここで、メモリプールにはラベリング済みビデオフレームの画像特徴が記憶されているが、選択ネットワークはメモリプールに記憶された画像特徴及び目標ビデオフレームの目標画像特徴により、ラベリング済みビデオフレームからガイドビデオフレームを選択するためのものである。また、コンピュータ機器には更に、目標ビデオフレームの情報ラベリングを実行するテンポラル伝播ネットワーク（ＴｅｍｐｏｒａｌＰｒｏｐａｇａｔｉｏｎＮｅｔｗｏｒｋ：ＴＰＮ）を含む。以下、上記の２つのネットワークと関連付けてビデオフレームの情報ラベリングプロセスを説明する。

本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す図７を参照されたい。本実施例はこの方法をコンピュータ機器に用いることを例として説明し、この方法は下記ステップを含む。

ステップ７０１で、処理対象ビデオを取得する。

ステップ７０２で、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。

ステップ７０１～７０２の実施形態についてはステップ６０１～６０２を参照してもよく、本実施例はここで詳細な説明を省略する。

ステップ７０３で、メモリプールから候補画像特徴を取得する。

可能な一実施形態では、メモリプールには順にラベリング済みビデオフレームに対応する候補画像特徴が記憶されており、対応的に、コンピュータ機器は順にメモリプールから候補画像特徴を取得する。例えば、目標画像フレームが第ｔの画像フレームである場合に、メモリプールには順に第０～第ｔ－１の画像フレームの画像特徴が記憶されており、コンピュータ機器は０～ｔ－１の順序でメモリプールから候補画像特徴を取得する。

ここで、情報ラベリングの初期段階で、このメモリプールには初期ラベリングビデオフレームの画像特徴が記憶されており、対応的に、コンピュータ機器はラベリング初期段階で、直接的に初期ラベリングビデオフレームをガイドビデオフレームとする。

ステップ７０４で、候補画像特徴と目標画像特徴を選択ネットワークに入力して、選択ネットワークから出力される画像特徴スコアを得、画像特徴スコアは、候補画像特徴と目標画像特徴との画像特徴一致度を示すためのものである。

可能な一実施形態では、この選択ネットワークは軽量の畳み込みニューラルネットワークであり、入力された画像特徴により画像特徴間の画像特徴スコアを出力するためのものであり、ここで、画像特徴スコアが高いほど、画像特徴間の一致度が高くなることを意味し、対応的に、この候補画像特徴に対応するラベリング済みビデオフレームをガイドビデオフレームとする時の情報伝播効果が良くなり、情報ラベリングの正確性が高くなる。

選択的に、メモリプール内の各候補画像特徴に関して、コンピュータ機器はそれぞれ上記ステップによってそれらに対応する画像特徴スコアを取得する。

しかしながら、情報ラベリングが継続的に実行されるにつれて、メモリプール内の画像特徴は継続的に増加し（即ち、ラベリング済みビデオフレームの数は継続的に増加する）、メモリプール内の全ての候補画像特徴をトラバースすれば、後続のビデオフレームの情報ラベリングの効率が次第に低くなる。

情報ラベリング効率を更に向上させるために、選択的に、コンピュータ機器はメモリプール内の一部の候補画像特徴を取得し、対応的に、選択ネットワークによって、一部の候補画像特徴に対応する画像特徴スコアを出力すればよい。

一部の候補画像特徴を選択するポリシーに関しては、可能な一実施形態で、処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、メモリプールからラベリング済みビデオフレームに対応する候補画像特徴を取得する。例えば、コンピュータ機器はメモリプール内の奇数又は偶数のビデオフレームに対応する候補画像特徴を取得し（即ち、１フレームおきにラベリング済みビデオフレームに対応する候補画像特徴を取得し、それは、隣接ビデオフレームの間隔が短く、対応的に、画像特徴間の差異が小さいためである）、又は、コンピュータ機器は２フレームおきにラベリング済みビデオフレームに対応する候補画像特徴を取得する。

例えば、処理対象ビデオのフレームレートが２４フレーム／秒より大きい場合に、コンピュータ機器はメモリプール内の奇数のビデオフレームに対応する候補画像特徴を取得し、且つ選択ネットワークによって候補画像特徴に対応する画像特徴スコアを出力する。

他の可能な実施形態で、コンピュータ機器はメモリプールから目標ビデオフレームに隣接するｎフレームのラベリング済みビデオフレーム（例えば、隣接する２０フレームのラベリング済みビデオフレーム）の候補画像特徴を取得してもよく、本願の実施例はそれについて限定しない。

上記ステップでは、選択ネットワークは候補画像特徴と目標画像特徴のみに基づいて画像特徴スコアを計算し、スコアリングの次元が単一である。出力する画像特徴スコアの正確性を更に向上させるために、可能な一実施形態では、図７を基に、図８に示すように、ステップ７０３の後はステップ７０８を含んでもよく、対応的に、ステップ７０９でステップ７０４を代替してもよい。

ステップ７０８で、初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得し、初期ラベリングビデオフレームは処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、また、ラベリング対象は初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である。

初期ラベリングビデオフレームに対応する初期ラベリング情報を十分に利用するために、可能な一実施形態では、コンピュータ機器は初期ラベリングビデオフレームの画像特徴を抽出する時に、初期ラベリングビデオ内のラベリング対象に対して画像特徴抽出を行って、ラベリング対象のラベリング対象画像特徴を得、ここで、ラベリング対象画像特徴のサイズが各ビデオフレームの画像特徴と同じである。

選択的に、コンピュータ機器は初期ラベリングビデオフレームの物体分割情報（初期ラベリングビデオフレームにおける異なる物体を分割するためのものである）によりラベリング対象を決定し、更にラベリング対象に対して画像特徴抽出を行い、また、畳み込みニューラルネットワークに基づく特徴抽出器を用いて画像特徴抽出を行う場合に、ビデオフレームに対して画像特徴抽出を行う特徴抽出器はラベリング対象に対して画像特徴抽出を行う特徴抽出器と重みを共有する。

例示的に、図９に示すように、コンピュータ機器は初期ラベリングビデオフレームｘ＿０に対応する初期ラベリング情報ｙ＿０により、特徴抽出器９１によってラベリング対象画像特徴ｆ＿ａを抽出し、また、コンピュータ機器は情報ラベリングプロセスで、特徴抽出器９１によってビデオフレームｘ＿０～ｘ＿ｔ－１に対して画像特徴抽出を行って、抽出した画像特徴ｆ＿０～ｆ＿ｔ－１をメモリプール９２に記憶する。ビデオフレームｘ＿ｔのガイドビデオフレームを決定する時に、コンピュータ機器はラベリング対象画像特徴ｆ＿ａを取得し、且つメモリプール９２から候補画像特徴ｆ＿ｐを取得する。

ステップ７０９で、候補画像特徴、目標画像特徴及びラベリング対象画像特徴を選択ネットワークに入力して、選択ネットワークから出力される画像特徴スコアを得る。

更に、コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像特徴を共に選択ネットワークに入力し、選択ネットワークは三者に基づいて画像特徴スコアを出力する。

可能な一実施形態では、この選択ネットワークは第１選択ブランチと第２選択ブランチの２つのブランチを含み、ここで、第１選択ブランチは２つずつの画像特徴の関連付け操作結果を入力とし、第２選択ブランチは３つの画像特徴の結合を入力とし、また、第１選択ブランチと第２選択ブランチの出力は結合された後、最終的に選択ネットワークの全結合層に入力され、最終的に全結合層から画像特徴スコアを出力する。選択的に、このステップは以下のようなステップを含んでもよい。

ステップ１で、候補画像特徴、目標画像特徴及びラベリング対象画像特徴のうちのいずれか２つの画像特徴に対して関連付け操作を行って、関連画像特徴を得、関連画像特徴は画像特徴間の類似度を表すためのものである。

第１選択ブランチに画像特徴を入力する前に、コンピュータ機器はまず候補画像特徴、目標画像特徴及びラベリング対象画像特徴のうちのいずれか２つの画像に対して関連付け操作を行うことで、関連画像特徴を得る。

可能な一実施形態では、候補画像特徴、目標画像特徴及びラベリング対象画像特徴は全て同じな特徴抽出器で抽出されたものであるので、三者のサイズが同じである。関連付け操作を行う時に、コンピュータ機器は、候補画像特徴と目標画像特徴に対して、画素毎に（ｐｉｘｅｌ－ｗｉｓｅ）類似度を計算して第１関連画像特徴を得、候補画像特徴とラベリング対象画像特徴に対して画素毎に類似度を計算して第２関連画像特徴を得、目標画像特徴とラベリング対象画像特徴に対して画素毎に類似度を計算して第３関連画像特徴を得る。

例示的に、図９と１０に示すように、候補画像特徴ｆ＿ｐ、目標画像特徴ｆ＿ｔ及びラベリング対象画像特徴ｆ＿ａに対して、コンピュータ機器は関連付け操作を行って、ｃｏｒｒ（ｆ＿ｐ，ｆ＿ａ）、ｃｏｒｒ（ｆ＿ｐ，ｆ＿ｔ）、ｃｏｒｒ（ｆ＿ｔ，ｆ＿ａ）を含む関連画像特徴を得る。

ステップ２で、関連画像特徴の各々を結合し、結合した後の関連画像特徴を第１選択ブランチに入力し、第１選択ブランチから出力される第１特徴ベクトルを得る。

更に、コンピュータ機器は関連付け操作によって得られた３つの関連画像特徴を結合し、結合した後の関連画像特徴を第１選択ブランチに入力し、第１選択ブランチは結合した後の関連画像特徴に対して更なる特徴抽出を行い、最終的に第１特徴ベクトルを出力する。

選択的に、第１選択ブランチは畳み込みニューラルネットワークに基づくものであり、即ち、第１選択ブランチは結合した後の関連画像特徴に対して畳み込み、プーリング及びアクティブ化の操作を行った後、第１特徴ベクトルを出力する。本願の実施例は第１選択ブランチの具体的な構造について限定しない。

例示的に、図９に示すように、コンピュータ機器は第１選択ブランチによって結合した後の関連画像特徴に対して特徴抽出を行って、第１特徴ベクトル９３を得る。

ステップ３で、結合した後の候補画像特徴、目標画像特徴及びラベリング対象画像特徴を第２選択ブランチに入力して、第２選択ブランチから出力される第２特徴ベクトルを得る。

コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像を結合し、結合結果を第２選択ブランチに入力し、第２選択ブランチは更なる特徴抽出を行い、最終的に第２特徴ベクトルを出力する。

選択的に、第２選択ブランチは畳み込みニューラルネットワークに基づくものであり、即ち、第２選択ブランチは結合した後の画像特徴に対して畳み込み、プーリング及びアクティブ化の操作を行った後、第２特徴ベクトルを出力する。本願の実施例は第２選択ブランチの具体的な構造について限定しない。

例示的に、図９に示すように、コンピュータ機器は第２選択ブランチによって結合した後の画像特徴に対して特徴抽出を行って、第２特徴ベクトル９４を得る。

ステップ４で、第１特徴ベクトルと第２特徴ベクトルに基づいて、画像特徴スコアを決定する。

可能な一実施形態では、コンピュータ機器は第１特徴ベクトルと第２特徴ベクトルを結合し、結合した後の特徴ベクトルを全結合層に入力して、候補画像特徴に対応する画像特徴スコアを得る。

例示的に、図９に示すように、コンピュータ機器は第１特徴ベクトル９３と第２特徴ベクトル９４を結合し、結合した後の特徴ベクトルを全結合層９５に入力し、全結合層９５は候補画像特徴ｆ＿ｐの画像特徴スコアを出力する。

なお、メモリプールにおける各候補画像特徴に対して、コンピュータ機器は上記ステップ１～４を繰り返して実行することで、目標画像特徴と各候補画像特徴との間の画像特徴スコアを得る。

ステップ７０５で、最高画像特徴スコアに対応するラベリング済みビデオフレームをガイドビデオフレームとして決定する。

各候補画像特徴に対して、コンピュータ機器は上記ステップによって各候補画像特徴に対応する画像特徴スコアを得、更にそのうちの最高画像特徴スコアを決定して、最高画像特徴スコアに対応する候補画像特徴の属するラベリング済みビデオフレームをガイドビデオフレームとして決定する。

例示的に、図９に示すように、コンピュータ機器は画像特徴スコアに基づいて、ビデオフレームｘ＿ｋを目標ビデオフレームｘ＿ｔのガイドビデオフレームとして決定する。

ステップ７０６で、目標ビデオフレームの目標画像特徴をメモリプールに記憶する。

可能な一実施形態では、目標ビデオフレームのガイドビデオフレームを決定した後、コンピュータ機器は目標ビデオフレームの目標画像特徴をメモリプールに記憶し、それによって、後続のビデオフレームに対する情報ラベリングの時に、この目標画像特徴を参照とすることができる。

ステップ７０７で、ガイドビデオフレーム、ガイドビデオフレームに対応するラベリング情報及び目標ビデオフレームをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される目標ラベリング情報を得る。

本願の実施例で、コンピュータ機器は予めトレーニングされたテンポラル伝播ネットワークを用いてガイドビデオフレームのラベリング情報を目標ビデオフレームに伝播して、目標ビデオフレームの情報ラベリングを遂行する。

可能な一実施形態では、テンポラル伝播ネットワークは、画像ブランチ（ａｐｐｅａｒａｎｃｅｂｒａｎｃｈ）と運動量ブランチ（ｍｏｔｉｏｎｂｒａｎｃｈ）と、を含み、画像ブランチは、目標ビデオフレーム及びガイドビデオフレームのラベリング情報を入力として、目標ビデオフレームにおける画素点の予測ラベリング情報を表すための画像情報特徴を出力するためのものであり、運動量ブランチは、ガイドビデオフレームのラベリング情報及びガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローを入力として、運動量特徴（ビデオフレームにおける物体の運動状況を示す）を出力するためのものである。選択的に、このステップは以下のようなステップを含んでもよい。

ステップ１で、ガイドビデオフレームに対応するラベリング情報及び目標ビデオフレームを画像ブランチに入力して、画像ブランチから出力される画像情報特徴を得る。

選択的に、本願の実施例における画像ブランチは予めトレーニングされたＶＧＧ１６ネットワークを初期化とする。

可能な一実施形態では、コンピュータ機器はガイドビデオフレームｘ＿ｇのラベリング情報ｙ＿ｇ及び目標ビデオフレームｘ＿ｔを画像ブランチに入力して、画像ブランチから出力される画像情報特徴ｆ＿ａｐｐを得る。

例示的に、図９に示すように、目標ビデオフレームｘ＿ｔのガイドビデオフレームがｘ＿ｋであり、コンピュータ機器はガイドビデオフレームｘ＿ｋのラベリング情報ｙ＿ｋ及び目標ビデオフレームｘ＿ｔを画像ブランチ９６に入力して、画像ブランチ９６の出力する画像情報特徴９７を得る。

ステップ２で、ガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、ビデオフレームオプティカルフローとガイドビデオフレームに対応するラベリング情報を運動量ブランチに入力して、運動量ブランチから出力される運動量特徴を得る。

ここで、ビデオフレームオプティカルフローはビデオフレーム間の画像変化状況を示すためのものであり、ビデオフレーム内の運動している物体の運動情報を含むので、ビデオフレームオプティカルフローによってビデオフレーム内の対象の運動状況を決定可能である。

選択的に、このビデオフレームオプティカルフローはビデオフレーム間の密なオプティカルフローであり、即ち、ガイドビデオフレームと目標ビデオフレームにおける同じ座標画素点に対応する物体の運動状況を示すためのものである。

可能な一実施形態では、コンピュータ機器はガイドビデオフレームｘ＿ｇと目標ビデオフレームｘ＿ｔに基づいて、両者間のビデオフレームオプティカルフローＷ（ｘ＿ｔ，ｘ＿ｇ）を決定し、ビデオフレームオプティカルフローＷ（ｘ＿ｔ，ｘ＿ｇ）及びガイドビデオフレームｘ＿ｇのラベリング情報ｙ＿ｇを運動量ブランチに入力する。

例示的に、図９に示すように、目標ビデオフレームｘ＿ｔのガイドビデオフレームがｘ＿ｋであり、コンピュータ機器はガイドビデオフレームｘ＿ｋと目標ビデオフレームｘ＿ｔに基づいて、両者間のビデオフレームオプティカルフローＷ（ｘ＿ｔ，ｘ＿ｋ）を決定し、且つビデオフレームオプティカルフローＷ（ｘ＿ｔ，ｘ＿ｋ）及びガイドビデオフレームｘ＿ｋのラベリング情報ｙ＿ｋを運動量ブランチ９８に入力して、運動量ブランチ９８の出力する運動量特徴９９を得る。

選択的に、ガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローは、予めトレーニングされたｆｌｏｗｎｅｔ２．０によって算出され、また、運動量ブランチは予めトレーニングされたＶＧＧ１６ネットワークを初期化とする。

なお、ステップ１と２には厳しい先後順序があるわけではなく、即ち、ステップ１と２を同時に実行してもよく、本実施例では限定されない。

ステップ３で、画像情報特徴と運動量特徴に基づいて、目標ラベリング情報を決定する。

可能な一実施形態では、コンピュータ機器は画像情報特徴と運動量特徴情報特徴を融合し、且つ畳み込み層によって融合後の特徴に対して畳み込み処理を行い、最終的に目標ビデオフレームの目標ラベリング情報を得る。

例示的に、図９に示すように、コンピュータ機器は画像情報特徴９７と運動量特徴９９を融合した後、畳み込み層（未図示）によって最終的に目標ビデオフレームｘ＿ｔの目標ラベリング情報ｙ＿ｔを出力する。

本実施例で、コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像特徴を選択ネットワークに入力し、それぞれ選択ネットワークの２つの選択ブランチによって特徴抽出を行い、それによって、画像特徴の特徴抽出次元を豊富にして、更にその後で算出される画像特徴スコアの正確性を向上させる。

また、本実施例で、コンピュータ機器はテンポラル伝播ネットワークの画像ブランチと運動量ブランチを用いてそれぞれ特徴抽出を行い、２つのブランチで抽出した特徴を融合し、最終的に目標ビデオフレームの目標ラベリング情報を得て、情報ラベリングの正確性の向上に寄与する。

例示的な一例において、図１１に示すように、関連技術で提供された方法を用いて第３５フレームにラベルを付けた時に、第３４フレームをガイドフレームとし、ラベリング正確率が０．４４であり、第５５フレームにラベルを付けた時に、第５４フレームをガイドフレームとし、ラベリング正確率が０．２８であり、第１２５フレームにラベルを付けた時に、第１２４フレームをガイドフレームとし、ラベリング正確率が０．２２であり、第１５５フレームにラベルを付けた時に、第１５４フレームをガイドフレームとし、ラベリング正確率が０．２３であった。

しかし、本願の実施例で提供された方法を用いて第３５フレームにラベルを付けた時に、第３４フレームをガイドフレームとし、ラベリング正確率が０．５８であり、第５５フレームにラベルを付けた時に、第３７フレームをガイドフレームとし、ラベリング正確率が０．８０であり、第１２５フレームにラベルを付けた時に、第１０２フレームをガイドフレームとし、ラベリング正確率が０．９２であり、第１５５フレームにラベルを付けた時に、第１２７フレームをガイドフレームとし、ラベリング正確率が０．８６であった。

以上から分かるように、関連技術で提供された方法を採用した場合、情報伝播が継続的に深まっていくに伴い、情報ラベリングの正確率が次第に低くなり、それに対して、本願の実施例で提供された方法を採用した場合、チェーン式情報伝播ではないため、情報ラベリングの正確性が情報伝播深度に影響されることがなかった。また、関連技術と比べると、本願の実施例で提供された方法はラベリング情報の正確性を明らかに向上させることができる。

上記実施例におけるテンポラル伝播ネットワーク及びメモリ選択ネットワークのトレーニング方法に関して、可能な一実施形態では、図１２に示すように、ネットワークのトレーニングプロセスは以下のようなステップを含む。

ステップ１２０１で、サンプルビデオによりテンポラル伝播ネットワークをトレーニングし、サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む。

可能な一実施形態では、コンピュータ機器は、まず、ラベリング情報を含むサンプルビデオを用いてテンポラル伝播ネットワークをトレーニングし、次に、サンプルビデオ及びトレーニングされたテンポラル伝播ネットワークに基づいて更にメモリ選択ネットワークをトレーニングする。

選択的に、コンピュータ機器は、サンプルビデオから２フレームをランダムに選択してガイドビデオフレームと目標ビデオフレームとしてテンポラル伝播ネットワークをトレーニングする。ここで、テンポラル伝播ネットワークがビデオ内の物体分割を実現することに用いられる時に、コンピュータ機器は交差オーバーユニオン（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ：ＩＯＵ）損失関数でテンポラル伝播ネットワークをトレーニングし、テンポラル伝播ネットワークがビデオカラー化を実現することに用いられる時に、コンピュータ機器はＬ１回帰損失関数でテンポラル伝播ネットワークをトレーニングする。

ステップ１２０２で、サンプルビデオ内の目標サンプルビデオフレーム及びサンプルビデオ内の他のサンプルビデオフレームをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得る。

テンポラル伝播ネットワークのトレーニングが完了した後、コンピュータ機器は更にトレーニングして得られたテンポラル伝播ネットワークを用いてトレーニングサンプルを生成して、トレーニングサンプルを用いてメモリ選択ネットワークをトレーニングする。

可能な一実施形態では、サンプルビデオ内の目標サンプルビデオフレームｘ＿ｔに関して、コンピュータ機器は目標サンプルビデオフレームの前のビデオフレームをトラバースしてサンプルガイドビデオフレームｘ＿ｐ（０≦ｐ≦ｔ－１）とし、且つ目標サンプルビデオフレームｘ＿ｔとサンプルガイドビデオフレームｘ＿ｐをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される予測サンプルラベリング情報ｙ＿ｔｐを得る。

ステップ１２０３で、予測サンプルラベリング情報と目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、サンプルビデオフレーム内のサンプルガイドビデオフレームを決定する。

更に、コンピュータ機器は、予測サンプルラベリング情報と目標サンプルビデオフレームに対応するサンプルラベリング情報を比較することによって、サンプルガイドビデオフレームのガイド品質を確認し、更にサンプルガイドビデオフレームに対して正例負例サンプル分類を行う。可能な一実施形態では、このステップは以下のようなステップを含んでもよい。

ステップ１で、予測サンプルラベリング情報とサンプルラベリング情報との間の情報正確度を計算する。

可能な一実施形態では、コンピュータ機器は予測サンプルラベリング情報とサンプルラベリング情報との間の情報正確度を計算し、ここで、情報正確度が高いほど、予測サンプルラベリング情報がサンプルラベリング情報に近いことを示し、対応的に、この予測サンプルラベリング情報に対応するサンプルガイドビデオフレームの品質が高くなる。

例示的な一例において、コンピュータ機器は、予測サンプルラベリング情報ｙ＿ｔｐと目標サンプルビデオフレームｘ＿ｔのラベリング情報ｙ＿ｔにより、両者の情報正確度ｓ＿ｔｐを算出する。

ステップ２で、情報正確度に基づいて、サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定する。

ここで、正例のサンプルガイドビデオフレームに対応する第１情報正確度が負例のサンプルガイドビデオフレームに対応する第２情報正確度より高く、第１情報正確度は正例のサンプルガイドビデオフレームに基づいて、目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、第２情報正確度は負例のサンプルガイドビデオフレームに基づいて、目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である。

可能な一実施形態では、情報正確度が第１正確度閾値より大きい場合、コンピュータ機器は、サンプルガイドビデオフレームを正例のサンプルガイドビデオフレームとして決定し（即ち、ガイドビデオフレームとすることに適合する）、情報正確度が第２正確度閾値より小さい場合に、コンピュータ機器は、サンプルガイドビデオフレームを負例のサンプルガイドビデオフレームとして決定する（即ち、ガイドビデオフレームとすることに適合しない）。ここで、第１正確度閾値が第２正確度閾値以上であり、例えば、第１正確度閾値が０．８で、第２正確度閾値が０．４である。

ステップ１２０４で、目標サンプルビデオフレームとサンプルガイドビデオフレームに基づいて、メモリ選択ネットワークをトレーニングする。

可能な一実施形態では、コンピュータ機器は、目標サンプルビデオフレームとサンプルガイドビデオフレームをメモリ選択ネットワークに入力して、メモリ選択ネットワークから出力される予測結果を得、また、予測結果及びサンプルガイドビデオフレームの正負例の属性に基づいて、メモリ選択ネットワークをトレーニングする。ここで、コンピュータ機器は逆伝播アルゴリズム又は勾配降下アルゴリズムでメモリ選択ネットワークをトレーニングすることができ、本願の実施例はそれについて限定しない。

本実施例で、コンピュータ機器は、まず、サンプルビデオによりテンポラル伝播ネットワークをトレーニングし、次に、トレーニングして得られたテンポラル伝播ネットワークに基づいて、サンプルビデオ内のサンプルビデオフレームに対して正例、負例サンプルの区別を行い、更に区別された正例、負例サンプルによって、メモリ選択ネットワークをトレーニングし、ユーザがトレーニングサンプルの正負例の属性を予め手動でラベリングすることを要せず、トレーニングサンプルの取得難度を低下させると共に、トレーニングサンプルを区別する正確性の向上に寄与し、更にメモリ選択ネットワークのガイドフレーム選択品質を向上させる。

図１３は本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング装置の構造のブロック図であり、図１３に示すように、この装置は、
処理対象ビデオを取得するように構成される取得モジュール１３０１と、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュール１３０２と、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュール１３０３と、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュール１３０４と、を含む。

前記ガイドフレーム決定モジュール１３０３は、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第１取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第１取得ユニットと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
前記装置は、更に、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを含む。

選択的に、前記ガイドフレーム決定モジュール１３０３は、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第２取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、また、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第２取得ユニットを更に含み、
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように構成される。

選択的に、前記選択ネットワークは第１選択ブランチと第２選択ブランチを含み、
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか２つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものであるステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第１選択ブランチに入力して、前記第１選択ブランチから出力される第１特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第２選択ブランチに入力して、前記第２選択ブランチから出力される第２特徴ベクトルを得るステップと、
前記第１特徴ベクトルと前記第２特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように構成される。

選択的に、前記第１取得ユニットは、
前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するｎフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するように構成され、ｎは正整数である。

選択的に、前記生成モジュール１３０４は、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される。

選択的に、前記テンポラル伝播ネットワークは画像ブランチと運動量ブランチを含み、
前記生成モジュール１３０４は、
前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るように構成される第１出力ユニットと、
前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るように構成される第２出力ユニットステップと、
前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するように構成される決定ユニットと、を含む。

選択的に、前記装置は、
サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするように構成される第１トレーニングモジュールであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、第１トレーニングモジュールと、
前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るように構成されるラベリング情報予測モジュールと、
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するように構成されるサンプル決定モジュールと、
前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするように構成される第２トレーニングモジュールと、を更に含む。

選択的に、前記サンプル決定モジュールは、
前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するように構成される計算ユニットと、
前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するように構成される決定ユニットと、を含み、
前記正例のサンプルガイドビデオフレームに対応する第１情報正確度が前記負例のサンプルガイドビデオフレームに対応する第２情報正確度より高く、前記第１情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第２情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である。

上記実施例で提供されたビデオフレームの情報ラベリング装置について、上記各機能モジュールの分割のみを例にして説明したが、実用において、必要に応じて上記機能を異なる機能モジュールに割り当てて完了してもよく、即ち、装置の内部構造を異なる機能モジュールに分割し、それによって上述した機能の全て又は一部を完了するようにしてもよいことは説明する必要がある。また、上記実施例で提供されたビデオフレームの情報ラベリング装置は、ビデオフレームの情報ラベル生成方法の実施例と同じ構想に基づくものであり、その具体的な実現過程の詳細については方法実施例を参照してもよく、ここでは詳細な説明を省略する。

本願の例示的な一実施例で提供されたコンピュータ機器の構造の模式図を示す図１４を参照されたい。具体的に言えば、前記コンピュータ機器１４００は、中央処理装置（ＣＰＵ）１４０１と、ランダムアクセスメモリ（ＲＡＭ）１４０２及び読み出し専用メモ（ＲＯＭ）１４０３を含むシステムメモリ１４０４と、システムメモリ１４０４と中央処理装置１４０１を接続するシステムバス１４０５とを含む。前記コンピュータ機器１４００は、更に、コンピュータ内の各素子間の情報伝達を助ける基本入力／出力システム（Ｉ／Ｏシステム）１４０６と、オペレーティングシステム１４１３、アプリケーション１４１４及び他のプログラムモジュール１４１５を記憶するための大容量記憶装置１４０７とを含む。

前記基本入力／出力システム１４０６は、情報を表示するためのディスプレイ１４０８と、ユーザが情報を入力するためのマウス、キーボードのような入力装置１４０９とを含む。そのうち、前記ディスプレイ１４０８と入力装置１４０９は共にシステムバス１４０５に接続される入力出力制御器１４１０によって中央処理装置１４０１に接続される。前記基本入力／出力システム１４０６は、更に、キーボード、マウス又は電子タッチペン等の複数の他のデバイスからの入力を受け付け、処理するための入力出力制御器１４１０を含んでもよい。類似的に、入力出力制御器１４１０は更にディスプレイスクリーン、プリンター又は他の種類の出力装置に出力を提供する。

前記大容量記憶装置１４０７はシステムバス１４０５に接続される大容量記憶制御器（未図示）によって中央処理装置１４０１に接続される。前記大容量記憶装置１４０７及びそれに関連するコンピュータ読取可能媒体はコンピュータ機器１４００に不揮発性記憶を提供する。つまり、前記大容量記憶装置１４０７は、例えば、ハードディスク又はＣＤ－ＲＯＩドライブのようなコンピュータ読取可能媒体（未図示）を含んでもよい。

一般性を失うことなく、前記コンピュータ読取可能媒体は、コンピュータ記憶媒体と通信媒体を含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ読取可能コマンド、データ構造、プログラムモジュール又は他のデータ等の情報を記憶するためのいかなる方法又は技術で実現される揮発性、不揮発性、取り外し可能、取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ又は他の固体メモリ技術、ＣＤ－ＲＯＭ、ＤＶＤ又は他の光学記憶、カセット、磁気テープ、磁気ディスク記憶又は他の磁性記憶装置を含む。勿論、前記コンピュータ記憶媒体が上述したそれらのものに限定されないことは当業者であれば理解可能である。上記のシステムメモリ１４０４と大容量記憶装置１４０７はメモリと総称してもよい。

メモリには、１つ又は複数の中央処理装置１４０１で実行されるように構成され、上記方法を実現するためのコマンドを含む１つ又は複数のプログラムが記憶されており、中央処理装置１４０１はこの１つ又は複数のプログラムを実行して上記の各方法実施例で提供された方法を実現する。

本願の各種の実施例によれば、前記コンピュータ機器１４００は、更に、例えばインターネット等のネットワークによってネットワーク上のリモートコンピュータに接続されて運行可能である。つまり、コンピュータ機器１４００は、前記システムバス１４０５に接続されるネットワークインタフェースユニット１４１１によってネットワーク１４１２に接続可能であり、言い換えると、ネットワークインタフェースユニット１４１１によって他の種類のネットワーク又はリモートコンピュータシステム（未図示）に接続可能である。

前記メモリは更に１つ以上のプログラムを含み、前記１つ以上のプログラムはメモリに記憶され、本願の実施例で提供された方法におけるコンピュータ機器によって実行されるステップを実行するために用いられる。

本願の実施例は、少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は命令セットがプロセッサによってロード、実行されて上記のいずれか１つの実施例に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ読取可能記憶媒体を更に提供する。

本願は、コンピュータ読取可能記憶媒体に記憶されるコンピュータコマンドを含むコンピュータプログラム製品又はコンピュータプログラムを更に提供する。コンピュータ機器のプロセッサがコンピュータ読取可能記憶媒体からこのコンピュータコマンドを読み取り、このコンピュータコマンドを実行することで、このコンピュータ機器は上記実施例で提供されたビデオフレームの情報ラベリング方法を実行する。

上記実施例の各種方法におけるステップの全部又は一部が、プログラムによって関連ハードウェアにコマンドを出すことで遂行可能であることは当業者であれば理解可能であり、このプログラムはコンピュータ読取可能記憶媒体に記憶可能であり、このコンピュータ読取可能記憶媒体は上記実施例におけるメモリに含まれるものであってもよいし、端末に記憶されず、単独して存在してもよい。このコンピュータ読取可能記憶媒体には少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は命令セットが前記プロセッサによってロード、実行されて上記のいずれか１つの方法実施例に記載のビデオフレームの情報ラベリング方法を実現する。

選択可能に、このコンピュータ読取可能記憶媒体は、読み出し専用メモ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ソリッドステートドライブ（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅｓ）又は光ディスク等を含んでもよい。そのうち、ランダムアクセスメモリは、抵抗変化型ランダムアクセスメモリ（ＲｅＲＡＭ：ＲｅｓｉｓｔａｎｃｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含んでもよい。上記の本願の実施例の番号は説明を容易にするためのものに過ぎず、実施例の優劣を表すものではない。

上記実施例のステップの全部又は一部を実現するには、ハードウェアによって遂行してもよいし、プログラムによって関連ハードウェアにコマンドを出して遂行してもよいことは当業者であれば理解可能であり、前記のプログラムはコンピュータ読取可能記憶媒体に記憶可能であり、上述した記憶媒体は読み出し専用メモ、磁気ディスク又は光ディスク等であってもよい。

以上は本願の好ましい実施例に過ぎず、本願を限定するものではなく、本願の主旨と原則から逸脱しない限り行った修正、同等な置換、改良等は、全て本願の保護範囲に含まれるものとする。

５１０端末
５２０サーバ
５２１メモリ選択ネットワーク
５２２テンポラル伝播ネットワーク
１３０１取得モジュール
１３０２特徴抽出モジュール
１３０３ガイドフレーム決定モジュール
１３０４生成モジュール
１４００コンピュータ機器
１４０１中央処理装置（ＣＰＵ）
１４０２ランダムアクセスメモリ（ＲＡＭ）
１４０３読み出し専用メモリ（ＲＯＭ）
１４０４システムメモリ
１４０５システムバス
１４０６入力／出力システム（Ｉ／Ｏシステム）
１４０７大容量記憶装置
１４０８ディスプレイ
１４０９入力装置
１４１０入力／出力制御器
１４１１ネットワークインタフェースユニット
１４１２ネットワーク
１４１３オペレーティングシステム
１４１４アプリケーション
１４１５他のプログラムモジュール

Claims

コンピュータ機器が実行する、ビデオフレームの情報ラベリング方法であって、
処理対象ビデオを取得するステップと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含む
ことを特徴とする方法。
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップは、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、ステップと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、ステップと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するステップと、を含み、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定した後、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するステップを更に含む
ことを特徴とする請求項１に記載の方法。
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得る前に、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するステップであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、ステップを更に含み、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップを含む
ことを特徴とする請求項２に記載の方法。
前記選択ネットワークは第１選択ブランチと第２選択ブランチを含み、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか２つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第１選択ブランチに入力して、前記第１選択ブランチから出力される第１特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第２選択ブランチに入力して、前記第２選択ブランチから出力される第２特徴ベクトルを得るステップと、
前記第１特徴ベクトルと前記第２特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を含む
ことを特徴とする請求項３に記載の方法。
前記メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップは、
前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するｎフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するステップを含み、ｎは正整数である
ことを特徴とする請求項２から４のいずれか一項に記載の方法。
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップは、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップを含む
ことを特徴とする請求項２から４のいずれか一項に記載の方法。
前記テンポラル伝播ネットワークは画像ブランチと運動量ブランチを含み、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップは、
前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るステップと、
前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るステップと、
前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するステップと、を含む
ことを特徴とする請求項６に記載の方法。
前記処理対象ビデオを取得する前に、
サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするステップであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、ステップと、
前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るステップと、
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップと、
前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするステップと、を更に含む
ことを特徴とする請求項６に記載の方法。
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップは、
前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するステップと、
前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するステップと、を含み、
前記正例のサンプルガイドビデオフレームに対応する第１情報正確度が前記負例のサンプルガイドビデオフレームに対応する第２情報正確度より高く、前記第１情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第２情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である
ことを特徴とする請求項８に記載の方法。
ビデオフレームの情報ラベリング装置であって、
処理対象ビデオを取得するように構成される取得モジュールと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含む
ことを特徴とする装置。
前記ガイドフレーム決定モジュールは、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第１取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第１取得ユニットと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
前記ビデオフレームの情報ラベリング装置は、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを更に含む
ことを特徴とする請求項１０に記載の装置。
前記ガイドフレーム決定モジュールは、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第２取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第２取得ユニットを更に含み、
前記特徴スコアリングユニットは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように更に構成される
ことを特徴とする請求項１１に記載の装置。
前記選択ネットワークは、第１選択ブランチと第２選択ブランチを含み、
前記特徴スコアリングユニットは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか２つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第１選択ブランチに入力して、前記第１選択ブランチから出力される第１特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第２選択ブランチに入力して、前記第２選択ブランチから出力される第２特徴ベクトルを得るステップと、
前記第１特徴ベクトルと前記第２特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように更に構成される
ことを特徴とする請求項１２に記載の装置。
前記生成モジュールは、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される
ことを特徴とする請求項１１から１３のいずれか一項に記載の装置。
プロセッサとメモリを含み、前記メモリに少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は前記命令セットが前記プロセッサによってロード、実行されて請求項１から９のいずれか一項に記載の方法を実現することを特徴とするコンピュータ機器。
少なくとも１つのコマンド、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも１つのコマンド、前記少なくとも１セグメントのプログラム、前記コードセット又は前記命令セットが、プロセッサによってロード、実行されて請求項１から９のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読取可能記憶媒体。