JP2022526513A - ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム - Google Patents

ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2022526513A
JP2022526513A JP2021556971A JP2021556971A JP2022526513A JP 2022526513 A JP2022526513 A JP 2022526513A JP 2021556971 A JP2021556971 A JP 2021556971A JP 2021556971 A JP2021556971 A JP 2021556971A JP 2022526513 A JP2022526513 A JP 2022526513A
Authority
JP
Japan
Prior art keywords
video frame
target
image feature
labeling
guide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021556971A
Other languages
English (en)
Other versions
JP7147078B2 (ja
Inventor
▲鋭▼正 ▲呉▼
佳▲亞▼ ▲賈▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022526513A publication Critical patent/JP2022526513A/ja
Application granted granted Critical
Publication of JP7147078B2 publication Critical patent/JP7147078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体を提供する。この方法は、処理対象ビデオを取得するステップ(601)と、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得るステップ(602)と、目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームのガイドビデオフレームを決定するステップであって、ガイドビデオフレームは目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、画像特徴一致度は目標画像特徴とラベリング済みビデオフレームに対応する画像特徴との一致度である、ステップ(603)と、ガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成するステップ(604)と、を含む。ガイドビデオフレームの選択品質を向上させることによって、生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、ラベリング情報の伝播品質を向上させる。

Description

(関連出願の相互参照)
本願の実施例は、2019年8月29日に提出された、出願番号が第201910807774.8号であり、発明の名称が「ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照によって本願の実施例に組み込まれる。
本願の実施例は、人工知能の分野に関し、特に、ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体に関する。
ビデオラベリング情報伝播は、ビデオ処理分野の重要な技術であり、ビデオ内の物体追跡及びグレースケールビデオのカラー化等によく使用される。
関連技術において、ディープラーニングによる方法を用いて、畳み込みニューラルネットワークに基づいてビデオフレーム間の画素関係に対してモデルを構築して、ビデオフレーム間のラベリング情報を画素間の関係によって伝播させることが一般である。ただし、上記方法を採用する時に、通常、畳み込みニューラルネットワークを用いて隣接ビデオフレームに対してモデルを構築する。対応的に、構築されたモデルを用いてラベリング情報を伝播させる時に、現在ビデオフレームの1個前のビデオフレームをガイドビデオフレームとして決定して、モデルによってガイドビデオフレームのラベリング情報を現在ビデオフレームに伝達することになる。
しかしながら、上記方法によって隣接ビデオフレームをガイドビデオフレームとする時に、あるビデオフレームは物体による遮断、高速運動等の原因でラベリング情報が欠落した場合に、直接的に後続の全てのビデオフレームの情報伝播に影響を及ぼしてしまい、しかも、ラベリング情報の伝播誤差が継続的に積み重なって、ラベリング情報伝播効果が悪くなる。
本願の実施例は、ビデオフレームに対して情報ラベリングを行う時に生成するラベリング情報の正確性を向上させることができるビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体を提供する。前記技術的解決手段は以下のとおりである。
一態様では、本願の実施例は、コンピュータ機器に用いられる方法であって、
処理対象ビデオを取得するステップと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含むビデオフレームの情報ラベリング方法を提供する。
別の態様では、本願の実施例は、
処理対象ビデオを取得するように構成される取得モジュールと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含むビデオフレームの情報ラベリング装置を提供する。
別の態様では、本願の実施例は、プロセッサとメモリを含み、前記メモリには少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットが前記プロセッサによってロード、実行されて上記態様に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ機器を提供する。
別の態様では、少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットがプロセッサによってロード、実行されて上記態様に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ読取可能記憶媒体を提供する。
別の態様では、コンピュータ読取可能記憶媒体に記憶されるコンピュータコマンドを含むコンピュータプログラム製品又はコンピュータプログラムを提供する。コンピュータ機器のプロセッサがコンピュータ読取可能記憶媒体からこのコンピュータコマンドを読み取り、このコンピュータコマンドを実行することで、このコンピュータ機器は上記態様によるビデオフレームの情報ラベリング方法を実行する。
本願の実施例で提供された技術的解決手段によって図られる有用な効果は、少なくとも以下を含む。
処理対象ビデオ内の目標ビデオフレームに対して情報ラベリングを行う時に、目標ビデオフレームに対して特徴抽出を行って目標ビデオフレームの目標画像特徴を得、目標ビデオフレームと処理対象ビデオ内のラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームに対応するガイドビデオフレームを決定し、それによって、ガイドビデオフレームのラベリング情報に基づいて目標ビデオフレームの目標ラベリング情報を生成し、本願の実施例で、直接的に隣接ビデオフレームを選択してガイドビデオフレームとすることではなく、目標ビデオフレームの画像特徴に基づいて、目標ビデオフレームに対して高い画像特徴一致度を有するラベリング済みビデオフレームを選択してガイドビデオフレームとすることで、ガイドビデオフレームの選択品質を向上させ、更に生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、更にラベリング情報の伝播品質を向上させる。
関連技術と本願の実施例で提供された方法によってビデオ内の物体にラベルを付けた実施模式図である。 本願の実施例で提供されたビデオフレームの情報ラベリング方法の原理の模式図である。 ビデオ内の対象に対する自動追跡・位置決定過程のインターフェイスの模式図である。 グレースケールビデオに対するカラー化過程のインターフェイスの模式図である。 本願の例示的な一実施例で提供された実施環境の模式図を示す。 本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。 本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。 本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す。 図8に示すビデオフレームの情報ラベリング方法の実施模式図である。 選択ネットワークの第1選択ブランチによって特徴抽出を行った実施模式図である。 関連技術と本願の実施例によるラベリング情報正確率の対比図である。 例示的な一実施例で提供されたネットワークトレーニング過程のフローチャートである。 本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング装置の構造のブロック図である。 本願の例示的な一実施例で提供されたコンピュータ機器の構造の模式図を示す。
本願の目的、技術的解決手段及び利点をより明確にするために、以下に図面を参照しながら、本願の実施形態を更に詳細に記述する。
コンピュータビジョン技術(Computer Vision:CV)は、機器に如何に「見られる」ことを研究する科学であり、更に、人間の目の代わりにカメラやコンピュータを用いて目標の認識、追跡、測定等を行う機器視覚を指し、更に画像処理を行わせ、コンピュータの処理結果が人間の目で観察し、又は器械に伝送して検知する画像に一層適合するようにさせる。科学学科として、コンピュータビジョン研究に関連する理論と技術は、画像又は多次元データから情報を取得できる人工知能システムを構築しようとしている。コンピュータビジョン技術は、一般に画像処理、画像認識、画像意味理解、画像検索、光学文字認識(Optical Character Recognition:OCR)、ビデオ処理、ビデオ意味理解、ビデオ内容/行為認識、三次元物体再構築、3D技術、仮想現実、拡張現実、同期位置決定及びマップ構築等の技術を含み、更によく見られる顔認識、指紋認識等の生物学的特徴認識技術を含む。本願の実施例で提供された方法はコンピュータビジョン技術のビデオ情報ラベリング分野への応用に関する。
ビデオフレーム系列x_t(t=0,1,…,T)について、そのうちのあるビデオフレームに対してラベリング情報を予め設定する時に、このラベリング情報によりビデオフレーム系列内の他のビデオフレームに対してラベリング情報を設定する過程は、ビデオラベリング情報伝播と言う。例えば、ビデオフレーム系列内の第0ビデオフレームx_0に対してラベリング情報y_0を予め設定した場合に、ラベリング情報y_0により順に第1ビデオフレームのラベリング情報y_1、第2ビデオフレームのラベリング情報y_2…第Tのビデオフレームのラベリング情報y_Tを求める過程はビデオラベリング情報伝播となる。
関連技術において、隣接ビデオフレームを現在ビデオフレームのガイドビデオフレームとし、且つガイドビデオフレーム内のラベリング情報を用いて現在ビデオフレームにラベリング情報を生成するようになっている。例えば、ビデオフレーム系列x_t内の第0ビデオフレームにラベリング情報y_0を含む場合に、第1ビデオフレームに対しては第0ビデオフレームをガイドビデオフレームとして、ラベリング情報y_0により第1ビデオフレームのラベリング情報y_1を生成し、第2ビデオフレームに対しては第1ビデオフレームをガイドビデオフレームとして、ラベリング情報y_1により第2ビデオフレームのラベリング情報y_2を生成し、これによって類推して、ビデオフレームの各々にラベリング情報を設定する。
しかしながら、上記方式を採用する場合に、ラベリング情報の伝播過程で、伝播誤差が継続的に積み重なり、特にいくつかのビデオフレームにおいてラベリング対象物体が遮断されたか、一時的に離れた時に、このビデオフレームの後の全てのビデオフレームに対して正確なラベリング情報を設定することができなくなり、最終的にラベリング情報の伝播効果に影響を及ぼすことがある。
例示的に、図1内の(a)に示すように、手動のラベリング方式でビデオフレーム系列内の第0フレームに対してラベリング情報を設定し、このラベリング情報はビデオフレーム内の対象11(図1で白線で囲まれた領域)にラベルを付けるためのものである。隣接ビデオフレームをガイドビデオフレームとしてラベリング情報伝播を行えば、第50ビデオフレームにおいて対象11がビデオフレーム画面から離れたので、第50ビデオフレーム以降、ビデオフレームに対して正確なラベリング情報を設定できなくなる。しかしながら、実際には第75フレームから、対象11が次第にビデオフレーム画面に入って来た。
ビデオ内のラベリング情報の正確性を向上させるために、図2に示すように、本願の実施例で、処理対象ビデオ21内の目標ビデオフレームtに対して情報ラベリングを行う必要がある場合、直接的に目標ビデオフレームtの隣接ビデオフレーム(即ち、ビデオフレームt-1)をガイドビデオフレームとすることではなく、まず目標ビデオフレームtに対して特徴抽出を行って、目標ビデオフレームtの目標画像特徴22を得る。キャッシュされているラベリング済みビデオフレームの画像特徴23及び目標画像特徴22に基づいて、コンピュータ機器は、ラベリング済みビデオフレームから、目標ビデオフレームtに対して高い画像特徴一致度を有するビデオフレームを選択してガイドビデオフレーム24とする。更に、コンピュータ機器は、ガイドビデオフレーム24、ガイドビデオフレームのラベリング情報25及び目標ビデオフレームtにより、目標ビデオフレームtに対して目標ラベリング情報26を生成して、目標ビデオフレームtの情報ラベリングを遂行する。
例示的に、図1内の(b)に示すように、本願の実施例で提供された方法を採用すれば、第75ビデオフレームにラベリング情報を生成する時に、コンピュータ機器は、第74ビデオフレームをガイドビデオフレームとして決定することではなく、画像特徴の一致度に基づいて第35ビデオフレームをガイドビデオフレームとして決定し、更にこのガイドビデオフレームのラベリング情報に基づいて、第75ビデオフレームにおいて対象11にラベルを付け、類似的に、第100ビデオフレームにラベリング情報を生成する時に、コンピュータ機器は第98ビデオフレームをガイドビデオフレームとして決定し、最終的に第100ビデオフレームにおいて対象11にラベルを付ける。以上から分かるように、本願の実施例で提供された方法を採用すれば、中間のビデオフレーム内のラベリング対象物体が遮断されたか、又は一時的に離れた場合であっても、コンピュータ機器は依然として後続ビデオフレームに対して正確なラベリングを行うことができる。また、ラベリング情報はビデオフレーム間においてチェーン方式で伝搬されることではないので、伝播過程で発生する伝播誤差を回避可能であり、更にビデオフレームのラベリング正確性を向上させる。
以下、本願の実施例で提供されるビデオフレームの情報ラベリング方法の適用場面について概略的に説明する。
1.ビデオ対象の自動追跡・位置決定
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、室内監視アプリケーション、道路監視アプリケーション、駐車場監視アプリケーション等のビデオ対象自動追跡・位置決定機能を有するアプリケーションに利用可能である。対象自動追跡・位置決定を行う時に、ユーザは、まず、ビデオをアプリケーションに読み込み、次に、ビデオにおけるあるビデオフレームにおいて自動追跡・位置決定を行おうとする対象にラベルを付け、アプリケーションは初期ラベリング情報によりビデオ内の他のビデオフレームにラベリング情報を生成し、更にラベリング情報により各ビデオフレームにおいて自動追跡・位置決定を行う対象にラベルを付けて表示する。
例示的に、図3に示すように、ビデオをアプリケーションに読み込んだ後、アプリケーションの画面にビデオ内の第1ビデオフレームが表示され、ボックスで囲む方式によって追跡しようとする対象にラベルを付けることがユーザに通知する。ユーザは追跡しようとする対象「犬」をボックス31で囲み、且つ追跡開始コントロールをクリックした後、アプリケーションは第1ビデオフレーム及びそのラベリング情報に基づいて、順にビデオ内の各ビデオフレームにラベリング情報を生成し、且つ生成したラベリング情報によりビデオフレーム内の犬をリアルタイムにボックス31で囲んで表示する。
2.グレースケール(白黒)ビデオの自動カラー化
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、ビデオカラー化機能を有するアプリケーション、例えばビデオ編集アプリケーションに利用可能である。ビデオをカラー化する時に、ユーザは、まず、グレースケールビデオにおける一画像フレームをカラー化し、次に、初期色情報を含んでいるグレースケールビデオをアプリケーションに入力し、アプリケーションは初期色ラベリング情報によりビデオ内の他のビデオフレームに色ラベリング情報を生成し、更に生成した色ラベリング情報に基づいて、各ビデオフレームをカラー化し、最後にカラー化したビデオを出力する。
例示的に、図4に示すように、ユーザは、まず、グレースケールビデオにおける第1ビデオフレームをカラー化し(それぞれ人間41と犬42をカラー化する)、次に、カラー化した後のグレースケールビデオをアプリケーションに入力し、アプリケーションは第1ビデオフレームの色ラベリング情報により順にビデオ内の各ビデオフレームに色ラベリング情報を生成し、且つ色ラベリング情報により各ビデオフレームにおける人間41と犬42をカラー化し、最後にカラー化したビデオを出力する。
勿論、上記適用場面への利用に加えて、本願の実施例で提供された方法は更にビデオ内のラベリング情報を伝播する必要がある他の適用場面にも利用可能であり、本願の実施例は具体的な適用場面を限定しない。
本願の実施例で提供されたビデオフレームの情報ラベリング方法は端末又はサーバ等のコンピュータ機器に利用可能である。可能な一実施形態では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、アプリケーション又はアプリケーションの一部として実現され、端末にインストールされ、自動的にビデオ内のビデオフレームにラベリング情報を設定する機能を端末に持たせるようになってもよく、又は、アプリケーションのバックエンドサーバに用いられ、サーバによって端末内のアプリケーションにビデオフレームの情報ラベリング機能を提供するようになってもよい。
本願の例示的な一実施例で提供された実施環境の模式図を示す図5を参照されたい。この実施環境には端末510とサーバ520を含み、ここで、端末510とサーバ520との間は通信ネットワークによってデータ通信を行い、選択可能に、通信ネットワークは有線ネットワークであっても、無線ネットワークであってもよく、また、この通信ネットワークはローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワーク及び広域ネットワークのうちの少なくとも1種であってもよい。
端末510にはビデオフレーム情報ラベリングを要求するアプリケーションがインストールされている。このアプリケーションは監視類アプリケーション、ビデオカラー化類アプリケーション等であってもよく、本願の実施例はそれについて限定しない。選択的に、端末510は携帯電話、タブレット、ラップトップ、視力障害者補助装置等の携帯端末であってもよいし、デスクトップコンピュータ、投影型コンピュータ等の端末であってもよく、本願の実施例はそれについて限定しない。
サーバ520はサーバとして実現されてもよいし、一組のサーバで構成されたサーバ群として実現されてもよく、それは物理サーバであってもよいし、クラウドサーバとして実現されてもよい。可能な一実施形態では、サーバ520は端末510におけるアプリケーションのバックエンドサーバである。
図5に示すように、本願の実施例で、サーバ520には予めトレーニングされたメモリ選択ネットワーク521とテンポラル伝播ネットワーク522が設置されており、ここで、メモリ選択ネットワーク521はラベリングされたビデオフレームからラベリング対象ビデオフレームのガイドビデオフレームを選択するためのものであり、テンポラル伝播ネットワーク522はメモリ選択ネットワーク521で選択したガイドビデオフレームによりラベリング対象ビデオフレームにラベリング情報を生成するためのものである。
可能な一適用場面で、サーバ520は、メモリ選択ネットワーク521とテンポラル伝播ネットワーク522によって処理対象ビデオフレームのうちの各ビデオフレームに対してラベリング情報を生成した後、ラベリング情報を端末510にフィードバックし、端末510はラベリング情報によりビデオを処理して、処理後のビデオを表示する。ここで、ラベリング情報が物体分割情報である場合、端末510は物体分割情報により各ビデオフレーム内の目標物体を囲んで表示し、ラベリング情報が色情報の場合に、端末510は色情報によりビデオフレーム内の各対象をカラー化する。
他の可能な実施形態で、上記メモリ選択ネットワーク521とテンポラル伝播ネットワーク522はアプリケーションの一部又は全部として実現されてもよく、対応的に、端末510は、サーバ520を利用せずに、ローカルでビデオフレームに対して情報ラベリングを行うことができ、本実施例はそれについて限定しない。
説明の便宜上、下記の各実施例はビデオフレームの情報ラベリング方法をコンピュータ機器で実行することを例として説明する。
本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す図6を参照されたい。本実施例はこの方法をコンピュータ機器に用いることを例として説明し、この方法は下記ステップを含む。
ステップ601で、処理対象ビデオを取得する。
ここで、この処理対象ビデオはリアルタイムストリーミングメディアビデオであっても、撮影したビデオ又はダウンロードしたビデオであってもよく、本願の実施例はそれについて限定しない。
可能な一実施形態では、この処理対象ビデオは、ラベリング情報が予め設定された初期ラベリングビデオフレームを含む。ここで、初期ラベリングビデオフレームのラベリング情報はユーザによって手動で設定されてもよく、初期ラベリングビデオフレームの数は少なくとも1フレームである。
例示的な一例において、処理対象ビデオの第0ビデオフレームを初期ラベリングビデオフレームとする。勿論、他の可能な実現形態で、第0フレーム(即ち、最先頭のフレーム)ではなく、処理対象ビデオにおけるいずれかのフレーム(例えば、画像内容が最も豊富な1フレーム又は全てのラベリングしようとする対象を含む1フレーム)を初期ラベリングビデオフレームとしてもよく、本願の実施例はそれについて限定しない。
選択的に、処理対象ビデオをカラー化することが必要になる場合、即ち、処理対象ビデオがグレースケールビデオである場合、このラベリング情報はビデオフレームの色情報であってもよく、例えば、ラベリング情報はビデオフレームにおける各画素点の赤緑青(Red-Green-Blue:RGB)値であり、処理対象ビデオ内の物体の追跡・位置決定が必要になる場合、このラベリング情報は物体分割情報であってもよく、例えば、ラベリング情報はビデオフレームにおける目標物体に対応する画素点の画素点座標である。上記表現形式のラベリング情報に加えて、このラベリング情報は更に他の表現形式を採用してもよく、本願の実施例はそれについて限定しない。
ステップ602で、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。
可能な一実施形態では、コンピュータ機器は順に処理対象ビデオ内の各ビデオフレームにラベリング情報を生成し、目標ビデオフレームは、現在、コンピュータ機器が処理しているビデオフレームである。例えば、処理対象ビデオ内の初期ラベリングビデオフレームが第0ビデオフレームの場合、コンピュータ機器は第1ビデオフレームから各ビデオフレームにラベリング情報を生成する。
直接的に目標ビデオフレームの隣接ビデオフレーム(例えば、目標ビデオフレームの1個前のビデオフレーム)をガイドビデオフレームとする関連技術と異なるところとして、本願の実施例では、コンピュータ機器は、まず目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。
選択的に、コンピュータ機器は目標ビデオフレームを予めトレーニングされた特徴抽出ネットワークに入力して、特徴抽出ネットワークから出力する目標画像特徴を得、ここで、この特徴抽出ネットワークはディープ畳み込みニューラルネットワークに基づいてトレーニングされたものであってもよく、例えば、この特徴抽出ネットワークは視覚幾何学グループ(Visual Geometry Group:VGG)ネットワーク構成を採用してもよく、また、出力する特徴マップ(即ち、目標画像特徴)のサイズは入力ビデオフレームの1/32である。本願の実施例は画像特徴を抽出する具体的な方式について限定しない。
ステップ603で、目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームのガイドビデオフレームを決定し、ラベリング済みビデオフレームは処理対象ビデオに属するものであり、ガイドビデオフレームは目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、画像特徴一致度は目標画像特徴とラベリング済みビデオフレームに対応する画像特徴との一致度であり、ガイドビデオフレームと目標ビデオフレームとの画像特徴一致度が他のラベリング済みビデオフレームと目標ビデオフレームとの画像特徴一致度より高い。
可能な一実施形態では、コンピュータ機器にはそれぞれのラベリング済みビデオフレームに対応する画像特徴がキャッシュされており(即ち、記憶機能を実現)、ガイドビデオフレームを選択する時に、目標画像特徴とそれぞれのラベリング済みビデオフレームに対応する画像特徴との一致度を計算し、目標ビデオフレームとそれぞれのラベリング済みビデオフレームとの間の画像特徴一致度を得、更に画像特徴一致度に基づいてガイドビデオフレームを決定する(即ち、選択機能を実現する)。
例示的な一例において、処理対象ビデオ内の第0ビデオフレームを初期ラベリングビデオフレームとし、即ち、第1ビデオフレームのガイドビデオフレームは第0ビデオフレームであり、第2ビデオフレームのガイドビデオフレームは第0、1ビデオフレームから決定され、これによって類推すると、第nのビデオフレームのガイドビデオフレームは第0~n-1のビデオフレームから決定される。
なお、この例は目標ビデオフレームの前のビデオフレームからガイドビデオフレームを決定することのみを例として説明したが、他の可能な実現形態では、目標ビデオフレームの後ろのビデオフレーム(情報ラベリング済み)からガイドビデオフレームを決定してもよく、本実施例はそれについて限定しない。
ステップ604で、ガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成する。
更に、コンピュータ機器はガイドビデオフレームに対応するラベリング情報に基づいて、目標ビデオフレームに対応する目標ラベリング情報を生成する。
選択的に、目標ビデオフレームx_tの場合、それに対応するガイドビデオフレームがx_gであり、且つガイドビデオフレームx_gがラベリング情報y_gに対応する場合に、目標ビデオフレームx_tに対応するラベリング情報y_tを求める過程は下式で表してもよい。
y_t=P(x_t,x_g,y_g)
ここで、Pは畳み込みニューラルネットワークに基づいて構築される。
上記に記載される通りに、本願の実施例で、処理対象ビデオ内の目標ビデオフレームに対して情報ラベリングを行う時に、目標ビデオフレームに対して特徴抽出を行って目標ビデオフレームの目標画像特徴を得、目標ビデオフレームと処理対象ビデオ内のラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームに対応するガイドビデオフレームを決定することによって、ガイドビデオフレームのラベリング情報に基づいて目標ビデオフレームの目標ラベリング情報を生成し、本願の実施例で、直接的に隣接ビデオフレームを選択してガイドビデオフレームとすることではなく、目標ビデオフレームの画像特徴に基づいて、目標ビデオフレームに対して高い画像特徴一致度を有するラベリング済みビデオフレームを選択してガイドビデオフレームとすることで、ガイドビデオフレームの選択品質を向上させ、更に生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、更にラベリング情報の伝播品質を向上させる。
可能な一実施形態において、本願の実施例で、コンピュータ機器には予め構築されたメモリ選択ネットワーク(Memory Selection Network:MSN)が記憶されており、対応的に、目標ビデオフレームのガイドビデオフレームを決定する時に、抽出した目標画像特徴に関して、コンピュータ機器は目標画像特徴をメモリ選択ネットワークに入力し、メモリ選択ネットワークはラベリング済みビデオフレームから、1フレームのラベリング済みビデオフレームを選択してガイドビデオフレームとして出力する。
選択的に、メモリ選択ネットワークは「メモリプール+選択ネットワーク」の構成を採用し、ここで、メモリプールにはラベリング済みビデオフレームの画像特徴が記憶されているが、選択ネットワークはメモリプールに記憶された画像特徴及び目標ビデオフレームの目標画像特徴により、ラベリング済みビデオフレームからガイドビデオフレームを選択するためのものである。また、コンピュータ機器には更に、目標ビデオフレームの情報ラベリングを実行するテンポラル伝播ネットワーク(Temporal Propagation Network:TPN)を含む。以下、上記の2つのネットワークと関連付けてビデオフレームの情報ラベリングプロセスを説明する。
本願の例示的な別の実施例で提供されたビデオフレームの情報ラベリング方法のフローチャートを示す図7を参照されたい。本実施例はこの方法をコンピュータ機器に用いることを例として説明し、この方法は下記ステップを含む。
ステップ701で、処理対象ビデオを取得する。
ステップ702で、処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、目標ビデオフレームの目標画像特徴を得る。
ステップ701~702の実施形態についてはステップ601~602を参照してもよく、本実施例はここで詳細な説明を省略する。
ステップ703で、メモリプールから候補画像特徴を取得する。
可能な一実施形態では、メモリプールには順にラベリング済みビデオフレームに対応する候補画像特徴が記憶されており、対応的に、コンピュータ機器は順にメモリプールから候補画像特徴を取得する。例えば、目標画像フレームが第tの画像フレームである場合に、メモリプールには順に第0~第t-1の画像フレームの画像特徴が記憶されており、コンピュータ機器は0~t-1の順序でメモリプールから候補画像特徴を取得する。
ここで、情報ラベリングの初期段階で、このメモリプールには初期ラベリングビデオフレームの画像特徴が記憶されており、対応的に、コンピュータ機器はラベリング初期段階で、直接的に初期ラベリングビデオフレームをガイドビデオフレームとする。
ステップ704で、候補画像特徴と目標画像特徴を選択ネットワークに入力して、選択ネットワークから出力される画像特徴スコアを得、画像特徴スコアは、候補画像特徴と目標画像特徴との画像特徴一致度を示すためのものである。
可能な一実施形態では、この選択ネットワークは軽量の畳み込みニューラルネットワークであり、入力された画像特徴により画像特徴間の画像特徴スコアを出力するためのものであり、ここで、画像特徴スコアが高いほど、画像特徴間の一致度が高くなることを意味し、対応的に、この候補画像特徴に対応するラベリング済みビデオフレームをガイドビデオフレームとする時の情報伝播効果が良くなり、情報ラベリングの正確性が高くなる。
選択的に、メモリプール内の各候補画像特徴に関して、コンピュータ機器はそれぞれ上記ステップによってそれらに対応する画像特徴スコアを取得する。
しかしながら、情報ラベリングが継続的に実行されるにつれて、メモリプール内の画像特徴は継続的に増加し(即ち、ラベリング済みビデオフレームの数は継続的に増加する)、メモリプール内の全ての候補画像特徴をトラバースすれば、後続のビデオフレームの情報ラベリングの効率が次第に低くなる。
情報ラベリング効率を更に向上させるために、選択的に、コンピュータ機器はメモリプール内の一部の候補画像特徴を取得し、対応的に、選択ネットワークによって、一部の候補画像特徴に対応する画像特徴スコアを出力すればよい。
一部の候補画像特徴を選択するポリシーに関しては、可能な一実施形態で、処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、メモリプールからラベリング済みビデオフレームに対応する候補画像特徴を取得する。例えば、コンピュータ機器はメモリプール内の奇数又は偶数のビデオフレームに対応する候補画像特徴を取得し(即ち、1フレームおきにラベリング済みビデオフレームに対応する候補画像特徴を取得し、それは、隣接ビデオフレームの間隔が短く、対応的に、画像特徴間の差異が小さいためである)、又は、コンピュータ機器は2フレームおきにラベリング済みビデオフレームに対応する候補画像特徴を取得する。
例えば、処理対象ビデオのフレームレートが24フレーム/秒より大きい場合に、コンピュータ機器はメモリプール内の奇数のビデオフレームに対応する候補画像特徴を取得し、且つ選択ネットワークによって候補画像特徴に対応する画像特徴スコアを出力する。
他の可能な実施形態で、コンピュータ機器はメモリプールから目標ビデオフレームに隣接するnフレームのラベリング済みビデオフレーム(例えば、隣接する20フレームのラベリング済みビデオフレーム)の候補画像特徴を取得してもよく、本願の実施例はそれについて限定しない。
上記ステップでは、選択ネットワークは候補画像特徴と目標画像特徴のみに基づいて画像特徴スコアを計算し、スコアリングの次元が単一である。出力する画像特徴スコアの正確性を更に向上させるために、可能な一実施形態では、図7を基に、図8に示すように、ステップ703の後はステップ708を含んでもよく、対応的に、ステップ709でステップ704を代替してもよい。
ステップ708で、初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得し、初期ラベリングビデオフレームは処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、また、ラベリング対象は初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である。
初期ラベリングビデオフレームに対応する初期ラベリング情報を十分に利用するために、可能な一実施形態では、コンピュータ機器は初期ラベリングビデオフレームの画像特徴を抽出する時に、初期ラベリングビデオ内のラベリング対象に対して画像特徴抽出を行って、ラベリング対象のラベリング対象画像特徴を得、ここで、ラベリング対象画像特徴のサイズが各ビデオフレームの画像特徴と同じである。
選択的に、コンピュータ機器は初期ラベリングビデオフレームの物体分割情報(初期ラベリングビデオフレームにおける異なる物体を分割するためのものである)によりラベリング対象を決定し、更にラベリング対象に対して画像特徴抽出を行い、また、畳み込みニューラルネットワークに基づく特徴抽出器を用いて画像特徴抽出を行う場合に、ビデオフレームに対して画像特徴抽出を行う特徴抽出器はラベリング対象に対して画像特徴抽出を行う特徴抽出器と重みを共有する。
例示的に、図9に示すように、コンピュータ機器は初期ラベリングビデオフレームx_0に対応する初期ラベリング情報y_0により、特徴抽出器91によってラベリング対象画像特徴f_aを抽出し、また、コンピュータ機器は情報ラベリングプロセスで、特徴抽出器91によってビデオフレームx_0~x_t-1に対して画像特徴抽出を行って、抽出した画像特徴f_0~f_t-1をメモリプール92に記憶する。ビデオフレームx_tのガイドビデオフレームを決定する時に、コンピュータ機器はラベリング対象画像特徴f_aを取得し、且つメモリプール92から候補画像特徴f_pを取得する。
ステップ709で、候補画像特徴、目標画像特徴及びラベリング対象画像特徴を選択ネットワークに入力して、選択ネットワークから出力される画像特徴スコアを得る。
更に、コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像特徴を共に選択ネットワークに入力し、選択ネットワークは三者に基づいて画像特徴スコアを出力する。
可能な一実施形態では、この選択ネットワークは第1選択ブランチと第2選択ブランチの2つのブランチを含み、ここで、第1選択ブランチは2つずつの画像特徴の関連付け操作結果を入力とし、第2選択ブランチは3つの画像特徴の結合を入力とし、また、第1選択ブランチと第2選択ブランチの出力は結合された後、最終的に選択ネットワークの全結合層に入力され、最終的に全結合層から画像特徴スコアを出力する。選択的に、このステップは以下のようなステップを含んでもよい。
ステップ1で、候補画像特徴、目標画像特徴及びラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得、関連画像特徴は画像特徴間の類似度を表すためのものである。
第1選択ブランチに画像特徴を入力する前に、コンピュータ機器はまず候補画像特徴、目標画像特徴及びラベリング対象画像特徴のうちのいずれか2つの画像に対して関連付け操作を行うことで、関連画像特徴を得る。
可能な一実施形態では、候補画像特徴、目標画像特徴及びラベリング対象画像特徴は全て同じな特徴抽出器で抽出されたものであるので、三者のサイズが同じである。関連付け操作を行う時に、コンピュータ機器は、候補画像特徴と目標画像特徴に対して、画素毎に(pixel-wise)類似度を計算して第1関連画像特徴を得、候補画像特徴とラベリング対象画像特徴に対して画素毎に類似度を計算して第2関連画像特徴を得、目標画像特徴とラベリング対象画像特徴に対して画素毎に類似度を計算して第3関連画像特徴を得る。
例示的に、図9と10に示すように、候補画像特徴f_p、目標画像特徴f_t及びラベリング対象画像特徴f_aに対して、コンピュータ機器は関連付け操作を行って、corr(f_p,f_a)、corr(f_p,f_t)、corr(f_t,f_a)を含む関連画像特徴を得る。
ステップ2で、関連画像特徴の各々を結合し、結合した後の関連画像特徴を第1選択ブランチに入力し、第1選択ブランチから出力される第1特徴ベクトルを得る。
更に、コンピュータ機器は関連付け操作によって得られた3つの関連画像特徴を結合し、結合した後の関連画像特徴を第1選択ブランチに入力し、第1選択ブランチは結合した後の関連画像特徴に対して更なる特徴抽出を行い、最終的に第1特徴ベクトルを出力する。
選択的に、第1選択ブランチは畳み込みニューラルネットワークに基づくものであり、即ち、第1選択ブランチは結合した後の関連画像特徴に対して畳み込み、プーリング及びアクティブ化の操作を行った後、第1特徴ベクトルを出力する。本願の実施例は第1選択ブランチの具体的な構造について限定しない。
例示的に、図9に示すように、コンピュータ機器は第1選択ブランチによって結合した後の関連画像特徴に対して特徴抽出を行って、第1特徴ベクトル93を得る。
ステップ3で、結合した後の候補画像特徴、目標画像特徴及びラベリング対象画像特徴を第2選択ブランチに入力して、第2選択ブランチから出力される第2特徴ベクトルを得る。
コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像を結合し、結合結果を第2選択ブランチに入力し、第2選択ブランチは更なる特徴抽出を行い、最終的に第2特徴ベクトルを出力する。
選択的に、第2選択ブランチは畳み込みニューラルネットワークに基づくものであり、即ち、第2選択ブランチは結合した後の画像特徴に対して畳み込み、プーリング及びアクティブ化の操作を行った後、第2特徴ベクトルを出力する。本願の実施例は第2選択ブランチの具体的な構造について限定しない。
例示的に、図9に示すように、コンピュータ機器は第2選択ブランチによって結合した後の画像特徴に対して特徴抽出を行って、第2特徴ベクトル94を得る。
ステップ4で、第1特徴ベクトルと第2特徴ベクトルに基づいて、画像特徴スコアを決定する。
可能な一実施形態では、コンピュータ機器は第1特徴ベクトルと第2特徴ベクトルを結合し、結合した後の特徴ベクトルを全結合層に入力して、候補画像特徴に対応する画像特徴スコアを得る。
例示的に、図9に示すように、コンピュータ機器は第1特徴ベクトル93と第2特徴ベクトル94を結合し、結合した後の特徴ベクトルを全結合層95に入力し、全結合層95は候補画像特徴f_pの画像特徴スコアを出力する。
なお、メモリプールにおける各候補画像特徴に対して、コンピュータ機器は上記ステップ1~4を繰り返して実行することで、目標画像特徴と各候補画像特徴との間の画像特徴スコアを得る。
ステップ705で、最高画像特徴スコアに対応するラベリング済みビデオフレームをガイドビデオフレームとして決定する。
各候補画像特徴に対して、コンピュータ機器は上記ステップによって各候補画像特徴に対応する画像特徴スコアを得、更にそのうちの最高画像特徴スコアを決定して、最高画像特徴スコアに対応する候補画像特徴の属するラベリング済みビデオフレームをガイドビデオフレームとして決定する。
例示的に、図9に示すように、コンピュータ機器は画像特徴スコアに基づいて、ビデオフレームx_kを目標ビデオフレームx_tのガイドビデオフレームとして決定する。
ステップ706で、目標ビデオフレームの目標画像特徴をメモリプールに記憶する。
可能な一実施形態では、目標ビデオフレームのガイドビデオフレームを決定した後、コンピュータ機器は目標ビデオフレームの目標画像特徴をメモリプールに記憶し、それによって、後続のビデオフレームに対する情報ラベリングの時に、この目標画像特徴を参照とすることができる。
ステップ707で、ガイドビデオフレーム、ガイドビデオフレームに対応するラベリング情報及び目標ビデオフレームをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される目標ラベリング情報を得る。
本願の実施例で、コンピュータ機器は予めトレーニングされたテンポラル伝播ネットワークを用いてガイドビデオフレームのラベリング情報を目標ビデオフレームに伝播して、目標ビデオフレームの情報ラベリングを遂行する。
可能な一実施形態では、テンポラル伝播ネットワークは、画像ブランチ(appearance branch)と運動量ブランチ(motion branch)と、を含み、画像ブランチは、目標ビデオフレーム及びガイドビデオフレームのラベリング情報を入力として、目標ビデオフレームにおける画素点の予測ラベリング情報を表すための画像情報特徴を出力するためのものであり、運動量ブランチは、ガイドビデオフレームのラベリング情報及びガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローを入力として、運動量特徴(ビデオフレームにおける物体の運動状況を示す)を出力するためのものである。選択的に、このステップは以下のようなステップを含んでもよい。
ステップ1で、ガイドビデオフレームに対応するラベリング情報及び目標ビデオフレームを画像ブランチに入力して、画像ブランチから出力される画像情報特徴を得る。
選択的に、本願の実施例における画像ブランチは予めトレーニングされたVGG16ネットワークを初期化とする。
可能な一実施形態では、コンピュータ機器はガイドビデオフレームx_gのラベリング情報y_g及び目標ビデオフレームx_tを画像ブランチに入力して、画像ブランチから出力される画像情報特徴f_appを得る。
例示的に、図9に示すように、目標ビデオフレームx_tのガイドビデオフレームがx_kであり、コンピュータ機器はガイドビデオフレームx_kのラベリング情報y_k及び目標ビデオフレームx_tを画像ブランチ96に入力して、画像ブランチ96の出力する画像情報特徴97を得る。
ステップ2で、ガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、ビデオフレームオプティカルフローとガイドビデオフレームに対応するラベリング情報を運動量ブランチに入力して、運動量ブランチから出力される運動量特徴を得る。
ここで、ビデオフレームオプティカルフローはビデオフレーム間の画像変化状況を示すためのものであり、ビデオフレーム内の運動している物体の運動情報を含むので、ビデオフレームオプティカルフローによってビデオフレーム内の対象の運動状況を決定可能である。
選択的に、このビデオフレームオプティカルフローはビデオフレーム間の密なオプティカルフローであり、即ち、ガイドビデオフレームと目標ビデオフレームにおける同じ座標画素点に対応する物体の運動状況を示すためのものである。
可能な一実施形態では、コンピュータ機器はガイドビデオフレームx_gと目標ビデオフレームx_tに基づいて、両者間のビデオフレームオプティカルフローW(x_t,x_g)を決定し、ビデオフレームオプティカルフローW(x_t,x_g)及びガイドビデオフレームx_gのラベリング情報y_gを運動量ブランチに入力する。
例示的に、図9に示すように、目標ビデオフレームx_tのガイドビデオフレームがx_kであり、コンピュータ機器はガイドビデオフレームx_kと目標ビデオフレームx_tに基づいて、両者間のビデオフレームオプティカルフローW(x_t,x_k)を決定し、且つビデオフレームオプティカルフローW(x_t,x_k)及びガイドビデオフレームx_kのラベリング情報y_kを運動量ブランチ98に入力して、運動量ブランチ98の出力する運動量特徴99を得る。
選択的に、ガイドビデオフレームと目標ビデオフレームとの間のビデオフレームオプティカルフローは、予めトレーニングされたflownet2.0によって算出され、また、運動量ブランチは予めトレーニングされたVGG16ネットワークを初期化とする。
なお、ステップ1と2には厳しい先後順序があるわけではなく、即ち、ステップ1と2を同時に実行してもよく、本実施例では限定されない。
ステップ3で、画像情報特徴と運動量特徴に基づいて、目標ラベリング情報を決定する。
可能な一実施形態では、コンピュータ機器は画像情報特徴と運動量特徴情報特徴を融合し、且つ畳み込み層によって融合後の特徴に対して畳み込み処理を行い、最終的に目標ビデオフレームの目標ラベリング情報を得る。
例示的に、図9に示すように、コンピュータ機器は画像情報特徴97と運動量特徴99を融合した後、畳み込み層(未図示)によって最終的に目標ビデオフレームx_tの目標ラベリング情報y_tを出力する。
本実施例で、コンピュータ機器は候補画像特徴、目標画像特徴及びラベリング対象画像特徴を選択ネットワークに入力し、それぞれ選択ネットワークの2つの選択ブランチによって特徴抽出を行い、それによって、画像特徴の特徴抽出次元を豊富にして、更にその後で算出される画像特徴スコアの正確性を向上させる。
また、本実施例で、コンピュータ機器はテンポラル伝播ネットワークの画像ブランチと運動量ブランチを用いてそれぞれ特徴抽出を行い、2つのブランチで抽出した特徴を融合し、最終的に目標ビデオフレームの目標ラベリング情報を得て、情報ラベリングの正確性の向上に寄与する。
例示的な一例において、図11に示すように、関連技術で提供された方法を用いて第35フレームにラベルを付けた時に、第34フレームをガイドフレームとし、ラベリング正確率が0.44であり、第55フレームにラベルを付けた時に、第54フレームをガイドフレームとし、ラベリング正確率が0.28であり、第125フレームにラベルを付けた時に、第124フレームをガイドフレームとし、ラベリング正確率が0.22であり、第155フレームにラベルを付けた時に、第154フレームをガイドフレームとし、ラベリング正確率が0.23であった。
しかし、本願の実施例で提供された方法を用いて第35フレームにラベルを付けた時に、第34フレームをガイドフレームとし、ラベリング正確率が0.58であり、第55フレームにラベルを付けた時に、第37フレームをガイドフレームとし、ラベリング正確率が0.80であり、第125フレームにラベルを付けた時に、第102フレームをガイドフレームとし、ラベリング正確率が0.92であり、第155フレームにラベルを付けた時に、第127フレームをガイドフレームとし、ラベリング正確率が0.86であった。
以上から分かるように、関連技術で提供された方法を採用した場合、情報伝播が継続的に深まっていくに伴い、情報ラベリングの正確率が次第に低くなり、それに対して、本願の実施例で提供された方法を採用した場合、チェーン式情報伝播ではないため、情報ラベリングの正確性が情報伝播深度に影響されることがなかった。また、関連技術と比べると、本願の実施例で提供された方法はラベリング情報の正確性を明らかに向上させることができる。
上記実施例におけるテンポラル伝播ネットワーク及びメモリ選択ネットワークのトレーニング方法に関して、可能な一実施形態では、図12に示すように、ネットワークのトレーニングプロセスは以下のようなステップを含む。
ステップ1201で、サンプルビデオによりテンポラル伝播ネットワークをトレーニングし、サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む。
可能な一実施形態では、コンピュータ機器は、まず、ラベリング情報を含むサンプルビデオを用いてテンポラル伝播ネットワークをトレーニングし、次に、サンプルビデオ及びトレーニングされたテンポラル伝播ネットワークに基づいて更にメモリ選択ネットワークをトレーニングする。
選択的に、コンピュータ機器は、サンプルビデオから2フレームをランダムに選択してガイドビデオフレームと目標ビデオフレームとしてテンポラル伝播ネットワークをトレーニングする。ここで、テンポラル伝播ネットワークがビデオ内の物体分割を実現することに用いられる時に、コンピュータ機器は交差オーバーユニオン(Intersection over Union:IOU)損失関数でテンポラル伝播ネットワークをトレーニングし、テンポラル伝播ネットワークがビデオカラー化を実現することに用いられる時に、コンピュータ機器はL1回帰損失関数でテンポラル伝播ネットワークをトレーニングする。
ステップ1202で、サンプルビデオ内の目標サンプルビデオフレーム及びサンプルビデオ内の他のサンプルビデオフレームをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得る。
テンポラル伝播ネットワークのトレーニングが完了した後、コンピュータ機器は更にトレーニングして得られたテンポラル伝播ネットワークを用いてトレーニングサンプルを生成して、トレーニングサンプルを用いてメモリ選択ネットワークをトレーニングする。
可能な一実施形態では、サンプルビデオ内の目標サンプルビデオフレームx_tに関して、コンピュータ機器は目標サンプルビデオフレームの前のビデオフレームをトラバースしてサンプルガイドビデオフレームx_p(0≦p≦t-1)とし、且つ目標サンプルビデオフレームx_tとサンプルガイドビデオフレームx_pをテンポラル伝播ネットワークに入力して、テンポラル伝播ネットワークから出力される予測サンプルラベリング情報y_tpを得る。
ステップ1203で、予測サンプルラベリング情報と目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、サンプルビデオフレーム内のサンプルガイドビデオフレームを決定する。
更に、コンピュータ機器は、予測サンプルラベリング情報と目標サンプルビデオフレームに対応するサンプルラベリング情報を比較することによって、サンプルガイドビデオフレームのガイド品質を確認し、更にサンプルガイドビデオフレームに対して正例負例サンプル分類を行う。可能な一実施形態では、このステップは以下のようなステップを含んでもよい。
ステップ1で、予測サンプルラベリング情報とサンプルラベリング情報との間の情報正確度を計算する。
可能な一実施形態では、コンピュータ機器は予測サンプルラベリング情報とサンプルラベリング情報との間の情報正確度を計算し、ここで、情報正確度が高いほど、予測サンプルラベリング情報がサンプルラベリング情報に近いことを示し、対応的に、この予測サンプルラベリング情報に対応するサンプルガイドビデオフレームの品質が高くなる。
例示的な一例において、コンピュータ機器は、予測サンプルラベリング情報y_tpと目標サンプルビデオフレームx_tのラベリング情報y_tにより、両者の情報正確度s_tpを算出する。
ステップ2で、情報正確度に基づいて、サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定する。
ここで、正例のサンプルガイドビデオフレームに対応する第1情報正確度が負例のサンプルガイドビデオフレームに対応する第2情報正確度より高く、第1情報正確度は正例のサンプルガイドビデオフレームに基づいて、目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、第2情報正確度は負例のサンプルガイドビデオフレームに基づいて、目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である。
可能な一実施形態では、情報正確度が第1正確度閾値より大きい場合、コンピュータ機器は、サンプルガイドビデオフレームを正例のサンプルガイドビデオフレームとして決定し(即ち、ガイドビデオフレームとすることに適合する)、情報正確度が第2正確度閾値より小さい場合に、コンピュータ機器は、サンプルガイドビデオフレームを負例のサンプルガイドビデオフレームとして決定する(即ち、ガイドビデオフレームとすることに適合しない)。ここで、第1正確度閾値が第2正確度閾値以上であり、例えば、第1正確度閾値が0.8で、第2正確度閾値が0.4である。
ステップ1204で、目標サンプルビデオフレームとサンプルガイドビデオフレームに基づいて、メモリ選択ネットワークをトレーニングする。
可能な一実施形態では、コンピュータ機器は、目標サンプルビデオフレームとサンプルガイドビデオフレームをメモリ選択ネットワークに入力して、メモリ選択ネットワークから出力される予測結果を得、また、予測結果及びサンプルガイドビデオフレームの正負例の属性に基づいて、メモリ選択ネットワークをトレーニングする。ここで、コンピュータ機器は逆伝播アルゴリズム又は勾配降下アルゴリズムでメモリ選択ネットワークをトレーニングすることができ、本願の実施例はそれについて限定しない。
本実施例で、コンピュータ機器は、まず、サンプルビデオによりテンポラル伝播ネットワークをトレーニングし、次に、トレーニングして得られたテンポラル伝播ネットワークに基づいて、サンプルビデオ内のサンプルビデオフレームに対して正例、負例サンプルの区別を行い、更に区別された正例、負例サンプルによって、メモリ選択ネットワークをトレーニングし、ユーザがトレーニングサンプルの正負例の属性を予め手動でラベリングすることを要せず、トレーニングサンプルの取得難度を低下させると共に、トレーニングサンプルを区別する正確性の向上に寄与し、更にメモリ選択ネットワークのガイドフレーム選択品質を向上させる。
図13は本願の例示的な一実施例で提供されたビデオフレームの情報ラベリング装置の構造のブロック図であり、図13に示すように、この装置は、
処理対象ビデオを取得するように構成される取得モジュール1301と、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュール1302と、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュール1303と、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュール1304と、を含む。
前記ガイドフレーム決定モジュール1303は、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第1取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第1取得ユニットと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
前記装置は、更に、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを含む。
選択的に、前記ガイドフレーム決定モジュール1303は、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第2取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、また、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第2取得ユニットを更に含み、
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように構成される。
選択的に、前記選択ネットワークは第1選択ブランチと第2選択ブランチを含み、
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものであるステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように構成される。
選択的に、前記第1取得ユニットは、
前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するnフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するように構成され、nは正整数である。
選択的に、前記生成モジュール1304は、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される。
選択的に、前記テンポラル伝播ネットワークは画像ブランチと運動量ブランチを含み、
前記生成モジュール1304は、
前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るように構成される第1出力ユニットと、
前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るように構成される第2出力ユニットステップと、
前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するように構成される決定ユニットと、を含む。
選択的に、前記装置は、
サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするように構成される第1トレーニングモジュールであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、第1トレーニングモジュールと、
前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るように構成されるラベリング情報予測モジュールと、
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するように構成されるサンプル決定モジュールと、
前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするように構成される第2トレーニングモジュールと、を更に含む。
選択的に、前記サンプル決定モジュールは、
前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するように構成される計算ユニットと、
前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するように構成される決定ユニットと、を含み、
前記正例のサンプルガイドビデオフレームに対応する第1情報正確度が前記負例のサンプルガイドビデオフレームに対応する第2情報正確度より高く、前記第1情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第2情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である。
上記に記載される通りに、本願の実施例で、処理対象ビデオ内の目標ビデオフレームに対して情報ラベリングを行う時に、目標ビデオフレームに対して特徴抽出を行って目標ビデオフレームの目標画像特徴を得、目標ビデオフレームと処理対象ビデオ内のラベリング済みビデオフレームとの画像特徴一致度に基づいて、ラベリング済みビデオフレームから目標ビデオフレームに対応するガイドビデオフレームを決定することによって、ガイドビデオフレームのラベリング情報に基づいて目標ビデオフレームの目標ラベリング情報を生成し、本願の実施例で、直接的に隣接ビデオフレームを選択してガイドビデオフレームとすることではなく、目標ビデオフレームの画像特徴に基づいて、目標ビデオフレームに対して高い画像特徴一致度を有するラベリング済みビデオフレームを選択してガイドビデオフレームとすることで、ガイドビデオフレームの選択品質を向上させ、更に生成するラベリング情報の正確性を向上させると共に、ラベリング情報の伝播誤差が積み重なることがなく、更にラベリング情報の伝播品質を向上させる。
上記実施例で提供されたビデオフレームの情報ラベリング装置について、上記各機能モジュールの分割のみを例にして説明したが、実用において、必要に応じて上記機能を異なる機能モジュールに割り当てて完了してもよく、即ち、装置の内部構造を異なる機能モジュールに分割し、それによって上述した機能の全て又は一部を完了するようにしてもよいことは説明する必要がある。また、上記実施例で提供されたビデオフレームの情報ラベリング装置は、ビデオフレームの情報ラベル生成方法の実施例と同じ構想に基づくものであり、その具体的な実現過程の詳細については方法実施例を参照してもよく、ここでは詳細な説明を省略する。
本願の例示的な一実施例で提供されたコンピュータ機器の構造の模式図を示す図14を参照されたい。具体的に言えば、前記コンピュータ機器1400は、中央処理装置(CPU)1401と、ランダムアクセスメモリ(RAM)1402及び読み出し専用メモ(ROM)1403を含むシステムメモリ1404と、システムメモリ1404と中央処理装置1401を接続するシステムバス1405とを含む。前記コンピュータ機器1400は、更に、コンピュータ内の各素子間の情報伝達を助ける基本入力/出力システム(I/Oシステム)1406と、オペレーティングシステム1413、アプリケーション1414及び他のプログラムモジュール1415を記憶するための大容量記憶装置1407とを含む。
前記基本入力/出力システム1406は、情報を表示するためのディスプレイ1408と、ユーザが情報を入力するためのマウス、キーボードのような入力装置1409とを含む。そのうち、前記ディスプレイ1408と入力装置1409は共にシステムバス1405に接続される入力出力制御器1410によって中央処理装置1401に接続される。前記基本入力/出力システム1406は、更に、キーボード、マウス又は電子タッチペン等の複数の他のデバイスからの入力を受け付け、処理するための入力出力制御器1410を含んでもよい。類似的に、入力出力制御器1410は更にディスプレイスクリーン、プリンター又は他の種類の出力装置に出力を提供する。
前記大容量記憶装置1407はシステムバス1405に接続される大容量記憶制御器(未図示)によって中央処理装置1401に接続される。前記大容量記憶装置1407及びそれに関連するコンピュータ読取可能媒体はコンピュータ機器1400に不揮発性記憶を提供する。つまり、前記大容量記憶装置1407は、例えば、ハードディスク又はCD-ROIドライブのようなコンピュータ読取可能媒体(未図示)を含んでもよい。
一般性を失うことなく、前記コンピュータ読取可能媒体は、コンピュータ記憶媒体と通信媒体を含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ読取可能コマンド、データ構造、プログラムモジュール又は他のデータ等の情報を記憶するためのいかなる方法又は技術で実現される揮発性、不揮発性、取り外し可能、取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリ又は他の固体メモリ技術、CD-ROM、DVD又は他の光学記憶、カセット、磁気テープ、磁気ディスク記憶又は他の磁性記憶装置を含む。勿論、前記コンピュータ記憶媒体が上述したそれらのものに限定されないことは当業者であれば理解可能である。上記のシステムメモリ1404と大容量記憶装置1407はメモリと総称してもよい。
メモリには、1つ又は複数の中央処理装置1401で実行されるように構成され、上記方法を実現するためのコマンドを含む1つ又は複数のプログラムが記憶されており、中央処理装置1401はこの1つ又は複数のプログラムを実行して上記の各方法実施例で提供された方法を実現する。
本願の各種の実施例によれば、前記コンピュータ機器1400は、更に、例えばインターネット等のネットワークによってネットワーク上のリモートコンピュータに接続されて運行可能である。つまり、コンピュータ機器1400は、前記システムバス1405に接続されるネットワークインタフェースユニット1411によってネットワーク1412に接続可能であり、言い換えると、ネットワークインタフェースユニット1411によって他の種類のネットワーク又はリモートコンピュータシステム(未図示)に接続可能である。
前記メモリは更に1つ以上のプログラムを含み、前記1つ以上のプログラムはメモリに記憶され、本願の実施例で提供された方法におけるコンピュータ機器によって実行されるステップを実行するために用いられる。
本願の実施例は、少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は命令セットがプロセッサによってロード、実行されて上記のいずれか1つの実施例に記載のビデオフレームの情報ラベリング方法を実現するコンピュータ読取可能記憶媒体を更に提供する。
本願は、コンピュータ読取可能記憶媒体に記憶されるコンピュータコマンドを含むコンピュータプログラム製品又はコンピュータプログラムを更に提供する。コンピュータ機器のプロセッサがコンピュータ読取可能記憶媒体からこのコンピュータコマンドを読み取り、このコンピュータコマンドを実行することで、このコンピュータ機器は上記実施例で提供されたビデオフレームの情報ラベリング方法を実行する。
上記実施例の各種方法におけるステップの全部又は一部が、プログラムによって関連ハードウェアにコマンドを出すことで遂行可能であることは当業者であれば理解可能であり、このプログラムはコンピュータ読取可能記憶媒体に記憶可能であり、このコンピュータ読取可能記憶媒体は上記実施例におけるメモリに含まれるものであってもよいし、端末に記憶されず、単独して存在してもよい。このコンピュータ読取可能記憶媒体には少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は命令セットが前記プロセッサによってロード、実行されて上記のいずれか1つの方法実施例に記載のビデオフレームの情報ラベリング方法を実現する。
選択可能に、このコンピュータ読取可能記憶媒体は、読み出し専用メモ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、ソリッドステートドライブ(SSD:Solid State Drives)又は光ディスク等を含んでもよい。そのうち、ランダムアクセスメモリは、抵抗変化型ランダムアクセスメモリ(ReRAM:Resistance Random Access Memory)及びダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)を含んでもよい。上記の本願の実施例の番号は説明を容易にするためのものに過ぎず、実施例の優劣を表すものではない。
上記実施例のステップの全部又は一部を実現するには、ハードウェアによって遂行してもよいし、プログラムによって関連ハードウェアにコマンドを出して遂行してもよいことは当業者であれば理解可能であり、前記のプログラムはコンピュータ読取可能記憶媒体に記憶可能であり、上述した記憶媒体は読み出し専用メモ、磁気ディスク又は光ディスク等であってもよい。
以上は本願の好ましい実施例に過ぎず、本願を限定するものではなく、本願の主旨と原則から逸脱しない限り行った修正、同等な置換、改良等は、全て本願の保護範囲に含まれるものとする。
510 端末
520 サーバ
521 メモリ選択ネットワーク
522 テンポラル伝播ネットワーク
1301 取得モジュール
1302 特徴抽出モジュール
1303 ガイドフレーム決定モジュール
1304 生成モジュール
1400 コンピュータ機器
1401 中央処理装置(CPU)
1402 ランダムアクセスメモリ(RAM)
1403 読み出し専用メモリ(ROM)
1404 システムメモリ
1405 システムバス
1406 入力/出力システム(I/Oシステム)
1407 大容量記憶装置
1408 ディスプレイ
1409 入力装置
1410 入力/出力制御器
1411 ネットワークインタフェースユニット
1412 ネットワーク
1413 オペレーティングシステム
1414 アプリケーション
1415 他のプログラムモジュール

Claims (16)

  1. コンピュータ機器が実行する、ビデオフレームの情報ラベリング方法であって、
    処理対象ビデオを取得するステップと、
    前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
    前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
    前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含む
    ことを特徴とする方法。
  2. 前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップは、
    メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、ステップと、
    前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、ステップと、
    最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するステップと、を含み、
    前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定した後、
    前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するステップを更に含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得る前に、
    初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するステップであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、ステップを更に含み、
    前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップは、
    前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップを含む
    ことを特徴とする請求項2に記載の方法。
  4. 前記選択ネットワークは第1選択ブランチと第2選択ブランチを含み、
    前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップは、
    前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
    前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
    結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
    前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を含む
    ことを特徴とする請求項3に記載の方法。
  5. 前記メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップは、
    前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するnフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するステップを含み、nは正整数である
    ことを特徴とする請求項2から4のいずれか一項に記載の方法。
  6. 前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップは、
    前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップを含む
    ことを特徴とする請求項2から4のいずれか一項に記載の方法。
  7. 前記テンポラル伝播ネットワークは画像ブランチと運動量ブランチを含み、
    前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップは、
    前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るステップと、
    前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るステップと、
    前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するステップと、を含む
    ことを特徴とする請求項6に記載の方法。
  8. 前記処理対象ビデオを取得する前に、
    サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするステップであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、ステップと、
    前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るステップと、
    前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップと、
    前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするステップと、を更に含む
    ことを特徴とする請求項6に記載の方法。
  9. 前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップは、
    前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するステップと、
    前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するステップと、を含み、
    前記正例のサンプルガイドビデオフレームに対応する第1情報正確度が前記負例のサンプルガイドビデオフレームに対応する第2情報正確度より高く、前記第1情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第2情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である
    ことを特徴とする請求項8に記載の方法。
  10. ビデオフレームの情報ラベリング装置であって、
    処理対象ビデオを取得するように構成される取得モジュールと、
    前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
    前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
    前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含む
    ことを特徴とする装置。
  11. 前記ガイドフレーム決定モジュールは、
    メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第1取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第1取得ユニットと、
    前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
    最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
    前記ビデオフレームの情報ラベリング装置は、
    前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを更に含む
    ことを特徴とする請求項10に記載の装置。
  12. 前記ガイドフレーム決定モジュールは、
    初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第2取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第2取得ユニットを更に含み、
    前記特徴スコアリングユニットは、
    前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように更に構成される
    ことを特徴とする請求項11に記載の装置。
  13. 前記選択ネットワークは、第1選択ブランチと第2選択ブランチを含み、
    前記特徴スコアリングユニットは、
    前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
    前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
    結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
    前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように更に構成される
    ことを特徴とする請求項12に記載の装置。
  14. 前記生成モジュールは、
    前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される
    ことを特徴とする請求項11から13のいずれか一項に記載の装置。
  15. プロセッサとメモリを含み、前記メモリに少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットが前記プロセッサによってロード、実行されて請求項1から9のいずれか一項に記載の方法を実現することを特徴とするコンピュータ機器。
  16. 少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットが、プロセッサによってロード、実行されて請求項1から9のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読取可能記憶媒体。
JP2021556971A 2019-08-29 2020-08-03 ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム Active JP7147078B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910807774.8 2019-08-29
CN201910807774.8A CN110503074B (zh) 2019-08-29 2019-08-29 视频帧的信息标注方法、装置、设备及存储介质
PCT/CN2020/106575 WO2021036699A1 (zh) 2019-08-29 2020-08-03 视频帧的信息标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022526513A true JP2022526513A (ja) 2022-05-25
JP7147078B2 JP7147078B2 (ja) 2022-10-04

Family

ID=68590435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021556971A Active JP7147078B2 (ja) 2019-08-29 2020-08-03 ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11727688B2 (ja)
EP (1) EP4009231A4 (ja)
JP (1) JP7147078B2 (ja)
CN (1) CN110503074B (ja)
WO (1) WO2021036699A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503074B (zh) * 2019-08-29 2022-04-15 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质
CN113271424A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 一种音视频通讯方法、装置和系统
CN112233171A (zh) * 2020-09-03 2021-01-15 上海眼控科技股份有限公司 目标标注质量检验方法、装置、计算机设备和存储介质
US20220180633A1 (en) * 2020-12-04 2022-06-09 Samsung Electronics Co., Ltd. Video object detection and tracking method and apparatus
CN112950667B (zh) * 2021-02-10 2023-12-22 中国科学院深圳先进技术研究院 一种视频标注方法、装置、设备及计算机可读存储介质
CN115134656A (zh) * 2021-03-26 2022-09-30 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及介质
CN113343857B (zh) * 2021-06-09 2023-04-18 浙江大华技术股份有限公司 标注方法、装置、存储介质及电子装置
CN113506610A (zh) * 2021-07-08 2021-10-15 联仁健康医疗大数据科技股份有限公司 标注规范生成方法、装置、电子设备及存储介质
CN113672143A (zh) * 2021-08-27 2021-11-19 广州市网星信息技术有限公司 图像标注方法、系统、设备和存储介质
US20230138254A1 (en) * 2021-10-29 2023-05-04 International Business Machines Corporation Temporal contrastive learning for semi-supervised video action recognition
CN114419502A (zh) * 2022-01-12 2022-04-29 深圳力维智联技术有限公司 一种数据分析方法、装置及存储介质
CN114697702B (zh) * 2022-03-23 2024-01-30 咪咕文化科技有限公司 音视频标记方法、装置、设备及存储介质
CN114863321B (zh) * 2022-04-08 2024-03-08 北京凯利时科技有限公司 自动视频生成方法、装置及电子设备和芯片系统
CN115294506B (zh) * 2022-10-09 2022-12-09 深圳比特微电子科技有限公司 一种视频高光检测方法和装置
CN115757871A (zh) * 2022-11-15 2023-03-07 北京字跳网络技术有限公司 视频标注方法、装置、设备、介质及产品
CN117437635B (zh) * 2023-12-21 2024-04-05 杭州海康慧影科技有限公司 一种生物组织类图像的预标注方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009539273A (ja) * 2006-02-03 2009-11-12 イーストマン コダック カンパニー ビデオクリップからのキーフレーム候補の抽出
US20180137892A1 (en) * 2016-11-16 2018-05-17 Adobe Systems Incorporated Robust tracking of objects in videos

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324937B (zh) * 2012-03-21 2016-08-03 日电(中国)有限公司 标注目标的方法和装置
CN103914850B (zh) * 2014-04-22 2017-02-15 南京影迹网络科技有限公司 一种基于运动匹配的视频自动标注方法及自动标注系统
US9390315B1 (en) * 2015-06-25 2016-07-12 A9.Com, Inc. Image match for featureless objects
CN107886104A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注方法
CN108965687B (zh) 2017-05-22 2021-01-29 阿里巴巴集团控股有限公司 拍摄方向识别方法、服务器及监控方法、系统及摄像设备
CN108012202B (zh) * 2017-12-15 2020-02-14 浙江大华技术股份有限公司 视频浓缩方法、设备、计算机可读存储介质及计算机装置
CN108965852A (zh) * 2018-08-14 2018-12-07 宁波工程学院 一种具有容错能力的半自动2d转3d的方法
CN109325967B (zh) * 2018-09-14 2023-04-07 腾讯科技(深圳)有限公司 目标跟踪方法、装置、介质以及设备
CN109753975B (zh) * 2019-02-02 2021-03-09 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质
CN110163095B (zh) * 2019-04-16 2022-11-29 中国科学院深圳先进技术研究院 回环检测方法、回环检测装置及终端设备
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN110503074B (zh) * 2019-08-29 2022-04-15 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009539273A (ja) * 2006-02-03 2009-11-12 イーストマン コダック カンパニー ビデオクリップからのキーフレーム候補の抽出
US20180137892A1 (en) * 2016-11-16 2018-05-17 Adobe Systems Incorporated Robust tracking of objects in videos

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荻野 正 ほか: "機械学習を用いた動画の異常検出システムの検討", 電子情報通信学会技術研究報告, vol. 115, no. 353, JPN6022038371, 28 November 2015 (2015-11-28), JP, pages 5 - 10, ISSN: 0004871453 *

Also Published As

Publication number Publication date
EP4009231A4 (en) 2022-11-23
EP4009231A1 (en) 2022-06-08
US20210406553A1 (en) 2021-12-30
WO2021036699A1 (zh) 2021-03-04
US11727688B2 (en) 2023-08-15
CN110503074A (zh) 2019-11-26
JP7147078B2 (ja) 2022-10-04
CN110503074B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
JP2022526513A (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
JP7335274B2 (ja) ジオロケーションの予測のためのシステムおよび方法
US20210326597A1 (en) Video processing method and apparatus, and electronic device and storage medium
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
JP7273129B2 (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111754541A (zh) 目标跟踪方法、装置、设备及可读存储介质
CN113377888B (zh) 训练目标检测模型和检测目标的方法
CN111104930B (zh) 视频处理方法、装置、电子设备及存储介质
CN111259779A (zh) 一种基于中心点轨迹预测的视频动作检测方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
JP2023536025A (ja) 路車協調における目標検出方法、装置及び路側機器
CN112734931B (zh) 一种辅助点云目标检测的方法及系统
CN110705566A (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN117425916A (zh) 遮挡感知的多对象跟踪
CN114742112A (zh) 一种对象关联方法、装置及电子设备
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
JP2018120402A (ja) イベント検出装置、イベント検出方法、プログラム
CN116052108A (zh) 基于Transformer的交通场景小样本目标检测方法及装置
CN114067371B (zh) 一种跨模态行人轨迹生成式预测框架、方法和装置
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN115527083A (zh) 图像标注方法、装置和电子设备
Zhou et al. A lightweight neural network for loop closure detection in indoor visual slam
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
Ge et al. A visual tracking algorithm combining parallel network and dual attention-aware mechanism

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220921

R150 Certificate of patent or registration of utility model

Ref document number: 7147078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150