JP2023535662A - ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム - Google Patents

ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2023535662A
JP2023535662A JP2022553168A JP2022553168A JP2023535662A JP 2023535662 A JP2023535662 A JP 2023535662A JP 2022553168 A JP2022553168 A JP 2022553168A JP 2022553168 A JP2022553168 A JP 2022553168A JP 2023535662 A JP2023535662 A JP 2023535662A
Authority
JP
Japan
Prior art keywords
sample
video frame
inpainted
category
frame sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022553168A
Other languages
English (en)
Inventor
シン リー
ファ ジェン
ファンロン リュウ
ドンリャン ファ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110717424.XA external-priority patent/CN113436100B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023535662A publication Critical patent/JP2023535662A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本開示は、ビデオを修復するための方法、装置、装置、媒体、及び製品を提供しており、人工知能の分野に関し、特に、画像修復のシーンに有用なコンピュータビジョン及び深層学習技術に関する。具体的な実施態様は、修復対象のビデオフレームシーケンスを取得し、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定し、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定し、修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得ることである。本実施態様によれば、ビデオ修復の効率を向上させることができる。【選択図】図2

Description

<関連出願の相互参照>
本出願は、2021年06月28日に提出された、出願番号が202110717424.Xで、発明の名称が「ビデオを修復するための方法、装置、機器、媒体および製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本出願に組み込む。
本開示は、人工知能技術の分野に関し、特に、画像修復シーンに適用されるコンピュータビジョン及びディープラーニング技術に関する。
現在、古い映画は、通常、フィルムを用いて撮影、アーカイブされているため、古い映画の保存環境には、厳しい条件が要求される。
しかしながら、現実の保存環境は、理想的な保存条件を達成することが困難であるため、古い映画には擦傷、汚れ、ノイズなどの問題が発生してしまう恐れがある。古い映画がよい画質で再生できるように、これらの問題を修復することが必要である。従来では、修復は、熟練技術者がフレーム毎に、又はエリア毎について、問題となるエリアに対して手動でアノテーションをして、これら問題となるエリアに対して修復処理を実行することで行われる。しかし、手動で修復するのは効率が悪いという問題がある。
本開示は、ビデオを修復するための方法、装置、機器、媒体、および製品を提供する。
本開示の第1の態様において、ビデオを修復するための方法であって、修復対象ビデオフレームのシーケンスを取得するステップと、前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップと、前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するステップと、前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップと、を含む方法を提供する。
本開示の他の態様において、ビデオを修復するための装置であって、修復対象ビデオフレームのシーケンスを取得するように構成されるビデオ取得ユニットと、前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成されるカテゴリ決定ユニットと、前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される画素決定ユニットと、前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成されるビデオ修復ユニットと、を備える装置を提供する。
本開示の他の態様において、電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続され、前記少なくとも1つのプロセッサによって実行可能な指令を格納したメモリと、を備え、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサは、上記のいずれかの態様に記載のビデオを修復するための方法を実行する電子機器を提供する。
本開示の他の態様において、上記のいずれかの態様に記載のビデオを修復するための方法をコンピュータに実行させるためのコンピュータ指令を格納した非一時的なコンピュータ可読記憶媒体を提供する
本開示の他の態様において、プロセッサによって実行されると、上記のいずれかの態様に記載のビデオを修復するための方法を実行させるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の技術によれば、ビデオの修復効率を向上させることができるビデオの修復方法を提供することができる。
なお、このセクションの記載は、本開示の実施形態の重要な特徴または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することを意図していないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解される。
図面は、本開示を限定するためのものではなく、本発明がより良く理解できるために用いられる。
本開示の一実施形態が適用可能な例示的なシステムアーキテクチャ図である。 本開示に係るビデオを修復するための方法の一実施形態のフローチャートである。 本開示に係るビデオを修復するための方法の適用シーンの概略図である。 本開示に係るビデオを修復するための方法の別の実施形態のフローチャートである。 本開示に係るビデオを修復するための装置の一実施形態の構造概略図である。 本発明の一実施形態に係るビデオを修復するための方法が実施された電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施形態を説明し、ここで、理解を助けるために、本開示の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、矛盾しない限り、本出願における実施形態および実施形態における特徴を互いに組み合わせることができる。以下、図面を参照しながら、実施形態に基づいて、本開示を詳細に説明する。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104、およびサーバ105を備えてもよい。ネットワーク104は、端末機器101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、端末機器101、102、103を使用して、ネットワーク104を介してサーバ105とやり取りして、メッセージなどを受送信することができる。端末機器101、102、103は、ビデオ修復用のソフトウェアがインストールされた携帯電話、コンピュータ及びタブレットなどの電子機器であってもよく、ユーザから、例えば、古い映画のような修復対象となるビデオがビデオ修復用のソフトウェアに入力されると、ソフトウェアから、例えば、修復後の古い映画のような、修復後のビデオが出力されるようにしてもよい。
端末機器101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器101、102、103がハードウェアである場合、テレビ、スマートフォン、タブレット、電子ブックリーダ、車載コンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない様々な電子機器とされてもよい。端末機器101、102、103がソフトウェアである場合、上述した電子機器にインストールされてもよい。端末機器は、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される)として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは特に限定しない。
サーバ105は、様々なサービスを提供するサーバであってもよい。例えば、端末機器101、102、103がユーザから入力された修復対象のビデオフレームシーケンスを取得した後、サーバ105は、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、修復対象のビデオフレームシーケンスの各画素に対応する目標カテゴリを取得する。そして、目標カテゴリが「修復すべき」である画素を、修復すべき画素として決定する。修復すべき画素の対応する修復すべき領域に基づいて修復処理を実行することにより、目標ビデオフレームシーケンス、即ち、修復後のビデオを得ることができる。当該目標ビデオフレームシーケンスを端末機器101、102、103に送信する。
なお、サーバ105は、ハードウェアであってもよく、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散型サーバカテゴリタとして実施されてもよく、単一のサーバとして実施されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される)として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは特に限定しない。
なお、本発明の実施形態に係るビデオを修復するための方法は、端末機器101、102、103により実行されてもよいし、サーバ105により実行されてもよい。それに応じて、ビデオを修復するための装置は、端末機器101、102、103に設けられてもよく、サーバ105に設けられてもよい。
なお、図1における端末機器、ネットワーク、サーバの数はただ例示に過ぎない。実施時の需要に応じて、端末機器、ネットワーク、サーバを任意の数設けてもよい。
続いて、本開示に係るビデオを修復するための方法の一実施形態のフロー200が示されている図2を参照する。本実施態様のビデオ修復方法は、下記のステップ201~204を含む。
ステップ201において、修復対象のビデオフレームシーケンスを取得する。
本実施態様において、実行主体(図1のサーバ105、または、端末機器101、102、103)は、ローカルに保存されたデータから修復対象のビデオフレームシーケンスを取得してもよいし、接続を確立した他の電子機器から修復対象のビデオフレームシーケンスを取得してもよいし、ネットワークから修復対象のビデオフレームシーケンスを取得してもよい。ここで、修復対象のビデオフレームシーケンスとは、修復対象となるビデオに含まれる各ビデオフレームからなるシーケンスである。選択的に、実行主体が修復対象のビデオフレームシーケンスを取得する際に、まず、修復対象となる対象ビデオに含まれる各ビデオフレームを一応選別して、修復する必要がある可能性のあるビデオフレームを決定して、上述の修復対象のビデオフレームシーケンスを構成するようにしてもよい。例えば、対象ビデオに含まれる各ビデオフレームに対して画像認識を行い、あるビデオフレームに修復すべき対象が存在すると判定したことに応答して、当該ビデオフレームを候補ビデオフレームとして決定し、各候補ビデオフレームに基づいて、修復対象のビデオフレームシーケンスを生成する。ここで、画像認識は、画像中の擦傷やノイズが等の修復すべき対象を認識することを目的とする技術であり、従来の画像認識技術が使用されてもよい。
ステップ202において、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定する。
本実施態様において、予め設定されたカテゴリ検出モデルは、修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの内の画素が、それぞれ、修復すべき画素であるか否かを検出するために用いられる。ここで、修復すべき画素は、ビデオフレームにおいて、修復すべき対象の位置する画素であり、修復すべき対象として、擦傷、スペックルノイズ、ノイズポイントなどが挙げられるが、これらに限定されない。予め設定されたカテゴリ検出モデルは、画素が修復すべき画素であるか否かを検出するために、画素が修復すべき画素であることの確率、修復すべき画素ではないことの確率、正常画素であることの確率、正常画素ではないことの確率などを出力データとしてもよく、本実施態様では、これは限定されるものではない。出力データの形式は、カテゴリ検出モデルの訓練の段階において設定することにより調整可能である。実行主体は、予め設定されたカテゴリ検出モデルから修復対象のビデオフレームシーケンスに基づいて出力された出力データを取得した後、出力データを分析して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するようにしてもよい。ここで、目標カテゴリは、例えば「修復すべき」という修復する必要のあるカテゴリを含んでもよく、例えば「正常」という修復する必要のないカテゴリも含んでもよい。選択的に、目標カテゴリは、出力データに基づいて正確に判別するのが困難なカテゴリである保留カテゴリを含んでもよい。修復すべき領域の決定精度を向上させるように、作業者が係る画素を手動で決定するために、このような保留カテゴリについて、アノテーションしてから係る画素を出力するようにしてもよい。
本実施態様の幾つかの選択可能な実現態様において、目標カテゴリは、「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルによって出力された修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ることであって、確率値画像は、各修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示すために用いられることと、確率値画像と予め設定された確率閾値とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定することとを含む。
本実施態様において、「修復すべき」カテゴリとは、修復する必要があるカテゴリであり、「正常」カテゴリとは、修復する必要のないカテゴリである。実行主体は、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定し、具体的に、まず、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルから出力された確率値画像を得るようにしてもよい。それぞれの修復対象ビデオフレームには、当該修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示す確率値画像が関連付けられるようにしてもよい。実行主体は、予め設定された確率閾値を設けておき、各画素が「修復すべき」カテゴリに属する確率と、予め設定された確率閾値とを比較した結果に基づいて、各画素が「修復すべき」カテゴリであるか、或いは、「正常」カテゴリであるかを判定するようにしてもよい。例えば、各画素が「修復すべき」カテゴリに属する確率について、当該確率が予め設定された確率閾値よりも大きいとの判定に応答して画素が「修復すべき」カテゴリであると判定し、当該確率が予め設定された確率閾値以下であるとの判定に応答して画素が「正常」カテゴリであると判定する。
ステップ203において、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定する。
本実施態様において、実行主体は、各画素のうち、目標カテゴリが「修復すべき」カテゴリの画素を、修復すべき画素として決定してもよい。また、実行主体は、画素全体から、目標カテゴリが正常カテゴリの画素を除去し、残りの画素を修復すべき画素として決定するようにしてもよい。
ステップ204において、修復すべき画素の対応する修復すべき領域において、修復処理を実行して、目標ビデオフレームシーケンスを得る。
本実施態様において、実行主体は、各修復すべき画素に基づいて、修復すべき画素からなる修復すべき領域を決定するようにしてもい。修復すべき領域に基づいて修復処理を実行することにより、目標ビデオフレームシーケンスを得ることができる。ここで、修復処理は、既存の修復技術が使用されてもよい。例えば、各種の既存のビデオ修復用ソフトウェアにより、これらの修復すべき領域に修復処理を実行して、目標ビデオフレームシーケンスを得るようにしてもよい。
続いて、本開示に係るビデオを修復するための方法の適用シーンの概略図が示されている図3を参照する。図3の適用シーンにおいて、実行主体は、修復対象の古い映画301を取得し、修復対象の古い映画301をカテゴリ検出モデル302に入力し、カテゴリ検出モデル302から出力された古い映画301における各ビデオフレームの内の各画素が擦傷の対応する画素であることの確率情報を得、当該確率情報に基づいて、各画素の画素カテゴリ303を決定することができる。画素カテゴリ303は、擦傷の対応するカテゴリ及び擦傷なしの対応するカテゴリを有する。実行主体は、画素カテゴリ303が擦傷の対応するカテゴリの画素を、擦傷領域304に形成する。そして、擦傷領域304を指定された修復用ソフトウェアに入力することで修復して、修復後の古い映画305を得る。
本開示の上記実施形態により提供されるビデオを修復するための方法によれば、カテゴリ検出モデルにより、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを自動的に決定し、目標カテゴリに基づいて、修復する必要のある修復すべき画素を決定し、修復すべき画素の対応する修復すべき領域に対して修復処理を実行することができ、ビデオの自動化された修復を実現し、ビデオの修復効率を向上させることができる。
続いて、本開示に係るビデオを修復するための方法の他の実施形態のフロー400が示されている図4を参照する。図4に示すように、本実施態様のビデオを修復する方法は、下記のステップ401~407を含んでもよい。
ステップ401において、修復対象のビデオフレームシーケンスを取得する。
本実施態様において、ステップ401の詳細な説明について、ステップ201の関連する説明を参照することができ、ここでその説明を省略する。
ステップ402において、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定する。
本実施態様では、実行主体は、修復対象のビデオフレームシーケンスのフレーム間特徴情報及びフレーム内特徴情報をカテゴリ検出モデルが抽出するように、予め設定されたカテゴリ検出モデルに、修復対象のビデオフレームシーケンスを入力するようにしてもよい。ここで、フレーム間特徴情報とは、それぞれの隣接するビデオフレーム間の関連する画像特徴であり、フレーム内特徴情報とは、各ビデオフレームの画像特徴である。選択的な実施形態において、カテゴリ検出モデルは、時間畳み込みネットワーク(Temporal convolutional network, TCN)モジュールを含んでもよい。修復対象のビデオフレームシーケンスがカテゴリ検出モデルに入力された後、まず、時間畳み込みネットワークモジュールを通過するようにすることにより、ビデオフレーム間の時間的特徴を決定し、即ち、フレーム間特徴情報を決定するようにしてもよい。その後、修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの画像特徴に基づいて、フレーム内特徴情報を得る。ここで、時間畳み込みネットワークモジュールは、三次元畳み込み層などの形で構成してもよい。
本実施態様の幾つかの選択的な実現形態において、予め設定されたカテゴリ検出モデルは、
サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得するステップであって、サンプルアノテーション情報とは、サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするために用いられる、ステップと、
サンプルビデオフレームシーケンスと、訓練対象のモデルとに基づいて、サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定するステップと、
サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップと、
サンプル初期カテゴリ情報に重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るステップと、
サンプル目標カテゴリとサンプルアノテーション情報とに基づいて、訓練対象のモデルのパラメータを調整することを、訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得るステップと、
を含む一連のステップにより訓練して得られる。
本実施態様において、実行主体は、修復済みのビデオの修復前のビデオフレームシーケンスを上記のサンプルビデオフレームシーケンスとし、そして、修復済みのビデオに対して、修復前のビデオフレームシーケンスと修復後のビデオフレームシーケンスとを比較して、上記のサンプルアノテーション情報を得るようにしてもよい。このようにして、サンプルビデオフレームシーケンス及びサンプルアノテーション情報を決定することで、手動でアノテーションすることを必要とせず、より効率的なモデル訓練が可能である。ここで、サンプルアノテーション情報について、修復すべきサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要のないサンプル画素となる。サンプル画素について、修復する必要のないサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされたサンプル画素は、修復する必要があるサンプル画素となる。さらに、実行主体は、訓練対象のモデルがサンプルフレーム間特徴およびサンプルフレーム内特徴を決定するように、サンプルビデオフレームシーケンスを訓練対象のモデルに入力する。ここで、サンプルフレーム間特徴及びサンプルフレーム内特徴の決定は、フレーム間特徴情報及びフレーム内特徴情報の決定と同様の手段により行われるので、ここでは説明を省略する。
その後、訓練対象のモデルにおける循環畳み込みニューラルモジュールが、サンプルフレーム間特徴およびサンプルフレーム内特徴に基づいて特徴解析を行い、各サンプル画素のサンプル初期カテゴリ情報を得るために、実行主体は、サンプルフレーム間特徴とサンプルフレーム内特徴を、訓練対象のモデルにおける循環畳み込みニューラルモジュールの入力データとするようにしてもよい。ここで、サンプル初期カテゴリ情報は、各サンプル画素が「修復すべき」カテゴリであるか否かを示す情報であり、具体的に、各サンプル画素が「修復すべき」カテゴリに属する確率、各サンプル画素が「修復すべき」カテゴリのではないことの確率、各サンプル画素が「正常」カテゴリに属する確率、各サンプル画素が「正常」カテゴリのではないことの確率などとして示されてもよく、本実施態様では、これに限定されるものではない。また、循環畳み込みニューラルモジュールは、多層convLSTM(畳み込みニューラルネットワークと長期短期記憶ネットワークとを統合したもの)、または、多層convGRU(畳み込みニューラルネットワークとゲート付き回帰型ユニットとを統合したもの)を用いて構成するようにしてもよい。
その後、注目モジュールがサンプル初期カテゴリ情報に対しを重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るために、実行主体は、初期カテゴリ情報を訓練対象のモデルにおける注目モジュールに入力するようにしてもよい。具体的には、実行主体は、注意モジュールを用いて、初期カテゴリ情報における各サンプル画素の関連する確率に、関連する重みを乗算し、重み付けされた確率と予め設定された閾値とを比較して、各サンプル画素の対応するサンプル目標カテゴリを得るようにしてもよい。例えば、重み付けられたサンプル画素が「修復すべき」カテゴリである確率が予め設定された閾値よりも大きい場合、サンプル画素は、「修復すべき」カテゴリであると判定される。ここで、訓練対象のモデルの出力データは、重み付けされたサンプル画素が修復すべきサンプル画素であることの確率、重み付けされたサンプル画素が修復すべきサンプル画素ではないことの確率、重み付けされたサンプル画素が正常サンプル画素であることの確率、重み付けされたサンプル画素が正常サンプル画素ではないことの確率であってもよい。訓練対象のモデルの出力データに基づいて各サンプル画素の対応するサンプル目標カテゴリを判定し、その後、サンプル目標カテゴリとサンプルアノテーション情報とに基づいて訓練対象のモデルのパラメータを調整することを、モデルが収束するまで実行することで、カテゴリ検出モデルの訓練を実現する。選択的に、注意モジュールにより重み付け処理がされた確率データを、訓練対象のモデルの出力データとして、アップサンプリング畳み込みモジュールに入力して、確率マップを得るようにしてもよい。アップサンプリング畳み込みモジュールは、確率データの関連する特徴マップの解像度をサンプルビデオフレームの解像度に復旧するために用いられる。
本実施態様の他の選択可能な実施形態において、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいてサンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップは、
サンプルフレーム間特徴とサンプルフレーム内特徴とに対して畳み込み演算を行って、サンプル畳み込み特徴を得ることと、
サンプル畳み込み特徴に基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することとを含む。
本実施態様において、実行主体は、サンプルフレーム間特徴とサンプルフレーム内特徴とを取得した後、サンプルフレーム間特徴とサンプルフレーム内特徴に対して、2次元畳み込み演算などの畳み込み演算を行って、サンプル畳み込み特徴を得、サンプル畳み込み特徴に基づいて上記のサンプル初期カテゴリ情報を決定するようにしてもよい。これにより、畳み込み演算を用いて特徴の解像度を少なくすることができ、モデル訓練の速度を向上させることができる。
ステップ403において、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定する。
本実施態様では、カテゴリ検出モデルの適用の段階において、実行主体は、訓練の段階と同じ原理に従い、循環畳み込みニューラルモジュールが初期カテゴリ情報を出力するために、取得したフレーム間特徴情報とフレーム内特徴情報とをカテゴリ検出モデルの循環畳み込みニューラルモジュールに入力するようにしてもよい。なお、初期カテゴリ情報の詳細については、サンプル初期カテゴリ情報に関する詳細な説明を参照できるので、ここで説明を省略する。フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定することの詳細についても、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいてサンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することに関する詳細な説明を参照できるので、ここでは説明を省略する。
本実施態様の幾つかの選択可能な実施形態において、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップは、
フレーム間特徴情報とフレーム内特徴情報とに対して畳み込み演算を行って、畳み込み演算後の特徴情報を得ることと、
畳み込み演算後の特徴情報に基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定することを含む。
本実施態様では、上述したステップの詳細については、サンプルフレーム間特徴とサンプルフレーム内特徴に対して畳み込み演算を行って、サンプル畳み込み特徴を得て、サンプル畳み込み特徴に基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することに関する詳細な説明を参照できるので、ここでは説明を省略する。畳み込み演算を使用することにより、フレーム間特徴情報とフレーム内特徴情報の解像度を小さくすることができ、初期カテゴリ情報の決定速度を向上させることができる。
ステップ404において、初期カテゴリ情報に重み付け処理を実行して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを得る。
本実施態様では、ステップ404の詳細についても、サンプル初期カテゴリ情報に対して重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプルターゲットカテゴリを得ることに関する詳細な説明を参照できるので、ここでは説明を省略する。
ステップ405において、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定する。
なお、本実施態様において、ステップ405の詳細についても、ステップ203の詳細な説明を参照できるので、ここでは説明を省略する。
ステップ406において、修正すべき画素の位置情報に基づいて、修正すべき領域を決定する。
本実施態様では、実行主体は、修正すべき画素の位置座標を取得し、各位置座標に囲まれた領域に基づいて、修正すべき領域を決定するようにしてもよい。
ステップ407において、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得る。
本実施態様において、予め設定された修復用ソフトウェアは、既存の様々な修復すべき領域を修復するためのソフトウェアであってもよい。実行本体は、修復対象のビデオフレームシーケンスにおいて、修復すべき領域に対してアノテーションし、その後、予め設定された修復用ソフトウェアが修復領域に対して修復処理を実行して目標ビデオフレームシーケンスを得るために、アノテーションされた修復対象のビデオフレームシーケンスを予め設定された修復用ソフトウェアに導入するようにしてもよい。
本開示の上記実施態様によって提供されるビデオを修復するための方法は、さらに、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報とに基づいて画素のカテゴリを決定することができ、画素のカテゴリの決定精度を向上させる。また、先ず、初期カテゴリ情報を取得し、その後、初期カテゴリ情報に重み付け処理を実行して、目標カテゴリを得ることができ、カテゴリ情報の決定精度をさらに向上させることができる。さらに、修復すべき画素の位置情報に基づいて、修復すべき領域を決定し、そして、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行することで、自動化されたビデオ修復を実現することができ、ビデオ修復効率を向上させる。
続いて、図5を参照する。上述の図に示される方法の実施形態として、本開示は、図2に示される方法の実施形態に対応するビデオを修復するための装置の一実施態様を提供する。この装置は、具体的に様々なサーバまたは端末機器に適用可能である。
図5に示すように、本実施態様のビデオを修復するための装置500は、ビデオ取得ユニット501と、カテゴリ決定ユニット502と、画素決定ユニット503と、ビデオ修復ユニット504とを備える。
ビデオ取得ユニット501は、修復対象ビデオフレームのシーケンスを取得するように構成される。
カテゴリ決定ユニット502は、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスの各画素の対応する目標カテゴリを決定するように構成される。
画素決定ユニット503は、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される。
ビデオ修復ユニット504は、修復すべき画素の対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成される。
本実施態様のいくつかの選択可能な実施形態において、カテゴリ決定ユニット502は、さらに、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定し、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定し、初期カテゴリ情報に対して重み付け処理を実行して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを得るように構成される。
本実施態様のいくつかの選択可能な実施形態において、カテゴリ決定ユニット502は、さらに、フレーム間特徴情報とフレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得て、畳み込み演算後の特徴情報に基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するように構成される。
本実施態様のいくつかの選択可能な実施形態において、上記の装置は、以下のように構成されるモデル訓練部をさらに備える。モデル訓練部は、サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得し、サンプルアノテーション情報は、サンプルビデオフレームシーケンスにおいて各サンプル画素のカテゴリに対してアノテーションするために用いられ、モデル訓練部は、サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴を決定し、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定し、サンプル初期カテゴリ情報に対して重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得、サンプル目標カテゴリとサンプルアノテーション情報とに基づいて訓練対象のモデルのパラメータを調整することを訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得る。
を備える
本実施態様のいくつかの選択可能な実施形態において、目標カテゴリは、「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、カテゴリ決定ユニット502は、さらに、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルによって出力された修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ており、確率値画像は、各修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示すために用いられ、カテゴリ決定ユニット502は、確率値画像と予め設定された確率閾値とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成される。
本実施態様のいくつかの選択可能な実施形態において、ビデオ修復ユニット504は、さらに、修復すべき画素の位置情報に基づいて、修復すべき領域を決定し、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行して目標ビデオフレームシーケンスを得るように構成される。
ビデオを修復するための装置500について記載されたユニット501~504は、それぞれ、図2を参照して説明された方法のステップに対応することが理解される。よって、車載対話するための方法に関して記述した動作および特徴は、装置500およびそれに含まれるユニットにも同様に適するので、ここでは説明を省略する。
本開示の実施態様において、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品を提供する。
図6は、本開示の実施形態を実施するために使用できる例示的な電子機器600の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に記憶されているコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット601を備える。RAM603には、機器600の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット601、ROM602およびRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インタフェース605もバス604に接続されている。
電子機器600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを備える複数のコンポーネントは、I/Oインタフェース605に接続されている。通信ユニット609は、機器600がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット601は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット601のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上述したカメラ遮蔽検出方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、カメラ遮蔽検出方法は、記憶ユニット608などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行されると、上述したカメラ遮蔽検出方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット601は、他の任意の適切な形態によって(例えば、ファームウェアを介して)カメラ遮蔽検出方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/又はそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく)、且つ音入力、音声入力又は、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、クラウドサーバであってもよいし、分散システムのサーバであってもよいし、ブロックチェーンを統合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。
本開示は、ビデオを修復するための方法、装置、機器、媒体、およびコンピュータプログラムを提供する。
本実施態様において、実行主体は、修復済みのビデオの修復前のビデオフレームシーケンスを上記のサンプルビデオフレームシーケンスとし、そして、修復済みのビデオに対して、修復前のビデオフレームシーケンスと修復後のビデオフレームシーケンスとを比較して、上記のサンプルアノテーション情報を得るようにしてもよい。このようにして、サンプルビデオフレームシーケンス及びサンプルアノテーション情報を決定することで、手動でアノテーションすることを必要とせず、より効率的なモデル訓練が可能である。ここで、サンプルアノテーション情報について、修復すべきサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要のないサンプル画素となる。サンプル画素について、修復する必要のないサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要があるサンプル画素となる。さらに、実行主体は、訓練対象のモデルがサンプルフレーム間特徴およびサンプルフレーム内特徴を決定するように、サンプルビデオフレームシーケンスを訓練対象のモデルに入力する。ここで、サンプルフレーム間特徴及びサンプルフレーム内特徴の決定は、フレーム間特徴情報及びフレーム内特徴情報の決定と同様の手段により行われるので、ここでは説明を省略する。
ビデオを修復するための装置500について記載されたユニット501~504は、それぞれ、図2を参照して説明された方法のステップに対応することが理解される。よって、ビデオを修復するための方法に関して記述した動作および特徴は、装置500およびそれに含まれるユニットにも同様に適するので、ここでは説明を省略する。

Claims (17)

  1. ビデオを修復するための方法であって、
    修復対象のビデオフレームシーケンスを取得するステップと、
    前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップと、
    前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するステップと、
    前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップと、
    を含む方法。
  2. 前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、
    前記修復対象のビデオフレームシーケンスと前記予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定するステップと、
    前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップと、
    前記初期カテゴリ情報に対して重み付け処理を実行して、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを得るステップと、
    を含む、請求項1に記載の方法。
  3. 前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップは、
    前記フレーム間特徴情報と前記フレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得るステップと、
    前記畳み込み演算後の特徴情報に基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記初期カテゴリ情報を決定するステップと、
    を含む、請求項2に記載の方法。
  4. 前記予め設定されたカテゴリ検出モデルは、
    サンプルビデオフレームシーケンスと、前記サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするためのサンプルアノテーション情報とを取得するステップと、
    前記サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、前記サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定するステップと、
    前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップと、
    前記サンプル初期カテゴリ情報に対して重み付け処理を実行して、前記サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るステップと、
    前記サンプル目標カテゴリと前記サンプルアノテーション情報とに基づいて、前記訓練対象のモデルのパラメータを調整することを、前記訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得るステップと、
    により訓練して得られる、請求項1乃至3のいずれか1項に記載の方法。
  5. 前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップは、
    前記サンプルフレーム間特徴と前記サンプルフレーム内特徴に対して、畳み込み演算を行って、サンプル畳み込み特徴を得るステップと、
    前記サンプル畳み込み特徴に基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素の前記サンプル初期カテゴリ情報を決定するステップと、
    を含む、請求項4に記載の方法。
  6. 前記目標カテゴリは、前記「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、
    前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、
    前記修復対象のビデオフレームシーケンスを前記予め設定されたカテゴリ検出モデルに入力して、前記予め設定されたカテゴリ検出モデルから出力された前記修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得るステップであって、前記確率値画像は、各修復対象ビデオフレームにおける各画素が前記「修復すべき」カテゴリに属する確率を示すために用いられる、ステップと、
    前記確率値画像と予め設定された確率閾値とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを決定するステップと、
    を含む、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップは、
    前記修復すべき画素の位置情報に基づいて、前記修復すべき領域を決定するステップと、
    予め設定された修復用ソフトウェアにより、前記修復すべき領域に対して修復処理を実行して、前記目標ビデオフレームシーケンスを得るステップと、
    を含む、請求項1乃至6のいずれか1項に記載の方法。
  8. ビデオを修復するための装置であって、
    修復対象のビデオフレームシーケンスを取得するように構成されるビデオ取得ユニットと、
    前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成されるカテゴリ決定ユニットと、
    前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される画素決定ユニットと、
    前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成されるビデオ修復ユニットと、
    を備える装置。
  9. 前記カテゴリ決定ユニットは、さらに、
    前記修復対象のビデオフレームシーケンスと前記予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定し、
    前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定し、
    前記初期カテゴリ情報に対して重み付け処理を実行して、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを得る、ように構成される、
    請求項8に記載の装置。
  10. 前記カテゴリ決定ユニットは、さらに、
    前記フレーム間特徴情報と前記フレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得、
    前記畳み込み演算後の特徴情報に基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記初期カテゴリ情報を決定する、ように構成される、
    請求項9に記載の装置。
  11. モデル訓練ユニットを更に備え、
    前記モデル訓練ユニットは、
    サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得し、前記サンプルアノテーション情報とは、前記サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするために用いられ、
    前記サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、前記サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定し、
    前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定し、
    前記サンプル初期カテゴリ情報に対して重み付け処理を実行して、前記サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得、
    前記サンプル目標カテゴリと前記サンプルアノテーション情報とに基づいて、前記訓練対象のモデルのパラメータを調整することを、前記訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得る、ように構成される、
    請求項8乃至10のいずれか1項に記載の装置。
  12. 前記モデル訓練ユニットは、さらに
    前記サンプルフレーム間特徴と前記サンプルフレーム内特徴に対して、畳み込み演算を行って、サンプル畳み込み特徴を得、
    前記サンプル畳み込み特徴に基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素の前記サンプル初期カテゴリ情報を決定する、ように構成される、
    請求項11に記載の装置。
  13. 前記目標カテゴリは、前記「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、
    前記カテゴリ決定ユニットは、さらに
    前記修復対象のビデオフレームシーケンスを前記予め設定されたカテゴリ検出モデルに入力して、前記予め設定されたカテゴリ検出モデルから出力された前記修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ており、前記確率値画像は、各修復対象ビデオフレームにおける各画素が前記「修復すべき」カテゴリに属する確率を示すために用いられ、
    前記確率値画像と予め設定された確率閾値とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを決定する、ように構成される、
    請求項8乃至12のいずれか1項に記載の装置。
  14. 前記ビデオ修復ユニットは、さらに、
    前記修復すべき画素の位置情報に基づいて、前記修復すべき領域を決定し、
    予め設定された修復用ソフトウェアにより、前記修復すべき領域に対して修復処理を実行して、前記目標ビデオフレームシーケンスを得る、ように構成される、
    請求項8乃至13のいずれか1項に記載の装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続され、前記少なくとも1つのプロセッサによって実行可能な指令を格納したメモリと、を備え、
    前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサは、請求項1乃至7のいずれか1項に記載の方法を実行する電子機器。
  16. 請求項1乃至7のいずれか1項に記載の方法を前記コンピュータに実行させるためのコンピュータ指令を格納した非一時的なコンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1から7のいずれか一項に記載の方法を実行させるコンピュータプログラムを含むコンピュータプログラム製品。
JP2022553168A 2021-06-28 2022-01-29 ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム Pending JP2023535662A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110717424.XA CN113436100B (zh) 2021-06-28 2021-06-28 用于修复视频的方法、装置、设备、介质和产品
CN202110717424.X 2021-06-28
PCT/CN2022/075035 WO2023273342A1 (zh) 2021-06-28 2022-01-29 用于修复视频的方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
JP2023535662A true JP2023535662A (ja) 2023-08-21

Family

ID=84046069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022553168A Pending JP2023535662A (ja) 2021-06-28 2022-01-29 ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230008473A1 (ja)
JP (1) JP2023535662A (ja)
KR (1) KR20220146663A (ja)

Also Published As

Publication number Publication date
KR20220146663A (ko) 2022-11-01
US20230008473A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
US11436863B2 (en) Method and apparatus for outputting data
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
WO2023273342A1 (zh) 用于修复视频的方法、装置、设备、介质和产品
JP7273129B2 (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
CN109377508B (zh) 图像处理方法和装置
CN110516598B (zh) 用于生成图像的方法和装置
CN112995535B (zh) 用于处理视频的方法、装置、设备以及存储介质
WO2020062494A1 (zh) 图像处理方法和装置
JP7291168B2 (ja) ビデオフレームの処理方法及び装置
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2023531350A (ja) サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法
CN116109824A (zh) 基于扩散模型的医学影像及像素级标注生成方法及装置
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN111815748B (zh) 一种动画处理方法、装置、存储介质及电子设备
CN111292333A (zh) 用于分割图像的方法和装置
CN113657518A (zh) 训练方法、目标图像检测方法、装置、电子设备以及介质
CN108898563A (zh) 一种显示面板光学检测图像的处理方法及计算机可读介质
US20230260211A1 (en) Three-Dimensional Point Cloud Generation Method, Apparatus and Electronic Device
WO2020155908A1 (zh) 用于生成信息的方法和装置
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
JP2023535662A (ja) ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム
CN114120423A (zh) 人脸图像检测方法、装置、电子设备和计算机可读介质
US11741657B2 (en) Image processing method, electronic device, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213