JP2023535662A

JP2023535662A - ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム

Info

Publication number: JP2023535662A
Application number: JP2022553168A
Authority: JP
Inventors: シンリー; ファジェン; ファンロンリュウ; ドンリャンファ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2022-01-29
Publication date: 2023-08-21
Also published as: KR20220146663A; US20230008473A1

Abstract

本開示は、ビデオを修復するための方法、装置、装置、媒体、及び製品を提供しており、人工知能の分野に関し、特に、画像修復のシーンに有用なコンピュータビジョン及び深層学習技術に関する。具体的な実施態様は、修復対象のビデオフレームシーケンスを取得し、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定し、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定し、修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得ることである。本実施態様によれば、ビデオ修復の効率を向上させることができる。【選択図】図２

Description

＜関連出願の相互参照＞
本出願は、２０２１年０６月２８日に提出された、出願番号が２０２１１０７１７４２４．Ｘで、発明の名称が「ビデオを修復するための方法、装置、機器、媒体および製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本出願に組み込む。

本開示は、人工知能技術の分野に関し、特に、画像修復シーンに適用されるコンピュータビジョン及びディープラーニング技術に関する。

現在、古い映画は、通常、フィルムを用いて撮影、アーカイブされているため、古い映画の保存環境には、厳しい条件が要求される。

しかしながら、現実の保存環境は、理想的な保存条件を達成することが困難であるため、古い映画には擦傷、汚れ、ノイズなどの問題が発生してしまう恐れがある。古い映画がよい画質で再生できるように、これらの問題を修復することが必要である。従来では、修復は、熟練技術者がフレーム毎に、又はエリア毎について、問題となるエリアに対して手動でアノテーションをして、これら問題となるエリアに対して修復処理を実行することで行われる。しかし、手動で修復するのは効率が悪いという問題がある。

本開示は、ビデオを修復するための方法、装置、機器、媒体、および製品を提供する。

本開示の第１の態様において、ビデオを修復するための方法であって、修復対象ビデオフレームのシーケンスを取得するステップと、前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップと、前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するステップと、前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップと、を含む方法を提供する。

本開示の他の態様において、ビデオを修復するための装置であって、修復対象ビデオフレームのシーケンスを取得するように構成されるビデオ取得ユニットと、前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成されるカテゴリ決定ユニットと、前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される画素決定ユニットと、前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成されるビデオ修復ユニットと、を備える装置を提供する。

本開示の他の態様において、電子機器であって、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令を格納したメモリと、を備え、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサは、上記のいずれかの態様に記載のビデオを修復するための方法を実行する電子機器を提供する。

本開示の他の態様において、上記のいずれかの態様に記載のビデオを修復するための方法をコンピュータに実行させるためのコンピュータ指令を格納した非一時的なコンピュータ可読記憶媒体を提供する

本開示の他の態様において、プロセッサによって実行されると、上記のいずれかの態様に記載のビデオを修復するための方法を実行させるコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の技術によれば、ビデオの修復効率を向上させることができるビデオの修復方法を提供することができる。

なお、このセクションの記載は、本開示の実施形態の重要な特徴または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することを意図していないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解される。

図面は、本開示を限定するためのものではなく、本発明がより良く理解できるために用いられる。

本開示の一実施形態が適用可能な例示的なシステムアーキテクチャ図である。本開示に係るビデオを修復するための方法の一実施形態のフローチャートである。本開示に係るビデオを修復するための方法の適用シーンの概略図である。本開示に係るビデオを修復するための方法の別の実施形態のフローチャートである。本開示に係るビデオを修復するための装置の一実施形態の構造概略図である。本発明の一実施形態に係るビデオを修復するための方法が実施された電子機器のブロック図である。

以下、図面を参照しながら本開示の例示的な実施形態を説明し、ここで、理解を助けるために、本開示の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、矛盾しない限り、本出願における実施形態および実施形態における特徴を互いに組み合わせることができる。以下、図面を参照しながら、実施形態に基づいて、本開示を詳細に説明する。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を備えてもよい。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、端末機器１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５とやり取りして、メッセージなどを受送信することができる。端末機器１０１、１０２、１０３は、ビデオ修復用のソフトウェアがインストールされた携帯電話、コンピュータ及びタブレットなどの電子機器であってもよく、ユーザから、例えば、古い映画のような修復対象となるビデオがビデオ修復用のソフトウェアに入力されると、ソフトウェアから、例えば、修復後の古い映画のような、修復後のビデオが出力されるようにしてもよい。

端末機器１０１、１０２、１０３は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器１０１、１０２、１０３がハードウェアである場合、テレビ、スマートフォン、タブレット、電子ブックリーダ、車載コンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない様々な電子機器とされてもよい。端末機器１０１、１０２、１０３がソフトウェアである場合、上述した電子機器にインストールされてもよい。端末機器は、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するために使用される）として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは特に限定しない。

サーバ１０５は、様々なサービスを提供するサーバであってもよい。例えば、端末機器１０１、１０２、１０３がユーザから入力された修復対象のビデオフレームシーケンスを取得した後、サーバ１０５は、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、修復対象のビデオフレームシーケンスの各画素に対応する目標カテゴリを取得する。そして、目標カテゴリが「修復すべき」である画素を、修復すべき画素として決定する。修復すべき画素の対応する修復すべき領域に基づいて修復処理を実行することにより、目標ビデオフレームシーケンス、即ち、修復後のビデオを得ることができる。当該目標ビデオフレームシーケンスを端末機器１０１、１０２、１０３に送信する。

なお、サーバ１０５は、ハードウェアであってもよく、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散型サーバカテゴリタとして実施されてもよく、単一のサーバとして実施されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するために使用される）として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは特に限定しない。

なお、本発明の実施形態に係るビデオを修復するための方法は、端末機器１０１、１０２、１０３により実行されてもよいし、サーバ１０５により実行されてもよい。それに応じて、ビデオを修復するための装置は、端末機器１０１、１０２、１０３に設けられてもよく、サーバ１０５に設けられてもよい。

なお、図１における端末機器、ネットワーク、サーバの数はただ例示に過ぎない。実施時の需要に応じて、端末機器、ネットワーク、サーバを任意の数設けてもよい。

続いて、本開示に係るビデオを修復するための方法の一実施形態のフロー２００が示されている図２を参照する。本実施態様のビデオ修復方法は、下記のステップ２０１～２０４を含む。

ステップ２０１において、修復対象のビデオフレームシーケンスを取得する。

本実施態様において、実行主体（図１のサーバ１０５、または、端末機器１０１、１０２、１０３）は、ローカルに保存されたデータから修復対象のビデオフレームシーケンスを取得してもよいし、接続を確立した他の電子機器から修復対象のビデオフレームシーケンスを取得してもよいし、ネットワークから修復対象のビデオフレームシーケンスを取得してもよい。ここで、修復対象のビデオフレームシーケンスとは、修復対象となるビデオに含まれる各ビデオフレームからなるシーケンスである。選択的に、実行主体が修復対象のビデオフレームシーケンスを取得する際に、まず、修復対象となる対象ビデオに含まれる各ビデオフレームを一応選別して、修復する必要がある可能性のあるビデオフレームを決定して、上述の修復対象のビデオフレームシーケンスを構成するようにしてもよい。例えば、対象ビデオに含まれる各ビデオフレームに対して画像認識を行い、あるビデオフレームに修復すべき対象が存在すると判定したことに応答して、当該ビデオフレームを候補ビデオフレームとして決定し、各候補ビデオフレームに基づいて、修復対象のビデオフレームシーケンスを生成する。ここで、画像認識は、画像中の擦傷やノイズが等の修復すべき対象を認識することを目的とする技術であり、従来の画像認識技術が使用されてもよい。

ステップ２０２において、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定する。

本実施態様において、予め設定されたカテゴリ検出モデルは、修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの内の画素が、それぞれ、修復すべき画素であるか否かを検出するために用いられる。ここで、修復すべき画素は、ビデオフレームにおいて、修復すべき対象の位置する画素であり、修復すべき対象として、擦傷、スペックルノイズ、ノイズポイントなどが挙げられるが、これらに限定されない。予め設定されたカテゴリ検出モデルは、画素が修復すべき画素であるか否かを検出するために、画素が修復すべき画素であることの確率、修復すべき画素ではないことの確率、正常画素であることの確率、正常画素ではないことの確率などを出力データとしてもよく、本実施態様では、これは限定されるものではない。出力データの形式は、カテゴリ検出モデルの訓練の段階において設定することにより調整可能である。実行主体は、予め設定されたカテゴリ検出モデルから修復対象のビデオフレームシーケンスに基づいて出力された出力データを取得した後、出力データを分析して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するようにしてもよい。ここで、目標カテゴリは、例えば「修復すべき」という修復する必要のあるカテゴリを含んでもよく、例えば「正常」という修復する必要のないカテゴリも含んでもよい。選択的に、目標カテゴリは、出力データに基づいて正確に判別するのが困難なカテゴリである保留カテゴリを含んでもよい。修復すべき領域の決定精度を向上させるように、作業者が係る画素を手動で決定するために、このような保留カテゴリについて、アノテーションしてから係る画素を出力するようにしてもよい。

本実施態様の幾つかの選択可能な実現態様において、目標カテゴリは、「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルによって出力された修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ることであって、確率値画像は、各修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示すために用いられることと、確率値画像と予め設定された確率閾値とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定することとを含む。

本実施態様において、「修復すべき」カテゴリとは、修復する必要があるカテゴリであり、「正常」カテゴリとは、修復する必要のないカテゴリである。実行主体は、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定し、具体的に、まず、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルから出力された確率値画像を得るようにしてもよい。それぞれの修復対象ビデオフレームには、当該修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示す確率値画像が関連付けられるようにしてもよい。実行主体は、予め設定された確率閾値を設けておき、各画素が「修復すべき」カテゴリに属する確率と、予め設定された確率閾値とを比較した結果に基づいて、各画素が「修復すべき」カテゴリであるか、或いは、「正常」カテゴリであるかを判定するようにしてもよい。例えば、各画素が「修復すべき」カテゴリに属する確率について、当該確率が予め設定された確率閾値よりも大きいとの判定に応答して画素が「修復すべき」カテゴリであると判定し、当該確率が予め設定された確率閾値以下であるとの判定に応答して画素が「正常」カテゴリであると判定する。

ステップ２０３において、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定する。

本実施態様において、実行主体は、各画素のうち、目標カテゴリが「修復すべき」カテゴリの画素を、修復すべき画素として決定してもよい。また、実行主体は、画素全体から、目標カテゴリが正常カテゴリの画素を除去し、残りの画素を修復すべき画素として決定するようにしてもよい。

ステップ２０４において、修復すべき画素の対応する修復すべき領域において、修復処理を実行して、目標ビデオフレームシーケンスを得る。

本実施態様において、実行主体は、各修復すべき画素に基づいて、修復すべき画素からなる修復すべき領域を決定するようにしてもい。修復すべき領域に基づいて修復処理を実行することにより、目標ビデオフレームシーケンスを得ることができる。ここで、修復処理は、既存の修復技術が使用されてもよい。例えば、各種の既存のビデオ修復用ソフトウェアにより、これらの修復すべき領域に修復処理を実行して、目標ビデオフレームシーケンスを得るようにしてもよい。

続いて、本開示に係るビデオを修復するための方法の適用シーンの概略図が示されている図３を参照する。図３の適用シーンにおいて、実行主体は、修復対象の古い映画３０１を取得し、修復対象の古い映画３０１をカテゴリ検出モデル３０２に入力し、カテゴリ検出モデル３０２から出力された古い映画３０１における各ビデオフレームの内の各画素が擦傷の対応する画素であることの確率情報を得、当該確率情報に基づいて、各画素の画素カテゴリ３０３を決定することができる。画素カテゴリ３０３は、擦傷の対応するカテゴリ及び擦傷なしの対応するカテゴリを有する。実行主体は、画素カテゴリ３０３が擦傷の対応するカテゴリの画素を、擦傷領域３０４に形成する。そして、擦傷領域３０４を指定された修復用ソフトウェアに入力することで修復して、修復後の古い映画３０５を得る。

本開示の上記実施形態により提供されるビデオを修復するための方法によれば、カテゴリ検出モデルにより、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを自動的に決定し、目標カテゴリに基づいて、修復する必要のある修復すべき画素を決定し、修復すべき画素の対応する修復すべき領域に対して修復処理を実行することができ、ビデオの自動化された修復を実現し、ビデオの修復効率を向上させることができる。

続いて、本開示に係るビデオを修復するための方法の他の実施形態のフロー４００が示されている図４を参照する。図４に示すように、本実施態様のビデオを修復する方法は、下記のステップ４０１～４０７を含んでもよい。

ステップ４０１において、修復対象のビデオフレームシーケンスを取得する。

本実施態様において、ステップ４０１の詳細な説明について、ステップ２０１の関連する説明を参照することができ、ここでその説明を省略する。

ステップ４０２において、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定する。

本実施態様では、実行主体は、修復対象のビデオフレームシーケンスのフレーム間特徴情報及びフレーム内特徴情報をカテゴリ検出モデルが抽出するように、予め設定されたカテゴリ検出モデルに、修復対象のビデオフレームシーケンスを入力するようにしてもよい。ここで、フレーム間特徴情報とは、それぞれの隣接するビデオフレーム間の関連する画像特徴であり、フレーム内特徴情報とは、各ビデオフレームの画像特徴である。選択的な実施形態において、カテゴリ検出モデルは、時間畳み込みネットワーク（Ｔｅｍｐｏｒａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ，ＴＣＮ）モジュールを含んでもよい。修復対象のビデオフレームシーケンスがカテゴリ検出モデルに入力された後、まず、時間畳み込みネットワークモジュールを通過するようにすることにより、ビデオフレーム間の時間的特徴を決定し、即ち、フレーム間特徴情報を決定するようにしてもよい。その後、修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの画像特徴に基づいて、フレーム内特徴情報を得る。ここで、時間畳み込みネットワークモジュールは、三次元畳み込み層などの形で構成してもよい。

本実施態様の幾つかの選択的な実現形態において、予め設定されたカテゴリ検出モデルは、
サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得するステップであって、サンプルアノテーション情報とは、サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするために用いられる、ステップと、
サンプルビデオフレームシーケンスと、訓練対象のモデルとに基づいて、サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定するステップと、
サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップと、
サンプル初期カテゴリ情報に重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るステップと、
サンプル目標カテゴリとサンプルアノテーション情報とに基づいて、訓練対象のモデルのパラメータを調整することを、訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得るステップと、
を含む一連のステップにより訓練して得られる。

本実施態様において、実行主体は、修復済みのビデオの修復前のビデオフレームシーケンスを上記のサンプルビデオフレームシーケンスとし、そして、修復済みのビデオに対して、修復前のビデオフレームシーケンスと修復後のビデオフレームシーケンスとを比較して、上記のサンプルアノテーション情報を得るようにしてもよい。このようにして、サンプルビデオフレームシーケンス及びサンプルアノテーション情報を決定することで、手動でアノテーションすることを必要とせず、より効率的なモデル訓練が可能である。ここで、サンプルアノテーション情報について、修復すべきサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要のないサンプル画素となる。サンプル画素について、修復する必要のないサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされたサンプル画素は、修復する必要があるサンプル画素となる。さらに、実行主体は、訓練対象のモデルがサンプルフレーム間特徴およびサンプルフレーム内特徴を決定するように、サンプルビデオフレームシーケンスを訓練対象のモデルに入力する。ここで、サンプルフレーム間特徴及びサンプルフレーム内特徴の決定は、フレーム間特徴情報及びフレーム内特徴情報の決定と同様の手段により行われるので、ここでは説明を省略する。

その後、訓練対象のモデルにおける循環畳み込みニューラルモジュールが、サンプルフレーム間特徴およびサンプルフレーム内特徴に基づいて特徴解析を行い、各サンプル画素のサンプル初期カテゴリ情報を得るために、実行主体は、サンプルフレーム間特徴とサンプルフレーム内特徴を、訓練対象のモデルにおける循環畳み込みニューラルモジュールの入力データとするようにしてもよい。ここで、サンプル初期カテゴリ情報は、各サンプル画素が「修復すべき」カテゴリであるか否かを示す情報であり、具体的に、各サンプル画素が「修復すべき」カテゴリに属する確率、各サンプル画素が「修復すべき」カテゴリのではないことの確率、各サンプル画素が「正常」カテゴリに属する確率、各サンプル画素が「正常」カテゴリのではないことの確率などとして示されてもよく、本実施態様では、これに限定されるものではない。また、循環畳み込みニューラルモジュールは、多層ｃｏｎｖＬＳＴＭ（畳み込みニューラルネットワークと長期短期記憶ネットワークとを統合したもの）、または、多層ｃｏｎｖＧＲＵ（畳み込みニューラルネットワークとゲート付き回帰型ユニットとを統合したもの）を用いて構成するようにしてもよい。

その後、注目モジュールがサンプル初期カテゴリ情報に対しを重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るために、実行主体は、初期カテゴリ情報を訓練対象のモデルにおける注目モジュールに入力するようにしてもよい。具体的には、実行主体は、注意モジュールを用いて、初期カテゴリ情報における各サンプル画素の関連する確率に、関連する重みを乗算し、重み付けされた確率と予め設定された閾値とを比較して、各サンプル画素の対応するサンプル目標カテゴリを得るようにしてもよい。例えば、重み付けられたサンプル画素が「修復すべき」カテゴリである確率が予め設定された閾値よりも大きい場合、サンプル画素は、「修復すべき」カテゴリであると判定される。ここで、訓練対象のモデルの出力データは、重み付けされたサンプル画素が修復すべきサンプル画素であることの確率、重み付けされたサンプル画素が修復すべきサンプル画素ではないことの確率、重み付けされたサンプル画素が正常サンプル画素であることの確率、重み付けされたサンプル画素が正常サンプル画素ではないことの確率であってもよい。訓練対象のモデルの出力データに基づいて各サンプル画素の対応するサンプル目標カテゴリを判定し、その後、サンプル目標カテゴリとサンプルアノテーション情報とに基づいて訓練対象のモデルのパラメータを調整することを、モデルが収束するまで実行することで、カテゴリ検出モデルの訓練を実現する。選択的に、注意モジュールにより重み付け処理がされた確率データを、訓練対象のモデルの出力データとして、アップサンプリング畳み込みモジュールに入力して、確率マップを得るようにしてもよい。アップサンプリング畳み込みモジュールは、確率データの関連する特徴マップの解像度をサンプルビデオフレームの解像度に復旧するために用いられる。

本実施態様の他の選択可能な実施形態において、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいてサンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップは、
サンプルフレーム間特徴とサンプルフレーム内特徴とに対して畳み込み演算を行って、サンプル畳み込み特徴を得ることと、
サンプル畳み込み特徴に基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することとを含む。

本実施態様において、実行主体は、サンプルフレーム間特徴とサンプルフレーム内特徴とを取得した後、サンプルフレーム間特徴とサンプルフレーム内特徴に対して、２次元畳み込み演算などの畳み込み演算を行って、サンプル畳み込み特徴を得、サンプル畳み込み特徴に基づいて上記のサンプル初期カテゴリ情報を決定するようにしてもよい。これにより、畳み込み演算を用いて特徴の解像度を少なくすることができ、モデル訓練の速度を向上させることができる。

ステップ４０３において、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定する。

本実施態様では、カテゴリ検出モデルの適用の段階において、実行主体は、訓練の段階と同じ原理に従い、循環畳み込みニューラルモジュールが初期カテゴリ情報を出力するために、取得したフレーム間特徴情報とフレーム内特徴情報とをカテゴリ検出モデルの循環畳み込みニューラルモジュールに入力するようにしてもよい。なお、初期カテゴリ情報の詳細については、サンプル初期カテゴリ情報に関する詳細な説明を参照できるので、ここで説明を省略する。フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定することの詳細についても、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいてサンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することに関する詳細な説明を参照できるので、ここでは説明を省略する。

本実施態様の幾つかの選択可能な実施形態において、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップは、
フレーム間特徴情報とフレーム内特徴情報とに対して畳み込み演算を行って、畳み込み演算後の特徴情報を得ることと、
畳み込み演算後の特徴情報に基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定することを含む。

本実施態様では、上述したステップの詳細については、サンプルフレーム間特徴とサンプルフレーム内特徴に対して畳み込み演算を行って、サンプル畳み込み特徴を得て、サンプル畳み込み特徴に基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定することに関する詳細な説明を参照できるので、ここでは説明を省略する。畳み込み演算を使用することにより、フレーム間特徴情報とフレーム内特徴情報の解像度を小さくすることができ、初期カテゴリ情報の決定速度を向上させることができる。

ステップ４０４において、初期カテゴリ情報に重み付け処理を実行して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを得る。

本実施態様では、ステップ４０４の詳細についても、サンプル初期カテゴリ情報に対して重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプルターゲットカテゴリを得ることに関する詳細な説明を参照できるので、ここでは説明を省略する。

ステップ４０５において、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定する。

なお、本実施態様において、ステップ４０５の詳細についても、ステップ２０３の詳細な説明を参照できるので、ここでは説明を省略する。

ステップ４０６において、修正すべき画素の位置情報に基づいて、修正すべき領域を決定する。

本実施態様では、実行主体は、修正すべき画素の位置座標を取得し、各位置座標に囲まれた領域に基づいて、修正すべき領域を決定するようにしてもよい。

ステップ４０７において、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得る。

本実施態様において、予め設定された修復用ソフトウェアは、既存の様々な修復すべき領域を修復するためのソフトウェアであってもよい。実行本体は、修復対象のビデオフレームシーケンスにおいて、修復すべき領域に対してアノテーションし、その後、予め設定された修復用ソフトウェアが修復領域に対して修復処理を実行して目標ビデオフレームシーケンスを得るために、アノテーションされた修復対象のビデオフレームシーケンスを予め設定された修復用ソフトウェアに導入するようにしてもよい。

本開示の上記実施態様によって提供されるビデオを修復するための方法は、さらに、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報とに基づいて画素のカテゴリを決定することができ、画素のカテゴリの決定精度を向上させる。また、先ず、初期カテゴリ情報を取得し、その後、初期カテゴリ情報に重み付け処理を実行して、目標カテゴリを得ることができ、カテゴリ情報の決定精度をさらに向上させることができる。さらに、修復すべき画素の位置情報に基づいて、修復すべき領域を決定し、そして、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行することで、自動化されたビデオ修復を実現することができ、ビデオ修復効率を向上させる。

続いて、図５を参照する。上述の図に示される方法の実施形態として、本開示は、図２に示される方法の実施形態に対応するビデオを修復するための装置の一実施態様を提供する。この装置は、具体的に様々なサーバまたは端末機器に適用可能である。

図５に示すように、本実施態様のビデオを修復するための装置５００は、ビデオ取得ユニット５０１と、カテゴリ決定ユニット５０２と、画素決定ユニット５０３と、ビデオ修復ユニット５０４とを備える。

ビデオ取得ユニット５０１は、修復対象ビデオフレームのシーケンスを取得するように構成される。

カテゴリ決定ユニット５０２は、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスの各画素の対応する目標カテゴリを決定するように構成される。

画素決定ユニット５０３は、修復対象のビデオフレームシーケンスから、目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される。

ビデオ修復ユニット５０４は、修復すべき画素の対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成される。

本実施態様のいくつかの選択可能な実施形態において、カテゴリ決定ユニット５０２は、さらに、修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定し、フレーム間特徴情報とフレーム内特徴情報とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定し、初期カテゴリ情報に対して重み付け処理を実行して、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを得るように構成される。

本実施態様のいくつかの選択可能な実施形態において、カテゴリ決定ユニット５０２は、さらに、フレーム間特徴情報とフレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得て、畳み込み演算後の特徴情報に基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するように構成される。

本実施態様のいくつかの選択可能な実施形態において、上記の装置は、以下のように構成されるモデル訓練部をさらに備える。モデル訓練部は、サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得し、サンプルアノテーション情報は、サンプルビデオフレームシーケンスにおいて各サンプル画素のカテゴリに対してアノテーションするために用いられ、モデル訓練部は、サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴を決定し、サンプルフレーム間特徴とサンプルフレーム内特徴とに基づいて、サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定し、サンプル初期カテゴリ情報に対して重み付け処理を実行して、サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得、サンプル目標カテゴリとサンプルアノテーション情報とに基づいて訓練対象のモデルのパラメータを調整することを訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得る。
を備える

本実施態様のいくつかの選択可能な実施形態において、目標カテゴリは、「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、カテゴリ決定ユニット５０２は、さらに、修復対象のビデオフレームシーケンスを予め設定されたカテゴリ検出モデルに入力して、予め設定されたカテゴリ検出モデルによって出力された修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ており、確率値画像は、各修復対象ビデオフレームにおける各画素が「修復すべき」カテゴリに属する確率を示すために用いられ、カテゴリ決定ユニット５０２は、確率値画像と予め設定された確率閾値とに基づいて、修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成される。

本実施態様のいくつかの選択可能な実施形態において、ビデオ修復ユニット５０４は、さらに、修復すべき画素の位置情報に基づいて、修復すべき領域を決定し、予め設定された修復用ソフトウェアにより、修復すべき領域に対して修復処理を実行して目標ビデオフレームシーケンスを得るように構成される。

ビデオを修復するための装置５００について記載されたユニット５０１～５０４は、それぞれ、図２を参照して説明された方法のステップに対応することが理解される。よって、車載対話するための方法に関して記述した動作および特徴は、装置５００およびそれに含まれるユニットにも同様に適するので、ここでは説明を省略する。

本開示の実施態様において、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品を提供する。

図６は、本開示の実施形態を実施するために使用できる例示的な電子機器６００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本開示の実施形態を限定することを意図するものではない。

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラム又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット６０１を備える。ＲＡＭ６０３には、機器６００の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

電子機器６００において、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット６０９とを備える複数のコンポーネントは、Ｉ／Ｏインタフェース６０５に接続されている。通信ユニット６０９は、機器６００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット６０１は、処理および計算機能を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上述したカメラ遮蔽検出方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、カメラ遮蔽検出方法は、記憶ユニット６０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して機器６００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行されると、上述したカメラ遮蔽検出方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット６０１は、他の任意の適切な形態によって（例えば、ファームウェアを介して）カメラ遮蔽検出方法を実行するように構成されてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／又はそれらの組み合わせにおいて実現することができる。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく）、且つ音入力、音声入力又は、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、クラウドサーバであってもよいし、分散システムのサーバであってもよいし、ブロックチェーンを統合したサーバであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

本開示は、ビデオを修復するための方法、装置、機器、媒体、およびコンピュータプログラムを提供する。

本実施態様において、実行主体は、修復済みのビデオの修復前のビデオフレームシーケンスを上記のサンプルビデオフレームシーケンスとし、そして、修復済みのビデオに対して、修復前のビデオフレームシーケンスと修復後のビデオフレームシーケンスとを比較して、上記のサンプルアノテーション情報を得るようにしてもよい。このようにして、サンプルビデオフレームシーケンス及びサンプルアノテーション情報を決定することで、手動でアノテーションすることを必要とせず、より効率的なモデル訓練が可能である。ここで、サンプルアノテーション情報について、修復すべきサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要のないサンプル画素となる。サンプル画素について、修復する必要のないサンプル画素のみに対してアノテーションしてもよく、残りのアノテーションされないサンプル画素は、修復する必要があるサンプル画素となる。さらに、実行主体は、訓練対象のモデルがサンプルフレーム間特徴およびサンプルフレーム内特徴を決定するように、サンプルビデオフレームシーケンスを訓練対象のモデルに入力する。ここで、サンプルフレーム間特徴及びサンプルフレーム内特徴の決定は、フレーム間特徴情報及びフレーム内特徴情報の決定と同様の手段により行われるので、ここでは説明を省略する。

ビデオを修復するための装置５００について記載されたユニット５０１～５０４は、それぞれ、図２を参照して説明された方法のステップに対応することが理解される。よって、ビデオを修復するための方法に関して記述した動作および特徴は、装置５００およびそれに含まれるユニットにも同様に適するので、ここでは説明を省略する。

Claims

ビデオを修復するための方法であって、
修復対象のビデオフレームシーケンスを取得するステップと、
前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップと、
前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するステップと、
前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップと、
を含む方法。
前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、
前記修復対象のビデオフレームシーケンスと前記予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定するステップと、
前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップと、
前記初期カテゴリ情報に対して重み付け処理を実行して、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを得るステップと、
を含む、請求項１に記載の方法。
前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定するステップは、
前記フレーム間特徴情報と前記フレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得るステップと、
前記畳み込み演算後の特徴情報に基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記初期カテゴリ情報を決定するステップと、
を含む、請求項２に記載の方法。
前記予め設定されたカテゴリ検出モデルは、
サンプルビデオフレームシーケンスと、前記サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするためのサンプルアノテーション情報とを取得するステップと、
前記サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、前記サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定するステップと、
前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップと、
前記サンプル初期カテゴリ情報に対して重み付け処理を実行して、前記サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得るステップと、
前記サンプル目標カテゴリと前記サンプルアノテーション情報とに基づいて、前記訓練対象のモデルのパラメータを調整することを、前記訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得るステップと、
により訓練して得られる、請求項１乃至３のいずれか１項に記載の方法。
前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定するステップは、
前記サンプルフレーム間特徴と前記サンプルフレーム内特徴に対して、畳み込み演算を行って、サンプル畳み込み特徴を得るステップと、
前記サンプル畳み込み特徴に基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素の前記サンプル初期カテゴリ情報を決定するステップと、
を含む、請求項４に記載の方法。
前記目標カテゴリは、前記「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、
前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するステップは、
前記修復対象のビデオフレームシーケンスを前記予め設定されたカテゴリ検出モデルに入力して、前記予め設定されたカテゴリ検出モデルから出力された前記修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得るステップであって、前記確率値画像は、各修復対象ビデオフレームにおける各画素が前記「修復すべき」カテゴリに属する確率を示すために用いられる、ステップと、
前記確率値画像と予め設定された確率閾値とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを決定するステップと、
を含む、請求項１乃至５のいずれか１項に記載の方法。
前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るステップは、
前記修復すべき画素の位置情報に基づいて、前記修復すべき領域を決定するステップと、
予め設定された修復用ソフトウェアにより、前記修復すべき領域に対して修復処理を実行して、前記目標ビデオフレームシーケンスを得るステップと、
を含む、請求項１乃至６のいずれか１項に記載の方法。
ビデオを修復するための装置であって、
修復対象のビデオフレームシーケンスを取得するように構成されるビデオ取得ユニットと、
前記修復対象のビデオフレームシーケンスと予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する目標カテゴリを決定するように構成されるカテゴリ決定ユニットと、
前記修復対象のビデオフレームシーケンスから前記目標カテゴリが「修復すべき」カテゴリの修復すべき画素を決定するように構成される画素決定ユニットと、
前記修復すべき画素に対応する修復すべき領域に対して修復処理を実行して、目標ビデオフレームシーケンスを得るように構成されるビデオ修復ユニットと、
を備える装置。
前記カテゴリ決定ユニットは、さらに、
前記修復対象のビデオフレームシーケンスと前記予め設定されたカテゴリ検出モデルとに基づいて、前記修復対象のビデオフレームシーケンスのフレーム間特徴情報とフレーム内特徴情報を決定し、
前記フレーム間特徴情報と前記フレーム内特徴情報とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する初期カテゴリ情報を決定し、
前記初期カテゴリ情報に対して重み付け処理を実行して、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを得る、ように構成される、
請求項８に記載の装置。
前記カテゴリ決定ユニットは、さらに、
前記フレーム間特徴情報と前記フレーム内特徴情報に対して畳み込み演算を行って、畳み込み演算後の特徴情報を得、
前記畳み込み演算後の特徴情報に基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記初期カテゴリ情報を決定する、ように構成される、
請求項９に記載の装置。
モデル訓練ユニットを更に備え、
前記モデル訓練ユニットは、
サンプルビデオフレームシーケンスとサンプルアノテーション情報を取得し、前記サンプルアノテーション情報とは、前記サンプルビデオフレームシーケンスにおける各サンプル画素のカテゴリをアノテーションするために用いられ、
前記サンプルビデオフレームシーケンスと訓練対象のモデルとに基づいて、前記サンプルビデオフレームシーケンスにおけるフレームのサンプルフレーム間特徴とサンプルフレーム内特徴とを決定し、
前記サンプルフレーム間特徴と前記サンプルフレーム内特徴とに基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素のサンプル初期カテゴリ情報を決定し、
前記サンプル初期カテゴリ情報に対して重み付け処理を実行して、前記サンプルビデオフレームシーケンスにおける各サンプル画素の対応するサンプル目標カテゴリを得、
前記サンプル目標カテゴリと前記サンプルアノテーション情報とに基づいて、前記訓練対象のモデルのパラメータを調整することを、前記訓練対象のモデルが収束するまで実行して、訓練済みの予め設定されたカテゴリ検出モデルを得る、ように構成される、
請求項８乃至１０のいずれか１項に記載の装置。
前記モデル訓練ユニットは、さらに
前記サンプルフレーム間特徴と前記サンプルフレーム内特徴に対して、畳み込み演算を行って、サンプル畳み込み特徴を得、
前記サンプル畳み込み特徴に基づいて、前記サンプルビデオフレームシーケンスにおける各サンプル画素の前記サンプル初期カテゴリ情報を決定する、ように構成される、
請求項１１に記載の装置。
前記目標カテゴリは、前記「修復すべき」カテゴリ及び「正常」カテゴリを含んでおり、
前記カテゴリ決定ユニットは、さらに
前記修復対象のビデオフレームシーケンスを前記予め設定されたカテゴリ検出モデルに入力して、前記予め設定されたカテゴリ検出モデルから出力された前記修復対象のビデオフレームシーケンスにおける各修復対象ビデオフレームの確率値画像を得ており、前記確率値画像は、各修復対象ビデオフレームにおける各画素が前記「修復すべき」カテゴリに属する確率を示すために用いられ、
前記確率値画像と予め設定された確率閾値とに基づいて、前記修復対象のビデオフレームシーケンスにおける各画素の対応する前記目標カテゴリを決定する、ように構成される、
請求項８乃至１２のいずれか１項に記載の装置。
前記ビデオ修復ユニットは、さらに、
前記修復すべき画素の位置情報に基づいて、前記修復すべき領域を決定し、
予め設定された修復用ソフトウェアにより、前記修復すべき領域に対して修復処理を実行して、前記目標ビデオフレームシーケンスを得る、ように構成される、
請求項８乃至１３のいずれか１項に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令を格納したメモリと、を備え、
前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサは、請求項１乃至７のいずれか１項に記載の方法を実行する電子機器。
請求項１乃至７のいずれか１項に記載の方法を前記コンピュータに実行させるためのコンピュータ指令を格納した非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１から７のいずれか一項に記載の方法を実行させるコンピュータプログラムを含むコンピュータプログラム製品。