JP6809731B1

JP6809731B1 - ビデオ信号処理システムおよびビデオ信号処理方法

Info

Publication number: JP6809731B1
Application number: JP2019220772A
Authority: JP
Inventors: 福光齊藤
Original assignee: Net Smile Inc
Current assignee: Net Smile Inc
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2021-01-06
Anticipated expiration: 2039-12-05
Also published as: JP2021089684A

Abstract

【課題】ビデオ信号のリアルタイム性を大きく損ねずに、ビデオ信号に基づく動画内の検出対象を検出する。【解決手段】フレーム画像抽出部１１は、所定フレームレートのビデオ信号からフレーム画像を抽出し、オブジェクト検出部１２は、そのフレーム画像における検出対象を検出し、検出した検出対象の位置を出力する。画像加工部２２は、フレームバッファ２１で遅延したビデオ信号の各フレーム画像において、検出された検出対象の位置により指定される画像領域に対して所定の画像処理を施す。特に、オブジェクト検出部１２は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、上述のフレームレートに対応するフレーム周期以下で検出対象の位置を検出し、その演算モデルは、機械学習済みのディープニューラルネットワークを含む。【選択図】図２

Description

本発明は、ビデオ信号処理システムおよびビデオ信号処理方法に関するものである。

ある画像処理装置は、動画ファイルにおける映像の各コマから文字認識技術によって、被写体を特定するテキストとしての個人情報を抽出し、抽出したテキストをダミーテキストに置換している（例えば特許文献１参照）。

特開２０１２−２１７６３１号公報

しかしながら、上述のように記録媒体に保存された動画ファイル内の特定テキストを抽出する場合、その処理時間は重要ではないが、リアルタイムで伝送されてくるビデオ信号における各フレームについて文字認識技術やパターンマッチングなどで文字を検出するようにした場合、処理時間が長くなってしまうとともに、動画の内容（例えば文字の量など）によって処理時間が大きく変化してしまい、ビデオ信号のリアルタイム性を大きく損ねる可能性がある。

本発明は、上記の問題に鑑みてなされたものであり、ビデオ信号のリアルタイム性を大きく損ねずに、ビデオ信号に基づく動画内の特定の検出対象を検出するビデオ信号処理システムおよびビデオ信号処理方法を得ることを目的とする。

本発明に係るビデオ信号処理システムは、所定のフレームレートのビデオ信号からフレーム画像を抽出するフレーム画像抽出部と、そのフレーム画像における検出対象を検出し、検出した検出対象の位置を少なくとも出力するオブジェクト検出部と、フレーム画像抽出部およびオブジェクト検出部の１フレーム画像あたりの処理時間以上の所定ディレイ時間だけビデオ信号を遅延させるフレームバッファと、フレームバッファからのビデオ信号の各フレーム画像において、そのフレーム画像について検出された検出対象の位置により指定される画像領域に対して所定の画像処理を施し、上述のフレームレートで画像処理後のフレーム画像を出力する画像加工部とを備える。そして、オブジェクト検出部は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、上述のフレームレートに対応するフレーム周期以下で、フレーム画像における検出対象の位置を少なくとも検出し、その演算モデルは、機械学習済みのディープニューラルネットワークを含む。上述の検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、上述の画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかである。そして、上述のマスク処理は、特定の画像で上述の画像領域を上書きする処理であり、上述の置換処理は、検出対象に対応する画像を生成し生成した画像で上述の画像領域を置換する処理である。さらに、上述の置換処理は、次の（Ａ），（Ｂ）のいずれかとされる。（Ａ）上述の置換処理は、テキストオブジェクトの場合、テキストオブジェクトのテキストを所定言語に翻訳した翻訳テキストの画像で上述の画像領域を置換する処理である。（Ｂ）上述の置換処理は、画像オブジェクトの場合、検出対象の所定範囲の周辺画像から上述の画像領域の画像を推定して生成し、生成した画像で上述の画像領域を置換する処理である。

本発明に係るビデオ信号処理方法は、所定のフレームレートビデオ信号からフレーム画像を抽出するフレーム画像抽出ステップと、そのフレーム画像における検出対象を検出し、検出した検出対象の位置を少なくとも出力するオブジェクト検出ステップと、フレーム画像抽出ステップおよびオブジェクト検出ステップの１フレーム画像あたりの処理時間以上の所定ディレイ時間だけビデオ信号をフレームバッファで遅延させるステップと、フレームバッファからのビデオ信号の各フレーム画像において、そのフレーム画像について検出された検出対象の位置により指定される画像領域に対して所定の画像処理を施し、上述のフレームレートで画像処理後のフレーム画像を出力するステップとを備える。そして、オブジェクト検出ステップは、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、上述のフレームレートに対応するフレーム周期以下で、フレーム画像における検出対象の位置を少なくとも検出し、その演算モデルは、機械学習済みのディープニューラルネットワークを含む。上述の検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、上述の画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかである。そして、上述のマスク処理は、特定の画像で上述の画像領域を上書きする処理であり、上述の置換処理は、検出対象に対応する画像を生成し生成した画像で上述の画像領域を置換する処理である。さらに、上述の置換処理は、次の（Ａ），（Ｂ）のいずれかとされる。（Ａ）上述の置換処理は、テキストオブジェクトの場合、テキストオブジェクトのテキストを所定言語に翻訳した翻訳テキストの画像で上述の画像領域を置換する処理である。（Ｂ）上述の置換処理は、画像オブジェクトの場合、検出対象の所定範囲の周辺画像から上述の画像領域の画像を推定して生成し、生成した画像で上述の画像領域を置換する処理である。

本発明によれば、ビデオ信号のリアルタイム性を大きく損ねずに、ビデオ信号に基づく動画内の特定の検出対象を検出するビデオ信号処理システムおよびビデオ信号処理方法が得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係るビデオ信号処理システムの構成を示すブロック図である。図２は、図１におけるオブジェクト検出装置２および画像加工装置３の構成を示すブロック図である。図３は、図１に示すビデオ信号処理システムにおける各フレーム画像の処理のタイミングを説明する図である。

以下、図に基づいて本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係るビデオ信号処理システムの構成を示すブロック図である。図１に示すシステムは、ビデオ信号スプリッタ１、オブジェクト検出装置２、および画像加工装置３を備える。

ビデオ信号スプリッタ１は、例えばＳＤＩ（Serial Digital Interface）方式の１系統の、所定フレームレートのビデオ信号を２系統に分配する。例えば、ＮＴＳＣ方式のビデオ信号の場合、フレームレートは、３０ＦＰＳであり、ＰＡＬ方式のビデオ信号の場合、フレームレートは、２５ＦＰＳである。なお、インターレース走査方式のビデオ信号の場合、２フィールドで１フレームとなる。

オブジェクト検出装置２は、ビデオ信号スプリッタ１の出力１系統のビデオ信号を受け付け、そのビデオ信号の各フレーム画像（１フレームごとの静止画像）において検出対象の検出を試み、各フレームについて、検出した検出対象の位置などを示す検出信号を出力する。

画像加工装置３は、ビデオ信号スプリッタ１の別の出力１系統のビデオ信号を受け付け、各フレーム画像について、検出信号により指定される画像領域に対して所定の画像処理を施し、元のビデオ信号と同じフレームレートで各フレーム画像を出力する。

図２は、図１におけるオブジェクト検出装置２および画像加工装置３の構成を示すブロック図である。図２に示すように、オブジェクト検出装置２は、フレーム画像抽出部１１およびオブジェクト検出部１２を備える。

この実施の形態では、オブジェクト検出装置２は、例えばパーソナルコンピュータ、ワークステーションなどのコンピュータであって、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、主記憶装置としてのＲＡＭ（Random Access Memory）、補助記憶装置（ＨＤＤ（Hard Disk Drive）、フラッシュメモリなど）などを備え、ＲＯＭや補助記憶装置からＲＡＭに所定のプログラムをロードしＣＰＵで実行することで、フレーム画像抽出部１１およびオブジェクト検出部１２として動作する。

フレーム画像抽出部１１は、ビデオ信号スプリッタ１から供給される所定フレームレートのビデオ信号からフレーム画像を抽出する。その際、フレーム画像抽出部１１は、必要に応じて、フレーム画像のフォーマット変換を行う。このフォーマット変換では、フレーム画像が、オブジェクト検出部１２の入力に適合するフォーマットに変換される。

オブジェクト検出部１２は、フレーム画像抽出部１１により得られたフレーム画像（ラスター画像）における検出対象を検出し、検出した前記検出対象の位置を少なくとも出力する。この実施の形態では、オブジェクト検出部１２は、検出した検出対象の位置、高さおよび幅を出力する。

特に、オブジェクト検出部１２は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、フレーム周期（つまり、上述のフレームレートの逆数）以下で、フレーム画像における検出対象の位置を少なくとも検出する。そして、その演算モデルは、機械学習済みのディープニューラルネットワークを含む。

そのディープニューラルネットワークは、Ｒ−ＣＮＮ（Region-Convolutional Neural Network）などのＣＮＮである。

そして、検出対象は、テキストオブジェクト、図形オブジェクト、画像オブジェクトなどである。図形オブジェクトは、例えば特定の会社や製品のロゴマークなどである。画像オブジェクトは、例えば、被写体以外の不要な物体（例えば電線など）の画像、放送コード上で禁止される画像などである。

このような検出対象についてアノテーションによりトレーニングデータが作成され、そのトレーニングデータに基づき上述の演算モデル内のディープニューラルネットワークの機械学習が予め行われる。つまり、機械学習によって、検出対象が、オブジェクト検出部１２に指定される。

このようにして、後述の画像加工装置３における画像処理の対象となる画像領域を、ディープニューラルネットワークで特定するため、ディープニューラルネットワークの構成に基づき固定的な演算量が特定され、検出対象の検出において予期せぬ遅延が発生しにくい。つまり、フレーム画像内における検出対象の数に応じて演算量が略変わらない。
例えば、文字認識技術に基づくテキストオブジェクトの検出の場合、まず、フレーム画像内の不特定のオブジェクトが検出され、検出されたオブジェクトの１つ１つに対して文字認識処理が実行されるため、１フレーム画像あたりの演算量は、検出されるオブジェクトの数に線形的に依存し、事前に特定することは困難である。

また、画像加工装置３は、フレームバッファ２１と画像加工部２２とを備える。例えば、画像加工装置３も、例えばパーソナルコンピュータ、ワークステーションなどのコンピュータであって、所定のプログラムを実行することで、画像加工部２２として動作する。

フレームバッファ２１は、ビデオ信号を一時的に記憶するメモリ上の記憶領域を備え、フレーム画像抽出部１１およびオブジェクト検出部１２の１フレーム画像あたりの処理時間以上の所定ディレイ時間だけビデオ信号を遅延させる。なお、ビデオ信号がインターレース方式である場合、フレームバッファ２１によって２フィールド分のビデオ信号から１フレーム分のフレーム画像が構築される。

画像加工部２２は、フレームバッファ２１からのビデオ信号の各フレーム画像において、そのフレーム画像について検出された検出対象の位置などにより指定される画像領域に対して所定の画像処理を施し、上述のフレームレートで画像処理後のフレーム画像を出力する。この実施の形態では、検出対象の位置、高さおよび幅が検出信号としてオブジェクト検出装置２から画像加工装置３に供給され、上述の画像領域は、検出信号で供給された高さおよび幅を有する矩形であって、上述の画像領域の代表点（その矩形の１頂点、中心など）が、検出信号で供給された位置に位置する。

例えば、画像加工部２２は、フレームレートに同期して、オブジェクト検出部１２があるフレーム画像についてのオブジェクト検出を行っているフレーム期間の次のフレームで、画像処理後のそのフレーム画像を出力する。したがって、画像加工部２２からそのフレーム画像が出力されるまで、フレームバッファ２１には、画像処理前のそのフレーム画像が一時的に保持される。

ここでは、画像加工部２２は、上述のフレーム周期以下で、１つのフレーム画像に対してその画像処理を実行する。

そして、この画像処理は、ブラーフィルタ処理、マスク処理、置換処理などである。マスク処理は、特定の画像で上述の画像領域を上書きする処理である。置換処理は、検出対象に対応する画像を生成したり、検出対象に対応する画像を所定のリストから選択したりして、生成または選択した画像で上述の画像領域を置換する処理である。

例えば、テキストオブジェクトの場合の置換処理では、検出対象としてのテキストオブジェクトと、そのテキストオブジェクトのテキストを所定言語に翻訳した翻訳テキストの画像とが関連付けられたリストが予め設けられ、検出された検出対象に対応する翻訳テキストの画像がそのリストに基づいて特定され、特定された翻訳テキストの画像で画像領域が置換される。

例えば、画像オブジェクトの場合の置換処理は、検出対象の所定範囲の周辺画像から画像領域の画像を推定して生成し、生成した画像で画像領域を置換する処理である。例えば、周辺画像における前景オブジェクトや背景オブジェクトの周期性などに基づいて、画像領域の画像が推定される。あるいは、ＧＡＮ（Generative Adversarial Network）などのディープニューラルネットワークを使用した画像生成によって、周辺画像に対応する画像領域の画像を生成するようにしてもよい。

次に、上記ビデオ信号処理システムの動作について説明する。図３は、図１に示すビデオ信号処理システムにおける各フレーム画像の処理のタイミングを説明する図である。

例えば図３に示すように、フレーム画像抽出部１１（フレーム画像抽出）とオブジェクト検出部１２（ＡＩモデル演算、つまり、上述の演算モデルに基づくオブジェクト検出）と画像加工部２２（オブジェクト検出で指定された画像領域に対する画像加工）は並列に動作しており、第（ｉ−１）フレームについてのフレーム画像抽出と、第ｉフレームについてのＡＩモデル演算と、第（ｉ＋１）フレームについての画像加工とが並列に実行される。

また、フレーム画像抽出など、ＡＩモデル演算、および画像加工は、それぞれ１フレーム周期以下で実行される。したがってフレームバッファ２１では、例えば、２フレーム周期程度ビデオ信号が遅延される。

例えば、第ｉフレームについて、フレーム画像抽出部１１がフレーム画像抽出とフォーマット変換とを実行し、オブジェクト検出部１２が、所定の演算モデルを実行し、フレーム画像内に検出対象が含まれている場合には、第ｉフレームにおけるその検出対象についての検出信号を出力する。他方、フレーム画像抽出部１１およびオブジェクト検出部１２が第ｉフレームについての処理を実行している間、第ｉフレームについてのビデオ信号は、フレームバッファ２１で滞留しており、画像加工部２２は、第ｉフレームについての検出信号を受け付けると、その検出信号により指定された画像領域に対して所定の画像処理を実行し、画像処理後のフレーム画像を所定フレームレートで例えばＳＤＩ方式で出力する。

なお、フレーム画像内に検出対象が含まれていない場合、画像加工部２２は、そのフレーム画像について上述の画像処理を実行せずにそのフレーム画像を出力する。

以上のように、上記実施の形態によれば、フレーム画像抽出部１１は、所定のフレームレートのビデオ信号からフレーム画像を抽出し、オブジェクト検出部１２は、そのフレーム画像における検出対象を検出し、検出した検出対象の位置を少なくとも出力する。他方、フレームバッファ２１は、フレーム画像抽出部１１およびオブジェクト検出部１２の１フレーム画像あたりの処理時間以上の所定ディレイ時間だけビデオ信号を遅延させる。画像加工部２２は、フレームバッファ２１からのビデオ信号の各フレーム画像において、そのフレーム画像について検出された検出対象の位置により指定される画像領域に対して所定の画像処理を施し、上述のフレームレートで画像処理後のフレーム画像を出力する。そして、オブジェクト検出部１２は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、上述のフレームレート周期以下で、フレーム画像における検出対象の位置を少なくとも検出し、その演算モデルは、機械学習済みのディープニューラルネットワークを含む。

これにより、ビデオ信号のリアルタイム性を大きく損ねずに、ビデオ信号に基づく動画内の特定の検出対象を検出することができる。

したがって、録画済みのメディアから再生されるビデオ信号や、生放送のためのライブ映像のビデオ信号などを、２〜３フレーム程度の小さな遅延で、略リアルタイムに、上述のオブジェクト検出および画像処理を実行することができる。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態では、検出信号として、検出された検出対象の位置、高さおよび幅が出力されるが、高さおよび幅が予めわかっている場合では、検出信号に、検出された検出対象の高さおよび幅は含まれなくてもよい。

また、上記実施の形態では、ビデオ信号は、ＳＤＩ方式のものであるが、他の方式の信号でもよい。例えば、サーバ上の動画ファイルを生成して得られるストリーミングのビデオ信号でもよい。その場合でも、リアルタイム性が要求される。

本発明は、例えば、動画像における特定の検出対象のマスキングに適用可能である。

１１フレーム画像抽出部
１２オブジェクト検出部
２１フレームバッファ
２２画像加工部

Claims

所定のフレームレートのビデオ信号を処理するビデオ信号処理システムにおいて、
前記ビデオ信号からフレーム画像を抽出するフレーム画像抽出部と、
前記フレーム画像における検出対象を検出し、検出した前記検出対象の位置を少なくとも出力するオブジェクト検出部と、
前記フレーム画像抽出部および前記オブジェクト検出部の１フレーム画像あたりの処理時間以上の所定ディレイ時間だけ前記ビデオ信号を遅延させるフレームバッファと、
前記フレームバッファからの前記ビデオ信号の各フレーム画像において、そのフレーム画像について検出された前記検出対象の位置により指定される画像領域に対して所定の画像処理を施し、前記フレームレートで前記画像処理後のフレーム画像を出力する画像加工部とを備え、
前記オブジェクト検出部は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、前記フレームレートに対応するフレーム周期以下で、前記フレーム画像における検出対象の位置を少なくとも検出し、
前記演算モデルは、機械学習済みのディープニューラルネットワークを含み、
前記検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、
前記画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかであり、
前記マスク処理は、特定の画像で前記画像領域を上書きする処理であり、
前記置換処理は、前記検出対象に対応する画像を生成し生成した前記画像で前記画像領域を置換する処理であり、
前記置換処理は、前記テキストオブジェクトの場合、前記テキストオブジェクトのテキストを所定言語に翻訳した翻訳テキストの画像で前記画像領域を置換する処理であること、
を特徴とするビデオ信号処理システム。
所定のフレームレートのビデオ信号を処理するビデオ信号処理システムにおいて、
前記ビデオ信号からフレーム画像を抽出するフレーム画像抽出部と、
前記フレーム画像における検出対象を検出し、検出した前記検出対象の位置を少なくとも出力するオブジェクト検出部と、
前記フレーム画像抽出部および前記オブジェクト検出部の１フレーム画像あたりの処理時間以上の所定ディレイ時間だけ前記ビデオ信号を遅延させるフレームバッファと、
前記フレームバッファからの前記ビデオ信号の各フレーム画像において、そのフレーム画像について検出された前記検出対象の位置により指定される画像領域に対して所定の画像処理を施し、前記フレームレートで前記画像処理後のフレーム画像を出力する画像加工部とを備え、
前記オブジェクト検出部は、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、前記フレームレートに対応するフレーム周期以下で、前記フレーム画像における検出対象の位置を少なくとも検出し、
前記演算モデルは、機械学習済みのディープニューラルネットワークを含み、
前記検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、
前記画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかであり、
前記マスク処理は、特定の画像で前記画像領域を上書きする処理であり、
前記置換処理は、前記検出対象に対応する画像を生成し生成した前記画像で前記画像領域を置換する処理であり、
前記置換処理は、前記画像オブジェクトの場合、前記検出対象の所定範囲の周辺画像から前記画像領域の画像を推定して生成し、生成した前記画像で前記画像領域を置換する処理であること、
を特徴とするビデオ信号処理システム。
前記画像加工部は、前記フレーム周期以下で、１フレーム画像に対する前記画像処理を実行することを特徴とする請求項１または請求項２記載のビデオ信号処理システム。
所定のフレームレートのビデオ信号を処理するビデオ信号処理方法において、
前記ビデオ信号からフレーム画像を抽出するフレーム画像抽出ステップと、
前記フレーム画像における検出対象を検出し、検出した前記検出対象の位置を少なくとも出力するオブジェクト検出ステップと、
前記フレーム画像抽出ステップおよび前記オブジェクト検出ステップの１フレーム画像あたりの処理時間以上の所定ディレイ時間だけ前記ビデオ信号をフレームバッファで遅延させるステップと、
前記フレームバッファからの前記ビデオ信号の各フレーム画像において、そのフレーム画像について検出された前記検出対象の位置により指定される画像領域に対して所定の画像処理を施し、前記フレームレートで前記画像処理後のフレーム画像を出力するステップとを備え、
前記オブジェクト検出ステップは、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、前記フレームレートに対応するフレーム周期以下で、前記フレーム画像における検出対象の位置を少なくとも検出し、
前記演算モデルは、機械学習済みのディープニューラルネットワークを含み、
前記検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、
前記画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかであり、
前記マスク処理は、特定の画像で前記画像領域を上書きする処理であり、
前記置換処理は、前記検出対象に対応する画像を生成し生成した前記画像で前記画像領域を置換する処理であり、
前記置換処理は、前記テキストオブジェクトの場合、前記テキストオブジェクトのテキストを所定言語に翻訳した翻訳テキストの画像で前記画像領域を置換する処理であること、
を特徴とするビデオ信号処理方法。
所定のフレームレートのビデオ信号を処理するビデオ信号処理方法において、
前記ビデオ信号からフレーム画像を抽出するフレーム画像抽出ステップと、
前記フレーム画像における検出対象を検出し、検出した前記検出対象の位置を少なくとも出力するオブジェクト検出ステップと、
前記フレーム画像抽出ステップおよび前記オブジェクト検出ステップの１フレーム画像あたりの処理時間以上の所定ディレイ時間だけ前記ビデオ信号をフレームバッファで遅延させるステップと、
前記フレームバッファからの前記ビデオ信号の各フレーム画像において、そのフレーム画像について検出された前記検出対象の位置により指定される画像領域に対して所定の画像処理を施し、前記フレームレートで前記画像処理後のフレーム画像を出力するステップとを備え、
前記オブジェクト検出ステップは、１フレーム画像あたりの演算量が事前に特定されている演算モデルを実行して、前記フレームレートに対応するフレーム周期以下で、前記フレーム画像における検出対象の位置を少なくとも検出し、
前記演算モデルは、機械学習済みのディープニューラルネットワークを含み、
前記検出対象は、テキストオブジェクト、図形オブジェクト、および画像オブジェクトのいずれかであり、
前記画像処理は、ブラーフィルタ処理、マスク処理、および置換処理のいずれかであり、
前記マスク処理は、特定の画像で前記画像領域を上書きする処理であり、
前記置換処理は、前記検出対象に対応する画像を生成し生成した前記画像で前記画像領域を置換する処理であり、
前記置換処理は、前記画像オブジェクトの場合、前記検出対象の所定範囲の周辺画像から前記画像領域の画像を推定して生成し、生成した前記画像で前記画像領域を置換する処理であること、
を特徴とするビデオ信号処理方法。
前記フレーム周期以下で、１フレーム画像に対する前記画像処理を実行することを特徴とする請求項４または請求項５記載のビデオ信号処理方法。