JP2022129792A - Area conversion apparatus, area conversion method, and area conversion system - Google Patents
Area conversion apparatus, area conversion method, and area conversion system Download PDFInfo
- Publication number
- JP2022129792A JP2022129792A JP2021028615A JP2021028615A JP2022129792A JP 2022129792 A JP2022129792 A JP 2022129792A JP 2021028615 A JP2021028615 A JP 2021028615A JP 2021028615 A JP2021028615 A JP 2021028615A JP 2022129792 A JP2022129792 A JP 2022129792A
- Authority
- JP
- Japan
- Prior art keywords
- image frame
- target image
- region
- background
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims description 51
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 162
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 39
- 230000009466 transformation Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 18
- 238000002156 mixing Methods 0.000 claims description 15
- 230000002093 peripheral effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims 2
- 230000037430 deletion Effects 0.000 claims 2
- 238000011426 transformation method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 33
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 25
- 238000003786 synthesis reaction Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 22
- 238000007781 pre-processing Methods 0.000 description 13
- 238000003754 machining Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本開示は、領域変換装置、領域変換方法及び領域変換システムに関する。 The present disclosure relates to a domain conversion device, a domain conversion method, and a domain conversion system.
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増えるにつれ、その映像におけるオブジェクトを自在に検出し、正確に識別する機械学習モデルが望まれている。 In recent years, with the progress of IT, a large number of sensors have been installed in society, and an extremely large amount of data has been accumulated. Under such circumstances, various measures for utilizing the accumulated image data are being considered. In particular, as video content such as photographs, moving pictures, and images increases, a machine learning model that can freely detect and accurately identify objects in the video is desired.
任意のオブジェクトやアクティビティを高精度で認識できる機械学習モデルの一つとして、深層畳み込みニューラルネットワークが知られている。深層畳み込みニューラルネットワークは、人間の脳内にある神経細胞(ニューロン)とそのつながり、つまり神経回路網を人工ニューロンという数式的なモデルで表現したものであり、斯かるニューラルネットワークによるオブジェクト検出は、自動運転、自然言語処理、医療研究、ロボット工学等、様々な分野に応用されている。 Deep convolutional neural networks are known as one of the machine learning models that can recognize arbitrary objects and activities with high accuracy. A deep convolutional neural network expresses nerve cells (neurons) and their connections in the human brain, that is, a neural network, with a mathematical model called an artificial neuron, and object detection by such a neural network is automatic. It has been applied to various fields such as driving, natural language processing, medical research, and robotics.
しかし、従来の深層畳み込みニューラルネットワークの構造は、いわゆるシフト不変性を有しておらず、入力する画像のアスペクト比によっては、オブジェクト検出の精度が低下してしまう場合がある。 However, the structure of a conventional deep convolutional neural network does not have so-called shift invariance, and depending on the aspect ratio of the input image, the accuracy of object detection may decrease.
画像のアスペクト比を変更する手段の1つとして、例えば欧州特許第1968008号明細書(特許文献1)がある。 One of means for changing the aspect ratio of an image is, for example, EP 1968008 (Patent Document 1).
特許文献1には、「コンテンツを意識した画像の再構成方法であって、画像スケーリングを用いて画像のサイズを大きくして、それをソース画像とすること、エネルギー関数に従って前記ソース画像からエネルギー画像を生成すること、前記エネルギー画像から、前記ソース画像の一端から向かいの端まで延びる各シームが最小エネルギーを有するように、1つ又は複数のシームを最小化関数に従って求めること、及び各シームを前記ソース画像から削除して、該ソース画像のコンテンツ及び長方形形状を保存するターゲット画像を得て、前記ソース画像を元の画像のサイズに縮小することを含む、コンテンツを意識した画像の再構成方法」が記載されている。
特許文献1では、連結したピクセルの集合であるシーム及びエネルギー関数を用いて画像を再構成することでアスペクト比を変換する。シームは、動的計画法を用いてエネルギーを最小化することで求められる。
In
しかし、特許文献1に記載されている、シーム及びエネルギー関数を用いた画像再構成手段は、動的計画法に多くのコンピューティングリソースを要する上、画像における乱れを引き起こし、品質の低下を招く場合がある。更に、特許文献1における意味的内容(semantic content)の判定は、画像の勾配の大きさとエネルギー関数とに基づいて行われるが、大規模のデータセット等の場合には、画像の意味的内容を十分に捉えるエネルギー関数を規定することが難しく、重要な意味的情報が失われる場合がある。
However, the image reconstruction means using the seam and energy function described in
そこで、本開示は、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を可能にする領域変換手段を提供することを目的とする。 Therefore, the present disclosure appropriately changes the aspect ratio of the image while maintaining the quality and semantic information of the image by applying a background synthesizing means that considers the semantic content of the image, thereby achieving high-precision object detection. It is an object of the present invention to provide a region conversion means that enables
上記の課題を解決するために、代表的な本開示の領域変換装置の一つは、領域変換装置であって、画像シーケンスの中から、領域変換の対象となる対象画像フレームを特定する画像フレーム特定部と、前記対象画像フレームにおける関心領域を検出すると共に、前記関心領域を含む関心領域画像を前記対象画像フレームから抽出するための加工動作の信頼度を計算する関心領域検出部と、前記加工動作の前記信頼度が所定の信頼度基準を満たす場合、前記加工動作を用いて前記関心領域画像を前記対象画像フレームから抽出する画像フレーム加工部と、前記加工動作の前記信頼度が所定の信頼度基準を満たさない場合、又は前記対象画像フレームから抽出された前記関心領域画像が所定のアスペクト比基準を満たさない場合、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する背景合成手段決定部と、前記背景合成手段を用いて、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを前記所定のアスペクト比に変換した最終画像を生成する背景合成部と、を含む。 In order to solve the above problems, one of the representative domain conversion devices of the present disclosure is a domain conversion device, which identifies a target image frame to be domain-converted from an image sequence. a region-of-interest detection unit that detects a region of interest in the target image frame and calculates reliability of a processing operation for extracting a region-of-interest image including the region of interest from the target image frame; an image frame manipulator for extracting the region of interest image from the target image frame using the manipulating action if the confidence of the action meets a predetermined confidence criterion; and If a degree criterion is not met, or if the region of interest image extracted from the target image frame does not meet a predetermined aspect ratio criterion, adding or deleting background pixels to or from the target image frame will reduce the target image frame. Background pixels are added to or deleted from the target image frame using a background synthesis means determination unit that determines a background synthesis means for converting to a predetermined aspect ratio from a plurality of background synthesis means candidates, and the background synthesis means. a background synthesizing unit for generating a final image obtained by converting the target image frame to the predetermined aspect ratio.
本開示によれば、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を可能にする領域変換手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
According to the present disclosure, by applying a background synthesizing means that considers the semantic content of an image, while maintaining the quality and semantic information of the image, the aspect ratio of the image is appropriately changed, and high-precision object detection is achieved. It is possible to provide a region conversion means that enables
Problems, configurations, and effects other than the above will be clarified by the description in the following modes for carrying out the invention.
以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the present invention is not limited by this embodiment. Moreover, in the description of the drawings, the same parts are denoted by the same reference numerals.
まず、図1を参照して、アスペクト比が不適切な場合にニューラルネットワークによるオブジェクト検出精度が低下する一例について説明する。 First, with reference to FIG. 1, an example in which the accuracy of object detection by a neural network decreases when the aspect ratio is inappropriate will be described.
図1は、アスペクト比が不適切な場合にニューラルネットワークによるオブジェクト検出精度が低下する一例を示す図である。 FIG. 1 is a diagram showing an example of deterioration in object detection accuracy by a neural network when the aspect ratio is inappropriate.
上述したように、従来の深層畳み込みニューラルネットワークの構造は、いわゆるシフト不変性を有しておらず、入力する画像のアスペクト比が不適切な場合には、オブジェクト検出の精度が低下してしまうことがある。
一般的には、深層畳み込みニューラルネットワークは、入力する画像を予め定まったアスペクト比に変換した後、オブジェクト検出を行う。画像のアスペクト比を変換する手段としては、例えばサイズ変更やクロッピング等が知られる。
As described above, the structure of the conventional deep convolutional neural network does not have so-called shift invariance, and when the aspect ratio of the input image is inappropriate, the accuracy of object detection decreases. There is
In general, a deep convolutional neural network performs object detection after transforming an input image into a predetermined aspect ratio. As means for converting the aspect ratio of an image, for example, resizing, cropping, and the like are known.
画像のサイズ変更(image resizing)では、画像の意味的内容を考慮せずに、画像における対象領域が拡大又は縮小される。しかし、サイズ変更手段を用いて画像を加工すると、検出の対象となる対象領域の縦横比が維持される保証はなく、対象領域に存在するオブジェクトが歪んだり、変形したりすることがある。その後、ニューラルネットワークは、サイズ変更によってアスペクト比が変換された画像を入力すると、オブジェクトの歪みや変形によって検出精度が限定される。
一例として、図1に示すように、画像101における対象領域102をサイズ変更103によって所定のアスペクト比に変換すると、変換後の画像104におけるオブジェクトの縦横比が維持されず、オブジェクトが変形してしまう。この変形により、ニューラルネットワーク105のオブジェクト検出精度が低下してしまうことがある。
Image resizing involves expanding or contracting a region of interest in an image without considering the semantic content of the image. However, if the image is processed using the resizing means, there is no guarantee that the aspect ratio of the target area to be detected is maintained, and objects existing in the target area may be distorted or deformed. After that, when the neural network receives an image whose aspect ratio has been converted by resizing, the detection accuracy is limited by the distortion or deformation of the object.
As an example, as shown in FIG. 1, if the
また、クロッピング(cropping)では、画像の意味的内容を考慮せずに、画像の中から、所定の大きさの領域が切り出される。しかし、クロッピングを用いて画像を加工すると、切り出される領域の中には、検出の対象となるオブジェクト以外のオブジェクトが含まれたり、オブジェクトの一部が含まれなかったりすることがある。その後、ニューラルネットワークが、クロッピングによってアスペクト比が変換された画像を入力すると、不要のオブジェクトの存在や、検出対象のオブジェクトの変形によって検出精度が限定される。
一例として、図1に示すように、画像111における対象領域112をクロッピング113によって所定のアスペクト比に変換すると、変換後の画像114における対象領域には複数のオブジェクトが含まれてしまう。このように、対象領域に複数のオブジェクトが存在するため、ニューラルネットワーク115のオブジェクト検出精度が低下してしまうことがある。
Also, in cropping, a region of a predetermined size is cut out of an image without considering the semantic content of the image. However, when an image is processed using cropping, an object other than the object to be detected may be included in the cropped area, or a part of the object may not be included. After that, when the neural network inputs the image whose aspect ratio has been converted by cropping, the detection accuracy is limited by the presence of unnecessary objects and deformation of the object to be detected.
As an example, as shown in FIG. 1, when a
そこで、上述したように、本開示によれば、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出が可能な領域変換手段を提供することができる。 Therefore, as described above, according to the present disclosure, by applying a background synthesizing means that considers the semantic content of an image, the aspect ratio of the image is appropriately changed while maintaining the quality and semantic information of the image. It is possible to provide area conversion means capable of high-precision object detection.
次に、図2を参照して、本開示の実施形態を実施するためのコンピュータシステム200について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム200の主要コンポーネントは、1つ以上のプロセッサ201、メモリ202、端末インターフェース203、ストレージインタフェース204、I/O(入出力)デバイスインタフェース205、及びネットワークインターフェース206を含む。これらのコンポーネントは、メモリバス210、I/Oバス211、バスインターフェースユニット220、及びI/Oバスインターフェースユニット221を介して、相互的に接続されてもよい。
Referring now to Figure 2, a
コンピュータシステム200は、プロセッサ201と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)201A及び201Bを含んでもよい。ある実施形態では、コンピュータシステム200は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム200は単一のCPUシステムであってもよい。各プロセッサ201は、メモリ202に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ202は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ202は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ202は、領域変換アプリケーション230を格納していてもよい。ある実施形態では、領域変換アプリケーション230は、後述する機能をプロセッサ201上で実行する命令又は記述を含んでもよい。
In some embodiments,
ある実施形態では、領域変換アプリケーション230は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、領域変換アプリケーション230は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット220、プロセッサ201、またはコンピュータシステム200の他のハードウェアと直接通信するように提供されてもよい。
In some embodiments, the
コンピュータシステム200は、プロセッサ201、メモリ202、表示システム240、及びI/Oバスインターフェースユニット221間の通信を行うバスインターフェースユニット220を含んでもよい。I/Oバスインターフェースユニット221は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス211と連結していてもよい。I/Oバスインターフェースユニット221は、I/Oバス211を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット203,204,205、及び206と通信してもよい。
表示システム240は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置241に提供することができる。また、コンピュータシステム200は、データを収集し、プロセッサ201に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム200は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム240は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置241に接続されてもよい。
For example, the
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット203は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス250の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス250及びコンピュータシステム200に対して入力データや指示を入力し、コンピュータシステム200からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス250を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
The I/O interface unit provides the ability to communicate with various storage or I/O devices. For example, the
ストレージインタフェース204は、1つ又は複数のディスクドライブや直接アクセスストレージ装置260(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置260は、任意の二次記憶装置として実装されてもよい。メモリ202の内容は、ストレージ装置260に記憶され、必要に応じてストレージ装置260から読み出されてもよい。I/Oデバイスインタフェース205は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース206は、コンピュータシステム200と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク270であってもよい。
Storage interface 204 connects to one or more disk drives or direct access storage device 260 (typically a magnetic disk drive storage device, but an array of disk drives or other storage device configured to appear as a single disk drive). ) can be attached. In some embodiments,
ある実施形態では、コンピュータシステム200は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム200は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
In some embodiments,
次に、図3を参照して、本開示の実施形態に係る領域変換システムの構成について説明する。 Next, the configuration of the domain conversion system according to the embodiment of the present disclosure will be described with reference to FIG.
図3は、本開示の実施形態に係る領域変換システム300の構成の一例を示す図である。図3に示す領域変換システム300は、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を円滑にする領域変換手段を提供するためのシステムである。図3に示すように、本開示の実施形態に係る領域変換システム300は、画像取得装置301、記憶部302、領域変換装置303及びクライアント端末304を主に含む。図3に示す領域変換システム300の各機能部の機能は、図2を参照して説明したコンピュータシステム200によって実施されてもよい。
また、図3に示す画像取得装置301、記憶部302、領域変換装置303及びクライアント端末304は、インターネットやLAN(Local Area Network)等、任意の通信ネットワーク(図3に図示せず)を介して接続されてもよい。
FIG. 3 is a diagram illustrating an example configuration of a
Also, the
画像取得装置301は、ニューラルネットワークによる解析の対象となる画像シーケンスを取得するための機能部である。ここでの画像取得装置301は、例えば、RGBカメラ、赤外線カメラ、LiDarセンサ等、任意の画像や映像を取得するように構成された装置であってもよい。一例として、画像取得装置301は、駅のホームを監視するように設置された監視カメラであってもよい。画像取得装置3601は、取得した画像シーケンスを記憶部302に格納すると共に、領域変換装置303に送信してもよい。
なお、ここでの画像シーケンスとは、少なくとも1つの画像を含む画像の集合であり、例えば映像であってもよい。
The
Note that the image sequence here is a set of images including at least one image, and may be, for example, a video.
記憶部302は、画像取得装置301によって取得された画像シーケンスや、後述するニューラルネットワーク330による解析結果を記憶するための記憶部である。ここでの記憶部302は、例えばハードディスクドライブやソリッドステートドライブ等のローカルストレージであってもよく、クラウドのような分散型ストレージサービスであってもよい。
The
領域変換装置303は、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更するための装置である。ここでの意味的情報とは、画像におけるオブジェクトやアクティビティを判定するための情報である。また、ここでの背景合成手段とは、背景画素を追加又は削除することで対象画像のフレームを所定のアスペクト比に変換するための手段である。
図3に示すように、領域変換装置303は、前処理部310、領域変換部320、ニューラルネットワーク330及び出力部340を含む。
The area conversion device 303 is a device for appropriately changing the aspect ratio of an image while maintaining the quality and semantic information of the image by applying background synthesizing means that considers the semantic content of the image. Semantic information here is information for determining an object or activity in an image. Also, the background synthesizing means here is means for converting the frame of the target image into a predetermined aspect ratio by adding or deleting background pixels.
As shown in FIG. 3, the domain transforming device 303 includes a
前処理部310は、画像取得装置301によって取得された画像シーケンスに対する前処理を実行するための機能部である。例えば、前処理部3710は、前処理として、画像取得装置301によって取得された画像シーケンスを所定のデータ形式に変換したり、対象外の画像を画像シーケンスから削除したり、暗号化された情報を復号化したりしてもよい。
The
領域変換部320は、上述した背景合成手段を決定し、実行するための機能部である。図3に示すように、領域変換部320は、画像フレーム特定部321、関心領域検出部322、画像フレーム加工部323、背景合成手段決定部324及び背景合成部325を含む。
The area conversion unit 320 is a functional unit for determining and executing the above-described background synthesizing means. As shown in FIG. 3 , the region conversion section 320 includes an image frame identification section 321 , a region of
画像フレーム特定部321は、画像取得装置301によって取得された画像シーケンスの中から、領域変換の対象となる対象画像フレームを特定する機能部である。
関心領域検出部322は、画像フレーム特定部321によって特定された対象画像フレームにおける関心領域を検出すると共に、当該関心領域を含む関心領域画像を対象画像フレームから抽出するための加工動作の信頼度を計算する機能部である。
画像フレーム加工部323は、関心領域画像を対象画像フレームから抽出するための加工動作の信頼度が所定の信頼度基準を満たす場合、加工動作を用いて関心領域画像を対象画像フレームから抽出するための機能部である。
背景合成手段決定部324は、関心領域画像を対象画像フレームから抽出するための加工動作の信頼度が所定の信頼度基準を満たさない場合、又は対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たさない場合、対象画像フレームに背景画素を追加又は削除することで対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定するための機能部である。
背景合成部325は、背景合成手段決定部324によって決定された背景合成手段を用いて、対象画像フレームに背景画素を追加又は削除することで対象画像フレームを所定のアスペクト比に変換するための機能部である。
The image frame identification unit 321 is a functional unit that identifies a target image frame to be subjected to area conversion from among the image sequences acquired by the
The region-of-
When the reliability of the processing operation for extracting the region of interest image from the target image frame satisfies a predetermined reliability standard, the image frame processing unit 323 uses the processing operation to extract the region of interest image from the target image frame. is the functional part of
If the reliability of the processing operation for extracting the region-of-interest image from the target image frame does not satisfy a predetermined reliability standard, or if the region-of-interest image extracted from the target image frame A functional unit for determining a background synthesizing means for converting the target image frame to a predetermined aspect ratio by adding or deleting background pixels to the target image frame from a plurality of background synthesizing means candidates when the aspect ratio standard is not satisfied. is.
The background synthesizing unit 325 uses the background synthesizing means determined by the background synthesizing means determining unit 324 to add or delete background pixels to or from the target image frame, thereby converting the target image frame into a predetermined aspect ratio. Department.
ニューラルネットワーク330は、領域変換部320によって適切なアスペクト比に変換された画像(最終画像)を入力し、解析するためのニューラルネットワークである。例えば、ニューラルネットワーク330は、領域変換部320によって適切なアスペクト比に変換された画像に対するオブジェクト検出を行うように構成された深層畳み込みニューラルネットワークであってもよい。ニューラルネットワーク330による結果を示す解析結果は、記憶部302に格納されると共に、出力部340に転送される。
ある実施形態では、ニューラルネットワーク330は、入力層と、1層以上の中間層と、出力層とを畳み込み演算層として含む。ニューラルネットワーク330では、N層目の中間層は、N-1層目から出力される値を入力値として入力し、当該入力値に対して、重み係数を有する複数の重みフィルタを用いて畳み込み演算を行うことで、N+1層目に出力する値を生成するように構成されている。この畳み込み演算により、ニューラルネットワーク3830は、画像の特徴量を抽出し、オブジェクト検出等の処理を行うことができる。
The
In one embodiment,
出力部340は、ニューラルネットワーク330によって生成される解析結果を出力するための機能部である。出力部340は、例えば、ニューラルネットワーク330によって生成される解析結果を、インターネット等の通信ネットワークを介して、所定の通知先に送信してもよい。例えば、ある実施形態では、出力部340は、ニューラルネットワーク330によって生成される解析結果をクライアント端末304に送信してもよい。
クライアント端末304は、ニューラルネットワークの解析を依頼したクライアントが使用する装置であり、例えばデスクトップパソコン、ノートパソコン、スマートフォンやタブレット等の携帯端末等、任意のデバイスであってもよい。
The
The client terminal 304 is a device used by the client who requested the analysis of the neural network, and may be any device such as a desktop computer, a notebook computer, or a mobile terminal such as a smart phone or tablet.
以上説明したように構成した領域変換システム300によれば、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を円滑にする領域変換手段を提供することができる。
According to the
次に、図4を参照して、本開示の実施形態に係る領域変換の一例である背景合成について説明する。 Next, background synthesis, which is an example of area conversion according to an embodiment of the present disclosure, will be described with reference to FIG.
図4は、本開示の実施形態に係る領域変換の一例である背景合成を説明するための図である。上述したように、本開示は、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更することができる。 FIG. 4 is a diagram for explaining background synthesis, which is an example of area conversion according to an embodiment of the present disclosure. As described above, the present disclosure can appropriately change the aspect ratio of an image while maintaining the quality and semantic information of the image by applying the background synthesis means that considers the semantic content of the image. .
本開示の実施形態に係る背景合成手段とは、領域変換の対象となる対象画像フレームに、
背景画素を追加又は削除することで対象画像のフレームを所定のアスペクト比に変換するための手段である。また、本開示の実施形態に係る背景合成は、画像の意味的内容を考慮した上で行われてもよい。例えば、後述するように、ある実施形態では、対象画像のフレームを所定のアスペクト比に変換する背景合成手段は、ニューラルネットワークの解析に有用な意味的情報を多く含む関心領域や顕著性中心に基づいて行われてもよい。
The background synthesizing means according to the embodiment of the present disclosure is a target image frame to be subjected to area conversion,
Means for converting the frame of the target image to a predetermined aspect ratio by adding or deleting background pixels. Also, the background synthesis according to the embodiment of the present disclosure may be performed after considering the semantic content of the image. For example, as will be described later, in one embodiment, the background synthesizing means for converting frames of the target image to a predetermined aspect ratio is based on regions of interest and saliency centers that contain a lot of semantic information useful for neural network analysis. may be done.
本開示の実施形態に係る背景合成手段の一例として、例えば図4に示すように、領域変換の対象となる対象画像フレーム401を所望の大きさに均一にスケーリングすると共に、背景画素からなる第1の合成領域402を対象画像フレーム401の上部に追加し、背景画素からなる第2の合成領域403を対象画像フレーム401の下部に追加することができる。ある実施形態では、第1の合成領域402及び第2の合成領域403を追加する位置は、対象画像フレーム401の関心領域や顕著性中心に基づいて行われてもよい。
これにより、ニューラルネットワークの解析に有用な意味的情報を維持しつつ、画像のアスペクト比を適宜に変更することができる。
As an example of the background synthesizing means according to the embodiment of the present disclosure, for example, as shown in FIG. 4, a
As a result, the aspect ratio of the image can be appropriately changed while maintaining semantic information useful for neural network analysis.
なお、以上では、本開示の実施形態に係る背景合成の概念を説明するために、背景合成の一例について説明したが、後述するように、本開示の実施形態に係る背景合成は、画像の特性に基づいて、いくつかの背景合成手段の候補の中から選択される。これにより、領域変換の対象となる対象画像フレーム毎に、当該対象画像フレームに適した領域変換処理を施すことができる。 In the above, an example of background synthesis has been described in order to explain the concept of background synthesis according to the embodiment of the present disclosure. is selected from among several candidates for background synthesizing means. As a result, for each target image frame to be subjected to area conversion, the area conversion process suitable for the target image frame can be performed.
次に、図5を参照して、本開示の実施形態に係る領域変換処理の流れについて説明する。 Next, with reference to FIG. 5, the flow of area conversion processing according to the embodiment of the present disclosure will be described.
図5は、本開示の実施形態に係る領域変換処理500の流れを示すフローチャートである。図5に示す領域変換処理500は、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を円滑にする領域変換を行うための処理であり、領域変換部(例えば図3に示す領域変換部320)の各機能部によって実行される。
FIG. 5 is a flow chart showing the flow of
まず、ステップS501では、画像フレーム特定部(例えば図3に示す画像フレーム特定部321)は、画像取得装置(例えば図3に示す画像取得装置301)によって取得された画像シーケンスの中から、領域変換の対象となる対象画像フレームを特定する。ここでの対象画像フレームは、例えば画像シーケンスを構成する複数のフレームの中から、ニューラルネットワークの解析の対象となるオブジェクトを含む画像フレームであってもよい。画像フレーム特定部は、例えばユーザによって予め指定されているオブジェクトに対する類似度が所定の類似度基準を満たすオブジェクトを含む画像フレームを対象画像フレームとして特定してもよい。
また、後述するように、ある実施形態では、画像フレーム特定部は、所定の影響度基準を満たすクラスのオブジェクトを含む画像フレームを対象画像フレームとして特定してもよい。
First, in step S501, an image frame identification unit (for example, the image frame identification unit 321 shown in FIG. 3) selects an image sequence acquired by an image acquisition device (for example, the
Further, as will be described later, in one embodiment, the image frame identifying unit may identify, as the target image frame, an image frame that includes an object of a class that satisfies a predetermined influence criterion.
次に、ステップS502では、前処理部(例えば図3に示す前処理部310)は、ステップS501で特定された対象画像フレームに対するテクスチャフィルタリング(Texture Smoothing)を行う。ここでのテクスチャフィルタリングは、近傍の色を用いて画素にテクスチャマッピングするために、テクスチャ色を決定するために行われる方法である。言い換えれば、テクスチャフィルタリング処理では、前処理部は、テクスチャの画素をより小さな画素単位に分けて、それらを混ぜ合わせる。ここでのテクスチャフィルタリングの手法としては、例えばGaussian Blur, Median Blur, Total Relative Variation Regularization等が考えられる
対象画像フレームに対するテクスチャフィルタリングを行うことにより、後述する関心領域の検出や背景合成等の精度を向上させることができる。
Next, in step S502, a preprocessing unit (for example, the
次に、ステップS503では、関心領域検出部(例えば図3に示す関心領域検出部322)は、ステップS502の処理を受けた対象画像フレームにおける関心領域を検出すると共に、当該関心領域を含む関心領域画像を対象画像フレームから抽出するための加工動作の信頼度を計算する。
ここでの関心領域とは、対象画像フレームの中で、検出対象のオブジェクトを含む領域である。例えば、検出対象のオブジェクトが「黒い車」の場合、関心領域は対象画像フレームにおいて黒い車を含む可能性が高い領域である。
また、ここでの加工動作とは、関心領域画像を対象画像フレームから抽出するための動作であり、例えばクロッピング(cropping)やカービング(carving)等を含んでもよい。
また、ここでの信頼度とは、上述した加工動作の適切性を表す尺度であり、後述するように、対象画像フレームのアスペクト比を変更するための領域変換手段を決定するために用いられる。
更に、ステップS503では、関心領域検出部は、対象画像フレームの顕著性マップ(サリエンシーマップ)を計算し、この顕著性マップに基づいて、顕著性の中心を示す顕著性中心を判定してもよい。ここでの顕著性マップは、対象画像フレームに対応する顕著性(サリエンシー)の強さを表すデータ構造であり、対象画像フレームに対する「人の興味」の度合いを示す。この顕著性マップは、例えば対象画像フレームにおけるオブジェクトのエッジや色などの特徴に基づいて求められてもよい。
なお、関心領域検出部の詳細は図6を参照して説明するため、ここではその説明を省略する。
Next, in step S503, a region-of-interest detection unit (for example, the region-of-
Here, the region of interest is a region including the object to be detected in the target image frame. For example, if the object to be detected is a "black car", the region of interest is the region in the target image frame that is likely to contain the black car.
Further, the processing operation here is an operation for extracting the region-of-interest image from the target image frame, and may include cropping, carving, and the like, for example.
Further, the reliability here is a scale representing the appropriateness of the processing operation described above, and is used to determine the area conversion means for changing the aspect ratio of the target image frame, as described later.
Furthermore, in step S503, the region-of-interest detection unit calculates a saliency map (saliency map) of the target image frame, and determines a saliency center indicating the saliency center based on this saliency map. good. The saliency map here is a data structure representing the strength of saliency corresponding to the target image frame, and indicates the degree of "human interest" in the target image frame. This saliency map may be determined, for example, based on features such as edges and colors of objects in the target image frame.
Note that the details of the region-of-interest detection unit will be described with reference to FIG. 6, so description thereof will be omitted here.
次に、ステップS504では、画像フレーム加工部(例えば、図3に示す画像フレーム加工部323)は、ステップS503で計算した、関心領域画像を対象画像フレームから抽出するための加工動作の信頼度が所定の信頼度基準を満たすか否かを判定する。ここでの信頼度基準は、例えば領域変換システム300の管理者によって設定されてもよく、過去の加工動作の実績等に基づいて設定されてもよい。
加工動作の信頼度が所定の信頼度基準を満たす場合、本処理はステップS505へ進み、加工動作の信頼度が所定の信頼度基準を満たさない場合、本処理はステップS507へ進む。
Next, in step S504, the image frame processing unit (for example, the image frame processing unit 323 shown in FIG. 3) determines that the reliability of the processing operation for extracting the region-of-interest image from the target image frame calculated in step S503 is A determination is made as to whether or not a predetermined reliability criterion is met. The reliability standard here may be set, for example, by an administrator of the
If the reliability of the machining operation satisfies the predetermined reliability criterion, the process proceeds to step S505, and if the reliability of the machining operation does not satisfy the predetermined reliability criterion, the process proceeds to step S507.
ステップS505では、画像フレーム加工部は、関心領域画像を対象画像フレームから抽出するための加工動作を実行する。例えば、画像フレーム加工部は、関心領域画像を対象画像フレームから抽出するための加工動作として、画像のクロッピング又はカービングを実行してもよい。
ここでは、クロッピングとは、対象画像フレームの周縁部から不要(関心領域画に含まれない)な画素を削除することで、関心領域のみを示す関心領域画像を得る手段である。また、ここでのカービングとは、対象画像フレームの任意の領域(周縁部とは限らず)を切り出して削除することで関心領域のみを示す関心領域画像を得る手段である。カービングは、例えば、関心領域が複数存在する場合に、それぞれの関心領域の間に存在する不要な背景画素を削除することで複数の関心領域のみを示す関心領域画像を求める際等に有効である。
In step S505, the image frame processing unit executes a processing operation for extracting the region-of-interest image from the target image frame. For example, the image frame processor may perform image cropping or carving as the processing operation for extracting the region of interest image from the target image frame.
Here, cropping is means for obtaining a region-of-interest image showing only the region of interest by deleting unnecessary pixels (not included in the region-of-interest image) from the periphery of the target image frame. Carving here is means for obtaining a region-of-interest image showing only the region of interest by cutting out and deleting an arbitrary region (not limited to the peripheral portion) of the target image frame. Carving is effective, for example, when there are multiple regions of interest and a region of interest image showing only the plurality of regions of interest is obtained by removing unnecessary background pixels existing between the regions of interest. .
ステップS506では、背景合成手段決定部(例えば、図3に示す背景合成手段決定部324)は、対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たすか否かを判定する。このアスペクト比基準とは、例えばニューラルネットワークに入力される対象画像フレームの目的のアスペクト比を規定する基準であってもよい。
対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たす場合、本処理はステップS509へ進み、対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たさない場合、本処理はステップS507へ進む。
In step S506, the background synthesizing means determining unit (for example, the background synthesizing means determining unit 324 shown in FIG. 3) determines whether or not the region of interest image extracted from the target image frame satisfies a predetermined aspect ratio standard. This aspect ratio criterion may be, for example, a criterion that defines the desired aspect ratio of the target image frame input to the neural network.
If the region of interest image extracted from the target image frame meets the predetermined aspect ratio criterion, the process proceeds to step S509; if the region of interest image extracted from the target image frame does not meet the predetermined aspect ratio criterion, the present Processing proceeds to step S507.
ステップS507では、背景合成手段決定部324は、対象画像フレームに背景画素を追加又は削除することで当該対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する。ある実施形態では、背景合成手段決定部324は、当該対象画像フレームの特性(関心領域の大きさ、検出対象のオブジェクトの構成等)に基づいて、複数の背景合成手段の候補のそれぞれに対して、当該背景合成手段の適切性を示す適正スコアを割り当てた後、所定の適正スコア(例えば、適正スコアが最も高い背景合成手段の候補)を決定してもよい。
なお、複数の背景合成手段の候補の詳細については後述するため、ここではその説明を省略する。
In step S507, the background synthesizing means determination unit 324 determines a background synthesizing means for converting the target image frame to a predetermined aspect ratio by adding or deleting background pixels to or from the target image frame from a plurality of background synthesizing means candidates. do. In one embodiment, the background synthesizing means determination unit 324 selects the background synthesizing means for each of the plurality of candidates for background synthesizing means based on the characteristics of the target image frame (size of the region of interest, configuration of the object to be detected, etc.). , after assigning a suitability score indicating suitability of the background synthesizing means, a predetermined suitability score (for example, a candidate for the background synthesizing method with the highest suitability score) may be determined.
Since the details of the plurality of candidates for background synthesizing means will be described later, the description thereof will be omitted here.
次に、ステップS508では、背景合成部325は、ステップS507で背景合成手段決定部324によって決定された背景合成手段を用いて、対象画像フレームに背景画素を追加又は削除することで当該対象画像フレームを所定のアスペクト比に変換する。上述したように、ある実施形態では、背景合成部は、関心領域や顕著性中心に基づいて行われてもよい。これにより、ニューラルネットワークの解析に有用な意味的情報を維持しつつ、画像のアスペクト比を適宜に変更することができる。
なお、以上では、対象画像フレームを所定のアスペクト比に変換する場合を一例として説明したが、本開示はこれに限定されず、例えばステップS507で決定した背景合成手段をステップS505で抽出された関心領域画像に対して行うことで、関心領域画像を所定のアスペクト比に変換してもよい。
Next, in step S508, the background synthesizing unit 325 uses the background synthesizing means determined by the background synthesizing means determining unit 324 in step S507 to add or delete background pixels to or from the target image frame. to a given aspect ratio. As noted above, in some embodiments, the background composition may be based on regions of interest or saliency centers. As a result, the aspect ratio of the image can be appropriately changed while maintaining semantic information useful for neural network analysis.
In the above, the case where the target image frame is converted to a predetermined aspect ratio has been described as an example, but the present disclosure is not limited to this. Performing this on the region image may convert the region of interest image to a predetermined aspect ratio.
次に、ステップS509では、前処理部310は、対象画像フレームをニューラルネットワークに入力するための前処理を行う。例えば、ある実施形態では、前処理部は、前処理として、対象画像フレームを所定のデータ形式に変換したり、対象画像フレームを圧縮したり、対象画像フレームを回転したりしてもよい。
Next, in step S509, the
ステップS510では、ニューラルネットワーク(例えば、図3に示すニューラルネットワーク330)は、対象画像フレームに対する解析を行い、この解析の結果を示す解析結果を出力する。一例として、ニューラルネットワークは、領域検出部によって適切なアスペクト比に変換された画像に対するオブジェクト検出を行い、このオブジェクト検出の結果を示す解析結果を生成してもよい。
In step S510, a neural network (for example,
以上説明した領域変換処理500によれば、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更することができる。また、このように適切なアスペクト比に変更された画像をニューラルネットワークによる解析の対象とすることで、オブジェクト検出の精度を向上させることができる。
According to the
次に、図6~図8を参照して、本開示の実施形態に係る関心領域検出部の処理について説明する。 Next, processing of the region-of-interest detection unit according to the embodiment of the present disclosure will be described with reference to FIGS. 6 to 8. FIG.
図6は、本開示の実施形態に係る関心領域検出部322の処理の一例を示す図である。
上述したように、本開示の実施形態に係る関心領域検出部322は、入力する対象画像フレーム601における関心領域602及び顕著性中心603を検出すると共に、関心領域602を含む関心領域画像を対象画像フレームから抽出するための加工動作の信頼度604を計算するための機能部である。
ここでの関心領域602とは、対象画像フレーム601の中で、検出対象のオブジェクトを含む領域である。例えば、検出対象のオブジェクトが「黒い車」の場合、関心領域602は対象画像フレーム601において黒い車を含む可能性が高い領域である。
ここでの顕著性中心603とは、対象画像フレーム601における顕著性の中心である。言い換えれば、顕著性中心603は、対象画像フレーム601において、視覚的に重要(visually salient)な領域の中心の座標を示す。一例として、顕著性中心603は、例えば関心領域602の中心を示す座標であってもよい。
FIG. 6 is a diagram illustrating an example of processing of the region-of-
As described above, the region of
The region of
The
ある実施形態では、関心領域検出部322は、画像における関心領域602を検出するように訓練されたニューラルネットワークモデルであってもよい。関心領域検出部322は、例えば、予測する関心領域と、グランドトゥルースに示される関心領域とのIoU(Intersection over Union)スコアを最大化するように訓練されてもよい。
In one embodiment, region of
信頼度604とは、クロッピングやカービングなどの加工動作の適切性を表す尺度であり、対象画像フレームのアスペクト比を変更するための領域変換手段を決定するために用いられる。図6に示すように、ここでの信頼度604は、クロッピングやカービングなどの加工動作によって抽出される領域の座標を規定するバウンディングボックス、クロッピングの適切性を示すクロッピング親和度、カービングの適切性を示すカーブ親和度、及び顕著性中心603の確実性を示す顕著性中心信頼度を含んでもよい。
The
ある実施形態では、関心領域検出部322は、対象画像フレームにおける関心領域の空間的分布に対する統計的分析を行ってもよい。例えば、ある実施形態では、関心領域検出部322は、過去に解析した画像について検出した関心領域の空間的分布及び出現頻度に基づいて、現在分析している対象画像フレームの関心領域を推定してもよい。
一例として、過去に解析した道路の画像において、信号機が左側に存在する頻度が多かった(例えば、所定の出現頻度基準を満たす)場合、関心領域検出部322は、道路の画像を入力すると、信号機を含む関心領域が当該画像の左側に存在することを推定してもよい。この関心領域の空間的分布に対する統計的分析の結果は、関心領域の検出に用いられてもよく、背景合成手段を決定するために用いられてもよい。
In some embodiments, the region of
As an example, in the image of the road analyzed in the past, when the frequency of traffic lights existing on the left side is high (for example, a predetermined appearance frequency criterion is satisfied), the region of
図7は、本開示の実施形態に係る関心領域検出部によって計算される加工動作の信頼度の一例を示す図である。 FIG. 7 is a diagram showing an example of the reliability of the machining operation calculated by the region-of-interest detection unit according to the embodiment of the present disclosure.
上述したように、本開示の実施形態に係る関心領域検出部322は、クロッピングやカービング等の加工動作のそれぞれについて、当該加工動作の適切性を示す信頼度を計算する。また、この信頼度は、例えばクロッピングの適切性を示すクロッピング親和度や、カービングの適切性を示すカービング親和度を含んでもよい。関心領域検出部322によって計算されるクロッピング親和度が所定のクロッピング親和度基準を満たす場合に、上述した画像フレーム加工部は、クロッピング手段を用いて対象画像フレームを加工し、カービング親和度が所定のカービング親和度基準を満たす場合には、画像フレーム加工部は、カービング手段を用いて対象画像フレームを加工する。
一方、加工動作の信頼度が所定の信頼度基準を満たさない場合(つまり、クロッピング親和度が所定のクロッピング親和度基準を満たさない、且つ、カービング親和度が所定のカービング親和度基準を満たさない場合)、又は対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たさない場合、上述した背景合成手段決定部は、対象画像フレームに背景画素を追加又は削除することで対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する。
As described above, the region-of-
On the other hand, if the reliability of the machining operation does not meet the predetermined reliability criterion (that is, if the cropping affinity does not satisfy the predetermined cropping affinity criterion and the carving affinity does not satisfy the predetermined carving affinity criterion ), or if the region-of-interest image extracted from the target image frame does not meet the predetermined aspect ratio standard, the above-described background synthesis means determining unit adds or deletes background pixels to the target image frame to render the target image frame as A background synthesizing means for converting to a predetermined aspect ratio is determined from a plurality of background synthesizing means candidates.
図7に示す対象画像フレーム701を一例として検討する。上述したように、関心領域検出部322は、対象画像フレーム701を入力した後、対象画像フレーム701の関心領域702と、顕著性中心703を計算する。その後、関心領域検出部322は、計算した関心領域702と、顕著性中心703とに基づいて、クロッピング親和度及びカービング親和度を計算する。
上述したように、クロッピング親和度は、対象画像フレームに対してクロッピングを仮に実行した場合、意味的情報(例えば、関心領域の画素、顕著性中心の画素)が失われれば失われる程低くなる。言い換えれば、クロッピング親和度は、クロッピングによって失われると予測されている情報が多い程、低くなる。
同様に、カービング親和度は、対象画像フレームに対してカービングを仮に実行した場合、意味的情報(例えば、関心領域の画素、顕著性中心の画素)が失われれば失われる程低くなる。言い換えれば、カービング親和度は、カービングによって失われると予測されている情報が多い程、低くなる。
例えば、図7に示すような、関心領域702において検証対象のオブジェクトが多数存在している場合、仮にクロッピングを実行すると、検証対象のオブジェクトの画素が失われる可能性が高い。従って、クロッピングの適切性が低く、クロッピング親和度が、クロッピング親和度基準を満たさない値となる。
同様に、関心領域702において検証対象のオブジェクトが密接であり、オブジェクトとオブジェクトとの間が狭い場合、仮にカービングを実行すると、検証対象のオブジェクトの画素が失われる可能性が高い。従って、カービングの適切性が低く、カービング親和度が、カービング親和度基準を満たさない値となる。
Consider the
As mentioned above, the cropping affinity is lower the more semantic information (eg, region of interest pixels, saliency center pixels) is lost if cropping is performed on the target image frame. In other words, the cropping affinity is lower the more information is expected to be lost by cropping.
Similarly, carving affinity is lower the more semantic information (eg, region of interest pixels, saliency center pixels) is lost if carving is performed on the target image frame. In other words, the carving affinity is lower the more information is expected to be lost by carving.
For example, if there are many objects to be verified in a region of
Similarly, if the objects under verification are close together in the region of
図8は、本開示の実施形態に係る関心領域検出部322によって計算される加工動作の信頼度の別の一例を示す図である。
FIG. 8 is a diagram showing another example of the reliability of the machining operation calculated by the region-of-
図8に示す対象画像フレーム801を一例として検討する。上述したように、関心領域検出部322は、対象画像フレーム801を入力した後、対象画像フレーム801の関心領域802と、顕著性中心803とを計算する。その後、関心領域検出部322は、計算した関心領域802と、顕著性中心803とに基づいて、クロッピング親和度及びカービング親和度を計算する。
対象画像フレーム801のような、関心領域802が1つだけであり、関心領域802にはオブジェクトが1つしか存在しない場合、関心領域802のみを示す関心領域画像をクロッピングで抽出することが可能である。従って、クロッピングの適切性が高く、クロッピング親和度が、クロッピング親和度基準を満たす値となる。
同様に、対象画像フレーム801のような、関心領域802が1つだけであり、関心領域802にはオブジェクトが1つしか存在しない場合、関心領域802のみを示す関心領域画像をカービングで抽出することも可能である。従って、カービングの適切性が高く、カービング親和度が、カービング親和度基準を満たす値となる。ただし、原則として、クロッピングはカービングに比べて、必要なコンピューティング資源が低いため、クロッピングとカービングとの両方が親和度基準を満たす場合、コンピューティング資源を抑える観点から、クロッピングを用いることが望ましい。
Consider the
If there is only one region of
Similarly, if there is only one region of
また、図8に示す対象画像フレーム811をもう一例として検討する。上述したように、関心領域検出部322は、対象画像フレーム811を入力した後、対象画像フレーム811の関心領域812と、顕著性中心813とを計算する。その後、関心領域検出部322は、計算した関心領域812と、顕著性中心813とに基づいて、クロッピング親和度及びカービング親和度を計算する。
対象画像フレーム811のような、関心領域812が複数存在する場合、仮にクロッピングを実行すると、複数の関心領域812の間の不要な背景画素を含んでしまう可能性が高い。従って、クロッピングの適切性が低く、クロッピング親和度が、クロッピング親和度基準を満たさない値となる。
一方、関心領域812が複数存在する場合、複数の関心領域812をそれぞれ切り出し、複数の関心領域812の間の不要な背景画素を排除しつつ、関心領域812のみを示す関心領域画像をカービングで抽出することが可能である。従って、カービングの適切性が高く、カービング親和度が、カービング親和度基準を満たす値となる。
Also consider the
If there are multiple regions of
On the other hand, when a plurality of regions of
以上、図6~図8を参照して説明した関心領域検出部322の処理によれば、対象画像フレームの意味的情報を多く含む関心領域及び顕著性中心を判定することができると共に、関心領域を含む関心領域画像を対象画像フレームから抽出するための加工動作の信頼度を計算することが可能となる。また、これによれば、画像の意味的内容を考慮した領域変換手段を判定することができる。
As described above, according to the processing of the region-of-
次に、図9を参照して、本開示の実施形態に係る背景合成手段決定部の処理について説明する。 Next, with reference to FIG. 9, processing of the background synthesizing means determination unit according to the embodiment of the present disclosure will be described.
図9は、本開示の実施形態に係る背景合成手段決定部324の処理の一例を示す図である。上述したように、背景合成手段決定部324は、関心領域画像を対象画像フレームから抽出するための加工動作の信頼度が所定の信頼度基準を満たさない場合、又は対象画像フレームから抽出された関心領域画像が所定のアスペクト比基準を満たさない場合、対象画像フレームに背景画素を追加又は削除することで対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から選択する。 FIG. 9 is a diagram illustrating an example of processing of the background synthesizing means determination unit 324 according to the embodiment of the present disclosure. As described above, the background synthesizing means determining unit 324 determines whether the reliability of the processing operation for extracting the region-of-interest image from the target image frame does not satisfy a predetermined reliability standard, or If the area image does not satisfy a predetermined aspect ratio standard, a background synthesizing means for converting the target image frame to a predetermined aspect ratio by adding or deleting background pixels to the target image frame is selected from a plurality of background synthesizing means candidates. do.
背景合成手段決定部324は、対象画像フレーム901と関心領域902とに基づいて、各背景合成手段の候補903の適切性を示す適正スコアを計算するように計算された機械学習モデルであってもよい。例えば、ある実施形態では、背景合成手段決定部324は、ニューラルネットワークモデル、サポートベクターマシンモデル、決定木モデルであってもよい。
一例として、背景合成手段決定部324は、対象画像フレーム901と、関心領域検出部322によって検出される関心領域902とを入力した後、対象画像フレーム901の特性(関心領域902の大きさ、検出対象のオブジェクトの構成等)に基づいて、複数の背景合成手段の候補903のそれぞれに対して、当該背景合成手段の適切性を示す適正スコアを割り当ててもよい。その後、背景合成手段決定部324は、所定の適正スコア(例えば、適正スコアが最も高い背景合成手段の候補903)を、対象画像フレーム901に適用する背景合成手段として決定してもよい。
The background synthesizing means determination unit 324 may be a machine learning model calculated to calculate an adequacy score indicating suitability of each background synthesizing means
As an example, after inputting the
上述したように、ここでの背景合成手段は、背景画素を追加又は削除することで対象画像のフレームを所定のアスペクト比に変換するための手段であり、例えばZeroPadding、Reflection Padding、Replication Padding等の既存の手法を含んでもよく、後述する第1~第8の背景合成手段を含んでもよい。
なお、本開示では、いくつかの背景合成手段を例として説明するが、本開示はこれに限定されず、任意の背景合成手段を用いてもよい。
As described above, the background synthesizing means here is means for converting the frame of the target image into a predetermined aspect ratio by adding or deleting background pixels. An existing method may be included, and first to eighth background synthesizing means, which will be described later, may be included.
In the present disclosure, several background synthesizing means will be described as examples, but the present disclosure is not limited to this, and any background synthesizing means may be used.
以上説明した背景合成手段決定部324によれば、例えば対象画像フレームをクロッピングやカービング等の加工動作によって目的のアスペクト比に変更することができない場合であっても、画像の意味的内容を考慮した適切な背景合成手段を選択することができる。これにより、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を円滑にすることができる。 According to the background synthesizing means determining unit 324 described above, even if the target image frame cannot be changed to the desired aspect ratio by processing operations such as cropping and carving, the semantic content of the image can be taken into consideration. Appropriate background composition means can be selected. As a result, it is possible to appropriately change the aspect ratio of the image while maintaining the quality and semantic information of the image, thereby facilitating highly accurate object detection.
次に、図10~図18を参照して、本開示の実施形態に係る背景合成手段について説明する。
なお、以下では、画像のアスペクト比を変換するための背景合成手段をいくつか説明するが、これらの背景合成手段は、単独で用いられてもよく、組み合わせて用いられてもよい。
Next, the background synthesizing means according to the embodiment of the present disclosure will be described with reference to FIGS. 10 to 18. FIG.
Several background synthesizing means for converting the aspect ratio of an image will be described below, but these background synthesizing means may be used singly or in combination.
図10は、本開示の実施形態に係る第1の背景合成手段1000の一例を示す図である。図10に示す第1の背景合成手段1000は、対象画像フレームの周縁部に背景画素を追加することで当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。 FIG. 10 is a diagram showing an example of the first background synthesizing means 1000 according to the embodiment of the present disclosure. The first background synthesizing means 1000 shown in FIG. 10 is a means for converting the target image frame to a target aspect ratio by adding background pixels to the periphery of the target image frame. This is performed by the background synthesizing unit 325 shown in FIG.
まず、背景合成部は、対象画像フレーム1001を、当該対象画像フレーム1001を構成する各チャンネルに分割したチャンネル画像1002を生成する。例えば、対象画像フレーム1001がRGB画像の場合、背景合成部は、対象画像フレーム1001をR、G、及びBの3つのチャンネルに分解したチャンネル画像1002を生成する。
その後、背景合成部は、チャンネル画像1002の画素の中央値を計算する(1010)。
First, the background synthesizing unit generates
The background synthesizer then calculates 1010 the median value of the pixels of the
次に、背景合成部は、チャンネル画像1002の中央値を計算した後、対象画像フレーム1001と同じチャンネル数を有し、対象画像フレーム1001のサイズに対して所定のサイズ基準を満たす合成背景画像1003を生成する。この合成背景画像1003の各画素の画素値は、例えば、チャンネル画像1002の中央値であってもよい。
また、ここでのサイズ基準とは、例えば対象画像フレーム1001より20%大きいサイズ、30%より大きいサイズ、50%より大きいサイズ等、任意の倍率であってもよい。
Next, after calculating the median value of the
Also, the size standard here may be any magnification such as a size larger than the
次に、背景合成部は、上述した関心領域検出部322によって検出された関心領域及び顕著性中心1004に基づいて、合成背景画像1003と、対象画像フレーム1001とを所定のフレームブレンディング手段1020によって結合することで第1の結合画像1005を生成する。例えば、ある実施形態では、背景合成部は、顕著性中心を用いて合成背景画像1003の中心座標を計算した後、この中心座標に基づいて合成背景画像1003と対象画像フレーム1001とを整合し、結合してもよい。
ここでのフレームブレンディング手段1020とは、合成背景画像1003と、対象画像フレーム1001とのエッジをぼかす手段であり、Poisson Blending, Wavelet-based blending, alpha blending等、任意の既存のフレームブレンディング手段を含んでもよい。
Next, the background synthesizing unit combines the synthesized
The frame blending means 1020 here is means for blurring the edge between the
次に、背景合成部は、第1の結合画像1005を、所定のサイズ変換手段(例えば、scalingなど)を用いて目的のアスペクト比に変換した最終画像1006を生成する。
このように、以上説明した第1の背景合成手段1000によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。
Next, the background synthesizing unit generates a
As described above, according to the first
図11は、本開示の実施形態に係る第2の背景合成手段1100の一例を示す図である。図11に示す第2の背景合成手段1100は、エンコーダーデコーダーモデルを用いて、対象画像フレームの背景領域を近似した合成領域を対象画像フレームに追加することで当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。 FIG. 11 is a diagram showing an example of second background synthesizing means 1100 according to an embodiment of the present disclosure. The second background synthesizing means 1100 shown in FIG. 11 uses an encoder-decoder model to add a synthesizing area that approximates the background area of the target image frame to the target image frame so that the target image frame has a desired aspect ratio. A means for transforming, which is performed by a background synthesizer (eg, the background synthesizer 325 shown in FIG. 3).
まず、背景合成部は、学習用画像1101における対象領域1102を近似した第1の合成領域1103を生成するエンコーダーデコーダーモデル1110、1120を訓練することで、訓練済みのエンコーダーデコーダーモデル1111、1121を生成する。
より具体的には、訓練段階では、エンコーダーモデル1110は、学習用画像1101における対象領域1102を入力する。この対象領域1102は、一つ又は複数の方向に沿った、連続する画素の集合であり、望ましくは、学習用画像1101の関心領域を除いた背景領域である。また、ある実施形態では、この対象領域1102は、順番付けられている複数の領域を含んでもよい。
First, the background synthesis unit generates trained encoder-
More specifically, during the training phase,
対象領域1102を入力した後、エンコーダーモデル1110は、対象領域1102を近似した潜在表現(latent representation)を生成し、デコーダーモデル1120に出力する。次に、デコーダーモデル1120は、入力し対象領域1102を近似した潜在表現に基づいて、対象領域1102の前後の領域を示す第1の合成領域1103を生成する。エンコーダーデコーダーモデル1110、1120を、より高精度の第1の合成領域1103を生成するように訓練することで、訓練済みのエンコーダーデコーダーモデル1111、1121を生成することができる。
After inputting the region of
次に、推論段階では、訓練済みのエンコーダーモデル1111は、対象画像フレーム1104における背景領域1105を入力する。この背景領域1105は、上述した対象領域1102と同様に、一つ又は複数の方向に沿った、連続する画素の集合であり、望ましくは、対象画像フレーム1104の関心領域を除いた背景領域である。また、ある実施形態では、この背景領域1105は、順番付けられている複数の領域を含んでもよい。
Next, during the inference stage, the trained
背景領域1105を入力した後、訓練済みのエンコーダーモデル1111は、背景領域1105を近似した潜在表現を生成し、訓練済みのデコーダーモデル1121に出力する。次に、訓練済みのデコーダーモデル1121は、入力した背景領域1105を近似した潜在表現に基づいて、背景領域1105の前後の領域を示す第2の合成領域1106を生成する。
After inputting
次に、背景合成部は、上述した関心領域検出部322によって検出された対象画像フレーム1104関心領域・顕著性中心1107に基づいて、第2の合成領域1106を対象画像フレーム1104に挿入することで、対象画像フレーム1104を所定のアスペクト比に変換し、最終画像1108を生成する。ここで、背景合成部は、第2の合成領域1106を対象画像フレーム1104に挿入する位置を、対象画像フレーム1104関心領域・顕著性中心1107に基づいて決定してもよい。
Next, the background synthesis unit inserts a
このように、以上説明した第2の背景合成手段1100によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。
As described above, according to the second
図12は、本開示の実施形態に係る第3の背景合成手段1200の一例を示す図である。
図12に示す第3の背景合成手段1200は、ガウス過程回帰モデルを用いて、対象画像フレームの背景領域を近似した合成領域を対象画像フレームの周縁部に追加することで当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。
FIG. 12 is a diagram showing an example of a third background synthesizing means 1200 according to an embodiment of the present disclosure.
The third background synthesizing means 1200 shown in FIG. 12 uses a Gaussian process regression model to add a synthesizing area that approximates the background area of the target image frame to the periphery of the target image frame. , and is executed by a background synthesizing unit (for example, the background synthesizing unit 325 shown in FIG. 3).
まず、背景合成部は、学習用の画像の周縁部に存在する周縁領域を近似した合成周縁領域(例えば、第1の合成周縁領域)を生成するガウス過程回帰モデルを訓練することで、訓練済みのガウス過程回帰モデル1210を生成する。
First, the background synthesizing unit trains a Gaussian process regression model that generates a synthetic fringe area (for example, a first synthetic fringe area) that approximates the fringe area present in the fringe of the training image. generates a Gaussian
次に、背景合成部は、対象画像フレーム1201の周縁部に存在する周縁領域1202を訓練済みのガウス過程回帰モデル1210に入力する。その後、ガウス過程回帰モデル1210は、この周縁領域1202を近似した合成周縁領域(例えば、第2の合成周縁領域)を生成する(1220)。
例えば、訓練済みのガウス過程回帰モデル1210は、複数の合成周縁領域を予測した後、予測した合成周縁領域の中から、周縁領域1202に対する予測誤差が所定の基準を満たすものを選択してもよい。ここでの予測誤差は、例えば画素値の平均二乗誤差であってもよい。
Next, the background synthesizing unit inputs the
For example, trained Gaussian
訓練済みのガウス過程回帰モデル1210は、対象画像フレーム1201を一周して、周縁部の各領域を近似した合成周縁領域を生成し、生成した合成周縁領域を、対象画像フレーム1201より大きいサイズとなるように、対象画像フレーム1201の形状に合わせて適宜に配置することで、対象画像フレーム1201より大きいサイズを有する合成周縁画像1203を得ることができる。
A trained Gaussian
その後、背景合成部は、上述した関心領域検出部322によって検出された関心領域及び顕著性中心1204に基づいて、合成周縁画像1203と、対象画像フレーム1201とを所定のフレームブレンディング手段1230によって結合することで第2の結合画像1205を生成する。例えば、ある実施形態では、背景合成部325は、顕著性中心を用いて対象画像フレーム1201の中心座標を計算した後、この中心座標に基づいて合成周縁画像1203と対象画像フレーム1201とを整合し、結合してもよい。
上述したように、ここでのフレームブレンディング手段1230とは、合成周縁画像1203と、対象画像フレーム1201とのエッジをぼかす手段であり、Poisson Blending, Wavelet-based blending, alpha blending等、任意の既存のフレームブレンディング手段を含んでもよい。
After that, the background synthesizing unit combines the synthesized
As described above, the frame blending means 1230 here is a means for blurring the edge between the synthesized
次に、背景合成部は、第2の結合画像1205を、所定のサイズ変換手段(例えば、scalingなど)を用いて目的のアスペクト比に変換した最終画像1206を生成する。
このように、以上説明した第3の背景合成手段1200によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。
Next, the background synthesizing unit generates a
As described above, according to the third
図13は、本開示の実施形態に係る第4の背景合成手段1300の一例を示す図である。図13に示す第4の背景合成手段1300は、ガウス過程回帰モデルを用いて、対象画像フレームにおけるパッチシームを生成し、生成したパッチシームを対象画像フレームに追加又は削除することで当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。 FIG. 13 is a diagram showing an example of a fourth background synthesizing means 1300 according to an embodiment of the present disclosure. The fourth background synthesizing means 1300 shown in FIG. 13 uses a Gaussian process regression model to generate patch seams in the target image frame, and adds or deletes the generated patch seams to or from the target image frame. to a desired aspect ratio, and is executed by a background synthesizing unit (for example, the background synthesizing unit 325 shown in FIG. 3).
まず、背景合成部は、対象画像フレーム1301を、所定の方向(例えば図13に示す対象画像フレーム1301の場合、縦方向)に沿って、互いに重複しない領域に分割した後、訓練済みのガウス過程回帰モデル1310を用いてそれぞれの領域について、当該領域を近似した合成領域を生成する。
一例として、図13に示すように、訓練済みのガウス過程回帰モデル1310は、対象画像フレーム1301を分割した方向に沿って、複数の領域を跨ぐように配置した複数の連続する合成領域をパッチシーム1302として生成してもよい。ここで、パッチシームとは、上端から下端へ、又は左端から右端へ延びる画像中のn連結のピクセル集合である。ある実施形態では、パッチシーム1302の幅は、目的のアスペクト比に応じて判定されてもよい。
First, the background synthesizing unit divides the
As an example, as shown in FIG. 13, a trained Gaussian
次に、背景合成部は、対象画像フレーム1301におけるパッチシーム1302を削除又は追加することで、対象画像フレーム1301を目的のアスペクト比に変換することができる。例えば、目的のアスペクト比が対象画像フレーム1301より小さい場合、背景合成部は、生成したパッチシーム1302を対象画像フレーム1301から削除することで、対象画像フレーム1301を目的のアスペクト比に縮小した最終画像1303を生成することができる。
一方、目的のアスペクト比が対象画像フレーム1301より大きい場合、背景合成部は、生成したパッチシーム1302に基づいて、追加のパッチを生成し、対象画像フレーム1301に挿入することで、対象画像フレーム1301を目的のアスペクト比に拡大した最終画像1304を生成することができる。
Next, the background synthesizing unit can convert the
On the other hand, if the target aspect ratio is larger than the
このように、以上説明した第4の背景合成手段1300によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。
As described above, according to the fourth
図14は、本開示の実施形態に係るガウス過程回帰モデル1400を説明するための図である。上述したように、本開示の実施形態に係る背景合成手段において、いわゆるガウス過程回帰モデル1400を用いることがある。ここでのガウス過程回帰モデル1400とは、ノンパラメトリックなカーネルベースの確率モデルであり、入力変数から出力変数である実数値への関数を推定するモデルである。言い換えれば、ガウス過程回帰モデル1400は、複数のデータ点の類似度に基づいて、未観測のデータ点を予測することができる確率モデルである。
FIG. 14 is a diagram for explaining a Gaussian
本開示では、ガウス過程回帰モデル1400を用いることで、対象画像フレームにおける背景領域を入力として、当該背景領域に対する類似度が高い合成背景領域を生成することができる。この生成した合成背景領域を対象画像フレームに追加することで、当該対象画像フレームを任意のアスペクト比に変換することができる。
In the present disclosure, the Gaussian
例えば、図12を参照して説明した第4の背景合成手段について上述したように、ガウス過程回帰モデル1400を用いることで、対象画像フレームのパッチシームを生成することができる。上述したように、パッチシームとは、上端から下端へ、又は左端から右端へ延びる画像中のn連結のピクセルの集合である。より具体的には、パッチシームは、高さH及び幅Wを有する画像において、座標(i,j)に中心点C(r)を持つパッチという領域のセットPrである。
ここで、iは(1,W)に含まれ、jは(1,H)に含まれる。また、パッチは、高さh及び幅wを有する。
For example, patch seams in the target image frame can be generated using the Gaussian
where i is contained in (1, W) and j is contained in (1, H). Also, the patch has a height h and a width w.
言い換えれば、パッチシームSは、(1、N)に含まれるrによってインデックス(index)されるパッチの集合であり、以下の数式1~3によって定義される。
また、パッチシームが縦方向に延びている場合、N=H/hであり、パッチシームが横方向に延びている場合、N=W/w。
In other words, the patch seam S is the set of patches indexed by r contained in (1, N) and defined by Equations 1-3 below.
Also, if the patch seam runs longitudinally, N=H/h, and if the patch seam runs laterally, N=W/w.
ガウス過程回帰では、データに適合するすべての許容可能な関数の空間にわたる確率分布が計算される。この手順は以下で説明する。 Gaussian process regression computes the probability distribution over the space of all admissible functions that fit the data. This procedure is described below.
まず、平均m(x)のようなガウス過程の事前分布と、k(x,x’)のような共分散関数が予め定義されているとして、ガウス過程が以下の数式4、5の通りとなる。
訓練段階では、カーナル関数Kのパラメータが学習され、推論段階では、学習した分布に対していわゆる確率的サンプリング(stochastic sampling)が行われる。
一例として、σ及びMをパラメータとするカーナル関数は、以下の数式6で示す。
As an example, a kernel function with σ and M as parameters is shown in Equation 6 below.
上述した第4の背景合成手段1300では、Xは対象画像フレームにおける画素値となり、{1, 2…N+k}としてインデックスされる。 In the fourth background synthesizing means 1300 described above, X is the pixel value in the target image frame, indexed as {1, 2...N+k}.
ここでは、Xは{1, 2…N-k}としてインデックスされた画素値の強度を表し、X*は{N-k+1, N-k+2,…N}としてインデックスされた画素値の強度を表し、yは{k+1, k+1,…N}としてインデックスされた画素値の強度を表し、f*は{N+1, N+2, N+k}としてインデックスされた画素値の強度を表し、Kは放射基底関数のようなカーナル関数を表す。 Here, X represents the intensity of pixel values indexed as {1, 2...N-k} and X * represents the intensity of pixel values indexed as {N-k+1, N-k+2,...N}. , y represents the intensity of pixel values indexed as {k+1, k+1, . represents a kernel function
ある実施形態では、上述した第4の背景合成手段1300では、カーナル関数Kのパラメータは最急降下法(gradient descent)を用いるニューラルネットワークによって決定されてもよい。また、ある実施形態では、カーナル関数Kのパラメータは、尤度を最大化する勾配計算手法によって決定されてもよい。 In one embodiment, in the fourth background synthesis means 1300 described above, the parameters of the kernel function K may be determined by a neural network using gradient descent. Also, in some embodiments, the parameters of the kernel function K may be determined by a likelihood-maximizing gradient computation technique.
共分散値(covariance value)K(X,X),K(X*,X),K(X*,X*),K(X,X*)は、ニューラルネットワークによって計算されてもよい。 The covariance values K(X,X), K(X * ,X), K(X * ,X * ), K(X,X * ) may be calculated by a neural network.
学習段階では、実測値と予測値の平均二乗誤差は、ガウス過程回帰モデルのパラメータをチューニングするために用いられてもよい。また、推論段階では、学習したパラメータは、ガウス過程回帰モデルからのサンプリングを行うために用いられてもよい。 During the learning phase, the mean squared error between the observed and predicted values may be used to tune the parameters of the Gaussian process regression model. Also, during the inference stage, the learned parameters may be used to sample from the Gaussian process regression model.
また、推論段階において、実測値と予測値との類似度に基づいて、{N+1, k+1,…N+k}としてインデックスされた画素の顕著性を推定するために用いられてもよい。更に、ここで推定した顕著性に基づいて、対象画像フレームに追加するパッチシーム、又は対象画像フレームから削除するパッチシームを特定するために用いられてもよい。 It may also be used in the inference stage to estimate the salience of pixels indexed as {N+1, k+1, . Further, the estimated saliency may be used to identify patch seams to add or remove from the target image frame.
一例として、図14に示すように、本開示の実施形態に係るガウス過程回帰モデル1400は、学習用の画像を学習用データXによって訓練された後、テスト用データX*を入力すると、テスト用データX*を近似した合成の背景領域を、未観測データf*として出力することができる。この未観測データf*を対象画像フレームに追加することで、対象画像フレームを目的のアスペクト比に変換することができる。
As an example, as shown in FIG. 14 , a Gaussian
図15は、本開示の実施形態に係る第5の背景合成手段1500の一例を示す図である。
図15に示す第5の背景合成手段1500は、対象画像フレームに、一定の画素値を有する背景画素を追加することで当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。
FIG. 15 is a diagram showing an example of a fifth background synthesizing means 1500 according to an embodiment of the present disclosure.
The fifth background synthesizing means 1500 shown in FIG. 15 is a means for converting the target image frame to a target aspect ratio by adding background pixels having a constant pixel value to the target image frame. It is performed by a synthesizer (eg, the background synthesizer 325 shown in FIG. 3).
まず、背景合成部は、対象画像フレーム1501に、一定の画素値(constant pixel value)を有する背景画素を追加することで背景合成画像1502を生成する。例えば、図15に示すように、背景合成部は、一定の画素値を有する背景画素を対象画像フレーム1501の周縁部に追加することで背景合成画像1502を生成してもよい。その後、背景合成部は、背景合成画像1502を所定のサイズ変換手段(例えば、scalingなど)を用いて目的のアスペクト比に変換した最終画像1503を生成する。
First, the background synthesizing unit generates a
ある実施形態では、ここで生成した最終画像1503を用いることで、所定のニューラルネットワークを訓練するための学習用画像を生成することができる。例えば、最終画像1503において、追加された背景画素の画素値を摂動させた摂動領域1504を生成する。その後、訓練済みのニューラルネットワーク330は、この摂動領域1504を含む最終画像1503と、上述した関心領域検出部322によって検出された対象画像フレーム1501の関心領域及び/又は顕著性中心に基づいて、敵対的学習用画像(adversarial training image)1505を生成することができる。
ある実施形態では、訓練済みのニューラルネットワーク330は、射影勾配法(projected gradient descent)手法によって生成されてもよい。また、入力される画像は、画素値が0~255の範囲内であることを求める所定の制約に基づいて加工されてもよい。
この敵対的学習用画像1505は、摂動領域を含むため、一般的な画像に比べてオブジェクトの検出難易度が高く、オブジェクト検出用のニューラルネットワークを訓練するために有用である。
In one embodiment, the
In some embodiments, trained
Since this
このように、以上説明した第5の背景合成手段1500によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。 Thus, according to the fifth background synthesizing means 1500 described above, an image in which the aspect ratio of the image is appropriately changed while maintaining the quality and semantic information of the image without causing distortion or deformation of the object. can be obtained.
図16は、本開示の実施形態に係る第6の背景合成手段1600の一例を示す図である。
図16に示す第6の背景合成手段1600は、対象画像フレームの片側に存在する背景画素を、反対側にも複製することで、当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。
FIG. 16 is a diagram showing an example of a sixth background synthesizing means 1600 according to an embodiment of the present disclosure.
The sixth background synthesizing means 1600 shown in FIG. 16 is a means for converting the target image frame to the target aspect ratio by duplicating the background pixels existing on one side of the target image frame to the opposite side. Yes, and is performed by a background synthesizer (eg, the background synthesizer 325 shown in FIG. 3).
まず、上述した関心領域検出部322は、対象画像フレーム1601を入力し、処理することで、対象画像フレーム1601における関心領域及び/又は顕著性中心1602を検出する。その後、背景合成部は、関心領域検出部322に検出された関心領域及び/又は顕著性中心1602に基づいて、対象画像フレーム1601の片側に存在する背景画素1603を、合成背景領域1604として、対象画像フレーム1601の反対側に複製することで、対象画像フレームを目的のアスペクト比に変換した最終画像1605を生成する。対象画像フレーム1601の反対側に複製する背景画素の大きさは、例えば関心領域及び/又は顕著性中心1602に基づいて決定されてもよい。
なお、ここでは、対象画像フレーム1601の左側に存在する背景画素を右側に複製する場合を一例として説明したが、本開示はこれに限定されず、例えば対象画像フレーム1601の右側に存在する背景画素を左側に複製したり、対象画像フレーム1601の上方に存在する背景画素を下方に複製したりすることも可能であり、ここでは特に限定されない。
First, the region-of-
Here, the case of copying the background pixels present on the left side of the
より具体的には、背景合成部は、以下の数式7に従って、背景画素を複製してもよい。
このように、以上説明した第6の背景合成手段1600によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。 As described above, according to the sixth background synthesizing means 1600 described above, an image in which the aspect ratio of the image is appropriately changed while maintaining the quality and semantic information of the image without causing distortion or deformation of the object. can be obtained.
図17は、本開示の実施形態に係る第7の背景合成手段1700の一例を示す図である。
図17に示す第7の背景合成手段1700は、対象画像フレームの特定の領域に存在する背景画素を、目的の領域に反映(reflect)させることで、当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。
FIG. 17 is a diagram showing an example of a seventh background synthesizing means 1700 according to an embodiment of the present disclosure.
The seventh background synthesizing means 1700 shown in FIG. 17 converts the target image frame to the target aspect ratio by reflecting background pixels present in a specific region of the target image frame in the target region. and is executed by a background synthesizing unit (for example, the background synthesizing unit 325 shown in FIG. 3).
まず、上述した関心領域検出部322は、対象画像フレーム1701を入力し、処理することで、対象画像フレーム1701における関心領域及び/又は顕著性中心1702を検出する。その後、背景合成部は、関心領域検出部322に検出された関心領域及び/又は顕著性中心1702に基づいて、対象画像フレーム1701の特定の領域に存在する背景画素1703を、合成背景領域1704として、対象画像フレーム1701の目的の領域に反映させることで、対象画像フレーム1701を目的のアスペクト比に変換した最終画像1705を生成する。反映させる背景画素の大きさは、例えば関心領域及び/又は顕著性中心1702に基づいて決定されてもよい。また、背景画素1703及び合成背景領域1704は、ユーザによって選択されてもよく、過去の背景合成の実績に基づいて背景合成部によって選択されてもよい。
なお、ここでは、対象画像フレーム1701の左側に存在する背景画素を、そのすぐ隣に反映させる場合を一例として説明したが、本開示はこれに限定されず、背景画素は任意の位置に反映されてもよい。
First, the above-described region-of-
Here, the case where the background pixels existing on the left side of the target image frame 1701 are reflected immediately adjacent thereto has been described as an example, but the present disclosure is not limited to this, and the background pixels can be reflected at any position. may
より具体的には、背景合成部は、以下の数式8に従って、背景画素を反映させてもよい。
ある実施形態では、背景合成部は、背景画素1703と、合成背景領域1704との類似度を計算してもよい。例えば、背景合成部は、背景画素1703と合成背景領域1704との類似度として、背景画素1703と合成背景領域1704との平均二乗誤差を計算してもよく、背景画素1703と合成背景領域1704との画素値の強度の乖離度を計算してもよく、ユークリッド距離等の距離計算手法を用いてもよい。その後、ある実施形態では、背景合成部は、背景画素1703と、合成背景領域1704との類似度を最大化するように訓練されてもよい。
In some embodiments, the background synthesizer may calculate the similarity between the
このように、以上説明した第7の背景合成手段1700によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。 As described above, according to the seventh background synthesizing means 1700 described above, an image in which the aspect ratio of the image is appropriately changed while maintaining the quality and semantic information of the image without causing distortion or deformation of the object. can be obtained.
図18は、本開示の実施形態に係る第8の背景合成手段1800の一例を示す図である。
図18に示す第8の背景合成手段1800は、アフィン変換適合性判定モデルを用いて、対象画像フレームにおける各領域のアフィン変換適合性を判定した後、各領域のアフィン変換適合性に基づいて拡大することで、当該対象画像フレームを目的のアスペクト比に変換するための手段であり、背景合成部(例えば図3に示す背景合成部325)によって実行される。
FIG. 18 is a diagram showing an example of the eighth background synthesizing means 1800 according to the embodiment of the present disclosure.
The eighth background synthesizing means 1800 shown in FIG. 18 determines the affine transformation suitability of each region in the target image frame using the affine transformation suitability determination model, and then enlarges the image based on the affine transformation suitability of each region. By doing so, it is a means for converting the target image frame to a target aspect ratio, and is executed by a background synthesizing unit (for example, the background synthesizing unit 325 shown in FIG. 3).
まず、背景合成部は、対象画像フレーム1801を互いに重複しない、同じ大きさを有するブロックに分割することで、グリッド画像1802を生成する。その後、背景合成部は、このグリッド画像1802をアフィン変換適合性判定モデル1810に入力する。
このアフィン変換適合性判定モデル1810は、グリッド画像1802に含まれる各ブロック毎に、当該ブロックのアフィン変換に対する適合性を判定するモデルである。アフィン変換とは、平行移動(全ての点を決まった方向に一定の距離だけ動かす処理)及び線形変換(拡大縮小、剪断、回転)を含む変換を意味する。
また、ここでのアフィン変換に対する適合性は、特定の領域に対してアフィン変換を行った場合、当該領域について歪み又は変形等の乱れが生じない確率を示す。つまり、アフィン変換に対する適合性が高い領域は、アフィン変換が施されても変形しにくい。一方、アフィン変換に対する適合性が高い領域は、アフィン変換が施されると変形しやすい。
First, the background synthesizing unit generates a
This affine transformation
Further, the suitability for affine transformation here indicates the probability that distortion such as distortion or deformation does not occur in a specific region when affine transformation is performed on the region. In other words, a region that is highly compatible with affine transformation is difficult to deform even if affine transformation is performed. On the other hand, regions that are highly compatible with affine transformation tend to be deformed when affine transformation is applied.
アフィン変換適合性判定モデル1810を用いてグリッド画像1802を解析することで、グリッド画像1802に含まれる各ブロック毎に、当該ブロックのアフィン変換に対する適合性を判定することができる。その後、アフィン変換適合性判定モデル1810は、判定した各ブロックのアフィン変換に対する適合性に基づいて、当該ブロックの拡大倍率を示すアフィン変換パラメータ1820を計算する。このアフィン変換パラメータ1820は、例えば数式9に示す行列として表現してもよい。
次に、背景合成部は、グリッド画像1802における各ブロックを、アフィン変換適合性判定モデル1810によって判定されたアフィン変換パラメータ1820に指定されている拡大倍率に基づいて拡大(又は縮小)することで対象画像フレーム1801を目的のアスペクト比に変換した最終画像1803を生成することができる。
この最終画像1803は、アフィン変換適合性判定モデル1810によって判定されたアフィン変換パラメータ1820に指定されている拡大倍率に基づいて生成されるため、アフィン変換に対する適合性が高いブロック(つまり、変形しにくいブロック)はより大きく拡大される。
Next, the background synthesizing unit enlarges (or reduces) each block in the
Since this
このように、以上説明した第8の背景合成手段1800によれば、オブジェクトの歪みや変形を生じることなく、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更した画像を得ることができる。 As described above, according to the eighth background synthesizing means 1800 described above, an image in which the aspect ratio of the image is appropriately changed while maintaining the quality and semantic information of the image without causing distortion or deformation of the object. can be obtained.
ある実施形態では、上述した背景合成手段によって生成された、目的のアスペクト比に変換した最終画像がニューラルネットワークによって解析された後、背景合成部は、所定の影響関数を用いて、最終画像におけるクラスの、解析結果に与えた影響度を計算する。そして、画像フレーム特定部は、所定の影響度基準を満たすクラスを含む画像を対象画像フレームとして特定し、所定の影響度基準を満たすクラスを含まない画像を対象画像フレームとして特定しない(つまり、ニューラルネットワークの訓練又は推論から排除する)。 In one embodiment, after the final image converted to the desired aspect ratio generated by the background compositing means described above is analyzed by the neural network, the background compositor uses a predetermined influence function to classify the class in the final image. , the degree of influence on the analysis result is calculated. Then, the image frame identification unit identifies an image containing a class that satisfies a predetermined influence criterion as a target image frame, and does not identify an image that does not contain a class that satisfies the predetermined influence criterion as a target image frame (that is, neural excluded from training or inference of the network).
ここでの影響関数とは、機械学習において、個々の訓練データが(学習済みモデルによる)推論に与えた影響度を計算するための関数である。一例として、モデルパラメータθがΘに含まれるデータ点z(例えば、クラス)の影響関数は、以下の数式10、図11のように定義されてもよい。
これにより、影響関数を用いることで、ニューラルネットワークによる解析結果に対して影響度の高いクラスを含む画像を効率良く選択することででき、ニューラルネットワークによる解析結果に対して影響度の低いクラスを含む画像を排除することができる。また、このように、ニューラルネットワークの訓練効率及び検出精度を向上させることができる。
The influence function here is a function for calculating the degree of influence that individual training data has on inference (by a learned model) in machine learning. As an example, the influence function of a data point z (eg, class) whose model parameter θ is included in Θ may be defined as shown in
As a result, by using the influence function, it is possible to efficiently select images that include classes that have a high degree of influence on the analysis results of the neural network, and include classes that have a low degree of influence on the analysis results of the neural network. Images can be eliminated. Also, in this way, the training efficiency and detection accuracy of the neural network can be improved.
以上説明した、本開示の実施形態に係る領域変換手段によれば、画像の意味的内容を考慮した背景合成手段を適用することで、画像の品質及び意味的情報を維持しつつ、画像のアスペクト比を適宜に変更し、高精度のオブジェクト検出を円滑にすることができる。また、本開示の実施形態に係る領域変換手段は、様々な分野は課題に対して適用されてもよい。例えば、本開示の実施形態に係る領域変換手段は、画像におけるオブジェクトの検出(detection)、オブジェクトの分類(classification)、オブジェクトのキーポイント検出(key-point detection)、オブジェクト追跡(object tracking)、画像の分割(image segmentation)、ニューラルネットワークに入力される画像の加工又は前処理、ロボットの操作、異なる解像度の装置から取得される画像の調整、画像のサムネイル生成、性能ベンチマークのパラメータ調整(performance benchmark parameter adjustment)等、任意の分野や課題に対して適用されてもよい。 According to the area conversion means according to the embodiment of the present disclosure described above, the aspect of the image is maintained while maintaining the quality and semantic information of the image by applying the background synthesizing means that considers the semantic content of the image. The ratio can be changed accordingly to facilitate highly accurate object detection. Also, the domain conversion means according to the embodiments of the present disclosure may be applied to problems in various fields. For example, the domain transformation means according to embodiments of the present disclosure can perform object detection in an image, object classification, object key-point detection, object tracking, image segmentation of images, processing or preprocessing of images input to neural networks, manipulation of robots, adjustment of images acquired from devices of different resolutions, generation of image thumbnails, performance benchmark parameter adjustment. adjustment), etc., may be applied to any field or subject.
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications are possible without departing from the gist of the present invention.
300 領域変換システム
301 画像取得装置
302 記憶部
303 領域変換装置
310 前処理部
320 領域変換部
321 画像フレーム特定部
322 関心領域検出部
323 画像フレーム加工部
324 背景合成手段決定部
325 背景合成部
330 ニューラルネットワーク
340 出力部
304 クライアント端末
300
Claims (10)
画像シーケンスの中から、領域変換の対象となる対象画像フレームを特定する画像フレーム特定部と、
前記対象画像フレームにおける関心領域を検出すると共に、前記関心領域を含む関心領域画像を前記対象画像フレームから抽出するための加工動作の信頼度を計算する関心領域検出部と、
前記加工動作の前記信頼度が所定の信頼度基準を満たす場合、前記加工動作を用いて前記関心領域画像を前記対象画像フレームから抽出する画像フレーム加工部と、
前記加工動作の前記信頼度が所定の信頼度基準を満たさない場合、又は前記対象画像フレームから抽出された前記関心領域画像が所定のアスペクト比基準を満たさない場合、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する背景合成手段決定部と、
前記背景合成手段を用いて、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを前記所定のアスペクト比に変換した最終画像を生成する背景合成部と、
を含むことを特徴とする領域変換装置。 A domain conversion device,
an image frame identification unit that identifies a target image frame to be subjected to region conversion from the image sequence;
a region of interest detection unit that detects a region of interest in the target image frame and calculates reliability of a processing operation for extracting a region of interest image including the region of interest from the target image frame;
an image frame processing unit for extracting the region of interest image from the target image frame using the processing operation if the reliability of the processing operation satisfies a predetermined reliability criterion;
background pixels in the target image frame if the confidence of the manipulation operation does not meet a predetermined confidence criterion or if the region of interest image extracted from the target image frame does not meet a predetermined aspect ratio criterion; a background synthesizing means determination unit that determines, from a plurality of background synthesizing means candidates, a background synthesizing means for converting the target image frame to a predetermined aspect ratio by addition or deletion;
a background synthesizing unit that generates a final image in which the target image frame is converted to the predetermined aspect ratio by adding or deleting background pixels to or from the target image frame using the background synthesizing means;
A domain conversion device comprising:
前記複数の背景合成手段の候補に含まれる第1の背景合成手段として、
前記対象画像フレームにおける顕著性中心を特定し、
前記対象画像フレームを、前記対象画像フレームを構成する各チャンネルに分解したチャンネル画像を生成し、
前記チャンネル画像の画素の中央値を計算し、
前記対象画像フレームと同じチャンネル数を有し、画素が前記チャンネル画像の前記中央値を有し、前記対象画像フレームのサイズに対して所定のサイズ基準を満たす合成背景画像を生成し、
前記対象画像フレームの前記関心領域及び前記顕著性中心に基づいて、前記合成背景画像と、前記対象画像フレームとを所定のフレームブレンディング手段によって結合することで、前記所定のアスペクト比に変換した前記最終画像を生成する、
ことを特徴とする、請求項1に記載の領域変換装置。 The background synthesizing unit
As the first background synthesizing means included in the candidates for the plurality of background synthesizing means,
identifying a saliency center in the target image frame;
generating a channel image by decomposing the target image frame into each channel constituting the target image frame;
calculating the median value of the pixels of said channel image;
generating a synthetic background image having the same number of channels as the target image frame, pixels having the median value of the channel image, and satisfying a predetermined size criterion for the size of the target image frame;
The final aspect ratio is converted to the predetermined aspect ratio by combining the synthetic background image and the target image frame by predetermined frame blending means based on the region of interest and the saliency center of the target image frame. generate an image,
2. The domain conversion device according to claim 1, characterized by:
前記複数の背景合成手段の候補に含まれる第2の背景合成手段として、
学習用画像における対象領域を近似した第1の合成領域を生成するエンコーダーデコーダーモデルを訓練することで、訓練済みのエンコーダーデコーダーモデルを生成し、
前記対象画像フレームにおける顕著性中心を特定し、
前記訓練済みのエンコーダーデコーダーモデルを用いて、前記対象画像フレームにおける背景領域を近似した第2の合成領域を生成し、
前記対象画像フレームの前記関心領域及び前記顕著性中心に基づいて、前記第2の合成領域を前記対象画像フレームに挿入することで、前記対象画像フレームを前記所定のアスペクト比に変換した前記最終画像を生成する、
ことを特徴とする、請求項1に記載の領域変換装置。 The background synthesizing unit
As the second background synthesizing means included in the candidates for the plurality of background synthesizing means,
generating a trained encoder-decoder model by training an encoder-decoder model that generates a first synthetic region that approximates the region of interest in the training image;
identifying a saliency center in the target image frame;
using the trained encoder-decoder model to generate a second synthetic region that approximates a background region in the target image frame;
The final image obtained by converting the target image frame to the predetermined aspect ratio by inserting the second composite region into the target image frame based on the region of interest and the saliency center of the target image frame. to generate
2. The domain conversion device according to claim 1, characterized by:
前記複数の背景合成手段の候補に含まれる第3の背景合成手段として、
学習用画像の周縁部に存在する周縁領域を近似した第1の合成周縁領域を生成するガウス過程回帰モデルを訓練することで、訓練済みのガウス過程回帰モデルを生成し、
前記対象画像フレームにおける顕著性中心を特定し、
前記訓練済みのガウス過程回帰モデルを用いて、前記対象画像フレームの周縁部に存在する周縁領域を近似した第2の合成周縁領域を生成し、
前記対象画像フレームの前記関心領域及び前記顕著性中心に基づいて、前記第2の合成周縁領域と、前記対象画像フレームとを所定のフレームブレンディング手段によって結合することで、前記所定のアスペクト比に変換した前記最終画像を生成する、
ことを特徴とする、請求項1に記載の領域変換装置。 The background synthesizing unit
As a third background synthesizing means included in the candidates for the plurality of background synthesizing means,
Generating a trained Gaussian process regression model by training a Gaussian process regression model that generates a first synthetic marginal region approximating a marginal region present at the margin of the training image,
identifying a saliency center in the target image frame;
using the trained Gaussian process regression model to generate a second synthetic fringe region that approximates a fringe region present at the fringes of the target image frame;
Based on the region of interest and the saliency center of the target image frame, the second synthetic peripheral region and the target image frame are combined by a predetermined frame blending means to convert to the predetermined aspect ratio. generating said final image with
2. The domain conversion device according to claim 1, characterized by:
前記複数の背景合成手段の候補に含まれる第4の背景合成手段として、
前記関心領域以外の領域で前記対象画像フレームを第1の画像部分と第2の画像部分とに分割し、
ガウス過程回帰モデルを用いて、前記第1の画像部分と第2の画像部分とを跨いで重複するパッチシームを生成し、
前記パッチシームによって重複されている領域を前記第1の画像部分と第2の画像部分とから削除することで加工済みの第1の画像部分と加工済みの第2の画像部分とを生成し、
前記加工済みの第1の画像部分と前記加工済みの第2の画像部分を結合することで前記対象画像フレームを前記所定のアスペクト比に変換した前記最終画像を生成する、
ことを特徴とする、請求項1に記載の領域変換装置。 The background synthesizing unit
As the fourth background synthesizing means included in the candidates for the plurality of background synthesizing means,
dividing the target image frame into a first image portion and a second image portion in a region other than the region of interest;
generating overlapping patch seams across the first and second image portions using a Gaussian process regression model;
generating a processed first image portion and a processed second image portion by removing regions overlapped by the patch seam from the first image portion and the second image portion;
combining the processed first image portion and the processed second image portion to generate the final image in which the target image frame is converted to the predetermined aspect ratio;
2. The domain conversion device according to claim 1, characterized by:
前記複数の背景合成手段の候補に含まれる第5の背景合成手段として、
前記対象画像フレームに、一定の画素値を有する背景画素を追加することで前記対象画像フレームを前記所定のアスペクト比に変換した前記最終画像を生成する、
ことを特徴とする、請求項1に記載の領域変換装置。 The background synthesizing unit
As the fifth background synthesizing means included in the candidates for the plurality of background synthesizing means,
generating the final image by converting the target image frame to the predetermined aspect ratio by adding background pixels having a constant pixel value to the target image frame;
2. The domain conversion device according to claim 1, characterized by:
前記最終画像に対して所定の解析処理を行い、解析結果を生成するニューラルネットワークを更に含む、
ことを特徴とする、請求項1に記載の領域変換装置。 The domain conversion device is
further comprising a neural network that performs a predetermined analysis process on the final image and generates an analysis result;
2. The domain conversion device according to claim 1, characterized by:
所定の影響関数を用いて、前記最終画像におけるクラスの、前記解析結果に与えた影響度を計算し、
前記画像フレーム特定部は、
所定の影響度基準を満たすクラスを含む画像を前記対象画像フレームとして特定する、
ことを特徴とする、請求項7に記載の領域変換装置。 The background synthesizing unit
Using a predetermined influence function, calculate the influence of the class in the final image on the analysis result,
The image frame identification unit
identifying an image containing a class that satisfies a predetermined impact criterion as the target image frame;
8. The domain conversion device according to claim 7, characterized by:
画像シーケンスの中から領域変換の対象となる対象画像フレームを特定する工程と、
前記対象画像フレームにおける関心領域を検出すると共に、前記関心領域を含む関心領域画像を前記対象画像フレームから抽出するための加工動作の信頼度を計算する工程と、
前記加工動作の前記信頼度が所定の信頼度基準を満たす場合、前記加工動作を用いて前記関心領域画像を前記対象画像フレームから抽出する工程と、
前記加工動作の前記信頼度が所定の信頼度基準を満たさない場合、又は前記対象画像フレームから抽出された前記関心領域画像が所定のアスペクト比基準を満たさない場合、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する工程と、
前記背景合成手段を用いて、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを前記所定のアスペクト比に変換する工程と、
を含むことを特徴とする領域変換方法。 A domain conversion method comprising:
identifying target image frames to be domain-transformed from an image sequence;
detecting a region of interest in the target image frame and calculating a reliability of a processing operation for extracting a region of interest image including the region of interest from the target image frame;
extracting the region of interest image from the target image frame using the manipulation operation if the confidence of the manipulation operation meets a predetermined confidence criterion;
background pixels in the target image frame if the confidence of the manipulation operation does not meet a predetermined confidence criterion or if the region of interest image extracted from the target image frame does not meet a predetermined aspect ratio criterion; a step of determining, from a plurality of candidates of background synthesizing means, a background synthesizing means for converting the target image frame to a predetermined aspect ratio by adding or deleting;
converting the target image frame to the predetermined aspect ratio by adding or deleting background pixels to or from the target image frame using the background synthesizing means;
A domain transformation method comprising:
前記領域変換システムは、
画像シーケンスを取得するための画像取得装置と、
画像に対する領域変換を行うための領域変換装置と、
クライアント端末とを含み、
前記画像取得装置と、前記領域変換装置と、前記クライアント端末とが通信ネットワークを介して接続されており、
前記領域変換装置は、
前記画像シーケンスを前記画像取得装置から受信し、前記画像シーケンスの中から、領域変換の対象となる対象画像フレームを特定する画像フレーム特定部と、
前記対象画像フレームにおける関心領域を検出すると共に、前記関心領域を含む関心領域画像を前記対象画像フレームから抽出するための加工動作の信頼度を計算する関心領域検出部と、
前記加工動作の前記信頼度が所定の信頼度基準を満たす場合、前記加工動作を用いて前記関心領域画像を前記対象画像フレームから抽出する画像フレーム加工部と、
前記加工動作の前記信頼度が所定の信頼度基準を満たさない場合、又は前記対象画像フレームから抽出された前記関心領域画像が所定のアスペクト比基準を満たさない場合、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを所定のアスペクト比に変換する背景合成手段を複数の背景合成手段の候補から決定する背景合成手段決定部と、
前記背景合成手段を用いて、前記対象画像フレームに背景画素を追加又は削除することで前記対象画像フレームを前記所定のアスペクト比に変換した最終画像を生成する背景合成部と、
前記最終画像に対して所定の解析処理を行い、解析結果を生成するニューラルネットワークと、
前記ニューラルネットワークからの前記解析結果を前記クライアント端末に送信する出力部と、
を含むことを特徴とする領域変換システム。 A domain conversion system,
The domain conversion system includes:
an image acquisition device for acquiring an image sequence;
an area transformation device for performing area transformation on an image;
a client terminal;
the image acquisition device, the domain conversion device, and the client terminal are connected via a communication network;
The domain conversion device is
an image frame identification unit that receives the image sequence from the image acquisition device and identifies a target image frame to be subjected to region conversion from the image sequence;
a region of interest detection unit that detects a region of interest in the target image frame and calculates reliability of a processing operation for extracting a region of interest image including the region of interest from the target image frame;
an image frame processing unit for extracting the region of interest image from the target image frame using the processing operation if the reliability of the processing operation satisfies a predetermined reliability criterion;
background pixels in the target image frame if the confidence of the manipulation operation does not meet a predetermined confidence criterion or if the region of interest image extracted from the target image frame does not meet a predetermined aspect ratio criterion; a background synthesizing means determination unit that determines, from a plurality of background synthesizing means candidates, a background synthesizing means for converting the target image frame to a predetermined aspect ratio by addition or deletion;
a background synthesizing unit that generates a final image in which the target image frame is converted to the predetermined aspect ratio by adding or deleting background pixels to or from the target image frame using the background synthesizing means;
a neural network that performs a predetermined analysis process on the final image and generates an analysis result;
an output unit that transmits the analysis result from the neural network to the client terminal;
A domain conversion system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021028615A JP2022129792A (en) | 2021-02-25 | 2021-02-25 | Area conversion apparatus, area conversion method, and area conversion system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021028615A JP2022129792A (en) | 2021-02-25 | 2021-02-25 | Area conversion apparatus, area conversion method, and area conversion system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022129792A true JP2022129792A (en) | 2022-09-06 |
Family
ID=83151289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021028615A Pending JP2022129792A (en) | 2021-02-25 | 2021-02-25 | Area conversion apparatus, area conversion method, and area conversion system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022129792A (en) |
-
2021
- 2021-02-25 JP JP2021028615A patent/JP2022129792A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6843086B2 (en) | Image processing systems, methods for performing multi-label semantic edge detection in images, and non-temporary computer-readable storage media | |
US20200242822A1 (en) | Digital Media Environment for Style-Aware Patching in a Digital Image | |
US20180039853A1 (en) | Object Detection System and Object Detection Method | |
WO2016054779A1 (en) | Spatial pyramid pooling networks for image processing | |
US11651477B2 (en) | Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks | |
US20130208983A1 (en) | Up-sampling binary images for segmentation | |
US20220044365A1 (en) | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network | |
CN109598231A (en) | A kind of recognition methods of video watermark, device, equipment and storage medium | |
Ahmadi et al. | Context-aware saliency detection for image retargeting using convolutional neural networks | |
Luotamo et al. | Multiscale cloud detection in remote sensing images using a dual convolutional neural network | |
US20220076119A1 (en) | Device and method of training a generative neural network | |
KR101981284B1 (en) | Apparatus Processing Image and Method thereof | |
CA3136674A1 (en) | Methods and systems for crack detection using a fully convolutional network | |
CN114445633A (en) | Image processing method, apparatus and computer-readable storage medium | |
US11756208B2 (en) | Digital image boundary detection | |
Yadav et al. | An improved deep learning-based optimal object detection system from images | |
Wang et al. | Visual tracking based on group sparsity learning | |
Wang et al. | Perception-guided multi-channel visual feature fusion for image retargeting | |
JP2022129792A (en) | Area conversion apparatus, area conversion method, and area conversion system | |
KR101768913B1 (en) | Method of partitioning a data including geographical information, apparatus performing the same and storage medium storing a program performing the same | |
Hirahara et al. | Denoising and inpainting of sea surface temperature image with adversarial physical model loss | |
Gao et al. | Layout-guided indoor panorama inpainting with plane-aware normalization | |
CN113763313A (en) | Text image quality detection method, device, medium and electronic equipment | |
Varela | Streak Detection in Wide Field of View Images Using Deep Learning and Data Augmentation | |
CN113674346B (en) | Image detection method, image detection device, electronic equipment and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |