JP2021196755A - Image processing apparatus, image processing method, and image processing program - Google Patents
Image processing apparatus, image processing method, and image processing program Download PDFInfo
- Publication number
- JP2021196755A JP2021196755A JP2020101721A JP2020101721A JP2021196755A JP 2021196755 A JP2021196755 A JP 2021196755A JP 2020101721 A JP2020101721 A JP 2020101721A JP 2020101721 A JP2020101721 A JP 2020101721A JP 2021196755 A JP2021196755 A JP 2021196755A
- Authority
- JP
- Japan
- Prior art keywords
- image
- subject
- background
- learning
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 93
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 98
- 238000006243 chemical reaction Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000008921 facial expression Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010191 image analysis Methods 0.000 abstract description 12
- 238000012544 monitoring process Methods 0.000 abstract 4
- 238000000605 extraction Methods 0.000 description 42
- 238000010586 diagram Methods 0.000 description 26
- 238000013528 artificial neural network Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。 The present invention relates to an image processing apparatus, an image processing method, and an image processing program.
従来、画像解析において、解析対象の画像から、オブジェクト(例えば、人物)が写る部分を切り出し、切り出した部分(切出済画像)の特徴量を抽出し、抽出した特徴量に基づき、切り出した部分の解析を行う技術がある。また、ディープニューラルネットワークによって構成されるモデルを用いて画像解析を行うことが提案されている。このモデルの学習において、多数の画像を含む公開データセットを学習用データとして用いることが多い(非特許文献1参照)。 Conventionally, in image analysis, a part in which an object (for example, a person) appears is cut out from an image to be analyzed, a feature amount of the cut out part (cut out image) is extracted, and a cutout part is cut out based on the extracted feature amount. There is a technology to analyze. It has also been proposed to perform image analysis using a model composed of a deep neural network. In training this model, a public data set containing a large number of images is often used as training data (see Non-Patent Document 1).
しかしながら、公開データセットの多数の画像を用いてモデルの学習を行っても、モデルが所望の画像解析精度を満たすことができない場合があった。 However, even if the model is trained using a large number of images in the public data set, the model may not satisfy the desired image analysis accuracy.
本発明は、上記に鑑みてなされたものであって、画像解析の精度向上のために、解析のために用いられる適切な画像を提供することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。 The present invention has been made in view of the above, and is an image processing apparatus, an image processing method, and an image processing program capable of providing an appropriate image used for analysis in order to improve the accuracy of image analysis. The purpose is to provide.
上述した課題を解決し、目的を達成するために、本発明の画像処理装置は、監視カメラに撮影された画像に所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置であって、解析のために用いられる画像の背景及び/または被写体を変換する変換部を有し、変換部は、画像の背景を変換する場合、画像の背景を、監視カメラで撮影されている背景、または、監視カメラで撮影されている背景と同種の背景に変換し、画像の被写体を変換する場合、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換することを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the image processing apparatus of the present invention processes an image used for analyzing whether or not a desired subject is captured in an image captured by a surveillance camera. An image processing device that converts the background and / or subject of an image used for analysis, and the conversion unit uses a surveillance camera to convert the background of the image when converting the background of the image. When converting to a background that is being shot or a background that is similar to the background that is being shot by a surveillance camera and converting the subject of the image, the nature of the subject is likely to be possessed by the subject in the area shot by the surveillance camera. It is characterized by converting into a property.
また、本発明の画像処理方法は、監視カメラに撮影された画像に所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置が実行する画像処理方法であって、解析のために用いられる画像の背景及び/または被写体を変換する変換工程を含み、変換工程は、画像の背景を変換する場合、画像の背景を、監視カメラで撮影されている背景、または、監視カメラで撮影されている背景と同種の背景に変換し、画像の被写体を変換する場合、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換することを特徴とする。 Further, the image processing method of the present invention is an image processing method executed by an image processing apparatus that processes an image used for analyzing whether or not a desired subject is captured in an image captured by a surveillance camera. Including a conversion step of converting the background and / or subject of the image used for analysis, the conversion step includes, when converting the background of the image, the background of the image, the background taken by the surveillance camera, or. , When converting to a background of the same type as the background shot by the surveillance camera and converting the subject of the image, it is characterized by converting the properties of the subject to the properties that the subject is likely to have in the area shot by the surveillance camera. And.
また、本発明の画像処理プログラムは、監視カメラに撮影された画像に所望の被写体が撮像されているか否かの解析のために用いられる画像の背景及び/または被写体を変換する変換ステップをコンピュータに実行させ変換ステップは、画像の背景を変換する場合、画像の背景を、監視カメラで撮影されている背景、または、監視カメラで撮影されている背景と同種の背景に変換し、画像の被写体を変換する場合、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換する。 Further, the image processing program of the present invention provides a computer with a conversion step of converting an image background and / or a subject used for analyzing whether or not a desired subject is captured in an image captured by a surveillance camera. When converting the background of the image, the conversion step is executed to convert the background of the image to the background taken by the surveillance camera or the same kind of background as the background taken by the surveillance camera, and the subject of the image is converted. When converting, the property of the subject is converted into a property that the subject is likely to have in the area photographed by the surveillance camera.
本発明によれば、画像解析の精度向上のために、解析のために用いられる適切な画像を提供することができる。 According to the present invention, it is possible to provide an appropriate image used for analysis in order to improve the accuracy of image analysis.
以下に、本願に係る画像処理装置、画像処理方法及び画像処理プログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。 Hereinafter, embodiments of an image processing apparatus, an image processing method, and an image processing program according to the present application will be described in detail with reference to the drawings. Further, the present invention is not limited to the embodiments described below.
[実施の形態1]
まず、実施の形態1について説明する。本実施の形態は、ディープニューラルネットワークによって構成されるモデルを用いて画像解析を行う解析システムに関する。モデルは、所望の被写体または所望の被写体の候補が撮像された画像における特徴量を抽出し、抽出した特徴量を用いて、画像内の被写体または被写体の候補が属する属性の推定や、被写体または被写体の候補と検出対象との照合を行うモデルである。また、本実施の形態1において、解析対象となる画像は、監視カメラに撮影された画像である。
[Embodiment 1]
First, the first embodiment will be described. The present embodiment relates to an analysis system that performs image analysis using a model configured by a deep neural network. The model extracts the feature amount in the image in which the desired subject or the candidate of the desired subject is captured, and uses the extracted feature amount to estimate the attribute to which the subject or the candidate of the subject belongs in the image, or to estimate the subject or the subject. This is a model that collates the candidate with the detection target. Further, in the first embodiment, the image to be analyzed is an image taken by a surveillance camera.
[解析システムの構成]
まず、本実施の形態1における解析システムの構成について説明する。図1は、実施の形態1における解析システムの構成の一例を示すブロック図である。
[Analysis system configuration]
First, the configuration of the analysis system according to the first embodiment will be described. FIG. 1 is a block diagram showing an example of the configuration of the analysis system according to the first embodiment.
図1に示すように、実施の形態1に係る解析システム1は、ディープニューラルネットワークによって構成されるモデルを用いて画像解析を行う解析装置30と、解析装置30のモデルの学習を実行する学習装置20とを有する。そして、解析システム1は、学習装置20の前段に、学習対象の画像を処理する画像処理装置10を有する。
As shown in FIG. 1, the
図2は、解析装置30による解析処理の内容を説明する図である。解析装置30が用いるモデルは、解析対象の画像xの特徴量(特徴量ベクトル)を抽出する特徴抽出モジュールと、特徴抽出モジュールが抽出した特徴量を用いて、切出済画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う解析モジュールとを有する。切出済画像は、元の画像から、被写体を含む部分を切り出した画像である。
FIG. 2 is a diagram illustrating the content of analysis processing by the
具体的には、解析装置30では、モデルにおける特徴抽出モジュールが特徴量を抽出する特徴量抽出ステップを行う(図2のステップS1)。続いて、モデルは、特徴抽出モジュールが抽出した特徴量を用いて、画像内のオブジェクトが属する属性を推定する属性推定ステップ(図2のステップS2)またはオブジェクトと検出対象のオブジェクトとを照合する照合ステップ(図2のステップS3)を行い、解析結果を出力する。属性は、人物の性別、年代の他、骨格や歩容も含む。また、属性は、人間のみに限らず、人間以外の動物の種別等であってもよく、また、車両、ロボット等の物体であってもよい。
Specifically, in the
図2の例では、モデルは、入力された画像xの人物の属性を「男性」であると推定する。また、モデルは、入力された画像xの人物と検出対象の人物とを照合し、画像xの人物と検出対象の人物とは「他人」であると解析する。 In the example of FIG. 2, the model estimates that the attribute of the person in the input image x is "male". Further, the model collates the input person of the image x with the person to be detected, and analyzes that the person of the image x and the person to be detected are "others".
学習装置20は、学習用の画像データを用いてモデルの学習を行う。学習装置20は、画像の特徴量を抽出し、抽出した特徴量を基に画像に所望の被写体が撮像されているか否かを解析する、ディープニューラルネットワークで構成されたモデルの学習を実行する。 The learning device 20 learns a model using image data for learning. The learning device 20 extracts a feature amount of an image and analyzes whether or not a desired subject is captured in the image based on the extracted feature amount, and executes learning of a model configured by a deep neural network.
そして、画像処理装置10は、所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する。画像処理装置10は、学習装置20に、モデルの学習に使用する学習用の画像データ(学習用データ)を提供する。画像処理装置は、学習に使用する画像に対して、所定の画像処理を実行し、画像処理後の画像を学習装置20に出力する。なお、画像処理装置10は、解析装置30に、解析対象となる解析用の画像データ(解析用画像)を提供してもよい。
Then, the image processing device 10 processes an image used for analyzing whether or not a desired subject is captured. The image processing device 10 provides the learning device 20 with image data for learning (learning data) used for learning the model. The image processing device executes predetermined image processing on the image used for learning, and outputs the image after the image processing to the learning device 20. The image processing device 10 may provide the
具体的には、画像処理装置10は、学習装置20がモデルの学習に使用する学習用の画像を生成する。画像処理装置10は、公開されている画像データセットの切出済画像を取得し、これらの切出済画像から、所望の属性を有する画像を抽出する。例えば、画像処理装置10は、解析対象の画像を撮像する監視カメラで撮像されている画像の背景、或いは、監視カメラで撮影されている背景と同種の背景を有する画像を抽出する。また、例えば、画像処理装置10は、解析対象の画像を撮像する監視カメラで撮影される領域において被写体が有しやすい性質を有した被写体を含む画像を抽出する。なお、画像データセットは、画像ごとに、オブジェクトの属性及びオブジェクトの識別情報を含むオブジェクト情報が付与されたものである。 Specifically, the image processing device 10 generates a learning image used by the learning device 20 for learning the model. The image processing device 10 acquires cut-out images of a publicly available image data set, and extracts an image having a desired attribute from these cut-out images. For example, the image processing apparatus 10 extracts a background of an image captured by a surveillance camera that captures an image to be analyzed, or an image having a background similar to the background captured by the surveillance camera. Further, for example, the image processing device 10 extracts an image including a subject having a property that the subject tends to have in a region photographed by a surveillance camera that captures an image to be analyzed. In the image data set, object information including object attributes and object identification information is added to each image.
そして、画像処理装置10は、抽出した画像の枚数が目的の枚数に達しない場合、公開されている画像データセットの切出済画像のうち、所望の属性以外の画像の背景または被写体の性質を変換することで所望の属性を有する画像を生成する。なお、目的の枚数は、例えば、解析を行うモデルの解析精度等に対応して設定される。 Then, when the number of extracted images does not reach the target number, the image processing device 10 determines the properties of the background or the subject of the image other than the desired attribute among the cut out images of the published image data set. The conversion produces an image with the desired attributes. The target number of sheets is set, for example, according to the analysis accuracy of the model to be analyzed.
具体的に、画像処理装置10は、画像の背景を変換する場合、画像の背景を、監視カメラで撮影されている背景、または、監視カメラで撮影されている背景と同種の背景に変換する。画像処理装置10は、画像の被写体を変換する場合、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換する。画像処理装置10は、抽出または変換した画像であって、所望の属性を有する画像を、学習用データとして、学習装置20または解析装置30に出力する。
Specifically, when the background of the image is converted, the image processing device 10 converts the background of the image into a background taken by the surveillance camera or a background of the same type as the background taken by the surveillance camera. When converting the subject of an image, the image processing device 10 converts the property of the subject into a property that the subject is likely to have in the area photographed by the surveillance camera. The image processing device 10 outputs an extracted or converted image having a desired attribute to the learning device 20 or the
このように、本実施の形態1では、学習装置20の前段の画像処理装置10において、画像データセットの切出済画像から、所望の背景、または、所望の性質を有する被写体を含む画像を、抽出または生成する。このため、本実施の形態1では、学習用データの各画像の背景または被写体の性質を統一して、機械学習時に推定させる要素を減らし、本来推定すべき被写体を適切に学習させて、解析精度の向上を図る。 As described above, in the first embodiment, in the image processing device 10 in the previous stage of the learning device 20, an image including a desired background or a subject having a desired property is obtained from the cut-out image of the image data set. Extract or generate. Therefore, in the first embodiment, the nature of the background or the subject of each image of the learning data is unified, the elements to be estimated at the time of machine learning are reduced, the subject to be originally estimated is appropriately learned, and the analysis accuracy is improved. To improve.
[画像処理装置]
次に、画像処理装置10の構成について説明する。図3は、画像処理装置10の構成の一例を示すブロック図である。図3に示すように、画像処理装置10は、入出力部11、記憶部12及び制御部13を有する。
[Image processing device]
Next, the configuration of the image processing device 10 will be described. FIG. 3 is a block diagram showing an example of the configuration of the image processing device 10. As shown in FIG. 3, the image processing device 10 has an input /
入出力部11は、情報の入力を受け付け、また、情報の出力を行う。入出力部11は、例えば、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。入出力部11は、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置(例えば、学習装置20または解析装置30)と制御部13(後述)との間の通信を行う。また、入出力部11は、ユーザによる入力操作に対応して、画像処理装置10に対する各種指示情報の入力を受け付ける、マウスやキーボード等のデバイス装置である。入出力部11は、例えば、液晶ディスプレイなどによって実現され、画像処理装置10によって表示制御された画面が表示出力される。
The input /
記憶部12は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子によって実現され、画像処理装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部12は、画像データ121、変換用データ122、抽出画像123及び変換済画像124を有する。
The storage unit 12 is realized by semiconductor memory elements such as RAM (Random Access Memory) and flash memory (Flash Memory), and a processing program for operating the image processing device 10 and data used during execution of the processing program can be stored. It will be remembered. The storage unit 12 has image data 121, conversion data 122, extracted
画像データ121は、例えば、公開された画像のデータセットである。画像データ121は、複数の画像のデータセットであってもよい。 The image data 121 is, for example, a data set of published images. The image data 121 may be a data set of a plurality of images.
変換用データ122は、変換部132(後述)による変換処理において、画像の背景を、所望の背景または所望の背景と同種の背景に変換する際に要するデータであり、所望の背景または所望の背景と同種の背景が写る画像データ等である。そして、変換用データ122は、変換部132における変換処理において、画像の被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換する際に要するデータであり、監視カメラで撮影される領域において被写体が有しやすい性質を有した被写体が写る画像データ等である。 The conversion data 122 is data required for converting the background of an image into a desired background or a background of the same type as the desired background in the conversion process by the conversion unit 132 (described later), and is a desired background or a desired background. It is image data etc. that shows the same kind of background as. The conversion data 122 is data required for converting the property of the subject of the image into the property that the subject is likely to have in the area photographed by the surveillance camera in the conversion process of the conversion unit 132. It is image data or the like in which a subject having a property that the subject tends to have in the area to be photographed is captured.
抽出画像123は、抽出部131(後述)による抽出処理によって、画像データ121から抽出された画像である。抽出画像123は、所望の属性を有する画像である。例えば、抽出画像123は、監視カメラで撮像されている画像の背景、或いは、監視カメラで撮影されている背景と同種の背景を有する画像である。または、抽出画像123は、監視カメラで撮影される領域において被写体が有しやすい性質を有した被写体を含む画像である。
The extracted
変換済画像124は、変換部132による変換によって生成された画像である。変換済画像は、背景が、監視カメラで撮像されている画像の背景、或いは、監視カメラで撮影されている背景と同種の背景に変換された画像である。または、変換済画像124は、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換された画像である。
The converted
制御部13は、画像処理装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。制御部13は、抽出部131及び変換部132を有する。
The
抽出部131は、画像データ121から、所望の属性を有する画像を抽出する。抽出部131は、画像処理装置10は、解析対象の画像を撮像する監視カメラで撮像されている画像の背景、或いは、監視カメラで撮影されている背景と同種の背景を有する画像を抽出画像123として抽出する。 The extraction unit 131 extracts an image having a desired attribute from the image data 121. The extraction unit 131 extracts the background of the image captured by the surveillance camera that captures the image to be analyzed, or the image having the same type of background as the background captured by the surveillance camera. Extract as.
例えば、画像の背景は、エスカレータ、エレベータ等である。監視カメラがエスカレータまたはエレベータを撮影する場合、被写体の姿勢は、ほとんどの場合、直立状態である。監視カメラが撮像される領域がエスカレータまたはエレベータである場合、抽出部131は、骨格推定や、所定の背景が写る領域をピックアップするアテンション方式などを用いて、背景がエスカレータまたはエレベータであるとともに、直立状態の被写体が撮像された画像を抽出する。 For example, the background of the image is an escalator, an elevator, or the like. When a surveillance camera shoots an escalator or elevator, the posture of the subject is almost always upright. When the area where the surveillance camera is imaged is an escalator or an elevator, the extraction unit 131 uses skeleton estimation, an attention method for picking up an area where a predetermined background is captured, and the like, and the background is an escalator or an elevator and is upright. The image of the subject in the state is extracted.
そして、被写体の性質は、被写体の外観的性質であり、具体的には、姿勢、服装、表情、髪型、または、所持品である。抽出部131は、画像処理装置10は、解析対象の画像を撮像する監視カメラで撮影される領域において被写体が有しやすい性質を有した被写体を含む画像を抽出する。例えば、監視カメラが式場に設置されている場合、被写体の服装は礼装である。監視カメラが撮像される領域が式場である場合、抽出部131は、礼服を着た被写体が撮像された画像を抽出する。 The nature of the subject is the appearance property of the subject, specifically, the posture, clothes, facial expressions, hairstyle, or belongings. The image processing device 10 extracts an image including a subject having a property that the subject tends to have in the area photographed by the surveillance camera that captures the image to be analyzed. For example, when a surveillance camera is installed in a wedding hall, the subject's dress is formal wear. When the area where the surveillance camera is imaged is the ceremony hall, the extraction unit 131 extracts the image of the subject wearing the formal wear.
変換部132は、解析のために用いられる画像の背景及び/または被写体を変換する。変換部132は、抽出部131が抽出した抽出画像123の枚数が目的の枚数に達しない場合、画像の背景及び/または被写体を変換した変換済画像124を生成する。
The conversion unit 132 converts the background and / or subject of the image used for analysis. When the number of the extracted
変換部132は、画像の背景を変換する場合、画像の背景を、監視カメラで撮影されている背景、または、監視カメラで撮影されている背景と同種の背景に変換する。図4は、変換部132の処理を説明する図である。 When converting the background of the image, the conversion unit 132 converts the background of the image into a background taken by the surveillance camera or a background of the same type as the background taken by the surveillance camera. FIG. 4 is a diagram illustrating the processing of the conversion unit 132.
例えば、監視カメラがエスカレータを撮影する場合、画像の背景は、エスカレータとなる。そして、この場合、被写体の姿勢は、直立状態である。そこで、図4に示すように、変換部132は、背景がエスカレータでないが直立状態の被写体H1が写る画像G1を画像データ121から取得する。そして、変換部132は、この画像G1の背景を、エスカレータB1が写る背景に変換した画像G1´を生成する。なお、変換部132は、監視カメラが撮像するエスカレートと同一のエスカレータが写る背景が変換データ中にない場合には、類似するエスカレータの背景を用いて背景の変換を行なってもよい。 For example, when a surveillance camera shoots an escalator, the background of the image is the escalator. In this case, the posture of the subject is in an upright state. Therefore, as shown in FIG. 4, the conversion unit 132 acquires an image G1 in which the subject H1 in an upright state is captured from the image data 121, although the background is not an escalator. Then, the conversion unit 132 generates an image G1 ′ in which the background of the image G1 is converted into a background in which the escalator B1 appears. If the conversion data does not include a background in which the same escalator as the escalator captured by the surveillance camera appears, the conversion unit 132 may convert the background using the background of a similar escalator.
そして、変換部132は、画像の被写体を変換する場合、被写体の性質を、監視カメラで撮影される領域において被写体が有しやすい性質に変換する。被写体の性質は、被写体の外観的性質であり、具体的には、姿勢、服装、表情、髪型、または、所持品である。図5は、変換部132の処理を説明する図である。 Then, when converting the subject of the image, the conversion unit 132 converts the property of the subject into a property that the subject is likely to have in the area photographed by the surveillance camera. The nature of the subject is the appearance property of the subject, specifically, the posture, clothes, facial expressions, hairstyle, or belongings. FIG. 5 is a diagram illustrating the processing of the conversion unit 132.
例えば、監視カメラが式場に設置されている場合、被写体の服装は礼装である。そこで、図5に示すように、変換部132は、平服である被写体H2が写る画像G2を画像データ121から取得する。そして、変換部132は、被写体H2の服装を、平服から礼服に変換した画像G2´を生成する。また、例えば、変換部132は、素顔の被写体が写る画像を画像データ121から取得して、被写体の顔を、素顔から、化粧を施した顔に変換した画像を生成してもよい。 For example, when a surveillance camera is installed in a wedding hall, the subject's dress is formal wear. Therefore, as shown in FIG. 5, the conversion unit 132 acquires the image G2 in which the subject H2, which is a plain dress, is captured from the image data 121. Then, the conversion unit 132 generates an image G2'that is obtained by converting the clothes of the subject H2 from plain dress to formal wear. Further, for example, the conversion unit 132 may acquire an image in which a subject with a real face is captured from the image data 121, and generate an image in which the face of the subject is converted from the real face to a face with makeup applied.
変換部132は、画像のオブジェクトの属性及びオブジェクトの識別情報を他の属性或いは識別情報に変換した場合には、変換内容に合わせて、変換済画像124のオブジェクト情報を変更する。画像処理装置10は、抽出画像123及び変換済画像124を学習用データとして学習装置20に出力する。
When the conversion unit 132 converts the object attribute of the image and the object identification information into another attribute or identification information, the conversion unit 132 changes the object information of the converted
[学習装置]
次に、学習装置20の構成について説明する。図6は、学習装置20の構成の一例を示すブロック図である。図6に示すように、学習装置20は、入出力部21、記憶部22及び制御部23を有する。
[Learning device]
Next, the configuration of the learning device 20 will be described. FIG. 6 is a block diagram showing an example of the configuration of the learning device 20. As shown in FIG. 6, the learning device 20 has an input /
入出力部21は、図3に示す入出力部11と同様の機能を有し、情報の入出力や他の装置(例えば、画像処理装置10及び解析装置30)との通信を行う。
The input /
記憶部22は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子によって実現され、学習装置20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部22は、画像処理装置10が、抽出画像123及び変換済画像124を、学習用データ221として記憶する。この抽出画像123は、画像処理装置10によって、公開データセットの画像から抽出された所望の属性を有する画像である。また、変換済画像124は、背景及び/または被写体の性質を所望の属性に合うように変換された画像である。また、記憶部22は、モデル222を有する。
The storage unit 22 is realized by semiconductor memory elements such as RAM (Random Access Memory) and flash memory (Flash Memory), and stores a processing program for operating the learning device 20, data used during execution of the processing program, and the like. Will be done. In the storage unit 22, the image processing device 10 stores the extracted
モデル222は、特徴抽出モジュールで画像の特徴量を抽出し、抽出した特徴量を基に画像に所望の被写体が撮像されているか否かを解析モジュールで解析するモデルである。モデル222は、ディープニューラルネットワークで構成される。モデル222は、抽出した特徴量を用いて、画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う。モデル222の各種パラメータは、後述する学習部231による学習用データ221を用いた学習によって調整される。
The model 222 is a model in which the feature amount of the image is extracted by the feature extraction module, and whether or not a desired subject is captured in the image is analyzed by the analysis module based on the extracted feature amount. Model 222 is composed of a deep neural network. The model 222 uses the extracted features to estimate the attributes to which the subject in the image belongs and to collate the subject with the subject to be detected. Various parameters of the model 222 are adjusted by learning using the
制御部23は、図3に示す制御部13と同様の機能を有し、学習装置20全体を制御する。制御部23は、各種のプログラムが動作することにより各種の処理部として機能する。制御部23は、学習部231を有する。
The
学習部231は、特徴抽出モジュールにおいて学習用データ221から抽出された特徴量に基づく画像の画像解析を学習する。
The learning unit 231 learns image analysis of an image based on the feature amount extracted from the learning
このように、学習装置20は、画像処理装置10によって、学習対象の画像データ121から予め抽出された、所望の背景または所望の性質を有する被写体を含む抽出画像123、または、画像データ121の画像を所望の背景に変換された変換済画像124及び所望の被写体の性質となるように被写体の性質が変換された変換済画像124を用いて学習を行っている。抽出画像123及び変換済画像124は、各画像の背景または被写体の性質を統一されているため、学習装置20では、機械学習時に推定させる要素が減り、本来推定すべき被写体を適切にモデルに学習させ、モデルの解析精度の向上を向上することができる。
As described above, the learning device 20 is an image of the extracted
[解析装置]
次に、解析装置30の構成について説明する。図7は、解析装置30の構成の一例を示すブロック図である。図7に示すように、解析装置30は、入出力部31、記憶部32及び制御部33を有する。
[Analyzer]
Next, the configuration of the
入出力部31は、図3に示す入出力部11と同様の機能を有し、情報の入出力や他の装置(例えば、画像処理装置10及び学習装置20)との通信を行う。
The input /
記憶部32は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子によって実現され、解析装置30を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部32は、解析用画像321、モデル322、及び、画像に写ったオブジェクトの分類結果或いは画像に写ったオブジェクトの属性の推定結果を示す解析結果323を有する。
The
制御部33は、図3に示す制御部13と同様の機能を有し、解析装置30全体を制御する。制御部33は、各種のプログラムが動作することにより各種の処理部として機能する。制御部33は、解析部331を有する。
The control unit 33 has the same function as the
解析部331は、モデル322を用いて、特徴抽出モジュールにおける特徴量抽出処理と、特徴抽出モジュールが抽出した特徴量を用いて、解析用画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う。
Using the model 322, the
このように、解析装置30は、解析時に、各画像の背景または被写体の性質を統一された抽出画像123及び変換済画像124を学習して精度を高めたモデル322を用いるため、精度の高い解析を実行することができる。
As described above, since the
[画像処理の処理手順]
次に、画像処理装置10が実行する画像処理の処理手順について説明する。図8は、実施の形態1に係る画像処理の処理手順を示すフローチャートである。
[Image processing procedure]
Next, a processing procedure for image processing executed by the image processing device 10 will be described. FIG. 8 is a flowchart showing a processing procedure of image processing according to the first embodiment.
図8に示すように、画像処理装置10は、画像データ121から、所望の属性を有する画像を抽出する(ステップS11)。画像処理装置10は、抽出した画像が目的枚数に達した場合(ステップS12:Yes)、抽出画像123を学習用データとして学習装置20に出力する(ステップS15)。
As shown in FIG. 8, the image processing apparatus 10 extracts an image having a desired attribute from the image data 121 (step S11). When the number of extracted images reaches the target number (step S12: Yes), the image processing device 10 outputs the extracted
一方、抽出した画像が目的枚数に達していない場合(ステップS12:No)、画像処理装置10は、画像データから、所望の属性以外の画像を抽出し(ステップS13)、抽出した画像に対し、画像の背景及び/または被写体を変換する変換処理を施す(ステップS14)。 On the other hand, when the number of extracted images has not reached the target number (step S12: No), the image processing apparatus 10 extracts an image other than the desired attribute from the image data (step S13), and the extracted image is referred to. A conversion process for converting the background and / or the subject of the image is performed (step S14).
そして、画像処理装置10は、抽出した画像及び変換した画像が目的枚数に達した場合(ステップS12:Yes)、抽出画像123及び変換済画像124を学習用データとして学習装置20に出力する(ステップS15)。また、画像処理装置10は、抽出した画像及び変換した画像が目的枚数に達していない場合(ステップS12:No)、抽出した画像及び変換した画像が目的枚数に達するまで、ステップS13,S14の処理を繰り返す。
Then, when the extracted image and the converted image reach the target number (step S12: Yes), the image processing device 10 outputs the extracted
[実施の形態1の効果]
モデル222の学習用画像に、本実施の形態を適用した場合の解析精度と未適用の場合の解析精度を評価した。表1に、その評価結果を示す。Rank-1及びmAPは、いずれも0〜100%の値を取り、値が高いほど照合精度が良好であることを示す。
[Effect of Embodiment 1]
The analysis accuracy when the present embodiment was applied to the learning image of the model 222 and the analysis accuracy when the present embodiment was not applied were evaluated. Table 1 shows the evaluation results. Rank-1 and mAP both take a value of 0 to 100%, and the higher the value, the better the collation accuracy.
表1では、画像データ121の画像を全て採用して学習した場合の照合精度と、画像データ121のうち背景がエスカレータのみとした抽出画像123及び変換済画像124とを採用して学習した場合の照合精度とを示す。表1に示すように、画像データ121のうち背景がエスカレータのみとした抽出画像123及び変換済画像124とを採用して学習した方が、画像データ121の画像を全て採用して学習した場合と比して、Rank-1及びmAPのいずれについても最も良好であった。
In Table 1, the collation accuracy when all the images of the image data 121 are adopted and learned, and the extracted
本実施の形態1では、画像処理装置10によって、学習用データとして、画像処理装置10によって、学習対象の画像データ121から予め抽出された、所望の背景または所望の性質を有する被写体を含む抽出画像123、または、画像データ121の画像を所望の背景に変換された変換済画像124及び所望の被写体の性質となるように被写体の性質が変換された変換済画像124を用いて学習を行っている。このように、本実施の形態1では、学習の際に、画像の背景または被写体の性質が統一された抽出画像123及び変換済画像124を用いる。このため、本実施の形態1によれば、機械学習時に推定させる要素が減り、本来推定すべき被写体を適切にモデルに学習させ、モデルの解析精度の向上を向上することができる。
In the first embodiment, an extracted image including a subject having a desired background or a desired property, which is previously extracted from the image data 121 to be learned by the image processing device 10 as learning data by the image processing device 10. Learning is performed using the converted
[実施の形態2]
次に、実施の形態2について説明する。実施の形態2では、モデルとして、アテンションモデルを用いる場合について説明する。アテンションモデルとは、切出済画像から複数の領域をピックアップし、ピックアップした複数の領域ごとに特徴量を抽出し、抽出した各特徴量を統合して、画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行うモデルである。本実施の形態2では、画像処理装置10が処理した抽出画像123及び変換済画像124を用いて、モデルの学習またはモデルを用いた解析を行う。
[Embodiment 2]
Next, the second embodiment will be described. In the second embodiment, a case where an attention model is used as a model will be described. The attention model is to pick up multiple areas from the clipped image, extract the feature amount for each of the picked up areas, integrate each extracted feature amount, and estimate the attribute to which the subject in the image belongs. This is a model that collates the subject with the subject to be detected. In the second embodiment, model learning or analysis using the model is performed using the extracted
[概要]
まず、図14を用いて、本実施の形態の学習装置2の概要を説明する。ここでの学習の対象は、画像解析を行うディープニューラルネットワークであるものとする。このディープニューラルネットワークは、解析対象の画像から、オブジェクトの映っている部分を切り出す切出モジュール(図14において図示省略)と、切り出した部分の特徴量を抽出する特徴量抽出モジュールと、抽出した特徴量に基づき、切り出した部分の解析を行う解析モジュールとを備えるものとする。
[Overview]
First, the outline of the learning device 2 of the present embodiment will be described with reference to FIG. The target of learning here is assumed to be a deep neural network that performs image analysis. This deep neural network has a cutout module (not shown in FIG. 14) that cuts out the part where the object is reflected from the image to be analyzed, a feature amount extraction module that extracts the feature amount of the cut out part, and the extracted features. It shall be equipped with an analysis module that analyzes the cut out portion based on the quantity.
特徴量抽出モジュールは、画像から特徴量を抽出する複数のモジュールから構成される。このモジュールは、例えば、HA-CNN等で用いられるlocal branchである。以下、特徴量抽出モジュールを構成するモジュールはlocal branchである場合を例に説明する。この特徴量抽出モジュールは、global branchを含んでいてもよい。また、解析モジュールは、画像に映ったオブジェクトの分類を行う分類モジュールと、当該オブジェクトの属性を推定する属性推定モジュールとを備える場合を例に説明する。 The feature amount extraction module is composed of a plurality of modules for extracting feature amounts from an image. This module is, for example, a local branch used in HA-CNN and the like. Hereinafter, the case where the module constituting the feature quantity extraction module is a local branch will be described as an example. This feature extraction module may include a global branch. Further, a case where the analysis module includes a classification module for classifying objects reflected in an image and an attribute estimation module for estimating the attributes of the object will be described as an example.
学習装置は、特徴量抽出モジュールのlocal branchそれぞれに、当該local branchが担当する(ピックアップすべき)サブオブジェクトを割り当てる。このサブオブジェクトは、オブジェクトを構成するオブジェクトである。 The learning device assigns a sub-object in charge of (to be picked up) to each local branch of the feature quantity extraction module. This sub-object is the object that makes up the object.
例えば、オブジェクトが人物である場合、当該オブジェクトのサブオブジェクトは上半身や下半身等である。例えば、学習装置は、図14の符号401に示すlocal branchが担当するサブオブジェクトとして人物の上半身を割り当て、符号402に示すlocal branchが担当するサブオブジェクトとして人物の下半身を割り当てる。
For example, when an object is a person, the sub-objects of the object are the upper body, the lower body, and the like. For example, the learning device allocates the upper body of the person as the sub-object in charge of the local branch shown by
その後、学習装置は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習装置は、抽出画像123及び変換済画像124の1枚1枚に対して各local branchがピックアップすべきサブオブジェクトが存在する領域(local branchがピックアップすべき領域)を示した情報を用いて、local branchそれぞれがピックアップすべきサブオブジェクトの領域の学習を行う。
After that, the learning device learns the area to be picked up by each local branch of the feature quantity extraction module. For example, the learning device uses information indicating an area (area to be picked up by the local branch) in which a sub-object to be picked up by each local branch exists for each of the extracted
例えば、学習装置は、図14の符号401に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。また、符号402に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。このような調整を繰り返すことにより、local branchそれぞれは、自身に割り当てられたサブオブジェクトの領域を正確にピックアップできるようになる。このような調整(学習)を、説明の便宜上、特徴量抽出モジュールの直接的な反省と呼ぶ。また、学習装置は、分析モジュールによる分析精度をより向上させるためには、local branchそれぞれがどの領域をピックアップすればよいのかの学習(間接的な反省)も行う。
For example, if there is an error between the area of the sub-object in charge of the local branch shown by
このように学習装置が、特徴量抽出モジュールの学習にあたり、上記の間接的な反省に加え、直接的な反省も行うことで、上記の間接的な反省のみで学習を行うよりも、学習に必要な画像数やエポック数を大幅に低減することができる。 In this way, when learning the feature quantity extraction module, the learning device is necessary for learning rather than learning only by the above indirect reflection by performing direct reflection in addition to the above indirect reflection. The number of images and the number of epochs can be significantly reduced.
[学習装置]
次に、図15を用いて、学習装置の構成例を説明する。学習装置220は、入出力部21と、記憶部22と、制御部223とを備える。
[Learning device]
Next, a configuration example of the learning device will be described with reference to FIG. The
記憶部22は、入出力部21経由で入力された抽出画像123及び変換済画像124を含む学習用データ221、制御部223による学習により得られたディープニューラルネットワークのモデル2222を記憶する。モデル2222は、例えば、上記のディープニューラルネットワークで用いられる各種モジュール(割当モジュール、特徴量抽出モジュール、分析モジュール)のパラメータ値等を示した情報である。このモデルの情報は、制御部223による学習処理により適宜更新される。
The storage unit 22 stores the learning
上記の抽出画像123及び変換済画像124は、例えば、画像ごとに、当該画像においてサブオブジェクトが存在する領域(つまり、local branchがピックアップすべき領域)の情報を付与したものである。このサブオブジェクトが存在する領域の情報(例えば、座標)は、手動で付与してもよいし、自動で付与してもよい。
In the above-mentioned extracted
例えば、学習装置220が特徴量抽出モジュールにおいて、人物の上半身と下半身という2つのサブオブジェクトをピックアップすると定め、画像においてこれらのサブオブジェクトが存在する領域の情報(例えば、座標)を自動で付与する場合を考える。
For example, when the
この場合、例えば、人物の全身が映った画像(図16の符号601参照)と、上半身が映った画像(図16の符号602参照)と、下半身が映った画像(図16の符号603参照)とを予め用意しておく。
In this case, for example, an image showing the whole body of a person (see
そして、学習装置220は、これらの画像について、人物の全身が映った画像に対しては「画像の上半分が上半身で、画像の下半分が下半身」、上半身が映った画像に対しては「画像の全体が上半身で、下半身は存在せず」、下半身が映った画像に対しては「画像の全体が下半身で、上半身は存在せず」と判断する。その後、学習装置220は、上記の判断結果に基づき、各画像において上半身の存在する領域と下半身の存在する領域とを、例えば、矩形領域の四辺の座標で付与する。そして、学習装置220は、各サブオブジェクトの存在する領域の座標を付与した画像を、部分画像として記憶部12に格納する。なお、学習装置220は、上半身が映った画像と下半身が映った画像とを用意する際、図17に示すように、全身の映った画像を上下2つに分割することにより用意してもよい。
Then, the
図15の説明に戻る。制御部223は、サブオブジェクト割当部2231と、学習部2232とを備える。
Returning to the description of FIG. The
サブオブジェクト割当部2231は、特徴量抽出モジュールを構成するlocal branchごとに、当該local branchが担当するサブオブジェクトを割り当てる。つまり、サブオブジェクト割当部2231は、local branchごとに、当該local branchが、オブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトをピックアップし、特徴量を抽出するかを割り当てる。ここで特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数、種類は任意の数、種類でよい。
The
例えば、ディープニューラルネットワークが扱うオブジェクトが人物である場合において、特徴量抽出モジュールがピックアップするサブオブジェクトの数を2個としたとき、サブオブジェクト割当部2231は、1本目のlocal branchに人物の上半身を割り当て、2本目のlocal branchに人物の下半身を割り当てる。また、同様に、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を2個とした場合、サブオブジェクト割当部2231は、1本目のlocal branchに人物の右半身を割り当て、2本目のlocal branchに人物の左半身を割り当ててもよい。
For example, when the object handled by the deep neural network is a person and the number of sub-objects picked up by the feature extraction module is 2, the
さらに、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を3個とした場合、サブオブジェクト割当部2231は、例えば、1本目のlocal branchに人物の顔面を割り当て、2本目のlocal branchに人物の顔面を除く上半身を割り当て、3本目のlocal branchに人物の下半身を割り当てる。
Further, when the number of sub-objects to be picked up in the feature amount extraction module is 3, the
学習部2232は、サブオブジェクト割当部2231により各local branchに割り当てられたサブオブジェクトの領域について、前記した間接的反省(第2の学習)に加え、部分画像を用いた直接的反省(第1の学習)を行う。
In addition to the indirect reflection (second learning) described above, the
つまり、学習部2232は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、local branchそれぞれが当該local branchに割り当てられたサブオブジェクトの領域を精度よくピックアップできるようlocal branchそれぞれの学習(第1の学習)を行い、また、local branchそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、当該画像分析の分析精度をより向上させるようlocal branchそれぞれの学習(第2の学習)を行う。
That is, the
なお、学習部2232が、各local branchの直接的反省(第1の学習)を行う場合の損失関数は、例えば、以下のようなものが考えられる。
The loss function when the
例えば、各local branchがピックアップする領域の形状が矩形であり、i本目のlocal branchが実際にピックアップした矩形領域の座標が(x0,x1,y0,y1)であり(図18参照)、i本目のlocal branchがピックアップすべき矩形領域の座標が以下のように与えられた場合を考える。 For example, the shape of the area picked up by each local branch is rectangular, and the coordinates of the rectangular area actually picked up by the i-th local branch are (x 0 , x 1 , y 0 , y 1 ) (see FIG. 18). ), Consider the case where the coordinates of the rectangular area to be picked up by the i-th local branch are given as follows.
この場合、学習部2232は、i本目のlocal branchに直接伝播する損失関数として、例えば以下の式(1)を用いる。
In this case, the
学習部2232は、直接的反省および間接的反省により得られた特徴量抽出モジュールのパラメータ値を用いて、記憶部12内のモデルを更新する。
The
[解析装置]
次に、実施の形態2における解析装置の構成について説明する。図19は、実施の形態2における解析装置の構成の一例を示すブロック図である。解析装置320は、入出力部31と、記憶部32と、制御部233とを備える。
[Analyzer]
Next, the configuration of the analysis device according to the second embodiment will be described. FIG. 19 is a block diagram showing an example of the configuration of the analysis device according to the second embodiment. The analysis device 320 includes an input /
記憶部32は、解析用画像321、学習装置220による学習によってパラメータが最適化されたアテンションモデルであるモデル2322(アテンションモデル)、及び、画像に写ったオブジェクトの分類結果或いは画像に写ったオブジェクトの属性の推定結果を示す解析結果2323を有する。
The
制御部233は、図8に示す制御部33と同様の機能を有し、解析装置230全体を制御する。制御部233は、各種のプログラムが動作することにより各種の処理部として機能する。制御部233は、サブオブジェクト割当部2331及び解析部2332を有する。
The
サブオブジェクト割当部2331は、解析用画像321から、モデル2322の各モジュールに、対応する領域を割り当てる。ピックアップする領域、及び、ピックアップした領域の各モジュールへの割り当ては、学習装置220における学習によってそれぞれ最適化されている。
The sub-object allocation unit 2331 allocates a corresponding area to each module of the model 2322 from the
解析部2332は、モデル2322を用いて、各モジュールにおける領域ごとの特徴量を抽出し、各モジュールが抽出した特徴量を用いて、解析用画像321内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う。
The
[学習処理の処理手順]
図15を用いて、上記の学習装置220の処理手順の例を説明する。まず、学習装置220のサブオブジェクト割当部2231は、学習対象のディープニューラルネットワークの特徴量抽出モジュールにおける各local branchへのサブオブジェクトの割り当てを行う(ステップS201)。その後、学習部2232は、上記の特徴量抽出モジュールの各local branchの学習を行う(ステップS202)。すなわち、学習部2232は、分析モジュールから逆伝搬されてきた誤差を用いた各local branchの間接的反省に加え、記憶部22の学習用データの画像を用いた各local branchの直接的反省を行う。
[Processing procedure of learning process]
An example of the processing procedure of the
[解析処理の処理手順]
次に、図16を用いて、上記の解析装置320の処理手順の例を説明する。まず、サブオブジェクト割当部2331は、解析用画像321から、モデル2322の各モジュールに対応する領域に割り当てる(ステップS211)。ピックアップする領域、及び、ピックアップした領域の各モジュールへの割り当ては、学習装置220における学習によってそれぞれ最適化されている。
[Processing procedure for analysis processing]
Next, an example of the processing procedure of the above-mentioned analysis device 320 will be described with reference to FIG. First, the sub-object allocation unit 2331 allocates the
解析部2332は、解析処理として、モデル2322を用いて、各モジュールにおける領域ごとの特徴量を抽出し、各モジュールが抽出した特徴量を用いて、解析用画像321内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う(ステップS212)。
As an analysis process, the
[実施の形態2の効果]
上記の学習装置220は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域を所与のものとし、さらにその誤差を損失関数として計上して、直接的な反省も行う。これにより、特徴量抽出モジュールのlocal branchそれぞれは、オブジェクトの映り方が不完全な画像に対しても、当該オブジェクトの狙った部位(サブオブジェクト)を正確にピックアップすることができる。その結果、特徴量抽出モジュールは各サブオブジェクトの特徴量を精度よく抽出できるので、解析モジュールが当該オブジェクトの分析(例えば、分類、属性推定、照合等)を行う際の精度を向上させることができる。
[Effect of Embodiment 2]
In the
例えば、監視カメラで撮影された映像に対し、映像に映った人物の自動解析を行うディープニューラルネットワークの学習に、本実施の形態2の学習装置220による学習を適用すれば、「迷子になった赤い服を着た5歳の女の子を探したい」、または、「この写真の犯人を捜したい」という要求があった場合に、従来は目視で扱うしかなかった「身体の一部しか映っていない画像」に対しても自動解析を行うことができる。
For example, if the learning by the
監視カメラで撮影された映像に対し、人物自動解析を行うディープニューラルネットワークの学習に、本実施の形態2の学習装置220による学習を適用した場合と、従来技術(HA-CNN)による学習を適用した場合との比較結果を図17に示す。
When learning by the
ここでは、それぞれのディープニューラルネットワークに対し、画像の中から、「ボーダーのズボンの人物」(図17の左側の「この人物を探せ」に示す画像の人物)に似ている上位5枚の画像を探すよう指示した。 Here, for each deep neural network, the top five images that resemble the "person in the border pants" (the person in the image shown in "Find this person" on the left side of FIG. 17) from the images. Instructed to look for.
この場合、比較例である従来技術(HA-CNN)により学習したディープニューラルネットワークは、本来「ボーダーのズボンの人物」を探すべきところ、上記の上位5枚の画像の中には「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれている。これは、比較元の画像(図22の「この人物を探せ」に示す画像)に、人物の下半身しか映っておらず、ディープニューラルネットワークにおいて画像上の領域と部位の紐づけに失敗したためと考えられる。 In this case, the deep neural network learned by the conventional technique (HA-CNN), which is a comparative example, should originally search for "a person with border pants", but in the above top five images, "Border T" is included. Includes "shirt person" and "border one-piece person". It is considered that this is because only the lower half of the person is shown in the comparison source image (the image shown in "Find this person" in FIG. 22), and the deep neural network fails to link the area and the part on the image. Be done.
一方で、本実施の形態2の学習装置220により学習したディープニューラルネットワークは、画像の中から探した上記の上位5枚の画像の中に「ボーダーのズボンの人物」のみが含まれており、「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれていない。このことから本実施の形態2の学習装置220により学習したディープニューラルネットワークは、不完全な画像であっても精度よく検索できることが示された。
On the other hand, in the deep neural network learned by the
つまり、従来技術では、ディープニューラルネットワークの特徴量抽出モジュールにおいて各local branchがどのサブオブジェクトを担当すべきかを事前に決めていなかった。そのため、各local branchがどのサブオブジェクトを担当すべきかは、後続の分析モジュールからの間接的な反省に頼らざるを得なかった。その結果、各local branchが、不完全な画像でも精度よく特徴量を抽出できるよう学習を積むためは、学習用データを多数用意したり、長時間の学習時間を用意したりする必要があった。 That is, in the prior art, it was not decided in advance which sub-object each local branch should be in charge of in the feature quantity extraction module of the deep neural network. Therefore, which sub-object each local branch should be responsible for had to rely on indirect reflection from subsequent analysis modules. As a result, in order for each local branch to learn so that features can be extracted accurately even with incomplete images, it was necessary to prepare a large amount of training data and prepare a long learning time. ..
一方、本実施の形態2の学習装置220は、特徴量抽出モジュールにおける各local branchがどのサブオブジェクトを担当すべきかを事前に決めておく。これにより、学習装置220は、前記した各local branchの間接的な反省に加え、直接的な反省も行えるようになる。その結果、現実的に確保できる量の学習用データや学習時間により、特徴量抽出モジュールの各local branchが、不完全な画像でも精度よく特徴量を抽出できるよう学習することができる。
On the other hand, the
[実施の形態のシステム構成について]
上記で示した画像処理装置10、学習装置20,220及び解析装置30,230の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、画像処理装置10、学習装置20,220及び解析装置30,230の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
[About the system configuration of the embodiment]
The components of the image processing device 10, the
また、画像処理装置10、学習装置20,220及び解析装置30,230においておこなわれる各処理は、全部または任意の一部が、CPUおよびCPUにより解析実行されるプログラムにて実現されてもよい。また、画像処理装置10、学習装置20,220及び解析装置30,230においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
Further, each process performed by the image processing device 10, the
また、実施の形態1において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。 Further, among the processes described in the first embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or part of the process described as being performed manually can be automatically performed by a known method. In addition, the above-mentioned and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be appropriately changed unless otherwise specified.
[プログラム]
図18は、プログラムが実行されることにより、画像処理装置10、学習装置20,220及び解析装置30,230が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 18 is a diagram showing an example of a computer in which the image processing device 10, the
メモリ1010は、ROM1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、画像処理装置10、学習装置20,220及び解析装置30,230の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、画像処理装置10、学習装置20,220及び解析装置30,230における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
The hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
Further, the setting data used in the processing of the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例および運用技術等は全て本発明の範疇に含まれる。 Although the embodiment to which the invention made by the present inventor is applied has been described above, the present invention is not limited by the description and the drawings which form a part of the disclosure of the present invention according to the present embodiment. That is, other embodiments, examples, operational techniques, and the like made by those skilled in the art based on the present embodiment are all included in the scope of the present invention.
1 解析システム
10 画像処理装置
11,21,31 入出力部
12,22,32 記憶部
13,23,33,223,233 制御部
20,220 学習装置
30,230 解析装置
121 画像データ
122 変換用データ
123 抽出画像
124 変換済画像
131 抽出部
132 変換部
222,322,2222,2322 モデル
231,2232 学習部
321 解析用画像
323,2323 解析結果
331,2332 解析部
2231,2331 サブオブジェクト割当部
1 Analysis system 10
Claims (5)
前記解析のために用いられる画像の背景及び/または被写体を変換する変換部
を有し、
前記変換部は、前記画像の背景を変換する場合、前記画像の背景を、前記監視カメラで撮影されている背景、または、前記監視カメラで撮影されている背景と同種の背景に変換し、前記画像の被写体を変換する場合、前記被写体の性質を、前記監視カメラで撮影される領域において前記被写体が有しやすい性質に変換する
ことを特徴とする画像処理装置。 An image processing device that processes an image used for analyzing whether or not a desired subject is captured in an image captured by a surveillance camera.
It has a converter that converts the background and / or subject of the image used for the analysis.
When converting the background of the image, the conversion unit converts the background of the image into a background photographed by the surveillance camera or a background of the same type as the background photographed by the surveillance camera. An image processing apparatus characterized in that when converting a subject of an image, the property of the subject is converted into a property that the subject is likely to have in an area photographed by the surveillance camera.
前記解析のために用いられる画像の背景及び/または被写体を変換する変換工程
を含み、
前記変換工程は、前記画像の背景を変換する場合、前記画像の背景を、前記監視カメラで撮影されている背景、または、前記監視カメラで撮影されている背景と同種の背景に変換し、前記画像の被写体を変換する場合、前記被写体の性質を、前記監視カメラで撮影される領域において前記被写体が有しやすい性質に変換する
ことを特徴とする画像処理方法。 It is an image processing method executed by an image processing device that processes an image used for analyzing whether or not a desired subject is captured in an image captured by a surveillance camera.
It comprises a conversion step of transforming the background and / or subject of the image used for the analysis.
In the conversion step, when converting the background of the image, the background of the image is converted into a background photographed by the surveillance camera or a background of the same type as the background photographed by the surveillance camera. An image processing method characterized in that when converting a subject of an image, the property of the subject is converted into a property that the subject is likely to have in an area photographed by the surveillance camera.
をコンピュータに実行させ
前記変換ステップは、前記画像の背景を変換する場合、前記画像の背景を、前記監視カメラで撮影されている背景、または、前記監視カメラで撮影されている背景と同種の背景に変換し、前記画像の被写体を変換する場合、前記被写体の性質を、前記監視カメラで撮影される領域において前記被写体が有しやすい性質に変換する画像処理プログラム。 The computer is made to perform a conversion step of converting the background and / or the subject of the image used for analyzing whether or not the desired subject is captured in the image captured by the surveillance camera. When converting the background, the background of the image is converted to the background taken by the surveillance camera or the background of the same type as the background photographed by the surveillance camera, and the subject of the image is converted. An image processing program that converts the properties of the subject into properties that the subject is likely to have in the area photographed by the surveillance camera.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020101721A JP7481171B2 (en) | 2020-06-11 | 2020-06-11 | IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND IMAGE PROCESSING |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020101721A JP7481171B2 (en) | 2020-06-11 | 2020-06-11 | IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND IMAGE PROCESSING |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021196755A true JP2021196755A (en) | 2021-12-27 |
JP7481171B2 JP7481171B2 (en) | 2024-05-10 |
Family
ID=79195579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020101721A Active JP7481171B2 (en) | 2020-06-11 | 2020-06-11 | IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND IMAGE PROCESSING |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7481171B2 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108138A (en) * | 2008-10-29 | 2010-05-13 | Toyota Central R&D Labs Inc | Person detection device and program |
JP2013242825A (en) * | 2012-05-23 | 2013-12-05 | Panasonic Corp | Personal attribute estimation system and learning data creation device |
JP2014178957A (en) * | 2013-03-15 | 2014-09-25 | Nec Corp | Learning data generation device, learning data creation system, method and program |
WO2014207991A1 (en) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | Teaching data generating device, method, and program, and crowd state recognition device, method, and program |
WO2018096661A1 (en) * | 2016-11-25 | 2018-05-31 | 日本電気株式会社 | Image generation device, face verification device, image generation method, and recording medium in which program is stored |
JP2018169690A (en) * | 2017-03-29 | 2018-11-01 | 日本電信電話株式会社 | Image processing device, image processing method, and image processing program |
WO2019147413A1 (en) * | 2018-01-29 | 2019-08-01 | Microsoft Technology Licensing, Llc | Face synthesis |
JP2020009203A (en) * | 2018-07-09 | 2020-01-16 | 学校法人関西学院 | Deep layer learning method and apparatus of chemical compound characteristic prediction using artificial chemical compound data, as well as chemical compound characteristic prediction method and apparatus |
-
2020
- 2020-06-11 JP JP2020101721A patent/JP7481171B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108138A (en) * | 2008-10-29 | 2010-05-13 | Toyota Central R&D Labs Inc | Person detection device and program |
JP2013242825A (en) * | 2012-05-23 | 2013-12-05 | Panasonic Corp | Personal attribute estimation system and learning data creation device |
JP2014178957A (en) * | 2013-03-15 | 2014-09-25 | Nec Corp | Learning data generation device, learning data creation system, method and program |
WO2014207991A1 (en) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | Teaching data generating device, method, and program, and crowd state recognition device, method, and program |
WO2018096661A1 (en) * | 2016-11-25 | 2018-05-31 | 日本電気株式会社 | Image generation device, face verification device, image generation method, and recording medium in which program is stored |
JP2018169690A (en) * | 2017-03-29 | 2018-11-01 | 日本電信電話株式会社 | Image processing device, image processing method, and image processing program |
WO2019147413A1 (en) * | 2018-01-29 | 2019-08-01 | Microsoft Technology Licensing, Llc | Face synthesis |
JP2020009203A (en) * | 2018-07-09 | 2020-01-16 | 学校法人関西学院 | Deep layer learning method and apparatus of chemical compound characteristic prediction using artificial chemical compound data, as well as chemical compound characteristic prediction method and apparatus |
Non-Patent Citations (3)
Title |
---|
増沢広朗、外2名: ""大葉収穫支援ロボットのための深層学習を用いた画像認識"", ロボティクスメカトロニクス講演会2018講演会論文集, JPN6023040894, 1 June 2018 (2018-06-01), JP, pages 1 - 4, ISSN: 0005164741 * |
渡邊 葵、櫻井 彰人: ""畳み込みニューラルネットワークを用いた花画像の分類"", 第78回(平成28年)全国大会講演論文集(2), JPN6023040895, 10 March 2016 (2016-03-10), JP, pages 197 - 198, ISSN: 0005164742 * |
赤松 茂、外3名: ""KL展開によるパタン記述法の顔面像識別への応用の評価"", 電子情報通信学会技術研究報告, vol. 90, no. 491, JPN6023029923, 20 March 1991 (1991-03-20), JP, pages 55 - 62, ISSN: 0005164740 * |
Also Published As
Publication number | Publication date |
---|---|
JP7481171B2 (en) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9020250B2 (en) | Methods and systems for building a universal dress style learner | |
US11663502B2 (en) | Information processing apparatus and rule generation method | |
WO2019033525A1 (en) | Au feature recognition method, device and storage medium | |
Oloyede et al. | Improving face recognition systems using a new image enhancement technique, hybrid features and the convolutional neural network | |
JP7173309B2 (en) | LEARNING METHOD, LEARNING PROGRAM AND LEARNING APPARATUS | |
JP2021517330A (en) | A method for identifying an object in an image and a mobile device for carrying out the method. | |
JP2001307096A (en) | Image recognition device and method | |
JPWO2009035108A1 (en) | Correspondence relationship learning device and method, correspondence relationship learning program, annotation device and method, annotation program, retrieval device and method, and retrieval program | |
CN112633297B (en) | Target object identification method and device, storage medium and electronic device | |
JP2006323507A (en) | Attribute identifying system and attribute identifying method | |
JP2021503139A (en) | Image processing equipment, image processing method and image processing program | |
JP2012221061A (en) | Image recognition apparatus, image recognition method and program | |
Pereira et al. | Goat leather quality classification using computer vision and machine learning | |
CN112699758A (en) | Sign language translation method and device based on dynamic gesture recognition, computer equipment and storage medium | |
Mayer et al. | Adjusted pixel features for robust facial component classification | |
JP7196058B2 (en) | OBJECT SEARCH DEVICE AND OBJECT SEARCH METHOD | |
Mangla et al. | Sketch-based facial recognition: a weighted component-based approach (WCBA) | |
Salah et al. | A Proposed Generalized Eigenfaces System for Face Recognition Based on One Training Image | |
CN112101293A (en) | Facial expression recognition method, device, equipment and storage medium | |
CN111444876A (en) | Image-text processing method and system and computer readable storage medium | |
JP7481171B2 (en) | IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND IMAGE PROCESSING | |
KR101961462B1 (en) | Object recognition method and the device thereof | |
Zaidan et al. | A novel hybrid module of skin detector using grouping histogram technique for Bayesian method and segment adjacent-nested technique for neural network | |
Khan et al. | Face recognition system using improved artificial bee colony algorithm | |
Prakash et al. | An identification of abnormalities in dental with support vector machine using image processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200615 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240221 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7481171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |