JP2020042367A - Learning system, server, and feature amount image drawing interpolation program - Google Patents
Learning system, server, and feature amount image drawing interpolation program Download PDFInfo
- Publication number
- JP2020042367A JP2020042367A JP2018167272A JP2018167272A JP2020042367A JP 2020042367 A JP2020042367 A JP 2020042367A JP 2018167272 A JP2018167272 A JP 2018167272A JP 2018167272 A JP2018167272 A JP 2018167272A JP 2020042367 A JP2020042367 A JP 2020042367A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- cameras
- store
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、学習システム、サーバ、及び特徴量画像描画補間プログラムに関する。 The present invention relates to a learning system, a server, and a feature image drawing interpolation program.
従来から、販売店やレストラン等の店舗には、監視カメラや、いわゆるAI(Artificial Intelligence)カメラ等のカメラが、店内の各所に設置されている。これらのカメラは、万引き等の犯罪の防止や、顧客及び従業員の行動の把握等のために用いられるので(特許文献1等参照)、例えば、400平方メートル程度の規模のドラッグストア各店舗に、50台程度のカメラを設置することで、店舗内の顧客や従業員の行動等がデータ化され、様々な分析に応用することが可能である。
2. Description of the Related Art Conventionally, in a store such as a store or a restaurant, cameras such as a surveillance camera and a so-called AI (Artificial Intelligence) camera are installed in various places in the store. Since these cameras are used to prevent crimes such as shoplifting and to grasp the behaviors of customers and employees (see
ところが、上記の監視カメラや、AIカメラ等のカメラは、高価であるため、各店舗に多くのカメラを設置することは、店舗の新規開店費用(イニシャルコスト)や、店舗の維持費用(ランニングコスト)の上昇につながる。 However, since cameras such as the above-mentioned surveillance cameras and AI cameras are expensive, installing a large number of cameras in each store requires new store opening costs (initial costs) and store maintenance costs (running costs). ) Leads to a rise.
本発明は、上記課題を解決するものであり、チェーン店の各店舗に設置するカメラの数を抑えて、チェーン店の各店舗の新規開店費用や維持費用を削減することが可能な学習システム、サーバ、及び特徴量画像描画補間プログラムを提供することを目的とする。 The present invention is to solve the above problems, a learning system capable of reducing the number of cameras to be installed in each store of the chain store, and reducing the cost of new opening and maintenance of each store in the chain store, It is an object to provide a server and a feature quantity image drawing interpolation program.
上記課題を解決するために、本発明の第1の態様による学習システムは、系列に属する店舗が同じレイアウトを有するチェーン店の店舗に配された複数のカメラと、前記複数のカメラと通信を行うサーバとを備えた学習システムであって、前記サーバは、前記複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部とを備える。 In order to solve the above-described problem, a learning system according to a first aspect of the present invention communicates with a plurality of cameras arranged in a chain store having stores having the same layout and belonging to a series, and the plurality of cameras. A learning system including a server, wherein the server is a drawing processing unit that draws a feature amount image based on a feature amount extracted from images captured by the plurality of cameras; and Since the number of arranged cameras is smaller than the number of cameras to be originally arranged, when the photographed images are missing, a missing portion of the feature amount image caused by the lack of these photographed images is included. A feature image interpolating unit that interpolates a missing part of the feature image by applying a learned neural network to the entire feature image; In another store belonging to the series having a camera missing from the certain store among the cameras to be drawn, the drawing is performed based on feature amounts extracted from images taken by all cameras arranged in the other store. A machine learning unit that performs machine learning of the neural network before learning is completed using a learning image based on the feature amount image drawn by the processing unit.
この学習システムにおいて、前記他の店舗は、前記系列に属する前記ある店舗以外の店舗のうち、本来配置されるべき全てのカメラを備えた店舗であり、
前記機械学習部は、前記他の店舗に配置された、前記本来配置されるべき全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行うことが望ましい。
In this learning system, the other store is a store provided with all cameras to be originally arranged among stores other than the certain store belonging to the series,
The machine learning unit is configured to perform learning based on the feature amount image drawn by the drawing processing unit based on feature amounts extracted from images captured by all the cameras to be originally arranged, which are arranged in the another store. It is desirable to perform machine learning of the neural network before learning is completed using the image for training.
この学習システムにおいて、前記特徴量画像は、前記複数のカメラによる撮影画像から抽出された特徴量を色を用いて可視化したヒートマップ画像であることが望ましい。 In this learning system, it is preferable that the feature amount image is a heat map image in which feature amounts extracted from images captured by the plurality of cameras are visualized using colors.
この学習システムにおいて、前記特徴量は、複数の種類の特徴量のデータから構成される多次元データであり、前記特徴量画像は、前記多次元データを色を用いて可視化したカラーのヒートマップ画像であることが望ましい。 In this learning system, the feature quantity is multidimensional data composed of data of a plurality of types of feature quantities, and the feature quantity image is a color heat map image obtained by visualizing the multidimensional data using colors. It is desirable that
この学習システムにおいて、前記描画処理部は、前記複数のカメラによる撮影画像から抽出された所定の時間分の前記特徴量に基づいて、前記ヒートマップ画像を描画することが望ましい。 In this learning system, it is preferable that the drawing processing unit draws the heat map image based on the feature amount for a predetermined time extracted from images captured by the plurality of cameras.
この学習システムにおいて、前記特徴量は、前記複数のカメラの各々による撮影画像そのものであり、前記サーバにおける描画処理部は、前記複数のカメラの各々による撮影画像に基づいて、これらの画像を組み合わせた画像である店舗内の画像を、特徴量画像として描画し、前記学習済のニューラルネットワークは、前記ある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、欠落した撮影画像を補間することにより、前記ある店舗内の画像を完成させるものであってもよい。 In this learning system, the feature amount is an image itself taken by each of the plurality of cameras, and the drawing processing unit in the server combines these images based on the image taken by each of the plurality of cameras. An image in a store that is an image is drawn as a feature amount image, and the learned neural network has a smaller number of cameras arranged in the certain store than the number of cameras to be originally arranged. When the photographed image is missing, the image in the certain store may be completed by interpolating the missing photographed image.
この学習システムにおいて、前記ニューラルネットワークは、生成モデルのニューラルネットワークであり、前記特徴量画像補間部は、前記学習済のニューラルネットワークを用いて、前記特徴量画像の欠落部分を生成することにより、前記欠落部分を補間するようにしてもよい。 In this learning system, the neural network is a neural network of a generative model, and the feature image interpolating unit uses the learned neural network to generate a missing portion of the feature image. The missing part may be interpolated.
本発明の第2の態様によるサーバは、系列に属する店舗が同じレイアウトを有するチェーン店のある店舗に配された複数のカメラと通信可能なサーバであって、前記複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部とを備える。 A server according to a second aspect of the present invention is a server capable of communicating with a plurality of cameras arranged in a store having a chain store in which affiliated stores have the same layout, and is extracted from images taken by the plurality of cameras. The drawing processing unit that draws a feature amount image based on the obtained feature amount, and the number of cameras arranged in the store where the chain store is located is smaller than the number of cameras that should be originally arranged, so that the photographing is performed. By applying a learned neural network to the entire feature amount image including a missing portion of the feature amount image caused by the lack of these captured images when the image is missing, the feature amount is obtained. A feature amount image interpolating unit that interpolates a missing part of an image, and another store belonging to the series having a camera that is missing from the certain store among the cameras to be originally arranged. And, using a learning image based on the feature amount image drawn by the drawing processing unit based on the feature amount extracted from images captured by all the cameras arranged in the other stores, the learning before completion of the learning A machine learning unit that performs machine learning of the neural network.
このサーバにおいて、前記特徴量画像は、前記複数のカメラによる撮影画像から抽出された特徴量を色を用いて可視化したヒートマップ画像であることが望ましい。 In the server, it is preferable that the feature amount image is a heat map image in which feature amounts extracted from images captured by the plurality of cameras are visualized using colors.
本発明の第3の態様による特徴量画像描画補間プログラムは、コンピュータを、系列に属する店舗が同じレイアウトを有するチェーン店のある店舗に配された複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部として機能させるための、特徴量画像描画補間プログラムである。 The feature quantity image drawing interpolation program according to the third aspect of the present invention is a program for converting a computer belonging to a series into feature quantities extracted from images captured by a plurality of cameras arranged in a store having a chain store having the same layout. Based on the drawing processing unit that draws the feature amount image, the number of cameras arranged at the store where the chain store is located is smaller than the number of cameras that should be originally arranged. In this case, by applying a learned neural network to the entire feature amount image including the missing portion of the feature amount image caused by the lack of these captured images, the missing portion of the feature amount image In a feature amount image interpolating unit to be interpolated, and in another store belonging to the series having a camera lacking in the certain store among the cameras to be originally arranged, The neural network before learning is completed using a learning image based on the feature amount image drawn by the drawing processing unit based on the feature amount extracted from images captured by all cameras arranged in the other stores. Is a feature amount image drawing interpolation program for functioning as a machine learning unit that performs machine learning.
この特徴量画像描画補間プログラムにおいて、前記特徴量画像は、前記複数のカメラによる撮影画像から抽出された特徴量を色を用いて可視化したヒートマップ画像であることが望ましい。 In the feature amount image drawing interpolation program, it is preferable that the feature amount image is a heat map image in which feature amounts extracted from images captured by the plurality of cameras are visualized using colors.
本発明の第1の態様による学習システム、第2の態様によるサーバ、及び第3の態様による特徴量画像描画補間プログラムによれば、本来配置されるべきカメラのうち、ある店舗に欠けているカメラを備えた(同じ)系列に属する他の店舗において、この他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて描画した特徴量画像に基づく学習用画像用いて、学習完了前のニューラルネットワークの機械学習を行うようにした。ここで、いわゆるチェーン店では、系列に属する各店舗が同じレイアウトを有している。このため、上記のように、本来配置されるべきカメラのうち、ある店舗に欠けているカメラを備えた(同じ)系列に属する他の店舗における撮影画像から抽出された特徴量に基づいて描画した特徴量画像に基づく学習用画像を用いて、ニューラルネットワークの機械学習を行うことにより、同じ系列に属するある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、本来配置されるべきカメラのうち、いくつかのカメラによる撮影画像が欠落している場合でも、これらの撮影画像の欠落により生じる特徴量画像の欠落部分を、学習済のニューラルネットワークを用いて、補間することができる。 According to the learning system according to the first aspect of the present invention, the server according to the second aspect, and the feature quantity image drawing interpolation program according to the third aspect, the cameras that should be arranged and are missing from a certain store In another store belonging to the (same) series provided with, using a learning image based on a feature amount image drawn based on a feature amount extracted from images captured by all cameras arranged in the other store, Machine learning of neural network before learning is completed. Here, in a so-called chain store, stores belonging to the affiliate have the same layout. For this reason, as described above, drawing is performed based on the feature amounts extracted from the captured images of the other stores belonging to the (same) series having the camera missing in a certain store among the cameras to be originally arranged. By using the learning image based on the feature amount image and performing machine learning of the neural network, the number of cameras arranged in a store belonging to the same series is smaller than the number of cameras that should be originally arranged. Of the cameras that should be arranged, even if images captured by some cameras are missing, the missing part of the feature amount image caused by the lack of these captured images is obtained using a learned neural network, Can be interpolated.
これにより、チェーン店の各店舗に配置するカメラの数を、本来配置されるべきカメラの数よりも少なくした場合でも、本来配置されるべきカメラの数と同じ数のカメラを配置した場合と遜色のない特徴量画像を得ることができる。従って、チェーン店の各店舗に設置するカメラの数を抑えて、チェーン店の各店舗の新規開店費用や維持費用を削減することができる。 As a result, even when the number of cameras to be arranged at each chain store is smaller than the number of cameras to be originally arranged, it is inferior to the case where the same number of cameras to be originally arranged are arranged. It is possible to obtain a feature-value-free image. Therefore, it is possible to reduce the number of cameras installed in each chain store, thereby reducing the cost of opening and maintaining each chain store.
以下、本発明を具体化した実施形態による学習システム、サーバ、及び特徴量画像描画補間プログラムについて、図面を参照して説明する。図1は、本実施形態による学習システムの概略の構成を示すブロック図である。この学習システム10は、複数のエッジカメラ1(いわゆるAI(Artificial Intelligence)カメラ:請求項における「カメラ」に相当)と、これらのエッジカメラ1と通信を行う(クラウド上の)サーバ2とを備えている。上記のエッジカメラ1は、いわゆるエッジコンピューティング機能を有するカメラであり、系列に属する店舗が同じレイアウトを有するチェーン店の各店舗に配されている。なお、図1には、1つのエッジカメラ1のみを示しているが、チェーン店の各店舗には、複数のエッジカメラ1が設置されている。チェーン店の各店舗に本来配置されるべきエッジカメラ1の数は、例えば、50台以上であるが、一部の店舗のみに、本来配置されるべきエッジカメラ1のうちの全て(50台以上のエッジカメラ1)が設置され、他の多くの店舗では、本来配置されるべき数よりも少ない数(例えば、5台〜10台)のエッジカメラ1しか設置されていない。
Hereinafter, a learning system, a server, and a feature image drawing interpolation program according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a schematic configuration of a learning system according to the present embodiment. The learning system 10 includes a plurality of edge cameras 1 (so-called AI (Artificial Intelligence) cameras: corresponding to “cameras” in the claims), and a server 2 (on a cloud) that communicates with the
上記のエッジカメラ1は、カメラ部11と、装置全体の制御と各種演算を行うCPU12と、通信部13とを備えている。上記のCPU12には、不図示のGPU(ディスクリートGPU)を備えること、または不図示の外付けのGPU(グラフィックスカードや、USB等でエッジカメラ1と接続が可能な機械学習計算用GPUを搭載したデバイス)を接続することが望ましい。
The
また、エッジカメラ1は、各種のデータやプログラムを記憶するメモリ14を備えている。メモリ14に記憶されているプログラムには、エッジカメラ側制御プログラム15が含まれている。なお、本エッジカメラ側制御プログラム15の一部または全部が、不図示のGPU内のメモリに記憶される場合もある。
Further, the
上記のサーバ2は、装置全体の制御と各種演算を行うCPU21を備えている。また、サーバ2は、通信部22を有しており、通信部22を介して、エッジカメラ1と通信を行う。通信部22は、通信用ICを備えている。
The
また、サーバ2は、各種のプログラムやデータを記憶するハードディスク23と、各種のプログラムの実行時に、実行するプログラムやデータをロードするRAM24と、ディスプレイ25と、各種の入力指示操作に用いられる操作部30とを備えている。上記のハードディスク23には、ヒートマップ描画補間プログラム26と、画像補間ネットワークIと、ディスクリミネータDと、画像補間ネットワークIの学習用の訓練データセット29とが格納されている。画像補間ネットワークIと、ディスクリミネータDとは、生成モデルの一種であるGAN(正確に言うと、DCGAN(Deep Convolutional Generative Adversarial Networks))のGeneratorと、Discriminatorとに相当する。ハードディスク23は、上記の画像補間ネットワークIのパラメータデータ27と、ディスクリミネータDのパラメータデータ28も、格納している。なお、図には示していないが、サーバ2も、GPUを備えることが望ましい。
The
図2は、上記のエッジカメラ1側の機能ブロックと、サーバ2側の機能ブロックを示す。エッジカメラ1側のCPU12は、特徴量抽出部30を有している。特徴量抽出部30は、自機(エッジカメラ1)による撮影画像から、女性人数、男性人数、滞留時間等の特徴量を抽出する。なお、特徴量抽出部30は、撮影画像における男性人数や女性人数の検出に、例えば、R−CNNベースの物体検出エンジンを用いる。R−CNNベースの物体検出エンジンは、入力画像における、オブジェクトらしい領域を抽出する機能と、この抽出された領域に対してCNNを適用して、抽出された領域の画像が、どのクラスに属するかを分類する機能とを含んでいる。
FIG. 2 shows a functional block on the
また、サーバ2側のCPU21は、描画処理部31と、特徴量画像補間部32と、機械学習部33とを有している。上記の描画処理部31は、複数のエッジカメラ1による撮影画像から上記の特徴量抽出部30により抽出された特徴量に基づいて、ヒートマップ画像(請求項における「特徴量画像」)を描画する。このヒートマップ画像は、複数のエッジカメラ1による撮影画像から抽出された特徴量を色を用いて可視化した画像である。上記の特徴量抽出部30により抽出された特徴量が、複数の種類の特徴量のデータから構成される多次元データの場合には、上記のヒートマップ画像は、多次元データを色を用いて可視化したカラーのヒートマップ画像となる。
Further, the
上記の特徴量画像補間部32は、チェーン店のある店舗に配置されたエッジカメラ1の数が、本来配置されるべきエッジカメラ1の数よりも少ないために、エッジカメラ1による撮影画像が欠落している場合に、これらの撮影画像の欠落により生じるヒートマップ画像の欠落部分を含むヒートマップ画像の全体に対して、学習済の画像補間ネットワークI(請求項における「学習済のニューラルネットワーク」)を適用することで、ヒートマップ画像の欠落部分を補間する。
Since the number of
上記の機械学習部33は、本来配置されるべきエッジカメラ1のうち、ある店舗に欠けているエッジカメラ1を備えた、同じ系列に属する他の店舗において、この他の店舗に配置された全てのエッジカメラ1による撮影画像から抽出された上記の特徴量に基づいて、描画処理部31が描画したヒートマップ画像に基づく学習用画像を用い、学習完了前の画像補間ネットワークI(及びディスクリミネータD)の機械学習を行う。より正確に言うと、機械学習部33は、系列に属するある店舗以外の店舗のうち、本来配置されるべき全てのエッジカメラ1を備えた他の店舗における、全てのエッジカメラ1による撮影画像から抽出された上記の特徴量に基づいて、描画処理部31が描画したヒートマップ画像に基づく学習用画像を用いて、学習完了前の画像補間ネットワークI(及びディスクリミネータD)の機械学習を行う。
The above-mentioned
上記のエッジカメラ1側の特徴量抽出部30の機能は、エッジカメラ1側のCPU12がエッジカメラ側制御プログラム15を実行することにより実現される。また、サーバ2側のCPU21内の各ブロック(描画処理部31、特徴量画像補間部32、及び機械学習部33)の機能は、CPU21がヒートマップ描画補間プログラム26を実行することにより実現される。ただし、この構成に限られず、例えば、上記のCPU12及びCPU21における各ブロックの機能の少なくとも一つを、ASIC(Application Specific Integrated Circuit)等によって構成される個別のハードウェアによって実現してもよい。
The function of the feature
次に、図3のフローチャートに加えて、図4乃至図6を参照して、上記画像補間ネットワークI(及びディスクリミネータD)の学習の準備処理について、説明する。この学習の準備処理は、サーバ2が、本来配置されるべき全てのエッジカメラ1から時々刻々と送信される各時刻tの特徴量を用いて、描画処理部31により描画したヒートマップ画像を、学習用画像(の基になる画像)として、繰り返し、訓練データセットに格納する処理である。
Next, with reference to FIGS. 4 to 6 in addition to the flowchart of FIG. 3, a preparation process for learning of the image interpolation network I (and the discriminator D) will be described. In the learning preparation process, the
この学習の準備処理において、上記エッジカメラ1のCPU12の特徴量抽出部30が、自機(エッジカメラ1)による撮影画像を、図4に示す4×4(4行4列)の撮影エリアARiに分け、時刻tにおける撮影エリアARi毎の特徴量aitを抽出(判定)して、特徴量aitを含む撮影エリア特徴量情報citを、サーバ2に送信する処理を繰り返す(S1)。ここで、iは、撮影エリアの番号を示す。この撮影エリアの番号iには、本来配置されるべき全てのエッジカメラ1による撮影画像に含まれる撮影エリアの通し番号が付与される。より詳細に言うと、撮影エリアの番号iには、図5に示すように、全てのエッジカメラ1による撮影画像を、店内全体の撮影画像を再現するように並べたときに、店内全体の撮影画像に含まれる撮影エリアの通し番号が付与される。図5に示す例では、店舗内に、8行8列の64台のエッジカメラを並べており、この場合には、撮影エリアの番号iの最大値は、(8×4)×(8×4)=32×32=1024になる。
In the learning preparation process, the feature
上記の撮影エリアARi毎の撮影エリア特徴量情報citは、下記の式(1)で表される。
cit={xi,yi,ait}・・・(1)
Imaging area feature amount information c it above the imaging area per AR i is expressed by the following equation (1).
c it = {xi , y i , a it } (1)
上記のxi,yiは、それぞれ、撮影エリアARiのx座標方向(横方向)とy座標方向(縦方向)の位置を表し、aitは、時刻tにおける撮影エリアARi毎の特徴量aitを表す。上記の撮影エリアARiのx座標方向(横方向)とy座標方向(縦方向)の位置とは、例えば、撮影エリアARi内のx座標の最小値とy座標の最小値である。なお、式(1)に示すように、撮影エリアARiのx座標方向の位置xiとy座標方向の位置yiとは、時刻tに関わらず、不変である。 The above x i and y i represent the position of the imaging area AR i in the x-coordinate direction (horizontal direction) and the y-coordinate direction (vertical direction), respectively, and a it is the characteristic of each imaging area AR i at time t. Represents the quantity a it . The position of the x-coordinate direction of the imaging area AR i (horizontal direction) and y coordinate direction (vertical direction), for example, the minimum value of the minimum value and the y coordinate of the x-coordinate of the imaging areas AR i. Note that, as shown in Expression (1), the position x i in the x coordinate direction and the position y i in the y coordinate direction of the imaging area AR i are unchanged regardless of the time t.
また、上記の時刻tにおける撮影エリアARi毎の特徴量aitは、例えば、時刻tにおける撮影エリアARi内に含まれる(滞留している)男性の人数、女性の人数、滞留時間である。この場合には、特徴量aitは、下記の式(2)で表される。ここで、滞留時間は、例えば、撮影エリアARiに滞留している(留まっている)人のうち、滞留時間が一番長い人の滞留時間である。ただし、現在、撮影エリアARiに滞留している人の滞留時間の平均値を、滞留時間の値としてもよい。
ait={男性人数it、女性人数it、滞留時間it}・・・(2)
The feature amount a it for each shooting area AR i at the time t is, for example, the number of men (staying), the number of women, and the staying time included in the shooting area AR i at the time t. . In this case, the feature amount a it is represented by the following equation (2). Here, the residence time, for example, among of which (remains) who stays in imaging areas AR i, the residence time is the longest human residence time. However, currently, the average value of the residence time of the people who are staying in the shooting area AR i, may be as the value of the residence time.
a it = {number of men it , number of women it , residence time it } (2)
図4における下の部分には、各時刻における撮影エリアARi毎の特徴量aitを示している。例えば、図4に示すように、ait={1,1,4}の場合は、時刻tにおける撮影エリアARi内に含まれる(滞留している)男性の人数=1人、女性の人数=1人、滞留時間=4秒である。 The lower part in FIG. 4 shows the feature amount a it for each shooting area AR i at each time. For example, as shown in FIG. 4, a it = For {1,1,4}, are included in the captured area AR i at time t (staying) Number = 1 male, number of women = 1 person, dwell time = 4 seconds.
サーバ2は、全てのエッジカメラ1から取得した全撮影エリアAR1〜ARnの時刻tにおける撮影エリア特徴量情報c1t〜cntを、下記の式(3)に示すように、特徴量情報ctとして、まとめる。
ct={c0t,c1t,・・・,cnt}・・・(3)
The
c t = {c 0t, c 1t,... , c nt } (3)
そして、サーバ2は、全てのエッジカメラ1より取得した、時刻(t−T)から時刻tにおける特徴量情報c(t−T)〜ctから、時刻tのヒートマップ画像HMtを生成する(S2)。ここで、Tは、所定の時間であり、例えば、30秒に設定される。上記のヒートマップ画像HMtは、上記の所定の時間T分の特徴量情報c(t−T)〜ctに含まれる特徴量を、色を用いて可視化したものである。より詳細に説明すると、時刻tにおける特徴量情報ctに含まれる特徴量a1t〜antは、上記式(2)に示されるように、例えば、女性人数、男性人数、及び滞留時間のデータから構成される多次元データである。この例の場合は、例えば、特徴量aitに含まれる男性人数it、女性人数it、滞留時間itを、それぞれ、R(赤)、B(青)、G(緑)で表すことにより、上記のヒートマップ画像HMtは、カラーのヒートマップ画像になる。
Then, the
ただし、ヒートマップ画像HMtは、上記のように、所定の時間T分の特徴量情報c(t−T)〜ctに基づいて生成したものであり、時刻(t−T)〜時刻tの各々の時刻における特徴量情報c(t−T)〜ctから生成した、時刻(t−T)〜時刻tのカラーのヒートマップ画像を、合成したものである。この各時刻におけるカラーのヒートマップ画像を合成する際には、時間が遡るに従って、合成対象となるヒートマップ画像におけるR,G,Bの輝度値への重み付けが小さくなるように(直近の時刻tにおけるR,G,Bの輝度値への重み付けが一番大きく、最も古い時刻(t−T)におけるR,G,Bの輝度値への重み付けが一番が一番小さくなるように)した上で、これらのヒートマップ画像を合成することが望ましい。 However, heat map image HM t, as described above, are those generated based on the feature amount information c (t-T) to c t for a predetermined time T minutes, the time (t-T) ~ time t generated from the feature amount information c (t-T) ~c t at each time, the time a (t-T) color heatmap image of the to time t, is one synthesized. When the color heat map images at each time are combined, the weighting of the R, G, and B luminance values in the heat map image to be combined becomes smaller as the time goes back (the latest time t , So that the weighting of the R, G, and B luminance values is the largest, and the weighting of the R, G, and B luminance values at the oldest time (t-T) is the smallest. Therefore, it is desirable to combine these heat map images.
図5に示すように、撮影エリアの数が、32行32列である場合は、各撮影エリアを1ピクセルで表すと、ヒートマップ画像HMtの大きさは、32×32=1024ピクセルになる。 As shown in FIG. 5, the number of shooting area, if it is 32 rows and 32 columns, expressed each shot area by one pixel, the size of the heat map image HM t will 32 × 32 = 1024 pixels .
サーバ2のCPU21は、図3中の上記S2で生成したヒートマップ画像HMtを、学習用画像の基になる画像として訓練データセット29(図2参照)に追加する(図3のS3)。
CPU21 of the
上記図3の処理を、学習システム10全体で見ると、図6に示すように、学習システム10は、全エッジカメラ1で取得した時刻(t−T)〜時刻tの撮影画像から、全撮影エリアにおける時刻(t−T)〜時刻tの特徴量情報c(t−T)〜ctを抽出して、この(所定の)時間T分の特徴量情報c(t−T)〜ctに基づいて、ヒートマップ画像HMtを生成し、時事刻々と生成されるヒートマップ画像HMtを、学習用画像(の基になる画像)として訓練データセット29に追加する処理を繰り返す。そして、学習時には、訓練データセット29に格納された各時刻におけるヒートマップ画像(例えば、ヒートマップ画像HMt)と、各時刻におけるヒートマップ画像に対応するランダムマスクとに基づいて、画像補間ネットワークIの(機械)学習を行う。すなわち、ランダムマスクを施したヒートマップ画像を学習用画像として用いて、画像補間ネットワークIの(機械)学習を行う。なお、正確に言うと、本実施形態では、画像補間ネットワークIとして、DCGANのGeneratorに相当するネットワークを使用するので、上記のGeneratorに相当する画像補間ネットワークIの学習時には、ディスクリミネータD(Discriminator)の学習も行う。画像補間ネットワークI(及びディスクリミネータD)の(機械)学習処理については、後で、詳述する。
When the processing of FIG. 3 is viewed as a whole in the learning system 10, as shown in FIG. 6, the learning system 10 performs the entire shooting from the captured images at the time (t−T) to the time t acquired by the all
次に、上記の機械学習後の画像補間ネットワークI(学習済みの画像補間ネットワークI)を用いた、ヒートマップ画像の補間処理について、説明する。この学習済みの画像補間ネットワークIによる画像補間処理は、いわゆるニューラルネットワークの推論処理に相当する。上記の本来配置されるべき数よりも少ない数(例えば、5台〜10台)のエッジカメラ1しか設置されていない店舗では、配置されたエッジカメラ1の数が、本来配置されるべきエッジカメラ1の数よりも少ないために、撮影画像に欠落が生じる。このため、店舗内に配置されたエッジカメラ1の数が、本来配置されるべきエッジカメラ1の数よりも少ない場合には、店舗内に配置された全エッジカメラ1からの撮影画像を図5に示すように並べた画像に、図8に示すような欠落部分が生じる。学習済みの画像補間ネットワークIは、上記のように、撮影画像が欠落している場合に、これらの撮影画像の欠落により生じるヒートマップ画像の欠落部分を補間する。
Next, the interpolation process of the heat map image using the image interpolation network I after the machine learning (the learned image interpolation network I) will be described. The image interpolation processing by the learned image interpolation network I corresponds to a so-called neural network inference processing. In a store where only a smaller number of edge cameras 1 (for example, 5 to 10) are installed than the number of
図7のフローチャートと図8を参照して、上記のヒートマップ画像の補間処理の詳細について、説明する。まず、本来配置されるべき数よりも少ないエッジカメラ1が配置された店舗における各エッジカメラ1が、自機の撮影画像から、時刻tにおける撮影エリアARi毎の特徴量aL itを抽出(判定)して、特徴量aL itを含む撮影エリア特徴量情報cL itを、サーバ2に送信する処理を繰り返す(S11)。
The details of the above-described heat map image interpolation processing will be described with reference to the flowchart of FIG. 7 and FIG. First, extraction each
上記の撮影エリアARi毎の撮影エリア特徴量情報cL itは、上記の式(1)と同様な下記の式(4)で表される。
cL it={xL i,yL i,aL it}・・・(4)
Imaging area feature amount information c L it of the shooting area per AR i is represented by the above formula (1) and similar following formula (4).
c L it = {x L i , y L i, a L it} ··· (4)
上記のxL i,yL i,aL itは、それぞれ、式(1)におけるxi,yi,aitに相当する。なお、上特徴量aL itは、上記の特徴量aitと同様に、特徴量として、男性人数、女性人数、及び滞留時間を含んでおり、上記式(2)と同様の式で表される。 The above x L i, y L i, a L , respectively, corresponding to x i, y i, a it in the formula (1). Incidentally, the upper characteristic quantity a L it, like the above feature quantity a it, as a feature, male persons, female persons, and includes a retention time is represented by the formula similar to the formula (2) You.
サーバ2は、各エッジカメラ1から取得することができた、時刻tにおける撮影エリア特徴量情報cL 1t〜cL mtを、下記の式(5)に示すように、特徴量情報cL tとして、まとめる。ただし、上記のmは、上記式(3)におけるnよりも小さい数である。
cL t={cL 0t,cL 1t,・・・,cL mt}・・・(5)
c L t = {c L 0t , c L 1t, ···, c L mt} ··· (5)
そして、サーバ2は、各エッジカメラ1から取得することができた、時刻(t−T)から時刻tにおける特徴量情報cL (t−T)〜cL tから、時刻tの欠落ヒートマップ画像HML tを生成する(S12)。ただし、ヒートマップ画像補間処理を行うときは、上記のように、撮影画像に欠落が生じている場合であるので、各エッジカメラ1からサーバ2に送信される各時刻の撮影エリア特徴量情報(例えば、時刻tの撮影エリア特徴量情報cL 1t〜cL nt)にも、欠落が生じる。このため、図8に示すように、時刻(t−T)から時刻tにおける撮影エリア特徴量情報をまとめた特徴量情報cL (t−T)〜cL tより生成された欠落ヒートマップ画像HML tにも、欠落部分が生じる。
Then, the
図8に示すように、欠落ヒートマップ画像HML tを、学習済みの画像補間ネットワークIに入力すると(図7のS13)、学習済みの画像補間ネットワークIが、(補間済みの)補間ヒートマップ画像IHMtを出力する(図7のS14)。すなわち、学習済みの画像補間ネットワークIが、入力された欠落ヒートマップ画像HML tにおける欠落部分を補間する。 As shown in FIG. 8, the missing heat map image HM L t, the input to the learned image interpolation network I (S13 in FIG. 7), the learned image interpolation network I is (interpolated) of the interpolation heatmap and outputs the image IHM t (S14 in FIG. 7). That is, the learned image interpolation network I is interpolates the missing part of the missing heat map image HM L t input.
上記のように、学習済みの画像補間ネットワークIを用いて、各時刻の欠落ヒートマップ画像を補間することにより、チェーン店の各店舗に配置するエッジカメラ1の数を、本来配置されるべきエッジカメラ1の数よりも少なくした場合でも、本来配置されるべきエッジカメラ1の数と同じ数のエッジカメラ1を配置した場合と遜色のないヒートマップ画像(補間ヒートマップ画像IHMt)を得ることができる。従って、チェーン店の各店舗に設置するエッジカメラ1の数を抑えて、チェーン店の各店舗の新規開店費用や維持費用を削減することができる。
As described above, by interpolating the missing heat map image at each time using the learned image interpolation network I, the number of
次に、DCGANのGeneratorに相当する画像補間ネットワークIと、DCGANのDiscriminatorに相当するディスクリミネータDについて、図9乃至図12を参照して、説明する。画像補間ネットワークIは、FCN(Fully Convolutional Network)ベースのニューラルネットワークであり、図9及び図10に示すように、多数の畳み込み層(convolution layer)から構成されている。より正確に言うと、画像補間ネットワークIにおける各畳み込み層(convolution layer)の後ろには、ReLU(Rectified Linear Unit)層が存在する。また、画像補間ネットワークIにおける出力層(図10中の“OUTPUT”)は、シグモイド関数付きの畳み込み層である。 Next, an image interpolation network I corresponding to a DCGAN generator and a discriminator D corresponding to a DCGAN discriminator will be described with reference to FIGS. The image interpolation network I is a Full Convolutional Network (FCN) -based neural network, and includes a number of convolution layers as shown in FIGS. 9 and 10. More precisely, behind each convolution layer in the image interpolation network I is a ReLU (Rectified Linear Unit) layer. The output layer (“OUTPUT” in FIG. 10) in the image interpolation network I is a convolution layer with a sigmoid function.
なお、図10中の「タイプ」は、層(レイヤー)のタイプ(種類)を示し、「フィルターサイズ」は、カーネル(畳み込み演算用のフィルター)の大きさを示す。また、「Dilation」は、Dilated Convolution(フィルター(カーネル)との積を取る相手の間隔をあける畳み込みのこと)における間隔の大きさを示し、「ストライド」は、フィルターを適用する窓(window)の間隔を示す。図10中の「出力チャンネル数」は、各層(レイヤー)の出力チャンネル数(フィルターの数に相当)を示す。図10の「タイプ」欄において、conv.,deconv.,dilated conv.,outputは、それぞれ、通常の畳み込み層(convolution layer)、deconvolutionを行う(アップサンプリング(アンプーリング)を行ってから畳み込む)layer、上記のDilated Convolutionを行うlayer、出力層(output layer)を示す。 Note that “type” in FIG. 10 indicates the type (type) of a layer, and “filter size” indicates the size of a kernel (filter for convolution operation). “Dilation” indicates the size of the interval in the Diluted Convolution (convolution in which the interval between the counterparts that take the product with the filter (kernel) is taken), and “stride” indicates the size of the window to which the filter is applied. Indicates the interval. The “number of output channels” in FIG. 10 indicates the number of output channels of each layer (corresponding to the number of filters). In the “type” column of FIG. 10, conv. , Deconv. , Dilated conv. , Output indicate a normal convolution layer, a layer that performs deconvolution (convolution after performing upsampling (amplifying)), a layer that performs the above-described Diluted Convolution, and an output layer (output layer).
図9及び図10に示すように、画像補間ネットワークIは、2つ目と4つ目の畳み込み層において、畳み込み時のストライドを2×2にすることにより、元の画像のサイズH×Wを、それぞれ、(H/2)×(W/2)と、(H/4)×(W/4)に縮小しつつ、畳み込みを行う。このように、画像の縮小処理を行いつつ、畳み込み処理を繰り返すことにより、画像における特徴の位置情報が曖昧になる。この後、Dilated Convolution(フィルターとの積を取る相手の間隔をあける畳み込み)を行うことにより、受容野(あるピクセルに影響を与える入力部分)を増やす。そして、最後から3つ目と5つ目の畳み込み層(deconv.)において、ストライドを(1/2)×(1/2)にして、deconvolutionを行うことにより、一旦、(H/4)×(W/4)にした画像のサイズを、それぞれ、(H/2)×(W/2)と、H×Wに復元しつつ、畳み込み処理を繰り返す。なお、図9におけるH×Wは、例えば、32(ピクセル)×32(ピクセル)である。 As shown in FIGS. 9 and 10, the image interpolation network I reduces the original image size H × W by setting the stride at the time of convolution to 2 × 2 in the second and fourth convolution layers. Are convolved while reducing the size to (H / 2) × (W / 2) and (H / 4) × (W / 4), respectively. As described above, by repeating the convolution process while performing the image reduction process, the position information of the feature in the image becomes ambiguous. After that, the number of receptive fields (input portions that affect a certain pixel) is increased by performing a Diluted Convolution (convolution with a space between the counterparts that take the product with the filter). Then, in the third and fifth convolutional layers (deconv.) From the end, the stride is set to (1/2) × (1/2), and deconvolution is performed, so that (H / 4) × The convolution process is repeated while restoring the size of the image (W / 4) to (H / 2) × (W / 2) and H × W, respectively. Note that H × W in FIG. 9 is, for example, 32 (pixels) × 32 (pixels).
図8に示すような学習済みの画像補間ネットワークIによる推論時には、画像補間ネットワークIへの入力画像は、欠落ヒートマップ画像HML tである。この推論時には、サーバ2側のCPU21における特徴量画像補間部32は、入力された欠落ヒートマップ画像HML tに対する画像補間ネットワークIの適用後に、入力された欠落ヒートマップ画像HML tにおける欠落部分のみを、画像補間ネットワークIの出力層からの出力画像(図9における出力ヒートマップ画像)で置き換える。すなわち、サーバ2側のCPU21における特徴量画像補間部32は、入力された欠落ヒートマップ画像HML tにおける欠落部分の画像については、画像補間ネットワークIの出力層からの出力画像(出力ヒートマップ画像)で置き換えるが、欠落ヒートマップ画像HML tにおける欠落部分以外の部分の画像については、入力された欠落ヒートマップ画像HML t(における部分画像)を、そのまま用いて、図8に示す補間ヒートマップ画像IHMtを生成する。
When inference by trained image interpolation network I as shown in FIG. 8, the input image to the image interpolation network I is a missing heatmap image HM L t. During this reasoning, the feature
一方、図6に示すような画像補間ネットワークI(及びディスクリミネータD)の学習時には、画像補間ネットワークIへの入力画像(学習用画像)は、ランダムマスク情報付のヒートマップ画像である。すなわち、学習時における画像補間ネットワークIへの入力画像は、欠落部分がないヒートマップ画像HMtに、ランダムな位置と大きさのマスク領域を設けた画像である。この学習時には、サーバ2側のCPU21における特徴量画像補間部32は、上記のマスク領域を有するヒートマップ画像(以下、「マスク付きヒートマップ画像」)に対して、画像補間ネットワークIを適用した後、入力されたマスク付きヒートマップ画像におけるマスク領域のみを、画像補間ネットワークIの出力層からの出力画像(図9における出力ヒートマップ画像)で置き換える。すなわち、サーバ2側のCPU21における特徴量画像補間部32は、推論時と同様に、入力されたマスク付きヒートマップ画像におけるマスク領域の画像については、画像補間ネットワークIの出力層からの出力画像(出力ヒートマップ画像)で置き換えるが、マスク付きヒートマップ画像におけるマスク領域以外の部分の画像については、入力されたマスク付きヒートマップ画像(における部分画像)を、そのまま用いて、補間ヒートマップ画像IHMtを生成する。そして、学習時には、この補間ヒートマップ画像IHMtは、ディスクリミネータDに送られて、ディスクリミネータDの学習に用いられる。
On the other hand, when learning the image interpolation network I (and discriminator D) as shown in FIG. 6, the input image (learning image) to the image interpolation network I is a heat map image with random mask information. That is, the input image to the image interpolation network I during learning, the no missing portion heatmap image HM t, is an image in which a mask area of the random position and size. At the time of this learning, the feature amount
なお、上記の推論時に学習済みの画像補間ネットワークIへ入力される欠落ヒートマップ画像HML tにおける欠落部分の画像、及び学習時に画像補間ネットワークIへ入力されるマスク付きヒートマップ画像におけるマスク領域の画像については、画像補間ネットワークIへ入力する前に、これらの画像(欠落部分及びマスク領域の画像)の各ピクセルにおけるR,G,Bの輝度値が、それぞれ、訓練データセット29内の全てのヒートマップ画像の平均的なR,G,Bの輝度値の値になるようにしておくことが望ましい。
Note that the image of the missing portion in the missing heat map image HM L t which is entered when the above reasoning to the trained image interpolation network I, and the mask regions in the mask with a heat map image input to the image interpolation network I during learning For the images, before input to the image interpolation network I, the luminance values of R, G, and B at each pixel of these images (images of the missing portion and the mask area) are respectively set for all the pixels in the
次に、上記のディスクリミネータDについて、説明する。このディスクリミネータDは、入力された画像が、全てのエッジカメラ1より取得した特徴量情報に基づいて生成した(本物の)ヒートマップ画像(例えば、図6に示すヒートマップ画像HMt)であるか、画像補間ネットワークIを用いて生成(補間)した補間ヒートマップ画像(例えば、補間ヒートマップ画像IHMt)であるかを識別するネットワークである。画像補間ネットワークI、及びディスクリミネータDの学習時には、ディスクリミネータDは、入力画像が、画像補間ネットワークIを用いて生成(補間)した補間ヒートマップ画像であるか、(補間により生成したものではない)本物のヒートマップ画像であるかを正しく識別するように学習する。一方、画像補間ネットワークIは、補間により生成した補間ヒートマップ画像を、ディスクリミネータDが、(補間により生成したものではない)本物のヒートマップ画像であると分類(識別)を誤るように、学習を行う。このように、画像補間ネットワークIとディスクリミネータDとが競い合うようにして学習を進めることにより、画像補間ネットワークIが、(補間により生成したものではない)本物のヒートマップ画像に近い補間ヒートマップ画像を生成することができる。この学習処理の詳細については、後述する。
Next, the discriminator D will be described. The discriminator D is an input image based on a (real) heat map image (for example, a heat map image HM t shown in FIG. 6) generated based on feature amount information acquired from all
ここで、図11及び図12を参照して、ディスクリミネータDの構成について説明する。これらの図に示すように、ディスクリミネータDは、CNN(Convolutional Neural Network)ベースのネットワークであり、3つの畳み込み層と、1つの全結合層(fully connected layer:図12中の“FC”)から構成されている。上記の3つの畳み込み層の各々は、2(ピクセル)×2(ピクセル)のストライドを採用することにより画像のサイズを小さくする(画像解像度を減らす)一方で、各層における出力フィルタの数を、直前の畳み込み層の倍に増やしている。なお、図11における入力画像のサイズ(H×W)は、32(ピクセル)×32(ピクセル)である。ディスクリミネータDの出力層(図12中の“FC”)は、シグモイド関数付きの全結合層であり、入力画像が上記の本物のヒートマップ画像である確率(に対応する値)を出力する。なお、図12における「タイプ」、「フィルターサイズ」、「ストライド」、及び「出力チャンネル数」の意味は、図10と同じである。また、図12の「タイプ」欄において、conv.,及びFCは、それぞれ、通常の畳み込み層(convolution layer)、及び全結合層(fully connected layer)を示す。 Here, the configuration of the discriminator D will be described with reference to FIGS. As shown in these figures, the discriminator D is a CNN (Convolutional Neural Network) -based network, and includes three convolutional layers and one fully connected layer (“FC” in FIG. 12). It is composed of Each of the above three convolutional layers reduces the size of the image (reduces image resolution) by employing a 2 (pixel) × 2 (pixel) stride, while reducing the number of output filters in each layer by Double the number of convolution layers. Note that the size (H × W) of the input image in FIG. 11 is 32 (pixels) × 32 (pixels). The output layer (“FC” in FIG. 12) of the discriminator D is a fully connected layer with a sigmoid function, and outputs the probability (a value corresponding to) that the input image is the real heat map image described above. . The meanings of “type”, “filter size”, “stride”, and “number of output channels” in FIG. 12 are the same as those in FIG. In the “type” column of FIG. 12, conv. , And FC denote a normal convolution layer and a fully connected layer, respectively.
次に、図13を参照して、上記サーバ2側のCPU21の機械学習部33が行う、画像補間ネットワークI及びディスクリミネータDの機械学習について説明する。本来配置されるべき全てのエッジカメラ1から時々刻々と送信される各時刻の特徴量を用いて、描画処理部31により描画されたヒートマップ画像が、所定の枚数以上、訓練データセット29に格納された後、ユーザが、操作部30により、サーバ2に対して、機械学習の開始を指示すると、CPU21の機械学習部33は、繰り返し数ITに1をセットして初期化すると共に、画像補間ネットワークI及びディスクリミネータDのパラメータ(畳み込み層については、フィルタ及びバイアス)の初期化(初期値のセット)を行う(S21)。
Next, the machine learning of the image interpolation network I and the discriminator D performed by the
次に、CPU21の機械学習部33は、訓練データセット29から、(欠落部分のない)ヒートマップ画像のミニバッチをランダムに選択して(S23)、このミニバッチに含まれる各ヒートマップ画像Xiについて、補間領域を表すバイナリーマスク(補間領域マスク)であるマスクMIiをランダムに生成する(S24)。そして、CPU21の機械学習部33は、ミニバッチに含まれる各ヒートマップ画像Xiと、このヒートマップ画像Xiに対応するマスクMIiに基づいて、下記の式(6)の重み付き二乗和誤差の損失関数を用いて、画像補間ネットワークIのパラメータ(フィルタ及びバイアス)を更新する処理を、ミニバッチ単位で行う(S26)。このミニバッチ単位の更新処理は、画像補間ネットワークIの学習を安定させるために行われる処理であり、繰り返し数ITがITint1になるまでの間(S25でYES)、上記S23乃至S26の処理が繰り返される。下記の式(6)の損失関数は、上記の補間領域を表すマスクMIiを考慮した重み付き二乗和誤差の損失関数である。
上記式(6)において、L(Xi,MIi)は、ヒートマップ画像Xiと、このヒートマップ画像Xiに対応するマスクMIiに基づいて、求めた誤差(損失)を表す。また、C(Xi,MIi)は、入力画像と補間領域マスクに、ヒートマップ画像XiとマスクMIiを用いたときの、画像補間ネットワークIを、関数形式で示したものであり、入力画像と補間領域マスクに、ヒートマップ画像XiとマスクMIiを用いたときの、画像補間ネットワークIからの出力画像に相当する。また、式(6)における||・||は、ノルムを表す。 In the above formula (6), L (X i , MI i) includes a heat map image X i, based on the mask MI i corresponding to the heat map image X i, represents the error (loss) obtained. C (X i , MI i ) is a functional form of an image interpolation network I when the heat map image X i and the mask MI i are used for the input image and the interpolation area mask. the input image and interpolation region mask, when using the heat map image X i and the mask MI i, corresponding to the output image from the image interpolation network I. |||| in Equation (6) represents a norm.
なお、上記S26におけるパラメータ更新処理では、CPU21の機械学習部33は、ミニバッチに含まれる各ヒートマップ画像Xiについて、上記式(6)で求めた誤差L(Xi,MIi)を求めた上で、求めた全ての誤差の平均値を計算し、その勾配の方向にパラメータを更新する。CPU21の機械学習部33は、学習に使用するヒートマップ画像のミニバッチを変更しながら、上記S26のパラメータ更新処理を、ITint1回分繰り返す。
Incidentally, the parameter updating process in S26, the
そして、上記の繰り返し数ITがITint1を超えると(S25でNO)、CPU21の機械学習部33は、一旦、画像補間ネットワークIのパラメータの更新を停止して、ITint2回分、ディスクリミネータDのパラメータの更新処理を繰り返す。具体的には、CPU21の機械学習部33は、繰り返し数ITが(ITint1+ITint2)になるまで(S27でYES)、上記S23、及びS24の処理に加えて、損失関数に交差エントロピー誤差を用いて、ディスクリミネータDのパラメータを更新する処理を、ミニバッチ単位で行う(S28)。この更新処理は、ミニバッチに含まれる各ヒートマップ画像XiとマスクMIiを用いたときの、画像補間ネットワークIからの出力画像(偽物の画像)と、ミニバッチに含まれる各ヒートマップ画像Xi(本物の画像)の両方を用いて、確率的勾配降下法により行われる。なお、上記の画像補間ネットワークIからの出力画像(偽物の画像)には、図9における出力ヒートマップ画像を用いてもよいし、補間ヒートマップ画像IHMtを用いてもよい。
When the number of repetitions IT exceeds IT int1 (NO in S25), the
繰り返し数ITが(ITint1+ITint2)を超えると(S27でNO)、CPU21の機械学習部33は、学習の最終段階として、画像補間ネットワークIとディスクリミネータDの両方の学習(訓練)を、一緒に行う段階に入る。ここで、上記の画像補間ネットワークIとディスクリミネータDとから構成されるDCGANの目的式は、一般的なGANの目的式に相当する下記の式(7)と、上記の式(6)の損失関数を組み合わせた、下記の式(8)になる。
上記式(7)及び式(8)において、E[・]は、期待値を表す。また、αは、重み付け用のハイパーパラメータである。なお、式(7)の一般的なGANの目的式における損失関数は、下記の式(9)である。また、上記式(8)における損失関数は、下記の式(10)である。この式(10)の損失関数は、上記式(6)の重み付き二乗和誤差の損失関数と、式(9)のGANの損失関数とを組み合わせた(結合した)損失関数であるので、以下の説明において、式(10)を、結合損失関数という。
繰り返し数ITが(ITint1+ITint2)を超えると(S27でNO)、CPU21の機械学習部33は、繰り返し数ITがITkになるまで、損失関数に上記式(10)の結合損失関数を用いて、画像補間ネットワークIとディスクリミネータDのパラメータを、ミニバッチ単位で更新する処理を行う(S29)。この更新処理が1回終了する度に、繰り返し数ITの加算(インクリメント)が行われ、繰り返し数ITがITkを超えるまで(S22でYES)、S29の更新処理が繰り返される。画像補間ネットワークIのパラメータ(重みとバイアス)をθcと表すと、パラメータθcに関する結合損失関数の確率的勾配(ミニバッチに含まれる全ヒートマップ画像Xiについての「パラメータθcに関する結合損失関数の勾配」の平均値)は、以下の式(11)で表される。式(11)において、mは、ミニバッチに含まれるヒートマップ画像Xiの数である。
また、ディスクリミネータDのパラメータをθdと表すと、パラメータθdに関する結合損失関数の確率的勾配は、以下の式(12)で表される。式(12)におけるmも、ミニバッチに含まれるヒートマップ画像Xiの数である。
上記S29のパラメータ更新処理において、CPU21の機械学習部33は、画像補間ネットワークIのパラメータθcについては、上記式(10)の結合損失関数の値を減らすように、パラメータθcを勾配方向に微小量だけ更新する。一方、ディスクリミネータDのパラメータθdについては、CPU21の機械学習部33は、上記式(10)の結合損失関数の値を増やすように、ディスクリミネータDのパラメータをθdを、勾配方向に微小量だけ更新する。このような画像補間ネットワークIのパラメータθcとディスクリミネータDのパラメータθdの更新を繰り返すことにより、画像補間ネットワークIとディスクリミネータDの機械学習が完了して、学習済の画像補間ネットワークIを得ることができる。上記のように、CPU21の機械学習部33は、ミニバッチを用いた確率的勾配降下法により、画像補間ネットワークIとディスクリミネータDの機械学習を行う。
In parameter update processing in S29, the
上記のように、本実施形態の学習システム10によれば、系列に属する店舗のうち、本来配置されるべき全てのエッジカメラ1を備えた他の店舗における、全てのエッジカメラ1による撮影画像から抽出された特徴量に基づいて描画したヒートマップ画像HMtに基づく学習用画像(マスク付きヒートマップ画像)を用いて、学習完了前の画像補間ネットワークI(及びディスクリミネータD)の機械学習を行うようにした。ここで、いわゆるチェーン店では、系列に属する各店舗が同じレイアウトを有している。このため、上記のように、本来配置されるべき全てのエッジカメラ1を備えた他の店舗における撮影画像から抽出された特徴量に基づいて描画したヒートマップ画像HMtに基づく学習用画像を用いて、画像補間ネットワークI(及びディスクリミネータD)の機械学習を行うことにより、同じ系列に属するある店舗に配置されたエッジカメラ1の数が、本来配置されるべきエッジカメラ1の数よりも少ないために、本来配置されるべきエッジカメラ1のうち、いくつかのエッジカメラ1による撮影画像が欠落している場合でも、これらの撮影画像の欠落により生じるヒートマップ画像(欠落ヒートマップ画像HML t)の欠落部分を、学習済の画像補間ネットワークIを用いて、補間することができる。
As described above, according to the learning system 10 of the present embodiment, among the stores belonging to the series, from the images captured by all the
これにより、チェーン店の各店舗に配置するエッジカメラ1の数を、本来配置されるべきエッジカメラ1の数よりも少なくした場合でも、本来配置されるべきエッジカメラ1の数と同じ数のエッジカメラ1を配置した場合と遜色のないヒートマップ画像(補間ヒートマップ画像IHMt)を得ることができる。従って、チェーン店の各店舗に設置するエッジカメラ1の数を抑えて、チェーン店の各店舗の新規開店費用や維持費用を削減することができる。
Thereby, even if the number of
また、本実施形態のサーバ2、及びヒートマップ描画補間プログラム26によっても、上記と同様な効果を得ることができる。
Further, the same effect as described above can be obtained by the
また、本実施形態の学習システム10によれば、複数のエッジカメラ1による撮影画像から抽出された特徴量に基づいて描画する画像(請求項における「特徴量画像」)を、複数のエッジカメラ1による撮影画像から抽出された特徴量を色を用いて可視化したヒートマップ画像としたことにより、従業員等のユーザが、該当の店舗における現時点の特徴を、視覚的に把握することができる。
Further, according to the learning system 10 of the present embodiment, an image to be drawn based on a feature amount extracted from an image captured by a plurality of edge cameras 1 (“feature amount image” in the claims) is output to the plurality of
また、本実施形態の学習システム10によれば、複数のエッジカメラ1による撮影画像から抽出される特徴量を、複数の種類の特徴量のデータから構成される多次元データとし、この特徴量に基づいて描画する画像(請求項における「特徴量画像」)を、上記の多次元データを色を用いて可視化したカラーのヒートマップ画像とした。これにより、従業員等のユーザが、該当の店舗における現時点の複数種類の特徴を、容易に視覚的に把握することができる。
Further, according to the learning system 10 of the present embodiment, the feature amount extracted from the images captured by the plurality of
また、本実施形態の学習システム10によれば、複数のエッジカメラ1による撮影画像から抽出された所定の時間分の特徴量(例えば、特徴量情報c(t−T)〜ct)に基づいて、ヒートマップ画像を描画するようにした。これにより、ある店舗に配置されたエッジカメラ1の数が、本来配置されるべきエッジカメラ1の数よりも少ないために、撮影画像が欠落している場合でも、これらの撮影画像から抽出された特徴量に基づいて描画する欠落ヒートマップ画像HML t、及び学習済の画像補間ネットワークIを用いた補間後の補間ヒートマップ画像IHMtに、現時点tよりも前の所定の時間分の特徴量を反映することができる。従って、従業員等のユーザが、複数のエッジカメラ1により撮影した現時点の撮影画像には映っていない特徴を、把握することができる。
Further, according to the learning system 10 of the present embodiment, based on the plurality of features of a predetermined time period which is extracted from the photographed image by the edge camera 1 (for example, feature amount information c (t-T) ~c t ) Draw a heat map image. Accordingly, even if a captured image is missing because the number of
また、本実施形態の学習システム10によれば、画像補間ネットワークI及びディスクリミネータD(請求項における「ニューラルネットワーク」)を、生成モデルの一種であるDCGANのニューラルネットワークとし、特徴量画像補間部32が、学習済の画像補間ネットワークIを用いて、欠落ヒートマップ画像HML tの欠落部分を生成することにより、この欠落部分を補間するようにした。DCGANは、画像のディープラーニングに適したCNNを使った生成モデルであるため、DCGANのニューラルネットワークを用いて、欠落ヒートマップ画像HML tの欠落部分を生成することにより、補間後のヒートマップ画像(補間ヒートマップ画像IHMt)を、妥当な画像にすることができる。
Further, according to the learning system 10 of the present embodiment, the image interpolation network I and the discriminator D (“neural network” in the claims) are a neural network of DCGAN, which is a kind of generation model, and the feature
変形例:
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。
Modification:
The present invention is not limited to the configuration of each of the above embodiments, and various modifications can be made without departing from the spirit of the invention. Next, a modified example of the present invention will be described.
変形例1:
上記の実施形態では、請求項における「特徴量画像」が、複数のエッジカメラ1による撮影画像から抽出された特徴量を色を用いて可視化したヒートマップ画像である場合の例を示したが、撮影画像から抽出される特徴量を、複数のエッジカメラの各々による撮影画像そのものとして、サーバが、複数のエッジカメラの各々による撮影画像に基づいて、これらの画像を組み合わせた画像である店舗内の画像を、特徴量画像として描画するようにしてもよい。この例の場合には、学習済のニューラルネットワーク(上記実施形態の「学習済みの画像補間ネットワークI」に相当)は、ある店舗に配置されたエッジカメラの数が、本来配置されるべきエッジカメラの数よりも少ないために、撮影画像が欠落している場合に、欠落した撮影画像を補間することにより、この店舗内の画像を完成させる。
In the above embodiment, an example in which the “feature amount image” in the claims is a heat map image in which feature amounts extracted from images captured by the plurality of
この変形例1においても、上記実施形態の場合と同様に、補間後の画像を、所定の時間分の特徴量(変形例1の場合は、複数のエッジカメラの各々による所定の時間分の撮影画像)を反映したものにすることが望ましい。ただし、上記実施形態の場合には、補間前の欠落部分を有するヒートマップ画像(欠落ヒートマップ画像HML t)自体が、所定の時間分の特徴量(例えば、特徴量情報c(t−T)〜ct)に基づいて描画されているので、補間時には、過去の欠落ヒートマップ画像を考慮する必要はなく、現時点の欠落ヒートマップ画像のみを考慮すれば、補間後の画像を、所定の時間分の特徴量を反映したものにすることができる。しかしながら、変形例1では、補間対象になる画像が、撮影画像そのものであるため、補間処理時に、過去の撮影画像を考慮しなければ、補間後の画像を、所定の時間分の特徴量(撮影画像)を反映したものにすることができない。そして、補間後の画像を、所定の時間分の特徴量を反映したものにすることができないと、ある時刻の撮影画像の欠落部分にのみ現れている特徴(例えば、欠落部分に存在する人)を、従業員等のユーザが把握することができない。 In the first modification as well, in the same manner as in the above-described embodiment, the interpolated image is captured by a feature amount for a predetermined time (in the first modification, the image is captured by a plurality of edge cameras for a predetermined time). Image). However, in the case of the above embodiment, heat map image (missing heat map image HM L t) itself having a missing part of the previous interpolation, the feature amount of a predetermined time period (e.g., the feature amount information c (t-T ) so to c t) to be rendered based on, at the time of interpolation, it is not necessary to consider the historical lack heat map image, considering only the missing heat map image of the present time, the image after the interpolation, a predetermined It is possible to reflect the feature amount for time. However, in the first modification, since the image to be interpolated is the photographed image itself, if the past photographed image is not taken into account during the interpolation processing, the image after interpolation is displayed in the feature amount (photographed image) for a predetermined time. Image) cannot be reflected. If the interpolated image cannot reflect the feature amount for a predetermined time, a feature that appears only in a missing portion of a captured image at a certain time (for example, a person existing in the missing portion) Cannot be grasped by a user such as an employee.
従って、この変形例1のように、撮影画像から抽出される特徴量を、複数のエッジカメラの各々による撮影画像そのものとして、サーバが、複数のエッジカメラの各々による撮影画像を組み合わせた画像である店舗内の画像を、特徴量画像として描画する場合には、3DCNN等の時系列方向を意識したCNN、又は再帰型ニューラルネットワーク(RNN(Recurrent Neural Network)を用いることが望ましい。ここで、再帰型ニューラルネットワークは、現在の入力情報だけではなく、過去の入力情報を、現在の出力情報に反映することが可能なニューラルネットワークである。上記の3DCNN等の時系列方向を意識したCNN、又は再帰型ニューラルネットワークを用いることにより、補間後の画像を、複数のエッジカメラの各々による所定の時間分の撮影画像を反映したものにすることが可能である。 Therefore, as in the first modification, the feature amount extracted from the captured image is an image in which the server combines the images captured by each of the plurality of edge cameras, as the captured image itself by each of the plurality of edge cameras. When an image in a store is rendered as a feature amount image, it is desirable to use a CNN such as 3DCNN or the like, or a recurrent neural network (RNN), which is a recursive neural network. A neural network is a neural network that can reflect not only current input information but also past input information in current output information, such as the above-described 3DCNN or other CNN that is conscious of a time-series direction, or a recursive type. By using a neural network, multiple images after interpolation It is possible to reflect an image taken for a predetermined time by each of the edge cameras.
変形例2:
上記の実施形態では、請求項におけるニューラルネットワークが、生成モデルの一種であるDCGANである場合の例について示したが、ヒートマップ画像等の特徴量画像の欠落部分の補間に用いるニューラルネットワークは、これに限られず、例えば、WGAN(Wasserstein GAN)等の他の種類の生成モデルのニューラルネットワークであってもよいし、生成モデル以外のニューラルネットワークであってもよい。
Modification Example 2:
In the above-described embodiment, an example in which the neural network in the claims is DCGAN, which is a kind of generative model, has been described. However, the neural network used for interpolation of a missing portion of a feature amount image such as a heat map image is However, the neural network may be a neural network of another type of generation model such as WGAN (Wasserstein GAN) or a neural network other than the generation model.
変形例3:
上記の実施形態では、エッジカメラ側が、エッジカメラによる撮影画像から特徴量を抽出する場合の例について示したが、これに限られず、サーバ側が、エッジカメラから送信された撮影画像より特徴量を抽出するようにしてもよい。また、上記の実施形態では、クラウド上のサーバが、エッジカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する場合の例について示したが、店舗内に配置されたサーバが、上記の特徴量画像の描画処理を行って、描画した特徴量画像を、クラウド上のサーバに送信するようにしてもよい。
Modification 3:
In the above-described embodiment, an example in which the edge camera side extracts a feature amount from an image captured by the edge camera has been described. However, the present invention is not limited to this, and the server side extracts a feature amount from a captured image transmitted from the edge camera. You may make it. Further, in the above embodiment, an example in which the server on the cloud draws the feature amount image based on the feature amount extracted from the image captured by the edge camera has been described. However, the above-described feature amount image drawing processing may be performed, and the drawn feature amount image may be transmitted to a server on the cloud.
変形例4:
上記の実施形態では、請求項における「特徴量」が、3種類の特徴量のデータ(男性人数it、女性人数it、滞留時間it)から構成される3次元データである場合の例について示したが、請求項における「特徴量」は、何次元のデータであってもよく、例えば、4種類の特徴量のデータから構成される4次元データであってもよい。
Modification 4:
In the above-described embodiment, an example has been described in which the “feature amount” in the claims is three-dimensional data composed of data of three types of feature amounts (number of men it , number of women it , stay time it ). However, the “feature amount” in the claims may be data of any dimension, for example, four-dimensional data composed of data of four types of feature amounts.
1 エッジカメラ(カメラ)
2 サーバ
10 学習システム
26 ヒートマップ描画補間プログラム(特徴量画像描画補間プログラム)
31 描画処理部
32 特徴量画像補間部
33 機械学習部
T 所定の時間
1 edge camera (camera)
2 server 10 learning system 26 heat map drawing interpolation program (feature image drawing interpolation program)
31
Claims (11)
前記サーバは、
前記複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、
前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、
前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部と、
を備える学習システム。 A learning system including a plurality of cameras arranged in stores of chain stores in which stores belonging to the affiliate have the same layout, and a server that communicates with the plurality of cameras,
The server is
A drawing processing unit that draws a feature amount image based on the feature amount extracted from the images captured by the plurality of cameras,
When the number of cameras arranged in a certain store of the chain store is smaller than the number of cameras that should be originally arranged, when the photographed images are missing, the feature caused by the lack of these photographed images. A feature amount image interpolating unit that interpolates the missing portion of the feature amount image by applying a learned neural network to the entire feature amount image including the missing portion of the amount image;
In another store belonging to the series having a camera lacking in the certain store among the cameras to be originally arranged, a feature amount extracted from images captured by all cameras arranged in the other store is used. Using a learning image based on the feature amount image drawn by the drawing processing unit based on the machine learning unit that performs machine learning of the neural network before learning is completed,
A learning system with
前記機械学習部は、前記他の店舗に配置された、前記本来配置されるべき全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行うことを特徴とする請求項1に記載の学習システム。 The other store is a store provided with all cameras to be originally arranged, among stores other than the certain store belonging to the affiliate,
The machine learning unit is configured to perform learning based on the feature amount image drawn by the drawing processing unit based on feature amounts extracted from images captured by all the cameras to be originally arranged, which are arranged in the another store. The learning system according to claim 1, wherein machine learning of the neural network before learning is completed is performed using an image for learning.
前記特徴量画像は、前記多次元データを色を用いて可視化したカラーのヒートマップ画像であることを特徴とする請求項3に記載の学習システム。 The feature amount is multidimensional data composed of data of a plurality of types of feature amounts,
The learning system according to claim 3, wherein the feature amount image is a color heat map image obtained by visualizing the multidimensional data using colors.
前記サーバにおける描画処理部は、前記複数のカメラの各々による撮影画像に基づいて、これらの画像を組み合わせた画像である店舗内の画像を、特徴量画像として描画し、
前記学習済のニューラルネットワークは、前記ある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、欠落した撮影画像を補間することにより、前記ある店舗内の画像を完成させることを特徴とする請求項1又は請求項2に記載の学習システム。 The feature amount is an image itself captured by each of the plurality of cameras,
The drawing processing unit in the server, based on the images captured by each of the plurality of cameras, draws an in-store image that is an image obtained by combining these images, as a feature amount image,
The learned neural network, when the number of cameras arranged in the certain store is smaller than the number of cameras to be originally arranged, if the photographed image is missing, the missing photographed image The learning system according to claim 1, wherein an image in the certain store is completed by interpolation.
前記複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、
前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、
前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部と、
を備えるサーバ。 A server that can communicate with a plurality of cameras arranged in a store where a store belonging to the affiliate has a chain store having the same layout,
A drawing processing unit that draws a feature amount image based on the feature amount extracted from the images captured by the plurality of cameras,
When the number of cameras arranged in a certain store of the chain store is smaller than the number of cameras that should be originally arranged, when the photographed images are missing, the feature caused by the lack of these photographed images. A feature amount image interpolating unit that interpolates the missing portion of the feature amount image by applying a learned neural network to the entire feature amount image including the missing portion of the amount image;
In another store belonging to the series having a camera lacking in the certain store among the cameras to be originally arranged, a feature amount extracted from images captured by all cameras arranged in the other store is used. Using a learning image based on the feature amount image drawn by the drawing processing unit based on the machine learning unit that performs machine learning of the neural network before learning is completed,
Server comprising:
系列に属する店舗が同じレイアウトを有するチェーン店のある店舗に配された複数のカメラによる撮影画像から抽出された特徴量に基づいて、特徴量画像を描画する描画処理部と、
前記チェーン店のある店舗に配置されたカメラの数が、本来配置されるべきカメラの数よりも少ないために、前記撮影画像が欠落している場合に、これらの撮影画像の欠落により生じる前記特徴量画像の欠落部分を含む前記特徴量画像の全体に対して、学習済のニューラルネットワークを適用することで、前記特徴量画像の欠落部分を補間する特徴量画像補間部と、
前記本来配置されるべきカメラのうち前記ある店舗に欠けているカメラを備えた前記系列に属する他の店舗において、前記他の店舗に配置された全てのカメラによる撮影画像から抽出された特徴量に基づいて前記描画処理部が描画した前記特徴量画像に基づく学習用画像を用いて、学習完了前の前記ニューラルネットワークの機械学習を行う機械学習部
として機能させるための、特徴量画像描画補間プログラム。 Computer
A drawing processing unit that draws a feature amount image based on feature amounts extracted from images captured by a plurality of cameras arranged in a store where a chain store having the same layout has a store belonging to the series;
When the number of cameras arranged in a certain store of the chain store is smaller than the number of cameras that should be originally arranged, when the photographed images are missing, the feature caused by the lack of these photographed images. A feature amount image interpolating unit that interpolates the missing portion of the feature amount image by applying a learned neural network to the entire feature amount image including the missing portion of the amount image;
In another store belonging to the series having a camera lacking in the certain store among the cameras to be originally arranged, a feature amount extracted from images captured by all cameras arranged in the other store is used. A feature amount image drawing interpolation program for functioning as a machine learning unit that performs machine learning of the neural network before completion of learning using a learning image based on the feature amount image drawn by the drawing processing unit based on the drawing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018167272A JP2020042367A (en) | 2018-09-06 | 2018-09-06 | Learning system, server, and feature amount image drawing interpolation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018167272A JP2020042367A (en) | 2018-09-06 | 2018-09-06 | Learning system, server, and feature amount image drawing interpolation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020042367A true JP2020042367A (en) | 2020-03-19 |
Family
ID=69798343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018167272A Pending JP2020042367A (en) | 2018-09-06 | 2018-09-06 | Learning system, server, and feature amount image drawing interpolation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020042367A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465733A (en) * | 2020-08-31 | 2021-03-09 | 长沙理工大学 | Remote sensing image fusion method, device, medium and equipment based on semi-supervised learning |
KR102304339B1 (en) * | 2020-11-27 | 2021-09-23 | 두에이아이(주) | Method and computing device for providing analysis information on intravascular ultrasound images of blood vessels using artificial neural networks |
WO2021193779A1 (en) * | 2020-03-27 | 2021-09-30 | 株式会社ソシオネクスト | Color image complementing method and neural network learning method |
WO2022113907A1 (en) * | 2020-11-25 | 2022-06-02 | ヤマハ株式会社 | Music element generation assistance device, music element learning device, music element generation assistance method, music element learning method, music element generation assistance program, and music element learning program |
WO2023145478A1 (en) * | 2022-01-28 | 2023-08-03 | ソニーセミコンダクタソリューションズ株式会社 | Data processing device, data processing method, and program |
-
2018
- 2018-09-06 JP JP2018167272A patent/JP2020042367A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021193779A1 (en) * | 2020-03-27 | 2021-09-30 | 株式会社ソシオネクスト | Color image complementing method and neural network learning method |
CN112465733A (en) * | 2020-08-31 | 2021-03-09 | 长沙理工大学 | Remote sensing image fusion method, device, medium and equipment based on semi-supervised learning |
WO2022113907A1 (en) * | 2020-11-25 | 2022-06-02 | ヤマハ株式会社 | Music element generation assistance device, music element learning device, music element generation assistance method, music element learning method, music element generation assistance program, and music element learning program |
KR102304339B1 (en) * | 2020-11-27 | 2021-09-23 | 두에이아이(주) | Method and computing device for providing analysis information on intravascular ultrasound images of blood vessels using artificial neural networks |
WO2023145478A1 (en) * | 2022-01-28 | 2023-08-03 | ソニーセミコンダクタソリューションズ株式会社 | Data processing device, data processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020042367A (en) | Learning system, server, and feature amount image drawing interpolation program | |
CN107463949B (en) | Video action classification processing method and device | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
US20180357789A1 (en) | Forecasting Multiple Poses Based on a Graphical Image | |
JP6798183B2 (en) | Image analyzer, image analysis method and program | |
TW201833867A (en) | Method and device for training neural network model for image processing and computer readable storage medium | |
US20150215590A1 (en) | Image demosaicing | |
KR20190050724A (en) | System and Method of Generating Blood Pressure Estimation Model, and System and Method of Blood Pressure Estimation | |
CN110458895A (en) | Conversion method, device, equipment and the storage medium of image coordinate system | |
CN115484410B (en) | Event camera video reconstruction method based on deep learning | |
CN103065282A (en) | Image fusion method based on sparse linear system | |
CN112200157A (en) | Human body 3D posture recognition method and system for reducing image background interference | |
CN111696196A (en) | Three-dimensional face model reconstruction method and device | |
JP7370922B2 (en) | Learning method, program and image processing device | |
CN108509830B (en) | Video data processing method and device | |
CN114155278A (en) | Target tracking and related model training method, related device, equipment and medium | |
JP7463186B2 (en) | Information processing device, information processing method, and program | |
CN108830890A (en) | A method of scene geometric information being estimated from single image using production confrontation network | |
JP7398938B2 (en) | Information processing device and its learning method | |
JP7304235B2 (en) | Trained model, learning device, learning method, and learning program | |
JP6801020B2 (en) | Image recognition device, image recognition method, and image recognition program | |
CN115331152B (en) | Fire fighting identification method and system | |
WO2020194378A1 (en) | Image processing system, image processing device, image processing method, and computer-readable medium | |
JP6043706B2 (en) | Matching processing apparatus and matching method | |
US20220405972A1 (en) | An imaging sensor, an image processing device and an image processing method |