JP6797344B1 - Learning device, utilization device, program, learning method and utilization method - Google Patents
Learning device, utilization device, program, learning method and utilization method Download PDFInfo
- Publication number
- JP6797344B1 JP6797344B1 JP2020552066A JP2020552066A JP6797344B1 JP 6797344 B1 JP6797344 B1 JP 6797344B1 JP 2020552066 A JP2020552066 A JP 2020552066A JP 2020552066 A JP2020552066 A JP 2020552066A JP 6797344 B1 JP6797344 B1 JP 6797344B1
- Authority
- JP
- Japan
- Prior art keywords
- image
- contour
- subject
- thermal image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Abstract
被写体から放射される赤外線を利用することで、その被写体の温度分布を画像化した熱画像と、その被写体から反射される可視光を利用することで、その被写体を画像化した可視画像とを含む学習用データを取得する学習側データ取得部(112)と、学習用データを用いて熱画像から可視画像への推論を学習することで、熱画像から可視画像を推論するための学習済モデルを生成するモデル生成部(113)と、を備えることを特徴とする。Includes a thermal image that images the temperature distribution of the subject by using infrared rays emitted from the subject, and a visible image that images the subject by using visible light reflected from the subject. A trained model for inferring a visible image from a thermal image by learning inference from a thermal image to a visible image using the learning side data acquisition unit (112) that acquires training data and the training data. It is characterized by including a model generation unit (113) to be generated.
Description
本開示は、学習装置、活用装置、プログラム、学習方法及び活用方法に関する。 The present disclosure relates to learning devices, utilization devices, programs, learning methods and utilization methods.
一般的な熱型赤外線固体撮像素子(以下、熱画像センサという)は、被写体が放射する入射赤外線を映像化し、赤外線を吸収することにより生じる温度上昇の差が画像の濃淡となる。被写体が放射する赤外線はレンズにより集光され、撮像素子上に結像する。 A general thermal infrared solid-state image sensor (hereinafter referred to as a thermal image sensor) visualizes incident infrared rays emitted by a subject, and the difference in temperature rise caused by absorbing the infrared rays is the shade of the image. The infrared rays emitted by the subject are focused by the lens and imaged on the image sensor.
熱情報を取得可能な熱画像センサは、可視カメラでは取得できない情報を取得可能な一方で、例えば、安価な小型センサであると、画像の解像度、コントラスト、輪郭の鮮明度、又は、SN比が小さくなる。また、大型センサで形成された熱画像センサは、コストが高い。 While a thermal image sensor capable of acquiring thermal information can acquire information that cannot be acquired by a visible camera, for example, an inexpensive small sensor has a high image resolution, contrast, contour sharpness, or SN ratio. It becomes smaller. Further, the thermal image sensor formed by the large sensor is expensive.
一方、宅内モニタリング、スマートビルディング又は防犯等の分野では、人間の行動又は姿勢を識別し、異常行動を検出するサービスが存在する。人間の姿勢は、立つ(立位)、座る(座位)、横たわる(臥位)等がある。熱画像センサは、プライバシー保護の観点から可視カメラと比較して導入の障壁が低く有利である。 On the other hand, in the fields of home monitoring, smart building, crime prevention, etc., there are services that identify human behavior or posture and detect abnormal behavior. Human postures include standing (standing position), sitting (sitting position), and lying down (lying position). Thermal image sensors are advantageous because they have lower barriers to introduction than visible cameras from the viewpoint of privacy protection.
ここで、可視画像又は距離画像と、被写体の姿勢情報(正解)とを入力として学習済モデルを生成し、生成された学習済モデルを用いて可視画像又は距離画像から姿勢情報を推定する技術がある(例えば、特許文献1参照)。 Here, a technique of generating a trained model by inputting a visible image or a distance image and a posture information (correct answer) of a subject and estimating a posture information from the visible image or a distance image using the generated trained model. (See, for example, Patent Document 1).
特許文献1には、可視画像又は距離画像から姿勢を推定する姿勢推定装置が記載されている。この姿勢推定装置では、熱画像は、解像度又はSN比等の画質が可視画像又は距離画像と比べて小さく、姿勢推定が容易ではないという課題がある。
そこで、本開示の一又は複数の態様は、熱画像中の被写体の姿勢を高精度に推定できるようにすることを目的とする。 Therefore, one or a plurality of aspects of the present disclosure is intended to enable highly accurate estimation of the posture of a subject in a thermal image.
本開示の一態様に係る学習装置は、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データを取得するデータ取得部と、前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出する輪郭抽出部と、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成するモデル生成部と、を備え、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 The learning device according to one aspect of the present disclosure uses infrared rays emitted from a subject to image a thermal image of the temperature distribution of the subject, and visible light reflected from the subject. A data acquisition unit that acquires learning data including a visible image of the subject, a contour extraction unit that extracts a contour image showing the contour of the subject from the thermal image, and the thermal image and the contour image. from the combination by learning the reasoning to the visible image, and a model generating unit for generating a learned model for inferring the visible image from the combination of the thermal image and the outline image, the learned model Is formed by a layer of a decoder portion and a layer of an encoder portion, and the decoder portion has two paths in parallel, the two paths being a path for decoding the thermal image and the contour. It is characterized in that it is a path for decoding an image .
本開示の一態様に係る活用装置は、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データ、及び、前記熱画像から抽出された、前記被写体の輪郭を示す輪郭画像を示す輪郭画像データを用いて、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで生成された、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを記憶する記憶部と、対象となる被写体である対象被写体の熱画像である対象熱画像を示す対象熱画像データを取得するデータ取得部と、前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出する輪郭抽出部と、前記学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論する推論部と、前記対象可視画像から、前記対象被写体の姿勢を推定する姿勢推定部と、を備え、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 The utilization device according to one aspect of the present disclosure utilizes infrared rays emitted from a subject to image a thermal image of the temperature distribution of the subject and visible light reflected from the subject. Using the training data including the visible image obtained by imaging the subject and the contour image data showing the contour image showing the contour of the subject extracted from the thermal image, the thermal image and the contour image are used. A storage unit that stores a trained model for inferring the visible image from the combination of the thermal image and the contour image, which is generated by learning the inference from the combination to the visible image, and a target subject. A data acquisition unit that acquires target thermal image data indicating a target thermal image that is a thermal image of a target subject, and a contour extraction unit that extracts a target contour image that is a contour image indicating the contour of the target subject from the target thermal image. And the inference unit that infers the target visible image that is the visible image of the target subject from the combination of the target thermal image and the target contour image using the trained model, and the target subject from the target visible image. The trained model is formed by a layer of a decoder portion and a layer of an encoder portion, and the decoder portion has two parallel paths. One path is a path for decoding the thermal image and a path for decoding the contour image .
本開示の一態様に係るプログラムは、コンピュータを、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データを取得するデータ取得部、前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出する輪郭抽出部、及び、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成するモデル生成部、として機能させ、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 The program according to one aspect of the present disclosure uses a computer to use an infrared image emitted from a subject to use a thermal image that images the temperature distribution of the subject and visible light reflected from the subject. A data acquisition unit that acquires learning data including a visible image of the subject, a contour extraction unit that extracts a contour image showing the contour of the subject from the thermal image, and the thermal image and the contour. By learning the inference from the combination of images to the visible image, it functions as a model generation unit that generates a trained model for inferring the visible image from the combination of the thermal image and the contour image, and the learning. The completed model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel, and the two paths are a path for decoding the thermal image and a path for decoding the thermal image. The path is for decoding the contour image .
本開示の一態様に係るプログラムは、コンピュータを、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データ、及び、前記熱画像から抽出された、前記被写体の輪郭を示す輪郭画像を示す輪郭画像データを用いて、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで生成された、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを記憶する記憶部、対象となる被写体である対象被写体の熱画像である対象熱画像を示す対象熱画像データを取得するデータ取得部、前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出する輪郭抽出部、前記学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論する推論部、及び、前記対象可視画像から、前記対象被写体の姿勢を推定する姿勢推定部、として機能させ、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 The program according to one aspect of the present disclosure uses a computer to use an infrared image emitted from a subject to use a thermal image that images the temperature distribution of the subject and visible light reflected from the subject. Then, using the learning data including the visible image obtained by imaging the subject and the contour image data showing the contour image showing the contour of the subject extracted from the thermal image, the thermal image and the contour are used. A storage unit that stores a learned model for inferring the visible image from the combination of the thermal image and the contour image, which is generated by learning the inference from the combination of images to the visible image, and a target subject. A data acquisition unit that acquires target thermal image data indicating a target thermal image that is a thermal image of the target subject, and a contour extraction unit that extracts a target contour image that is a contour image indicating the contour of the target subject from the target thermal image. , The inference unit that infers the target visible image that is the visible image of the target subject from the combination of the target thermal image and the target contour image using the trained model, and the target subject from the target visible image. The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel. One path is a path for decoding the thermal image and a path for decoding the contour image .
本開示の一態様に係る学習方法は、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データを取得し、前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出し、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成する学習方法であって、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 The learning method according to one aspect of the present disclosure is to use an infrared image emitted from a subject, a thermal image that images the temperature distribution of the subject, and visible light reflected from the subject. Learning data including a visible image of the subject is acquired, a contour image showing the contour of the subject is extracted from the thermal image, and inference from the combination of the thermal image and the contour image to the visible image. Is a learning method for generating a trained model for inferring the visible image from a combination of the thermal image and the contour image by learning the above, and the trained model is a layer of a decoder portion and an encoder portion. The decoder portion is formed by the layers of the above, and the decoder portion includes two paths in parallel, and the two paths are a path for decoding the thermal image and a path for decoding the contour image. It is characterized by.
本開示の位置態様に係る活用方法は、対象となる被写体である対象被写体の熱画像である対象熱画像を示す対象熱画像データを取得し、前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出し、被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データ、及び、前記熱画像から抽出された、前記被写体の輪郭を示す輪郭画像を示す輪郭画像データを用いて、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで生成された、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論し、前記対象可視画像から、前記対象被写体の姿勢を推定する活用方法であって、前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであることを特徴とする。 In the utilization method according to the position aspect of the present disclosure, the target thermal image data showing the target thermal image which is the thermal image of the target subject which is the target subject is acquired, and the contour showing the outline of the target subject is obtained from the target thermal image. By extracting the target contour image which is an image and using the infrared rays emitted from the subject, the thermal image which imaged the temperature distribution of the subject and the visible light reflected from the subject are used. A combination of the thermal image and the contour image using learning data including a visible image obtained by imaging the subject and contour image data indicating a contour image showing the contour of the subject extracted from the thermal image. Using the trained model for inferring the visible image from the combination of the thermal image and the contour image generated by learning the inference to the visible image from the target thermal image and the target contour image. This is a utilization method in which a target visible image, which is a visible image of the target subject, is inferred from the combination of the above and the posture of the target subject is estimated from the target visible image. The trained model is a layer of a decoder portion. , The decoder portion is formed by a layer of an encoder portion, and the decoder portion has two paths in parallel, and the two paths are a path for decoding the thermal image and a path for decoding the contour image. It is characterized by being.
本開示の一又は複数の態様によれば、熱画像中の被写体の姿勢を高精度に推定することができる。 According to one or more aspects of the present disclosure, the posture of a subject in a thermal image can be estimated with high accuracy.
実施の形態1.
図1は、実施の形態1に係る姿勢推定システム100の構成を概略的に示すブロック図である。
姿勢推定システム100は、モデル生成装置として機能する学習装置110と、活用装置として機能する姿勢推定装置130とを備える。なお、姿勢推定装置130で行われる処理方法が活用方法となる。
姿勢推定システム100では、学習装置110で学習された学習済モデルを用いて、姿勢推定装置130が、姿勢の推定を行う。
FIG. 1 is a block diagram schematically showing the configuration of the posture estimation system 100 according to the first embodiment.
The posture estimation system 100 includes a learning device 110 that functions as a model generation device, and a
In the posture estimation system 100, the
図2は、学習装置110の構成を概略的に示すブロック図である。
学習装置110は、学習側入力部111と、学習側データ取得部112と、モデル生成部113と、学習側学習済モデル記憶部114と、学習側通信部115とを備える。FIG. 2 is a block diagram schematically showing the configuration of the learning device 110.
The learning device 110 includes a learning
学習側入力部111は、学習用データの入力を受け付ける入力部である。入力された学習用データは、学習側データ取得部112に与えられる。
ここで、学習用データは、熱画像と、熱画像から推論されるべき正解として可視画像との組み合わせ示す教師データである。The learning
Here, the learning data is teacher data showing a combination of a thermal image and a visible image as a correct answer to be inferred from the thermal image.
熱画像は、被写体から放射される赤外線を利用することで、被写体の温度分布を画像化することで取得される。
また、可視画像は、被写体から反射される可視光を利用することで、被写体を画像化することで取得される。可視画像では、被写体の外観が画像化される。The thermal image is acquired by imaging the temperature distribution of the subject by using infrared rays radiated from the subject.
Further, the visible image is acquired by imaging the subject by using the visible light reflected from the subject. In the visible image, the appearance of the subject is imaged.
学習側データ取得部112は、学習側入力部111を介して、学習用データを取得するデータ取得部である。取得された学習用データは、モデル生成部113に与えられる。
The learning side data acquisition unit 112 is a data acquisition unit that acquires learning data via the learning
モデル生成部113は、学習側データ取得部112から与えられる学習用データに基づいて、熱画像に対応する可視画像を学習する。言い換えると、モデル生成部113は、学習用データで示される熱画像及び可視画像の組み合わせを学習することで、熱画像に対応する最適な可視画像を推論するための学習済モデルを生成する。具体的には、モデル生成部113は、学習用データを用いて熱画像から可視画像への推論を学習することで、熱画像から可視画像を推論するための学習済モデルを生成する。
そして、モデル生成部113は、生成された学習済モデルを学習側学習済モデルとして学習側学習済モデル記憶部114に記憶させる。The model generation unit 113 learns the visible image corresponding to the thermal image based on the learning data given from the learning side data acquisition unit 112. In other words, the model generation unit 113 generates a trained model for inferring the optimum visible image corresponding to the thermal image by learning the combination of the thermal image and the visible image shown in the training data. Specifically, the model generation unit 113 generates a trained model for inferring a visible image from a thermal image by learning inference from a thermal image to a visible image using training data.
Then, the model generation unit 113 stores the generated learned model as the learning side learned model in the learning side learned
モデル生成部113が用いる学習アルゴリズムは、教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、ここでは、ニューラルネットワークを適用した場合について説明する。 As the learning algorithm used by the model generation unit 113, known algorithms such as supervised learning, unsupervised learning, and reinforcement learning can be used. As an example, here, a case where a neural network is applied will be described.
ここで教師あり学習の場合、学習用データで示される熱画像と可視画像とは、同一被写体を収めたペアのデータである必要がある。教師なし学習の場合、熱画像と、可視画像とは、同一被写体を収めている必要はない。 Here, in the case of supervised learning, the thermal image and the visible image shown in the learning data need to be paired data containing the same subject. In the case of unsupervised learning, the thermal image and the visible image do not have to contain the same subject.
モデル生成部113は、例えば、ニューラルネットワークモデルに従って、いわゆる教師あり学習により、熱画像に対応する可視画像を学習する。
ここで、教師あり学習とは、入力と結果(ラベル)のデータの組を学習用データとして学習装置に与えることで、それらの学習用データにある特徴を学習し、入力から結果を推論する手法をいう。The model generation unit 113 learns a visible image corresponding to a thermal image by, for example, supervised learning according to a neural network model.
Here, supervised learning is a method of learning a feature in the learning data by giving a set of input and result (label) data to the learning device as learning data, and inferring the result from the input. To say.
ニューラルネットワークは、複数のニューロンからなる入力層、複数のニューロンからなる中間層(隠れ層)、及び、複数のニューロンからなる出力層で構成される。中間層は、一層又は二層以上でもよい。 A neural network is composed of an input layer composed of a plurality of neurons, an intermediate layer (hidden layer) composed of a plurality of neurons, and an output layer composed of a plurality of neurons. The intermediate layer may be one layer or two or more layers.
図3は、三層のニューラルネットワークの一例を示す概略図である。
図3に示されているように、三層のニューラルネットワークであれば、複数の入力値が入力層X1〜X3に入力されると、その入力値に第一の重みw11〜w16(以下、第一の重みW1ともいう)が掛けられる。入力値に第一の重みw11〜w16が掛けられた値である算出値は、中間層Y1、Y2に入力される。算出値には、第二の重みw21〜w26(以下、第二の重みW2ともいう)が掛けられ、算出値に第二の重みw21〜w26が掛けられた値である出力値が、出力層Z1〜Z3から出力される。この出力値は、第一の重みW1の値と、第二の重みW2の値とによって変わる。FIG. 3 is a schematic view showing an example of a three-layer neural network.
As shown in FIG. 3, in the case of a three-layer neural network, when a plurality of input values are input to the input layers X1 to X3, the first weights w11 to w16 (hereinafter referred to as the third) are added to the input values. (Also called one weight W1) is multiplied. The calculated value, which is the value obtained by multiplying the input value by the first weights w11 to w16, is input to the intermediate layers Y1 and Y2. The calculated value is multiplied by the second weights w21 to w26 (hereinafter, also referred to as the second weight W2), and the output value obtained by multiplying the calculated value by the second weights w21 to w26 is the output layer. It is output from Z1 to Z3. This output value changes depending on the value of the first weight W1 and the value of the second weight W2.
本実施の形態において、ニューラルネットワークは、学習側データ取得部112によって取得される学習用データで示される熱画像及び可視画像の組み合せに基づいて作成される学習用データに従って、いわゆる教師あり学習により、熱画像に対応する最適な可視画像を推論するための学習済モデルを学習する。 In the present embodiment, the neural network is subjected to so-called supervised learning according to the learning data created based on the combination of the thermal image and the visible image represented by the learning data acquired by the learning side data acquisition unit 112. Learn a trained model to infer the optimal visible image for the thermal image.
すなわち、ニューラルネットワークは、入力層に熱画像を入力して出力層から出力された結果が、正解としての可視画像に近づくように第一の重みW1及び第二の重みW2を調整することで、学習済モデルを学習する。 That is, the neural network inputs the thermal image to the input layer and adjusts the first weight W1 and the second weight W2 so that the result output from the output layer approaches the visible image as the correct answer. Learn the trained model.
図4は、熱画像を可視画像へ変換する画像変換処理の学習済モデルの構造の一例を示す概略図である。
図4に示されている学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとが対称構造となっており、スキップコネクションで接続されたU−Net構造を有している。FIG. 4 is a schematic view showing an example of the structure of a trained model of an image conversion process for converting a thermal image into a visible image.
In the trained model shown in FIG. 4, the layer of the decoder portion and the layer of the encoder portion have a symmetrical structure, and have a U-Net structure connected by a skip connection.
図2に戻り、学習側学習済モデル記憶部114は、モデル生成部113から与えられた学習済モデルである学習側学習済モデルを記憶する。
Returning to FIG. 2, the learning-side learned
学習側通信部115は、学習側学習済モデル記憶部114に記憶されている学習側学習済モデルを姿勢推定装置130に送る。
The learning
以上に記載された学習装置110は、図4に示されているようなコンピュータ160で実現することができる。
図5は、コンピュータ160の構成を概略的に示すブロック図である。
コンピュータ160は、通信装置161と、補助記憶装置162と、メモリ163と、プロセッサ164とを備える。The learning device 110 described above can be realized by a
FIG. 5 is a block diagram schematically showing the configuration of the
The
通信装置161は、例えば、ネットワークを介してデータを通信する。
補助記憶装置162は、コンピュータ160での処理に必要なデータ及びプログラムを記憶する。
メモリ163は、プログラム及びデータを一時的に記憶し、プロセッサ164の作業領域を提供する。
プロセッサ164は、補助記憶装置162に記憶されているプログラムをメモリ163に読み出し、そのプログラムを実行することで、コンピュータ160での処理を実行する。The
The
The
以上に記載された、学習側入力部111及び学習側通信部115は、通信装置161により実現することができる。
学習側学習済モデル記憶部114は、補助記憶装置162により実現することができる。The learning
The learned
学習側データ取得部112及びモデル生成部113は、プロセッサ164が、メモリ163に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
The learning side data acquisition unit 112 and the model generation unit 113 can be realized by the
図6は、学習装置110が学習する処理を示すフローチャートである。
まず、学習側データ取得部112は、学習側入力部111を介して、学習用データを取得する(S10)。ここでは、学習用データとして用いられる、熱画像の画像データである熱画像データ及び可視画像の画像データである可視画像データが同時に取得されるものとしているが、実施の形態1はこのような例に限定されない。熱画像データと、その熱画像データの正解として用いられる可視画像データとを関連付けることができれば、これらは別のタイミングで取得されてもよい。取得された学習用データは、モデル生成部113に与えられる。FIG. 6 is a flowchart showing a process of learning by the learning device 110.
First, the learning side data acquisition unit 112 acquires learning data via the learning side input unit 111 (S10). Here, it is assumed that the thermal image data, which is the image data of the thermal image, and the visible image data, which is the image data of the visible image, which are used as the training data, are acquired at the same time, and the first embodiment is such an example. Not limited to. If the thermal image data can be associated with the visible image data used as the correct answer for the thermal image data, they may be acquired at different timings. The acquired learning data is given to the model generation unit 113.
次に、モデル生成部113は、学習用データで示される熱画像及び可視画像の組み合わせに基づいて、いわゆる教師あり学習により、熱画像に対応する出力である可視画像を学習し、学習済モデルを生成する(S11)。 Next, the model generation unit 113 learns the visible image, which is the output corresponding to the thermal image, by so-called supervised learning based on the combination of the thermal image and the visible image shown in the training data, and obtains the trained model. Generate (S11).
次に、学習側学習済モデル記憶部114は、生成された学習モデルを記憶する(S12)。そして、学習側通信部115は、その学習モデルを姿勢推定装置130に送信する。
Next, the learning side learned
図7は、姿勢推定装置130の構成を概略的に示すブロック図である。
姿勢推定装置130は、推論装置140と、姿勢推定部として機能する姿勢推定実行装置150とを備える。FIG. 7 is a block diagram schematically showing the configuration of the
The
推論装置140は、学習装置110から与えられる学習済モデルを推論側学習モデルとして用いて、熱画像から可視画像を推論する。
推論装置140は、推論側通信部141と、推論側学習済モデル記憶部142と、推論側入力部143と、推論側データ取得部144と、推論部145とを備える。The
The
推論側通信部141は、学習装置110からの学習済モデルを受信して、その学習済モデルを推論側学習済モデルとして、推論側学習済モデル記憶部142に記憶させる。
推論側学習済モデル記憶部142は、推論側学習済モデルを記憶する記憶部である。The inference
The inference side trained
推論側入力部143は、被写体の熱画像を示す熱画像データの入力を受け付ける入力部である。ここで入力される熱画像データを対象熱画像データともいう。また、対象熱画像データで示される熱画像を対象熱画像ともいい、対象熱画像に含まれている、姿勢を推定する対象である被写体を対象被写体ともいう。
推論側データ取得部144は、推論側入力部143を介して、対象熱画像データを取得するデータ取得部である。取得された対象熱画像データは、推論部145に与えられる。The inference
The inference side
推論部145は、推論側学習済モデル記憶部142に記憶されている推論側学習済モデルを用いて、対象熱画像データで示される熱画像から、対象被写体の可視画像を推論する。言い換えると、推論部145は、推論側学習済モデルに、対象熱画像データで示される熱画像を入力することで、その熱画像から推論される、その熱画像に対応する可視画像を取得することができる。そして、推論部145は、推論された可視画像を示す可視画像データを生成し、その可視画像データを姿勢推定実行装置150に与える。ここで生成される可視画像データを、対象可視画像データともいう。また、対象可視画像データで示される可視画像、言い換えると、推論された可視画像を対象可視画像ともいう。
The
姿勢推定実行装置150は、対象可視画像データで示される可視画像から、その可視画像中に存在する被写体の姿勢を推定する。姿勢を推定する方法としては、予め可視画像と、人物の姿勢(例えば、パーツの位置関係)の対応関係を大量に学習しておき、可視画像が入力されたら、その可視画像に対応する人物の姿勢を学習結果に基づいて決定する、といった方法がある。
The posture
以上に記載された姿勢推定装置130も、図5に示されているようなコンピュータ160で実現することができる。
例えば、推論側通信部141及び推論側入力部143は、通信装置161により実現することができる。
推論側学習済モデル記憶部142は、補助記憶装置162により実現することができる。The
For example, the inference
The inference side learned
推論側データ取得部144及び推論部145は、プロセッサ164が、メモリ163に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
The inference side
図8は、姿勢推定装置130が、熱画像に対応する可視画像を推論し、その可視画像から姿勢を推定する処理を示すフローチャートである。
まず、推論側データ取得部144は、推論側入力部143を介して、熱画像を示す対象熱画像データを取得する(S20)。取得された対象熱画像データは、推論部145に与えられる。FIG. 8 is a flowchart showing a process in which the
First, the inference side
次に、推論部145は、推論側学習済モデル記憶部142に記憶された推論側学習済モデルに、対象熱画像データで示される熱画像を入力し、その熱画像に対応する可視画像を得る(S21)。
Next, the
次に、推論部145は、推論側学習済モデルにより得られた、熱画像に対応する可視画像を示す対象可視画像データを生成し、その対象可視画像データを姿勢推定実行装置150に与える(S22)。
Next, the
次に、姿勢推定実行装置150は、対象可視画像データで示される可視画像中の被写体の姿勢を推定する(S23)。このようにして推定された姿勢に基づき、例えば、熱画像内に写る被写体の異常行動を検出することができる。
Next, the posture
以上のように、実施の形態1に係る姿勢推定システム100によれば、熱画像センサ等から出力される熱画像を可視画像へ変換し、学習済の可視画像向け姿勢推定器である姿勢推定実行装置150を用いて熱画像中の被写体の姿勢を推定することができる。このため、既存の学習済みの可視画像向け姿勢推定器を用いて、姿勢推定をすることが可能になる。
As described above, according to the attitude estimation system 100 according to the first embodiment, the thermal image output from the thermal image sensor or the like is converted into a visible image, and the attitude estimation execution which is the learned attitude estimator for the visible image is executed. The orientation of the subject in the thermal image can be estimated using the
また、熱画像向けの姿勢推定器を用いる場合は、熱画像と姿勢との関係を学習させる必要があり、熱画像への姿勢のアノテーション作業が必要となる。熱画像への人手でのアノテーション作業では、熱画像の解像度の不足から十分な精度で実施できない。実施の形態1では、熱画像向けの姿勢推定器を用いる必要がないため、これらの課題を回避することができる。 Further, when a posture estimator for a thermal image is used, it is necessary to learn the relationship between the thermal image and the posture, and it is necessary to annotate the posture to the thermal image. Manual annotation work on the thermal image cannot be performed with sufficient accuracy due to the lack of resolution of the thermal image. In the first embodiment, it is not necessary to use the posture estimator for the thermal image, so that these problems can be avoided.
なお、実施の形態1では、モデル生成部113が用いる学習アルゴリズムに教師あり学習を適用した場合について説明したが、実施の形態1はこのような例に限定されない。例えば、学習アルゴリズムについては、教師あり学習以外にも、強化学習、教師なし学習又は半教師あり学習等を使用することができる。 In the first embodiment, the case where supervised learning is applied to the learning algorithm used by the model generation unit 113 has been described, but the first embodiment is not limited to such an example. For example, as a learning algorithm, reinforcement learning, unsupervised learning, semi-supervised learning, or the like can be used in addition to supervised learning.
また、モデル生成部113は、姿勢推定装置130を含む複数の姿勢推定装置に対して作成される学習用データに従って、熱画像に対応する可視画像を学習するようにしてもよい。なお、モデル生成部113は、同一のエリアで使用される複数の姿勢推定装置から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の姿勢推定装置から収集される学習用データを利用して熱画像に対応する可視画像を学習してもよい。
Further, the model generation unit 113 may learn the visible image corresponding to the thermal image according to the learning data created for the plurality of posture estimation devices including the
また、モデル生成部113は、学習用データを収集する姿勢推定装置を途中で対象に追加したり、対象から除去したりすることも可能である。
さらに、モデル生成部113は、ある姿勢推定装置に関して熱画像に対応する可視画像を学習した学習済モデルを、これとは別の姿勢推定装置に適用し、その別の姿勢推定装置に関して熱画像に対応する可視画像を再学習して、学習済モデルを更新するようにしてもよい。Further, the model generation unit 113 can add or remove the posture estimation device for collecting learning data to the target on the way.
Further, the model generation unit 113 applies the trained model in which the visible image corresponding to the thermal image is learned for one posture estimation device to another posture estimation device, and applies the trained model to another posture estimation device for the thermal image. The corresponding visible image may be retrained to update the trained model.
また、モデル生成部113に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもできる。また、モデル生成部113は、他の公知の方法、例えば、遺伝的プログラミング、機能論理プログラミング、又は、サポートベクターマシン等に従って機械学習を実行してもよい。 Further, as the learning algorithm used in the model generation unit 113, deep learning, which learns the extraction of the feature amount itself, can also be used. In addition, the model generation unit 113 may execute machine learning according to other known methods such as genetic programming, functional logic programming, or a support vector machine.
なお、学習装置110及び推論装置140は、姿勢推定システム100の熱画像に対応する可視画像を学習するために使用されるが、例えば、ネットワークを介して姿勢推定実行装置150に接続されるようになっていてもよい。
また、学習装置110、推論装置140又は姿勢推定実行装置150は、クラウドサーバ上に存在していてもよい。The learning device 110 and the
Further, the learning device 110, the
また、以上に記載した実施の形態1における姿勢推定システム100では、学習装置110と、姿勢推定装置130とが別の装置であるが、例えば、学習装置110が、姿勢推定装置130内に設けられていてもよい。このような場合、学習側通信部115及び推論側通信部141は、不要となり、学習側学習済モデル記憶部114及び推論側学習済モデル記憶部142は、学習済モデル記憶部として統合することができる。
Further, in the posture estimation system 100 according to the first embodiment described above, the learning device 110 and the
なお、実施の形態1に係る姿勢推定システム100では、学習装置110で生成された学習済モデルを用いて、姿勢推定装置130が熱画像に対応する可視画像を推論しているが、実施の形態はこのような例に限定されない。例えば、姿勢推定装置130は、他のシステム等の外部から学習済モデルを取得し、この学習済モデルに基づいて熱画像に対応する可視画像を推論してもよい。
In the posture estimation system 100 according to the first embodiment, the
実施の形態2.
図1に示されているように、実施の形態2に係る姿勢推定システム200は、学習装置210と、姿勢推定装置230とを備える。
As shown in FIG. 1, the posture estimation system 200 according to the second embodiment includes a learning device 210 and a
図2に示されているように、実施の形態2における学習装置210は、学習側入力部111と、学習側データ取得部212と、モデル生成部213と、学習側学習済モデル記憶部114と、学習側通信部115とを備える。
実施の形態2における学習装置210の学習側入力部111、学習側学習済モデル記憶部114及び学習側通信部115は、実施の形態1における学習装置110の学習側入力部111、学習側学習済モデル記憶部114及び学習側通信部115と同様である。As shown in FIG. 2, the learning device 210 according to the second embodiment includes a learning
The learning
学習側データ取得部212は、学習側入力部111を介して、学習用データを取得する。実施の形態2において取得される学習用データは、熱画像を示す熱画像データと、その熱画像に対応する正解である可視画像を示す可視画像データと、その可視画像に対応する正解である、被写体の姿勢を示す姿勢情報とを含む。取得された学習用データは、モデル生成部213に与えられる。
The learning side data acquisition unit 212 acquires learning data via the learning
モデル生成部213は、学習側データ取得部212から与えられる学習用データに基づいて、熱画像に対応する可視画像と、その可視画像に対応する姿勢とを学習する。言い換えると、モデル生成部213は、学習用データで示される熱画像及び可視画像の組み合わせ、並びに、可視画像及び姿勢の組み合わせを学習することで、熱画像に対応する最適な姿勢を推論するための学習済モデルを生成する。具体的には、モデル生成部113は、学習用データを用いて、熱画像から可視画像への推論及び可視画像から姿勢への推論を学習することで、熱画像から姿勢を推論するための学習済モデルを生成する。
そして、モデル生成部213は、生成された学習済モデルを学習側学習済モデルとして学習側学習済モデル記憶部114に記憶させる。The model generation unit 213 learns the visible image corresponding to the thermal image and the posture corresponding to the visible image based on the learning data given from the learning side data acquisition unit 212. In other words, the model generation unit 213 learns the combination of the thermal image and the visible image shown in the training data and the combination of the visible image and the posture to infer the optimum posture corresponding to the thermal image. Generate a trained model. Specifically, the model generation unit 113 learns to infer the posture from the thermal image by learning the inference from the thermal image to the visible image and the inference from the visible image to the posture using the training data. Generate a finished model.
Then, the model generation unit 213 stores the generated learned model as the learning side trained model in the learning side trained
図9は、実施の形態2における姿勢推定装置230の構成を概略的に示すブロック図である。
姿勢推定装置230は、推論側通信部141と、推論側学習済モデル記憶部142と、推論側入力部143と、推論側データ取得部144と、推論部245とを備える。FIG. 9 is a block diagram schematically showing the configuration of the
The
実施の形態2における姿勢推定装置230の推論側通信部141、推論側学習済モデル記憶部142、推論側入力部143及び推論側データ取得部144は、実施の形態1における姿勢推定装置130の推論側通信部141、推論側学習済モデル記憶部142、推論側入力部143及び推論側データ取得部144と同様である。
The inference
推論部245は、推論側学習済モデル記憶部142に記憶されている推論側学習済モデルを用いて、対象熱画像データで示される熱画像から、可視画像を推論し、その可視画像から姿勢を推論する。言い換えると、推論部145は、推論側学習済モデルに、対象熱画像データで示される熱画像を入力することで、その熱画像から推論される、その熱画像中に存在する被写体の姿勢を推定する。
The
以上に記載された姿勢推定装置230も、図5に示されているようなコンピュータ160で実現することができる。
例えば、推論側通信部141及び推論側入力部143は、通信装置161により実現することができる。
推論側学習済モデル記憶部142は、補助記憶装置162により実現することができる。The
For example, the inference
The inference side learned
推論側データ取得部144及び推論部245は、プロセッサ164が、メモリ163に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
The inference side
以上のように、実施の形態2に係る姿勢推定システム200によれば、熱画像センサ等から出力される熱画像から被写体の姿勢を推定することが可能になる。学習時に可視画像及び姿勢を教師データとして入力することで、熱画像への姿勢情報のアノテーション作業を回避することが可能となる。 As described above, according to the posture estimation system 200 according to the second embodiment, it is possible to estimate the posture of the subject from the thermal image output from the thermal image sensor or the like. By inputting the visible image and the posture as teacher data at the time of learning, it is possible to avoid the work of annotating the posture information on the thermal image.
更に、実施の形態1とは異なり、活用フェーズで可視画像を生成、出力しないことでネットワークの規模を抑えることができ、演算量を削減することができる。 Further, unlike the first embodiment, the scale of the network can be suppressed and the amount of calculation can be reduced by not generating and outputting the visible image in the utilization phase.
実施の形態3.
図1に示されているように、実施の形態3に係る姿勢推定システム300は、学習装置310と、姿勢推定装置330とを備える。Embodiment 3.
As shown in FIG. 1, the posture estimation system 300 according to the third embodiment includes a
図10は、学習装置310の構成を概略的に示すブロック図である。
学習装置310は、学習側入力部111と、学習側データ取得部312と、モデル生成部313と、学習側学習済モデル記憶部114と、学習側通信部115と、学習側輪郭抽出部316とを備える。FIG. 10 is a block diagram schematically showing the configuration of the
The
実施の形態3における学習装置310の学習側入力部111、学習側学習済モデル記憶部114及び学習側通信部115は、実施の形態1における学習装置110の学習側入力部111、学習側学習済モデル記憶部114及び学習側通信部115と同様である。
The learning
学習側データ取得部312は、学習側入力部111を介して、学習用データを取得する。取得された学習用データは、モデル生成部313に与えられる。
また、学習側データ取得部312は、取得された学習用データに含まれている熱画像を示す熱画像データを学習側熱画像データとして学習側輪郭抽出部316に与える。The learning side
Further, the learning side
学習側輪郭抽出部316は、学習側熱画像データで示される熱画像から、被写体の輪郭を示す輪郭画像を抽出する輪郭抽出部である。抽出方法は、キャニー法若しくはソーベル法等のエッジ検出処理を用いる方法、又は、二値化処理とエッジ検出を組み合わせる方法等がある。エッジ検出処理では、被写体のエッジが検出される。また、二値化処理とエッジ検出の組み合わせは、熱画像に対して二値化処理を行ってから、エッジ検出処理が行われればよい。そして、学習側輪郭抽出部316は、抽出された輪郭画像を示す輪郭画像データを、学習側輪郭画像データとしてモデル生成部313に与える。
The learning side
モデル生成部313は、学習側データ取得部312から与えられる学習用データ及び学習側輪郭抽出部316から与えられる学習側輪郭画像データに基づいて、熱画像に対応する可視画像を学習する。言い換えると、モデル生成部313は、学習用データで示される熱画像及び学習側輪郭画像データで示される輪郭画像と、学習用データで示される可視画像との組み合わせを学習することで、熱画像及びその輪郭画像に対応する最適な可視画像を推論するための学習済モデルを生成する。具体的には、モデル生成部313は、熱画像及び輪郭画像の組み合わせから可視画像への推論を学習することで、熱画像及び輪郭画像の組み合わせから可視画像を推論するための学習済モデルを生成する。
そして、モデル生成部313は、生成された学習済モデルを学習側学習済モデルとして学習側学習済モデル記憶部114に記憶させる。The
Then, the
図11は、実施の形態3における、熱画像及び輪郭画像を可視画像へ変換する画像変換処理の学習済モデルの構造の一例を示す概略図である。
図11に示されている学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとが対称構造となり、スキップコネクションで接続されたU−Net構造を有している。そのデコーダー部分は、並列の二つのパスを備えており、その二つのパスは、熱画像をデコードするためのパスと、輪郭画像をデコードするためのパスである。FIG. 11 is a schematic view showing an example of the structure of the trained model of the image conversion process for converting the thermal image and the contour image into the visible image in the third embodiment.
The trained model shown in FIG. 11 has a U-Net structure in which the layer of the decoder portion and the layer of the encoder portion have a symmetrical structure and are connected by a skip connection. The decoder portion has two parallel paths, one for decoding the thermal image and the other for decoding the contour image.
これにより、図11に示されている学習済モデルは、デコーダー部分が並列で2パス存在し、一方は熱画像を、もう一方は輪郭画像のデコードを行う。モデルの中央のレイヤーでデコードされた2つのベクトル情報が連結され、連結された情報がエンコーダー部分へ入力される。
このような構造を有することで、実施の形態3では、熱画像から変換された可視画像にエッジ成分がより多く含まれ、姿勢推定の精度を向上させることができる。As a result, in the trained model shown in FIG. 11, the decoder portion has two paths in parallel, one of which decodes the thermal image and the other of which decodes the contour image. The two vector information decoded in the center layer of the model is concatenated, and the concatenated information is input to the encoder part.
By having such a structure, in the third embodiment, the visible image converted from the thermal image contains a larger amount of edge components, and the accuracy of posture estimation can be improved.
以上に記載された学習装置310も、図5に示されているようなコンピュータ160で実現することができる。
例えば、学習側データ取得部312、モデル生成部313及び学習側輪郭抽出部316も、プロセッサ164が、メモリ163に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。The
For example, the learning side
図12は、姿勢推定装置330の構成を概略的に示すブロック図である。
姿勢推定装置330は、推論装置340と、姿勢推定実行装置150とを備える。
実施の形態3における姿勢推定装置330の姿勢推定実行装置150は、実施の形態1における姿勢推定実行装置150と同様である。FIG. 12 is a block diagram schematically showing the configuration of the
The
The posture
推論装置340は、推論側通信部141と、推論側学習済モデル記憶部142と、推論側入力部143と、推論側データ取得部344と、推論部345と、推論側輪郭抽出部346とを備える。
実施の形態3における推論装置340の推論側通信部141、推論側学習済モデル記憶部142及び推論側入力部143は、実施の形態1における推論装置140の推論側通信部141、推論側学習済モデル記憶部142及び推論側入力部143と同様である。The
The inference
推論側データ取得部144は、推論側入力部143を介して、対象熱画像データを取得する。そして、推論側データ取得部144は、取得された対象熱画像データを、推論部345及び推論側輪郭抽出部346に与える。
The inference side
推論側輪郭抽出部346は、対象熱画像データで示される熱画像から輪郭画像を抽出する輪郭抽出部である。抽出方法は、学習側輪郭抽出部316と同一とする。そして、推論側輪郭抽出部346は、抽出された輪郭画像を示す輪郭画像データを、推論側輪郭画像データとして推論部345に与える。ここで抽出される輪郭画像を対象輪郭画像ともいい、推論側輪郭画像データを対象輪郭画像データともいう。
The inference side
推論部345は、推論側学習済モデル記憶部142に記憶されている推論側学習済モデルを用いて、対象熱画像データで示される熱画像及び推論側輪郭画像データで示される輪郭画像の組み合わせから、可視画像を推論する。言い換えると、推論部345は、推論側学習済モデルに、対象熱画像データで示される熱画像及び推論側輪郭画像データで示される輪郭画像を入力することで、その熱画像から推論される、その熱画像に対応する可視画像を取得することができる。そして、推論部345は、推論された可視画像を示す可視画像データを生成し、その可視画像データを姿勢推定実行装置150に与える。ここで生成される可視画像データを、対象可視画像データともいう。対象可視画像データで示される可視画像を対象可視画像ともいう。
The
以上に記載された姿勢推定装置330も、図5に示されているようなコンピュータ160で実現することができる。
例えば、推論側データ取得部344、推論部345及び推論側輪郭抽出部346は、プロセッサ164が、メモリ163に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。The
For example, the inference side
一般的に、熱画像は、曖昧な輪郭情報を有するため、学習済モデルを用いて生成される可視画像も曖昧な輪郭となる。姿勢の推定では輪郭情報が重要となるため、輪郭が曖昧な画像では姿勢推定の精度が低下する。
これに対して、実施の形態3に係る姿勢推定システム300によれば、熱画像と輪郭画像とを学習済モデルへ同時に入力することで、輪郭が曖昧ではない可視画像を生成することができる。これにより熱画像単体を学習済モデルへ入力することと比較して、生成された可視画像からの姿勢推定精度を向上させることができる。In general, since the thermal image has ambiguous contour information, the visible image generated by using the trained model also has an ambiguous contour. Since contour information is important for posture estimation, the accuracy of posture estimation is reduced for images with ambiguous contours.
On the other hand, according to the posture estimation system 300 according to the third embodiment, by simultaneously inputting the thermal image and the contour image into the trained model, it is possible to generate a visible image in which the contour is not ambiguous. As a result, the attitude estimation accuracy from the generated visible image can be improved as compared with inputting the thermal image alone into the trained model.
100,200,300 姿勢推定システム、 110,210,310 学習装置、 111 学習側入力部、 112,212,312 学習側データ取得部、 113,213,313 モデル生成部、 114 学習側学習済モデル記憶部、 115 学習側通信部、 316 学習側輪郭抽出部、 130,230,330 姿勢推定装置、 140,340 推論装置、 141 推論側通信部、 142 推論側学習済モデル記憶部、 143 推論側入力部、 144,344 推論側データ取得部、 145,245,345 推論部、 346 推論側輪郭抽出部、 150 姿勢推定実行装置。 100,200,300 posture estimation system, 110,210,310 learning device, 111 learning side input unit, 112,212,312 learning side data acquisition unit, 113,213,313 model generation unit, 114 learning side learned model storage Unit, 115 Learning side communication unit, 316 Learning side contour extraction unit, 130, 230, 330 Attitude estimation device, 140, 340 Inference device, 141 Inference side communication unit, 142 Inference side trained model storage unit, 143 Inference side input unit , 144,344 Inference side data acquisition unit, 145,245,345 Inference unit, 346 Inference side contour extraction unit, 150 Attitude estimation execution device.
Claims (14)
前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出する輪郭抽出部と、
前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成するモデル生成部と、を備え、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とする学習装置。 Includes a thermal image that images the temperature distribution of the subject by using infrared rays radiated from the subject, and a visible image that images the subject by using visible light reflected from the subject. A data acquisition unit that acquires training data,
A contour extraction unit that extracts a contour image showing the contour of the subject from the thermal image,
A model generation unit that generates a trained model for inferring the visible image from the combination of the thermal image and the contour image by learning inference from the combination of the thermal image and the contour image to the visible image. With ,
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The learning device, characterized in that the two paths are a path for decoding the thermal image and a path for decoding the contour image .
を特徴とする請求項1に記載の学習装置。 The learned model, a layer of the decoder portion, and layers of the encoder portion becomes symmetrical structure, according to claim 1, characterized in that it has a connected U-Net structure skip connection Learning device.
を特徴とする請求項2に記載の学習装置。2. The learning device according to claim 2.
を特徴とする請求項1から3の何れか一項に記載の学習装置。 The learning device according to any one of claims 1 to 3, wherein the contour extraction unit extracts the contour image from the thermal image by an edge detection process for detecting the edge of the subject.
を特徴とする請求項1から3の何れか一項に記載の学習装置。 Claims 1 to 3, wherein the contour extraction unit extracts the contour image from the thermal image by performing a binarization process on the thermal image and then performing an edge detection process . The learning device according to any one item .
対象となる被写体である対象被写体の熱画像である対象熱画像を示す対象熱画像データを取得するデータ取得部と、
前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出する輪郭抽出部と、
前記学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論する推論部と、
前記対象可視画像から、前記対象被写体の姿勢を推定する姿勢推定部と、を備え、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とする活用装置。 Includes a thermal image that images the temperature distribution of the subject by using infrared rays emitted from the subject, and a visible image that images the subject by using the visible light reflected from the subject. Using the training data and the contour image data showing the contour image showing the contour of the subject extracted from the thermal image, the inference from the combination of the thermal image and the contour image to the visible image is learned. A storage unit that stores a trained model for inferring the visible image from the combination of the thermal image and the contour image generated by the above.
A data acquisition unit that acquires target thermal image data indicating a target thermal image that is a thermal image of the target subject that is the target subject, and a data acquisition unit.
A contour extraction unit that extracts a target contour image, which is a contour image showing the contour of the target subject, from the target thermal image.
An inference unit that infers a target visible image, which is a visible image of the target subject, from a combination of the target thermal image and the target contour image using the trained model.
A posture estimation unit that estimates the posture of the target subject from the target visible image is provided .
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The utilization device, characterized in that the two paths are a path for decoding the thermal image and a path for decoding the contour image .
を特徴とする請求項6に記載の活用装置。 The learned model, a layer of the decoder portion, and layers of the encoder portion becomes symmetrical structure, according to claim 6, characterized in that it has a connected U-Net structure skip connection Utilization device.
を特徴とする請求項7に記載の活用装置。7. The utilization device according to claim 7.
を特徴とする請求項6から8の何れか一項に記載の活用装置。 The utilization device according to any one of claims 6 to 8, wherein the contour extraction unit extracts the contour image from the thermal image by an edge detection process.
を特徴とする請求項6から8の何れか一項に記載の活用装置。 Claims 6 to 8, wherein the contour extraction unit extracts the contour image from the thermal image by performing a binarization process on the thermal image and then performing an edge detection process . Utilization device according to any one item .
被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データを取得するデータ取得部、
前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出する輪郭抽出部、及び、
前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成するモデル生成部、として機能させ、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とするプログラム。 Computer,
Includes a thermal image that images the temperature distribution of the subject by using infrared rays radiated from the subject, and a visible image that images the subject by using visible light reflected from the subject. Data acquisition unit that acquires training data,
A contour extraction unit that extracts a contour image showing the contour of the subject from the thermal image, and a contour extraction unit.
A model generation unit that generates a trained model for inferring the visible image from the combination of the thermal image and the contour image by learning the inference from the combination of the thermal image and the contour image to the visible image. to function as,
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The two paths are a program for decoding the thermal image and a path for decoding the contour image .
被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データ、及び、前記熱画像から抽出された、前記被写体の輪郭を示す輪郭画像を示す輪郭画像データを用いて、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで生成された、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを記憶する記憶部、
対象となる被写体である対象被写体の熱画像である対象熱画像を示す対象熱画像データを取得するデータ取得部、
前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出する輪郭抽出部、
前記学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論する推論部、及び、
前記対象可視画像から、前記対象被写体の姿勢を推定する姿勢推定部、として機能させ、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とするプログラム。 Computer,
It includes a thermal image that images the temperature distribution of the subject by using infrared rays emitted from the subject and a visible image that images the subject by using the visible light reflected from the subject. Using the training data and the contour image data showing the contour image showing the contour of the subject extracted from the thermal image, the inference from the combination of the thermal image and the contour image to the visible image is learned. A storage unit that stores a trained model for inferring the visible image from the combination of the thermal image and the contour image generated by the above.
A data acquisition unit that acquires target thermal image data indicating a target thermal image that is a thermal image of the target subject that is the target subject.
A contour extraction unit that extracts a target contour image, which is a contour image showing the contour of the target subject, from the target thermal image.
An inference unit that infers a target visible image, which is a visible image of the target subject, from a combination of the target thermal image and the target contour image using the trained model, and
It functions as a posture estimation unit that estimates the posture of the target subject from the target visible image .
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The two paths are a program for decoding the thermal image and a path for decoding the contour image .
前記熱画像から前記被写体の輪郭を示す輪郭画像を抽出し、
前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを生成する学習方法であって、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とする学習方法。 Includes a thermal image that images the temperature distribution of the subject by using infrared rays radiated from the subject, and a visible image that images the subject by using visible light reflected from the subject. Get training data,
A contour image showing the contour of the subject is extracted from the thermal image,
It is a learning method for generating a trained model for inferring the visible image from the combination of the thermal image and the contour image by learning the inference from the combination of the thermal image and the contour image to the visible image. hand,
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The learning method , wherein the two paths are a path for decoding the thermal image and a path for decoding the contour image .
前記対象熱画像から前記対象被写体の輪郭を示す輪郭画像である対象輪郭画像を抽出し、
被写体から放射される赤外線を利用することで、前記被写体の温度分布を画像化した熱画像と、前記被写体から反射される可視光を利用することで、前記被写体を画像化した可視画像とを含む学習用データ、及び、前記熱画像から抽出された、前記被写体の輪郭を示す輪郭画像を示す輪郭画像データを用いて、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像への推論を学習することで生成された、前記熱画像及び前記輪郭画像の組み合わせから前記可視画像を推論するための学習済モデルを用いて、前記対象熱画像及び前記対象輪郭画像の組み合わせから、前記対象被写体の可視画像である対象可視画像を推論し、
前記対象可視画像から、前記対象被写体の姿勢を推定する活用方法であって、
前記学習済モデルは、デコーダー部分のレイヤーと、エンコーダー部分のレイヤーとで形成され、前記デコーダー部分が並列の二つのパスを備えており、
前記二つのパスは、前記熱画像をデコードするためのパスと、前記輪郭画像をデコードするためのパスであること
を特徴とする活用方法。 Acquires the target thermal image data indicating the target thermal image which is the thermal image of the target subject which is the target subject.
A target contour image, which is a contour image showing the contour of the target subject, is extracted from the target thermal image.
It includes a thermal image that images the temperature distribution of the subject by using infrared rays emitted from the subject and a visible image that images the subject by using the visible light reflected from the subject. Using the training data and the contour image data showing the contour image showing the contour of the subject extracted from the thermal image, the inference from the combination of the thermal image and the contour image to the visible image is learned. Using the trained model for inferring the visible image from the combination of the thermal image and the contour image generated by the above, the visible image of the target subject is obtained from the combination of the target thermal image and the target contour image. Infer the target visible image that is
It is a utilization method of estimating the posture of the target subject from the target visible image.
The trained model is formed by a layer of a decoder part and a layer of an encoder part, and the decoder part has two paths in parallel.
The utilization method, characterized in that the two paths are a path for decoding the thermal image and a path for decoding the contour image .
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/027027 WO2022009419A1 (en) | 2020-07-10 | 2020-07-10 | Learning device, utilization device, program, learning method, and utilization method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6797344B1 true JP6797344B1 (en) | 2020-12-09 |
JPWO2022009419A1 JPWO2022009419A1 (en) | 2022-01-13 |
Family
ID=73646788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020552066A Active JP6797344B1 (en) | 2020-07-10 | 2020-07-10 | Learning device, utilization device, program, learning method and utilization method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6797344B1 (en) |
WO (1) | WO2022009419A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11836825B1 (en) * | 2022-05-23 | 2023-12-05 | Dell Products L.P. | System and method for detecting postures of a user of an information handling system (IHS) during extreme lighting conditions |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008286725A (en) * | 2007-05-21 | 2008-11-27 | Mitsubishi Electric Corp | Person detector and detection method |
JP2011091523A (en) * | 2009-10-21 | 2011-05-06 | Victor Co Of Japan Ltd | Shape recognition method and shape recognition device |
JP2017220779A (en) * | 2016-06-07 | 2017-12-14 | オムロン株式会社 | Display control device, display control system, display control method, display control program, and recording medium |
JP2019003554A (en) * | 2017-06-19 | 2019-01-10 | コニカミノルタ株式会社 | Image recognition device, image recognition method, and image recognition device-purpose program |
JP2019530116A (en) * | 2016-09-05 | 2019-10-17 | ケイロン メディカル テクノロジーズ リミテッド | Multimodal medical image processing |
JP2020030458A (en) * | 2018-08-20 | 2020-02-27 | 株式会社デンソーアイティーラボラトリ | Inference device, learning method, program and learned model |
-
2020
- 2020-07-10 JP JP2020552066A patent/JP6797344B1/en active Active
- 2020-07-10 WO PCT/JP2020/027027 patent/WO2022009419A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008286725A (en) * | 2007-05-21 | 2008-11-27 | Mitsubishi Electric Corp | Person detector and detection method |
JP2011091523A (en) * | 2009-10-21 | 2011-05-06 | Victor Co Of Japan Ltd | Shape recognition method and shape recognition device |
JP2017220779A (en) * | 2016-06-07 | 2017-12-14 | オムロン株式会社 | Display control device, display control system, display control method, display control program, and recording medium |
JP2019530116A (en) * | 2016-09-05 | 2019-10-17 | ケイロン メディカル テクノロジーズ リミテッド | Multimodal medical image processing |
JP2019003554A (en) * | 2017-06-19 | 2019-01-10 | コニカミノルタ株式会社 | Image recognition device, image recognition method, and image recognition device-purpose program |
JP2020030458A (en) * | 2018-08-20 | 2020-02-27 | 株式会社デンソーアイティーラボラトリ | Inference device, learning method, program and learned model |
Non-Patent Citations (1)
Title |
---|
山下隆義, イラストで学ぶ ディープラーニング 改訂第2版, vol. 改訂第2版, JPN6020029872, 19 November 2018 (2018-11-19), JP, pages 108, ISSN: 0004369059 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022009419A1 (en) | 2022-01-13 |
JPWO2022009419A1 (en) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020088588A1 (en) | Deep learning-based static three-dimensional method for detecting whether face belongs to living body | |
JP6946831B2 (en) | Information processing device and estimation method for estimating the line-of-sight direction of a person, and learning device and learning method | |
US10395103B2 (en) | Object detection method, object detection apparatus, and program | |
KR20180057096A (en) | Device and method to perform recognizing and training face expression | |
WO2018163555A1 (en) | Image processing device, image processing method, and image processing program | |
JP5886616B2 (en) | Object detection apparatus, method for controlling object detection apparatus, and program | |
JP2016163075A (en) | Video processing device, video processing method, and program | |
KR102338486B1 (en) | User Motion Recognition Method and System using 3D Skeleton Information | |
JP5001930B2 (en) | Motion recognition apparatus and method | |
JP2012059030A (en) | Human body identification method and human body identification apparatus using range image camera | |
JP2009230703A (en) | Object detection method, object detection device, and object detection program | |
JP2016091566A (en) | Improved data-comparison method | |
JP2019003565A (en) | Image processing apparatus, image processing method and image processing program | |
JP6797344B1 (en) | Learning device, utilization device, program, learning method and utilization method | |
JP2007304721A (en) | Image processing device and image processing method | |
JP2012103859A (en) | Image processing device, image processing method, and image processing program | |
Fosty et al. | Event recognition system for older people monitoring using an RGB-D camera | |
JP4011426B2 (en) | Face detection device, face detection method, and face detection program | |
JP6773825B2 (en) | Learning device, learning method, learning program, and object recognition device | |
JP5300795B2 (en) | Facial expression amplification device, facial expression recognition device, facial expression amplification method, facial expression recognition method, and program | |
JP5485044B2 (en) | Facial expression learning device, facial expression recognition device, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program | |
JP2009009206A (en) | Extraction method of outline inside image and image processor therefor | |
KR20210091033A (en) | Electronic device for estimating object information and generating virtual object and method for operating the same | |
WO2023119968A1 (en) | Method for calculating three-dimensional coordinates and device for calculating three-dimensional coordinates | |
JP7124746B2 (en) | Partial Object Position Estimation Program, Neural Network Structure for Partial Object Position Estimation, Partial Object Position Estimation Method, and Partial Object Position Estimation Apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200925 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200925 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200925 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6797344 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |