JP2020086869A - Image generation device, image generation method, and computer program - Google Patents
Image generation device, image generation method, and computer program Download PDFInfo
- Publication number
- JP2020086869A JP2020086869A JP2018219656A JP2018219656A JP2020086869A JP 2020086869 A JP2020086869 A JP 2020086869A JP 2018219656 A JP2018219656 A JP 2018219656A JP 2018219656 A JP2018219656 A JP 2018219656A JP 2020086869 A JP2020086869 A JP 2020086869A
- Authority
- JP
- Japan
- Prior art keywords
- image
- posture information
- posture
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、既存の画像群に類似した新規の画像を生成するための技術に関する。 The present invention relates to a technique for generating a new image similar to an existing image group.
画像を用いて人物認識を精度よく実現するためには、一般的には教師データとして大量の人物画像が必要となる。仮に特定の人物についての人物認識を実現しようとすると、その特定の人物について大量の教師データが必要となる。このように、人物認識を精度よく実現するためには、大量の教師データを取得することに膨大な労力を要していた。
このような問題に対し、近年では画像のデータオーグメンテーション技術が提案されている(例えば非特許文献1及び非特許文献2参照。)。画像のデータオーグメンテーションでは、既に取得されている教師データに基づいて、教師データに関連する新たな画像が生成される。このように新たな画像を生成することによって、教師データを増加させることが可能となる。
In order to accurately realize person recognition using images, a large amount of person images are generally required as teacher data. If it is attempted to realize person recognition for a specific person, a large amount of teacher data is required for the specific person. As described above, in order to realize person recognition with high accuracy, enormous effort was required to acquire a large amount of teacher data.
In response to such a problem, an image data augmentation technique has recently been proposed (see, for example, Non-Patent Document 1 and Non-Patent Document 2). In data augmentation of images, a new image associated with the teacher data is generated based on the teacher data that has already been acquired. By generating a new image in this way, it is possible to increase the teacher data.
しかしながら、単に教師データの量が多いだけでは、人物認識の精度向上は限定的であった。このような問題は、必ずしも画像による人物認識のみに限られた問題ではなく、画像を用いて生物又はロボットを認識する技術全般に共通する問題である。
上記事情に鑑み、本発明は、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることができる技術の提供を目的としている。
However, simply increasing the amount of teacher data has limited the improvement in the accuracy of person recognition. Such a problem is not limited to the person recognition based on an image, but is a problem common to all techniques for recognizing a living thing or a robot using an image.
In view of the above circumstances, an object of the present invention is to provide a technique capable of improving the recognition accuracy by generating a new image, as opposed to the technique of recognizing a living thing or a robot using an image.
本発明の一態様は、特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成部、を備え、前記画像生成部は、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成装置である。 One aspect of the present invention is that each image of a sub-learning image group, which is a group of a plurality of images of a specific subject that is a common subject satisfying a specific criterion, and An image generation unit that newly generates an image of the specific subject based on parameters of an image generator obtained by performing a learning process using a combination of posture information of the specific subject as teacher data. The image generation unit is an image generation device that uses the given posture information to generate an image in which the specific subject has the posture indicated by the posture information.
本発明の一態様は、上記の画像生成装置であって、選択の候補となる姿勢情報を複数記憶する記憶部と、前記記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択部をさらに備え、前記画像生成部は、前記姿勢情報選択部によって選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する。 One embodiment of the present invention is the above-described image generation device, wherein a storage unit that stores a plurality of pieces of posture information that are candidates for selection, the posture information that is read from the storage unit, and a candidate for the posture information that has been read out The image generation unit may further include a posture information selection unit that selects posture information indicating a posture that is dissimilar to the posture of the specific subject in the sub-learning image group from a predetermined reference. The image is generated by using the posture information selected by the information selection unit as the given posture information.
本発明の一態様は、上記の画像生成装置であって、前記サブ学習画像群において、前記特定被写体の姿勢を示す情報である姿勢情報を画像毎に取得する姿勢情報取得部をさらに備え、前記姿勢情報選択部は、前記姿勢情報取得部によって取得された姿勢情報を選択の候補として使用する。 One aspect of the present invention is the image generation device described above, further comprising a posture information acquisition unit that acquires, for each image, posture information that is information indicating the posture of the specific subject in the sub-learning image group, The posture information selection unit uses the posture information acquired by the posture information acquisition unit as a selection candidate.
本発明の一態様は、特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成ステップ、を有し、前記画像生成ステップにおいて、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成方法である。 One aspect of the present invention is that each image of a sub-learning image group, which is a group of a plurality of images of a specific subject that is a common subject satisfying a specific criterion, and Based on the parameters of the image generator obtained by performing a learning process using a combination of posture information of the specific subject as teacher data, an image generating step of newly generating the image of the specific subject, In the image generating step, an image generating method is used, in which the given subject information is used to generate an image in which the specific subject has the posture indicated by the posture information.
本発明の一態様は、上記の画像生成装置としてコンピューターを機能させるためのコンピュータープログラムである。 One aspect of the present invention is a computer program for causing a computer to function as the above-described image generation device.
本発明により、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることが可能となる。 According to the present invention, it is possible to improve the recognition accuracy by generating a new image as compared with the technique of recognizing a living thing or a robot using an image.
以下、本発明の具体的な構成例について、図面を参照しながら説明する。
図1は、本発明の画像生成装置10の構成例を示す概略ブロック図である。画像生成装置10は、パーソナルコンピューターやサーバーやワークステーション等の情報処理装置を用いて構成される。画像生成装置10は、画像入力部11、画像出力部12、指示入力部13、姿勢情報記憶部14、姿勢情報生成器記憶部15、画像生成器記憶部16及び制御部17を備える。以下、画像生成装置10について説明する。
Hereinafter, a specific configuration example of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing a configuration example of an
画像入力部11は、画像生成装置10に対して入力される学習画像群のデータを受け付ける。学習画像群は、既に得られている複数の画像の一群である。学習画像群は、1又は複数のサブ学習画像群を含んでもよい。サブ学習画像群は、特定の基準を満たした共通の被写体(以下「特定被写体」という。)が写った複数の画像の一群である。特定の基準とは、例えば特定の人物であることでもよいし、特定の種目の選手であることでもよいし、特定の属性(性別、年齢、人種など)の人物であることでもよいし、特定の種の生物であることでもよいし、特定の種類のロボットであることでもよい。また、特定の基準とは、特定の人物であって、且つ、特定の服を着用していることであってもよい。また、特定の基準とは、特定の人物であって、且つ、特定の動作(例えば、特定の種目の運動、特定の種別の行動)をしていることであってもよい。例えば、ある特定の選手がバスケットボールをしている姿が被写体として映った複数の画像の一群がサブ学習画像群として形成されてもよい。
The
画像入力部11は、有線通信や無線通信を介したデータ通信を行うことによって他の装置から学習画像群のデータを受信してもよい。この場合、画像入力部11は、通信インターフェースを用いて構成されてもよい。画像入力部11は、例えばCD−ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に記録された学習画像群のデータを記録媒体から読み出してもよい。この場合、画像入力部11は、CD−ROMドライブや、USBインターフェース等の装置を用いて構成されてもよい。画像入力部11は、スチルカメラやビデオカメラによって撮像された学習画像群を、カメラから受信してもよい。この場合、画像入力部11は、カメラとデータ通信可能な通信プロトコルのインターフェースを用いて構成されてもよい。また、画像生成装置10がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置(スマートフォン等)に内蔵されている場合は、画像入力部11は撮像された画像又は撮像前の画像をバスから受信してもよい。画像入力部11は、学習画像群のデータの入力を受けることが可能な構成であれば、どのような態様で構成されてもよい。また、画像入力部11に入力される時点で既に各画像が学習画像群を形成している必要は無く、複数の画像がそれぞれ入力されることによって結果として学習画像群が画像生成装置10に入力されてもよい。
The
画像出力部12は、制御部17によって生成された画像のデータを出力する。画像出力部12は、有線通信や無線通信を介したデータ通信を行うことによって他の装置(例えば他の情報処理装置や他の記憶装置)に対して画像を送信してもよい。この場合、画像出力部12は、通信インターフェースを用いて構成されてもよい。画像出力部12は、例えばDVD−ROMやUSBメモリー等の記録媒体に対して画像を記録してもよい。この場合、画像出力部12は、DVD−Rドライブや、USBインターフェース等の装置を用いて構成されてもよい。画像出力部12は、画像生成装置10に備えられた記憶装置に画像を記録してもよい。画像出力部12は、画像のデータを出力することが可能な構成であれば、どのような態様で構成されても良い。
The
指示入力部13は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の既存の入力装置を用いて構成されてもよい。この場合、指示入力部13は、ユーザーの指示を画像生成装置10に入力する際にユーザーによって操作される。上述した入力装置は、音声入力を受け付けるためのマイク及び音声認識装置を用いて構成されてもよい。指示入力部13は、入力装置を画像生成装置10に接続するためのインターフェースであってもよい。この場合、指示入力部13は、入力装置においてユーザーの入力に応じ生成された入力信号を画像生成装置10に入力する。指示入力部13は、有線通信や無線通信を介したデータ通信を行うことによって他の装置からユーザーの指示を受信してもよい。この場合、指示入力部13は、通信インターフェースを用いて構成されてもよい。
The
姿勢情報記憶部14は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。姿勢情報記憶部14は、学習画像群に含まれる画像データから得られた姿勢情報を、姿勢情報が得られた画像を示す画像識別情報と対応付けて記憶する。姿勢情報記憶部14は、姿勢情報を、姿勢情報が得られた画像が含まれるサブ学習画像群を示すサブ学習画像群識別情報と対応付けて記憶してもよい。
The attitude
姿勢情報は、学習画像群に含まれる各画像の被写体がとっている姿勢を示す情報である。姿勢情報は、例えば被写体に対して予め定められた複数の特徴部位の位置を示す情報であってもよい。このような特徴部位は、予め定められた人体の部位であってもよい。このような特徴部位の具体例として、頭、胴体、右肩、左肩、右足、左足が定義されてもよい。このような特徴部位の他の具体例として、右目、左目、鼻、右肩、左肩、右肘、左肘、右手首、左手首、右手先、左手先、首、腰、右膝、左膝、右足首、左足首、右足先、左足先が定義されてもよい。 The posture information is information indicating the posture of the subject of each image included in the learning image group. The posture information may be, for example, information indicating the positions of a plurality of predetermined characteristic parts with respect to the subject. Such a characteristic part may be a predetermined part of the human body. As specific examples of such characteristic parts, a head, a body, a right shoulder, a left shoulder, a right foot, and a left foot may be defined. Other specific examples of such characteristic parts include right eye, left eye, nose, right shoulder, left shoulder, right elbow, left elbow, right wrist, left wrist, right hand, left hand, neck, waist, right knee, left knee. , Right ankle, left ankle, right ankle, left ankle may be defined.
姿勢情報は、これらの特徴部位毎に、画像上の位置を示す座標(例えばx座標及びy座標)を有した情報として定義されてもよい。図2は、姿勢情報の具体例を示す図である。図2の例では、頭、胴体、右肩、左肩、左足などの各特徴部位のイメージ座標がx及びyの値の組み合わせとして定義されている。 The posture information may be defined as information having coordinates (for example, x coordinate and y coordinate) indicating a position on the image for each of these characteristic parts. FIG. 2 is a diagram showing a specific example of the posture information. In the example of FIG. 2, the image coordinates of each characteristic part such as the head, body, right shoulder, left shoulder, and left foot are defined as a combination of x and y values.
姿勢情報は、各特徴部位の位置を示す画像(以下「姿勢画像」という。)として定義されてもよい。例えば、姿勢画像は、各特徴部位を示すノードと、ノード間を繋ぐリンクとを用いた画像として定義されてもよい。図3は、姿勢画像の具体例を示す図である。図3では、各特徴部位を表すノード21の画像と、ノード21間を繋ぐリンク22の画像と、を組み合わせることによって人の姿勢情報を示す姿勢画像が形成されている。姿勢画像は、各リンクがそれぞれ異なる色で表されてもよいし、各ノードがそれぞれ異なる色で表されてもよい。
The posture information may be defined as an image showing the position of each characteristic part (hereinafter referred to as “posture image”). For example, the posture image may be defined as an image using a node indicating each characteristic part and a link connecting the nodes. FIG. 3 is a diagram showing a specific example of the posture image. In FIG. 3, a posture image indicating the posture information of a person is formed by combining the image of the
図1の説明に戻る。姿勢情報生成器記憶部15は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。姿勢情報生成器記憶部15は、姿勢情報を生成する姿勢情報生成器が動作するために必要となる情報(以下「姿勢情報生成器パラメーター」という。)を記憶する。このような姿勢情報生成器パラメーターは、制御部17の処理によって得られる。
Returning to the explanation of FIG. The attitude information
画像生成器記憶部16は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。画像生成器記憶部16は、画像を生成する画像生成器が動作するために必要となる情報(以下「画像生成器パラメーター」という。)を記憶する。このような画像生成器パラメーターは、制御部17の処理によって得られる。
The image
制御部17は、バスで接続されたCPU(Central Processing Unit)等のプロセッサーとメモリーとを備える。制御部17が画像生成プログラムを実行することによって、制御部17は姿勢情報取得部171、画像生成器学習部172、姿勢情報生成器学習部173、姿勢情報生成部174、姿勢情報選択部175及び画像生成部176として動作する。なお、各構成の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。また、各構成の全て又は一部は、GPU(Graphics Processing Unit)等の専用プロセッサーがプログラムを実行することによって実現されてもよい。画像生成プログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。画像生成プログラムは、電気通信回線を介して送信されても良い。
The
姿勢情報取得部171は、画像入力部11によって入力された学習画像群に含まれる各画像の被写体の姿勢を推定する。姿勢情報取得部171は、姿勢の推定結果として、姿勢情報を生成する。姿勢情報取得部171には、例えば以下に示す参考文献に記載された技術が適用されてもよい。姿勢情報取得部171は、生成された姿勢情報を姿勢情報記憶部14に記録する。
The posture
参考文献1:Z. Cao et al., Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, in Proc. CVPR, 2017.
参考文献2:S. -E. Wei et al., Convolutional Pose Machines, in Proc. CVPR, 2016.
Reference 1: Z. Cao et al., Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, in Proc. CVPR, 2017.
Reference 2: S. -E. Wei et al., Convolutional Pose Machines, in Proc. CVPR, 2016.
画像生成器学習部172は、サブ学習画像群毎に画像生成器パラメーターを取得する。画像生成器学習部172は、例えば処理対象となるサブ学習画像群に含まれる複数の画像と、各画像において推定された姿勢情報と、の組み合わせを教師画像として用いた機械学習を実行することによって、画像生成器パラメーターを取得してもよい。画像生成器パラメーターによって表される画像生成器は、姿勢画像を入力として、その姿勢画像が示す姿勢をとった生物又はロボットの画像を生成する。どのような生物又はロボットの画像が生成されるかは、サブ学習画像群によって決まる。すなわち、処理対象となっているサブ学習画像群において定義された特定の基準を満たした被写体が、入力された姿勢画像が示す姿勢をとった画像が生成される。画像生成器学習部172は、例えばGAN等の敵対的学習によって画像生成器パラメーターを取得するように構成されてもよい。画像生成器学習部172には、例えば以下に示す参考文献に記載された技術が適用されてもよい。画像生成器学習部172は、生成された画像生成器パラメーターを画像生成器記憶部16に記録する。
The image
参考文献3:X. Mao et al., Least Squares Generative Adversarial Networks, in Proc. ICCV, 2017.
参考文献4:I. Gulrajani, Improved Training of Wasserstein GANs, in Proc. ICLR, 2018.
Reference 3: X. Mao et al., Least Squares Generative Adversarial Networks, in Proc. ICCV, 2017.
Reference 4: I. Gulrajani, Improved Training of Wasserstein GANs, in Proc. ICLR, 2018.
姿勢情報生成器学習部173は、姿勢情報生成器パラメーターを取得する。姿勢情報生成器学習部173は、例えば処理対象となる学習画像群に含まれる複数の画像から姿勢情報取得部171によって得られた姿勢情報を教師データとして用いた機械学習を実行することによって、姿勢情報生成器パラメーターを取得してもよい。姿勢情報生成器パラメーターの学習に用いられる教師データには、学習画像群に含まれる画像から得られた全ての姿勢情報が用いられてもよいし、特定のサブ学習画像群の画像から得られた姿勢情報のみが用いられてもよい。
The posture information
姿勢情報生成器パラメーターによって表される姿勢情報生成器は、例えば所定の次元数のランダムな数値列を入力として、所定の大きさで所定のチャンネル数の姿勢画像を生成するように構成される。例えば、縦192ピクセル、横192ピクセル、チャンネル数3の姿勢画像が生成されてもよい。姿勢情報生成器学習部173は、例えば変分オートエンコーダー(VAE:下記参考文献5参照)や、敵対的生成ネットワーク(GAN:下記参考文献6参照)を用いることによって姿勢情報生成器パラメーターを取得するように構成されてもよい。姿勢情報生成器学習部173には、例えば以下に示す参考文献に記載された技術が適用されてもよい。姿勢情報生成器学習部173は、生成された姿勢情報生成器パラメーターを姿勢情報生成器記憶部15に記録する。
The posture information generator represented by the posture information generator parameter is configured to generate a posture image of a predetermined size and a predetermined number of channels, for example, by inputting a random numerical value sequence of a predetermined dimension number. For example, a posture image having 192 vertical pixels, 192 horizontal pixels, and 3 channels may be generated. The posture information
参考文献5:D. P. Kingma et al., Auto-Encoding Variational Bayes, in Proc. ICLR, 2014.
参考文献6:I. Goodfellow et al., Generative Adversarial Networks, in NIPS, 2014.
Reference 5: DP Kingma et al., Auto-Encoding Variational Bayes, in Proc. ICLR, 2014.
Reference 6: I. Goodfellow et al., Generative Adversarial Networks, in NIPS, 2014.
姿勢情報生成部174は、姿勢情報生成器記憶部15に記憶されている姿勢情報生成器パラメーターに基づいて、姿勢情報生成器として動作する。姿勢情報生成部174は、姿勢情報生成器として動作することによって、姿勢情報を生成する。姿勢情報生成部174には、姿勢情報生成器学習部173において姿勢情報生成器に与えられることが前提とされていた所定の入力パラメーターが与えられる。所定の入力パラメーターは、例えば所定の次元数の数値列であってもよい。所定の入力パラメーターの生成方法はどのように実現されてもよい。例えば、次元数が“10”と定められた場合、各次元の値を正規分布に基づいて取得することによってランダムな数値列が生成されてもよい。姿勢情報生成部174は、生成された姿勢情報を姿勢情報選択部175に出力する。
The
姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、の中から処理の対象となる姿勢情報を選択する。以下の説明では、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、を合わせて「候補姿勢情報」という。
The posture
姿勢情報選択部175は、画像生成部176において画像生成の対象となっている特定被写体の姿勢情報(以下「特定姿勢情報」という。)として未だに得られていない姿勢情報を、候補姿勢情報の中から選択する。より具体的には、姿勢情報選択部175は、候補姿勢情報の中から選択される判定対象の姿勢情報について、既に得られている特定姿勢情報毎に類似度を算出し、算出された全ての類似度が所定の基準以上類似していないことを示す場合には、判定対象の姿勢情報を選択する。姿勢情報選択部175は、一つの姿勢情報を選択してもよいし、予め定められた数の姿勢情報を選択してもよいし、指示入力部13を介して入力された指示によって示された数の姿勢情報を選択してもよい。姿勢情報選択部175は、予め定められた数の姿勢情報を選択する場合や、指示入力部13を介して入力された指示によって示された数の姿勢情報を選択する場合には、類似度の値が最も類似していないことを示す値のものから順に姿勢情報を選択してもよい。姿勢情報選択部175は、選択された姿勢情報を画像生成部176に出力する。
The posture
画像生成部176は、画像生成器記憶部16に記憶されている画像生成器パラメーターのうち、処理対象となる特定被写体の画像生成器パラメーターを用いることによって、画像生成器として動作する。画像生成部176は、画像生成の際に、姿勢情報選択部175によって選択された姿勢情報を用いる。画像生成部176は、姿勢情報を用いて画像生成器として動作することによって、選択された姿勢情報が示す姿勢を特定被写体がとっている画像を生成する。画像生成部176は、生成された画像のデータを画像出力部12に出力する。
The
図4は、画像生成装置10の画像生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。まず、画像入力部11が、処理対象のサブ学習画像群の画像データを入力する(ステップS101)。姿勢情報取得部171は、処理対象のサブ学習画像群の各画像データにおける被写体の姿勢情報を推定する(ステップS102)。画像生成器学習部172は、処理対象のサブ学習画像群の画像データ及び姿勢情報の複数の組み合わせを教師データとして用いた学習処理を実行することによって、画像生成器パラメーターを取得する(ステップS103)。画像生成器学習部172は、ステップS101〜S103の処理をサブ学習画像群毎に繰り返し実行することによって、サブ学習画像群毎に画像生成器パラメーターを取得する。画像生成器学習部172は、取得された画像生成器パラメーターをサブ学習画像群に対応付けて画像生成器記憶部16に記録する。
FIG. 4 is a flowchart showing a specific example of the flow of processing when the image generator parameters are generated by the
図5は、画像生成装置10の姿勢情報生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。まず、画像入力部11が、処理対象の学習画像群の画像データを入力する(ステップS201)。姿勢情報取得部171は、処理対象の学習画像群の各画像データにおける被写体の姿勢情報を推定する(ステップS202)。姿勢情報生成器学習部173は、処理対象の学習画像群から得られた複数の姿勢情報を教師データとして用いた学習処理を実行することによって、姿勢情報生成器パラメーターを取得する(ステップS203)。姿勢情報生成器学習部173は、取得された姿勢情報生成器パラメーターを学習画像群に対応付けて姿勢情報生成器記憶部15に記録する。
FIG. 5 is a flowchart showing a specific example of the flow of processing when the orientation information generator parameters of the
図6は、画像生成装置10の画像生成時の処理の流れの具体例を示すフローチャートである。まず、姿勢情報選択部175が、複数の姿勢情報を取得する(ステップS301)。例えば、姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、を取得してもよい。姿勢情報選択部175は、取得された複数の姿勢情報(候補姿勢情報)の中から、姿勢情報を選択する(ステップS302)。画像生成部176は、姿勢情報選択部175によって選択された姿勢情報と、処理対象のサブ学習画像群に応じた画像生成器パラメーターと、に基づいて画像を生成する(ステップS303)。
FIG. 6 is a flowchart showing a specific example of the flow of processing when the
このように構成された画像生成装置10によれば、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることが可能となる。詳細は以下の通りである。
According to the
画像を用いて生物又はロボットを認識する技術では、膨大な量の教師データが必要となるが、同じような画像がたくさん教師データに含まれていても認識精度の向上は限定的であった。このような問題に対し、上述した画像生成装置10では、それまでその被写体の画像としては存在していなかった新たな姿勢の画像が生成される。このような新たな姿勢の画像を教師データとして用いることによって、認識の精度を向上させることが可能となる。
A technique for recognizing a living thing or a robot by using an image requires a huge amount of teacher data, but even if a large number of similar images are included in the teacher data, improvement in recognition accuracy is limited. In response to such a problem, the
また、画像生成装置10では、学習画像群を入力するだけで、その中に含まれる各特定被写体の姿勢が推定され、各特定被写体において存在していない新たな姿勢を示す姿勢情報が選択され、選択された姿勢情報が示す姿勢をとった特定被写体の画像が生成される。そのため、ユーザーがわざわざ姿勢を判断して入力する必要が無く、ユーザーの手間を削減することが可能となる。
Further, in the
また、画像生成装置10では、サブ学習画像群において共通する特定の基準を満たした特定被写体毎に画像生成器パラメーターが生成される。そのため、一般的な生物や種族に応じた画像生成器パラメーターが生成される場合に比べて、各特定被写体の特徴をより顕著に有した画像を生成することができる。このように生成された画像を用いて学習処理を行うことによって、特定被写体の認識精度を向上させることが可能となる。
Further, in the
(変形例)
姿勢取得部171は、画像に基づいて姿勢情報を推定するのではなく、予め他の装置や人間によって判断された姿勢情報を外部から取得するように構成されてもよい。この場合、姿勢情報取得部171は、画像毎に予め判断された姿勢情報を外部から取得し、姿勢情報記憶部14に姿勢情報を記録する。
(Modification)
The
画像生成装置10は、画像生成器学習部172を備えないように構成されてもよい。この場合、予め他の装置に実装された画像生成器学習部172によって得られた画像生成器パラメーターを画像生成器記憶部16に記録しておくことで、画像生成部176は処理を実行することが可能となる。
The
画像生成装置10は、姿勢情報生成器学習部173を備えないように構成されてもよい。この場合、予め他の装置に実装された姿勢情報生成器学習部173によって得られた姿勢情報生成器パラメーターを姿勢情報生成器記憶部15に記録しておくことで、姿勢情報生成部174は処理を実行することが可能となる。
The
画像生成装置10は、姿勢情報生成部174を備えないように構成されてもよい。この場合、姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報、すなわち学習画像群の画像から得られた姿勢情報の中から姿勢情報を選択する。姿勢情報の中には、他の特定被写体の姿勢情報も含まれているため、姿勢情報選択部175は姿勢情報を選択することが可能となる。
The
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail above with reference to the drawings, the specific configuration is not limited to this embodiment, and includes a design and the like within a range not departing from the gist of the present invention.
10…画像生成装置, 11…画像入力部, 12…画像出力部, 13…指示入力部, 14…姿勢情報記憶部, 15…姿勢情報生成器記憶部, 16…画像生成器記憶部, 17…制御部, 171…姿勢情報取得部, 172…画像生成器学習部, 173…姿勢情報生成器学習部, 174…姿勢情報生成部, 175…姿勢情報選択部, 176…画像生成部 10... Image generating device, 11... Image input unit, 12... Image output unit, 13... Instruction input unit, 14... Attitude information storage unit, 15... Attitude information generator storage unit, 16... Image generator storage unit, 17... Control unit, 171... Attitude information acquisition unit, 172... Image generator learning unit, 173... Attitude information generator learning unit, 174... Attitude information generation unit, 175... Attitude information selection unit, 176... Image generation unit
Claims (5)
前記画像生成部は、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成装置。 Each image of a sub-learning image group, which is a group of a plurality of images in which a specific subject that is a common subject satisfying a specific criterion is captured, and posture information of the specific subject in each image of the sub-learning image group, An image generation unit that newly generates an image of the specific subject based on the parameters of the image generator obtained by performing the learning process using the combination of
The image generation apparatus, wherein the image generation unit generates an image in which the specific subject has the posture indicated by the posture information by using the given posture information.
前記記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択部をさらに備え、
前記画像生成部は、前記姿勢情報選択部によって選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する、請求項1に記載の画像生成装置。 A storage unit that stores a plurality of posture information items that are candidates for selection,
The posture information is read from the storage unit, and posture information indicating a posture that is dissimilar to the posture of the specific subject in the sub-learning image group based on a predetermined reference from the read posture information candidates. Further comprising a posture information selection unit for selecting
The image generation device according to claim 1, wherein the image generation unit generates the image by using the posture information selected by the posture information selection unit as given posture information.
前記姿勢情報選択部は、前記姿勢情報取得部によって取得された姿勢情報を選択の候補として使用する、請求項2に記載の画像生成装置。 The sub-learning image group further includes a posture information acquisition unit that acquires posture information, which is information indicating the posture of the specific subject, for each image,
The image generation apparatus according to claim 2, wherein the posture information selection unit uses the posture information acquired by the posture information acquisition unit as a selection candidate.
前記画像生成ステップにおいて、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成方法。 Each image of a sub-learning image group, which is a group of a plurality of images in which a specific subject that is a common subject satisfying a specific criterion is captured, and posture information of the specific subject in each image of the sub-learning image group, Based on the parameters of the image generator obtained by performing the learning process using the combination of as a teacher data, an image generating step of newly generating the image of the specific subject,
An image generating method, wherein in the image generating step, the given subject information is used to generate an image in which the specific subject has the posture indicated by the posture information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018219656A JP7199931B2 (en) | 2018-11-22 | 2018-11-22 | Image generation device, image generation method and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018219656A JP7199931B2 (en) | 2018-11-22 | 2018-11-22 | Image generation device, image generation method and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020086869A true JP2020086869A (en) | 2020-06-04 |
JP7199931B2 JP7199931B2 (en) | 2023-01-06 |
Family
ID=70909957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018219656A Active JP7199931B2 (en) | 2018-11-22 | 2018-11-22 | Image generation device, image generation method and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7199931B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018136632A (en) * | 2017-02-20 | 2018-08-30 | オムロン株式会社 | Shape estimating apparatus |
-
2018
- 2018-11-22 JP JP2018219656A patent/JP7199931B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018136632A (en) * | 2017-02-20 | 2018-08-30 | オムロン株式会社 | Shape estimating apparatus |
Non-Patent Citations (3)
Title |
---|
ALBERT PUMAROLA ET AL: "Unsupervised Person Image Synthesis in Arbitrary Poses", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6022025463, 23 June 2018 (2018-06-23), US, pages 8620 - 8628, XP033473786, ISSN: 0004803238, DOI: 10.1109/CVPR.2018.00899 * |
ALIAKSANDR SIAROHIN ET AL: "Deformable GANs for Pose-Based Human Image Generation", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6022025460, 23 June 2018 (2018-06-23), US, pages 3408 - 3416, XP033476310, ISSN: 0004803237, DOI: 10.1109/CVPR.2018.00359 * |
LIQIAN MA ET AL: "Pose Guided Person Image Generation", ARXIV, JPN7022002878, 25 May 2017 (2017-05-25), ISSN: 0004803239 * |
Also Published As
Publication number | Publication date |
---|---|
JP7199931B2 (en) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522843B (en) | Multi-target tracking method, device, equipment and storage medium | |
CN111488824B (en) | Motion prompting method, device, electronic equipment and storage medium | |
CN107428004B (en) | Automatic collection and tagging of object data | |
JP6835218B2 (en) | Crowd state recognizer, learning method and learning program | |
US11138419B2 (en) | Distance image processing device, distance image processing system, distance image processing method, and non-transitory computer readable recording medium | |
Kumar et al. | Three-dimensional sign language recognition with angular velocity maps and connived feature resnet | |
JP2019016106A (en) | Information processing program, information processing apparatus, information processing method, and information processing system | |
Tai et al. | Sensor-based continuous hand gesture recognition by long short-term memory | |
Turabzadeh et al. | Real-time emotional state detection from facial expression on embedded devices | |
JP2019096113A (en) | Processing device, method and program relating to keypoint data | |
WO2021183309A1 (en) | Real time styling of motion for virtual environments | |
JP2013257656A (en) | Motion similarity calculation device, motion similarity calculation method, and computer program | |
JP2017037424A (en) | Learning device, recognition device, learning program and recognition program | |
Kan et al. | Self-constrained inference optimization on structural groups for human pose estimation | |
CN110910426A (en) | Action process and action trend identification method, storage medium and electronic device | |
US20230046705A1 (en) | Storage medium, determination device, and determination method | |
JP7199931B2 (en) | Image generation device, image generation method and computer program | |
WO2019207875A1 (en) | Information processing device, information processing method, and program | |
Pham et al. | Analyzing role of joint subset selection in human action recognition | |
JP2020140283A (en) | Information processing device, information processing method, and computer program | |
Siam et al. | Human computer interaction using marker based hand gesture recognition | |
KR20230087352A (en) | Apparatus and method for detecting workout status | |
US20230068731A1 (en) | Image processing device and moving image data generation method | |
JP2019133331A (en) | Image recognition apparatus, image recognition method, and image recognition program | |
TW201824020A (en) | Analysis system of humanity action |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7199931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |