JP7199931B2 - 画像生成装置、画像生成方法及びコンピュータープログラム - Google Patents

画像生成装置、画像生成方法及びコンピュータープログラム Download PDF

Info

Publication number
JP7199931B2
JP7199931B2 JP2018219656A JP2018219656A JP7199931B2 JP 7199931 B2 JP7199931 B2 JP 7199931B2 JP 2018219656 A JP2018219656 A JP 2018219656A JP 2018219656 A JP2018219656 A JP 2018219656A JP 7199931 B2 JP7199931 B2 JP 7199931B2
Authority
JP
Japan
Prior art keywords
image
posture information
posture
information
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018219656A
Other languages
English (en)
Other versions
JP2020086869A (ja
Inventor
周平 田良島
啓仁 野村
和彦 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2018219656A priority Critical patent/JP7199931B2/ja
Publication of JP2020086869A publication Critical patent/JP2020086869A/ja
Application granted granted Critical
Publication of JP7199931B2 publication Critical patent/JP7199931B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、既存の画像群に類似した新規の画像を生成するための技術に関する。
画像を用いて人物認識を精度よく実現するためには、一般的には教師データとして大量の人物画像が必要となる。仮に特定の人物についての人物認識を実現しようとすると、その特定の人物について大量の教師データが必要となる。このように、人物認識を精度よく実現するためには、大量の教師データを取得することに膨大な労力を要していた。
このような問題に対し、近年では画像のデータオーグメンテーション技術が提案されている(例えば非特許文献1及び非特許文献2参照。)。画像のデータオーグメンテーションでは、既に取得されている教師データに基づいて、教師データに関連する新たな画像が生成される。このように新たな画像を生成することによって、教師データを増加させることが可能となる。
A. G Howard, Some Improvements on Deep Convolutional Neural Network Based Image Classification, in arXiv preprint, 2013. L. Ma et al., Disentangled Person Image Generation, in Proc. CVPR, 2018.
しかしながら、単に教師データの量が多いだけでは、人物認識の精度向上は限定的であった。このような問題は、必ずしも画像による人物認識のみに限られた問題ではなく、画像を用いて生物又はロボットを認識する技術全般に共通する問題である。
上記事情に鑑み、本発明は、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることができる技術の提供を目的としている。
本発明の一態様は、特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成部、を備え、前記画像生成部は、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成装置である。
本発明の一態様は、上記の画像生成装置であって、選択の候補となる姿勢情報を複数記憶する記憶部と、前記記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択部をさらに備え、前記画像生成部は、前記姿勢情報選択部によって選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する。
本発明の一態様は、上記の画像生成装置であって、前記サブ学習画像群において、前記特定被写体の姿勢を示す情報である姿勢情報を画像毎に取得する姿勢情報取得部をさらに備え、前記姿勢情報選択部は、前記姿勢情報取得部によって取得された姿勢情報を選択の候補として使用する。
本発明の一態様は、特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成ステップ、を有し、前記画像生成ステップにおいて、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成する、画像生成方法である。
本発明の一態様は、上記の画像生成装置としてコンピューターを機能させるためのコンピュータープログラムである。
本発明により、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることが可能となる。
本発明の画像生成装置の構成例を示す概略ブロック図である。 姿勢情報の具体例を示す図である。 姿勢画像の具体例を示す図である。 画像生成装置の画像生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。 画像生成装置の姿勢情報生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。 画像生成装置の画像生成時の処理の流れの具体例を示すフローチャートである。
以下、本発明の具体的な構成例について、図面を参照しながら説明する。
図1は、本発明の画像生成装置10の構成例を示す概略ブロック図である。画像生成装置10は、パーソナルコンピューターやサーバーやワークステーション等の情報処理装置を用いて構成される。画像生成装置10は、画像入力部11、画像出力部12、指示入力部13、姿勢情報記憶部14、姿勢情報生成器記憶部15、画像生成器記憶部16及び制御部17を備える。以下、画像生成装置10について説明する。
画像入力部11は、画像生成装置10に対して入力される学習画像群のデータを受け付ける。学習画像群は、既に得られている複数の画像の一群である。学習画像群は、1又は複数のサブ学習画像群を含んでもよい。サブ学習画像群は、特定の基準を満たした共通の被写体(以下「特定被写体」という。)が写った複数の画像の一群である。特定の基準とは、例えば特定の人物であることでもよいし、特定の種目の選手であることでもよいし、特定の属性(性別、年齢、人種など)の人物であることでもよいし、特定の種の生物であることでもよいし、特定の種類のロボットであることでもよい。また、特定の基準とは、特定の人物であって、且つ、特定の服を着用していることであってもよい。また、特定の基準とは、特定の人物であって、且つ、特定の動作(例えば、特定の種目の運動、特定の種別の行動)をしていることであってもよい。例えば、ある特定の選手がバスケットボールをしている姿が被写体として映った複数の画像の一群がサブ学習画像群として形成されてもよい。
画像入力部11は、有線通信や無線通信を介したデータ通信を行うことによって他の装置から学習画像群のデータを受信してもよい。この場合、画像入力部11は、通信インターフェースを用いて構成されてもよい。画像入力部11は、例えばCD-ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に記録された学習画像群のデータを記録媒体から読み出してもよい。この場合、画像入力部11は、CD-ROMドライブや、USBインターフェース等の装置を用いて構成されてもよい。画像入力部11は、スチルカメラやビデオカメラによって撮像された学習画像群を、カメラから受信してもよい。この場合、画像入力部11は、カメラとデータ通信可能な通信プロトコルのインターフェースを用いて構成されてもよい。また、画像生成装置10がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置(スマートフォン等)に内蔵されている場合は、画像入力部11は撮像された画像又は撮像前の画像をバスから受信してもよい。画像入力部11は、学習画像群のデータの入力を受けることが可能な構成であれば、どのような態様で構成されてもよい。また、画像入力部11に入力される時点で既に各画像が学習画像群を形成している必要は無く、複数の画像がそれぞれ入力されることによって結果として学習画像群が画像生成装置10に入力されてもよい。
画像出力部12は、制御部17によって生成された画像のデータを出力する。画像出力部12は、有線通信や無線通信を介したデータ通信を行うことによって他の装置(例えば他の情報処理装置や他の記憶装置)に対して画像を送信してもよい。この場合、画像出力部12は、通信インターフェースを用いて構成されてもよい。画像出力部12は、例えばDVD-ROMやUSBメモリー等の記録媒体に対して画像を記録してもよい。この場合、画像出力部12は、DVD-Rドライブや、USBインターフェース等の装置を用いて構成されてもよい。画像出力部12は、画像生成装置10に備えられた記憶装置に画像を記録してもよい。画像出力部12は、画像のデータを出力することが可能な構成であれば、どのような態様で構成されても良い。
指示入力部13は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の既存の入力装置を用いて構成されてもよい。この場合、指示入力部13は、ユーザーの指示を画像生成装置10に入力する際にユーザーによって操作される。上述した入力装置は、音声入力を受け付けるためのマイク及び音声認識装置を用いて構成されてもよい。指示入力部13は、入力装置を画像生成装置10に接続するためのインターフェースであってもよい。この場合、指示入力部13は、入力装置においてユーザーの入力に応じ生成された入力信号を画像生成装置10に入力する。指示入力部13は、有線通信や無線通信を介したデータ通信を行うことによって他の装置からユーザーの指示を受信してもよい。この場合、指示入力部13は、通信インターフェースを用いて構成されてもよい。
姿勢情報記憶部14は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。姿勢情報記憶部14は、学習画像群に含まれる画像データから得られた姿勢情報を、姿勢情報が得られた画像を示す画像識別情報と対応付けて記憶する。姿勢情報記憶部14は、姿勢情報を、姿勢情報が得られた画像が含まれるサブ学習画像群を示すサブ学習画像群識別情報と対応付けて記憶してもよい。
姿勢情報は、学習画像群に含まれる各画像の被写体がとっている姿勢を示す情報である。姿勢情報は、例えば被写体に対して予め定められた複数の特徴部位の位置を示す情報であってもよい。このような特徴部位は、予め定められた人体の部位であってもよい。このような特徴部位の具体例として、頭、胴体、右肩、左肩、右足、左足が定義されてもよい。このような特徴部位の他の具体例として、右目、左目、鼻、右肩、左肩、右肘、左肘、右手首、左手首、右手先、左手先、首、腰、右膝、左膝、右足首、左足首、右足先、左足先が定義されてもよい。
姿勢情報は、これらの特徴部位毎に、画像上の位置を示す座標(例えばx座標及びy座標)を有した情報として定義されてもよい。図2は、姿勢情報の具体例を示す図である。図2の例では、頭、胴体、右肩、左肩、左足などの各特徴部位のイメージ座標がx及びyの値の組み合わせとして定義されている。
姿勢情報は、各特徴部位の位置を示す画像(以下「姿勢画像」という。)として定義されてもよい。例えば、姿勢画像は、各特徴部位を示すノードと、ノード間を繋ぐリンクとを用いた画像として定義されてもよい。図3は、姿勢画像の具体例を示す図である。図3では、各特徴部位を表すノード21の画像と、ノード21間を繋ぐリンク22の画像と、を組み合わせることによって人の姿勢情報を示す姿勢画像が形成されている。姿勢画像は、各リンクがそれぞれ異なる色で表されてもよいし、各ノードがそれぞれ異なる色で表されてもよい。
図1の説明に戻る。姿勢情報生成器記憶部15は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。姿勢情報生成器記憶部15は、姿勢情報を生成する姿勢情報生成器が動作するために必要となる情報(以下「姿勢情報生成器パラメーター」という。)を記憶する。このような姿勢情報生成器パラメーターは、制御部17の処理によって得られる。
画像生成器記憶部16は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。画像生成器記憶部16は、画像を生成する画像生成器が動作するために必要となる情報(以下「画像生成器パラメーター」という。)を記憶する。このような画像生成器パラメーターは、制御部17の処理によって得られる。
制御部17は、バスで接続されたCPU(Central Processing Unit)等のプロセッサーとメモリーとを備える。制御部17が画像生成プログラムを実行することによって、制御部17は姿勢情報取得部171、画像生成器学習部172、姿勢情報生成器学習部173、姿勢情報生成部174、姿勢情報選択部175及び画像生成部176として動作する。なお、各構成の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。また、各構成の全て又は一部は、GPU(Graphics Processing Unit)等の専用プロセッサーがプログラムを実行することによって実現されてもよい。画像生成プログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。画像生成プログラムは、電気通信回線を介して送信されても良い。
姿勢情報取得部171は、画像入力部11によって入力された学習画像群に含まれる各画像の被写体の姿勢を推定する。姿勢情報取得部171は、姿勢の推定結果として、姿勢情報を生成する。姿勢情報取得部171には、例えば以下に示す参考文献に記載された技術が適用されてもよい。姿勢情報取得部171は、生成された姿勢情報を姿勢情報記憶部14に記録する。
参考文献1:Z. Cao et al., Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, in Proc. CVPR, 2017.
参考文献2:S. -E. Wei et al., Convolutional Pose Machines, in Proc. CVPR, 2016.
画像生成器学習部172は、サブ学習画像群毎に画像生成器パラメーターを取得する。画像生成器学習部172は、例えば処理対象となるサブ学習画像群に含まれる複数の画像と、各画像において推定された姿勢情報と、の組み合わせを教師画像として用いた機械学習を実行することによって、画像生成器パラメーターを取得してもよい。画像生成器パラメーターによって表される画像生成器は、姿勢画像を入力として、その姿勢画像が示す姿勢をとった生物又はロボットの画像を生成する。どのような生物又はロボットの画像が生成されるかは、サブ学習画像群によって決まる。すなわち、処理対象となっているサブ学習画像群において定義された特定の基準を満たした被写体が、入力された姿勢画像が示す姿勢をとった画像が生成される。画像生成器学習部172は、例えばGAN等の敵対的学習によって画像生成器パラメーターを取得するように構成されてもよい。画像生成器学習部172には、例えば以下に示す参考文献に記載された技術が適用されてもよい。画像生成器学習部172は、生成された画像生成器パラメーターを画像生成器記憶部16に記録する。
参考文献3:X. Mao et al., Least Squares Generative Adversarial Networks, in Proc. ICCV, 2017.
参考文献4:I. Gulrajani, Improved Training of Wasserstein GANs, in Proc. ICLR, 2018.
姿勢情報生成器学習部173は、姿勢情報生成器パラメーターを取得する。姿勢情報生成器学習部173は、例えば処理対象となる学習画像群に含まれる複数の画像から姿勢情報取得部171によって得られた姿勢情報を教師データとして用いた機械学習を実行することによって、姿勢情報生成器パラメーターを取得してもよい。姿勢情報生成器パラメーターの学習に用いられる教師データには、学習画像群に含まれる画像から得られた全ての姿勢情報が用いられてもよいし、特定のサブ学習画像群の画像から得られた姿勢情報のみが用いられてもよい。
姿勢情報生成器パラメーターによって表される姿勢情報生成器は、例えば所定の次元数のランダムな数値列を入力として、所定の大きさで所定のチャンネル数の姿勢画像を生成するように構成される。例えば、縦192ピクセル、横192ピクセル、チャンネル数3の姿勢画像が生成されてもよい。姿勢情報生成器学習部173は、例えば変分オートエンコーダー(VAE:下記参考文献5参照)や、敵対的生成ネットワーク(GAN:下記参考文献6参照)を用いることによって姿勢情報生成器パラメーターを取得するように構成されてもよい。姿勢情報生成器学習部173には、例えば以下に示す参考文献に記載された技術が適用されてもよい。姿勢情報生成器学習部173は、生成された姿勢情報生成器パラメーターを姿勢情報生成器記憶部15に記録する。
参考文献5:D. P. Kingma et al., Auto-Encoding Variational Bayes, in Proc. ICLR, 2014.
参考文献6:I. Goodfellow et al., Generative Adversarial Networks, in NIPS, 2014.
姿勢情報生成部174は、姿勢情報生成器記憶部15に記憶されている姿勢情報生成器パラメーターに基づいて、姿勢情報生成器として動作する。姿勢情報生成部174は、姿勢情報生成器として動作することによって、姿勢情報を生成する。姿勢情報生成部174には、姿勢情報生成器学習部173において姿勢情報生成器に与えられることが前提とされていた所定の入力パラメーターが与えられる。所定の入力パラメーターは、例えば所定の次元数の数値列であってもよい。所定の入力パラメーターの生成方法はどのように実現されてもよい。例えば、次元数が“10”と定められた場合、各次元の値を正規分布に基づいて取得することによってランダムな数値列が生成されてもよい。姿勢情報生成部174は、生成された姿勢情報を姿勢情報選択部175に出力する。
姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、の中から処理の対象となる姿勢情報を選択する。以下の説明では、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、を合わせて「候補姿勢情報」という。
姿勢情報選択部175は、画像生成部176において画像生成の対象となっている特定被写体の姿勢情報(以下「特定姿勢情報」という。)として未だに得られていない姿勢情報を、候補姿勢情報の中から選択する。より具体的には、姿勢情報選択部175は、候補姿勢情報の中から選択される判定対象の姿勢情報について、既に得られている特定姿勢情報毎に類似度を算出し、算出された全ての類似度が所定の基準以上類似していないことを示す場合には、判定対象の姿勢情報を選択する。姿勢情報選択部175は、一つの姿勢情報を選択してもよいし、予め定められた数の姿勢情報を選択してもよいし、指示入力部13を介して入力された指示によって示された数の姿勢情報を選択してもよい。姿勢情報選択部175は、予め定められた数の姿勢情報を選択する場合や、指示入力部13を介して入力された指示によって示された数の姿勢情報を選択する場合には、類似度の値が最も類似していないことを示す値のものから順に姿勢情報を選択してもよい。姿勢情報選択部175は、選択された姿勢情報を画像生成部176に出力する。
画像生成部176は、画像生成器記憶部16に記憶されている画像生成器パラメーターのうち、処理対象となる特定被写体の画像生成器パラメーターを用いることによって、画像生成器として動作する。画像生成部176は、画像生成の際に、姿勢情報選択部175によって選択された姿勢情報を用いる。画像生成部176は、姿勢情報を用いて画像生成器として動作することによって、選択された姿勢情報が示す姿勢を特定被写体がとっている画像を生成する。画像生成部176は、生成された画像のデータを画像出力部12に出力する。
図4は、画像生成装置10の画像生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。まず、画像入力部11が、処理対象のサブ学習画像群の画像データを入力する(ステップS101)。姿勢情報取得部171は、処理対象のサブ学習画像群の各画像データにおける被写体の姿勢情報を推定する(ステップS102)。画像生成器学習部172は、処理対象のサブ学習画像群の画像データ及び姿勢情報の複数の組み合わせを教師データとして用いた学習処理を実行することによって、画像生成器パラメーターを取得する(ステップS103)。画像生成器学習部172は、ステップS101~S103の処理をサブ学習画像群毎に繰り返し実行することによって、サブ学習画像群毎に画像生成器パラメーターを取得する。画像生成器学習部172は、取得された画像生成器パラメーターをサブ学習画像群に対応付けて画像生成器記憶部16に記録する。
図5は、画像生成装置10の姿勢情報生成器パラメーター生成時の処理の流れの具体例を示すフローチャートである。まず、画像入力部11が、処理対象の学習画像群の画像データを入力する(ステップS201)。姿勢情報取得部171は、処理対象の学習画像群の各画像データにおける被写体の姿勢情報を推定する(ステップS202)。姿勢情報生成器学習部173は、処理対象の学習画像群から得られた複数の姿勢情報を教師データとして用いた学習処理を実行することによって、姿勢情報生成器パラメーターを取得する(ステップS203)。姿勢情報生成器学習部173は、取得された姿勢情報生成器パラメーターを学習画像群に対応付けて姿勢情報生成器記憶部15に記録する。
図6は、画像生成装置10の画像生成時の処理の流れの具体例を示すフローチャートである。まず、姿勢情報選択部175が、複数の姿勢情報を取得する(ステップS301)。例えば、姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報と、姿勢情報生成部174によって生成された姿勢情報と、を取得してもよい。姿勢情報選択部175は、取得された複数の姿勢情報(候補姿勢情報)の中から、姿勢情報を選択する(ステップS302)。画像生成部176は、姿勢情報選択部175によって選択された姿勢情報と、処理対象のサブ学習画像群に応じた画像生成器パラメーターと、に基づいて画像を生成する(ステップS303)。
このように構成された画像生成装置10によれば、画像を用いて生物又はロボットを認識する技術に対し、新たな画像を生成することによって認識の精度を向上させることが可能となる。詳細は以下の通りである。
画像を用いて生物又はロボットを認識する技術では、膨大な量の教師データが必要となるが、同じような画像がたくさん教師データに含まれていても認識精度の向上は限定的であった。このような問題に対し、上述した画像生成装置10では、それまでその被写体の画像としては存在していなかった新たな姿勢の画像が生成される。このような新たな姿勢の画像を教師データとして用いることによって、認識の精度を向上させることが可能となる。
また、画像生成装置10では、学習画像群を入力するだけで、その中に含まれる各特定被写体の姿勢が推定され、各特定被写体において存在していない新たな姿勢を示す姿勢情報が選択され、選択された姿勢情報が示す姿勢をとった特定被写体の画像が生成される。そのため、ユーザーがわざわざ姿勢を判断して入力する必要が無く、ユーザーの手間を削減することが可能となる。
また、画像生成装置10では、サブ学習画像群において共通する特定の基準を満たした特定被写体毎に画像生成器パラメーターが生成される。そのため、一般的な生物や種族に応じた画像生成器パラメーターが生成される場合に比べて、各特定被写体の特徴をより顕著に有した画像を生成することができる。このように生成された画像を用いて学習処理を行うことによって、特定被写体の認識精度を向上させることが可能となる。
(変形例)
姿勢取得部171は、画像に基づいて姿勢情報を推定するのではなく、予め他の装置や人間によって判断された姿勢情報を外部から取得するように構成されてもよい。この場合、姿勢情報取得部171は、画像毎に予め判断された姿勢情報を外部から取得し、姿勢情報記憶部14に姿勢情報を記録する。
画像生成装置10は、画像生成器学習部172を備えないように構成されてもよい。この場合、予め他の装置に実装された画像生成器学習部172によって得られた画像生成器パラメーターを画像生成器記憶部16に記録しておくことで、画像生成部176は処理を実行することが可能となる。
画像生成装置10は、姿勢情報生成器学習部173を備えないように構成されてもよい。この場合、予め他の装置に実装された姿勢情報生成器学習部173によって得られた姿勢情報生成器パラメーターを姿勢情報生成器記憶部15に記録しておくことで、姿勢情報生成部174は処理を実行することが可能となる。
画像生成装置10は、姿勢情報生成部174を備えないように構成されてもよい。この場合、姿勢情報選択部175は、姿勢情報記憶部14に記憶されている姿勢情報、すなわち学習画像群の画像から得られた姿勢情報の中から姿勢情報を選択する。姿勢情報の中には、他の特定被写体の姿勢情報も含まれているため、姿勢情報選択部175は姿勢情報を選択することが可能となる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10…画像生成装置, 11…画像入力部, 12…画像出力部, 13…指示入力部, 14…姿勢情報記憶部, 15…姿勢情報生成器記憶部, 16…画像生成器記憶部, 17…制御部, 171…姿勢情報取得部, 172…画像生成器学習部, 173…姿勢情報生成器学習部, 174…姿勢情報生成部, 175…姿勢情報選択部, 176…画像生成部

Claims (5)

  1. 特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成部、を備え、
    前記画像生成部は、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成し、
    選択の候補となる姿勢情報を複数記憶する記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択部をさらに備え、
    前記画像生成部は、前記姿勢情報選択部によって選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する、画像生成装置。
  2. 特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成部、を備え、
    前記画像生成部は、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成し、
    選択の候補となる姿勢情報を複数記憶する記憶部と、
    前記記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択部をさらに備え、
    前記画像生成部は、前記姿勢情報選択部によって選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する、画像生成装置。
  3. 前記サブ学習画像群において、前記特定被写体の姿勢を示す情報である姿勢情報を画像毎に取得する姿勢情報取得部をさらに備え、
    前記姿勢情報選択部は、前記姿勢情報取得部によって取得された姿勢情報を選択の候補として使用する、請求項1又は2に記載の画像生成装置。
  4. コンピューターが、特定の基準を満たした共通の被写体である特定被写体が撮影された複数の画像の一群であるサブ学習画像群の各画像と、前記サブ学習画像群の各画像における前記特定被写体の姿勢情報と、の組み合わせを教師データとして用いた学習処理を行うことによって得られる画像生成器のパラメーターに基づいて、前記特定被写体の画像を新たに生成する画像生成ステップ、を有し、
    前記画像生成ステップにおいて、コンピューターが、与えられた姿勢情報を用いることによって、前記特定被写体が、前記姿勢情報が示す姿勢をとった画像を生成し、
    コンピューターが、選択の候補となる姿勢情報を複数記憶する記憶部から前記姿勢情報を読み出し、読み出された姿勢情報の候補の中から、前記サブ学習画像群において前記特定被写体がとっている姿勢と所定の基準で非類似である姿勢を示す姿勢情報を選択する姿勢情報選択ステップをさらに有し、
    前記画像生成ステップでは、コンピューターが、前記姿勢情報選択ステップにおいて選択された前記姿勢情報を、与えられた姿勢情報として用いることによって、前記画像を生成する、画像生成方法。
  5. 請求項1から3のいずれか一項に記載の画像生成装置としてコンピューターを機能させるためのコンピュータープログラム。
JP2018219656A 2018-11-22 2018-11-22 画像生成装置、画像生成方法及びコンピュータープログラム Active JP7199931B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018219656A JP7199931B2 (ja) 2018-11-22 2018-11-22 画像生成装置、画像生成方法及びコンピュータープログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018219656A JP7199931B2 (ja) 2018-11-22 2018-11-22 画像生成装置、画像生成方法及びコンピュータープログラム

Publications (2)

Publication Number Publication Date
JP2020086869A JP2020086869A (ja) 2020-06-04
JP7199931B2 true JP7199931B2 (ja) 2023-01-06

Family

ID=70909957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018219656A Active JP7199931B2 (ja) 2018-11-22 2018-11-22 画像生成装置、画像生成方法及びコンピュータープログラム

Country Status (1)

Country Link
JP (1) JP7199931B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136632A (ja) 2017-02-20 2018-08-30 オムロン株式会社 形状推定装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136632A (ja) 2017-02-20 2018-08-30 オムロン株式会社 形状推定装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Albert Pumarola et al,Unsupervised Person Image Synthesis in Arbitrary Poses,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月23日,8620-8628,https://ieeexplore.ieee.org/document/8578997
Aliaksandr Siarohin et al,Deformable GANs for Pose-Based Human Image Generation,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月23日,3408-3416,https://ieeexplore.ieee.org/document/8578457
Liqian Ma et al,Pose Guided Person Image Generation,arXiv,2017年05月25日,https://arxiv.org/pdf/1705.09368v1.pdf

Also Published As

Publication number Publication date
JP2020086869A (ja) 2020-06-04

Similar Documents

Publication Publication Date Title
CN111488824B (zh) 运动提示方法、装置、电子设备和存储介质
US11068698B2 (en) Generating animated three-dimensional models from captured images
US11948376B2 (en) Method, system, and device of generating a reduced-size volumetric dataset
Jörg et al. Data-driven finger motion synthesis for gesturing characters
JP2019510325A (ja) マルチモーダルデジタル画像を生成する方法及びシステム
US11055891B1 (en) Real time styling of motion for virtual environments
JP2019016106A (ja) 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
JP5837860B2 (ja) 動き類似度算出装置、動き類似度算出方法およびコンピュータプログラム
CN108900788A (zh) 视频生成方法、视频生成装置、电子装置及存储介质
JP2017037424A (ja) 学習装置、認識装置、学習プログラム、及び認識プログラム
Kan et al. Self-constrained inference optimization on structural groups for human pose estimation
JP7199931B2 (ja) 画像生成装置、画像生成方法及びコンピュータープログラム
Ibañez et al. A comparative study of machine learning techniques for gesture recognition using kinect
KR20230087352A (ko) 운동 상태 감지 장치 및 방법
CN112257642B (zh) 人体连续动作相似性评价方法及评价装置
KR102532848B1 (ko) 바디 쉐입 기반의 아바타 생성 방법 및 장치
KR20210076559A (ko) 인체 모델의 학습 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
WO2023188217A1 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP6804781B1 (ja) 情報処理システム、情報処理方法およびコンピュータプログラム
JP2023104106A (ja) 推定装置、推定方法及びプログラム
KR102630828B1 (ko) 인공지능을 이용한 태권도 단체 품새 동작 평가 방법 및 장치
WO2023147775A1 (en) Methods, systems, and media for identifying human coactivity in images and videos using neural networks
US20230068731A1 (en) Image processing device and moving image data generation method
JP2023056137A (ja) 情報処理装置、検出方法、および検出プログラム
CN117750126A (zh) 视频处理方法及装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221221

R150 Certificate of patent or registration of utility model

Ref document number: 7199931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150