JP2019212106A - 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム - Google Patents
領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム Download PDFInfo
- Publication number
- JP2019212106A JP2019212106A JP2018108662A JP2018108662A JP2019212106A JP 2019212106 A JP2019212106 A JP 2019212106A JP 2018108662 A JP2018108662 A JP 2018108662A JP 2018108662 A JP2018108662 A JP 2018108662A JP 2019212106 A JP2019212106 A JP 2019212106A
- Authority
- JP
- Japan
- Prior art keywords
- image
- mask
- learning data
- synthetic
- composite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013519 translation Methods 0.000 claims abstract description 19
- 239000002131 composite material Substances 0.000 claims description 110
- 230000015572 biosynthetic process Effects 0.000 claims description 40
- 238000003786 synthesis reaction Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 17
- 238000002360 preparation method Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 27
- 230000014616 translation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
【課題】学習データの準備コストを抑えることができる、画像から人物領域を抽出する技術を提供する。【解決手段】人物領域を含む画像と人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から合成画像と合成画像の人物領域を示す合成マスクの組である合成学習データを生成する合成学習データ生成部と、合成学習データを用いてモデルパラメータを学習する学習部とを含み、合成学習データ生成部は、学習データのマスクを用いて、拡大率、並進度、回転度の組である合成パラメータを生成する合成パラメータ生成部と、学習データのマスクを用いて学習データの画像から合成人物領域を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、合成パラメータを用いて合成画像と同一サイズのマスク生成用画像と合成人物領域から合成マスクを生成し、合成学習データを生成する合成画像・合成マスク生成部とを含む。【選択図】図1
Description
本発明は、画像から人物を含む領域を抽出する技術に関する。
画像から人物を含む領域(以下、人物領域という)を抽出する技術は、セマンティックセグメンテーション(Semantic Segmentation)と呼ばれ、近年では特に深層学習(Deep Learning)を用いた研究が数多くなされている(非特許文献1、非特許文献2)。深層学習を用いたセマンティックセグメンテーションでは、画像と当該画像に含まれる人物領域を示すマスクの組である学習データを事前に多数用意する必要がある。最近では、深層学習に用いる学習データを蓄積した学習データベース(例えば、非特許文献3)も整備されつつあり、このような学習データベースを用いることにより深層学習による領域抽出の精度も向上しつつある。
Olaf Ronneberger, et al., "U-Net: Convolutional Networks for Biomedical Image Segmentation", MICCAI 2015, Springer, Lecture Notes in Computer Science, vol. 9351, pp.234-241, 2015.
Shuai Zheng, et al., "Conditional Random Fields as Recurrent Neural Networks", International Conference on Computer Vision (ICCV) 2015, pp.1529-1537, 2015.
The PASCAL Visual Object Classes Homepage, [online], [平成30年5月23日検索], インターネット<URL:http://host.robots.ox.ac.uk/pascal/VOC/>
しかし、スポーツ映像のように、特殊な姿勢をした人物の領域を含む画像については、学習データの蓄積が十分に進んでおらず、既存の学習データベースを用いた深層学習では、十分な抽出精度を得ることができないという問題がある。この問題を解決するには、学習データベースから得られる学習データ以外に別途学習データを追加的に準備し、学習するとよいが、この学習データの準備にはコストがかかる。特に、抽出精度をより向上させるためには、学習データの要素となる画像の背景と学習済みモデルを用いた抽出処理の対象となる画像の背景が同一であるのが好ましいが、このような学習データを準備しようとすると大変なコストがかかってしまう。野球を例に説明する。投球シーンにおけるピッチャーの領域を抽出するために用いる投球シーンの画像を学習データとして準備しようとする場合、抽出処理対象とする球場においてバッターボックス側からピッチャーマウンドの方にカメラを向けて、特定のユニフォームを着た投球姿勢にある人物を撮影した画像をなるべく多く準備することが望ましいが、この準備作業は非常に手間がかかるものとなる。
そこで本発明では、学習データの準備コストを抑えることができる、画像から人物領域を抽出する技術を提供することを目的とする。
本発明の一態様は、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成部と、前記合成学習データを用いて、モデルパラメータを学習する学習部とを含む領域抽出モデル学習装置であって、前記合成学習データ生成部は、前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成部とを含む。
本発明の一態様は、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成部と、前記合成学習データを用いて、モデルパラメータを学習する学習部とを含む領域抽出モデル学習装置であって、前記合成学習データ生成部は、前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成部と、前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成部とを含む。
本発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<第1実施形態>
以下、図1〜図2を参照して領域抽出モデル学習装置100を説明する。図1は、領域抽出モデル学習装置100の構成を示すブロック図である。図2は、領域抽出モデル学習装置100の動作を示すフローチャートである。図1に示すように領域抽出モデル学習装置100は、背景画像生成部110と、合成学習データ生成部120と、学習部130と、記録部190を含む。記録部190は、領域抽出モデル学習装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。ここで、既存の学習データとは、人物領域を含む画像と当該人物領域を示すマスクの組である。マスクは、例えば、人物領域を白、それ以外を黒とする、人物領域を含む画像と同一サイズの2値画像であり、正解データに相当するもの(正解領域を示す画像)である。学習済みモデルパラメータは、非特許文献1や非特許文献2などの深層学習により学習したモデルパラメータである。また、記録部190は、例えば、背景画像の候補となる画像を記録する。背景画像は、合成学習データの要素である合成画像の背景となる画像であり、人物が撮影されていない画像である。なお、背景画像の背景は、後述する領域抽出装置300が人物領域を抽出する対象となる画像(処理対象画像)の背景と同じであるのが、好ましい。背景画像の候補となる画像は、事前に領域抽出モデル学習装置100に取り込んでいてもよいし、カメラを用いてリアルタイムに領域抽出モデル学習装置100に取り込んでもよい。
以下、図1〜図2を参照して領域抽出モデル学習装置100を説明する。図1は、領域抽出モデル学習装置100の構成を示すブロック図である。図2は、領域抽出モデル学習装置100の動作を示すフローチャートである。図1に示すように領域抽出モデル学習装置100は、背景画像生成部110と、合成学習データ生成部120と、学習部130と、記録部190を含む。記録部190は、領域抽出モデル学習装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。ここで、既存の学習データとは、人物領域を含む画像と当該人物領域を示すマスクの組である。マスクは、例えば、人物領域を白、それ以外を黒とする、人物領域を含む画像と同一サイズの2値画像であり、正解データに相当するもの(正解領域を示す画像)である。学習済みモデルパラメータは、非特許文献1や非特許文献2などの深層学習により学習したモデルパラメータである。また、記録部190は、例えば、背景画像の候補となる画像を記録する。背景画像は、合成学習データの要素である合成画像の背景となる画像であり、人物が撮影されていない画像である。なお、背景画像の背景は、後述する領域抽出装置300が人物領域を抽出する対象となる画像(処理対象画像)の背景と同じであるのが、好ましい。背景画像の候補となる画像は、事前に領域抽出モデル学習装置100に取り込んでいてもよいし、カメラを用いてリアルタイムに領域抽出モデル学習装置100に取り込んでもよい。
以下、図2を参照して、領域抽出モデル学習装置100の動作について説明する。
S110において、背景画像生成部110は、記録部190に記録している背景画像の候補となる画像を入力とし、当該画像から背景画像を生成し、出力する。背景画像の候補となる画像の中に、人物が撮影されていない画像が複数ある場合は、その中の何れか一枚を背景画像とすればよい。また、背景画像の候補となる画像をそのまま背景画像としてもよいし、大きさを適切なものにするなど調整したものを背景画像としてもよい。
S120において、合成学習データ生成部120は、記録部190に記録している既存の学習データとS110で生成した背景画像を入力とし、既存の学習データと背景画像から合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成し、出力する。図3は、合成学習データを説明する図である。
以下、図4〜図5を参照して合成学習データ生成部120を説明する。図4は、合成学習データ生成部120の構成を示すブロック図である。図5は、合成学習データ生成部120の動作を示すフローチャートである。図4に示すように合成学習データ生成部120は、合成パラメータ生成部121と、合成画像・合成マスク生成部122を含む。
以下、図5を参照して、合成学習データ生成部120の動作について説明する。
S121において、合成パラメータ生成部121は、記録部190に記録している既存の学習データを入力とし、既存の学習データの要素であるマスクを用いて、合成パラメータを生成し、合成パラメータと既存の学習データを出力する。合成パラメータとは、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である。以下、具体的に説明する。
拡大率は、人物領域の横方向・縦方向のピクセル数にかける所定の割合であり、例えば、0.9〜1.1の範囲で選択すればよい。例えば、拡大率を1.0とすれば、人物領域の大きさを変えることなく、背景画像と合成することになる。また、拡大率を0.9とすれば、人物領域の大きさを縮小することになる。なお、拡大率は、所定の方法で(例えば、人物領域の下辺(人物の足元付近の領域の辺)を固定した上で)適用するものとする。つまり、拡大率を所定の方法で人物領域に適用することにより、拡大・縮小した人物領域を背景画像に合成した合成画像を生成する。また、拡大率は複数生成するのが好ましい。さらに、生成する拡大率として1.0を含むのが好ましい。
並進度は、人物領域を横方向及び・又は縦方向に移動させるピクセル数である。つまり、並進度は、人物領域を横方向に移動させるピクセル数であってもよいし、人物領域を縦方向に移動させるピクセル数であってもよいし、人物領域を横方向に移動させるピクセル数と縦方向に移動させるピクセル数の組であってもよい。横方向に移動させるピクセル数については、例えば、既存の学習データの要素である画像にピッチャープレートが撮影されている場合、画像処理により検出したピッチャープレートの長辺に対応するピクセル数を求め、当該ピクセル数に所定の割合γ(0≦|γ|≦1)をかけた値(当該値が整数にならない場合は適宜丸めた値)を用いればよい。例えば、横方向の並進度を0とすれば、人物領域の位置を左右に移動させることなく、背景画像と合成することになる。また、ピッチャープレートが撮影されていない場合は、ピッチャープレートの長辺の長さ(約40cm)に相対するピクセル数を求め、当該ピクセル数に所定の割合γ(0≦|γ|≦1)をかけた値を用いればよい。横方向に移動させるピクセル数と縦方向に移動させるピクセル数の組については、例えば、人物領域の横方向のピクセル数に所定の割合γ1(0≦|γ1|≦1)をかけた値と人物領域の縦方向のピクセル数に所定の割合γ2(0≦|γ2|≦1)をかけた値の組を用いればよい。なお、並進度は、所定の位置を基準に(例えば、人物領域の左辺と下辺の交点の位置を基準に)適用するものとする。つまり、並進度を所定の位置を基準に人物領域に適用することにより、平行移動した人物領域を背景画像に合成した合成画像を生成する。また、並進度は複数生成するのが好ましい。さらに、生成する並進度として“横方向に0”、“縦方向に0”、“横方向に0、縦方向に0”のように平行移動させないことを示す値を含むのが好ましい。
回転度は、人物領域を傾ける角度であり、例えば、-10°〜10°の範囲で選択すればよい。例えば、回転度を0°とすれば、人物領域を傾けることなく、背景画像と合成することになる。なお、回転度は、所定の位置を(例えば、人物領域の下辺(人物の足元付近の領域の辺)の中心を)回転の中心として適用するものとする。つまり、回転度を所定の位置を回転の中心として人物領域に適用することにより、回転した人物領域を背景画像に合成した合成画像を生成する。また、回転度は複数生成するのが好ましい。さらに、生成する回転度として0°を含むのが好ましい。
N個(N≧1)の合成パラメータを生成した場合、1枚の背景画像と1つの人物領域の組からN枚の合成画像が生成することができる。合成パラメータの数を示すNは、少なくとも10、例えば、100程度であるのが好ましい。また、拡大率、並進度、回転度のいずれについても3個以上生成するのが好ましい。したがって、100程度の合成パラメータを生成する場合、例えば、拡大率、並進度、回転度をそれぞれ5個、5個、4個生成し、これらを組合せて100個の合成パラメータを生成してもよい。また、拡大率、並進度、回転度をそれぞれ6個、6個、3個生成し、これらを組み合わせて108個の合成パラメータを生成してもよい。
S122において、合成画像・合成マスク生成部122は、S110で生成した背景画像とS121で出力した既存の学習データとS121で生成した合成パラメータを入力とし、既存の学習データの要素であるマスクを用いて既存の学習データの要素である画像から人物領域(以下、合成人物領域という)を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、合成パラメータを用いて合成画像と同一サイズのマスク生成用画像と合成人物領域から合成マスクを生成し、合成画像と合成マスクの組である合成学習データを生成し、出力する。合成画像の生成には、どのような合成方法を用いてもよい。合成マスクの生成に用いるマスク生成用画像は、例えば、黒一色の単色画像(合成画像の各ピクセルを黒に変換して得られる画像)である。また、合成マスクは、例えば、合成人物領域の各ピクセルを白に変換して得られる領域をマスク生成用画像と合成することにより、生成する。合成マスクの生成には、どのような合成方法を用いてもよく、例えば、合成画像の生成と同様の方法を用いることができる。
S130において、学習部130は、記録部190に記録している学習済みモデルパラメータとS120で生成した合成学習データを入力とし、合成学習データを用いてモデルパラメータ(領域抽出モデル)を学習(つまり、更新)し、出力する。学習に際して、モデルパラメータの初期値として学習済みモデルパラメータを用いる。また、学習方法は、既存の学習データを用いた学習と同一の方法を用いる。具体的には、学習中のモデルパラメータを用いて合成画像から抽出される人物領域と合成マスクの人物領域の誤差に基づいて定義される損失関数L(p)(pはピクセルを表す)を用いて、例えば、その値を減少させるように、モデルパラメータを学習(更新)していく。また、次式で定義される重み付き損失関数Lw(p)を用いて、モデルパラメータの学習(更新)を行ってもよい。
ここで、M(p)は人物領域では1、それ以外の領域では0となる関数である。また、αは所定の正の値であり、0.5より大きい値とするのが好ましい。αは、人物領域の影響を制御するパラメータであり、その値が大きくなるほど人物領域の影響が大きくなるという特徴を有する。
なお、モデルパラメータの初期値として学習済みモデルパラメータを用いる代わりに、ランダムに生成した値を用いてもよい。この場合、記録部190は、学習済みモデルパラメータを記録しておく必要はなく、また、学習部130には、S120で生成した合成学習データのみが入力される。
本実施形態の発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。
<第2実施形態>
以下、図1〜図2を参照して領域抽出モデル学習装置200を説明する。図1は、領域抽出モデル学習装置200の構成を示すブロック図である。図2は、領域抽出モデル学習装置200の動作を示すフローチャートである。図1に示すように領域抽出モデル学習装置200は、背景画像生成部110と、合成学習データ生成部220と、学習部130と、記録部190を含む。記録部190は、領域抽出モデル学習装置200の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。また、記録部190は、例えば、背景画像の候補となる画像を記録する。
以下、図1〜図2を参照して領域抽出モデル学習装置200を説明する。図1は、領域抽出モデル学習装置200の構成を示すブロック図である。図2は、領域抽出モデル学習装置200の動作を示すフローチャートである。図1に示すように領域抽出モデル学習装置200は、背景画像生成部110と、合成学習データ生成部220と、学習部130と、記録部190を含む。記録部190は、領域抽出モデル学習装置200の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。また、記録部190は、例えば、背景画像の候補となる画像を記録する。
領域抽出モデル学習装置200は、合成学習データ生成部120の代わりに合成学習データ生成部220を含む点において領域抽出モデル学習装置100と異なる。
以下、図2を参照して、領域抽出モデル学習装置200の動作について説明する。
S110において、背景画像生成部110は、記録部190に記録している背景画像の候補となる画像を入力とし、当該画像から背景画像を生成し、出力する。
S220において、合成学習データ生成部220は、記録部190に記録している既存の学習データとS110で生成した背景画像を入力とし、既存の学習データと背景画像から合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成し、出力する。
以下、図6〜図7を参照して合成学習データ生成部220を説明する。図6は、合成学習データ生成部220の構成を示すブロック図である。図7は、合成学習データ生成部220の動作を示すフローチャートである。図6に示すように合成学習データ生成部220は、合成パラメータ生成部121と、合成画像生成部222と、合成マスク生成部223を含む。
以下、図7を参照して、合成学習データ生成部220の動作について説明する。
S121において、合成パラメータ生成部121は、記録部190に記録している既存の学習データを入力とし、既存の学習データの要素であるマスクを用いて、合成パラメータを生成し、合成パラメータと既存の学習データを出力する。
S222において、合成画像生成部222は、S110で生成した背景画像とS121で出力した既存の学習データとS121で生成した合成パラメータを入力とし、既存の学習データの要素であるマスクを用いて既存の学習データの要素である画像から人物領域(以下、合成人物領域という)を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、出力する。合成画像の生成は、S122と同様でよい。
S223において、合成マスク生成部223は、S222で生成した合成画像を入力とし、合成画像を用いて合成画像と同一サイズのマスク生成用画像から合成マスクを生成し、合成画像と合成マスクの組である合成学習データを生成し、出力する。
以下、図8〜図9を参照して合成マスク生成部223を説明する。図8は、合成マスク生成部223の構成を示すブロック図である。図9は、合成マスク生成部223の動作を示すフローチャートである。図8に示すように合成マスク生成部223は、関節位置取得部224と、人物領域生成部225と、出力部226を含む。
以下、図9を参照して、合成マスク生成部223の動作について説明する。なお、図10は、合成マスク生成部223の処理の様子を示す図である。
S224において、関節位置取得部224は、S222で生成した合成画像を入力とし、合成画像に含まれる人物領域の人物の関節位置と関節ラベル(例えば、右手首、右肘)を取得し、関節位置と関節ラベル、合成画像を出力する。具体的には、関節ラベルの連結関係を示す関節モデルを用いて、関節位置・関節ラベルを取得する。例えば、openPose(参考非特許文献1)を用いて取得することができる(図10(A)参照)。
(参考非特許文献1:Realtime_Multi-Person_Pose_Estimation, [online], [平成30年5月23日検索], インターネット<URL: https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation>)
S225において、人物領域生成部225は、S224で出力した合成画像とS224で取得した関節位置と関節ラベルを入力とし、関節位置と関節ラベルを用いてマスク生成用画像から合成マスクを生成し、合成マスクと合成画像を出力する。具体的には、上述の関節モデルを用いて、関節ラベルの示す関節の関節位置を幾何的に連結することにより、合成画像上に人物を示す領域を生成し、当該領域を白色、それ以外の合成画像上の領域を黒色にすることにより、合成マスクを生成する(図10(B)参照)。ここで、幾何的に連結するとは、人物を示す領域にフィッティングさせるために、事前に用意した図形(例えば、矩形、楕円、直線、曲線)を関節位置にあわせて組み合わせる処理のことをいう。
(参考非特許文献1:Realtime_Multi-Person_Pose_Estimation, [online], [平成30年5月23日検索], インターネット<URL: https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation>)
S225において、人物領域生成部225は、S224で出力した合成画像とS224で取得した関節位置と関節ラベルを入力とし、関節位置と関節ラベルを用いてマスク生成用画像から合成マスクを生成し、合成マスクと合成画像を出力する。具体的には、上述の関節モデルを用いて、関節ラベルの示す関節の関節位置を幾何的に連結することにより、合成画像上に人物を示す領域を生成し、当該領域を白色、それ以外の合成画像上の領域を黒色にすることにより、合成マスクを生成する(図10(B)参照)。ここで、幾何的に連結するとは、人物を示す領域にフィッティングさせるために、事前に用意した図形(例えば、矩形、楕円、直線、曲線)を関節位置にあわせて組み合わせる処理のことをいう。
S226において、出力部226は、S225で出力した合成画像とS225で生成した合成マスクを入力とし、合成画像と合成マスクの組である合成学習データを生成し、出力する。
S130において、学習部130は、記録部190に記録している学習済みモデルパラメータとS120で生成した合成学習データを入力とし、合成学習データを用いてモデルパラメータ(領域抽出モデル)を学習(つまり、更新)し、出力する。学習に際して、モデルパラメータの初期値として学習済みモデルパラメータを用いる。
なお、モデルパラメータの初期値として学習済みモデルパラメータを用いる代わりに、ランダムに生成した値を用いてもよい。この場合、記録部190は、学習済みモデルパラメータを記録しておく必要はなく、また、学習部130には、S120で生成した合成学習データのみが入力される。
本実施形態の発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。
(変形例1)
合成学習データ生成部220における合成マスクの生成では、関節モデルを用いた。この関節モデルを用いて、M(p)を人物領域ではピクセルごとに定まる重みwp(0<wp≦1)、それ以外の領域では0となる関数として定義し、学習部130による学習を行うようにしてもよい。なお、関数M(p)は、学習部130が学習開始前に生成する。例えば、右手首と右肘を連結した領域のピクセルでは重みが1、右肘と右肩を連結した領域のピクセルでは重みが0.7というようにM(p)を定義する。人物領域のピクセルごとに重みが異なるM(p)を用いた重み付き損失関数Lw(p)を用いて学習部130がモデルパラメータを学習することにより、体の部位の重要度を反映したモデルパラメータの学習が可能となる。
(変形例1)
合成学習データ生成部220における合成マスクの生成では、関節モデルを用いた。この関節モデルを用いて、M(p)を人物領域ではピクセルごとに定まる重みwp(0<wp≦1)、それ以外の領域では0となる関数として定義し、学習部130による学習を行うようにしてもよい。なお、関数M(p)は、学習部130が学習開始前に生成する。例えば、右手首と右肘を連結した領域のピクセルでは重みが1、右肘と右肩を連結した領域のピクセルでは重みが0.7というようにM(p)を定義する。人物領域のピクセルごとに重みが異なるM(p)を用いた重み付き損失関数Lw(p)を用いて学習部130がモデルパラメータを学習することにより、体の部位の重要度を反映したモデルパラメータの学習が可能となる。
<第3実施形態>
以下、図11〜図12を参照して領域抽出装置300を説明する。図11は、領域抽出装置300の構成を示すブロック図である。図12は、領域抽出装置300の動作を示すフローチャートである。図11に示すように領域抽出装置300は、領域抽出部310と、記録部390を含む。記録部390は、領域抽出装置300の処理に必要な情報を適宜記録する構成部である。記録部390は、例えば、領域抽出モデル学習装置100/200が学習したモデルパラメータ(領域抽出モデル)を記録する。
以下、図11〜図12を参照して領域抽出装置300を説明する。図11は、領域抽出装置300の構成を示すブロック図である。図12は、領域抽出装置300の動作を示すフローチャートである。図11に示すように領域抽出装置300は、領域抽出部310と、記録部390を含む。記録部390は、領域抽出装置300の処理に必要な情報を適宜記録する構成部である。記録部390は、例えば、領域抽出モデル学習装置100/200が学習したモデルパラメータ(領域抽出モデル)を記録する。
以下、図12を参照して、領域抽出装置300の動作について説明する。
S310において、領域抽出部310は、処理対象画像を入力とし、記録部390に記録したモデルパラメータを用いて処理対象画像に含まれる人物領域を抽出し、出力する。ここで、処理対象画像は、人物領域を含む画像である。なお、処理対象画像の背景は、先述した通り、領域抽出モデル学習装置100/200が学習で用いた背景画像の背景と同じであるのが好ましい。
本実施形態の発明によれば、抽出処理対象である画像から人物領域を精度よく抽出することが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (7)
- 人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成部と、
前記合成学習データを用いて、モデルパラメータを学習する学習部と
を含む領域抽出モデル学習装置であって、
前記合成学習データ生成部は、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、
前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成部と
を含む領域抽出モデル学習装置。 - 人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成部と、
前記合成学習データを用いて、モデルパラメータを学習する学習部と
を含む領域抽出モデル学習装置であって、
前記合成学習データ生成部は、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、
前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成部と、
前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成部と
を含む領域抽出モデル学習装置。 - 請求項2に記載の領域抽出モデル学習装置であって、
前記合成マスク生成部は、
前記合成画像に含まれる人物領域の人物の関節位置と関節ラベルを取得する関節位置取得部と、
前記関節位置と前記関節ラベルを用いて、前記マスク生成用画像から前記合成マスクを生成する人物領域生成部と、
前記合成画像と前記合成マスクから前記合成学習データを生成する出力部とを含む
ことを特徴とする領域抽出モデル学習装置。 - 請求項1ないし3のいずれか1項に記載の領域抽出モデル学習装置であって、
L(p)を学習中のモデルパラメータを用いて合成画像から抽出される人物領域と合成マスクの人物領域の誤差に基づいて定義される損失関数、M(p)を人物領域では1、それ以外の領域では0となる関数、αを所定の正の値とし、
前記学習部は、
重み付き損失関数Lw(p)を用いて、前記モデルパラメータを学習する
ことを特徴とする領域抽出モデル学習装置。 - 領域抽出モデル学習装置が、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成ステップと、
前記領域抽出モデル学習装置が、前記合成学習データを用いて、モデルパラメータを学習する学習ステップと
を含む領域抽出モデル学習方法であって、
前記合成学習データ生成ステップは、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成ステップと、
前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成ステップと
を含む領域抽出モデル学習方法。 - 領域抽出モデル学習装置が、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク(以下、合成マスクという)の組である合成学習データを生成する合成学習データ生成ステップと、
前記領域抽出モデル学習装置が、前記合成学習データを用いて、モデルパラメータを学習する学習ステップと
を含む領域抽出モデル学習方法であって、
前記合成学習データ生成ステップは、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成ステップと、
前記学習データのマスクを用いて、前記学習データの画像から人物領域(以下、合成人物領域という)を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成ステップと、
前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成ステップと
を含む領域抽出モデル学習方法。 - 請求項1ないし4のいずれか1項に記載の領域抽出モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108662A JP2019212106A (ja) | 2018-06-06 | 2018-06-06 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
US15/734,443 US11816839B2 (en) | 2018-06-06 | 2019-05-20 | Region extraction model learning apparatus, region extraction model learning method, and program |
PCT/JP2019/019831 WO2019235192A1 (ja) | 2018-06-06 | 2019-05-20 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108662A JP2019212106A (ja) | 2018-06-06 | 2018-06-06 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019212106A true JP2019212106A (ja) | 2019-12-12 |
Family
ID=68769403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018108662A Pending JP2019212106A (ja) | 2018-06-06 | 2018-06-06 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11816839B2 (ja) |
JP (1) | JP2019212106A (ja) |
WO (1) | WO2019235192A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200027244A1 (en) * | 2018-07-23 | 2020-01-23 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
WO2021182343A1 (ja) * | 2020-03-13 | 2021-09-16 | 富士フイルム株式会社 | 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置 |
WO2021192515A1 (ja) * | 2020-03-26 | 2021-09-30 | パナソニックIpマネジメント株式会社 | 学習データ生成方法、学習データ生成装置、及び、プログラム |
WO2022092130A1 (ja) * | 2020-10-29 | 2022-05-05 | 株式会社湯山製作所 | 種類判別装置、種類判別方法、種類判別プログラム、及び薬剤仕分装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019212106A (ja) * | 2018-06-06 | 2019-12-12 | 日本電信電話株式会社 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
CN111325767B (zh) * | 2020-02-17 | 2023-06-02 | 杭州电子科技大学 | 基于真实场景的柑橘果树图像集合的合成方法 |
WO2022162877A1 (ja) * | 2021-01-29 | 2022-08-04 | 日本電信電話株式会社 | 画像処理装置、画像処理方法、およびプログラム |
WO2022185644A1 (ja) * | 2021-03-03 | 2022-09-09 | 富士フイルム株式会社 | 画像処理装置、画像処理装置の作動方法、画像処理装置の作動プログラム、並びに学習方法 |
US11880983B2 (en) * | 2021-04-14 | 2024-01-23 | Logitech Europe S.A. | Image enhancement system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178957A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
WO2014207991A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム |
WO2017154630A1 (ja) * | 2016-03-09 | 2017-09-14 | 日本電気株式会社 | 画像処理装置、画像処理方法および記録媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721148B2 (en) * | 2007-12-31 | 2017-08-01 | Applied Recognition Inc. | Face detection and recognition |
US20170039867A1 (en) * | 2013-03-15 | 2017-02-09 | Study Social, Inc. | Mobile video presentation, digital compositing, and streaming techniques implemented via a computer network |
US20190122073A1 (en) * | 2017-10-23 | 2019-04-25 | The Charles Stark Draper Laboratory, Inc. | System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture |
US10540757B1 (en) * | 2018-03-12 | 2020-01-21 | Amazon Technologies, Inc. | Method and system for generating combined images utilizing image processing of multiple images |
JP6908183B2 (ja) * | 2018-04-12 | 2021-07-21 | 日本電気株式会社 | 学習用画像生成装置、学習用画像生成方法及びプログラム |
JP2019212106A (ja) * | 2018-06-06 | 2019-12-12 | 日本電信電話株式会社 | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム |
-
2018
- 2018-06-06 JP JP2018108662A patent/JP2019212106A/ja active Pending
-
2019
- 2019-05-20 US US15/734,443 patent/US11816839B2/en active Active
- 2019-05-20 WO PCT/JP2019/019831 patent/WO2019235192A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178957A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
WO2014207991A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム |
WO2017154630A1 (ja) * | 2016-03-09 | 2017-09-14 | 日本電気株式会社 | 画像処理装置、画像処理方法および記録媒体 |
Non-Patent Citations (1)
Title |
---|
菊池 敬済、外4名: ""ポーズ情報の考慮と背景データの拡張によるCNNを用いた人物画像の意味的領域分割"", VISUAL COMPUTING グラフィクスとCAD合同シンポジウム2017 予稿集, JPN6019022001, 23 June 2017 (2017-06-23), JP, pages 30 - 37, ISSN: 0004705692 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200027244A1 (en) * | 2018-07-23 | 2020-01-23 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
US11069089B2 (en) * | 2018-07-23 | 2021-07-20 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
WO2021182343A1 (ja) * | 2020-03-13 | 2021-09-16 | 富士フイルム株式会社 | 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置 |
JPWO2021182343A1 (ja) * | 2020-03-13 | 2021-09-16 | ||
JP7531578B2 (ja) | 2020-03-13 | 2024-08-09 | 富士フイルム株式会社 | 学習データ作成装置、方法、プログラム、及び記録媒体 |
WO2021192515A1 (ja) * | 2020-03-26 | 2021-09-30 | パナソニックIpマネジメント株式会社 | 学習データ生成方法、学習データ生成装置、及び、プログラム |
JP2021157404A (ja) * | 2020-03-26 | 2021-10-07 | パナソニックIpマネジメント株式会社 | 学習データ生成方法、学習データ生成装置、及び、プログラム |
JP7145440B2 (ja) | 2020-03-26 | 2022-10-03 | パナソニックIpマネジメント株式会社 | 学習データ生成方法、学習データ生成装置、及び、プログラム |
WO2022092130A1 (ja) * | 2020-10-29 | 2022-05-05 | 株式会社湯山製作所 | 種類判別装置、種類判別方法、種類判別プログラム、及び薬剤仕分装置 |
JPWO2022092130A1 (ja) * | 2020-10-29 | 2022-05-05 | ||
CN116367805A (zh) * | 2020-10-29 | 2023-06-30 | 株式会社汤山制作所 | 种类判别装置、种类判别方法、种类判别程序及药剂分类装置 |
Also Published As
Publication number | Publication date |
---|---|
US11816839B2 (en) | 2023-11-14 |
US20210224590A1 (en) | 2021-07-22 |
WO2019235192A1 (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019235192A1 (ja) | 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム | |
US10417818B2 (en) | Method for providing a three dimensional body model | |
AU2015358289B2 (en) | Imaging a body | |
CN110660017A (zh) | 一种基于三维姿态识别的舞谱记录与演示方法 | |
GB2607749A (en) | Fine-grained visual recognition in mobile augmented reality | |
CN110310285B (zh) | 一种精确的基于三维人体重建的烧伤面积计算方法 | |
Cai et al. | Smpler-x: Scaling up expressive human pose and shape estimation | |
CN111199531A (zh) | 基于泊松图像融合及图像风格化的交互式数据扩展方法 | |
US20130121409A1 (en) | Methods and Apparatus for Face Fitting and Editing Applications | |
CN110599421A (zh) | 模型训练方法、视频模糊帧转换方法、设备及存储介质 | |
CN113989928B (zh) | 一种动作捕捉和重定向方法 | |
JP2009230703A (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
Tretschk et al. | State of the Art in Dense Monocular Non‐Rigid 3D Reconstruction | |
Shimada et al. | Hulc: 3d human motion capture with pose manifold sampling and dense contact guidance | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
JP2009230704A (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
JP6713422B2 (ja) | 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム | |
US20230154091A1 (en) | Joint rotation inferences based on inverse kinematics | |
CN114998487A (zh) | 一种动画生成的方法、装置、设备及可读介质 | |
US20230079478A1 (en) | Face mesh deformation with detailed wrinkles | |
Chang et al. | Mono-star: Mono-camera scene-level tracking and reconstruction | |
CN114445676A (zh) | 一种手势图像处理方法、存储介质及设备 | |
Xiong et al. | PC-SuperPoint: interest point detection and descriptor extraction using pyramid convolution and circle loss | |
Feng et al. | Applying holo360 video and image super-resolution generative adversarial networks to virtual reality immersion | |
Robertini et al. | Capture of arm-muscle deformations using a depth-camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220215 |