JP7323849B2 - 分割認識方法、分割認識装置及びプログラム - Google Patents
分割認識方法、分割認識装置及びプログラム Download PDFInfo
- Publication number
- JP7323849B2 JP7323849B2 JP2022528361A JP2022528361A JP7323849B2 JP 7323849 B2 JP7323849 B2 JP 7323849B2 JP 2022528361 A JP2022528361 A JP 2022528361A JP 2022528361 A JP2022528361 A JP 2022528361A JP 7323849 B2 JP7323849 B2 JP 7323849B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- bounding box
- mask
- image
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Description
本発明は、分割認識方法、分割認識装置及びプログラムに関する。
セマンティック・セグメンテーション(意味的領域分割)とは、動画像又は静止画像の各画素にカテゴリを割当てる(画像内のオブジェクトを認識する)技術である。セマンティック・セグメンテーションは、自動運転、医療用画像の解析、撮影された人物等のオブジェクトの状態及びポーズ推定等に応用されている。
近年、深層学習を用いて画像を画素単位で領域分割する技術が、盛んに研究されている。画像を画素単位で領域分割する技術として、例えば、Mask-RCNN(Mask - Regions with Convolutional Neural Networks)という技術がある(非特許文献1参照)。
図8は、Mask-RCNNの処理例を示す図である。図8には、対象画像100と、CNN101(Convolutional Neural Network : CNN)と、RPN102(Region Proposal Network)と、特徴マップ103と、固定サイズ特徴マップ104と、全結合層105と、マスクブランチ106とが表されている。図8では、対象画像100は、境界ボックス200(bounding box)と、境界ボックス201と、境界ボックス202とを含む。
CNN101は、畳み込みニューラルネットワークがベースとなったバックボーン・ネットワークである。CNN101には、対象画像100における物体のカテゴリごとに、画素単位の境界ボックスが教師データとして入力される。対象画像100における物体の位置検出と画素単位のカテゴリの割り当てとが、全結合層105とマスクブランチ106との二つの分岐処理で並列に実行される。このような教師あり領域分割(教師あり物体形状分割)の手法は、高度な教師情報が画素単位で用意される必要があるため、手間や時間のコストが膨大である。
画像内の物体画像ごと又は領域ごとのカテゴリ情報を用いて学習する手法は、弱教師あり領域分割(弱教師あり物体形状分割)と呼ばれている。弱教師あり学習による物体形状分割では、物体画像ごと又は領域ごとに教師データ(境界ボックス)が収集されるので、画素単位の教師データを収集する必要がなく、手間や時間のコストが大幅に削減される。
弱教師あり領域分割の例が、非特許文献2に開示されている。非特許文献2にでは、予め用意された領域(bounding box)ごとのカテゴリ情報に対して、MCG(Multiscale combinatorial grouping)やGrabcutを用いて、画像内の前景と背景とが分離される。前景(マスク情報)が物体形状分割及び認識ネットワーク(例えば、Mas-RCNN)に教師データとして入力される。これによって、物体形状分割(前景の抽出)と物体の認識とが実行される。
Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, "Mask R-CNN," ICCV(International Conference on Computer Vision) 2017.
Jifeng Dai, Kaiming He, Jian Sun, "BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation," ICCV(International Conference on Computer Vision) 2015.
教師データとしてニューラルネットワークに入力されるマスク情報(以下「教師マスク情報」という。)の質は、弱教師あり領域分割の性能に大きな影響を与える。
物体形状分割のためのベンチマークデータセット(境界ボックス情報付き)を対象画像として、Grabcutの手法を用いる既存の弱教師あり領域分割によって教師マスク情報が生成された場合について、弱教師あり領域分割に使われた教師マスク情報の質が調査された。この調査では、全体の教師マスク情報のうちの約30%の教師マスク情報は、無効な教師マスク情報、すなわち物体画像(前景)が含まれていない教師マスク情報であった。また、無効な教師マスク情報のうちの約60%の教師マスク情報が表す教師マスクの領域は、64×64ピクセル以下の小さい領域であった。
非特許文献2では、Grabcutの手法を用いて生成された無効なマスク情報が教師データとして用いられ、画像内の物体形状分割と物体の認識(カテゴリ情報の付与)とがを実行されたことで、サイズの小さい物体画像の物体形状分割の精度と、サイズの小さい物体画像の物体の認識精度とが低くなることがある。このように従来では、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とが低い場合がある。
上記事情に鑑み、本発明は、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である分割認識方法、分割認識装置及びプログラムを提供することを目的としている。
本発明の一態様は、分割認識装置が実行する分割認識方法であって、分割認識装置が実行する分割認識方法であって、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップとを含む分割認識方法である。
本発明の一態様は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチとを備える分割認識装置である。
本発明の一態様は、上記の分割認識装置としてコンピュータを機能させるためのプログラムである。
本発明により、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。
本発明の実施形態について、図面を参照して詳細に説明する。
(概要)
実施形態では、物体形状分割(物体画像の形状を有するマスク情報の生成)と物体認識(境界ボックスに対するカテゴリ情報の付与)とのフレームワークにおける、物体検出(境界ボックスの導出)と物体形状分割との二つのタスクの目的に合わせて、教師マスク情報が分けられて有効に利用される。これによって、物体形状分割の精度と、物体認識の精度とが向上する。
(概要)
実施形態では、物体形状分割(物体画像の形状を有するマスク情報の生成)と物体認識(境界ボックスに対するカテゴリ情報の付与)とのフレームワークにおける、物体検出(境界ボックスの導出)と物体形状分割との二つのタスクの目的に合わせて、教師マスク情報が分けられて有効に利用される。これによって、物体形状分割の精度と、物体認識の精度とが向上する。
つまり、物体検出部(物体検出タスク)と境界ボックスブランチ(物体認識タスク)では、全ての境界ボックス情報(各境界ボックスの座標、各境界ボックスのカテゴリ情報)が、有効な情報である。このため、物体検出タスクと物体認識タスクでは、全ての境界ボックス情報が利用される。
これに対して、マスクブランチ(マスク情報生成タスク)では、無効なマスク情報は、物体形状分割の精度と物体認識の精度とに影響を与える。このため、1個以上の弱教師データに対して、フィルタリング処理が実行される。これによって、マスクブランチでは、選出された有効なマスク情報が利用される。
以下では、物体検出部は、物体形状分割と物体認識との対象となる画像(対象画像)と、対象画像に予め定められた境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)を用いて、対象画像における物体画像を検出する。
フィルタリング部は、対象画像に予め定められた境界ボックスを用いる、Grabcut等の物体形状分割(前景の抽出)の手法を用いて、抽出された前景を表す教師マスク情報を導出する。フィルタリング部は、その教師マスク情報にフィルタリング処理を実行することによって、導出された教師マスク情報のうちから有効な教師マスク情報(有効教師マスク情報)を選出する。
分割認識部は、選出された有効マスク情報を教師データとし、第1物体検出部によって学習された物体検出モデルのニューラルネットワークの重み情報を物体形状分割と物体認識との初期値として、物体形状分割と物体認識とを実行する。ここで、分割認識部は、第1物体検出部によって学習された物体検出モデルを、転移学習の手法を用いて形状分割モデルと物体認識モデルとに転移させてもよい。これによって、分割認識部は、対象画像内の様々なサイズの物体画像に対して、物体形状分割(マスク情報の生成)と物体認識とを実行することができる。
(実施形態)
図1は、実施形態における、分割認識システム1の構成例を示す図である。分割認識システム1は、物体画像の形状で対象画像を分割し、物体画像の物体を認識する(物体画像にカテゴリを割り当てる)システムである。分割認識システム1は、物体画像の形状のマスクを生成し、対象画像内の物体画像にマスクを重畳する。
図1は、実施形態における、分割認識システム1の構成例を示す図である。分割認識システム1は、物体画像の形状で対象画像を分割し、物体画像の物体を認識する(物体画像にカテゴリを割り当てる)システムである。分割認識システム1は、物体画像の形状のマスクを生成し、対象画像内の物体画像にマスクを重畳する。
分割認識システム1は、記憶装置2と、分割認識装置3とを備える。分割認識装置3は、取得部30と、第1物体検出部31と、フィルタリング部32と、分割認識部33とを備える。分割認識部33は、第2物体検出部330と、境界ボックスブランチ331と、マスクブランチ332とを備える。
記憶装置2は、対象画像と境界ボックス情報とを記憶する。境界ボックス情報(弱教師データ)は、対象画像において各物体画像を囲む各境界ボックスの座標及びサイズと、各境界ボックスのカテゴリ情報とを含む。カテゴリ情報は、例えば、対象画像に撮影されたロボット又は車両等のオブジェクトのカテゴリを表す情報である。記憶装置2は、処理指示信号を取得部30から受信した場合、対象画像と境界ボックス情報とを取得部30に出力する。
記憶装置2は、境界ボックスブランチ331によって物体認識モデルを用いて更新された境界ボックス情報を記憶する。記憶装置2は、マスクブランチ332によって生成されたマスク情報を記憶する。マスク情報は、マスク画像の座標とマスク画像の形状情報とを含む。マスク画像の形状は、物体画像の形状とほぼ同じである。マスク画像は、対象画像において物体画像に重畳される。
取得部30は、処理指示信号を記憶装置2に出力する。取得部30は、境界ボックス情報(各境界ボックスの座標及びサイズ、各境界ボックスのカテゴリ情報)と対象画像とを、記憶装置2から取得する。取得部30は、弱教師データとしての境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)と対象画像とを、第1物体検出部31とフィルタリング部32とに出力する。
第1物体検出部31(Faster R-CNN)は、取得部30から取得された境界ボックス情報と対象画像とに基づいて、「Faster R-CNN」等の畳み込みニューラルネットワークに基づく第1物体検出モデルを用いて、対象画像内の物体を検出する(参考文献1:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun,CVPR2015.)。
すなわち、第1物体検出部31は、境界ボックス情報と対象画像とに基づいて、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)を生成する。第1物体検出部31は、対象画像と第1物体検出モデル情報とを、第2物体検出部330に出力する。
フィルタリング部32は、取得部30から取得された境界ボックス情報と対象画像とに基づいて、対象画像内の前景を表すマスク情報を生成する。マスク画像の形状は、前景としての物体画像の形状とほぼ同じである。フィルタリング部32は、対象画像内の1個以上の前景のうちから有効な前景を、有効マスクとして選出する。フィルタリング部32は、有効マスクをマスクブランチ332に出力する。
第2物体検出部330(CNN Backbone)は、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)と対象画像とを、第1物体検出部31から取得する。第2物体検出部330は、第1物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第1物体検出モデルの重み情報を用いて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデルを生成する。第2物体検出部330は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、境界ボックスブランチ331とマスクブランチ332とに出力する。
境界ボックスブランチ331(bounding box branch)は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、第2物体検出部330から取得する。境界ボックスブランチ331は、対象画像と第2物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する。境界ボックスブランチ331は、境界ボックスブランチ331は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置2に記録する。
マスクブランチ332(mask branch)は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、第2物体検出部330から取得する。マスクブランチ332は、有効マスクをフィルタリング部32から取得する。マスクブランチ332は、対象画像と、有効マスクと、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する。マスクブランチ332は、生成されたマスク情報を記憶装置2に記録する。
図2は、実施形態における、対象画像の処理例を示す図である。図2では、境界ボックス301と境界ボックス302とが、対象画像300に定められている。境界ボックスブランチ331は、境界ボックス301と境界ボックス302とに基づいて、物体画像を包含する境界ボックス304を生成する。マスクブランチ332は、生成されたマスクを対象画像300の物体画像に重畳する。マスク画像305の形状は、物体画像の形状とほぼ同じである。
図3は、実施形態における、マスクブランチ332の構成例を示す図である。マスクブランチ332は、連結部3320と、全結合部3321と、活性化部3322と、全結合部3323と、活性化部3324と、サイズ整形部3325と、畳み込み部3326とを備える。
連結部3320は、カテゴリ情報(識別特徴、クラス化特徴)と、境界ボックス情報とを、第2物体検出部330から取得する。連結部3320は、カテゴリ情報と境界ボックス情報とを連結する。全結合部3321は、連結部3320の出力を完全連結する。活性化部3322は、全結合部3321の出力に対して、活性化関数「LeakyReLU」を実行する。
全結合部3323は、活性化部3322の出力を完全連結する。活性化部3324は、全結合部3323の出力に対して、活性化関数「LeakyReLU」を実行する。サイズ整形部3325は、活性化部3324の出力のサイズを整形する。
畳み込み部3326は、サイズ整形部3325の出力を取得する。畳み込み部3326は、有効マスク(セグメンテーション特徴)をフィルタリング部32から取得する。畳み込み部3326は、有効マスクを用いて、活性化部3324の出力に対して畳み込み処理を実行することによって、マスク情報を生成する。
次に、分割認識システム1の動作例を説明する。
図4は、実施形態における、分割認識システム1の動作例を示す図である。取得部30は、処理指示信号を記憶装置2に出力する。取得部30は、境界ボックス情報(各境界ボックスの座標、各境界ボックスのカテゴリ情報)と対象画像とを、処理指示信号の応答として、記憶装置2から取得する(ステップS101)。
図4は、実施形態における、分割認識システム1の動作例を示す図である。取得部30は、処理指示信号を記憶装置2に出力する。取得部30は、境界ボックス情報(各境界ボックスの座標、各境界ボックスのカテゴリ情報)と対象画像とを、処理指示信号の応答として、記憶装置2から取得する(ステップS101)。
フィルタリング部32は、対象画像と境界ボックス情報とに基づいて、有効マスクを生成する。すなわち、フィルタリング部32は、対象画像と境界ボックス情報とに基づいて、対象画像内の前景のうちから有効な前景を、有効マスクとして選出する(ステップS102)。フィルタリング部32は、ステップS108に処理を進める。
第1物体検出部31は、対象画像と境界ボックス情報とに基づいて、対象画像内の物体画像を検出するためのモデルである第1物体検出モデル情報(Faster R-CNN)を生成する。第1物体検出部31は、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)と対象画像とを、第2物体検出部330に出力する(ステップS103)。
第2物体検出部330は、対象画像と第1物体検出モデル情報とに基づいて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデル情報を生成する。第2物体検出部330は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、境界ボックスブランチ331とマスクブランチ332とに出力する(ステップS104)。
境界ボックスブランチ331は、対象画像と第2物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する(ステップS105)。
境界ボックスブランチ331は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置2に記録する(ステップS106)。境界ボックスブランチ331は、物体認識モデルの重み情報を、マスクブランチ332に出力する(ステップS107)。
マスクブランチ332は、対象画像と、有効マスクと、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する(ステップS108)。マスクブランチ332は、生成されたマスク情報を、記憶装置2に記録する(ステップS109)。
図5は、実施形態における、フィルタリング部32の動作例(図4に示されたステップS102の詳細)を示す図である。フィルタリング部32は、対象画像と、境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)とを、取得部30から取得する(ステップS201)。
フィルタリング部32は、境界ボックス情報に基づいて、前景と背景とに対象画像を分割する(ステップS202)。フィルタリング部32は、各境界ボックスのIoU(Intersection over Union)を導出する。IoUは、物体検出における評価指標の一つである。すなわち、IoUは、予め定められた正解領域としての境界ボックス情報と境界ボックス(予測領域)との和集合の面積に対する、境界ボックス情報と境界ボックス(予測領域)との積集合の面積である(ステップS203)。フィルタリング部32は、各境界ボックスのIoUに基づいて、有効な前景(物体画像)を有効マスクとして選出する(ステップS204)。
フィルタリング部32は、例えば、IoUが第1閾値以上である境界ボックス内の前景を、有効マスクとして選出する。フィルタリング部32は、境界ボックスの面積に対する、その境界ボックス内の前景(物体画像)の面積の比率(充填率)に基づいて、有効な前景を有効マスクとして選出してもよい。例えば、フィルタリング部32は、充填率が第2閾値以上である境界ボックス内の前景を、有効マスクとして選出する。また、フィルタリング部32は、境界ボックスの画素数に基づいて、境界ボックス内の前景を有効マスクとして選出してもよい。例えば、フィルタリング部32は、画素数が第3閾値以上である境界ボックス内の前景を、有効マスクとして選出してもよい。
図6は、実施形態における、分割認識部33の動作例を示す図である。分割認識部33において、第2物体検出部330は、第1物体検出モデル情報(第1物体検出モデルの重み情報)と対象画像とを、第1物体検出部31から取得する。マスクブランチ332は、有効マスクをフィルタリング部32から取得する(ステップS301)。
第2物体検出部330は、第1物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第1物体検出モデルの重み情報を用いて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデルを生成する(ステップS302)。
境界ボックスブランチ331は、第2物体検出モデル情報(第2物体検出モデルの重み情報)と対象画像とに基づいて、物体認識モデルの重み情報を学習することによって、物体認識モデルを生成する(ステップS303)。境界ボックスブランチ331は、物体認識モデルの重み情報を用いて、対象画像の境界ボックス情報を更新する(ステップS304)。
物体認識モデルの重み情報は、様々なサイズの物体画像を検出することが可能である。これに対して、マスクブランチ332における形状分割モデルでは、サイズの大きい有効マスクが入力データとなっている。このため、ステップS304の時点では、形状分割モデルは、サイズの大きい物体画像を対象画像において分割できるが、サイズの小さい物体画像を対象画像において精度よく分割することができない。
そこで、マスクブランチ332は、物体認識モデルの特徴量に基づく転移学習のファインチューニング手法において、物体認識モデルの重み情報を用いて形状分割モデルの重み情報を学習することによって、形状分割モデルを生成する(ステップS305)。マスクブランチ332は、形状分割モデルを用いて、物体画像の形状で対象画像を分割することによって、物体画像の形状を有するマスク情報を生成する(ステップS305)。
以上のように、第1物体検出部31は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、対象画像における物体画像を検出する。フィルタリング部32は、境界ボックス情報に基づいて、対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出する。境界ボックスブランチ331は、物体画像の物体を認識する物体認識モデルの重み情報の初期値として物体検出モデルの重み情報を用いて、物体画像を認識する。マスクブランチ332は、選出された有効な教師マスク情報を教師データとして、物体画像の形状で対象画像を分割する分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。
このように、選出された有効な教師マスク情報を教師データとして、分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。これによって、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。
図7は、実施形態における、分割認識装置のハードウェア構成例を示す図である。分割認識システム1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ4が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶装置2とメモリ5とに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。表示部6は、画像を表示する。
分割認識システム1の各機能部の一部又は全部は、例えば、LSI(Large Scale Integration circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、画像処理装置に適用可能である。
1…分割認識システム、2…記憶装置、3…分割認識装置、4…プロセッサ、5…メモリ、6…表示部、30…取得部、31…第1物体検出部、32…フィルタリング部、33…分割認識部、100…対象画像、101…CNN、102…RPN、103…特徴マップ、104…固定サイズ特徴マップ、105…全結合層、106…マスクブランチ、200…境界ボックス、201…境界ボックス、202…境界ボックス、300…対象画像、301…境界ボックス、302…境界ボックス、303…対象画像、304…境界ボックス、305…マスク画像、330…第2物体検出部、331…境界ボックスブランチ、332…マスクブランチ、3320…連結部、3321…全結合部、3322…活性化部、3323…全結合部、3324…活性化部、3325…サイズ整形部、3326…畳み込み部
Claims (7)
- 分割認識装置が実行する分割認識方法であって、
対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、
前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、
前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、
選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップと
を含む分割認識方法。 - 前記マスクブランチステップでは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
請求項1に記載の分割認識方法。 - 前記フィルタリングステップでは、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
請求項1又は請求項2に記載の分割認識方法。 - 対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、
前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、
前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、
選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチと
を備える分割認識装置。 - 前記マスクブランチは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
請求項4に記載の分割認識装置。 - 前記フィルタリング部は、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
請求項4又は請求項5に記載の分割認識装置。 - 請求項4から請求項6のいずれか一項に記載の分割認識装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/022225 WO2021245896A1 (ja) | 2020-06-05 | 2020-06-05 | 分割認識方法、分割認識装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021245896A1 JPWO2021245896A1 (ja) | 2021-12-09 |
JP7323849B2 true JP7323849B2 (ja) | 2023-08-09 |
Family
ID=78830722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022528361A Active JP7323849B2 (ja) | 2020-06-05 | 2020-06-05 | 分割認識方法、分割認識装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230186478A1 (ja) |
JP (1) | JP7323849B2 (ja) |
WO (1) | WO2021245896A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220405907A1 (en) * | 2021-06-20 | 2022-12-22 | Microsoft Technology Licensing, Llc | Integrated system for detecting and correcting content |
CN118196840B (zh) * | 2024-05-16 | 2024-08-09 | 华侨大学 | 一种基于语义偏好挖掘的行人再辨识方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330238A1 (en) | 2017-05-09 | 2018-11-15 | Neurala, Inc. | Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges |
CN108830277A (zh) | 2018-04-20 | 2018-11-16 | 平安科技(深圳)有限公司 | 语义分割模型的训练方法、装置、计算机设备和存储介质 |
US20200093464A1 (en) | 2018-09-24 | 2020-03-26 | B-K Medical Aps | Ultrasound Three-Dimensional (3-D) Segmentation |
-
2020
- 2020-06-05 JP JP2022528361A patent/JP7323849B2/ja active Active
- 2020-06-05 WO PCT/JP2020/022225 patent/WO2021245896A1/ja active Application Filing
- 2020-06-05 US US17/928,851 patent/US20230186478A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330238A1 (en) | 2017-05-09 | 2018-11-15 | Neurala, Inc. | Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges |
CN108830277A (zh) | 2018-04-20 | 2018-11-16 | 平安科技(深圳)有限公司 | 语义分割模型的训练方法、装置、计算机设备和存储介质 |
US20200093464A1 (en) | 2018-09-24 | 2020-03-26 | B-K Medical Aps | Ultrasound Three-Dimensional (3-D) Segmentation |
Non-Patent Citations (2)
Title |
---|
Kaiming HE ほか,Mask R-CNN,2017 IEEE International Conference on Computer Vision(ICCV),2017年,pp.2980-2988,ISSN 2380-7504 |
下田和 ほか,皿領域の推論を活用した食事の弱教師あり領域分割,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年10月19日,第119巻, 第252号,pp.53-58,ISSN 0913-5685 |
Also Published As
Publication number | Publication date |
---|---|
WO2021245896A1 (ja) | 2021-12-09 |
JPWO2021245896A1 (ja) | 2021-12-09 |
US20230186478A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US20220148328A1 (en) | Pedestrian detection method and apparatus, computer-readable storage medium, and chip | |
CN110378837B (zh) | 基于鱼眼摄像头的目标检测方法、装置和存储介质 | |
CN110097050B (zh) | 行人检测方法、装置、计算机设备及存储介质 | |
JP7103240B2 (ja) | 物体検出認識装置、方法、及びプログラム | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
JP7323849B2 (ja) | 分割認識方法、分割認識装置及びプログラム | |
JP4567660B2 (ja) | 電子画像内で物体のセグメントを求める方法 | |
EP3872761A2 (en) | Analysing objects in a set of frames | |
CN112991280B (zh) | 视觉检测方法、系统及电子设备 | |
CN114842035A (zh) | 基于深度学习的车牌脱敏方法、装置、设备及存储介质 | |
CN111428566A (zh) | 一种形变目标跟踪系统及方法 | |
CN110598647A (zh) | 一种基于图像识别的头部姿态识别方法 | |
CN114550062A (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN110785769A (zh) | 人脸性别识别方法、人脸性别分类器的训练方法及装置 | |
CN112668582B (zh) | 图像识别方法、装置、设备和存储介质 | |
CN115080051B (zh) | 一种基于计算机视觉的gui代码自动生成方法 | |
Soni et al. | Text region extraction from scene images using agf and mser | |
JP7210380B2 (ja) | 画像学習プログラム、画像学習方法、及び画像認識装置 | |
CN111652930B (zh) | 一种图像目标检测方法、系统及设备 | |
CN107563284B (zh) | 行人追踪方法及装置 | |
Venkatesan et al. | Advanced classification using genetic algorithm and image segmentation for Improved FD | |
Kim et al. | Automated Facial Wrinkle Segmentation Scheme Using UNet++. | |
Gieseler et al. | Camera-Based Surgical Navigation System: Evaluation of Classification and Object Detection CNN Models for X-markers Detection | |
CN113971671A (zh) | 实例分割方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7323849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |