JP6843086B2 - 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 - Google Patents
画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 Download PDFInfo
- Publication number
- JP6843086B2 JP6843086B2 JP2018040369A JP2018040369A JP6843086B2 JP 6843086 B2 JP6843086 B2 JP 6843086B2 JP 2018040369 A JP2018040369 A JP 2018040369A JP 2018040369 A JP2018040369 A JP 2018040369A JP 6843086 B2 JP6843086 B2 JP 6843086B2
- Authority
- JP
- Japan
- Prior art keywords
- edge
- neural network
- image
- semantic
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 69
- 238000003708 edge detection Methods 0.000 title claims description 51
- 238000012545 processing Methods 0.000 title claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 29
- 230000004913 activation Effects 0.000 description 19
- 238000001994 activation Methods 0.000 description 19
- 238000001514 detection method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 10
- 108091006146 Channels Proteins 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 101100194362 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res1 gene Proteins 0.000 description 5
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Description
幾つかのこれまでの研究は、制限された設定の下で合成線画及び実世界画像から輪郭を凸輪郭、凹輪郭、及び遮蔽輪郭にラベル付けすることに焦点を当てている。室内レイアウト推定は、凹境界(壁、天井、及び地面を折り返す線)を特定することと見ることもできる。遮蔽境界を回復することによって、シーン内のそれぞれ異なる層の深度順序付けを取得することができることが示されている。
多種多様な方法が、知覚境界の抽出に向けて推し進められている。それぞれ異なるパッチに対してブーストされた決定木を用いてエッジマップを抽出することが可能である。ランダムフォレストを用いて、物体境界パッチであるスケッチトークンを計算することも可能である。幾つかの他のエッジ検出方法は、統計的エッジ、マルチスケール境界検出、及び自己相互情報(PMI:point-wise mutual information)検出器を含むことができる。別の手法は、構造化されたランダムフォレストを用いるリアルタイム高速エッジ検出方法とすることができる。他の方法では、深層ニューラルネットワークを用いることによって、検出性能を最新技術水準にまで押し上げることができる。
意味エッジ検出の起源は、おそらく正確に指摘することができる。意味エッジ検出は、高レベルタスクとして、セグメンテーション及び再構成に関連した多くの問題においても暗黙的又は明示的に用いられてきた。或る意味で、全てのセマンティックセグメンテーション方法は、厳密に見なければ、意味エッジ検出と見ることができる。なぜならば、セグメンテーション結果から、必ずしも正確なエッジではないものの、エッジを容易に取得することができるからである。問題文を2値エッジ検出又はカテゴリー認識意味エッジ検出として具体的に定式化する手法が存在し得る。意味エッジ検出は、意味境界データセット(SBD)を導入することができ、ボトムアップエッジ及びトップダウン検出器情報の双方を組み合わせてカテゴリー認識意味エッジを検出する逆検出器を提案する。HFL(High-for-Low)(Bertasius他、2015)は、まず、VGGネットワーク(Simonyan及びZisserman、2014)を用いて2値意味エッジの位置を突き止め、次に、FCN(完全畳み込みネットワーク)及びDeepLab等の深層セマンティックセグメンテーションネットワークを用いてカテゴリーラベルを取得する。しかしながら、このフレームワークは、予測プロセスが分離されていることに起因して、エンドツーエンドにトレーニング可能ではない。
深層ニューラルネットワークをエッジ検出に用いることができる。1つの注目すべき方法は、画像対画像形式でエッジをトレーニング及び予測し、エンドツーエンドトレーニングを実行する全体ネスト型エッジ検出(HED)であり得る。
入力画像(例えば、図3Aにおける300、図4Aにおける400、又は図5Aにおける500)を所与として、本発明の目標は、既定のカテゴリーに対応する意味エッジマップを計算することである。より形式的に言えば、入力画像I及びK個の定義された意味カテゴリーについて、本発明者らは、K個のエッジマップ{Y1,...,YK}を取得することに関心がある。各エッジマップは、Iと同じサイズを有する。パラメーターWを有するネットワークを用いて、ピクセルpにおける第kの意味カテゴリーに関して計算されたエッジ確率を示すネットワーク出力をYk(p|I;W)∈[0;1]と示すことにする。
場合によってはセマンティックセグメンテーションのマルチクラスの性質によって推し進められることによって、カテゴリー認識意味エッジ検出に関する幾つかの関連した研究は、多かれ少なかれ、マルチクラス学習の視点から問題を検討してきた。本発明者らの直観は、この問題が、本質的には、1つのピクセルが複数のカテゴリーに同時に属することを可能にすべきであり、また、マルチラベル学習フレームワークによって対処されるべきであるというものである。
本発明者らは、CASENet、すなわち、カテゴリー認識意味エッジ検出を扱うエンドツーエンドでトレーニング可能な畳み込みニューラルネットワーク(CNN)アーキテクチャ(図5Aに示す)を提案する。CASENetを説明する前に、本発明者らは、まず、エッジ検出及びセマンティックセグメンテーションの際に与えることができる2つの代替のネットワークアーキテクチャを提案する。いずれのアーキテクチャも、本発明者らのタスクを扱うことができるが、これらのアーキテクチャに伴う問題が分析され、CASENetアーキテクチャを提案することによってこれらの問題が対処される。
図3Aは、本開示の実施形態によるマルチラベル意味エッジトレーニングの畳み込みニューラルネットワーク(CNN)のbasicアーキテクチャを示すブロック図である。この場合、入力データは、インターフェース、例えば撮像インターフェース270、HMI210、又はNIC250を用いて層300において導入され、res1、res2、res3、res4、及びres5のブロックを通じて処理され、分類ブロック310において分類される。これらのブロックのそれぞれは、層と呼ばれる場合がある。図3Bも、本開示の実施形態による、図3AのCNNにおいて用いられる1×1畳み込み層とアップサンプリング層とを有するモジュール315を示すブロック図である。
非常に自然のアーキテクチャは、図3Aに示すBasicアーキテクチャとすることができる。ベースネットワークの上部には、分類モジュール(図3B)が1×1畳み込み層及びその後に続く双1次アップサンプリング層(Kグループ化(K-grouped)逆畳み込み層によって実施される)として追加され、K個の活性化マップの集合{A1,...,AK}が生成される。各活性化マップは、画像と同じサイズを有する。次に、式(1)に提示されたYk(p)=σ(Ak(p))によって与えられるシグモイドユニットを用いて、第kのクラスエッジに属するピクセルの確率がモデル化される。Yk(p)は、互いに排反するものではないことに留意されたい。
図4Aは、本開示の実施形態によるマルチラベル意味エッジトレーニングの深層教師ありネットワーク(DSN)のアーキテクチャを示すブロック図である。図4Bは、本開示の実施形態による、図4AのDSNにおいて用いられるスライス連結を用いるモジュールを示すブロック図である。図4Cは、本開示の実施形態による、図4AのDSNにおいて用いられる融合分類を用いるモジュールを示すブロック図である。
Basicアーキテクチャ及びDSNアーキテクチャを見直すと、カテゴリー認識意味エッジ検出タスクにおいて幾つかの潜在的な関連した課題があることに気付く。第1に、底部側の受容野が制限されている。その結果、コンテキスト情報は意味分類において重要な役割を果たすことからして、ネットワークが早期の段階で意味分類を実行することを要することは不合理であり得る。意味分類は、逆に、特徴が高レベル情報を用いて符号化される上部において行われるべきと考えられる。第2に、底部側の特徴は、上部分類を強化することと、非エッジピクセルを抑制することと、詳細なエッジ位置同定及び構造情報を提供することとに有用である。したがって、底部側の特徴は、エッジ検出において考慮されるべきである。
1.底部側における分類モジュールを特徴抽出モジュールに置き換える。
2.分類モジュールを配置し、ネットワークの上部においてのみ管理監督を課す。
3.スライス連結の代わりに共有連結(図5Cにおける515及び図5Aにおける510)を実行する。
CASENet1を、InvDet、HFL、弱教師付き物体境界、及び幾つかのベースラインネットワークアーキテクチャを含むこれまでの最新技術の方法とともに論述する。
意味エッジ検出をベンチマークする標準的なデータセットであるSBDに対して上記方法が評価される。SBDに加えて、この評価は、ピクセルレベルの高品質のアノテーション及び魅力的なストリートビューシナリオを有する普及したセマンティックセグメンテーションデータセットであるCityscapesにも拡張される。本発明者らの知る限りでは、本発明の方法は、このデータセットに対する意味エッジ検出結果を形式的に報告する最初の研究である。
このデータセットは、PASCAL VOC2011 trainvalセットからの11355個の画像からなり、8498個のトレーニング画像と2857個のテスト画像2とに分割されている。このデータセットは、20個のPascal VOCクラスのうちの1つを用いてラベル付けされた意味境界を有する。
このデータセットは、5000個の画像を含み、2975個のトレーニング画像と、500個の検証画像と、1525個のテスト画像とに分割されている。テスト画像のラベルは、現在、利用可能でないので、本発明者らの実験では、検証画像がテスト画像として扱われる。
SBD及びCityscapesの双方に関して、各クラスのエッジ検出精度が、公式ベンチマークコード及びグランドトゥルースを用いて評価される。全ての設定及びパラメーターはデフォルトとして維持され、最適データセットスケール(ODS)における最大F値(MF)と、各クラスの平均精度(AP)とが報告される。Cityscapesの場合、これに正確に従って、評価のための単一ピクセル幅を有するグランドトゥルース境界が生成され、グランドトゥルース及び予測されたエッジマップの双方のサイズが、評価速度を考慮した各寸法に沿って2分の1に削減される。
Caffeライブラリを用いて、CASENet、HED、及び提案されたベースラインアーキテクチャをトレーニング及び試験した。
ヒューマンアノテーションと真のエッジとの間の位置合わせ不良、及び境界の近くのピクセルのラベルの曖昧さを考慮して、ネットワークトレーニング用に僅かに太くしたグランドトゥルースエッジが生成される。これは、ピクセルの近傍を調べ、セグメンテーションラベルの何らかの相違を探すことによって行うことができる。そのような相違が存在する場合、そのピクセルはエッジピクセルとみなされる。本明細書では、近傍の最大範囲は2に設定される。マルチラベルフレームワークの下では、それぞれ異なるクラスからのエッジが重複する場合がある。
HFL及びHED等の幾つかの主な比較方法は、エッジ検出及びカテゴリー化にVGGアーキテクチャ又はVGGベースのアーキテクチャを用いるので、本発明でも、VGGに対してCASENet及び他のベースラインアーキテクチャ(CASENet−VGGと示す)が採用される。特に、conv4の後の最大プーリング層が除去され、conv4と同じconv5、fc6及びfc7の分解能(入力の1/8)が維持される。fc6及びfc7の双方は、3×3畳み込み及び1×1畳み込みと、1024に設定された寸法とを有する畳み込み層として扱われる。2及び4の相似比が、conv5及びfc6に適用される。本発明のマルチラベルフレームワークをマルチクラスと比較するために、各クラスの非重複エッジを有するグランドトゥルースが生成され、ソフトマックス(softmax)損失が本明細書と同様に再重み付けされ、上部が、再重み付けされた21クラスソフトマックス損失に置き換えられる。
本発明者らの実験では、CASENetにおけるResNet/VGGの畳み込みブロックと、MS COCO(Microsoft Common Objects in Context)データセットに対して事前にトレーニングされたモデルを用いた全ての比較ベースラインとが初期化される。
同じベースネットワークを用いた全ての比較方法のハイパーパラメーターが統一され、それらのハイパーパラメーターのほとんどはHEDに従って設定される。特に、10の反復サイズを用いてSGDが実行され、損失重みが1に固定され、運動量が0.9に固定され、重み減衰が0.0005に固定される。ResNetを用いた方法の場合、学習レート、ステップサイズ、ガンマ、及びクロップサイズは、SBD及びCityscapesについてそれぞれ1e−7/5e−8、10000/20000、0.1/0.2、及び352×352/472×472に設定される。VGGの場合、学習レートは、1e−8に設定されるが、それ以外のものは、SBDに関するResNetと同じままである。ソフトマックス損失を有するベースラインの場合、学習レートは、0.01に設定されるが、それ以外のパラメーターは同じままである。SBD及びCityscapesに関する反復数は、経験的に22000及び40000に設定される。
トレーニング中、SBD及びCityscapesの双方に対してランダムミラーリング及びクロッピングが可能にされる。SBDデータは、倍率{0.5,0.75,1.0,1.25,1.5}を用いて各画像をサイズ変更することによって更に強化される一方、Cityscapesに対してそのような強化は行われない。
図6は、SBDに対してカテゴリーごとのエッジ検出を実行するそれぞれ異なる方法のMFスコアを示す表である。この表では、CASENetは、これまでの方法よりも性能が優れている。ベンチマークコードを用いると、注目される1つのことは、事後処理が、精度及びリコールレートの測定における閾値処理の後に行われることに主に起因して、曲線のリコールスコア(recall scores)が単調に増加していないということである。これは、本発明では、取得された生のエッジマップに対して事後処理動作が行われていないことから妥当である。APは、そのような状況下で明確に定義されていないので、SBDに関するMFのみが示されている。読者は、クラスごとの精度リコール曲線についての補助資料を参照されたい。
Basicアーキテクチャの下で、提案されたマルチラベル損失が、再重み付けされたソフトマックス損失と比較される。ソフトマックスの使用は、VGG及びResNetの双方に対して大きな性能劣化をもたらすことが分かり、このことは、マルチクラスの方法でこの性能劣化に対処するよく受け入れられている概念とは異なり、タスクをマルチラベル学習問題として定式化する本発明者らの動機付けの土台となっている。
CASENetは、図4A、図4B及び図4Cに示すBasic及びDSNを含むベースラインネットワークアーキテクチャと比較される。その結果は、底部側における深層教師が必要でない場合があるという本発明者らの直観を経験的に支持する。特に、CASENetは、クラスごとのMFだけでなく最終平均MFスコアにおいて頻繁に勝っている。本発明者らの観察結果は、アノテーション品質が、或る程度、ネットワーク学習行動及び評価に影響を与え、種々の方法にわたって性能が低下する相違がもたらされたということである。そのような相違は、Cityscapesにおいてより明らかになる。
CASENetにおけるサイド−5活性化に教師を課す必要性があるのかという更なる疑問が生じ得る。トレーニング中にサイド−5教師を有しない同じCASENetアーキテクチャを示すのに、CASENet−を用いることにする。サイド−5教師を加えることよりも向上した点は、高位レベル側活性化に対する教師が有用であることを示している。本発明者らの直観は、サイド−5教師が、サイド5が、底部層と相互作用することからの影響が少ない意味クラスの分類に、より多くの焦点を当てるのを援助するというものである。
図6におけるCASENet−VGGは、HFL−FC8に匹敵する性能を示している。HFL−CRFは、CRF事後処理の援助を受けて、僅かにより良好に動作する。或る程度の結果は、HFLがエッジ位置同定及び分類に2つのVGGネットワークを個別に用いる場合には、本発明の学習フレームワークが有効であることを示している。本発明の方法も、MF/APに関して44/41を与え、検出を伴って49/45を与えるHEDベースラインよりも大幅に性能が優れている。
DSN及びCASENetの双方も、Cityscapesに関してベースネットワークとしてResNetを用いてトレーニング及び試験される。SBDと比較すると、Cityscapesは、比較的高いアノテーション品質を有するが、より困難なシナリオを含む。データセットは、より多くの重複する物体を含み、これは、マルチラベル意味境界ピクセルのより多くの場合につながり、したがって、提案された方法を試験するのにより良好であり得る。図6において、比較方法のMF及びAPの双方が提供される。本発明者らが知る限りでは、これは、Cityscapesに関するカテゴリーごとの意味エッジの検出性能を定量的に報告する最初の文書である。CASENetは、全てのクラスにおいてDSNよりも一貫して大幅に性能が優れていることが分かる。
本開示の実施形態においては、カテゴリー認識意味エッジ検出のためのエンドツーエンド深層ネットワークが提案されている。提案されたネスト型アーキテクチャCASENetは、エッジ検出及びセグメンテーションにおいて普及している幾つかの既存のアーキテクチャを上回る改善を示すことが示されている。また、提案されたマルチラベル学習フレームワークは、エッジ検出に関してより良好な学習行動をもたらすことも示されている。本発明者らの提案した方法は、これまでの最新技術の方法よりも大幅に改善されている。
Claims (16)
- 画像においてマルチラベル意味エッジ検出を行う画像処理システムであって、
少なくとも1つの物体を含むシーンの前記画像を受信する画像インターフェースと、
前記画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、
前記ニューラルネットワークを用いて、前記物体に基づいて前記画像をマルチラベルエッジマップに変換するプロセッサであって、前記ニューラルネットワークは、前記画像において前記物体のエッジを検出し、前記物体の前記エッジを形成するピクセルのそれぞれに複数の意味ラベルを割り当て、前記ニューラルネットワークは、該ニューラルネットワークによって実行されたトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、プロセッサと、
前記マルチラベルエッジマップをレンダリングする出力インターフェースと、
を備える、画像処理システム。 - 前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項1に記載の画像処理システム。
- 前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項1に記載の画像処理システム。
- 前記ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項1に記載の画像処理システム。
- 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項1に記載の画像処理システム。
- 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項1に記載の画像処理システム。
- 画像においてマルチラベル意味エッジ検出を行う方法であって、該方法は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、該プロセッサは、該方法を実施する記憶された命令と結合され、該命令は、前記プロセッサによって実行されるときに、該方法の少なくとも幾つかのステップを実行し、該ステップは、
少なくとも1つの物体を含むシーンの画像を受信するステップと、
前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するステップであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、ステップと、
前記マルチラベルエッジマップをレンダリングするステップと、
を含む、方法。 - 前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項7に記載の方法。
- 前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項7に記載の方法。
- 前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項7に記載の方法。
- 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項7に記載の方法。
- 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項7に記載の方法。
- 入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている非一時的コンピューター可読記憶媒体であって、前記方法は、
少なくとも1つの物体を含むシーンの画像の受信に応答して、該画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換することであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求めることと、
前記マルチラベルエッジマップをレンダリングすることと、
を含む、非一時的コンピューター可読記憶媒体。 - 前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項13に記載の記憶媒体。
- 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項13に記載の記憶媒体。
- 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項13に記載の記憶媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762507922P | 2017-05-18 | 2017-05-18 | |
US62/507,922 | 2017-05-18 | ||
US15/718,554 US10410353B2 (en) | 2017-05-18 | 2017-09-28 | Multi-label semantic boundary detection system |
US15/718,554 | 2017-09-28 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018195293A JP2018195293A (ja) | 2018-12-06 |
JP2018195293A5 JP2018195293A5 (ja) | 2021-01-21 |
JP6843086B2 true JP6843086B2 (ja) | 2021-03-17 |
Family
ID=64272525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018040369A Active JP6843086B2 (ja) | 2017-05-18 | 2018-03-07 | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10410353B2 (ja) |
JP (1) | JP6843086B2 (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354391B2 (en) * | 2016-10-27 | 2019-07-16 | Peter Jin-Pyong Yim | Method and system for multi-label image segmentation |
JP7146372B2 (ja) | 2017-06-21 | 2022-10-04 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 |
WO2019066794A1 (en) | 2017-09-27 | 2019-04-04 | Google Llc | END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION |
US11636665B2 (en) * | 2018-01-15 | 2023-04-25 | Shenzhen Corerain Technologies Co., Ltd. | Streaming image semantic segmentation method, logical integrated circuit system and electronic device |
US11551032B1 (en) * | 2018-03-14 | 2023-01-10 | United States Of America As Represented By The Secretary Of The Navy | Machine learning based automated object recognition for unmanned autonomous vehicles |
US11020206B2 (en) * | 2018-05-22 | 2021-06-01 | Align Technology, Inc. | Tooth segmentation based on anatomical edge information |
KR20190134272A (ko) | 2018-05-25 | 2019-12-04 | 삼성전자주식회사 | 영상 처리를 위한 네트워크 조정 방법 및 장치 |
US11120228B2 (en) * | 2018-07-03 | 2021-09-14 | Tata Consultancy Services Limited | Method and system for generating ground truth labels for ambiguous domain specific tasks |
US11055854B2 (en) * | 2018-08-23 | 2021-07-06 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
US10748033B2 (en) * | 2018-12-11 | 2020-08-18 | Industrial Technology Research Institute | Object detection method using CNN model and object detection apparatus using the same |
EP3721382B1 (en) * | 2018-12-31 | 2022-10-12 | Beijing Didi Infinity Technology and Development Co., Ltd. | Method and system of annotation densification for semantic segmentation |
US10872275B2 (en) * | 2019-03-22 | 2020-12-22 | Nokia Technologies Oy | Semantic segmentation based on a hierarchy of neural networks |
KR102073873B1 (ko) * | 2019-03-22 | 2020-02-05 | 주식회사 루닛 | 시맨틱 세그먼테이션 방법 및 그 장치 |
JP7138780B2 (ja) * | 2019-04-02 | 2022-09-16 | 富士フイルム株式会社 | 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム |
US10546216B1 (en) * | 2019-04-11 | 2020-01-28 | Seetree Systems Ltd. | Recurrent pattern image classification and registration |
CN110334724B (zh) * | 2019-04-16 | 2022-06-17 | 武汉理工大学 | 基于lstm的遥感对象自然语言描述及多尺度矫正方法 |
CN110210515B (zh) * | 2019-04-25 | 2021-04-20 | 浙江大学 | 一种图像数据多标签分类方法 |
CN110443254B (zh) * | 2019-08-02 | 2023-06-20 | 上海联影医疗科技股份有限公司 | 图像中金属区域的检测方法、装置、设备和存储介质 |
EP3958742A4 (en) * | 2019-05-24 | 2022-06-29 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for processing x-ray images |
CN112116596A (zh) * | 2019-06-19 | 2020-12-22 | 深圳Tcl新技术有限公司 | 图像分割模型的训练方法、图像分割方法、介质及终端 |
CN110298397A (zh) * | 2019-06-25 | 2019-10-01 | 东北大学 | 基于压缩卷积神经网络的加热金属图像的多标签分类方法 |
US11068748B2 (en) * | 2019-07-17 | 2021-07-20 | Harris Geospatial Solutions, Inc. | Image processing system including training model based upon iteratively biased loss function and related methods |
CN110458051A (zh) * | 2019-07-25 | 2019-11-15 | 中移(杭州)信息技术有限公司 | 一种设备控制的方法、装置、服务器及可读存储介质 |
US11416998B2 (en) | 2019-07-30 | 2022-08-16 | Microsoft Technology Licensing, Llc | Pixel classification to reduce depth-estimation error |
CN110516727B (zh) * | 2019-08-20 | 2022-12-06 | 西安电子科技大学 | 基于fpga深度边缘滤波器的高光谱图像分类方法 |
CN110852325B (zh) * | 2019-10-31 | 2023-03-31 | 上海商汤智能科技有限公司 | 图像的分割方法及装置、电子设备和存储介质 |
CN110827963A (zh) * | 2019-11-06 | 2020-02-21 | 杭州迪英加科技有限公司 | 针对病理图像的语义分割方法和电子设备 |
CN110766690B (zh) * | 2019-11-07 | 2020-08-14 | 四川农业大学 | 基于深度学习点监督思想的麦穗检测和计数方法 |
US11423544B1 (en) | 2019-11-14 | 2022-08-23 | Seg AI LLC | Segmenting medical images |
US10762629B1 (en) | 2019-11-14 | 2020-09-01 | SegAI LLC | Segmenting medical images |
US11416772B2 (en) | 2019-12-02 | 2022-08-16 | International Business Machines Corporation | Integrated bottom-up segmentation for semi-supervised image segmentation |
CN111242223B (zh) * | 2020-01-15 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 一种基于街景影像多特征融合的街道空间品质评价方法 |
US11763478B1 (en) | 2020-01-17 | 2023-09-19 | Apple Inc. | Scan-based measurements |
US11922580B2 (en) * | 2020-01-17 | 2024-03-05 | Apple Inc. | Floorplan generation based on room scanning |
KR102204956B1 (ko) * | 2020-01-30 | 2021-01-19 | 주식회사 루닛 | 시맨틱 세그먼테이션 방법 및 그 장치 |
US11282293B2 (en) * | 2020-04-17 | 2022-03-22 | Tianlong Chen | Methods and apparatus for border-ownership representation of occluding contours for images |
CN111667455B (zh) * | 2020-04-28 | 2023-10-24 | 广东三三智能科技有限公司 | 一种刷具多种缺陷的ai检测方法 |
CN113570052B (zh) * | 2020-04-28 | 2023-10-31 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
US20210383534A1 (en) * | 2020-06-03 | 2021-12-09 | GE Precision Healthcare LLC | System and methods for image segmentation and classification using reduced depth convolutional neural networks |
US11417097B2 (en) * | 2020-09-02 | 2022-08-16 | Hewlett Packard Enterprise Development Lp | Video annotation system for deep learning based video analytics |
CN112085001B (zh) * | 2020-09-23 | 2024-04-23 | 清华大学苏州汽车研究院(相城) | 一种基于多尺度边缘特征检测的隧道识别模型及方法 |
CN112184585B (zh) * | 2020-09-29 | 2024-03-29 | 中科方寸知微(南京)科技有限公司 | 一种基于语义边缘融合的图像补全方法及系统 |
CN112308870B (zh) * | 2020-10-16 | 2022-06-14 | 易思维(杭州)科技有限公司 | 基于深度学习的边缘检测滤波器优化方法 |
CN112347977B (zh) * | 2020-11-23 | 2021-07-20 | 深圳大学 | 一种诱导性多能干细胞的自动检测方法、存储介质及装置 |
KR20220116800A (ko) * | 2021-02-15 | 2022-08-23 | 에스케이하이닉스 주식회사 | 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법 |
US11989897B2 (en) * | 2021-03-16 | 2024-05-21 | International Business Machines Corporation | Depth map generation from sparse depth samples in an augmented reality environment |
CN113095405B (zh) * | 2021-04-13 | 2024-04-30 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113971743B (zh) * | 2021-05-24 | 2024-04-05 | 华东理工大学 | 一种基于先验信息的语义补充网络的多标签图像分类方法 |
CN113538484B (zh) * | 2021-07-01 | 2022-06-10 | 广西科技大学 | 一种深度细化的多重信息嵌套边缘检测方法 |
CN113807293B (zh) * | 2021-09-24 | 2024-02-09 | 纵目科技(重庆)有限公司 | 减速带的检测方法、系统、设备及计算机可读存储介质 |
US20230245450A1 (en) * | 2022-02-03 | 2023-08-03 | Robert Bosch Gmbh | Learning semantic segmentation models in the absence of a portion of class labels |
CN114612544B (zh) | 2022-03-11 | 2024-01-02 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和存储介质 |
CN114581806B (zh) * | 2022-03-18 | 2024-03-19 | 重庆科技学院 | 一种基于主干边缘特征提取的工业零件空载率计算方法 |
CN114387523B (zh) * | 2022-03-23 | 2022-06-03 | 成都理工大学 | 基于dcnn边界引导的遥感图像建筑物提取方法 |
CN114882279B (zh) * | 2022-05-10 | 2024-03-19 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN117079103B (zh) * | 2023-10-16 | 2024-01-02 | 暨南大学 | 一种用于神经网络训练的伪标签生成方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060072302A1 (en) | 2004-10-01 | 2006-04-06 | Chien Tseng L | Electro-luminescent (EL) illuminated wall plate device with push-tighten frame means |
US9053537B2 (en) | 2011-09-21 | 2015-06-09 | Tandent Vision Science, Inc. | Classifier for use in generating a diffuse image |
US9292787B2 (en) * | 2012-08-29 | 2016-03-22 | Microsoft Technology Licensing, Llc | Computer-implemented deep tensor neural network |
CN104346620B (zh) | 2013-07-25 | 2017-12-29 | 佳能株式会社 | 对输入图像中的像素分类的方法和装置及图像处理系统 |
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
KR102592076B1 (ko) * | 2015-12-14 | 2023-10-19 | 삼성전자주식회사 | 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치 |
US10402700B2 (en) * | 2016-01-25 | 2019-09-03 | Deepmind Technologies Limited | Generating images using neural networks |
US9916522B2 (en) * | 2016-03-11 | 2018-03-13 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
US10402697B2 (en) * | 2016-08-01 | 2019-09-03 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
-
2017
- 2017-09-28 US US15/718,554 patent/US10410353B2/en active Active
-
2018
- 2018-03-07 JP JP2018040369A patent/JP6843086B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US10410353B2 (en) | 2019-09-10 |
US20180336683A1 (en) | 2018-11-22 |
JP2018195293A (ja) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
CN107895367B (zh) | 一种骨龄识别方法、系统及电子设备 | |
WO2020224424A1 (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
Gupta et al. | Salient object detection techniques in computer vision—A survey | |
US10936911B2 (en) | Logo detection | |
CN109478239B (zh) | 检测图像中的对象的方法和对象检测系统 | |
US10860837B2 (en) | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition | |
US9633282B2 (en) | Cross-trained convolutional neural networks using multimodal images | |
Yang et al. | Layered object models for image segmentation | |
WO2018108129A1 (zh) | 用于识别物体类别的方法及装置、电子设备 | |
Kao et al. | Visual aesthetic quality assessment with a regression model | |
CN112262395A (zh) | 基于注释信息的分类 | |
CN110689036A (zh) | 用于自动染色体分类的方法和系统 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
US20220108478A1 (en) | Processing images using self-attention based neural networks | |
US20220180624A1 (en) | Method and device for automatic identification of labels of an image | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
WO2021057148A1 (zh) | 基于神经网络的脑组织分层方法、装置、计算机设备 | |
JP6989450B2 (ja) | 画像解析装置、画像解析方法及びプログラム | |
WO2020230244A1 (ja) | 学習方法、学習プログラム、および、学習装置 | |
CN108108769B (zh) | 一种数据的分类方法、装置及存储介质 | |
US20220270341A1 (en) | Method and device of inputting annotation of object boundary information | |
CN117036948A (zh) | 一种基于注意力机制的致敏植物识别方法 | |
JP7335204B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201204 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201204 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6843086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |