JP6843086B2 - 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 - Google Patents

画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 Download PDF

Info

Publication number
JP6843086B2
JP6843086B2 JP2018040369A JP2018040369A JP6843086B2 JP 6843086 B2 JP6843086 B2 JP 6843086B2 JP 2018040369 A JP2018040369 A JP 2018040369A JP 2018040369 A JP2018040369 A JP 2018040369A JP 6843086 B2 JP6843086 B2 JP 6843086B2
Authority
JP
Japan
Prior art keywords
edge
neural network
image
semantic
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018040369A
Other languages
English (en)
Other versions
JP2018195293A5 (ja
JP2018195293A (ja
Inventor
チェン・フェン
ジディン・ユ
スリクマール・ラマリンガム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018195293A publication Critical patent/JP2018195293A/ja
Publication of JP2018195293A5 publication Critical patent/JP2018195293A5/ja
Application granted granted Critical
Publication of JP6843086B2 publication Critical patent/JP6843086B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、画像において異なる物体クラスの境界を検出することに関する。
意味画像セグメンテーション又は深度推定等の高レベル及び低レベルの双方のコンピュータービジョン問題は、多くの場合、画像内の各ピクセルにラベルを割り当てることを伴う。個々のピクセルを分類するのに用いられる特徴表現は、このタスクにおいて重要な役割を演じるが、正確かつ精密な結果を取得するためにラベルを割り当てている間、画像エッジ、外観一貫性及び空間一貫性等のファクターを考慮することも同様に重要である。幾つかのコンピュータービジョンタスクは、有利にはともに用いることもできるし、1つの共同タスクにマージすることさえもできることは驚くべきことではない。
例えば、セマンティックセグメンテーションは、画像内のあらゆるピクセルのカテゴリーラベルを予測することを目的とする一方、境界検出又はエッジ検出は、セマンティックセグメンテーションを含む多種多様なビジョンタスクを改善することに非常に有益な画像内の境界ピクセルを求めることを目的とする。そのために、それらの2つの問題を互いに併合し、コンピュータービジョンにおける別個の問題としてのカテゴリー認識(category-aware)意味境界検出にすることができる。しかしながら、これまでの境界検出は、それ自体が困難な2値問題であるが、意味境界検出は、本質的に更に困難な問題である。
近年、境界検出の問題は、深層学習を用いて対処されており、幾つかのニューラルネットワークは、ネットワークアーキテクチャをより体系的に組み合わせるのではなく、セマンティックセグメンテーション結果及びエッジ検出結果を直接組み合わせて、意味境界検出を実行する。
このため、セマンティックセグメンテーション及びエッジ検出のそのような組み合わせは、複数のニューラルネットワークの要件に起因して常に効率的であるとは限らない。
幾つかの実施の形態は、画像の意味境界検出を行うシステム及び方法を提供する。本発明は、あらゆるピクセルが建物、空、地面、歩行者、自動車等の種々の物体クラスに分類される画像のセマンティックセグメンテーションに関する認識に基づいている。本開示では、境界ピクセルに焦点が当てられ、物体及び物体の境界についての重要な情報が取得される方法で境界ピクセルがラベル付けされる。
幾つかの実施の形態は、セマンティックセグメンテーションにおいて、画像の各ピクセルが単一のクラスにのみ属し、その結果、いわゆるマルチクラスセグメンテーションになることを理解することに基づいている。この前提は、通常のセマンティックセグメンテーションについては基本であるが、カテゴリー認識意味境界検出については必ずしも正しくない。そのような不正確な前提は、セマンティックセグメンテーションの双対問題として意味境界検出を実行するニューラルネットワークの適切でより良好なトレーニング及び試験を妨げる。
具体的に言えば、理論上、全ての物体は、互いに異なり、分離している。しかしながら、幾つかの実施の形態は、実際には、少なくともセンサーの分解能の限界に起因して、エッジピクセルが複数の物体及び/又はクラスに属する可能性があるという認識に基づいている。そのために、幾つかの実施の形態は、物体の境界を形成するピクセルが1つ又は複数の意味クラスに属することを可能にする。そのようにして、幾つかの実施の形態は、各ピクセルが1つの意味クラスにのみ属するマルチクラスセグメンテーションを、各ピクセルが1つ又は複数の意味クラスに属することができる、すなわち、1つ又は複数の意味ラベルに割り当てられるマルチラベルセグメンテーションに変換する。複数の意味ラベルへの割り当ての例は、「建物+ポール」及び「道路+歩道」等の割り当てを含むことができる。
幾つかの実施の形態は、ニューラルネットワークのトレーニング及び試験中にそのようなマルチラベル分類を可能にすることによって、1つのみの意味ラベルを有するように各ピクセルを制約するマルチクラス分類の制約が緩和され、それによって、分類精度が向上するという認識に基づいている。画像のそのようなマルチラベルエッジセグメンテーションの成果は、本明細書では、画像のマルチラベルエッジマップと呼ばれる。
そのために、幾つかの実施の形態は、画像において物体のエッジを検出し、このエッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換する。例えば、幾つかの実施の形態は、エッジが、1つ又は複数の意味クラスに属する物体によって形成されるので、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てることによって、入力画像のマルチラベルエッジ分類を実行するようにニューラルネットワークをトレーニングする。幾つかの実施態様では、トレーニング中、マルチラベルエッジ分類は、トレーニング画像のマルチラベルエッジマップ、すなわち、K個の意味クラスのそれぞれについてKチャネルを含む手動で作成されたグランドトゥルースクラスラベル画像を有することと、各意味クラスの分類誤差を独立して求める損失関数を適用することとによって実施される。
したがって、1つの実施の形態は、少なくとも1つの物体を含むシーンの画像を受信する画像インターフェースと、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するプロセッサと、クラスラベルの異なる組み合わせを表す色等を用いて、前記マルチラベルエッジマップをレンダリングする出力インターフェースとを備える、画像処理システムを開示する。
別の実施の形態は、画像においてマルチラベル意味エッジ検出を行う方法であって、該方法は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、該プロセッサは、該方法を実施する記憶された命令と結合され、該命令は、前記プロセッサによって実行されると、該方法の少なくとも幾つかのステップを実行し、該ステップは、少なくとも1つの物体を含むシーンの画像を受信するステップと、前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するステップと、前記マルチラベルエッジマップをレンダリングするステップとを含む、方法を開示する。
更に別の実施の形態は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている非一時的コンピューター可読記憶媒体であって、前記方法は、少なくとも1つの物体を含むシーンの画像の受信に応答して、該画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換することと、前記マルチラベルエッジマップをレンダリングすることとを含む、非一時的コンピューター可読記憶媒体を開示する。
幾つかの実施の形態は、損失関数を有する深層教師(deep supervision:深い管理監督)が早期層において重要であるマルチクラスセグメンテーションとは対照的に、マルチラベル意味境界検出の場合、深層教師は、早期層において必要ではないという別の認識に基づいている。具体的に言えば、マルチラベルセグメンテーションは、ニューラルネットワークの層によって考慮されるコンテキスト情報に依存する。さらに、このコンテキスト情報は、層の視野(又は層への入力の視野)に依存し、この視野は、層の受容野の関数である。そのために、幾つかの実施の形態は、受容野サイズが大きい上位層においてのみ、マルチラベル分類教師、すなわち損失計算を実行する。
例えば、1つの実施の形態では、前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットにのみ課される。この実施の形態は、クラス不可知境界予測(class agnostic boundary prediction:クラスを知ることができない境界の予測)を行うために下位層を過度に微調整するリスク及びより高いレベルのコンテキスト情報を抽出することを妨げるリスクを回避しつつ、より高いレベルのコンテキスト情報を利用する。
一方、幾つかの実施の形態は、低い受容野を有する下位レベルの特徴が、マルチラベル分類には任意選択的であるが、それらの下位レベルの特徴が、非境界ピクセルからの応答を抑制することに役立つことができ、最終マルチラベル分類の高位レベルのコンテキスト情報と同時に考慮することができるという別の認識に基づいている。そのために、幾つかの実施の形態では、ニューラルネットワークは、小さな受容野を有するニューラルネットワークの少なくとも幾つかの早期層の出力を組み合わせてテンソルにし、このテンソルに対してマルチラベルエッジ分類を実行する。
様々な実施の形態では、ニューラルネットワークは、異なって実施される。例えば、1つの実施の形態では、ニューラルネットワークは、残差ニューラルネットワーク(ResNetと呼ばれることがある)である。この実施の形態は、入力画像及び出力画像の非線形マッピングをモデル化することが、層の数の増加を可能にするそのようなマッピングの残差をモデル化することよりも困難であるという認識に基づいている。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。
従来のエッジ、意味エッジ、及び本開示の実施形態によるカテゴリー認識意味エッジの間の相違を示す概略説明図である。 単一ラベル意味エッジと本開示の実施形態によるカテゴリー認識意味エッジとの間の相違を示す図である。 本開示の実施形態による、画像においてマルチラベル意味エッジ検出を実行する画像処理システムを示すブロック図である。 本開示の実施形態によるマルチラベル意味エッジトレーニングの畳み込みニューラルネットワーク(CNN)のアーキテクチャを示すブロック図である。 本開示の実施形態による、図3AのCNNにおいて用いられるモジュールを示すブロック図である。 本開示の実施形態によるマルチラベル意味エッジトレーニングの深層教師ありネットワーク(DSN)のアーキテクチャを示すブロック図である。 本開示の実施形態による、図4AのDSNにおいて用いられるスライス連結(sliced concatenation)を用いるモジュールを示すブロック図である。 本開示の実施形態による、図4AのDSNにおいて用いられる融合分類(fused classification)を用いるモジュールを示すブロック図である。 本開示の実施形態によるカテゴリー認識意味エッジ検出ネットワーク(CASENet)のアーキテクチャを示すブロック図である。 本開示の実施形態による、図5AのCASENetにおいて用いられるモジュールを示すブロック図である。 本開示の実施形態による、図5AのCASENetにおいて用いられる共有連結(shared concatenation)を示すブロック図である。 SBDベンチマークに関するシミュレーション結果を示す表である。 Cityscapes(都市景観)ベンチマークに関するシミュレーション結果を示す表である。
本開示の様々な実施形態が、図面を参照して以下で説明される。図面は縮尺どおり描かれておらず、類似の構造又は機能の要素は、図面全体にわたって同様の参照符号によって表されることに留意されたい。図面は、本開示の特定の実施形態の説明を容易にすることのみを意図することにも留意されたい。図面は、本開示の網羅的な説明として意図されるものでもなければ、本開示の範囲を限定するものとして意図されるものでもない。加えて、本開示の特定の実施形態と併せて説明される態様は、必ずしもその実施形態に限定されず、本開示の任意の他の実施形態において実施することができる。
図1Aは、従来のエッジ、意味エッジ、及び本開示の実施形態によるカテゴリー認識意味エッジの間の相違を示す概略説明図を示している。
一般的な道路シーンの画像100が与えられると、キャニー(Canny)エッジ検出器等の従来の低レベルエッジ検出方法は、双方の照明、テクスチャ、オクルージョン等によって形成されたエッジを含む低レベルエッジマップ110を出力する。全体ネスト型エッジ検出(HED:Holistically-nested edge detection)方法等の意味エッジ検出方法は、互いに遮蔽又は交差する意味物体によって形成されたエッジを含むエッジマップ120を出力する。本発明の目標は、物体境界ピクセルを検出するだけでなく、1つ以上の意味クラスへの各境界ピクセルの関連付けに基づいて各境界ピクセルの分類も行い、その結果、境界情報をその意味クラス情報とともに含むエッジマップ130を得ることである。意味クラスは、通常、空、建物、及び地面等の単一の物体カテゴリーを指すが、境界クラスは、2つ以上の意味クラスに関連付けられている。例えば、境界ピクセルは、空及び建物の2つの領域を分離する輪郭に位置している場合、これらの空及び建物によって示すことができる。画像130は、HSVによって色分けすることができる。この場合、色相は、カテゴリーの異なる組み合わせの境界を表し(14個の組み合わせの色コードが表135に示されている)、彩度は、或る特定の境界への関連付けの強度を表す。本発明者らは、カテゴリー認識意味エッジネットワーク(CASENet)と呼ぶ新規な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。本発明の方法は、他の競合する方法よりも大幅に性能が優れている。カラー表示が最良である(Best viewed in color)。
図1Aは、建物、地面、空、及び自動車等の幾つかの物体カテゴリーを有するCityscapesデータセットからの道路シーンの画像100を示している。ビジョンにおける多くの既存の方法は、各ピクセルがこれらの物体カテゴリーのうちの1つとして分類される高密度セマンティックセグメンテーションに焦点を当てているが、本発明は、境界ピクセルにのみ焦点を当てている。特に、本発明では、物体カテゴリーのうちの1つ以上への各境界ピクセルの関連付けに基づいて各境界ピクセルを分類する問題が検討される。例えば、建物とポールとを分離する輪郭に位置する境界ピクセルは、これらの物体カテゴリーの双方に関連付けることができる。通常、境界カテゴリーは、この図に示すような「建物+ポール」及び「道路+歩道」等のラベルを含む。
より正確に言えば、あらゆる境界ピクセルは、個々の要素がそれぞれ異なる意味クラスとのピクセルの関連付けの強度を示すベクトルによって示される。ほとんどの場合、各境界ピクセルは、2つの物体カテゴリーにのみ関連付けられる。ただし、接合部の場合、境界ピクセルは3つ以上の物体カテゴリーに関連付けられることを予想することができる。したがって、この場合に、境界ピクセルを関連付けることができる物体カテゴリーの数は限定されない。画像130には、本発明の意味境界ラベル付けの結果、色相彩度明度(HSV)フォーマットが得られることが示されている。このフォーマットでは、色相が、それぞれ異なるタイプの境界を表し、彩度が、特定の境界クラスへのピクセルの関連付けを表す。境界は、必ずしも連続曲線を形成しないエッジピクセルの集合として扱われる。他方、輪郭は、必ずしもいずれの領域も取り囲まない開曲線として見ることができる。境界検出の問題は、セマンティックセグメンテーション、物体検出/認識、及び3D再構成等の多くのビジョンタスクにとって有用であることが示されてきた。これは、それほど驚くべきことではない。なぜならば、セグメンテーション及び立体写真等の多くの問題において境界位置同定の困難さを知るために用いられているからである。
共通の誤解は、境界情報を、他のアプリケーションを高度化する単に低レベルかつ単純なキューとして扱うことである。僅かな外挿を用いて、完全に近い意味境界が、追加の情報なしで、セマンティックセグメンテーション、深度推定、画像ベースの位置同定、及び物体検出を解くことができることを見ることは困難ではない。境界問題をこのように理解することは、境界検出がそれ自体難解な問題であるので難しい。しかしながら、このタスクのための大規模なトレーニングデータが利用可能であること及び深層学習方法が進歩したことによって、この数年間に境界検出問題を大きく進展させることが可能になっている。特に、より新しいデータセットが登場している。これらの2つの問題は双対問題として見ることができるので、大規模なセマンティックセグメンテーションデータセットの可用性も、意味境界データセットを取得するために容易に処理することができる。セマンティックセグメンテーション及び境界検出は、自然画像の全包括的な解釈に十分であるか? との疑問が存在し得る。本発明者らは、そのような完全な理解は、意味輪郭及び接合部を用いて画像を解釈することなしに完全ではないと考えている。一方、本発明者らは、全包括的な解釈に向かうために、意味境界検出の精度を或る特定のレベルに改善することが重要であると考えている。
図1Bは、エッジマップ120において従来の意味エッジ検出で用いられる入力画像150内のピクセル155の単一ラベル意味エッジ160と、本開示の実施形態による、エッジマップ130においてカテゴリー認識意味エッジ検出で用いられるピクセル155のカテゴリー認識意味エッジ170との間の相違を示す図を示している。
図2は、本開示の実施形態による、画像においてマルチラベル意味エッジ検出を実行する画像処理システム200を示すブロック図である。
画像処理システム200は、キーボード211と、ポインティングデバイス/メディア212と、アノテーションデバイス213とに接続可能な入力/出力(I/O)インターフェースを有するヒューマンマシンインターフェース(HMI)210を備えることができる。
さらに、画像処理システム200は、全地球測位システム(GPS)(図示せず)と、プロセッサ220と、記憶デバイス230と、1つ以上のメモリ240と、ローカルエリアネットワーク、無線ネットワーク(図示せず)及びインターネットネットワーク(図示せず)を含むネットワーク290を介して他のコンピューター/端末295と接続可能なネットワークインターフェースコントローラー250(NIC)と、ディスプレイデバイス265に接続されたディスプレイインターフェース260と、画像を受信する撮像デバイス275と接続可能な撮像インターフェース270と、印刷デバイス285と接続可能なプリンターインターフェース280とを備えることができる。記憶デバイス230は、元画像231の集合及び1つ以上のニューラルネットワーク232を記憶することができる。ニューラルネットワーク232のプログラムコードは、HMI210と接続可能な非一時的コンピューター可読媒体(図示せず)内に記憶することができる。さらに、HMI210、NIC250、及び撮像インターフェース270は、ネットワーク、無線ネットワーク、又はデータ入力デバイスとの直接接続を用いてシステムの外部からデータ入力デバイス(図示せず)を介して、物体を含むシーンの画像を受信し、この画像を、システム200におけるニューラルネットワーク232によって処理することができる入力画像に変換するように構成されている。
以下では、画像においてマルチラベル意味エッジ検出を実行する画像処理システムに関する問題及び方法を検討する論述が行われる。
境界検出又はエッジ検出の定義は、時間とともに、低レベルの特徴から高レベルの特徴に発展してきた。すなわち、単純なエッジフィルター、深度エッジ、物体境界、及び意味輪郭と発展してきた。或る意味で、エッジ検出アルゴリズムの発展は、単純な畳み込みフィルターからのコンピュータービジョンの進歩を捉えている。
深度エッジ
幾つかのこれまでの研究は、制限された設定の下で合成線画及び実世界画像から輪郭を凸輪郭、凹輪郭、及び遮蔽輪郭にラベル付けすることに焦点を当てている。室内レイアウト推定は、凹境界(壁、天井、及び地面を折り返す線)を特定することと見ることもできる。遮蔽境界を回復することによって、シーン内のそれぞれ異なる層の深度順序付けを取得することができることが示されている。
知覚エッジ(Perceptual edges)
多種多様な方法が、知覚境界の抽出に向けて推し進められている。それぞれ異なるパッチに対してブーストされた決定木を用いてエッジマップを抽出することが可能である。ランダムフォレストを用いて、物体境界パッチであるスケッチトークンを計算することも可能である。幾つかの他のエッジ検出方法は、統計的エッジ、マルチスケール境界検出、及び自己相互情報(PMI:point-wise mutual information)検出器を含むことができる。別の手法は、構造化されたランダムフォレストを用いるリアルタイム高速エッジ検出方法とすることができる。他の方法では、深層ニューラルネットワークを用いることによって、検出性能を最新技術水準にまで押し上げることができる。
意味エッジ
意味エッジ検出の起源は、おそらく正確に指摘することができる。意味エッジ検出は、高レベルタスクとして、セグメンテーション及び再構成に関連した多くの問題においても暗黙的又は明示的に用いられてきた。或る意味で、全てのセマンティックセグメンテーション方法は、厳密に見なければ、意味エッジ検出と見ることができる。なぜならば、セグメンテーション結果から、必ずしも正確なエッジではないものの、エッジを容易に取得することができるからである。問題文を2値エッジ検出又はカテゴリー認識意味エッジ検出として具体的に定式化する手法が存在し得る。意味エッジ検出は、意味境界データセット(SBD)を導入することができ、ボトムアップエッジ及びトップダウン検出器情報の双方を組み合わせてカテゴリー認識意味エッジを検出する逆検出器を提案する。HFL(High-for-Low)(Bertasius他、2015)は、まず、VGGネットワーク(Simonyan及びZisserman、2014)を用いて2値意味エッジの位置を突き止め、次に、FCN(完全畳み込みネットワーク)及びDeepLab等の深層セマンティックセグメンテーションネットワークを用いてカテゴリーラベルを取得する。しかしながら、このフレームワークは、予測プロセスが分離されていることに起因して、エンドツーエンドにトレーニング可能ではない。
エッジ検出のためのDNN
深層ニューラルネットワークをエッジ検出に用いることができる。1つの注目すべき方法は、画像対画像形式でエッジをトレーニング及び予測し、エンドツーエンドトレーニングを実行する全体ネスト型エッジ検出(HED)であり得る。
問題定式化
入力画像(例えば、図3Aにおける300、図4Aにおける400、又は図5Aにおける500)を所与として、本発明の目標は、既定のカテゴリーに対応する意味エッジマップを計算することである。より形式的に言えば、入力画像I及びK個の定義された意味カテゴリーについて、本発明者らは、K個のエッジマップ{Y,...,Y}を取得することに関心がある。各エッジマップは、Iと同じサイズを有する。パラメーターWを有するネットワークを用いて、ピクセルpにおける第kの意味カテゴリーに関して計算されたエッジ確率を示すネットワーク出力をY(p|I;W)∈[0;1]と示すことにする。
マルチラベル損失関数
場合によってはセマンティックセグメンテーションのマルチクラスの性質によって推し進められることによって、カテゴリー認識意味エッジ検出に関する幾つかの関連した研究は、多かれ少なかれ、マルチクラス学習の視点から問題を検討してきた。本発明者らの直観は、この問題が、本質的には、1つのピクセルが複数のカテゴリーに同時に属することを可能にすべきであり、また、マルチラベル学習フレームワークによって対処されるべきであるというものである。
したがって、本発明者らは、マルチラベル損失を提案する。各画像Iは、ラベル画像の集合
Figure 0006843086
を有すると仮定する。ここで、
Figure 0006843086
は、第kのクラス意味エッジのグランドトゥルースを示す2値画像である。マルチラベル損失は、以下の式として定式化される。
Figure 0006843086
ここで、βは、サンプル数の非対称度に相当する画像内の非エッジピクセルのパーセンテージである。
ネットワークアーキテクチャ
本発明者らは、CASENet、すなわち、カテゴリー認識意味エッジ検出を扱うエンドツーエンドでトレーニング可能な畳み込みニューラルネットワーク(CNN)アーキテクチャ(図5Aに示す)を提案する。CASENetを説明する前に、本発明者らは、まず、エッジ検出及びセマンティックセグメンテーションの際に与えることができる2つの代替のネットワークアーキテクチャを提案する。いずれのアーキテクチャも、本発明者らのタスクを扱うことができるが、これらのアーキテクチャに伴う問題が分析され、CASENetアーキテクチャを提案することによってこれらの問題が対処される。
Basicネットワーク
図3Aは、本開示の実施形態によるマルチラベル意味エッジトレーニングの畳み込みニューラルネットワーク(CNN)のbasicアーキテクチャを示すブロック図である。この場合、入力データは、インターフェース、例えば撮像インターフェース270、HMI210、又はNIC250を用いて層300において導入され、res1、res2、res3、res4、及びres5のブロックを通じて処理され、分類ブロック310において分類される。これらのブロックのそれぞれは、層と呼ばれる場合がある。図3Bも、本開示の実施形態による、図3AのCNNにおいて用いられる1×1畳み込み層とアップサンプリング層とを有するモジュール315を示すブロック図である。
完全畳み込みネットワークフレームワークの下でエッジ検出問題が扱われる。元の平均プーリング層及び完全接続層を除去することによってResNet−101が採用され、底部畳み込みブロックは維持される。低レベルエッジ情報をより良好に保存するために、ベースネットワークが更に変更される。ResNet−101における第1の畳み込みブロック及び第5の畳み込みブロック(図3Aにおける「res1」及び「res5」)のストライドが2から1に変更される。幾つかの場合には、ResNetは、早期層を後期層に直接リンクし、連続した層の間の中間接続をスキップする接続を有する残差ニューラルネットワークと呼ぶことができる。また、相似比が後続の畳み込み層に導入され、元のResNetと同じ受容野サイズが維持される。
Basicアーキテクチャ
非常に自然のアーキテクチャは、図3Aに示すBasicアーキテクチャとすることができる。ベースネットワークの上部には、分類モジュール(図3B)が1×1畳み込み層及びその後に続く双1次アップサンプリング層(Kグループ化(K-grouped)逆畳み込み層によって実施される)として追加され、K個の活性化マップの集合{A1,...,AK}が生成される。各活性化マップは、画像と同じサイズを有する。次に、式(1)に提示されたYk(p)=σ(Ak(p))によって与えられるシグモイドユニットを用いて、第kのクラスエッジに属するピクセルの確率がモデル化される。Yk(p)は、互いに排反するものではないことに留意されたい。
深層教師ありネットワーク
図4Aは、本開示の実施形態によるマルチラベル意味エッジトレーニングの深層教師ありネットワーク(DSN)のアーキテクチャを示すブロック図である。図4Bは、本開示の実施形態による、図4AのDSNにおいて用いられるスライス連結を用いるモジュールを示すブロック図である。図4Cは、本開示の実施形態による、図4AのDSNにおいて用いられる融合分類を用いるモジュールを示すブロック図である。
全体ネスト型エッジ検出(HED)ネットワークの示差的な特徴のうちの1つは、深層教師を有するネスト型アーキテクチャである。基本的なアイデアは、上部ネットワーク損失だけでなく、損失を底部畳み込み側にも課すことである。加えて、融合エッジマップが、サイド活性化(side activations)の線形結合を管理監督することによって取得される。HEDは、2値エッジ検出しか実行しないことに留意されたい。本発明では、このアーキテクチャは、サイド出力用のK個のチャネル及び最終出力用のK個のチャネルを取り扱うように拡張されている。これは、図4Aに示すような深層教師ありネットワーク(DSN)と呼ばれる。このネットワークでは、上述した分類モジュールは、残差ブロックの各スタックの出力に接続され、5つのサイド分類活性化マップ{A(1),...,A(5)}が生成される。ここで、これらのサイド分類活性化マップのそれぞれは、K個のチャネルを有する。次に、これらの5つの活性化マップは、スライス連結層(図4Aにおける410及び図4Bにおける415)を通して融合され、以下の5Kチャネル活性化マップが生成される。
Figure 0006843086
は、Kグループ化1×1畳み込み(図4Cにおける435及び図4Aにおける430)を実行する本発明の融合分類層に供給され、Kチャネル活性化マップA(6)が生成される。最後に、式1を用いて、{A(1),...,A(6)}に関して6つの損失関数が計算され、このネットワークに深層教師が提供される。
なお、対応する従来の演算の代わりにグループ化畳み込みと併せてスライス連結を実行する理由は次のとおりである。5つのサイド活性化が管理監督されているので、それらのサイド活性化の各チャネルは、対応するクラスに最も関係がある情報を運ぶように暗黙的に制約される。スライス連結及びグループ化畳み込みを用いると、ピクセルpの融合活性化は、以下の式によって与えられる。
Figure 0006843086
これは、基本的には、それぞれ異なるスケールからの対応するクラス固有の活性化を最終融合活性化として統合する。本発明者らの実験は、この設計上の選択を実験的にサポートしている。
図5Aは、本開示の実施形態によるカテゴリー認識意味エッジ検出ネットワーク(CASENet)のアーキテクチャを示すブロック図である。図5Bは、本開示の実施形態による、図5AのCASENetにおいて用いられるモジュールを示すブロック図である。図5Cは、本開示の実施形態による、図5AのCASENetにおいて用いられる共有連結を示すブロック図である。
CASENetアーキテクチャ
Basicアーキテクチャ及びDSNアーキテクチャを見直すと、カテゴリー認識意味エッジ検出タスクにおいて幾つかの潜在的な関連した課題があることに気付く。第1に、底部側の受容野が制限されている。その結果、コンテキスト情報は意味分類において重要な役割を果たすことからして、ネットワークが早期の段階で意味分類を実行することを要することは不合理であり得る。意味分類は、逆に、特徴が高レベル情報を用いて符号化される上部において行われるべきと考えられる。第2に、底部側の特徴は、上部分類を強化することと、非エッジピクセルを抑制することと、詳細なエッジ位置同定及び構造情報を提供することとに有用である。したがって、底部側の特徴は、エッジ検出において考慮されるべきである。
本発明の実施形態によれば、CASENetアーキテクチャ(図5A)は、上記で説明したDSNネットワークを改良することによって取得することができる。この改良は、以下に要約した変更を含む。
1.底部側における分類モジュールを特徴抽出モジュールに置き換える。
2.分類モジュールを配置し、ネットワークの上部においてのみ管理監督を課す。
3.スライス連結の代わりに共有連結(図5Cにおける515及び図5Aにおける510)を実行する。
サイド特徴抽出(図5Bにおける525及び図5Aにおける520)とサイド分類(図4Aにおける420)との間の相違は、前者が、K個のクラス活性化ではなく単一のチャネル特徴マップF(j)のみを出力するということである。共有連結は、サイド1〜3からの底部特徴F={F(1),F(2),F(3)}を複製して、K個の上部活性化のそれぞれと個別に連結する。
Figure 0006843086
結果として得られる連結された活性化マップは、再度、Kグループ化畳み込みを有する融合分類層に供給されて、Kチャネル活性化マップA(6)が生成される。
CASENetは、スキップ層アーキテクチャを通じて、低い側のレベル特徴を、高い側のレベル意味分類に参加させ、これを強化させることによって同時エッジ検出分類ネットワークとすることができる。
実験
CASENet1を、InvDet、HFL、弱教師付き物体境界、及び幾つかのベースラインネットワークアーキテクチャを含むこれまでの最新技術の方法とともに論述する。
データセット
意味エッジ検出をベンチマークする標準的なデータセットであるSBDに対して上記方法が評価される。SBDに加えて、この評価は、ピクセルレベルの高品質のアノテーション及び魅力的なストリートビューシナリオを有する普及したセマンティックセグメンテーションデータセットであるCityscapesにも拡張される。本発明者らの知る限りでは、本発明の方法は、このデータセットに対する意味エッジ検出結果を形式的に報告する最初の研究である。
SBD
このデータセットは、PASCAL VOC2011 trainvalセットからの11355個の画像からなり、8498個のトレーニング画像と2857個のテスト画像2とに分割されている。このデータセットは、20個のPascal VOCクラスのうちの1つを用いてラベル付けされた意味境界を有する。
Cityscapes
このデータセットは、5000個の画像を含み、2975個のトレーニング画像と、500個の検証画像と、1525個のテスト画像とに分割されている。テスト画像のラベルは、現在、利用可能でないので、本発明者らの実験では、検証画像がテスト画像として扱われる。
評価プロトコル
SBD及びCityscapesの双方に関して、各クラスのエッジ検出精度が、公式ベンチマークコード及びグランドトゥルースを用いて評価される。全ての設定及びパラメーターはデフォルトとして維持され、最適データセットスケール(ODS)における最大F値(MF)と、各クラスの平均精度(AP)とが報告される。Cityscapesの場合、これに正確に従って、評価のための単一ピクセル幅を有するグランドトゥルース境界が生成され、グランドトゥルース及び予測されたエッジマップの双方のサイズが、評価速度を考慮した各寸法に沿って2分の1に削減される。
実施態様の詳細
Caffeライブラリを用いて、CASENet、HED、及び提案されたベースラインアーキテクチャをトレーニング及び試験した。
トレーニングラベル
ヒューマンアノテーションと真のエッジとの間の位置合わせ不良、及び境界の近くのピクセルのラベルの曖昧さを考慮して、ネットワークトレーニング用に僅かに太くしたグランドトゥルースエッジが生成される。これは、ピクセルの近傍を調べ、セグメンテーションラベルの何らかの相違を探すことによって行うことができる。そのような相違が存在する場合、そのピクセルはエッジピクセルとみなされる。本明細書では、近傍の最大範囲は2に設定される。マルチラベルフレームワークの下では、それぞれ異なるクラスからのエッジが重複する場合がある。
ベースライン
HFL及びHED等の幾つかの主な比較方法は、エッジ検出及びカテゴリー化にVGGアーキテクチャ又はVGGベースのアーキテクチャを用いるので、本発明でも、VGGに対してCASENet及び他のベースラインアーキテクチャ(CASENet−VGGと示す)が採用される。特に、conv4の後の最大プーリング層が除去され、conv4と同じconv5、fc6及びfc7の分解能(入力の1/8)が維持される。fc6及びfc7の双方は、3×3畳み込み及び1×1畳み込みと、1024に設定された寸法とを有する畳み込み層として扱われる。2及び4の相似比が、conv5及びfc6に適用される。本発明のマルチラベルフレームワークをマルチクラスと比較するために、各クラスの非重複エッジを有するグランドトゥルースが生成され、ソフトマックス(softmax)損失が本明細書と同様に再重み付けされ、上部が、再重み付けされた21クラスソフトマックス損失に置き換えられる。
初期化
本発明者らの実験では、CASENetにおけるResNet/VGGの畳み込みブロックと、MS COCO(Microsoft Common Objects in Context)データセットに対して事前にトレーニングされたモデルを用いた全ての比較ベースラインとが初期化される。
ハイパーパラメーター
同じベースネットワークを用いた全ての比較方法のハイパーパラメーターが統一され、それらのハイパーパラメーターのほとんどはHEDに従って設定される。特に、10の反復サイズを用いてSGDが実行され、損失重みが1に固定され、運動量が0.9に固定され、重み減衰が0.0005に固定される。ResNetを用いた方法の場合、学習レート、ステップサイズ、ガンマ、及びクロップサイズは、SBD及びCityscapesについてそれぞれ1e−7/5e−8、10000/20000、0.1/0.2、及び352×352/472×472に設定される。VGGの場合、学習レートは、1e−8に設定されるが、それ以外のものは、SBDに関するResNetと同じままである。ソフトマックス損失を有するベースラインの場合、学習レートは、0.01に設定されるが、それ以外のパラメーターは同じままである。SBD及びCityscapesに関する反復数は、経験的に22000及び40000に設定される。
データ強化
トレーニング中、SBD及びCityscapesの双方に対してランダムミラーリング及びクロッピングが可能にされる。SBDデータは、倍率{0.5,0.75,1.0,1.25,1.5}を用いて各画像をサイズ変更することによって更に強化される一方、Cityscapesに対してそのような強化は行われない。
SBDに関する結果
図6は、SBDに対してカテゴリーごとのエッジ検出を実行するそれぞれ異なる方法のMFスコアを示す表である。この表では、CASENetは、これまでの方法よりも性能が優れている。ベンチマークコードを用いると、注目される1つのことは、事後処理が、精度及びリコールレートの測定における閾値処理の後に行われることに主に起因して、曲線のリコールスコア(recall scores)が単調に増加していないということである。これは、本発明では、取得された生のエッジマップに対して事後処理動作が行われていないことから妥当である。APは、そのような状況下で明確に定義されていないので、SBDに関するMFのみが示されている。読者は、クラスごとの精度リコール曲線についての補助資料を参照されたい。
マルチラベル又はマルチクラス?
Basicアーキテクチャの下で、提案されたマルチラベル損失が、再重み付けされたソフトマックス損失と比較される。ソフトマックスの使用は、VGG及びResNetの双方に対して大きな性能劣化をもたらすことが分かり、このことは、マルチクラスの方法でこの性能劣化に対処するよく受け入れられている概念とは異なり、タスクをマルチラベル学習問題として定式化する本発明者らの動機付けの土台となっている。
深層教師は必要?
CASENetは、図4A、図4B及び図4Cに示すBasic及びDSNを含むベースラインネットワークアーキテクチャと比較される。その結果は、底部側における深層教師が必要でない場合があるという本発明者らの直観を経験的に支持する。特に、CASENetは、クラスごとのMFだけでなく最終平均MFスコアにおいて頻繁に勝っている。本発明者らの観察結果は、アノテーション品質が、或る程度、ネットワーク学習行動及び評価に影響を与え、種々の方法にわたって性能が低下する相違がもたらされたということである。そのような相違は、Cityscapesにおいてより明らかになる。
上部教師は必要?
CASENetにおけるサイド−5活性化に教師を課す必要性があるのかという更なる疑問が生じ得る。トレーニング中にサイド−5教師を有しない同じCASENetアーキテクチャを示すのに、CASENet−を用いることにする。サイド−5教師を加えることよりも向上した点は、高位レベル側活性化に対する教師が有用であることを示している。本発明者らの直観は、サイド−5教師が、サイド5が、底部層と相互作用することからの影響が少ない意味クラスの分類に、より多くの焦点を当てるのを援助するというものである。
ResNetからVGGへ
図6におけるCASENet−VGGは、HFL−FC8に匹敵する性能を示している。HFL−CRFは、CRF事後処理の援助を受けて、僅かにより良好に動作する。或る程度の結果は、HFLがエッジ位置同定及び分類に2つのVGGネットワークを個別に用いる場合には、本発明の学習フレームワークが有効であることを示している。本発明の方法も、MF/APに関して44/41を与え、検出を伴って49/45を与えるHEDベースラインよりも大幅に性能が優れている。
図7は、Cityscapesベンチマークに関するシミュレーション結果を示す表である。全ての表記は、図6において用いられている表記と同様である。
Cityscapesに関する結果
DSN及びCASENetの双方も、Cityscapesに関してベースネットワークとしてResNetを用いてトレーニング及び試験される。SBDと比較すると、Cityscapesは、比較的高いアノテーション品質を有するが、より困難なシナリオを含む。データセットは、より多くの重複する物体を含み、これは、マルチラベル意味境界ピクセルのより多くの場合につながり、したがって、提案された方法を試験するのにより良好であり得る。図6において、比較方法のMF及びAPの双方が提供される。本発明者らが知る限りでは、これは、Cityscapesに関するカテゴリーごとの意味エッジの検出性能を定量的に報告する最初の文書である。CASENetは、全てのクラスにおいてDSNよりも一貫して大幅に性能が優れていることが分かる。
結言
本開示の実施形態においては、カテゴリー認識意味エッジ検出のためのエンドツーエンド深層ネットワークが提案されている。提案されたネスト型アーキテクチャCASENetは、エッジ検出及びセグメンテーションにおいて普及している幾つかの既存のアーキテクチャを上回る改善を示すことが示されている。また、提案されたマルチラベル学習フレームワークは、エッジ検出に関してより良好な学習行動をもたらすことも示されている。本発明者らの提案した方法は、これまでの最新技術の方法よりも大幅に改善されている。
本開示の実施形態によれば、画像処理システムが、画像においてマルチラベル意味エッジ検出を実行する。例えば、画像処理システムは、少なくとも1つの物体を含むシーンの画像を受信する画像インターフェースと、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、画像における物体のエッジを検出し、このエッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換するプロセッサと、マルチラベルエッジマップをレンダリングする出力インターフェースとを備えることができる。
幾つかの場合には、画像処理システムにおけるニューラルネットワークは、図3Aのように、順次減少する空間分解能を有する一連の層を備える。res2における層の幅及び高さは、res1における層の2分の1しかなく、同様に、res3における層は、res2の2分の1しかない。
さらに、ニューラルネットワークは、ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、テンソルに対してマルチラベルエッジ分類を実行することができる。例えば、図5Aにおいて、res5、res3、res2、及びres1からの出力は、サイド分類及びサイド特徴抽出を用いて個別に処理され、共有連結によって4Kチャネル化テンソルに組み合わされる(このテンソルにおいて、各チャネルは実行列である)。
この画像処理システムのニューラルネットワークは、当該ニューラルネットワークによって実行されるトレーニング画像のマルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有するトレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、損失関数は、各意味クラスの分類誤差を独立して求める。例えば、式(1)における各意味クラスkの分類誤差Lの全ては互いに独立している。
この場合、ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備え、損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される。例えば、図5Aでは、サイド5分類層及び融合分類層にのみ、損失関数が課される(破線で示す)。なぜならば、これらの層の受容野は、res1、res2、及びres3等の底部層よりも多くのコンテキスト情報を取り込むことができるほど十分大きいからである。
さらに、損失関数は、エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科し、例えば、式(1)は、自己適応パラメーターβを用いてこれを実施する。幾つかの場合には、画像処理システムのニューラルネットワークは、残差ニューラルネットワークとすることができる。
本開示の実施形態によれば、マルチラベル意味エッジ検出の方法を説明することができる。この場合、画像においてマルチラベル意味エッジ検出を行う方法は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、プロセッサは、方法を実施する記憶された命令と結合され、命令は、プロセッサによって実行されると、方法の少なくとも幾つかのステップを実行し、ステップは、少なくとも1つの物体を含むシーンの画像を受信するステップと、画像において物体のエッジを検出し、エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換するステップと、マルチラベルエッジマップをレンダリングするステップとを含む。
この方法では、ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える。幾つかの場合、ニューラルネットワークは、ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、テンソルに対してマルチラベルエッジ分類を実行する。
さらに、ニューラルネットワークは、ニューラルネットワークによって実行されたトレーニング画像のマルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有するトレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、損失関数は、各意味クラスの分類誤差を独立して求める。
この場合、ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備えることができ、損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される。
またさらに、損失関数は、エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す。本開示の一実施形態によれば、上記方法のニューラルネットワークは、残差ニューラルネットワークとすることができる。
本開示の実施形態によれば、上記で説明した方法の命令は、画像においてマルチラベル意味エッジ検出をプロセッサに実行させる非一時的コンピューター可読記憶媒体に適用することができる。
例えば、非一時的コンピューター可読記憶媒体は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている。この場合、方法は、少なくとも1つの物体を含むシーンの画像の受信に応答して、画像において物体のエッジを検出し、エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換することと、マルチラベルエッジマップをレンダリングすることとを含む。
本開示の上述した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、上記実施形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、このソフトウェアコードは、単一のコンピューター内に設けられているのか又は複数のコンピューター間に分散されているのかを問わず、任意の適したプロセッサ又はプロセッサの集合体上で実行することができる。そのようなプロセッサは、集積回路構成要素に1つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、任意の適したフォーマットの回路部を用いて実施することができる。
また、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、幾つかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。
さらに、請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (16)

  1. 画像においてマルチラベル意味エッジ検出を行う画像処理システムであって、
    少なくとも1つの物体を含むシーンの前記画像を受信する画像インターフェースと、
    前記画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、
    前記ニューラルネットワークを用いて、前記物体に基づいて前記画像をマルチラベルエッジマップに変換するプロセッサであって、前記ニューラルネットワークは、前記画像において前記物体のエッジを検出し、前記物体の前記エッジを形成するピクセルのそれぞれに複数の意味ラベルを割り当て、前記ニューラルネットワークは、該ニューラルネットワークによって実行されたトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、プロセッサと、
    前記マルチラベルエッジマップをレンダリングする出力インターフェースと、
    を備える、画像処理システム。
  2. 前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項1に記載の画像処理システム。
  3. 前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項1に記載の画像処理システム。
  4. 前記ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項に記載の画像処理システム。
  5. 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項に記載の画像処理システム。
  6. 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項1に記載の画像処理システム。
  7. 画像においてマルチラベル意味エッジ検出を行う方法であって、該方法は、入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、該プロセッサは、該方法を実施する記憶された命令と結合され、該命令は、前記プロセッサによって実行されるときに、該方法の少なくとも幾つかのステップを実行し、該ステップは、
    少なくとも1つの物体を含むシーンの画像を受信するステップと、
    前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するステップであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、ステップと、
    前記マルチラベルエッジマップをレンダリングするステップと、
    を含む、方法。
  8. 前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項に記載の方法。
  9. 前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項に記載の方法。
  10. 前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項に記載の方法。
  11. 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項に記載の方法。
  12. 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項に記載の方法。
  13. 入力画像における物体のエッジの各ピクセルを1つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている非一時的コンピューター可読記憶媒体であって、前記方法は、
    少なくとも1つの物体を含むシーンの画像の受信に応答して、該画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換することであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求めることと、
    前記マルチラベルエッジマップをレンダリングすることと、
    を含む、非一時的コンピューター可読記憶媒体。
  14. 前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項13に記載の記憶媒体。
  15. 前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項13に記載の記憶媒体。
  16. 前記ニューラルネットワークは、残差ニューラルネットワークである、請求項13に記載の記憶媒体。
JP2018040369A 2017-05-18 2018-03-07 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 Active JP6843086B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762507922P 2017-05-18 2017-05-18
US62/507,922 2017-05-18
US15/718,554 US10410353B2 (en) 2017-05-18 2017-09-28 Multi-label semantic boundary detection system
US15/718,554 2017-09-28

Publications (3)

Publication Number Publication Date
JP2018195293A JP2018195293A (ja) 2018-12-06
JP2018195293A5 JP2018195293A5 (ja) 2021-01-21
JP6843086B2 true JP6843086B2 (ja) 2021-03-17

Family

ID=64272525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018040369A Active JP6843086B2 (ja) 2017-05-18 2018-03-07 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体

Country Status (2)

Country Link
US (1) US10410353B2 (ja)
JP (1) JP6843086B2 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354391B2 (en) * 2016-10-27 2019-07-16 Peter Jin-Pyong Yim Method and system for multi-label image segmentation
JP7146372B2 (ja) 2017-06-21 2022-10-04 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
WO2019066794A1 (en) 2017-09-27 2019-04-04 Google Llc END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION
US11636665B2 (en) * 2018-01-15 2023-04-25 Shenzhen Corerain Technologies Co., Ltd. Streaming image semantic segmentation method, logical integrated circuit system and electronic device
US11551032B1 (en) * 2018-03-14 2023-01-10 United States Of America As Represented By The Secretary Of The Navy Machine learning based automated object recognition for unmanned autonomous vehicles
US11020206B2 (en) * 2018-05-22 2021-06-01 Align Technology, Inc. Tooth segmentation based on anatomical edge information
KR20190134272A (ko) 2018-05-25 2019-12-04 삼성전자주식회사 영상 처리를 위한 네트워크 조정 방법 및 장치
US11120228B2 (en) * 2018-07-03 2021-09-14 Tata Consultancy Services Limited Method and system for generating ground truth labels for ambiguous domain specific tasks
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
US10748033B2 (en) * 2018-12-11 2020-08-18 Industrial Technology Research Institute Object detection method using CNN model and object detection apparatus using the same
EP3721382B1 (en) * 2018-12-31 2022-10-12 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system of annotation densification for semantic segmentation
US10872275B2 (en) * 2019-03-22 2020-12-22 Nokia Technologies Oy Semantic segmentation based on a hierarchy of neural networks
KR102073873B1 (ko) * 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
JP7138780B2 (ja) * 2019-04-02 2022-09-16 富士フイルム株式会社 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム
US10546216B1 (en) * 2019-04-11 2020-01-28 Seetree Systems Ltd. Recurrent pattern image classification and registration
CN110334724B (zh) * 2019-04-16 2022-06-17 武汉理工大学 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN110210515B (zh) * 2019-04-25 2021-04-20 浙江大学 一种图像数据多标签分类方法
CN110443254B (zh) * 2019-08-02 2023-06-20 上海联影医疗科技股份有限公司 图像中金属区域的检测方法、装置、设备和存储介质
EP3958742A4 (en) * 2019-05-24 2022-06-29 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for processing x-ray images
CN112116596A (zh) * 2019-06-19 2020-12-22 深圳Tcl新技术有限公司 图像分割模型的训练方法、图像分割方法、介质及终端
CN110298397A (zh) * 2019-06-25 2019-10-01 东北大学 基于压缩卷积神经网络的加热金属图像的多标签分类方法
US11068748B2 (en) * 2019-07-17 2021-07-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iteratively biased loss function and related methods
CN110458051A (zh) * 2019-07-25 2019-11-15 中移(杭州)信息技术有限公司 一种设备控制的方法、装置、服务器及可读存储介质
US11416998B2 (en) 2019-07-30 2022-08-16 Microsoft Technology Licensing, Llc Pixel classification to reduce depth-estimation error
CN110516727B (zh) * 2019-08-20 2022-12-06 西安电子科技大学 基于fpga深度边缘滤波器的高光谱图像分类方法
CN110852325B (zh) * 2019-10-31 2023-03-31 上海商汤智能科技有限公司 图像的分割方法及装置、电子设备和存储介质
CN110827963A (zh) * 2019-11-06 2020-02-21 杭州迪英加科技有限公司 针对病理图像的语义分割方法和电子设备
CN110766690B (zh) * 2019-11-07 2020-08-14 四川农业大学 基于深度学习点监督思想的麦穗检测和计数方法
US11423544B1 (en) 2019-11-14 2022-08-23 Seg AI LLC Segmenting medical images
US10762629B1 (en) 2019-11-14 2020-09-01 SegAI LLC Segmenting medical images
US11416772B2 (en) 2019-12-02 2022-08-16 International Business Machines Corporation Integrated bottom-up segmentation for semi-supervised image segmentation
CN111242223B (zh) * 2020-01-15 2020-11-13 中国科学院地理科学与资源研究所 一种基于街景影像多特征融合的街道空间品质评价方法
US11763478B1 (en) 2020-01-17 2023-09-19 Apple Inc. Scan-based measurements
US11922580B2 (en) * 2020-01-17 2024-03-05 Apple Inc. Floorplan generation based on room scanning
KR102204956B1 (ko) * 2020-01-30 2021-01-19 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
US11282293B2 (en) * 2020-04-17 2022-03-22 Tianlong Chen Methods and apparatus for border-ownership representation of occluding contours for images
CN111667455B (zh) * 2020-04-28 2023-10-24 广东三三智能科技有限公司 一种刷具多种缺陷的ai检测方法
CN113570052B (zh) * 2020-04-28 2023-10-31 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
US20210383534A1 (en) * 2020-06-03 2021-12-09 GE Precision Healthcare LLC System and methods for image segmentation and classification using reduced depth convolutional neural networks
US11417097B2 (en) * 2020-09-02 2022-08-16 Hewlett Packard Enterprise Development Lp Video annotation system for deep learning based video analytics
CN112085001B (zh) * 2020-09-23 2024-04-23 清华大学苏州汽车研究院(相城) 一种基于多尺度边缘特征检测的隧道识别模型及方法
CN112184585B (zh) * 2020-09-29 2024-03-29 中科方寸知微(南京)科技有限公司 一种基于语义边缘融合的图像补全方法及系统
CN112308870B (zh) * 2020-10-16 2022-06-14 易思维(杭州)科技有限公司 基于深度学习的边缘检测滤波器优化方法
CN112347977B (zh) * 2020-11-23 2021-07-20 深圳大学 一种诱导性多能干细胞的自动检测方法、存储介质及装置
KR20220116800A (ko) * 2021-02-15 2022-08-23 에스케이하이닉스 주식회사 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법
US11989897B2 (en) * 2021-03-16 2024-05-21 International Business Machines Corporation Depth map generation from sparse depth samples in an augmented reality environment
CN113095405B (zh) * 2021-04-13 2024-04-30 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113971743B (zh) * 2021-05-24 2024-04-05 华东理工大学 一种基于先验信息的语义补充网络的多标签图像分类方法
CN113538484B (zh) * 2021-07-01 2022-06-10 广西科技大学 一种深度细化的多重信息嵌套边缘检测方法
CN113807293B (zh) * 2021-09-24 2024-02-09 纵目科技(重庆)有限公司 减速带的检测方法、系统、设备及计算机可读存储介质
US20230245450A1 (en) * 2022-02-03 2023-08-03 Robert Bosch Gmbh Learning semantic segmentation models in the absence of a portion of class labels
CN114612544B (zh) 2022-03-11 2024-01-02 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN114581806B (zh) * 2022-03-18 2024-03-19 重庆科技学院 一种基于主干边缘特征提取的工业零件空载率计算方法
CN114387523B (zh) * 2022-03-23 2022-06-03 成都理工大学 基于dcnn边界引导的遥感图像建筑物提取方法
CN114882279B (zh) * 2022-05-10 2024-03-19 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN117079103B (zh) * 2023-10-16 2024-01-02 暨南大学 一种用于神经网络训练的伪标签生成方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060072302A1 (en) 2004-10-01 2006-04-06 Chien Tseng L Electro-luminescent (EL) illuminated wall plate device with push-tighten frame means
US9053537B2 (en) 2011-09-21 2015-06-09 Tandent Vision Science, Inc. Classifier for use in generating a diffuse image
US9292787B2 (en) * 2012-08-29 2016-03-22 Microsoft Technology Licensing, Llc Computer-implemented deep tensor neural network
CN104346620B (zh) 2013-07-25 2017-12-29 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理系统
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US10402700B2 (en) * 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification

Also Published As

Publication number Publication date
US10410353B2 (en) 2019-09-10
US20180336683A1 (en) 2018-11-22
JP2018195293A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
CN107895367B (zh) 一种骨龄识别方法、系统及电子设备
WO2020224424A1 (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Gupta et al. Salient object detection techniques in computer vision—A survey
US10936911B2 (en) Logo detection
CN109478239B (zh) 检测图像中的对象的方法和对象检测系统
US10860837B2 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
Yang et al. Layered object models for image segmentation
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
Kao et al. Visual aesthetic quality assessment with a regression model
CN112262395A (zh) 基于注释信息的分类
CN110689036A (zh) 用于自动染色体分类的方法和系统
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
US20220108478A1 (en) Processing images using self-attention based neural networks
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
WO2021057148A1 (zh) 基于神经网络的脑组织分层方法、装置、计算机设备
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
WO2020230244A1 (ja) 学習方法、学習プログラム、および、学習装置
CN108108769B (zh) 一种数据的分类方法、装置及存储介质
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
CN117036948A (zh) 一种基于注意力机制的致敏植物识别方法
JP7335204B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201204

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201204

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210222

R150 Certificate of patent or registration of utility model

Ref document number: 6843086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250