JP6843086B2

JP6843086B2 - 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体

Info

Publication number: JP6843086B2
Application number: JP2018040369A
Authority: JP
Inventors: チェン・フェン; ジディン・ユ; スリクマール・ラマリンガム
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-05-18
Filing date: 2018-03-07
Publication date: 2021-03-17
Anticipated expiration: 2038-03-07
Also published as: US10410353B2; US20180336683A1; JP2018195293A

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、画像において異なる物体クラスの境界を検出することに関する。

意味画像セグメンテーション又は深度推定等の高レベル及び低レベルの双方のコンピュータービジョン問題は、多くの場合、画像内の各ピクセルにラベルを割り当てることを伴う。個々のピクセルを分類するのに用いられる特徴表現は、このタスクにおいて重要な役割を演じるが、正確かつ精密な結果を取得するためにラベルを割り当てている間、画像エッジ、外観一貫性及び空間一貫性等のファクターを考慮することも同様に重要である。幾つかのコンピュータービジョンタスクは、有利にはともに用いることもできるし、１つの共同タスクにマージすることさえもできることは驚くべきことではない。

例えば、セマンティックセグメンテーションは、画像内のあらゆるピクセルのカテゴリーラベルを予測することを目的とする一方、境界検出又はエッジ検出は、セマンティックセグメンテーションを含む多種多様なビジョンタスクを改善することに非常に有益な画像内の境界ピクセルを求めることを目的とする。そのために、それらの２つの問題を互いに併合し、コンピュータービジョンにおける別個の問題としてのカテゴリー認識（category-aware）意味境界検出にすることができる。しかしながら、これまでの境界検出は、それ自体が困難な２値問題であるが、意味境界検出は、本質的に更に困難な問題である。

近年、境界検出の問題は、深層学習を用いて対処されており、幾つかのニューラルネットワークは、ネットワークアーキテクチャをより体系的に組み合わせるのではなく、セマンティックセグメンテーション結果及びエッジ検出結果を直接組み合わせて、意味境界検出を実行する。

このため、セマンティックセグメンテーション及びエッジ検出のそのような組み合わせは、複数のニューラルネットワークの要件に起因して常に効率的であるとは限らない。

幾つかの実施の形態は、画像の意味境界検出を行うシステム及び方法を提供する。本発明は、あらゆるピクセルが建物、空、地面、歩行者、自動車等の種々の物体クラスに分類される画像のセマンティックセグメンテーションに関する認識に基づいている。本開示では、境界ピクセルに焦点が当てられ、物体及び物体の境界についての重要な情報が取得される方法で境界ピクセルがラベル付けされる。

幾つかの実施の形態は、セマンティックセグメンテーションにおいて、画像の各ピクセルが単一のクラスにのみ属し、その結果、いわゆるマルチクラスセグメンテーションになることを理解することに基づいている。この前提は、通常のセマンティックセグメンテーションについては基本であるが、カテゴリー認識意味境界検出については必ずしも正しくない。そのような不正確な前提は、セマンティックセグメンテーションの双対問題として意味境界検出を実行するニューラルネットワークの適切でより良好なトレーニング及び試験を妨げる。

具体的に言えば、理論上、全ての物体は、互いに異なり、分離している。しかしながら、幾つかの実施の形態は、実際には、少なくともセンサーの分解能の限界に起因して、エッジピクセルが複数の物体及び／又はクラスに属する可能性があるという認識に基づいている。そのために、幾つかの実施の形態は、物体の境界を形成するピクセルが１つ又は複数の意味クラスに属することを可能にする。そのようにして、幾つかの実施の形態は、各ピクセルが１つの意味クラスにのみ属するマルチクラスセグメンテーションを、各ピクセルが１つ又は複数の意味クラスに属することができる、すなわち、１つ又は複数の意味ラベルに割り当てられるマルチラベルセグメンテーションに変換する。複数の意味ラベルへの割り当ての例は、「建物＋ポール」及び「道路＋歩道」等の割り当てを含むことができる。

幾つかの実施の形態は、ニューラルネットワークのトレーニング及び試験中にそのようなマルチラベル分類を可能にすることによって、１つのみの意味ラベルを有するように各ピクセルを制約するマルチクラス分類の制約が緩和され、それによって、分類精度が向上するという認識に基づいている。画像のそのようなマルチラベルエッジセグメンテーションの成果は、本明細書では、画像のマルチラベルエッジマップと呼ばれる。

そのために、幾つかの実施の形態は、画像において物体のエッジを検出し、このエッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換する。例えば、幾つかの実施の形態は、エッジが、１つ又は複数の意味クラスに属する物体によって形成されるので、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てることによって、入力画像のマルチラベルエッジ分類を実行するようにニューラルネットワークをトレーニングする。幾つかの実施態様では、トレーニング中、マルチラベルエッジ分類は、トレーニング画像のマルチラベルエッジマップ、すなわち、Ｋ個の意味クラスのそれぞれについてＫチャネルを含む手動で作成されたグランドトゥルースクラスラベル画像を有することと、各意味クラスの分類誤差を独立して求める損失関数を適用することとによって実施される。

したがって、１つの実施の形態は、少なくとも１つの物体を含むシーンの画像を受信する画像インターフェースと、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するプロセッサと、クラスラベルの異なる組み合わせを表す色等を用いて、前記マルチラベルエッジマップをレンダリングする出力インターフェースとを備える、画像処理システムを開示する。

別の実施の形態は、画像においてマルチラベル意味エッジ検出を行う方法であって、該方法は、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、該プロセッサは、該方法を実施する記憶された命令と結合され、該命令は、前記プロセッサによって実行されると、該方法の少なくとも幾つかのステップを実行し、該ステップは、少なくとも１つの物体を含むシーンの画像を受信するステップと、前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するステップと、前記マルチラベルエッジマップをレンダリングするステップとを含む、方法を開示する。

更に別の実施の形態は、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている非一時的コンピューター可読記憶媒体であって、前記方法は、少なくとも１つの物体を含むシーンの画像の受信に応答して、該画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換することと、前記マルチラベルエッジマップをレンダリングすることとを含む、非一時的コンピューター可読記憶媒体を開示する。

幾つかの実施の形態は、損失関数を有する深層教師（deep supervision：深い管理監督）が早期層において重要であるマルチクラスセグメンテーションとは対照的に、マルチラベル意味境界検出の場合、深層教師は、早期層において必要ではないという別の認識に基づいている。具体的に言えば、マルチラベルセグメンテーションは、ニューラルネットワークの層によって考慮されるコンテキスト情報に依存する。さらに、このコンテキスト情報は、層の視野（又は層への入力の視野）に依存し、この視野は、層の受容野の関数である。そのために、幾つかの実施の形態は、受容野サイズが大きい上位層においてのみ、マルチラベル分類教師、すなわち損失計算を実行する。

例えば、１つの実施の形態では、前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットにのみ課される。この実施の形態は、クラス不可知境界予測（class agnostic boundary prediction：クラスを知ることができない境界の予測）を行うために下位層を過度に微調整するリスク及びより高いレベルのコンテキスト情報を抽出することを妨げるリスクを回避しつつ、より高いレベルのコンテキスト情報を利用する。

一方、幾つかの実施の形態は、低い受容野を有する下位レベルの特徴が、マルチラベル分類には任意選択的であるが、それらの下位レベルの特徴が、非境界ピクセルからの応答を抑制することに役立つことができ、最終マルチラベル分類の高位レベルのコンテキスト情報と同時に考慮することができるという別の認識に基づいている。そのために、幾つかの実施の形態では、ニューラルネットワークは、小さな受容野を有するニューラルネットワークの少なくとも幾つかの早期層の出力を組み合わせてテンソルにし、このテンソルに対してマルチラベルエッジ分類を実行する。

様々な実施の形態では、ニューラルネットワークは、異なって実施される。例えば、１つの実施の形態では、ニューラルネットワークは、残差ニューラルネットワーク（ＲｅｓＮｅｔと呼ばれることがある）である。この実施の形態は、入力画像及び出力画像の非線形マッピングをモデル化することが、層の数の増加を可能にするそのようなマッピングの残差をモデル化することよりも困難であるという認識に基づいている。

ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。

従来のエッジ、意味エッジ、及び本開示の実施形態によるカテゴリー認識意味エッジの間の相違を示す概略説明図である。単一ラベル意味エッジと本開示の実施形態によるカテゴリー認識意味エッジとの間の相違を示す図である。本開示の実施形態による、画像においてマルチラベル意味エッジ検出を実行する画像処理システムを示すブロック図である。本開示の実施形態によるマルチラベル意味エッジトレーニングの畳み込みニューラルネットワーク（ＣＮＮ）のアーキテクチャを示すブロック図である。本開示の実施形態による、図３ＡのＣＮＮにおいて用いられるモジュールを示すブロック図である。本開示の実施形態によるマルチラベル意味エッジトレーニングの深層教師ありネットワーク（ＤＳＮ）のアーキテクチャを示すブロック図である。本開示の実施形態による、図４ＡのＤＳＮにおいて用いられるスライス連結（sliced concatenation）を用いるモジュールを示すブロック図である。本開示の実施形態による、図４ＡのＤＳＮにおいて用いられる融合分類（fused classification）を用いるモジュールを示すブロック図である。本開示の実施形態によるカテゴリー認識意味エッジ検出ネットワーク（ＣＡＳＥＮｅｔ）のアーキテクチャを示すブロック図である。本開示の実施形態による、図５ＡのＣＡＳＥＮｅｔにおいて用いられるモジュールを示すブロック図である。本開示の実施形態による、図５ＡのＣＡＳＥＮｅｔにおいて用いられる共有連結（shared concatenation）を示すブロック図である。ＳＢＤベンチマークに関するシミュレーション結果を示す表である。Ｃｉｔｙｓｃａｐｅｓ（都市景観）ベンチマークに関するシミュレーション結果を示す表である。

本開示の様々な実施形態が、図面を参照して以下で説明される。図面は縮尺どおり描かれておらず、類似の構造又は機能の要素は、図面全体にわたって同様の参照符号によって表されることに留意されたい。図面は、本開示の特定の実施形態の説明を容易にすることのみを意図することにも留意されたい。図面は、本開示の網羅的な説明として意図されるものでもなければ、本開示の範囲を限定するものとして意図されるものでもない。加えて、本開示の特定の実施形態と併せて説明される態様は、必ずしもその実施形態に限定されず、本開示の任意の他の実施形態において実施することができる。

図１Ａは、従来のエッジ、意味エッジ、及び本開示の実施形態によるカテゴリー認識意味エッジの間の相違を示す概略説明図を示している。

一般的な道路シーンの画像１００が与えられると、キャニー（Canny）エッジ検出器等の従来の低レベルエッジ検出方法は、双方の照明、テクスチャ、オクルージョン等によって形成されたエッジを含む低レベルエッジマップ１１０を出力する。全体ネスト型エッジ検出（ＨＥＤ：Holistically-nested edge detection）方法等の意味エッジ検出方法は、互いに遮蔽又は交差する意味物体によって形成されたエッジを含むエッジマップ１２０を出力する。本発明の目標は、物体境界ピクセルを検出するだけでなく、１つ以上の意味クラスへの各境界ピクセルの関連付けに基づいて各境界ピクセルの分類も行い、その結果、境界情報をその意味クラス情報とともに含むエッジマップ１３０を得ることである。意味クラスは、通常、空、建物、及び地面等の単一の物体カテゴリーを指すが、境界クラスは、２つ以上の意味クラスに関連付けられている。例えば、境界ピクセルは、空及び建物の２つの領域を分離する輪郭に位置している場合、これらの空及び建物によって示すことができる。画像１３０は、ＨＳＶによって色分けすることができる。この場合、色相は、カテゴリーの異なる組み合わせの境界を表し（１４個の組み合わせの色コードが表１３５に示されている）、彩度は、或る特定の境界への関連付けの強度を表す。本発明者らは、カテゴリー認識意味エッジネットワーク（ＣＡＳＥＮｅｔ）と呼ぶ新規な畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャを提案する。本発明の方法は、他の競合する方法よりも大幅に性能が優れている。カラー表示が最良である（Best viewed in color）。

図１Ａは、建物、地面、空、及び自動車等の幾つかの物体カテゴリーを有するＣｉｔｙｓｃａｐｅｓデータセットからの道路シーンの画像１００を示している。ビジョンにおける多くの既存の方法は、各ピクセルがこれらの物体カテゴリーのうちの１つとして分類される高密度セマンティックセグメンテーションに焦点を当てているが、本発明は、境界ピクセルにのみ焦点を当てている。特に、本発明では、物体カテゴリーのうちの１つ以上への各境界ピクセルの関連付けに基づいて各境界ピクセルを分類する問題が検討される。例えば、建物とポールとを分離する輪郭に位置する境界ピクセルは、これらの物体カテゴリーの双方に関連付けることができる。通常、境界カテゴリーは、この図に示すような「建物＋ポール」及び「道路＋歩道」等のラベルを含む。

より正確に言えば、あらゆる境界ピクセルは、個々の要素がそれぞれ異なる意味クラスとのピクセルの関連付けの強度を示すベクトルによって示される。ほとんどの場合、各境界ピクセルは、２つの物体カテゴリーにのみ関連付けられる。ただし、接合部の場合、境界ピクセルは３つ以上の物体カテゴリーに関連付けられることを予想することができる。したがって、この場合に、境界ピクセルを関連付けることができる物体カテゴリーの数は限定されない。画像１３０には、本発明の意味境界ラベル付けの結果、色相彩度明度（ＨＳＶ）フォーマットが得られることが示されている。このフォーマットでは、色相が、それぞれ異なるタイプの境界を表し、彩度が、特定の境界クラスへのピクセルの関連付けを表す。境界は、必ずしも連続曲線を形成しないエッジピクセルの集合として扱われる。他方、輪郭は、必ずしもいずれの領域も取り囲まない開曲線として見ることができる。境界検出の問題は、セマンティックセグメンテーション、物体検出／認識、及び３Ｄ再構成等の多くのビジョンタスクにとって有用であることが示されてきた。これは、それほど驚くべきことではない。なぜならば、セグメンテーション及び立体写真等の多くの問題において境界位置同定の困難さを知るために用いられているからである。

共通の誤解は、境界情報を、他のアプリケーションを高度化する単に低レベルかつ単純なキューとして扱うことである。僅かな外挿を用いて、完全に近い意味境界が、追加の情報なしで、セマンティックセグメンテーション、深度推定、画像ベースの位置同定、及び物体検出を解くことができることを見ることは困難ではない。境界問題をこのように理解することは、境界検出がそれ自体難解な問題であるので難しい。しかしながら、このタスクのための大規模なトレーニングデータが利用可能であること及び深層学習方法が進歩したことによって、この数年間に境界検出問題を大きく進展させることが可能になっている。特に、より新しいデータセットが登場している。これらの２つの問題は双対問題として見ることができるので、大規模なセマンティックセグメンテーションデータセットの可用性も、意味境界データセットを取得するために容易に処理することができる。セマンティックセグメンテーション及び境界検出は、自然画像の全包括的な解釈に十分であるか？との疑問が存在し得る。本発明者らは、そのような完全な理解は、意味輪郭及び接合部を用いて画像を解釈することなしに完全ではないと考えている。一方、本発明者らは、全包括的な解釈に向かうために、意味境界検出の精度を或る特定のレベルに改善することが重要であると考えている。

図１Ｂは、エッジマップ１２０において従来の意味エッジ検出で用いられる入力画像１５０内のピクセル１５５の単一ラベル意味エッジ１６０と、本開示の実施形態による、エッジマップ１３０においてカテゴリー認識意味エッジ検出で用いられるピクセル１５５のカテゴリー認識意味エッジ１７０との間の相違を示す図を示している。

図２は、本開示の実施形態による、画像においてマルチラベル意味エッジ検出を実行する画像処理システム２００を示すブロック図である。

画像処理システム２００は、キーボード２１１と、ポインティングデバイス／メディア２１２と、アノテーションデバイス２１３とに接続可能な入力／出力（Ｉ／Ｏ）インターフェースを有するヒューマンマシンインターフェース（ＨＭＩ）２１０を備えることができる。

さらに、画像処理システム２００は、全地球測位システム（ＧＰＳ）（図示せず）と、プロセッサ２２０と、記憶デバイス２３０と、１つ以上のメモリ２４０と、ローカルエリアネットワーク、無線ネットワーク（図示せず）及びインターネットネットワーク（図示せず）を含むネットワーク２９０を介して他のコンピューター／端末２９５と接続可能なネットワークインターフェースコントローラー２５０（ＮＩＣ）と、ディスプレイデバイス２６５に接続されたディスプレイインターフェース２６０と、画像を受信する撮像デバイス２７５と接続可能な撮像インターフェース２７０と、印刷デバイス２８５と接続可能なプリンターインターフェース２８０とを備えることができる。記憶デバイス２３０は、元画像２３１の集合及び１つ以上のニューラルネットワーク２３２を記憶することができる。ニューラルネットワーク２３２のプログラムコードは、ＨＭＩ２１０と接続可能な非一時的コンピューター可読媒体（図示せず）内に記憶することができる。さらに、ＨＭＩ２１０、ＮＩＣ２５０、及び撮像インターフェース２７０は、ネットワーク、無線ネットワーク、又はデータ入力デバイスとの直接接続を用いてシステムの外部からデータ入力デバイス（図示せず）を介して、物体を含むシーンの画像を受信し、この画像を、システム２００におけるニューラルネットワーク２３２によって処理することができる入力画像に変換するように構成されている。

以下では、画像においてマルチラベル意味エッジ検出を実行する画像処理システムに関する問題及び方法を検討する論述が行われる。

境界検出又はエッジ検出の定義は、時間とともに、低レベルの特徴から高レベルの特徴に発展してきた。すなわち、単純なエッジフィルター、深度エッジ、物体境界、及び意味輪郭と発展してきた。或る意味で、エッジ検出アルゴリズムの発展は、単純な畳み込みフィルターからのコンピュータービジョンの進歩を捉えている。

深度エッジ
幾つかのこれまでの研究は、制限された設定の下で合成線画及び実世界画像から輪郭を凸輪郭、凹輪郭、及び遮蔽輪郭にラベル付けすることに焦点を当てている。室内レイアウト推定は、凹境界（壁、天井、及び地面を折り返す線）を特定することと見ることもできる。遮蔽境界を回復することによって、シーン内のそれぞれ異なる層の深度順序付けを取得することができることが示されている。

知覚エッジ（Perceptual edges）
多種多様な方法が、知覚境界の抽出に向けて推し進められている。それぞれ異なるパッチに対してブーストされた決定木を用いてエッジマップを抽出することが可能である。ランダムフォレストを用いて、物体境界パッチであるスケッチトークンを計算することも可能である。幾つかの他のエッジ検出方法は、統計的エッジ、マルチスケール境界検出、及び自己相互情報（ＰＭＩ：point-wise mutual information）検出器を含むことができる。別の手法は、構造化されたランダムフォレストを用いるリアルタイム高速エッジ検出方法とすることができる。他の方法では、深層ニューラルネットワークを用いることによって、検出性能を最新技術水準にまで押し上げることができる。

意味エッジ
意味エッジ検出の起源は、おそらく正確に指摘することができる。意味エッジ検出は、高レベルタスクとして、セグメンテーション及び再構成に関連した多くの問題においても暗黙的又は明示的に用いられてきた。或る意味で、全てのセマンティックセグメンテーション方法は、厳密に見なければ、意味エッジ検出と見ることができる。なぜならば、セグメンテーション結果から、必ずしも正確なエッジではないものの、エッジを容易に取得することができるからである。問題文を２値エッジ検出又はカテゴリー認識意味エッジ検出として具体的に定式化する手法が存在し得る。意味エッジ検出は、意味境界データセット（ＳＢＤ）を導入することができ、ボトムアップエッジ及びトップダウン検出器情報の双方を組み合わせてカテゴリー認識意味エッジを検出する逆検出器を提案する。ＨＦＬ（High-for-Low）（Bertasius他、２０１５）は、まず、ＶＧＧネットワーク（Simonyan及びZisserman、２０１４）を用いて２値意味エッジの位置を突き止め、次に、ＦＣＮ（完全畳み込みネットワーク）及びＤｅｅｐＬａｂ等の深層セマンティックセグメンテーションネットワークを用いてカテゴリーラベルを取得する。しかしながら、このフレームワークは、予測プロセスが分離されていることに起因して、エンドツーエンドにトレーニング可能ではない。

エッジ検出のためのＤＮＮ
深層ニューラルネットワークをエッジ検出に用いることができる。１つの注目すべき方法は、画像対画像形式でエッジをトレーニング及び予測し、エンドツーエンドトレーニングを実行する全体ネスト型エッジ検出（ＨＥＤ）であり得る。

問題定式化
入力画像（例えば、図３Ａにおける３００、図４Ａにおける４００、又は図５Ａにおける５００）を所与として、本発明の目標は、既定のカテゴリーに対応する意味エッジマップを計算することである。より形式的に言えば、入力画像Ｉ及びＫ個の定義された意味カテゴリーについて、本発明者らは、Ｋ個のエッジマップ｛Ｙ_１，．．．，Ｙ_Ｋ｝を取得することに関心がある。各エッジマップは、Ｉと同じサイズを有する。パラメーターＷを有するネットワークを用いて、ピクセルｐにおける第ｋの意味カテゴリーに関して計算されたエッジ確率を示すネットワーク出力をＹ_ｋ（ｐ｜Ｉ；Ｗ）∈［０；１］と示すことにする。

マルチラベル損失関数
場合によってはセマンティックセグメンテーションのマルチクラスの性質によって推し進められることによって、カテゴリー認識意味エッジ検出に関する幾つかの関連した研究は、多かれ少なかれ、マルチクラス学習の視点から問題を検討してきた。本発明者らの直観は、この問題が、本質的には、１つのピクセルが複数のカテゴリーに同時に属することを可能にすべきであり、また、マルチラベル学習フレームワークによって対処されるべきであるというものである。

したがって、本発明者らは、マルチラベル損失を提案する。各画像Ｉは、ラベル画像の集合

を有すると仮定する。ここで、

は、第ｋのクラス意味エッジのグランドトゥルースを示す２値画像である。マルチラベル損失は、以下の式として定式化される。

ここで、βは、サンプル数の非対称度に相当する画像内の非エッジピクセルのパーセンテージである。

ネットワークアーキテクチャ
本発明者らは、ＣＡＳＥＮｅｔ、すなわち、カテゴリー認識意味エッジ検出を扱うエンドツーエンドでトレーニング可能な畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャ（図５Ａに示す）を提案する。ＣＡＳＥＮｅｔを説明する前に、本発明者らは、まず、エッジ検出及びセマンティックセグメンテーションの際に与えることができる２つの代替のネットワークアーキテクチャを提案する。いずれのアーキテクチャも、本発明者らのタスクを扱うことができるが、これらのアーキテクチャに伴う問題が分析され、ＣＡＳＥＮｅｔアーキテクチャを提案することによってこれらの問題が対処される。

Ｂａｓｉｃネットワーク
図３Ａは、本開示の実施形態によるマルチラベル意味エッジトレーニングの畳み込みニューラルネットワーク（ＣＮＮ）のｂａｓｉｃアーキテクチャを示すブロック図である。この場合、入力データは、インターフェース、例えば撮像インターフェース２７０、ＨＭＩ２１０、又はＮＩＣ２５０を用いて層３００において導入され、ｒｅｓ１、ｒｅｓ２、ｒｅｓ３、ｒｅｓ４、及びｒｅｓ５のブロックを通じて処理され、分類ブロック３１０において分類される。これらのブロックのそれぞれは、層と呼ばれる場合がある。図３Ｂも、本開示の実施形態による、図３ＡのＣＮＮにおいて用いられる１×１畳み込み層とアップサンプリング層とを有するモジュール３１５を示すブロック図である。

完全畳み込みネットワークフレームワークの下でエッジ検出問題が扱われる。元の平均プーリング層及び完全接続層を除去することによってＲｅｓＮｅｔ−１０１が採用され、底部畳み込みブロックは維持される。低レベルエッジ情報をより良好に保存するために、ベースネットワークが更に変更される。ＲｅｓＮｅｔ−１０１における第１の畳み込みブロック及び第５の畳み込みブロック（図３Ａにおける「ｒｅｓ１」及び「ｒｅｓ５」）のストライドが２から１に変更される。幾つかの場合には、ＲｅｓＮｅｔは、早期層を後期層に直接リンクし、連続した層の間の中間接続をスキップする接続を有する残差ニューラルネットワークと呼ぶことができる。また、相似比が後続の畳み込み層に導入され、元のＲｅｓＮｅｔと同じ受容野サイズが維持される。

Ｂａｓｉｃアーキテクチャ
非常に自然のアーキテクチャは、図３Ａに示すＢａｓｉｃアーキテクチャとすることができる。ベースネットワークの上部には、分類モジュール（図３Ｂ）が１×１畳み込み層及びその後に続く双１次アップサンプリング層（Ｋグループ化（K-grouped）逆畳み込み層によって実施される）として追加され、Ｋ個の活性化マップの集合｛Ａ１，．．．，ＡＫ｝が生成される。各活性化マップは、画像と同じサイズを有する。次に、式（１）に提示されたＹｋ（ｐ）＝σ（Ａｋ（ｐ））によって与えられるシグモイドユニットを用いて、第ｋのクラスエッジに属するピクセルの確率がモデル化される。Ｙｋ（ｐ）は、互いに排反するものではないことに留意されたい。

深層教師ありネットワーク
図４Ａは、本開示の実施形態によるマルチラベル意味エッジトレーニングの深層教師ありネットワーク（ＤＳＮ）のアーキテクチャを示すブロック図である。図４Ｂは、本開示の実施形態による、図４ＡのＤＳＮにおいて用いられるスライス連結を用いるモジュールを示すブロック図である。図４Ｃは、本開示の実施形態による、図４ＡのＤＳＮにおいて用いられる融合分類を用いるモジュールを示すブロック図である。

全体ネスト型エッジ検出（ＨＥＤ）ネットワークの示差的な特徴のうちの１つは、深層教師を有するネスト型アーキテクチャである。基本的なアイデアは、上部ネットワーク損失だけでなく、損失を底部畳み込み側にも課すことである。加えて、融合エッジマップが、サイド活性化（side activations）の線形結合を管理監督することによって取得される。ＨＥＤは、２値エッジ検出しか実行しないことに留意されたい。本発明では、このアーキテクチャは、サイド出力用のＫ個のチャネル及び最終出力用のＫ個のチャネルを取り扱うように拡張されている。これは、図４Ａに示すような深層教師ありネットワーク（ＤＳＮ）と呼ばれる。このネットワークでは、上述した分類モジュールは、残差ブロックの各スタックの出力に接続され、５つのサイド分類活性化マップ｛Ａ^（１），．．．，Ａ^（５）｝が生成される。ここで、これらのサイド分類活性化マップのそれぞれは、Ｋ個のチャネルを有する。次に、これらの５つの活性化マップは、スライス連結層（図４Ａにおける４１０及び図４Ｂにおける４１５）を通して融合され、以下の５Ｋチャネル活性化マップが生成される。

Ａ^ｆは、Ｋグループ化１×１畳み込み（図４Ｃにおける４３５及び図４Ａにおける４３０）を実行する本発明の融合分類層に供給され、Ｋチャネル活性化マップＡ^（６）が生成される。最後に、式１を用いて、｛Ａ^（１），．．．，Ａ^（６）｝に関して６つの損失関数が計算され、このネットワークに深層教師が提供される。

なお、対応する従来の演算の代わりにグループ化畳み込みと併せてスライス連結を実行する理由は次のとおりである。５つのサイド活性化が管理監督されているので、それらのサイド活性化の各チャネルは、対応するクラスに最も関係がある情報を運ぶように暗黙的に制約される。スライス連結及びグループ化畳み込みを用いると、ピクセルｐの融合活性化は、以下の式によって与えられる。

これは、基本的には、それぞれ異なるスケールからの対応するクラス固有の活性化を最終融合活性化として統合する。本発明者らの実験は、この設計上の選択を実験的にサポートしている。

図５Ａは、本開示の実施形態によるカテゴリー認識意味エッジ検出ネットワーク（ＣＡＳＥＮｅｔ）のアーキテクチャを示すブロック図である。図５Ｂは、本開示の実施形態による、図５ＡのＣＡＳＥＮｅｔにおいて用いられるモジュールを示すブロック図である。図５Ｃは、本開示の実施形態による、図５ＡのＣＡＳＥＮｅｔにおいて用いられる共有連結を示すブロック図である。

ＣＡＳＥＮｅｔアーキテクチャ
Ｂａｓｉｃアーキテクチャ及びＤＳＮアーキテクチャを見直すと、カテゴリー認識意味エッジ検出タスクにおいて幾つかの潜在的な関連した課題があることに気付く。第１に、底部側の受容野が制限されている。その結果、コンテキスト情報は意味分類において重要な役割を果たすことからして、ネットワークが早期の段階で意味分類を実行することを要することは不合理であり得る。意味分類は、逆に、特徴が高レベル情報を用いて符号化される上部において行われるべきと考えられる。第２に、底部側の特徴は、上部分類を強化することと、非エッジピクセルを抑制することと、詳細なエッジ位置同定及び構造情報を提供することとに有用である。したがって、底部側の特徴は、エッジ検出において考慮されるべきである。

本発明の実施形態によれば、ＣＡＳＥＮｅｔアーキテクチャ（図５Ａ）は、上記で説明したＤＳＮネットワークを改良することによって取得することができる。この改良は、以下に要約した変更を含む。
１．底部側における分類モジュールを特徴抽出モジュールに置き換える。
２．分類モジュールを配置し、ネットワークの上部においてのみ管理監督を課す。
３．スライス連結の代わりに共有連結（図５Ｃにおける５１５及び図５Ａにおける５１０）を実行する。

サイド特徴抽出（図５Ｂにおける５２５及び図５Ａにおける５２０）とサイド分類（図４Ａにおける４２０）との間の相違は、前者が、Ｋ個のクラス活性化ではなく単一のチャネル特徴マップＦ^（ｊ）のみを出力するということである。共有連結は、サイド１〜３からの底部特徴Ｆ＝｛Ｆ^（１），Ｆ^（２），Ｆ^（３）｝を複製して、Ｋ個の上部活性化のそれぞれと個別に連結する。

結果として得られる連結された活性化マップは、再度、Ｋグループ化畳み込みを有する融合分類層に供給されて、Ｋチャネル活性化マップＡ^（６）が生成される。

ＣＡＳＥＮｅｔは、スキップ層アーキテクチャを通じて、低い側のレベル特徴を、高い側のレベル意味分類に参加させ、これを強化させることによって同時エッジ検出分類ネットワークとすることができる。

実験
ＣＡＳＥＮｅｔ１を、ＩｎｖＤｅｔ、ＨＦＬ、弱教師付き物体境界、及び幾つかのベースラインネットワークアーキテクチャを含むこれまでの最新技術の方法とともに論述する。

データセット
意味エッジ検出をベンチマークする標準的なデータセットであるＳＢＤに対して上記方法が評価される。ＳＢＤに加えて、この評価は、ピクセルレベルの高品質のアノテーション及び魅力的なストリートビューシナリオを有する普及したセマンティックセグメンテーションデータセットであるＣｉｔｙｓｃａｐｅｓにも拡張される。本発明者らの知る限りでは、本発明の方法は、このデータセットに対する意味エッジ検出結果を形式的に報告する最初の研究である。

ＳＢＤ
このデータセットは、ＰＡＳＣＡＬＶＯＣ２０１１ｔｒａｉｎｖａｌセットからの１１３５５個の画像からなり、８４９８個のトレーニング画像と２８５７個のテスト画像２とに分割されている。このデータセットは、２０個のＰａｓｃａｌＶＯＣクラスのうちの１つを用いてラベル付けされた意味境界を有する。

Ｃｉｔｙｓｃａｐｅｓ
このデータセットは、５０００個の画像を含み、２９７５個のトレーニング画像と、５００個の検証画像と、１５２５個のテスト画像とに分割されている。テスト画像のラベルは、現在、利用可能でないので、本発明者らの実験では、検証画像がテスト画像として扱われる。

評価プロトコル
ＳＢＤ及びＣｉｔｙｓｃａｐｅｓの双方に関して、各クラスのエッジ検出精度が、公式ベンチマークコード及びグランドトゥルースを用いて評価される。全ての設定及びパラメーターはデフォルトとして維持され、最適データセットスケール（ＯＤＳ）における最大Ｆ値（ＭＦ）と、各クラスの平均精度（ＡＰ）とが報告される。Ｃｉｔｙｓｃａｐｅｓの場合、これに正確に従って、評価のための単一ピクセル幅を有するグランドトゥルース境界が生成され、グランドトゥルース及び予測されたエッジマップの双方のサイズが、評価速度を考慮した各寸法に沿って２分の１に削減される。

実施態様の詳細
Ｃａｆｆｅライブラリを用いて、ＣＡＳＥＮｅｔ、ＨＥＤ、及び提案されたベースラインアーキテクチャをトレーニング及び試験した。

トレーニングラベル
ヒューマンアノテーションと真のエッジとの間の位置合わせ不良、及び境界の近くのピクセルのラベルの曖昧さを考慮して、ネットワークトレーニング用に僅かに太くしたグランドトゥルースエッジが生成される。これは、ピクセルの近傍を調べ、セグメンテーションラベルの何らかの相違を探すことによって行うことができる。そのような相違が存在する場合、そのピクセルはエッジピクセルとみなされる。本明細書では、近傍の最大範囲は２に設定される。マルチラベルフレームワークの下では、それぞれ異なるクラスからのエッジが重複する場合がある。

ベースライン
ＨＦＬ及びＨＥＤ等の幾つかの主な比較方法は、エッジ検出及びカテゴリー化にＶＧＧアーキテクチャ又はＶＧＧベースのアーキテクチャを用いるので、本発明でも、ＶＧＧに対してＣＡＳＥＮｅｔ及び他のベースラインアーキテクチャ（ＣＡＳＥＮｅｔ−ＶＧＧと示す）が採用される。特に、ｃｏｎｖ４の後の最大プーリング層が除去され、ｃｏｎｖ４と同じｃｏｎｖ５、ｆｃ６及びｆｃ７の分解能（入力の１／８）が維持される。ｆｃ６及びｆｃ７の双方は、３×３畳み込み及び１×１畳み込みと、１０２４に設定された寸法とを有する畳み込み層として扱われる。２及び４の相似比が、ｃｏｎｖ５及びｆｃ６に適用される。本発明のマルチラベルフレームワークをマルチクラスと比較するために、各クラスの非重複エッジを有するグランドトゥルースが生成され、ソフトマックス（softmax）損失が本明細書と同様に再重み付けされ、上部が、再重み付けされた２１クラスソフトマックス損失に置き換えられる。

初期化
本発明者らの実験では、ＣＡＳＥＮｅｔにおけるＲｅｓＮｅｔ／ＶＧＧの畳み込みブロックと、ＭＳＣＯＣＯ（Microsoft Common Objects in Context）データセットに対して事前にトレーニングされたモデルを用いた全ての比較ベースラインとが初期化される。

ハイパーパラメーター
同じベースネットワークを用いた全ての比較方法のハイパーパラメーターが統一され、それらのハイパーパラメーターのほとんどはＨＥＤに従って設定される。特に、１０の反復サイズを用いてＳＧＤが実行され、損失重みが１に固定され、運動量が０．９に固定され、重み減衰が０．０００５に固定される。ＲｅｓＮｅｔを用いた方法の場合、学習レート、ステップサイズ、ガンマ、及びクロップサイズは、ＳＢＤ及びＣｉｔｙｓｃａｐｅｓについてそれぞれ１ｅ−７／５ｅ−８、１００００／２００００、０．１／０．２、及び３５２×３５２／４７２×４７２に設定される。ＶＧＧの場合、学習レートは、１ｅ−８に設定されるが、それ以外のものは、ＳＢＤに関するＲｅｓＮｅｔと同じままである。ソフトマックス損失を有するベースラインの場合、学習レートは、０．０１に設定されるが、それ以外のパラメーターは同じままである。ＳＢＤ及びＣｉｔｙｓｃａｐｅｓに関する反復数は、経験的に２２０００及び４００００に設定される。

データ強化
トレーニング中、ＳＢＤ及びＣｉｔｙｓｃａｐｅｓの双方に対してランダムミラーリング及びクロッピングが可能にされる。ＳＢＤデータは、倍率｛０．５，０．７５，１．０，１．２５，１．５｝を用いて各画像をサイズ変更することによって更に強化される一方、Ｃｉｔｙｓｃａｐｅｓに対してそのような強化は行われない。

ＳＢＤに関する結果
図６は、ＳＢＤに対してカテゴリーごとのエッジ検出を実行するそれぞれ異なる方法のＭＦスコアを示す表である。この表では、ＣＡＳＥＮｅｔは、これまでの方法よりも性能が優れている。ベンチマークコードを用いると、注目される１つのことは、事後処理が、精度及びリコールレートの測定における閾値処理の後に行われることに主に起因して、曲線のリコールスコア（recall scores）が単調に増加していないということである。これは、本発明では、取得された生のエッジマップに対して事後処理動作が行われていないことから妥当である。ＡＰは、そのような状況下で明確に定義されていないので、ＳＢＤに関するＭＦのみが示されている。読者は、クラスごとの精度リコール曲線についての補助資料を参照されたい。

マルチラベル又はマルチクラス？
Ｂａｓｉｃアーキテクチャの下で、提案されたマルチラベル損失が、再重み付けされたソフトマックス損失と比較される。ソフトマックスの使用は、ＶＧＧ及びＲｅｓＮｅｔの双方に対して大きな性能劣化をもたらすことが分かり、このことは、マルチクラスの方法でこの性能劣化に対処するよく受け入れられている概念とは異なり、タスクをマルチラベル学習問題として定式化する本発明者らの動機付けの土台となっている。

深層教師は必要？
ＣＡＳＥＮｅｔは、図４Ａ、図４Ｂ及び図４Ｃに示すＢａｓｉｃ及びＤＳＮを含むベースラインネットワークアーキテクチャと比較される。その結果は、底部側における深層教師が必要でない場合があるという本発明者らの直観を経験的に支持する。特に、ＣＡＳＥＮｅｔは、クラスごとのＭＦだけでなく最終平均ＭＦスコアにおいて頻繁に勝っている。本発明者らの観察結果は、アノテーション品質が、或る程度、ネットワーク学習行動及び評価に影響を与え、種々の方法にわたって性能が低下する相違がもたらされたということである。そのような相違は、Ｃｉｔｙｓｃａｐｅｓにおいてより明らかになる。

上部教師は必要？
ＣＡＳＥＮｅｔにおけるサイド−５活性化に教師を課す必要性があるのかという更なる疑問が生じ得る。トレーニング中にサイド−５教師を有しない同じＣＡＳＥＮｅｔアーキテクチャを示すのに、ＣＡＳＥＮｅｔ−を用いることにする。サイド−５教師を加えることよりも向上した点は、高位レベル側活性化に対する教師が有用であることを示している。本発明者らの直観は、サイド−５教師が、サイド５が、底部層と相互作用することからの影響が少ない意味クラスの分類に、より多くの焦点を当てるのを援助するというものである。

ＲｅｓＮｅｔからＶＧＧへ
図６におけるＣＡＳＥＮｅｔ−ＶＧＧは、ＨＦＬ−ＦＣ８に匹敵する性能を示している。ＨＦＬ−ＣＲＦは、ＣＲＦ事後処理の援助を受けて、僅かにより良好に動作する。或る程度の結果は、ＨＦＬがエッジ位置同定及び分類に２つのＶＧＧネットワークを個別に用いる場合には、本発明の学習フレームワークが有効であることを示している。本発明の方法も、ＭＦ／ＡＰに関して４４／４１を与え、検出を伴って４９／４５を与えるＨＥＤベースラインよりも大幅に性能が優れている。

図７は、Ｃｉｔｙｓｃａｐｅｓベンチマークに関するシミュレーション結果を示す表である。全ての表記は、図６において用いられている表記と同様である。

Ｃｉｔｙｓｃａｐｅｓに関する結果
ＤＳＮ及びＣＡＳＥＮｅｔの双方も、Ｃｉｔｙｓｃａｐｅｓに関してベースネットワークとしてＲｅｓＮｅｔを用いてトレーニング及び試験される。ＳＢＤと比較すると、Ｃｉｔｙｓｃａｐｅｓは、比較的高いアノテーション品質を有するが、より困難なシナリオを含む。データセットは、より多くの重複する物体を含み、これは、マルチラベル意味境界ピクセルのより多くの場合につながり、したがって、提案された方法を試験するのにより良好であり得る。図６において、比較方法のＭＦ及びＡＰの双方が提供される。本発明者らが知る限りでは、これは、Ｃｉｔｙｓｃａｐｅｓに関するカテゴリーごとの意味エッジの検出性能を定量的に報告する最初の文書である。ＣＡＳＥＮｅｔは、全てのクラスにおいてＤＳＮよりも一貫して大幅に性能が優れていることが分かる。

結言
本開示の実施形態においては、カテゴリー認識意味エッジ検出のためのエンドツーエンド深層ネットワークが提案されている。提案されたネスト型アーキテクチャＣＡＳＥＮｅｔは、エッジ検出及びセグメンテーションにおいて普及している幾つかの既存のアーキテクチャを上回る改善を示すことが示されている。また、提案されたマルチラベル学習フレームワークは、エッジ検出に関してより良好な学習行動をもたらすことも示されている。本発明者らの提案した方法は、これまでの最新技術の方法よりも大幅に改善されている。

本開示の実施形態によれば、画像処理システムが、画像においてマルチラベル意味エッジ検出を実行する。例えば、画像処理システムは、少なくとも１つの物体を含むシーンの画像を受信する画像インターフェースと、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、画像における物体のエッジを検出し、このエッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換するプロセッサと、マルチラベルエッジマップをレンダリングする出力インターフェースとを備えることができる。

幾つかの場合には、画像処理システムにおけるニューラルネットワークは、図３Ａのように、順次減少する空間分解能を有する一連の層を備える。ｒｅｓ２における層の幅及び高さは、ｒｅｓ１における層の２分の１しかなく、同様に、ｒｅｓ３における層は、ｒｅｓ２の２分の１しかない。

さらに、ニューラルネットワークは、ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、テンソルに対してマルチラベルエッジ分類を実行することができる。例えば、図５Ａにおいて、ｒｅｓ５、ｒｅｓ３、ｒｅｓ２、及びｒｅｓ１からの出力は、サイド分類及びサイド特徴抽出を用いて個別に処理され、共有連結によって４Ｋチャネル化テンソルに組み合わされる（このテンソルにおいて、各チャネルは実行列である）。

この画像処理システムのニューラルネットワークは、当該ニューラルネットワークによって実行されるトレーニング画像のマルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有するトレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、損失関数は、各意味クラスの分類誤差を独立して求める。例えば、式（１）における各意味クラスｋの分類誤差Ｌ_ｋの全ては互いに独立している。

この場合、ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備え、損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される。例えば、図５Ａでは、サイド５分類層及び融合分類層にのみ、損失関数が課される（破線で示す）。なぜならば、これらの層の受容野は、ｒｅｓ１、ｒｅｓ２、及びｒｅｓ３等の底部層よりも多くのコンテキスト情報を取り込むことができるほど十分大きいからである。

さらに、損失関数は、エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科し、例えば、式（１）は、自己適応パラメーターβを用いてこれを実施する。幾つかの場合には、画像処理システムのニューラルネットワークは、残差ニューラルネットワークとすることができる。

本開示の実施形態によれば、マルチラベル意味エッジ検出の方法を説明することができる。この場合、画像においてマルチラベル意味エッジ検出を行う方法は、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、プロセッサは、方法を実施する記憶された命令と結合され、命令は、プロセッサによって実行されると、方法の少なくとも幾つかのステップを実行し、ステップは、少なくとも１つの物体を含むシーンの画像を受信するステップと、画像において物体のエッジを検出し、エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換するステップと、マルチラベルエッジマップをレンダリングするステップとを含む。

この方法では、ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える。幾つかの場合、ニューラルネットワークは、ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、テンソルに対してマルチラベルエッジ分類を実行する。

さらに、ニューラルネットワークは、ニューラルネットワークによって実行されたトレーニング画像のマルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有するトレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、損失関数は、各意味クラスの分類誤差を独立して求める。

この場合、ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備えることができ、損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される。

またさらに、損失関数は、エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す。本開示の一実施形態によれば、上記方法のニューラルネットワークは、残差ニューラルネットワークとすることができる。

本開示の実施形態によれば、上記で説明した方法の命令は、画像においてマルチラベル意味エッジ検出をプロセッサに実行させる非一時的コンピューター可読記憶媒体に適用することができる。

例えば、非一時的コンピューター可読記憶媒体は、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている。この場合、方法は、少なくとも１つの物体を含むシーンの画像の受信に応答して、画像において物体のエッジを検出し、エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てるニューラルネットワークを用いて、画像をマルチラベルエッジマップに変換することと、マルチラベルエッジマップをレンダリングすることとを含む。

本開示の上述した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、上記実施形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、このソフトウェアコードは、単一のコンピューター内に設けられているのか又は複数のコンピューター間に分散されているのかを問わず、任意の適したプロセッサ又はプロセッサの集合体上で実行することができる。そのようなプロセッサは、集積回路構成要素に１つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、任意の適したフォーマットの回路部を用いて実施することができる。

また、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、幾つかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。

さらに、請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

画像においてマルチラベル意味エッジ検出を行う画像処理システムであって、
少なくとも１つの物体を含むシーンの前記画像を受信する画像インターフェースと、
前記画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリと、
前記ニューラルネットワークを用いて、前記物体に基づいて前記画像をマルチラベルエッジマップに変換するプロセッサであって、前記ニューラルネットワークは、前記画像において前記物体のエッジを検出し、前記物体の前記エッジを形成するピクセルのそれぞれに複数の意味ラベルを割り当て、前記ニューラルネットワークは、該ニューラルネットワークによって実行されたトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、プロセッサと、
前記マルチラベルエッジマップをレンダリングする出力インターフェースと、
を備える、画像処理システム。
前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項１に記載の画像処理システム。
前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項１に記載の画像処理システム。
前記ニューラルネットワークは、入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項１に記載の画像処理システム。
前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項１に記載の画像処理システム。
前記ニューラルネットワークは、残差ニューラルネットワークである、請求項１に記載の画像処理システム。
画像においてマルチラベル意味エッジ検出を行う方法であって、該方法は、入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されたプロセッサを用い、該プロセッサは、該方法を実施する記憶された命令と結合され、該命令は、前記プロセッサによって実行されるときに、該方法の少なくとも幾つかのステップを実行し、該ステップは、
少なくとも１つの物体を含むシーンの画像を受信するステップと、
前記画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換するステップであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求める、ステップと、
前記マルチラベルエッジマップをレンダリングするステップと、
を含む、方法。
前記ニューラルネットワークは、順次減少する空間分解能を有する一連の層を備える、請求項７に記載の方法。
前記ニューラルネットワークは、該ニューラルネットワークの少なくとも幾つかの層の出力を組み合わせてテンソルにし、該テンソルに対して前記マルチラベルエッジ分類を実行する、請求項７に記載の方法。
前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項７に記載の方法。
前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項７に記載の方法。
前記ニューラルネットワークは、残差ニューラルネットワークである、請求項７に記載の方法。
入力画像における物体のエッジの各ピクセルを１つ又は複数の意味クラスに割り当てる該入力画像のマルチラベルエッジ分類を実行するようにトレーニングされたニューラルネットワークを記憶するとともに、方法を実行するプロセッサによって実行可能なプログラムが具現化されている非一時的コンピューター可読記憶媒体であって、前記方法は、
少なくとも１つの物体を含むシーンの画像の受信に応答して、該画像において前記物体のエッジを検出し、該エッジを形成する少なくとも幾つかのピクセルに複数の意味ラベルを割り当てる前記ニューラルネットワークを用いて、前記画像をマルチラベルエッジマップに変換することであって、前記ニューラルネットワークは、該ニューラルネットワークによって実行されるトレーニング画像の前記マルチラベルエッジマップと、複数の意味クラスに分類された少なくとも幾つかのエッジピクセルを有する前記トレーニング画像のグランドトゥルースマルチラベルエッジマップとの間の差の損失関数を最小にするようにトレーニングされ、前記損失関数は、前記各意味クラスの分類誤差を独立して求めることと、
前記マルチラベルエッジマップをレンダリングすることと、
を含む、非一時的コンピューター可読記憶媒体。
前記ニューラルネットワークは、前記入力画像を逐次的に処理する層のセットを備え、前記損失関数は、閾値よりも大きな受容野を有する層のサブセットに課される、請求項１３に記載の記憶媒体。
前記損失関数は、前記エッジピクセルの不正確な分類に対して、非エッジピクセルの不正確な分類よりも大きなペナルティーを科す、請求項１３に記載の記憶媒体。
前記ニューラルネットワークは、残差ニューラルネットワークである、請求項１３に記載の記憶媒体。