JP6865866B2 - 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル - Google Patents

高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル Download PDF

Info

Publication number
JP6865866B2
JP6865866B2 JP2019572504A JP2019572504A JP6865866B2 JP 6865866 B2 JP6865866 B2 JP 6865866B2 JP 2019572504 A JP2019572504 A JP 2019572504A JP 2019572504 A JP2019572504 A JP 2019572504A JP 6865866 B2 JP6865866 B2 JP 6865866B2
Authority
JP
Japan
Prior art keywords
image
neural network
semantic segmentation
segmentation mask
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019572504A
Other languages
English (en)
Other versions
JP2020528176A (ja
Inventor
倫次 金沢
倫次 金沢
ヤエル・プリチ・ケイナーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020528176A publication Critical patent/JP2020528176A/ja
Application granted granted Critical
Publication of JP6865866B2 publication Critical patent/JP6865866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H33/00Bathing devices for special therapeutic or hygienic purposes
    • A61H33/06Artificial hot-air or cold-air baths; Steam or gas baths or douches, e.g. sauna or Finnish baths
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H33/00Bathing devices for special therapeutic or hygienic purposes
    • A61H33/06Artificial hot-air or cold-air baths; Steam or gas baths or douches, e.g. sauna or Finnish baths
    • A61H33/063Heaters specifically designed therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C19/00Electric signal transmission systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • H04L12/40045Details regarding the feeding of energy to the node from the bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/01Constructive details
    • A61H2201/0173Means for preventing injuries
    • A61H2201/0176By stopping operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/02Characteristics of apparatus not provided for in the preceding codes heated or cooled
    • A61H2201/0207Characteristics of apparatus not provided for in the preceding codes heated or cooled heated
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5007Control means thereof computer controlled
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5007Control means thereof computer controlled
    • A61H2201/501Control means thereof computer controlled connected to external computer devices or networks
    • A61H2201/5012Control means thereof computer controlled connected to external computer devices or networks using the internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5071Pressure sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5082Temperature sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5089Gas sensors, e.g. for oxygen or CO2
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5092Optical sensor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Rehabilitation Therapy (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Pain & Pain Management (AREA)
  • Epidemiology (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本開示は、一般に画像セグメンテーションに関する。より詳細には、本開示は、エンドツーエンドでトレーニングすることができる高解像度画像セグメンテーションのためのネットワークモデルに関する。
画像セグメンテーション(たとえば、セマンティックセグメンテーション(Semantic Segmentation)など)を使用して、デジタル画像を複数のセグメントに分割することができる。たとえば、画像を特定の境界(直線線、曲線など)でオブジェクトにセグメント化したり、画像の前景または背景内の要素に分割したりすることができる。特に、同じラベルを有するピクセルがいくつかの特性を共有するように、画像の各ピクセルにラベル付けすることができる。セグメント化されると、たとえば、セグメントを抽出したり、セグメントに従って画像の一部をぼかしたりすることによって、画像を操作することができる。
畳み込みニューラルネットワーク(「CNN:Convolutional Neural Networks」)などのニューラルネットワークは、画像セグメンテーションを実行する能力を示している。しかしながら、画像セグメンテーションを実行するのに必要な計算集約性のために、256×256、300×300、400×400ピクセルなど、画像をセグメント化するように構成されたCNNへの入力および出力の解像度は、通常制限される。したがって、そのようなCNNから出力されたセグメント化された画像は、画像が低解像度であるために、ユーザにとって価値が限られ得る。
出力されたセグメント化された画像の解像度を上げる1つの技法は、バイラテラルフィルタまたは条件付き確率場プロセスを使用して、出力されたセグメント化された画像をより高い解像度にアップスケールすることである。しかしながら、CNNおよびアップスケーリング方法は、そのような構成では分離されたプロセスであるので、たとえば、高解像度のセグメント化された画像に基づいて出力誤差を逆伝播することによって、CNNをエンドツーエンドでトレーニングすることができない。
本開示の実施形態の態様および利点は、以下の説明に部分的に記載されている、または説明から学ぶことができる、または実施形態の実施を介して学ぶことができる。
本開示の1つの例示的な態様は、少なくとも1つのプロセッサ、機械学習画像セグメンテーションモデル、および少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに動作を実行させる命令を記憶する少なくとも1つの有形の非一時的コンピュータ可読媒体を含むコンピューティングシステムを対象とする。機械学習画像セグメンテーションモデルは、セマンティックセグメンテーション・ニューラルネットワーク(Semantic Segmentation Neural Network)およびエッジリファインメント・ニューラルネットワーク(Edge Refinement Neural Network)を含むことができる。セマンティックセグメンテーション・ニューラルネットワークは、画像を受信し、画像の受信に応答して、セマンティックセグメンテーションマスクを出力するようにトレーニングされ得る。画像の少なくとも一部およびセマンティックセグメンテーションマスクの少なくとも一部を受信し、画像の少なくとも一部およびセマンティックセグメンテーションマスクの少なくとも一部の受信に応答して、リファインド・セマンティックセグメンテーションマスク(Refined Semantic Segmentation Mask)を出力するように、エッジリファインメント・ニューラルネットワークをトレーニングすることができる。動作は、画像を取得することと、画像をセマンティックセグメンテーション・ニューラルネットワークに入力することと、セマンティックセグメンテーション・ニューラルネットワークの出力として、セマンティックセグメンテーションマスクを受信することと、画像の少なくとも一部およびセマンティックセグメンテーションマスクの少なくとも一部をエッジリファインメント・ニューラルネットワークに入力することと、エッジリファインメント・ニューラルネットワークの出力として、リファインド・セマンティックセグメンテーションマスクを受信することとを含むことができる。
本開示の別の例示的な態様は、画像の少なくとも一部についてセグメンテーションマスクを生成するコンピュータ実装方法を対象とする。この方法は、第1のニューラルネットワークで、画像から導出された第1のデータを受信するステップを含むことができる。この方法は、第1のニューラルネットワークの出力を生成するために、第1のニューラルネットワークを使用して、前記第1のデータを処理するステップをさらに含むことができ、前記出力が第1のセグメンテーションマスクに関連する。この方法は、第2のニューラルネットワークで、画像から導出された第2のデータ、および第1のニューラルネットワークの前記出力から導出されたデータを受信するステップをさらに含むことができる。この方法は、第2のセグメンテーションマスクに関連するデータを生成するステップをさらに含むことができ、第2のセグメンテーションマスクが第1のセグメンテーションマスクに対してリファインされるように、第2のニューラルネットワークを使用して、画像から導出された第2のデータおよび第1のニューラルネットワークの前記出力から導出されたデータを処理することを含む。
本開示の別の例示的な態様は、画像セグメンテーションモデルをエンドツーエンドでトレーニングするコンピュータ実装方法を対象とする。画像セグメンテーションモデルは、セマンティックセグメンテーション・ニューラルネットワークおよびエッジリファインメント・ニューラルネットワークを含むことができる。この方法は、トレーニング画像を画像セグメンテーションモデルに入力するステップを含むことができる。この方法は、セマンティックセグメンテーション・ニューラルネットワークの第1の損失関数を決定するステップをさらに含むことができる。この方法は、エッジリファインメント・ニューラルネットワークの第2の損失関数を決定するステップをさらに含むことができる。この方法は、第1の損失関数および第2の損失関数に少なくとも部分的に基づいて総損失関数を決定するステップをさらに含むことができる。この方法は、総損失関数に基づいて画像セグメンテーションモデルをトレーニングするステップをさらに含むことができる。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してよりよく理解されるようになるであろう。本明細書に組み込まれ、その一部を構成する添付の図面は、本開示の例示的な実施形態を示し、明細書と共に、関連する原理を説明するのに役立つ。
当業者に向けられた実施形態の詳細な説明は、添付の図面を参照する本明細書に記載されている。
本開示の例示的な態様による例示的なコンピューティングシステムのブロック図である。 本開示の例示的な態様による例示的な画像セグメンテーションモデルのブロック図である。 本開示の例示的な態様による例示的な画像セグメンテーションモデルのブロック図である。 本開示の例示的な態様による例示的なエッジリファインメント・ニューラルネットワークのブロック図である。 本開示の例示的な態様による例示的なエッジリファインメント・ニューラルネットワークのブロック図である。 本開示の例示的な態様による例示的な画像セグメンテーションモデルトレーニングプロセスのブロック図である。 本開示の例示的な態様による、リファインド・セマンティックセグメンテーションマスクを決定するための例示的な方法のフローチャート図である。 本開示の例示的な態様による、リファインド・セマンティックセグメンテーションマスクを決定するための例示的な方法のフローチャート図である。 本開示の例示的な態様による、画像セグメンテーションモデルをトレーニングするための例示的な方法のフローチャート図である。
本開示の例示的な態様は、機械学習を活用して画像のリファインド・セマンティックセグメンテーションマスクを決定するシステムおよび方法を対象とする。特に、本開示のシステムおよび方法は、1つまたは複数のニューラルネットワークを含む機械学習画像セグメンテーションモデルを含み、使用することができる。一例では、機械学習画像セグメンテーションモデルは、セマンティックセグメンテーションマスクを提供するように構成された第1のニューラルネットワーク、およびセマンティックセグメンテーションマスクをリファインするように構成された第2のニューラルネットワークを含むことができる。そのような例では、コンピューティングシステムは、画像を受信し、セマンティックセグメンテーションマスクを受信するために第1のニューラルネットワークに画像を入力し、セマンティックセグメンテーションマスクの少なくとも一部および画像の少なくとも一部を第2のニューラルネットワークに入力し、リファインド・セマンティックセグメンテーションマスクを第2のニューラルネットワークの出力として受信することができる。リファインド・セマンティックセグメンテーションマスクは、たとえば、元のセマンティックセグメンテーションマスクと比較して、リファインされた境界および/またはより高い解像度を有する画像のセマンティックセグメンテーションマスクとすることができる。たとえば、いくつかの実装形態では、リファインド・セマンティックセグメンテーションマスクは、セマンティックセグメンテーションマスクと比較して、よりシャープなエッジを有することができ、および/またはリファインド・セマンティックセグメンテーションマスクは、セマンティックセグメンテーションマスクと比較して、画像の少なくとも一部の前景と背景をより正確に分離することができる。
特に、本開示の一態様によれば、第1のニューラルネットワークは、画像を受信し、画像のセマンティックセグメンテーションマスクを決定するように構成されたセマンティックセグメンテーション・ニューラルネットワーク(たとえば、CNN)とすることができる。一例では、ユーザは、画像セグメンテーションモデルに提供するための画像をユーザコンピューティングデバイス上で選択することができる。コンピューティングデバイスは、画像をセマンティックセグメンテーション・ニューラルネットワークに入力し、画像のセマンティックセグメンテーションマスクを受信することができる。セマンティックセグメンテーションマスクは、画像を関連するセグメント(たとえば、画像の前景にいる人と背景)に分割することができる。たとえば、画像が分割されるセグメントは、別個のセマンティック概念にそれぞれ対応する意味的に別個のセグメントとすることができる。
コンピューティングデバイスは、セマンティックセグメンテーションマスクの少なくとも一部および画像の少なくとも一部を第2のニューラルネットワークに提供することができる。たとえば、第2のニューラルネットワークは、セマンティックセグメンテーションマスクおよび画像を受信し、第2のニューラルネットワークの出力として、リファインド・セマンティックセグメンテーションマスクを提供するように構成されたエッジリファインメント・ニューラルネットワーク(たとえば、CNN)とすることができる。リファインド・セマンティックセグメンテーションマスクは、画像のセグメント化された領域間にリファインされたエッジ(たとえば、より明確な/明確に定義された境界)を有し、および/またはセマンティックセグメンテーションマスクよりも高い解像度とすることができる。
リファインド・セマンティックセグメンテーションマスクは、次いで、コンピューティングデバイスによって使用され、画像の背景などに、ぼやけた効果を有する画像を生成することができる。たとえば、リファインド・セマンティックセグメンテーションマスクに基づいて、画像の背景エリアで画像をぼかして、ぼやけた背景効果(たとえば、「ぼけ」効果)を生成することができる。したがって、コンピューティングデバイスは、本開示の例示的な態様に従って、単一の画像および画像セグメンテーションモデルを使用して、ぼやけた背景画像を生成することができる。
さらに、本明細書でより詳細に説明するように、リファインされたセグメンテーションマスクを決定するために、画像セグメンテーションモデルをエンドツーエンドでトレーニングすることができ、それによって、トレーニングを介してリファインド・セマンティックセグメンテーションマスクの品質を向上させることができる。
より詳細には、いくつかの実装形態では、コンピューティングシステムは、少なくとも1つのプロセッサ、および少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに動作を実行させる命令を記憶する少なくとも1つの有形の非一時的コンピュータ可読媒体を含むことができる。コンピューティングシステムは、セマンティックセグメンテーション・ニューラルネットワークおよびエッジリファインメント・ニューラルネットワークを含むことができる機械学習画像セグメンテーションモデルをさらに含むことができる。
セマンティックセグメンテーション・ニューラルネットワークは、画像を受信し、画像の受信に応答して、セマンティックセグメンテーションマスクを出力するようにトレーニングされ得る。たとえば、セマンティックセグメンテーション・ニューラルネットワークは、1つまたは複数の畳み込み層を含むCNNとすることができる。セマンティックセグメンテーションマスクは、画像を、たとえば前景および背景、または他のセマンティックセグメントおよび/もしくは深層など、複数のセグメントにセグメント化または分割することができる。いくつかの実装形態では、セマンティックセグメンテーションによって決定されたセマンティックセグメンテーションマスクは、ピクセルごとに16の特徴の値を含むことができ、またはそうでなければ、16のチャネルに従ってセグメント化され得る。したがって、一例として、セマンティックセグメンテーション・ニューラルネットワークの出力層の深さは16とすることができる。複数の特徴を使用することによって、シングルフィーチャのセマンティックセグメンテーションマスクよりも正確にリファインド・セマンティックセグメンテーションマスクを予測することができ得る。たとえば、髪、肌、衣服、身体の特徴などに関する情報を、セマンティックセグメンテーションネットワークからエッジリファインメントネットワークに渡すことができる。他の実装形態では、セマンティックセグメンテーションマスクは2つまたは3つのチャネルを有することができる。
エッジリファインメント・ニューラルネットワークは、画像の少なくとも一部、およびセマンティックセグメンテーションマスクの少なくとも一部を受信し、それに応答して、リファインド・セマンティックセグメンテーションマスクを出力するようにトレーニングされ得る。たとえば、エッジリファインメント・ニューラルネットワークは、1つまたは複数の畳み込み層を含むCNNとすることができる。リファインド・セマンティックセグメンテーションマスクは、セマンティックセグメンテーションマスクと比較して、たとえば、より高い解像度、より明確に定義された境界、より正確な境界、または他のリファインメントを有することによってリファインされ得る。
命令によって、プロセッサは、画像を取得し、その画像をセマンティックセグメンテーション・ニューラルネットワークに入力することができる。たとえば、ユーザは、ユーザコンピューティングデバイスを使用して、画像セグメンテーションモデルに提供するための画像を選択することができる。いくつかの実装形態では、画像セグメンテーションモデルは、ユーザコンピューティングデバイス上に記憶されるか、そうでなければ含まれ得る。いくつかの実装形態では、画像セグメンテーションモデルをリモートコンピューティングシステムに記憶することができ、画像を、たとえば1つもしくは複数のワイヤードまたはワイヤレスのネットワークを介して、リモートコンピューティングシステムに提供することができる。
いくつかの実装形態では、画像は高解像度画像とすることができる。本明細書で使用する「高解像度」という用語は、画像に関して使用するとき、第2の解像度(たとえば、256×256ピクセル)の画像のバージョンよりも高い解像度の画像である第1の解像度(たとえば、2048×2048ピクセル)の画像のバージョンを指す。同様に、「低解像度」という用語は、画像に関して使用するとき、より高い解像度の画像のバージョンよりも低い解像度の画像のバージョンを指す。上記の例示的な解像度は、例としてのみ提供されている。高解像度および低解像度の画像に、多くの異なる解像度を使用することができる。
いくつかの実装形態では、高解像度画像を低解像度バージョンの画像にダウンスケールし、低解像度画像をセマンティックセグメンテーション・ニューラルネットワークに入力することによって、高解像度画像をセマンティックセグメンテーション・ニューラルネットワークに入力することができる。たとえば、最近隣補間法、双線形および双三次アルゴリズム、SincおよびLaszosリサンプリング、フーリエ変換法、エッジ指向補間、ベクトル化、深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks)、または他のダウンスケーリング技法など、任意の数の技法を適用して高解像度画像をダウンスケールすることができる。
いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークは、低解像度画像の受信に応答して、低解像度セマンティックセグメンテーションマスクを出力することができる。たとえば、セマンティックセグメンテーション・ニューラルネットワークに低解像度画像(たとえば256×256画像)を入力し、セマンティックセグメンテーション・ニューラルネットワークによって、対応する低解像度セマンティックセグメンテーションマスク(たとえば、対応する256×256ピクセル)を出力することができる。
本開示の追加の態様によれば、セマンティックセグメンテーションマスクの少なくとも一部を、エッジリファインメント・ニューラルネットワークに入力することができる。たとえば、いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークから受信されたセマンティックセグメンテーションマスクは、低解像度セマンティックセグメンテーションマスクである場合がある。低解像度セマンティックセグメンテーションマスクを、高解像度セマンティックセグメンテーションマスクにアップスケールすることができ、次いで、高解像度セマンティックセグメンテーションマスクをエッジリファインメント・ニューラルネットワークに入力することができる。たとえば、いくつかの実装形態では、低解像度セマンティックセグメンテーションマスクを、セマンティックセグメンテーション・ニューラルネットワークに提供される低解像度画像を取得するためにダウンスケールされた高解像度画像の元の解像度にアップスケールすることができる。
さらに、画像の少なくとも一部をエッジリファインメント・ニューラルネットワークに入力することができる。たとえば、いくつかの実装形態では、高解像度セマンティックセグメンテーションマスクとともに、高解像度画像をエッジリファインメント・ニューラルネットワークに入力することができる。
いくつかの実装形態では、たとえば、高解像度画像の一部をランダムにクロッピングし、クロッピングされた部分をエッジリファインメント・ニューラルネットワークに提供することによって、高解像度画像をサンプリングすることができる。同様に、いくつかの実装形態では、高解像度セマンティックセグメンテーションマスクの対応する部分をクロッピングし、エッジリファインメント・ニューラルネットワークに提供することができる。高解像度セマンティックセグメンテーションマスクの部分は、たとえば、高解像度画像においてランダムにクロッピングされたのと同じ領域の高解像度セマンティックセグメンテーションマスクであり得る。
いくつかの実装形態では、エッジリファインメント・ニューラルネットワークは、入力を別々に受信する2つのエンコーダネットワークを含むことができる。特に、一例として、画像(またはその一部)をエッジリファインメント・ニューラルネットワークの第1のエンコーダネットワークに入力することができ、セマンティックセグメンテーションマスク(またはその一部)をエッジリファインメント・ニューラルネットワークの第2のエンコーダネットワークに入力することができる。したがって、いくつかの実装形態では、エッジリファインメント・ニューラルネットワークは、2つのヘッドを含むネットワークとすることができ、第1のヘッドは画像エンコーダネットワークに対応し、第2のヘッドはセマンティックセグメンテーション・マスクエンコーダネットワークに対応する。各エンコーダネットワークは、画像またはセマンティックセグメンテーションマスクをそれぞれ符号化する1つまたは複数の畳み込み層を含むことができる。
各エンコーダネットワークは、符号化された出力を出力するように構成され得る。たとえば、第1のエンコーダネットワーク(たとえば、画像エンコーダネットワーク)は、第1の符号化された出力(たとえば、符号化された画像)を出力することができ、第2のエンコーダネットワーク(たとえば、セマンティックセグメンテーション・マスクエンコーダネットワーク)は、第2の符号化された出力(たとえば、符号化されたセマンティックセグメンテーションマスク)を出力することができる。エッジリファインメント・ニューラルネットワークは、第1の符号化された出力と第2の符号化された出力を連結(concatenate)して、連結された符号化された出力にすることができる。たとえば、エンコーダネットワークの各々は、それぞれ画像またはセマンティックセグメンテーションマスクの解像度を下げるように構成され得、2つのエンコーダネットワークの符号化された出力は、各々の解像度がそれぞれ最低のときに連結され得る。
次いで、連結された符号化された出力は、エッジリファインメント・ニューラルネットワークのデコーダネットワークに提供され得る。たとえば、デコーダネットワークは、連結された符号化された出力の解像度が元の入力解像度に達するまで、連結された符号化された出力を拡張するように構成された1つまたは複数の畳み込み層を含むことができる。いくつかの実装形態では、デコーダネットワークは、リファインド・セマンティックセグメンテーションマスクを抽出するように構成されたエッジ推論層(Edge Inference Layer)を含むことができる。リファインド・セマンティックセグメンテーションマスクは、エッジリファインメント・ニューラルネットワークのデコーダネットワークの出力として受信され得る。リファインド・セマンティックセグメンテーションマスクは、たとえば、セマンティックセグメンテーション・ニューラルネットワークから受信されたセマンティックセグメンテーションマスクよりも高い解像度とすることができる。さらに、いくつかの実装形態では、エッジリファインメント・ニューラルネットワークによって生成されたリファインド・セマンティックセグメンテーションマスクは、16の特徴またはチャネルを含むことができる。
リファインド・セマンティックセグメンテーションマスクが画像セグメンテーションモデルによって決定されると、リファインド・セマンティックセグメンテーションマスクに少なくとも部分的に基づいて、画像の少なくとも一部をぼかすことができる。たとえば、リファインド・セマンティックセグメンテーションマスクは、画像の前景にいる人物/オブジェクトを画像の背景からセグメント化し得る。いくつかの実装形態では、画像の背景をぼかして、ぼかし効果(たとえば、「ぼけ」効果など)を生成することができる。他の深層(たとえば、ユーザが選択した深さに対応する層)を、背景に加えて、またはその代替として、ぼかすことができる。
本開示の例示的な態様によるシステムおよび方法によって提供される利点は、画像セグメンテーションモデルをエンドツーエンドでトレーニングできることである。たとえば、1つまたは複数のトレーニング画像などのトレーニングデータを使用して、リファインド・セマンティックセグメンテーションマスクに基づいて、総損失関数を決定することができる。総損失関数に少なくとも部分的に基づいて、画像セグメンテーションモデルをトレーニングすることができる。
たとえば、CNNなどのニューラルネットワークモデルは、多くの困難なイメージングの問題を解決する能力を示しているが、ほとんどの場合、入力画像および対応する出力画像は、通常、256×256、300×300、400×400など低解像度のものである。通常、入力画像および出力画像の解像度は、ニューラルネットワークモデルによって必要とされる計算量を低減するために低解像度に維持される。ニューラルネットワークモデルの出力として受信された画像の解像度品質を向上させる1つの技法は、バイラテラルフィルタや条件付き確率場など1つまたは複数のアップスケーリング技法を使用することである。しかしながら、そのようなアップスケーリング技法を使用しても、ニューラルネットワークモデルを介した誤差の逆伝播は可能ではなく、したがって、逆伝播によるニューラルネットワークモデルのトレーニングは防止される。
しかしながら、本開示の例示的な態様によるシステムおよび方法は、誤差の逆伝播などによって、画像セグメンテーションモデルがエンドツーエンドでトレーニングされることを可能にすることができる。たとえば、本開示のさらなる例示的な態様によれば、画像セグメンテーションモデルにトレーニング画像を入力することによって、画像セグメンテーションモデルをエンドツーエンドでトレーニングすることができる。トレーニング画像は、たとえば、複数のトレーニング画像を含むトレーニングデータセットからの画像であり得る。各トレーニング画像は、たとえば、それぞれのセマンティックセグメンテーションおよびエッジリファインメント・ニューラルネットワークをトレーニングするために使用される画像のセマンティックセグメンテーションマスクの対応するグラウンドトゥルースバージョンを有し得る。
たとえば、トレーニング画像を画像セグメンテーションモデルに入力し、セマンティックセグメンテーション・ニューラルネットワークの第1の損失関数を決定することができる。たとえば、トレーニング画像をセマンティックセグメンテーション・ニューラルネットワークに入力し、トレーニング画像のセマンティックセグメンテーションマスクをセマンティックセグメンテーション・ニューラルネットワークの出力として受信することができる。いくつかの実装形態では、セマンティックセグメンテーションマスクのシングルチャネルを抽出することができる。たとえば、いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークは、たとえば、推論層を使用することによって、複数のチャネルを含むセマンティックセグメンテーションマスクからシングルチャネルを抽出することができる。推論層は、たとえば、セマンティックセグメンテーションマスク(たとえば、白黒セマンティックセグメンテーションマスク)からシングルチャネルを抽出するように構成された層であり得る。
たとえば、セマンティックセグメンテーションマスクとグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差を決定することによって、第1の損失関数を決定することができる。たとえば、グラウンドトゥルース・セマンティックセグメンテーションマスクは、トレーニング画像の以前に決定されたセマンティックセグメンテーションマスクに対応し得る。第1の損失関数は、セマンティックセグメンテーションマスクとグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差を記述することができる。
いくつかの実装形態では、トレーニング画像は、最初に低解像度バージョンのトレーニング画像にダウンスケールされ得る高解像度トレーニング画像とすることができ、低解像度トレーニング画像をセマンティックセグメンテーション・ニューラルネットワークに入力して、低解像度セマンティックセグメンテーションマスクを決定することができる。次いで、低解像度セマンティックセグメンテーションマスク(またはそのシングルチャネル)を低解像度のグラウンドトゥルース・セマンティックセグメンテーションマスクと比較して、第1の損失関数を決定することができる。
いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークは、第1の損失関数に少なくとも部分的に基づいてトレーニングされ得る。たとえば、セマンティックセグメンテーション・ニューラルネットワークは、グラウンドトゥルース・セマンティックセグメンテーションマスクと比較して、セマンティックセグメンテーションマスクから誤差を逆伝播することによってトレーニングされ得る。
トレーニング方法は、エッジリファインメント・ニューラルネットワークの第2の損失関数を決定するステップをさらに含むことができる。たとえば、セマンティックセグメンテーションマスクを、セマンティックセグメンテーション・ニューラルネットワークから受信することができ、セマンティックセグメンテーションマスクの少なくとも一部を、トレーニング画像の少なくとも一部とともにエッジリファインメント・ニューラルネットワークに入力することができる。
いくつかの実装形態では、セマンティックセグメンテーションマスクは低解像度セマンティックセグメンテーションマスクであり、トレーニング画像は高解像度トレーニング画像であり得る。高解像度トレーニング画像の少なくとも一部を、エッジリファインメント・ニューラルネットワークに入力することができる。低解像度セマンティックセグメンテーションマスクをセマンティックセグメンテーションマスクの高解像度バージョンにアップスケールすることができ、高解像度セマンティックセグメンテーションマスクの少なくとも一部をエッジリファインメント・ニューラルネットワークに入力することができる。たとえば、いくつかの実装形態では、トレーニング画像をランダムにクロッピングし、高解像度セマンティックセグメンテーションマスクの対応するクロップをクロッピングすることができ、トレーニング画像のクロッピングされた部分と高解像度セマンティックセグメンテーションマスクの対応するクロップがエッジリファインメント・ニューラルネットワークに入力される。
リファインド・セマンティックセグメンテーションマスクは、エッジリファインメント・ニューラルネットワークの出力として受信され得る。リファインド・セマンティックセグメンテーションマスクとグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク(Ground-Truth Refined Semantic Segmentation Mask)との間の差に少なくとも部分的に基づいて、第2の損失関数を決定することができる。たとえば、グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクは、トレーニング画像の以前に決定されたリファインド・セマンティックセグメンテーションマスクに対応し得る。第2の損失関数は、リファインド・セマンティックセグメンテーションマスクとグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクとの間の差を記述することができる。
いくつかの実装形態では、エッジリファインメント・ニューラルネットワークは、第2の損失関数に少なくとも部分的に基づいてトレーニングされ得る。たとえば、エッジリファインメント・ニューラルネットワークは、グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクと比較して、リファインド・セマンティックセグメンテーションマスクから誤差を逆伝播することによってトレーニングされ得る。
トレーニング方法は、第1の損失関数および第2の損失関数に少なくとも部分的に基づいて、画像セグメンテーションモデルの総損失関数を決定するステップをさらに含むことができる。たとえば、いくつかの実装形態では、第1の損失関数と第2の損失関数を合計することによって、総損失関数を決定することができる。次いで、総損失関数に基づいて、画像セグメンテーションモデルをトレーニングすることができる。たとえば、画像セグメンテーションモデルを介して総損失関数の誤差を逆伝播することによって、画像セグメンテーションモデルをトレーニングすることができる。
いくつかの実装形態では、本明細書で説明するように、第1の損失関数を使用して誤差を逆伝播することによって、セマンティックセグメンテーション・ニューラルネットワークを最初にトレーニングすることができる。許容可能なしきい値を下回る第1の損失関数を達成するようにセマンティックセグメンテーション・ニューラルネットワークがトレーニングされると、本明細書で説明したように、第2の損失関数を使用してエッジリファインメント・ニューラルネットワークをトレーニングすることができる。許容可能なしきい値を下回る第2の損失関数を達成するようにエッジリファインメント・ニューラルネットワークがトレーニングされると、本明細書で説明したように、総損失関数に少なくとも部分的に基づいて画像セグメンテーションモデルをトレーニングすることができる。
したがって、本開示は、高解像度画像セグメンテーションの技術的問題に対する技術的な機械学習ベースの解決策を提供する。本開示の1つの例示的な利益は、画像セグメンテーション精度/品質の向上である。特に、様々な実装形態は、他の方法によって生成されたセグメンテーションマスクと比較して、解像度が高く、および/または画像のセグメント化された領域間でリファインされたエッジ(たとえば、より明確な/明確に定義された境界)を有するリファインされたセグメンテーションマスクを提供することができる。さらに、本明細書で説明されるマルチフィーチャ・ニューラルネットワークは、シングルフィーチャニューラルネットワークと比較して、はるかに豊富な画像セグメンテーション予測機能を提供することができる。したがって、本開示の画像セグメンテーションモデルは、優れた画像セグメンテーション精度を提供することができる。
画像セグメンテーションの精度/品質の向上に加えて、本開示の例示的な態様は、たとえば、画像セグメンテーションモデルをエンドツーエンドでトレーニングする能力を含むいくつかの追加の技術的利益をもたらし得る。たとえば、様々な実装形態では、各ニューラルネットワークから決定された損失を含む総損失関数を使用して画像セグメンテーションモデルをトレーニングすることができ、両方のニューラルネットワークを介した誤差の逆伝播によるエンドツーエンドのトレーニングが可能になる。これによって、さらに、画像セグメンテーションモデルのリファインメントが可能になり得る。さらに、いくつかの実施形態では、本明細書で説明するように、画像セグメンテーションモデルのニューラルネットワークを個々にトレーニングするために使用することができる画像のグラウンドトゥルースバージョンを含むトレーニングデータセットをコンパイルすることができる。したがって、各ニューラルネットワークは、トレーニングデータのサブセットを使用してリファインされ得る。
本開示の別の例示的な技術的利益は、メモリ使用量/要件が比較的低いことである。特に、本明細書で説明するニューラルネットワークは、トレーニングデータを効果的に要約し、それをコンパクトな形式に圧縮する(たとえば、ニューラルネットワーク自体)。これによって、画像セグメンテーションアルゴリズムの記憶および実装に必要なメモリ量が大幅に低減される。さらに、本明細書で説明するニューラルネットワークは、個々のユーザのスマートフォンなどのユーザコンピューティングデバイス上で、またはネットワークアーキテクチャを介して実装することができ、ユーザの柔軟性の向上が可能になる。
本開示の別の例示的な技術的利益は、スケーラビリティの向上である。特に、ニューラルネットワークを介して画像をセマンティックにセグメント化することによって、画像セグメンテーションアルゴリズムを手動で開発する場合に比べて、必要な研究時間が大幅に短縮される。たとえば、手動で開発された画像セグメンテーションアルゴリズムは、様々なシナリオに対応するために手動で改良される必要がある場合がある。対照的に、本明細書で説明するニューラルネットワークを使用するには、適切なトレーニングデータ上で画像セグメンテーションモデルをトレーニングすることができ、これは、トレーニングシステムが許可した場合、大規模に行うことができる。さらに、新しいトレーニングデータが利用可能になると、画像セグメンテーションモデルを簡単に修正することができる。
次に図面を参照して、本開示の例示的な態様をさらに詳細に説明する。図1は、本開示の例示的な態様によるセマンティック画像セグメンテーションを実行するように構成された例示的なコンピューティングシステム100を示す。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングデバイス102および機械学習コンピューティングシステム130を含むことができる。
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲームコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、任意のタイプのコンピューティングデバイスとすることができる。
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含むことができる。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114は、ユーザコンピューティングデバイス102に動作を実行させるようにプロセッサ112によって実行されるデータ116および命令118を記憶することができる。
ユーザコンピューティングデバイス102は、1つもしくは複数の画像セグメンテーションモデル120を記憶または含むことができる。たとえば、1つもしくは複数の画像セグメンテーションモデル120は、ネットワーク180を介して機械学習コンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、1つもしくは複数のプロセッサ112によって使用またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、画像セグメンテーションモデル120の複数の並列インスタンスを実装することができる(たとえば、複数のユーザ入力画像について並列画像セグメンテーションを実行するため)。
また、ユーザコンピューティングデバイス102は、ユーザ対話によってユーザ入力を受信するユーザ入力コンポーネント122も含むことができる。たとえば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感なタッチセンシティブコンポーネント(たとえば、タッチセンシティブディスプレイスクリーンまたはタッチパッド)とすることができる。しかしながら、ユーザ入力コンポーネント122は、ユーザ入力を受信することができる他のコンポーネントを含むことができる。たとえば、ユーザ入力コンポーネント122は、キーボード、マウス、キーパッド、ボタン、またはユーザ入力を受信するように構成された他のコンポーネントを含むことができる。ユーザ入力コンポーネント122は、たとえば、1つまたは複数の画像セグメンテーションモデル120に入力されるべき画像を選択するために使用することができる。
機械学習コンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含むことができる。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134は、機械学習コンピューティングシステム130に動作を実行させるためにプロセッサ132によって実行されるデータ136および命令138を記憶することができる。
いくつかの実装形態では、機械学習コンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、そうでなければ1つまたは複数のサーバコンピューティングデバイスによって実装され得る。機械学習コンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、シーケンシャルコンピューティングアーキテクチャ、パラレルコンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
機械学習コンピューティングシステム130は、1つまたは複数の機械学習画像セグメンテーションモデル140を記憶するか、そうでなければ含むことができる。たとえば、画像セグメンテーションモデル140は、ニューラルネットワーク(たとえば、ディープリカレントニューラルネットワーク)または他の多層非線形モデルなどの様々な機械学習モデルであるか、そうでなければそれを含むことができる。例示的な画像セグメンテーションモデル140は、図2〜図6を参照して説明される。
機械学習コンピューティングシステム130は、モデルトレーナー150およびトレーニングデータ152を介して画像セグメンテーションモデル140をトレーニングすることができる。いくつかの実装形態では、別個のトレーニングコンピューティングシステムは、機械学習コンピューティングシステム130から離れていてもよく、ネットワーク180を介して機械学習コンピューティングシステム130に通信可能に結合されてもよい。したがって、モデルトレーナー150は、機械学習コンピューティングシステム130とは別個であってもよく、または機械学習コンピューティングシステム130の一部であってもよい。
モデルトレーナー150は、たとえば後方伝播(たとえば、時間を通じたトランケートされた後方伝播)などの様々なトレーニングまたは学習技法を使用して、機械学習コンピューティングシステム130に記憶された機械学習モデル140をトレーニングすることができる。モデルトレーナー150は、トレーニングされているモデルの一般化能力を改善するために、いくつかの一般化技法(たとえば、重量減衰、ドロップアウトなど)を実行することができる。
特に、モデルトレーナー150は、トレーニングデータ152のセットに基づいて画像セグメンテーションモデル140をトレーニングすることができる。トレーニングデータ152は、グラウンドトゥルース画像データ(たとえば、トレーニング画像に対応するグラウンドトゥルース・セマンティックセグメンテーションマスク)を含むことができる。いくつかの実装形態では、モデルトレーナー150は、ユーザコンピューティングデバイス102上で実装されるか、そうでなければそれに含まれ得る。
モデルトレーナー150は、所望の機能を提供するために利用されるコンピュータロジックを含むことができる。モデルトレーナー150は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデルトレーナー150は、ストレージデバイスに記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデルトレーナー150は、RAMハードディスクまたは光学もしくは磁気媒体など有形のコンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど任意のタイプの通信ネットワークとすることができ、任意の数のワイヤードまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTPなど)、符号化またはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプのワイヤードおよび/またはワイヤレス接続を介して行うことができる。
いくつかの実装形態では、ユーザコンピューティングデバイス102のユーザ入力コンポーネント122を介してユーザによって画像を選択することができ、その画像を、次いで、ネットワーク180を介して機械学習コンピューティングシステム130に提供することができる。そのような実装形態では、本明細書で説明するように、1つまたは複数の画像セグメンテーションモデル140を使用して画像セグメンテーションを実行することができ、対応するセグメント化画像を、ネットワーク180を介してユーザコンピューティングデバイス102に提供することができる。
図1は、本開示を実施するために使用することができる1つの例示的なコンピューティングシステム100を示す。他のコンピューティングシステムも使用することができる。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイスは、モデルトレーナーとトレーニングデータセットとを含み得る。そのような実装形態では、画像セグメンテーションモデルは、トレーニングされ、ユーザコンピューティングデバイスでローカルに使用され得る。
次に図2を参照すると、本開示の例示的な態様による例示的な画像セグメンテーションモデル200のブロック図が示されている。画像セグメンテーションモデル200は、互いに接続された第1のニューラルネットワーク210および第2のニューラルネットワーク220を含むことができる。第1のニューラルネットワーク210は、画像230を受信し、画像230のセマンティックセグメンテーションマスク240を出力するように構成されたセマンティックセグメンテーション・ニューラルネットワーク210とすることができる。第2のニューラルネットワーク220は、画像230の少なくとも一部およびセマンティックセグメンテーションマスク240の少なくとも一部を受信し、リファインド・セマンティックセグメンテーションマスク250を出力するように構成されたエッジリファインメント・ニューラルネットワーク220であり得る。
セマンティックセグメンテーション・ニューラルネットワーク210は、1つまたは複数の畳み込み層を含むCNNとすることができる。セマンティックセグメンテーションマスク240は、画像230を、たとえば前景および背景、または他のセマンティックセグメントおよび/もしくは深層など、複数のセグメントにセグメント化または分割することができる。いくつかの実装形態では、セマンティックセグメンテーションによって決定されたセマンティックセグメンテーションマスク240は、ピクセルごとに16の特徴の値を含むことができ、またはそうでなければ、16のチャネルに従ってセグメント化され得る。したがって、一例として、セマンティックセグメンテーション・ニューラルネットワーク220の出力層の深さは16とすることができる。複数の特徴を使用することによって、シングルフィーチャのセマンティックセグメンテーションマスク240よりも正確にリファインド・セマンティックセグメンテーションマスク250を予測することができ得る。たとえば、髪、肌、衣服、身体の特徴などに関する情報を、セマンティックセグメンテーションネットワーク210からエッジリファインメントニューネットワーク220に渡すことができる。他の実装形態では、セマンティックセグメンテーションマスク240は2つまたは3つのチャネルを有することができる。
エッジリファインメント・ニューラルネットワーク220は、画像230の少なくとも一部、およびセマンティックセグメンテーションマスク240の少なくとも一部を受信し、それに応答して、リファインド・セマンティックセグメンテーションマスク250を出力するようにトレーニングされ得る。たとえば、エッジリファインメント・ニューラルネットワーク220は、1つまたは複数の畳み込み層を含むCNNとすることができる。リファインド・セマンティックセグメンテーションマスク250は、セマンティックセグメンテーションマスク240と比較して、たとえば、より高い解像度、より明確に定義された境界、より正確な境界、または他のリファインメントを有することによってリファインされ得る。
次に図3を参照すると、本開示の追加の態様による例示的な画像セグメンテーションモデル300が示されている。図示のように、低解像度バージョンの画像330を生成するために、高解像度バージョンの画像310をダウンスケーリングコンポーネント320に入力することができる。たとえば、ダウンスケーリングコンポーネント320は、最近隣補間法、双線形および双三次アルゴリズム、SincおよびLaszosリサンプリング、フーリエ変換法、エッジ指向補間、ベクトル化、深層畳み込みニューラルネットワーク、または他のダウンスケーリング技法など、任意の数の技法を実行して高解像度バージョンの画像310をダウンスケールすることができる。
次いで、ダウンスケーリングコンポーネント320は、セマンティックセグメンテーション・ニューラルネットワーク340に提供することができる低解像度バージョンの画像330を提供することができる。一例として、高解像度バージョンの画像310は、第1の解像度(たとえば、2048×2048ピクセル)の画像であり得、一方、低解像度バージョンの画像330は、第2のより低い解像度(たとえば、256×256ピクセル)であり得る。
セマンティックセグメンテーション・ニューラルネットワークは、たとえば、図2に示される同じまたは類似のセマンティックセグメンテーション・ニューラルネットワーク210であり得る。次いで、セマンティックセグメンテーション・ニューラルネットワーク340は、低解像度セマンティックセグメンテーションマスク350を出力することができる。低解像度セマンティックセグメンテーションマスク350は、たとえば、低解像度バージョンの画像330と同じ解像度とすることができる。高解像度バージョンの画像310を最初に低解像度バージョンの画像330にダウンスケーリングし、低解像度バージョンの画像330をセマンティックセグメンテーション・ニューラルネットワーク340に提供することによって提供される利点は、低解像度セマンティックセグメンテーションマスク350を決定する計算集約性が、セマンティックセグメンテーション・ニューラルネットワーク340に高解像度バージョンの画像310を直接入力するよりも大幅に少なくなり得る。
次いで、低解像度セマンティックセグメンテーションマスク350をアップスケーリングコンポーネント360に提供して、高解像度セマンティックセグメンテーションマスク370を生成することができる。高解像度セマンティックセグメンテーションマスク370は、たとえば、高解像度バージョンの画像310と同じ解像度とすることができる。アップスケーリングコンポーネント360は、ダウンスケーリングコンポーネント320によって画像をダウンスケールするために使用される任意の技法の逆など、低解像度セマンティックセグメンテーションマスク350を高解像度セマンティックセグメンテーションマスク370にアップスケールするための任意の数の技法を実行することができる。
次いで、高解像度セマンティックセグメンテーションマスク370および高解像度バージョンの画像310の少なくとも一部をエッジリファインメント・ニューラルネットワーク380に提供することができる。エッジリファインメント・ニューラルネットワーク380は、たとえば、図2に示される同じまたは類似のエッジリファインメント・ニューラルネットワーク220に対応し得る。次いで、エッジリファインメント・ニューラルネットワーク380は、リファインド・セマンティックセグメンテーションマスク390を出力することができる。リファインド・セマンティックセグメンテーションマスク390は、たとえば、高解像度セマンティックセグメンテーションマスク370および/または低解像度セマンティックセグメンテーションマスク350と比較して、より高い解像度、より明確に定義された境界、より正確な境界、または他のリファインメントを有することによってリファインされ得る。
次に図4を参照すると、本開示の例示的な態様によるエッジリファインメント・ニューラルネットワーク400のブロック図が示されている。エッジリファインメント・ニューラルネットワーク400は、たとえば、図2に示されるエッジリファインメント・ニューラルネットワークおよび/または図3に示されるエッジリファインメント・ニューラルネットワーク380に対応し得る。図示のように、画像410および対応するセマンティックセグメンテーションマスク420が、エッジリファインメント・ニューラルネットワーク400に入力され得る。エッジリファインメント・ニューラルネットワークは、2つのヘッドを含むことができ、第1のヘッドは画像エンコーダネットワーク430に対応し、第2のヘッドはセマンティックセグメンテーション・マスクエンコーダネットワーク440に対応する。たとえば、エッジリファインメント・ニューラルネットワークは、第1のエンコーダネットワーク430および第2のエンコーダネットワーク440を含むことができる。各エンコーダネットワーク430および440は、たとえば、それぞれ画像410およびセマンティックセグメンテーションマスク420を符号化するように構成された1つまたは複数の畳み込み層を含むことができる。画像410(またはその一部)を、画像を第1の符号化された出力に符号化することができる第1のエンコーダネットワーク430に提供することができる。同様に、セマンティックセグメンテーションマスク420(またはその一部)を第2のエンコーダネットワーク440に提供して、セマンティックセグメンテーションマスク420を第2の符号化された出力に符号化することができる。次いで、第1の符号化された出力と第2の符号化された出力を連結するように構成された連結コンポーネント(concatenation component)450に、第1の符号化された出力および第2の符号化された出力を提供することができる。連結コンポーネント450は、第1の符号化された出力と第2の符号化された出力を連結して、連結された符号化された出力にすることができる。たとえば、エンコーダネットワークの各々は、それぞれ画像410またはセマンティックセグメンテーションマスク420の解像度を下げるように構成され得、2つのエンコーダネットワーク430および440の符号
化された出力は、各々の解像度がそれぞれ最低のときに連結され得る。
次いで、連結された符号化された出力は、エッジリファインメント・ニューラルネットワーク400のデコーダネットワーク460に提供され得る。たとえば、デコーダネットワーク460は、連結された符号化された出力の解像度が画像410および/またはセマンティックセグメンテーションマスク420の元の入力解像度に達するまで、連結された符号化された出力を拡張するように構成された1つまたは複数の畳み込み層を含むことができる。いくつかの実装形態では、デコーダネットワーク460は、リファインド・セマンティックセグメンテーションマスク470を抽出するように構成されたエッジ推論層を含むことができる。リファインド・セマンティックセグメンテーションマスク470は、エッジリファインメント・ニューラルネットワーク400のデコーダネットワーク460の出力として受信され得る。リファインド・セマンティックセグメンテーションマスク470は、たとえば、セマンティックセグメンテーション・ニューラルネットワークから受信されたセマンティックセグメンテーションマスク420よりも高い解像度とすることができる。さらに、いくつかの実装形態では、エッジリファインメント・ニューラルネットワークによって生成されたリファインド・セマンティックセグメンテーションマスク420は、16の特徴またはチャネルを含むことができる。
いくつかの実装形態では、リファインド・セマンティックセグメンテーションマスク470がエッジリファインメント・ニューラルネットワーク400によって決定されると、リファインド・セマンティックセグメンテーションマスク470に少なくとも部分的に基づいて、画像の少なくとも一部をぼかすことができる。たとえば、リファインド・セマンティックセグメンテーションマスク470は、画像410の前景にいる人物/オブジェクトを画像410の背景からセグメント化し得る。いくつかの実装形態では、画像410の背景をぼかして、ぼかし効果(たとえば、「ぼけ」効果など)を生成することができる。他の深層(たとえば、ユーザが選択した深さに対応する層)を、背景に加えて、またはその代替として、ぼかすことができる。
次に図5を参照すると、本開示の例示的な態様による例示的なエッジリファインメント・ニューラルネットワーク500が示されている。図5に示される例示的なエッジリファインメント・ニューラルネットワーク500は、それぞれ図2〜図4に示されるエッジリファインメント・ニューラルネットワーク220、380、および400と同じまたは類似し得る。
図示のように、画像510および対応するセマンティックセグメンテーションマスク520が、それぞれの第1のエンコーダネットワーク530および第2のエンコーダネットワーク540にそれぞれ入力され得る。各エンコーダネットワーク530、540は、それぞれ画像510またはセマンティックセグメンテーションマスク520を符号化するように構成された複数の畳み込み層を含むことができる。
符号化された画像および符号化されたセマンティックセグメンテーションマスクは、連結コンポーネント550によって連結され得、連結コンポーネント550の連結された出力は、デコーダネットワーク560に提供され得る。デコーダネットワーク560は、連結コンポーネント550から受信された連結された出力を復号するように構成され得る。デコーダネットワーク560は、エッジ推論層570を含む複数の畳み込み層を含むことができる。いくつかの実装形態では、リファインド・セマンティックセグメンテーションマスク580は、デコーダネットワーク560の出力から、より具体的には、エッジ推論層570の出力として受信され得る。
次に図6を参照すると、例示的な画像セグメンテーションモデルトレーニング構成600のブロック図が示されている。本開示の例示的な態様による画像セグメンテーションモデルによって提供される利点は、誤差の逆伝播などによって、画像セグメンテーションモデルをエンドツーエンドでトレーニングする能力である。
図示のように、高解像度バージョンの画像610などのトレーニング画像を使用して、画像セグメンテーションモデルをトレーニングすることができる。高解像度バージョンの画像610は、トレーニングデータセットの一部であるトレーニング画像であり得、これは、本明細書でより詳細に説明するように、グラウンドトゥルース・セマンティックセグメンテーションマスク645およびグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675を含み得る。図示のように、トレーニング画像は、高解像度バージョンの画像610であり得る。いくつかの実装形態では、トレーニング画像は、低解像度バージョンの画像とすることができる。
低解像度バージョンの画像620を生成するために、高解像度バージョンの画像610をダウンスケーリングコンポーネント615によってダウンスケールすることができる。ダウンスケーリングコンポーネント615は、たとえば、図3に示される同じまたは類似のダウンスケーリングコンポーネント320であり得る。
低解像度バージョンの画像620は、セマンティックセグメンテーション・ニューラルネットワーク625に提供され得る。セマンティックセグメンテーション・ニューラルネットワーク625は、それぞれ図2および図3に示されるセマンティックセグメンテーション・ニューラルネットワーク210および340と同じまたは類似のセマンティックセグメンテーション・ニューラルネットワークであり得る。セマンティックセグメンテーション・ニューラルネットワーク625は、低解像度セマンティックセグメンテーションマスク630を出力することができる。いくつかの実装形態では、高解像度バージョンの画像をセマンティックセグメンテーション・ニューラルネットワーク625に入力することができ、これは、対応する高解像度セマンティックセグメンテーションマスクを出力することができる。いくつかの実装形態では、低解像度セマンティックセグメンテーションマスク630は、たとえば16のチャネルなど複数のチャネルを含むことができる。
いくつかの実装形態では、低解像度セマンティックセグメンテーションマスク630のシングルチャネルを抽出することができる。たとえば、いくつかの実装形態では、低解像度セマンティックセグメンテーションマスク630は、16のチャネルなど複数のチャネルを含むことができる。いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワーク625によって、低解像度セマンティックセグメンテーションマスク630のシングルチャネルを抽出することができる。たとえば、セマンティックセグメンテーション・ニューラルネットワーク625は、低解像度セマンティックセグメンテーションマスク630からシングルチャネルを抽出するように構成された推論層を含むことができる。
いくつかの実装形態では、低解像度セマンティックセグメンテーションマスク630のシングルチャネルを、グラウンドトゥルース・セマンティックセグメンテーションマスク645と比較することができる。たとえば、グラウンドトゥルース・セマンティックセグメンテーションマスク645は、トレーニングデータセットの一部としてコンパイルされた高解像度バージョンの画像610のグラウンドトゥルース・セマンティックセグメンテーションマスク645に対応し得、低解像度セマンティックセグメンテーションマスクと同じ解像度であり得る。グラウンドトゥルース・セマンティックセグメンテーションマスク645は、画像610に基づくセマンティックセグメンテーション・ニューラルネットワークの所望の出力であり得る。第1の損失関数650は、低解像度セマンティックセグメンテーションマスク630(またはそのシングルチャネル)とグラウンドトゥルース・セマンティックセグメンテーションマスク645との間の差に少なくとも部分的に基づいて決定され得る。いくつかの実装形態では、低解像度セマンティックセグメンテーションマスクのチャネルごとにシングルチャネルを抽出することができ、各チャネルを、対応するグラウンドトゥルース・セマンティックセグメンテーションマスクと比較して、そのチャネルの第1の損失関数を決定することができる。いくつかの実装形態では、セマンティックセグメンテーションマスク630は、複数のチャネルを含むことができ、セマンティックセグメンテーションマスク630を、対応するグラウンドトゥルース・セマンティックセグメンテーションマスク645と比較して、第1の損失関数を決定することができる。
いくつかの実装形態では、第1の損失関数650を使用して、セマンティックセグメンテーション・ニューラルネットワーク625をトレーニングすることができる。たとえば、セマンティックセグメンテーション・ニューラルネットワーク625は、グラウンドトゥルース・セマンティックセグメンテーションマスク645と比較して、低解像度セマンティックセグメンテーションマスク630(またはそのシングルチャネル)から誤差を逆伝播することによってトレーニングされ得る。
低解像度セマンティックセグメンテーションマスク630をアップスケーリングコンポーネント655に入力して、高解像度セマンティックセグメンテーションマスク660を決定することができる。アップスケーリングコンポーネント655は、たとえば、図3に示されるアップスケーリングコンポーネント360に対応し得る。いくつかの実装形態では、アップスケーリングコンポーネント655は、低解像度セマンティックセグメンテーションマスク630を、高解像度バージョンの画像610と同じ解像度の高解像度セマンティックセグメンテーションマスク660にアップスケールすることができる。
図示のように、高解像度バージョンの画像610(またはその少なくとも一部)および高解像度セマンティックセグメンテーションマスク660(または少なくともその一部)が、エッジリファインメント・ニューラルネットワーク665に入力され得る。エッジリファインメント・ニューラルネットワーク665は、それぞれ図2〜図5に示されるように、エッジリファインメント・ニューラルネットワーク220、380、400、および500と同じまたは類似し得る。いくつかの実装形態では、高解像度バージョンの画像610をランダムにクロッピングすることができ、高解像度セマンティックセグメンテーションマスク660の対応するクロップも同様にクロッピングすることができ、2つのクロッピングされた部分は、エッジリファインメント・ニューラルネットワーク665に提供される。
リファインド・セマンティックセグメンテーションマスク670は、エッジリファインメント・ニューラルネットワーク665からの出力として受信され得る。次いで、リファインド・セマンティックセグメンテーションマスク670を、グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675と比較することができる。たとえば、グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675は、トレーニングデータセットの一部としてコンパイルされた高解像度バージョンの画像610のグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675に対応し得る。グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675は、高解像度バージョンの画像610に対応するエッジリファインメント・ニューラルネットワーク665の所望の出力であり得る。
いくつかの実装形態では、リファインド・セマンティックセグメンテーションマスク670とグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675との間の差に少なくとも部分的に基づいて、第2の損失関数680を決定することができる。いくつかの実装形態では、第2の損失関数680を使用して、エッジリファインメント・ニューラルネットワーク665をトレーニングすることができる。たとえば、エッジリファインメント・ニューラルネットワーク665は、グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク675と比較して、リファインド・セマンティックセグメンテーションマスク670から誤差を逆伝播することによってトレーニングされ得る。
いくつかの実装形態では、第1の損失関数650および第2の損失関数680に少なくとも部分的に基づいて、総損失関数685を決定することができる。たとえば、いくつかの実装形態では、第1の損失関数650と第2の損失関数680を合計することによって、総損失関数685を決定することができる。
いくつかの実装形態では、画像セグメンテーションモデルは、総損失関数685に少なくとも部分的に基づいてトレーニングされ得る。たとえば、画像セグメンテーションモデルは、画像セグメンテーションモデルを介して総損失関数685に基づいて誤差を逆伝播することによってトレーニングされ得る。このようにして、画像セグメンテーションモデルをエンドツーエンドでトレーニングすることができる。
いくつかの実装形態では、最初に第1の損失関数650を決定し、第1の損失関数650に少なくとも部分的に基づいてセマンティックセグメンテーション・ニューラルネットワーク630をトレーニングすることによって、画像セグメンテーションモデルをトレーニングすることができる。許容可能なしきい値を下回る第1の損失関数650を達成するようにセマンティックセグメンテーション・ニューラルネットワーク630がトレーニングされると、第2の損失関数680に少なくとも部分的に基づいて、エッジリファインメント・ニューラルネットワーク665をトレーニングすることができる。許容可能なしきい値を下回る第2の損失関数680を達成するようにエッジリファインメント・ニューラルネットワーク665がトレーニングされると、本明細書で説明したように、総損失関数685に少なくとも部分的に基づいて画像セグメンテーションモデルをトレーニングすることができる。
次に図7を参照すると、本開示の例示的な態様による、リファインド・セマンティックセグメンテーションマスクを決定するための例示的な方法(700)のフローチャート図が示されている。図7は、例示および議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に例示された順序または配置に限定されない。方法(700)の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略され、再配置され、結合され、および/または適合させることができる。
(702)で、方法(700)は、画像を取得するステップを含むことができる。たとえば、いくつかの実装形態では、ユーザは、ユーザコンピューティングデバイス102を使用して、画像セグメンテーションモデル120に提供するための画像を選択することができる。いくつかの実装形態では、画像セグメンテーションモデル120を、ユーザコンピューティングデバイス102に記憶することができ、他の実装形態では、画像セグメンテーションモデル140を、ユーザコンピューティングデバイス102から離れたコンピューティングシステム130に記憶することができる。
(704)で、方法(700)は、セマンティックセグメンテーション・ニューラルネットワークに画像を入力するステップを含むことができる。たとえば、画像セグメンテーションモデル200は、第1のニューラルネットワーク210および第2のニューラルネットワーク220を含むことができる。第1のニューラルネットワーク210は、画像230のセマンティックセグメンテーションマスク240を決定するように構成されたセマンティックセグメンテーション・ニューラルネットワーク210であり得る。画像230を、セマンティックセグメンテーション・ニューラルネットワーク210に入力することができる。
(706)で、方法(700)は、セマンティックセグメンテーション・ニューラルネットワークの出力として、セマンティックセグメンテーションマスクを受信するステップを含むことができる。たとえば、セマンティックセグメンテーション・ニューラルネットワーク210は、画像230のセマンティックセグメンテーションマスク240を出力するように構成され得る。
(708)で、方法(700)は、画像の少なくとも一部およびセマンティックセグメンテーションマスクの少なくとも一部をエッジリファインメント・ニューラルネットワークに入力するステップを含むことができる。たとえば、画像セグメンテーションモデル200は、エッジリファインメント・ニューラルネットワーク220であり得る第2のニューラルネットワーク220を含むことができる。画像230(またはその少なくとも一部)およびセマンティックセグメンテーションマスク240(またはその少なくとも一部)を、エッジリファインメント・ニューラルネットワーク220に入力することができる。
(710)で、方法(700)は、エッジリファインメント・ニューラルネットワークの出力として、リファインド・セマンティックセグメンテーションマスクを受信するステップを含むことができる。たとえば、エッジリファインメント・ニューラルネットワーク220は、画像230およびセマンティックセグメンテーションマスク240に少なくとも部分的に基づいて、リファインド・セマンティックセグメンテーションマスク250を出力するように構成され得る。リファインド・セマンティックセグメンテーションマスク250は、エッジリファインメント・ニューラルネットワーク220の出力として受信され得る。リファインド・セマンティックセグメンテーションマスク250は、セマンティックセグメンテーションマスク240と比較して、たとえば、より高い解像度、より明確に定義された境界、より正確な境界、または他のリファインメントを有することによってリファインされ得る。
いくつかの実装形態では、リファインド・セマンティックセグメンテーションマスクに少なくとも部分的に基づいて、画像の少なくとも一部をぼかすことができる。たとえば、リファインド・セマンティックセグメンテーションマスクは、画像の前景にあるオブジェクトと画像の背景との間の境界を描くことができる。いくつかの実装形態では、画像の背景部分をぼかすことができ、一方、画像の前景部分は元の画像のように残すことができる。
このようにして、第1のニューラルネットワークおよび第2のニューラルネットワークを含む画像セグメンテーションモデルを使用して、画像のリファインド・セマンティックセグメンテーションマスクを決定することができる。
次に図8を参照すると、本開示の例示的な態様による、リファインド・セマンティックセグメンテーションマスクを決定するための例示的な方法(800)のフローチャート図が示されている。図8は、例示および議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に例示された順序または配置に限定されない。方法(800)の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略され、再配置され、結合され、および/または適合させることができる。
(802)で、方法(800)は、高解像度画像を取得するステップを含むことができる。たとえば、いくつかの実装形態では、ユーザは、ユーザコンピューティングデバイス102を使用して、画像セグメンテーションモデル120に提供するための画像を選択することができる。いくつかの実装形態では、画像セグメンテーションモデル120を、ユーザコンピューティングデバイス102に記憶することができ、他の実装形態では、画像セグメンテーションモデル140を、ユーザコンピューティングデバイス102から離れたコンピューティングシステム130に記憶することができる。画像は、たとえば、第2の解像度よりも高い第1の解像度の画像であり得る。
(804)で、方法(800)は、高解像度画像を低解像度画像にダウンスケールするステップを含むことができる。たとえば、高解像度画像を、第1の解像度から第2の解像度にダウンスケールすることができ、第2の解像度は、第1の解像度よりも低い解像度である。
(806)で、方法(800)は、セマンティックセグメンテーション・ニューラルネットワークに低解像度画像を入力するステップを含むことができる。たとえば、画像セグメンテーションモデルは、第1のニューラルネットワークおよび第2のニューラルネットワークを含むことができる。第1のニューラルネットワークは、画像を受信し、画像に基づいてセマンティックセグメンテーションを出力するように構成されたセマンティックセグメンテーション・ニューラルネットワークとすることができる。
(808)で、方法(800)は、セマンティックセグメンテーション・ニューラルネットワークの出力として、低解像度セマンティックセグメンテーションマスクを受信するステップを含むことができる。たとえば、低解像度セマンティックセグメンテーションマスクは、セマンティックセグメンテーション・ニューラルネットワークに提供された低解像度バージョンの画像と同じ解像度とすることができる。
(810)で、方法(800)は、低解像度セマンティックセグメンテーションマスクを高解像度セマンティックセグメンテーションマスクにアップスケールするステップを含むことができる。たとえば、低解像度セマンティックセグメンテーションマスクを、第2の解像度から第1の解像度にアップスケールすることができる。
(812)で、方法(800)は、高解像度画像(またはその一部)を第1のエンコーダネットワークに入力し、高解像度セマンティックセグメンテーションマスク(またはその一部)を第2のエンコーダネットワークに入力するステップを含むことができる。たとえば、画像セグメンテーションモデルは、エッジリファインメント・ニューラルネットワークであり得る第2のニューラルネットワークも含むことができる。エッジリファインメント・ニューラルネットワークは、第1のエンコーダネットワークおよび第2のエンコーダネットワークを含むことができる。画像(またはその一部)を、第1のエンコーダネットワークに入力することができ、セマンティックセグメンテーションマスク(またはその一部)を、第2のエンコーダネットワークに入力することができる。各エンコーダネットワークは、1つまたは複数の畳み込み層を使用してそれぞれの入力を符号化するように構成することができ、各畳み込み層は、符号化機能を実行する。
(814)で、方法(800)は、第1のエンコーダネットワークから第1の符号化された出力と、第2のエンコーダネットワークから第2の符号化された出力とを受信するステップを含むことができる。たとえば、第1のエンコーダネットワークは、高解像度画像(またはその一部)を受信し、画像を第1の符号化された出力に符号化することができる。同様に、第2のエンコーダネットワークは、セマンティックセグメンテーションマスク(またはその一部)を受信し、セマンティックセグメンテーションマスクを第2の符号化された出力に符号化することができる。
(816)で、方法(800)は、第1の符号化された出力と第2の符号化された出力を連結して、連結された符号化された出力にするステップを含むことができる。たとえば、第1のエンコーダネットワークおよび第2のエンコーダネットワークの各々がそれぞれ画像およびセマンティックセグメンテーションマスクを符号化した後、第1および第2の符号化された出力が連結され得る。いくつかの実装形態では、各エンコーダネットワークは、各畳み込み層でのそれぞれの入力の解像度を下げるように構成され得る。いくつかの実装形態では、第1の符号化された出力と第2の符号化された出力は、それぞれの解像度が最低のときに連結され得る。
(818)で、方法(800)は、連結された符号化された出力をデコーダネットワークに提供するステップを含むことができる。たとえば、エッジリファインメント・ニューラルネットワークは、連結された符号化された出力を復号するように構成されたデコーダネットワークを含むことができる。連結された符号化された出力は、デコーダネットワークが連結された符号化された出力を復号できるようにするために、デコーダネットワークに提供され得る。
(820)で、方法(800)は、デコーダネットワークの出力として、リファインド・セマンティックセグメンテーションマスクを受信するステップを含むことができる。たとえば、デコーダネットワークは、1つまたは複数の畳み込み層を使用して連結された符号化された出力を復号するように構成することができ、各畳み込み層は、復号機能を実行する。いくつかの実装形態では、デコーダネットワークの各畳み込み層は、それぞれ、連結された符号化された出力の解像度を高めることができる。いくつかの実装形態では、連結された符号化された出力が最大および/または元の解像度に復号されると、エッジ推論層を使用して、リファインド・セマンティックセグメンテーションマスクを抽出することができる。リファインド・セマンティックセグメンテーションマスクは、エッジリファインメント・ニューラルネットワークの出力として受信され得る。
次に図9を参照すると、本開示の例示的な態様による、画像セグメンテーションモデルをトレーニングするための例示的な方法(900)のフローチャート図が示されている。図9は、例示および議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に例示された順序または配置に限定されない。方法(900)の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略され、再配置され、結合され、および/または適合させることができる。
(902)で、方法(900)は、トレーニング画像を取得するステップを含むことができる。たとえば、トレーニング画像は、画像セグメンテーションモデルのトレーニングに使用されるトレーニングデータセットの一部とすることができる。各トレーニング画像は、1つまたは複数の対応するグラウンドトゥルース・セマンティックセグメンテーションマスクおよび/または1つもしくは複数の対応するグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクを有することができる。トレーニング画像は、たとえば、トレーニングデータセットにアクセスすることによって取得することができる。
(904)で、方法(900)は、トレーニング画像を画像セグメンテーションモデルに入力するステップを含むことができる。たとえば、画像セグメンテーションモデルは、第1のニューラルネットワークおよび第2のニューラルネットワークを含むことができる。第1のニューラルネットワークは、たとえば、セマンティックセグメンテーション・ニューラルネットワークであり得、第2のニューラルネットワークは、たとえば、エッジリファインメント・ニューラルネットワークであり得る。セマンティックセグメンテーションマスクを生成するために、トレーニング画像をセマンティックセグメンテーション・ニューラルネットワークに入力することができる。画像(またはその少なくとも一部)、およびセマンティックセグメンテーションマスク(またはその少なくとも一部)は、エッジリファインメント・ニューラルネットワークに入力され得る。次いで、エッジリファインメント・ニューラルネットワークは、リファインド・セマンティックセグメンテーションマスクを提供することができる。
いくつかの実装形態では、トレーニング画像は高解像度トレーニング画像とすることができる。いくつかの実装形態では、高解像度のトレーニング画像を低解像度のトレーニング画像にダウンスケールすることができ、低解像度のトレーニング画像をセマンティックセグメンテーション・ニューラルネットワークに入力することができる。
(906)で、方法(900)は、セマンティックセグメンテーション・ニューラルネットワークの第1の損失関数を決定するステップを含むことができる。たとえば、トレーニング画像をセマンティックセグメンテーション・ニューラルネットワークに入力し、セマンティックセグメンテーションマスクをセマンティックセグメンテーション・ニューラルネットワークの出力として受信することができる。たとえば、いくつかの実装形態では、セマンティックセグメンテーションマスクは、複数のチャネルを含むことができ、セマンティックセグメンテーションマスクのシングルチャネルを抽出することができる。たとえば、いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークの推論層を使用して、セマンティックセグメンテーションマスクのシングルチャネルを抽出することができる。第1の損失関数は、次いで、セマンティックセグメンテーションマスク(またはそのシングルチャネル)とグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差に少なくとも部分的に基づいて決定され得る。たとえば、セマンティックセグメンテーションマスクをグラウンドトゥルース・セマンティックセグメンテーションマスクと比較し、セマンティックセグメンテーションマスクとグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差を記述する第1の損失関数を決定することができる。
次いで、いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークは、第1の損失関数に少なくとも部分的に基づいてトレーニングされ得る。たとえば、セマンティックセグメンテーション・ニューラルネットワークは、第1の損失関数に基づいて誤差を逆伝播することによってトレーニングされ得る。
(908)で、方法(900)は、エッジリファインメント・ニューラルネットワークの第2の損失関数を決定するステップを含むことができる。たとえば、トレーニング画像(またはその少なくとも一部)、およびセマンティックセグメンテーションマスク(または少なくともその一部)をエッジリファインメント・ニューラルネットワークに入力して、リファインド・セマンティックセグメンテーションマスクを決定することができる。リファインド・セマンティックセグメンテーションマスクは、エッジリファインメント・ニューラルネットワークの出力として受信され得る。リファインド・セマンティックセグメンテーションマスクとグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクとの間の差に少なくとも部分的に基づいて、第2の損失関数を決定することができる。たとえば、リファインド・セマンティックセグメンテーションマスクをグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクと比較し、リファインド・セマンティックセグメンテーションマスクとグラウンドトゥルース・リファインド・セマンティックセグメンテーションマスクとの間の差を記述する第2の損失関数を決定することができる。
いくつかの実装形態では、次いで、エッジリファインメント・ニューラルネットワークは、第2の損失関数に少なくとも部分的に基づいてトレーニングされ得る。たとえば、エッジリファインメント・ニューラルネットワークは、第2の損失関数に基づいて誤差を逆伝播することによってトレーニングされ得る。
いくつかの実装形態では、セマンティックセグメンテーション・ニューラルネットワークの出力として受信されたセマンティックセグメンテーションマスクは、低解像度セマンティックセグメンテーションマスクである場合がある。いくつかの実装形態では、高解像度トレーニング画像の少なくとも一部をエッジリファインメント・ニューラルネットワークに入力することができ、低解像度セマンティックセグメンテーションマスクを高解像度セマンティックセグメンテーションマスクにアップスケールすることができ、高解像度セマンティックセグメンテーションマスクの少なくとも一部を、エッジリファインメント・ニューラルネットワークに入力することができる。
(910)において、方法(900)は、第1の損失関数および第2の損失関数に少なくとも部分的に基づいて総損失関数を決定するステップをさらに含むことができる。たとえば、いくつかの実装形態では、第1の損失関数と第2の損失関数を合計することによって、総損失関数を決定することができる。総損失関数は、画像セグメンテーションモデルの総損失を記述することができる。
(912)において、方法(900)は、総損失関数に少なくとも部分的に基づいて画像セグメンテーションモデルをトレーニングするステップを含むことができる。たとえば、画像セグメンテーションモデルは、画像セグメンテーションモデルの総損失および/または誤差を記述する総損失関数に基づいて、エンドツーエンドでトレーニングされ得る。いくつかの実装形態では、総損失関数に基づいて画像セグメンテーションモデルを介して誤差を逆伝播することによって、画像セグメンテーションモデルをトレーニングすることができる。このようにして、本開示の例示的な態様による画像セグメンテーションモデルは、エンドツーエンドでトレーニングすることができ、それによって、新しいトレーニングデータが画像セグメンテーションモデルに提供される際の継続的な改善が可能になる。
本明細書で説明した技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびにそのようなシステムとの間でとられるアクションおよび送信される情報に言及する。コンピュータベースのシステムの固有の柔軟性が、構成要素間のタスクおよび機能の多種多様な可能な構成、組合せ、および分割を可能にする。たとえば、本明細書で説明したプロセスは、単一のデバイスもしくは構成要素、または組み合わせて機能する複数のデバイスもしくは構成要素を使用して実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装される、または複数のシステムに分散させることができる。分散構成要素は、順次または並列に動作することができる。
本主題について、その様々な特定の例示的な実施形態に関して詳細に説明してきたが、各例は、本開示の限定ではなく説明として提供される。当業者は、上述の理解を達成すると、そのような実施形態の変更、変形、および等価物を容易に生成することができる。したがって、本開示は、当業者には容易に明らかになるように、そのような変更、変形、および/または追加の本主題への包含を排除するものではない。たとえば、一実施形態の一部として図示または説明されている特徴を、別の実施形態とともに使用して、またさらなる実施形態を得ることができる。したがって、本開示は、そのような変更、変形、および同等物をカバーするものとする。
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 画像セグメンテーションモデル
122 ユーザ入力コンポーネント
130 機械学習コンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 画像セグメンテーションモデル
140 機械学習モデル
150 モデルトレーナー
152 トレーニングデータ
180 ネットワーク
200 画像セグメンテーションモデル
210 第1のニューラルネットワーク
220 第2のニューラルネットワーク
230 画像
240 セマンティックセグメンテーションマスク
250 リファインド・セマンティックセグメンテーションマスク
300 画像セグメンテーションモデル
310 高解像度バージョンの画像
320 ダウンスケーリングコンポーネント
330 低解像度バージョンの画像
340 セマンティックセグメンテーション・ニューラルネットワーク
350 低解像度セマンティックセグメンテーションマスク
360 アップスケーリングコンポーネント
370 高解像度セマンティックセグメンテーションマスク
380 エッジリファインメント・ニューラルネットワーク
390 リファインド・セマンティックセグメンテーションマスク
400 エッジリファインメント・ニューラルネットワーク
410 画像
420 セマンティックセグメンテーションマスク
430 画像エンコーダネットワーク
430 第1のエンコーダネットワーク
440 セマンティックセグメンテーション・マスクエンコーダネットワーク
440 第2のエンコーダネットワーク
450 連結コンポーネント
460 デコーダネットワーク
470 リファインド・セマンティックセグメンテーションマスク
500 エッジリファインメント・ニューラルネットワーク
510 画像
520 セマンティックセグメンテーションマスク
530 第1のエンコーダネットワーク
540 第2のエンコーダネットワーク
550 連結コンポーネント
560 デコーダネットワーク
570 エッジ推論層
580 リファインド・セマンティックセグメンテーションマスク
600 画像セグメンテーションモデルトレーニング構成
610 高解像度バージョンの画像
615 ダウンスケーリングコンポーネント
620 低解像度バージョンの画像
625 セマンティックセグメンテーション・ニューラルネットワーク
630 低解像度セマンティックセグメンテーションマスク
645 グラウンドトゥルース・セマンティックセグメンテーションマスク
650 第1の損失関数
655 アップスケーリングコンポーネント
660 高解像度セマンティックセグメンテーションマスク
665 エッジリファインメント・ニューラルネットワーク
670 リファインド・セマンティックセグメンテーションマスク
675 グラウンドトゥルース・リファインド・セマンティックセグメンテーションマスク
680 第2の損失関数
685 総損失関数

Claims (31)

  1. 少なくとも1つのプロセッサと、
    機械学習画像セグメンテーションモデルであって、
    画像を受信し、前記画像の受信に応答して、セマンティックセグメンテーションマスクを出力するようにトレーニングされる、セマンティックセグメンテーション・ニューラルネットワークと、
    前記画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を受信し、前記画像の前記少なくとも一部および前記セマンティックセグメンテーションマスクの前記少なくとも一部の受信に応答して、リファインド・セマンティックセグメンテーションマスクを出力するようにトレーニングされる、エッジリファインメント・ニューラルネットワークと
    を含む機械学習画像セグメンテーションモデルと、
    前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに動作を実行させる命令を記憶する少なくとも1つの有形の非一時的コンピュータ可読媒体であって、前記動作が、
    前記画像を取得することであって、前記画像が高解像度画像を含む、取得することと、
    前記高解像度画像を低解像度画像にダウンスケールし、前記低解像度画像を前記セマンティックセグメンテーション・ニューラルネットワークに入力することと、
    前記セマンティックセグメンテーション・ニューラルネットワークの出力として、前記セマンティックセグメンテーションマスクを受信することと、
    前記画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することと、
    前記エッジリファインメント・ニューラルネットワークの出力として、前記リファインド・セマンティックセグメンテーションマスクを受信することと
    を含む、少なくとも1つの有形の非一時的コンピュータ可読媒体と
    を含むコンピューティングシステム。
  2. 前記動作が、
    前記リファインド・セマンティックセグメンテーションマスクに少なくとも部分的に基づいて、前記画像の少なくとも一部をぼかすこと
    をさらに含む、請求項1に記載のコンピューティングシステム。
  3. 前記セマンティックセグメンテーション・ニューラルネットワークの出力として、前記セマンティックセグメンテーションマスクを受信することが、
    前記セマンティックセグメンテーション・ニューラルネットワークの出力として、低解像度セマンティックセグメンテーションマスクを受信すること
    を含む、請求項1に記載のコンピューティングシステム。
  4. 前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、
    前記低解像度セマンティックセグメンテーションマスクを高解像度セマンティックセグメンテーションマスクにアップスケールすることと、
    前記高解像度セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することと
    をさらに含む、請求項3に記載のコンピューティングシステム。
  5. 前記画像の少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、前記高解像度画像の少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することを含む、請求項1から4のいずれか一項に記載のコンピューティングシステム。
  6. 前記画像の少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、前記画像の前記少なくとも一部を前記エッジリファインメント・ニューラルネットワークの第1のエンコーダネットワークに入力することを含み、
    前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、前記セマンティックセグメンテーションマスクの前記少なくとも一部を前記エッジリファインメント・ニューラルネットワークの第2のエンコーダネットワークに入力することを含む、
    請求項1から5のいずれか一項に記載のコンピューティングシステム。
  7. 前記画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、
    前記第1のエンコーダネットワークから第1の符号化された出力を受信することと、
    前記第2のエンコーダネットワークから第2の符号化された出力を受信することと、
    前記第1の符号化された出力と前記第2の符号化された出力を連結して、連結された符号化された出力にすることと
    をさらに含む、請求項6に記載のコンピューティングシステム。
  8. 前記画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力することが、
    前記連結された符号化された出力を、前記エッジリファインメント・ニューラルネットワークのデコーダネットワークに提供することをさらに含み、
    前記エッジリファインメント・ニューラルネットワークの出力として、前記リファインド・セマンティックセグメンテーションマスクを受信することが、前記デコーダネットワークの出力として、前記リファインド・セマンティックセグメンテーションマスクを受信することを含む、
    請求項7に記載のコンピューティングシステム。
  9. 前記コンピューティングシステムが、ユーザコンピューティングデバイスを含む、請求項1から8のいずれか一項に記載のコンピューティングシステム。
  10. 前記機械学習画像セグメンテーションモデルが、前記機械学習画像セグメンテーションモデルの総損失関数に少なくとも部分的に基づいて、エンドツーエンドでトレーニングされた、請求項1から9のいずれか一項に記載のコンピューティングシステム。
  11. 画像の少なくとも一部のセグメンテーションマスクを生成するコンピュータ実装方法であって、
    第1のニューラルネットワークで、前記画像から導出された第1のデータを受信するステップと、
    前記第1のニューラルネットワークの出力を生成するために、前記第1のニューラルネットワークを使用して、前記第1のデータを処理するステップであって、前記出力が第1のセグメンテーションマスクに関連する、ステップと、
    第2のニューラルネットワークで、
    前記画像から導出された第2のデータ、および
    前記第1のニューラルネットワークの前記出力から導出されたデータ
    を受信するステップであって、前記第1のデータが第1の解像度の画像データを含み、前記第2のデータが前記第1の解像度よりも高い第2の解像度の画像データを含む、受信するステップと、
    第2のセグメンテーションマスクに関連するデータを生成するステップであって、当該生成することが、前記第2のセグメンテーションマスクが前記第1のセグメンテーションマスクに対してリファインされるように、前記第2のニューラルネットワークを使用して、前記画像から導出された前記第2のデータおよび前記第1のニューラルネットワークの前記出力から導出された前記データを処理することを含む、ステップと
    を含むコンピュータ実装方法。
  12. 前記第1のデータを生成するステップをさらに含み、前記第1のデータを生成するステップが、前記画像の少なくとも1つの領域の解像度を下げるステップを含む、請求項11に記載のコンピュータ実装方法。
  13. 前記第1のセグメンテーションマスクが第1の解像度を有し、前記第2のセグメンテーションマスクが前記第1の解像度よりも高い第2の解像度を有する、請求項11または12に記載のコンピュータ実装方法。
  14. 前記第1のニューラルネットワークおよび/または前記第2のニューラルネットワークが1つまたは複数の畳み込み層を含む、請求項11から13のいずれか一項に記載のコンピュータ実装方法。
  15. 前記第2のニューラルネットワークが、
    少なくとも2つのヘッドであって、第1のヘッドが前記画像から導出された前記第2のデータを受信するように構成され、第2のヘッドが前記第1のニューラルネットワークの出力から導出された前記データを受信するように構成される、少なくとも2つのヘッドと、
    前記第1および第2のヘッドから導出されたデータを連結するように構成された連結コンポーネントと
    を含む、請求項11から14のいずれか一項に記載のコンピュータ実装方法。
  16. 前記第2のニューラルネットワークが、前記連結コンポーネントの出力から導出されたデータを受信するように構成されたデコーダネットワークをさらに含み、前記第1のヘッドが第1のエンコーダネットワークを含み、前記第2のヘッドが第2のエンコーダネットワークを含む、請求項15に記載のコンピュータ実装方法。
  17. 前記第1のニューラルネットワークが、セマンティックセグメンテーション・ニューラルネットワークである、請求項11から16のいずれか一項に記載のコンピュータ実装方法。
  18. 前記第2のニューラルネットワークがエッジリファインメント・ニューラルネットワークであり、前記第2のセグメンテーションマスクが、前記第1のセグメンテーションマスクと比較して、よりシャープなエッジを含む、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
  19. 前記第2のセグメンテーションマスクが、前記第1のセグメンテーションマスクと比較して、前記画像の少なくとも一部の前景と背景をより正確に分離する、請求項11から18のいずれか一項に記載のコンピュータ実装方法。
  20. 画像セグメンテーションモデルをエンドツーエンドでトレーニングするコンピュータ実装方法であって、前記画像セグメンテーションモデルが、セマンティックセグメンテーション・ニューラルネットワークおよびエッジリファインメント・ニューラルネットワークを含み、前記セマンティックセグメンテーション・ニューラルネットワークの出力が前記エッジリファインメント・ニューラルネットワークに入力され、前記コンピュータ実装方法が、
    トレーニング画像を前記画像セグメンテーションモデルに入力するステップであって、前記セマンティックセグメンテーション・ニューラルネットワークに入力されるトレーニング画像が、前記エッジリファインメント・ニューラルネットワークに入力されるトレーニング画像の低画像のバージョンを含む、ステップと、
    前記セマンティックセグメンテーション・ニューラルネットワークの第1の損失関数を決定するステップと、
    前記エッジリファインメント・ニューラルネットワークの第2の損失関数を決定するステップと、
    前記第1の損失関数および前記第2の損失関数に少なくとも部分的に基づいて総損失関数を決定するステップと、
    前記総損失関数に基づいて、前記画像セグメンテーションモデルをトレーニングするステップと
    を含むコンピュータ実装方法。
  21. 前記第1の損失関数および前記第2の損失関数に少なくとも部分的に基づいて前記総損失関数を決定するステップが、前記第1の損失関数および前記第2の損失関数を合計するステップを含む、請求項20に記載のコンピュータ実装方法。
  22. 前記総損失関数に基づいて前記画像セグメンテーションモデルをトレーニングするステップが、
    前記第1の損失関数に少なくとも部分的に基づいて前記セマンティックセグメンテーション・ニューラルネットワークをトレーニングするステップ
    を含む、請求項20に記載のコンピュータ実装方法。
  23. 前記総損失関数に基づいて前記画像セグメンテーションモデルをトレーニングするステップが、
    前記第2の損失関数に少なくとも部分的に基づいて前記エッジリファインメント・ニューラルネットワークをトレーニングするステップ
    をさらに含む、請求項22に記載のコンピュータ実装方法。
  24. 前記セマンティックセグメンテーション・ニューラルネットワークの前記第1の損失関数を決定するステップが、
    前記トレーニング画像を前記セマンティックセグメンテーション・ニューラルネットワークに入力するステップと、
    前記セマンティックセグメンテーション・ニューラルネットワークの出力として、セマンティックセグメンテーションマスクを受信するステップと、
    前記セマンティックセグメンテーションマスクとグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差に少なくとも部分的に基づいて、前記第1の損失関数を決定するステップと
    を含む、請求項20に記載のコンピュータ実装方法。
  25. 前記トレーニング画像に少なくとも部分的に基づいて前記セマンティックセグメンテーションマスクを決定するステップが、
    前記セマンティックセグメンテーションマスクのシングルチャネルを抽出するステップを含み、
    前記第1の損失関数が、前記セマンティックセグメンテーションマスクの前記シングルチャネルと前記グラウンドトゥルース・セマンティックセグメンテーションマスクのシングルチャネルとの間の差に少なくとも部分的に基づいて決定される、
    請求項24に記載のコンピュータ実装方法。
  26. 前記トレーニング画像が高解像度のトレーニング画像を含み、前記トレーニング画像を前記セマンティックセグメンテーション・ニューラルネットワークに入力するステップが、
    前記高解像度のトレーニング画像を低解像度のトレーニング画像にダウンスケールするステップと、
    前記低解像度のトレーニング画像を前記セマンティックセグメンテーション・ニューラルネットワークに入力するステップと
    をさらに含む、請求項24に記載のコンピュータ実装方法。
  27. 前記エッジリファインメント・ニューラルネットワークの前記第2の損失関数を決定するステップが、
    前記エッジリファインメント・ニューラルネットワークによって、リファインド・セマンティックセグメンテーションマスクを決定するステップと、
    前記リファインド・セマンティックセグメンテーションマスクとグラウンドトゥルース・セマンティックセグメンテーションマスクとの間の差に少なくとも部分的に基づいて、前記第2の損失関数を決定するステップと
    を含む、請求項20に記載のコンピュータ実装方法。
  28. 前記エッジリファインメント・ニューラルネットワークによって、前記リファインド・セマンティックセグメンテーションマスクを決定するステップが、
    前記セマンティックセグメンテーション・ニューラルネットワークの出力として、前記トレーニング画像のセマンティックセグメンテーションマスクを受信するステップと、
    前記トレーニング画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力するステップと、
    前記エッジリファインメント・ニューラルネットワークの出力として、前記リファインド・セマンティックセグメンテーションマスクを受信するステップと
    を含む、請求項27に記載のコンピュータ実装方法。
  29. 前記トレーニング画像が高解像度トレーニング画像を含み、
    前記セマンティックセグメンテーション・ニューラルネットワークの出力として、前記トレーニング画像の前記セマンティックセグメンテーションマスクを受信するステップが、前記トレーニング画像の低解像度セマンティックセグメンテーションマスクを受信するステップを含み、
    前記トレーニング画像の少なくとも一部および前記セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力するステップが、
    前記高解像度トレーニング画像の少なくとも一部を前記エッジリファインメント・ニューラルネットワークに入力するステップと、
    前記低解像度セマンティックセグメンテーションマスクを高解像度セマンティックセグメンテーションマスクにアップスケールするステップと、
    前記高解像度セマンティックセグメンテーションマスクの少なくとも一部を前記エッジリファインメント・ニューラルネットワーク入力するステップと
    を含む、
    請求項28に記載のコンピュータ実装方法。
  30. 請求項11から29のいずれか一項に記載の方法を実行するように構成された装置。
  31. コンピューティング装置によって実行されると、請求項11から29のいずれか一項に記載の方法が実行されるようにするコンピュータ可読命令を含むコンピュータプログラム。
JP2019572504A 2017-09-27 2017-09-27 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル Active JP6865866B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/053627 WO2019066794A1 (en) 2017-09-27 2017-09-27 END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION

Publications (2)

Publication Number Publication Date
JP2020528176A JP2020528176A (ja) 2020-09-17
JP6865866B2 true JP6865866B2 (ja) 2021-04-28

Family

ID=60081292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572504A Active JP6865866B2 (ja) 2017-09-27 2017-09-27 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル

Country Status (6)

Country Link
US (2) US10860919B2 (ja)
EP (1) EP3625767B1 (ja)
JP (1) JP6865866B2 (ja)
KR (2) KR20200129168A (ja)
CN (1) CN110809784B (ja)
WO (1) WO2019066794A1 (ja)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
WO2019099428A1 (en) * 2017-11-15 2019-05-23 Google Llc Instance segmentation
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108345890B (zh) * 2018-03-01 2022-10-28 腾讯科技(深圳)有限公司 图像处理方法、装置和相关设备
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
KR20210072048A (ko) 2018-10-11 2021-06-16 테슬라, 인크. 증강 데이터로 기계 모델을 훈련하기 위한 시스템 및 방법
CN113163133A (zh) * 2018-10-15 2021-07-23 华为技术有限公司 一种图像处理方法、装置与设备
US11017307B2 (en) * 2018-10-17 2021-05-25 Fujitsu Limited Explanations generation with different cognitive values using generative adversarial networks
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
WO2020082382A1 (en) * 2018-10-26 2020-04-30 Intel Corporation Method and system of neural network object recognition for image processing
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
CN110059758B (zh) * 2019-04-24 2020-07-10 海南长光卫星信息技术有限公司 一种基于语义分割的遥感影像养殖塘检测方法
US10984558B2 (en) * 2019-05-09 2021-04-20 Disney Enterprises, Inc. Learning-based sampling for image matting
US11158055B2 (en) * 2019-07-26 2021-10-26 Adobe Inc. Utilizing a neural network having a two-stream encoder architecture to generate composite digital images
US11488359B2 (en) * 2019-08-28 2022-11-01 Snap Inc. Providing 3D data for messages in a messaging system
US11189104B2 (en) 2019-08-28 2021-11-30 Snap Inc. Generating 3D data in a messaging system
US11457196B2 (en) 2019-08-28 2022-09-27 Snap Inc. Effects for 3D data in a messaging system
US11410401B2 (en) 2019-08-28 2022-08-09 Snap Inc. Beautification techniques for 3D data in a messaging system
US12033301B2 (en) 2019-09-09 2024-07-09 Nvidia Corporation Video upsampling using one or more neural networks
US11508092B2 (en) * 2019-12-16 2022-11-22 X Development Llc Edge-based crop yield prediction
RU2742701C1 (ru) * 2020-06-18 2021-02-09 Самсунг Электроникс Ко., Лтд. Способ интерактивной сегментации объекта на изображении и электронное вычислительное устройство для его реализации
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
KR20210108027A (ko) * 2020-02-25 2021-09-02 삼성전자주식회사 전자 장치 및 그 제어 방법
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN111368843B (zh) * 2020-03-06 2022-06-10 电子科技大学 一种基于语义分割的冰上湖提取的方法
US11380023B2 (en) * 2020-03-18 2022-07-05 Adobe Inc. End-to-end relighting of a foreground object of an image
US11538170B2 (en) * 2020-04-03 2022-12-27 Adobe Inc. Integrated interactive image segmentation
KR20210128838A (ko) * 2020-04-17 2021-10-27 엘지이노텍 주식회사 이미지 처리 장치 및 이미지 처리 방법
US20210334975A1 (en) * 2020-04-23 2021-10-28 Nvidia Corporation Image segmentation using one or more neural networks
US11610314B2 (en) 2020-04-24 2023-03-21 Toyota Research Institute, Inc Panoptic generative adversarial network with explicit modeling of category and instance information
CN113570052B (zh) * 2020-04-28 2023-10-31 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111583264B (zh) * 2020-05-06 2024-02-27 上海联影智能医疗科技有限公司 图像分割网络的训练方法、图像分割方法和存储介质
KR102421718B1 (ko) * 2020-06-11 2022-07-18 삼성전자주식회사 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치
EP4172944A4 (en) 2020-06-11 2023-12-06 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PERFORMING CODING WITH ARTIFICIAL INTELLIGENCE AND DECODING WITH ARTIFICIAL INTELLIGENCE
US11436703B2 (en) * 2020-06-12 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for adaptive artificial intelligence downscaling for upscaling during video telephone call
CN111709387B (zh) * 2020-06-22 2023-05-12 中国科学院空天信息创新研究院 一种高分辨率遥感影像的建筑物分割方法及系统
US11688070B2 (en) * 2020-06-25 2023-06-27 Intel Corporation Video frame segmentation using reduced resolution neural network and masks from previous frames
US11790533B2 (en) * 2020-07-02 2023-10-17 Sony Group Corporation Machine learning based image segmentation training with contour accuracy evaluation
CN111738268B (zh) * 2020-07-22 2023-11-14 浙江大学 一种基于随机块的高分遥感图像的语义分割方法及系统
US11393100B2 (en) * 2020-08-07 2022-07-19 Adobe Inc. Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
US11651477B2 (en) 2020-08-07 2023-05-16 Adobe Inc. Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
KR102528727B1 (ko) * 2020-10-22 2023-05-03 경북대학교 산학협력단 딥 뉴럴 네트워크 기반의 뇌출혈 진단 시스템
CN112837466B (zh) * 2020-12-18 2023-04-07 北京百度网讯科技有限公司 票据识别方法、装置、设备以及存储介质
CN112651893A (zh) * 2020-12-24 2021-04-13 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
JPWO2022137921A1 (ja) * 2020-12-25 2022-06-30
CN113079391A (zh) * 2020-12-31 2021-07-06 无锡乐骐科技有限公司 一种人像图像混合处理方法、设备及计算机可读存储介质
CN112634257B (zh) * 2020-12-31 2023-10-27 常州奥创医疗科技有限公司 一种真菌荧光检测方法
GB202100316D0 (en) * 2021-01-11 2021-02-24 Samsung Electronics Co Ltd Hybrid image retargeting
WO2022153670A1 (ja) * 2021-01-18 2022-07-21 富士フイルム株式会社 画像処理装置、方法およびプログラム、並びに学習装置、方法およびプログラム
US11935217B2 (en) * 2021-03-12 2024-03-19 Adobe Inc. Generating deep harmonized digital images
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
US11954833B2 (en) 2021-04-02 2024-04-09 Samsung Electronics Co., Ltd Electronic device for supporting machine learning-based image processing
KR20220137459A (ko) * 2021-04-02 2022-10-12 삼성전자주식회사 기계 학습 기반 이미지 처리를 지원하기 위한 전자 장치
CN117280343A (zh) * 2021-05-06 2023-12-22 格兰斯电讯网络有限公司 在屏幕共享html元素的同时屏蔽敏感信息
CN113229842B (zh) * 2021-05-19 2022-10-14 苏州美糯爱医疗科技有限公司 一种基于复数深度神经网络的心肺音自动分离方法
CN117296328A (zh) * 2021-06-02 2023-12-26 谷歌有限责任公司 用于协作计算的选择性内容屏蔽
CN113538258B (zh) * 2021-06-15 2023-10-13 福州大学 基于掩码的图像去模糊模型及方法
CN113723231B (zh) * 2021-08-17 2024-09-17 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
TWI813181B (zh) * 2021-09-09 2023-08-21 大陸商星宸科技股份有限公司 影像處理電路與影像處理方法
CN113763371B (zh) * 2021-09-15 2023-08-18 上海壁仞智能科技有限公司 病理图像的细胞核分割方法及装置
CN113781310A (zh) * 2021-09-17 2021-12-10 北京金山云网络技术有限公司 图像处理方法、图像处理模型的训练方法和装置
US20230129341A1 (en) * 2021-10-23 2023-04-27 Adobe Inc. Generating object mask previews and single input selection object masks
US12020400B2 (en) 2021-10-23 2024-06-25 Adobe Inc. Upsampling and refining segmentation masks
CN114283343B (zh) * 2021-12-20 2023-09-26 北京百度网讯科技有限公司 基于遥感卫星图像的地图更新方法、训练方法和设备
KR102483080B1 (ko) * 2022-01-07 2022-12-30 주식회사 이너턴스 인공지능을 활용한 항공기 소음 분류 및 추출 방법
WO2024046142A1 (en) * 2022-08-30 2024-03-07 Subtle Medical, Inc. Systems and methods for image segmentation of pet/ct using cascaded and ensembled convolutional neural networks
DE102022209009A1 (de) * 2022-08-31 2024-02-29 Robert Bosch Gesellschaft mit beschränkter Haftung Segmentierung eines digitalen Bildes mittels kaskadierter neuronaler Netze
WO2024101891A1 (ko) * 2022-11-08 2024-05-16 삼성전자 주식회사 전자 장치 및 전자 장치의 이미지 처리 방법
CN118172561B (zh) * 2024-05-16 2024-07-23 山东巍然智能科技有限公司 一种无人机场景用复杂图像分割模型及分割方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US9892361B2 (en) * 2015-01-21 2018-02-13 Siemens Healthcare Gmbh Method and system for cross-domain synthesis of medical images using contextual deep network
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
CN106296638A (zh) * 2015-06-04 2017-01-04 欧姆龙株式会社 显著性信息取得装置以及显著性信息取得方法
US10540768B2 (en) * 2015-09-30 2020-01-21 Samsung Electronics Co., Ltd. Apparatus and method to segment object from image
KR102338372B1 (ko) * 2015-09-30 2021-12-13 삼성전자주식회사 영상으로부터 객체를 분할하는 방법 및 장치
US11568627B2 (en) * 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
US20180356514A1 (en) 2015-12-08 2018-12-13 Carrier Corporation Mobile beacon for locating building occupants
EP3408848A4 (en) 2016-01-29 2019-08-28 Pointivo Inc. SYSTEMS AND METHOD FOR EXTRACTING INFORMATION ON OBJECTS FROM SCENE INFORMATION
US10198624B2 (en) * 2016-02-18 2019-02-05 Pinscreen, Inc. Segmentation-guided real-time facial performance capture
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
US20190228268A1 (en) * 2016-09-14 2019-07-25 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
KR102707594B1 (ko) * 2016-11-11 2024-09-19 삼성전자주식회사 홍채 영역 추출 방법 및 장치
US10957045B2 (en) * 2016-12-12 2021-03-23 University Of Notre Dame Du Lac Segmenting ultrasound images
JP2020510463A (ja) * 2017-01-27 2020-04-09 アーテリーズ インコーポレイテッド 全層畳み込みネットワークを利用する自動化されたセグメンテーション
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10366491B2 (en) * 2017-03-08 2019-07-30 Siemens Healthcare Gmbh Deep image-to-image recurrent network with shape basis for automatic vertebra labeling in large-scale 3D CT volumes
US10402689B1 (en) * 2017-04-04 2019-09-03 Snap Inc. Generating an image mask using machine learning
US10552977B1 (en) * 2017-04-18 2020-02-04 Twitter, Inc. Fast face-morphing using neural networks
US10262236B2 (en) * 2017-05-02 2019-04-16 General Electric Company Neural network training image generation system
US10032281B1 (en) * 2017-05-03 2018-07-24 Siemens Healthcare Gmbh Multi-scale deep reinforcement machine learning for N-dimensional segmentation in medical imaging
KR20200028330A (ko) * 2017-05-09 2020-03-16 뉴럴라 인코포레이티드 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법
US10410353B2 (en) * 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
US11669718B2 (en) * 2017-05-23 2023-06-06 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
US10242292B2 (en) * 2017-06-13 2019-03-26 Digital Surgery Limited Surgical simulation for training detection and classification neural networks
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109426858B (zh) * 2017-08-29 2021-04-06 京东方科技集团股份有限公司 神经网络、训练方法、图像处理方法及图像处理装置
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network

Also Published As

Publication number Publication date
WO2019066794A1 (en) 2019-04-04
KR102177233B1 (ko) 2020-11-10
EP3625767A1 (en) 2020-03-25
KR20200129168A (ko) 2020-11-17
KR20200004427A (ko) 2020-01-13
EP3625767B1 (en) 2021-03-31
JP2020528176A (ja) 2020-09-17
CN110809784B (zh) 2021-04-20
US20200218961A1 (en) 2020-07-09
US10860919B2 (en) 2020-12-08
CN110809784A (zh) 2020-02-18
US11792553B2 (en) 2023-10-17
US20210067848A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
JP6865866B2 (ja) 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル
Zeng et al. Coupled deep autoencoder for single image super-resolution
US10783611B2 (en) Frame-recurrent video super-resolution
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
Liu et al. Robust single image super-resolution via deep networks with sparse prior
Yu et al. A unified learning framework for single image super-resolution
Lai et al. Deep laplacian pyramid networks for fast and accurate super-resolution
US20240022760A1 (en) Compression-Informed Video Super-Resolution
Kumar et al. Low-light robust face super resolution via morphological transformation based locality-constrained representation
Chen et al. Image super-resolution with text prompt diffusion
Vella et al. Single image super-resolution via CNN architectures and TV-TV minimization
Amaranageswarao et al. Deep dilated and densely connected parallel convolutional groups for compression artifacts reduction
Tsao et al. Boosting Flow-based Generative Super-Resolution Models via Learned Prior
Sheeba et al. HEVC video quality enhancement using deep learning with super interpolation and laplacian filter
EP4392925A1 (en) Cascaded multi-resolution machine learning based image regions processing with improved computational efficiency
CN112561802B (zh) 连续序列图像的插值方法、插值模型训练方法及其系统
Shao et al. A unified optimization perspective to single/multi-observation blur-kernel estimation with applications to camera-shake deblurring and nonparametric blind super-resolution
Lin et al. A pluggable single-image super-resolution algorithm based on second-order gradient loss
Mu et al. DRN-VideoSR: a deep recursive network for video super-resolution based on a deformable convolution shared-assignment network
Mukherjee et al. Image denoising by a local clustering framework
Ye et al. Learning multi-granularity semantic interactive representation for joint low-light image enhancement and super-resolution
AKKIN ISTANBUL TECHNICAL UNIVERSITY★ GRADUATE SCHOOL
CN114140479A (zh) 人像分割图片的优化方法、装置及相关组件
CN117557452A (zh) 一种图像还原方法、装置、设备及存储介质
CN114781601A (zh) 图像超分辨率方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200108

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200226

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200226

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210406

R150 Certificate of patent or registration of utility model

Ref document number: 6865866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250