JP2020524861A - セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 - Google Patents

セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 Download PDF

Info

Publication number
JP2020524861A
JP2020524861A JP2019571272A JP2019571272A JP2020524861A JP 2020524861 A JP2020524861 A JP 2020524861A JP 2019571272 A JP2019571272 A JP 2019571272A JP 2019571272 A JP2019571272 A JP 2019571272A JP 2020524861 A JP2020524861 A JP 2020524861A
Authority
JP
Japan
Prior art keywords
sub
image
images
semantic segmentation
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019571272A
Other languages
English (en)
Other versions
JP6807471B2 (ja
JP2020524861A5 (ja
Inventor
シアオハン ジャン
シアオハン ジャン
ズーウェイ リウ
ズーウェイ リウ
ピン ルオ
ピン ルオ
チェンチャン ロイ
チェンチャン ロイ
シャオオウ タン
シャオオウ タン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020524861A publication Critical patent/JP2020524861A/ja
Publication of JP2020524861A5 publication Critical patent/JP2020524861A5/ja
Application granted granted Critical
Publication of JP6807471B2 publication Critical patent/JP6807471B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例はセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体を開示し、そのうち、方法は、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含み、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。本願の上記実施例により訓練されて得られたセマンティックセグメンテーションモデルは、セマンティックセグメンテーションにおいて高い正解率を得ることができる。【選択図】図1

Description

(関連出願の相互参照)
本願は2017年8月1日に中国特許局へ提出された、出願番号CN201710648545.7、名称「セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体」の中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。
本願の実施例はコンピュータビジョン技術、特にセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体に関する。
画像のセマンティックセグメンテーションは、入力画像の画素毎に、出力において対応する判別ラベルを付け、この画素が属する可能性が最も高い物体またはカテゴリを明示している。それはコンピュータビジョン分野の重要なタスクであり、その用途は機器のシーン認識、映像解析などを含む。
本願の実施例はセマンティックセグメンテーションモデルの訓練技術を提供する。
本願の実施例が提供するセマンティックセグメンテーションモデルの訓練方法は、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
本願の実施例の別の一態様によれば、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部と、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれていることを特徴とするセマンティックセグメンテーションモデルの訓練装置が提供される。
本願の実施例のさらに別の一態様によれば、以上に記載のセマンティックセグメンテーションモデルの訓練装置を含むプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の一態様によれば、実行可能命令を記憶するためのメモリ、および
前記メモリと通信して前記実行可能命令を実行することで以上に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に以上に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するコンピュータ記憶媒体が提供される。
本願の実施例のさらに別の一態様によれば、機器において動作される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムが提供される。
本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けられた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳細に説明する。
明細書の一部となる図面は本願の実施例を説明するものであり、かつその説明と共に本願の原理を解釈するために用いられる。
図面と関連付けて、以下の詳細な説明によれば、本願をより明確に理解できる。そのうち、
本願のセマンティックセグメンテーションモデルの訓練方法の一実施例のフローチャートである。 本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の一例示的模式図である。 本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の別の例示的模式図である。 本願のセマンティックセグメンテーションモデルの訓練装置の一実施例の構成模式図である。 本願の電子機器の一実施例の構成模式図である。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
図1は本願のセマンティックセグメンテーションモデルの訓練方法の一実施例のフローチャートである。図1に示すように、該実施例の方法は以下を含む。
ステップ101、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得る。
ここで、ラベル付けされていない画像とは、該画像における一部または全ての画素のカテゴリ(例えば、意味カテゴリ)が特定されていないものを言い、本実施例では例示的に、既知のセマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、ノイズ付きのセマンティックセグメンテーション結果を得ることができる。
任意選択的な一例では、該ステップ101はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるセグメンテーション部41によって実行してもよい。
ステップ102、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得る。
ここで、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。任意選択的に、大きさが設定可能な選択ボックスによって画像中を移動し、さらに画像における画素のカテゴリに基づいて選択ボックス内の画素が同一カテゴリであるか否かを判定し、選択ボックス内の設定比率を超えた画素が全て同一カテゴリに属する場合、この選択ボックスをサブ画像として出力できる。
任意選択的な一例では、該ステップ102はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるサブ画像抽出部42によって実行してもよい。
ステップ103、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練する。
任意選択的な一例では、該ステップ103はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される訓練部43によって実行してもよい。
本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練方法に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けされた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。
自己監視学習はラベルが付いていない画像そのものを用いて訓練し、画像の意味情報への記述に用いることが可能な高次元ベクトルである画像記述子を得て、続いてこれらの画像記述子を用いてセマンティックセグメンテーションの訓練を行う。
本願のセマンティックセグメンテーションモデルの訓練方法の別の実施例では、上記実施例をもとに、ステップ103は、
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフ(patch graph)を作成することと、
セマンティックセグメンテーションモデルを訓練し、それによって該パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含む。
該実施例では、図2は本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の一例示的模式図である。図2に示すように、パッチグラフ(patch graph)22を作成するために、まずノード221を決定しなければならず、本実施例ではサブ画像をノード221とし、任意のカテゴリが既知の画像21において選択ボックス211によって少なくとも一つのサブ画像を選択し、接続関係を有するサブ画像間の特徴距離をリンク222(図2における中層の特徴から選択した選択ボックス内の特徴はサブ画像の特徴である)とし、ここでサブ画像間の接続関係はサブ画像に対応するカテゴリによって決定され、サブ画像の特徴は対応する選択ボックスによって畳み込みニューラルネットワークの出力層が出力した特徴マップから選択した特徴であり、任意選択的に、該出力層は畳み込みニューラルネットワークにおける中層または深層のうちのいずれか一層であり、畳み込みニューラルネットワークの中層または深層のうちの一層を出力層として選択し、ここで画像浅層の特徴は通常、画像における物体のいくつかの縁部(edge)、角点などの情報を特徴付け、画像中層の特徴は通常、物体のいくつかの部材の情報(例えば、車両のホイール、ヒトの鼻など)を特徴付け、画像深層の特徴は通常、画像全体のカテゴリ情報(例えば、ヒト、車、ウマなど)を特徴付け、サブ画像によってグラフを作成しかつパラメータを最適化するために、中層または深層のうちの一層をラベル付けされた画像およびラベル付けされていない画像の出力層として選択し、しかも、数回の実践によれば、中層の特徴の最適化効果が深層の特徴よりも高いことが実証されており、ここで、第一所定値および第二所定値は予め設定され、通常第二所定値は第一所定値よりも大きく、第一所定値および第二所定値によってカテゴリが同じである二つのサブ画像間の特徴距離を小さくすればするほど、カテゴリが異なる二つのサブ画像間の特徴距離が大きくなる。
図3は本願のセマンティックセグメンテーションモデルの訓練方法のパッチグラフ作成の別の例示的模式図である。該実施例の方法は、畳み込みニューラルネットワーク(図3中のCNN)によって、少なくとも一つのラベル付けされていない画像のカテゴリ(該ラベル付けされていない画像のカテゴリは既知のセマンティックセグメンテーションモデルに基づいて得ることができる)、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴(図3における中層の特徴のうちサブ画像位置に対応する特徴)を得ることと、サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含む(図3のパッチグラフにおいて円はノードを表し、二つの円を連結する線はリンクを表す)パッチグラフ(patch graph)を作成することと、を含む。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、サブ画像間のカテゴリ関係に基づいてパッチグラフを作成するステップは、
少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの負の相関関係があるノードとの間でそれぞれ負相関接続を確立することと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成することと、を含む。
該実施例では、パッチグラフを作成するプロセスは少なくとも二つのサブ画像から複数のサブ画像をランダムに選択し、ランダムに選択したサブ画像をそれぞれアンカー(anchor)とし、意味カテゴリに基づき、anchorと同じカテゴリのサブ画像をポジティブグラフ(positive)としてランダムに選択し、anchorと異なる意味カテゴリのサブ画像をネガティブグラフ(negative)としてランダムに選択し、このとき、一つのサブ画像に基づいて二つの接続、即ちanchor−positiveおよびanchor−negativeを確立し、これらの接続に基づき、一つの疎接続パッチグラフを作成する。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、セマンティックセグメンテーションモデルを訓練するステップは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化することを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。
本実施例では勾配バックプロパゲーションアルゴリズムによって畳み込みニューラルネットワークでの誤差を減少させ、畳み込みニューラルネットワークの一層目から出力層までの少なくとも一層のパラメータを最適化し、勾配バックプロパゲーションアルゴリズム(BP、Back Propagation Algorithm)はメンターの指導下での、多層ニューロンネットワークに適する学習アルゴリズムであり、勾配降下法をもとに確立される。BPネットワークの出入力関係は実質的にマッピング関係であり、即ちn入力m出力のBPニューラルネットワークはn次元ユークリッド空間からm次元ユークリッド空間内のガロア体への、高非線形性を有する連続的なマッピングという機能を実行する。BPアルゴリズムの学習プロセスはフォワードプロパゲーションプロセスおよびバックプロパゲーションプロセスで構成される。フォワードプロパゲーションプロセスで、入力情報が入力層を通過して隠れ層を通り、層別に処理されて出力層へ伝送される。出力層で所望の出力値を得ることができない場合、出力値と所望値の誤差の二乗和を目標関数とし、バックプロパゲーションへ進み、各ニューロンの重みに対する目標関数の偏導関数を層別に求め、重みベクトルに対する目標関数の勾配量を、重みを変更する根拠として構成させ、ネットワークの学習は重みの変更プロセスで実行する。誤差が所望値に達する時、ネットワーク学習を終了する。
パッチグラフにおけるリンクは出力層が出力したサブ画像間の特徴距離から得られ、そのうち、出力層は中層または深層から選択した層であるため、畳み込みニューラルネットワークの全ての層のパラメータではなく、一層目から該出力層までのパラメータを最適化し、従って、誤差計算プロセスでも、同様に出力層から一層目までの少なくとも一層の誤差を計算する。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、勾配バックプロパゲーションアルゴリズムによって、セマンティックセグメンテーションモデルを訓練するステップは、
作成したパッチグラフにおけるサブ画像の特徴の間の距離に基づいて損失関数計算によって最大誤差を得ることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正することと、を含む。
本実施例では、まず損失関数を定義し、畳み込みニューラルネットワークがこの損失関数を最小化することでネットワークパラメータを最適化し、該損失関数の式は式(1)に示すとおりである。

式(1)
ここで、
はサブ画像に基づいて作成したパッチグラフにおけるanchorとpositiveの間の距離を表し、
はサブ画像に基づいて作成したパッチグラフにおけるanchorとnegativeの間の距離を表し、mは定数を表し、該式は従来技術でのトリプレット損失関数(triplet loss)の式に基づいて得られ、算出した誤差で、勾配バックプロパゲーションアルゴリズムと結合すれば、畳み込みニューラルネットワークにおける層毎のパラメータ最適化を実現できる。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、セマンティックセグメンテーションモデルを訓練するプロセスは、
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得ることと、
得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことができる。
本実施例では、セマンティックセグメンテーションモデルも畳み込みニューラルネットワークに属するため、訓練により得られた畳み込みニューラルネットワークのパラメータは高い意味カテゴリ判別性を有し、セマンティックセグメンテーションにおいて高い正解率を得ることができ、該畳み込みニューラルネットワークのパラメータで元のセマンティックセグメンテーションモデルにおけるパラメータを入れ替えると、訓練が完了したセマンティックセグメンテーションモデルを得る。
本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ102は、
所定の大きさの選択ボックスが少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、選択ボックス内の画素のうち同一意味カテゴリの画素が占める比率が所定値以上である場合、選択ボックス内の画像をサブ画像として出力し、かつサブ画像をカテゴリとしてラベル付けることと、
畳み込みニューラルネットワークによってサブ画像に対応する特徴を得ることと、を含むことができる。
本実施例では、大きさが可変な選択ボックスによって少なくとも二つの画像へのセグメンテーションを行い、ここで、少なくとも二つの画像はラベル付けされていない画像およびラベル付けされた画像を含み、選択ボックス内の画素のうち同一カテゴリ(例えば、意味カテゴリなど)に属する画素が占める比率が所定値以上である場合、該選択ボックスを該カテゴリに分類し、該選択ボックス内の画素をサブ画像として出力することができ、選択ボックスの大きさは調整可能であり、ある大きさの選択ボックスで画像からサブ画像を得ることができない場合、選択ボックスの大きさを調整し、改めてセグメンテーションを、一定数のサブ画像を得るまで行うようにしてもよい。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、ステップ102はさらに、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、該選択ボックスを破棄することを含むことができる。
本例では、大きさが設定された選択ボックスについて、選択可能なサブ画像が抜けていないように、画像内で画素毎の移動を完了させる必要があり、一つの選択ボックス内に複数のカテゴリが存在しているものの、該複数のカテゴリに対応する画素の比率が全て所定値よりも小さい場合、該選択ボックスはカテゴリを特定できず、このとき選択ボックスを次の位置に移動させ、次の位置で判別を継続する必要があり、ある大きさが設定された選択ボックスで画像から何らのサブ画像をも得ることができない場合、選択ボックスの大きさを調整し、改めて該画像への選択を行う必要がある。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得るステップは、
畳み込みニューラルネットワークによってラベル付けされていない画像およびラベル付けされた画像の特徴をそれぞれ抽出し、対応するラベル付けされていない画像およびラベル付けされた画像の特徴マップを得ることと、
サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する選択ボックス内の特徴を得て、サブ画像に対応する特徴を特定することと、を含む。
本実施例では、サブ画像の選択ボックスの位置および大きさを得ることで、対応する畳み込みニューラルネットワークの出力層の特徴マップにおいて同じ位置および大きさの選択ボックスによって対応するサブ画像の特徴を選択し、さらにサブ画像の特徴によって任意の二つのサブ画像間の特徴距離を得る。
本願のセマンティックセグメンテーションモデルの訓練方法の上記各実施例の任意選択的な一例では、さらに、ステップ102の前に、セマンティックセグメンテーションモデルのパラメータに基づいて畳み込みニューラルネットワークのパラメータを初期化することを含むことができる。
例示的に、より正確な特徴を得るために、セマンティックセグメンテーションモデルのパラメータを用いて畳み込みニューラルネットワークのパラメータを初期化する。
本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ101の前に、さらに、
ランダム勾配降下法を使用してセマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことができる。
本実施例はセマンティックセグメンテーションモデルに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、1.VGG−16ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、2.セマンティックセグメンテーションモデルの初期学習率を0.01とし、30000回の反復実行毎に10倍降下させることと、3.ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで8つのGPUで分散計算することと、4.ランダム勾配降下アルゴリズムとして、1グループのデータ(本例では16枚のピクチャー)をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、5.60000回目程度まで反復実行してモデルを収束させることと、6.このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。
本願のセマンティックセグメンテーションモデルの訓練方法のさらに別の実施例では、上記各実施例をもとに、ステップ102の前に、さらに、
ランダム勾配降下法を使用して畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことができる。
本実施例は畳み込みニューラルネットワークに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、1.VGG−16ネットワーク構造の畳み込みニューラルネットワークを使用することと、2.畳み込みニューラルネットワークの初期学習率を0.01とし、30000回の反復実行毎に10倍降下させることと、3.ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで8つのGPUで分散計算することと、4.ランダム勾配降下アルゴリズムを、1グループのデータ(本例では16枚のピクチャー)をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にネットワークを収束させることと、5.60000回目程度まで反復実行してネットワークを収束させることと、6.この畳み込みニューラルネットワークを利用して従来の公開データセットにおいてテストすることと、を含むことができる。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラム命令関連のハードウェアによって完了できることが理解可能であり、前記プログラムはコンピュータ読み取り可能記憶媒体に記憶可能で、該プログラムは実行時、上記方法の実施例のステップを実行し、前記記憶媒体はROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコード記憶可能な種々の媒体を含む。
図4は本願のセマンティックセグメンテーションモデルの訓練装置の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図4に示すように、該実施例の装置は、
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部41と、
畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部42と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部43と、を含み、
そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
本願の上記実施例が提供するセマンティックセグメンテーションモデルの訓練装置に基づき、セマンティックセグメンテーションモデルによってラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、それによってラベル付けされていない画像はノイズ付きのカテゴリを得ることができるようになり、ラベル付けされていない画像のカテゴリ、およびラベル付けされた画像のカテゴリに基づき、画像がそれぞれ対応する少なくとも二つのサブ画像を得て、ラベル付けされた画像もラベル付けされていない画像も訓練に用い、自己監視訓練を実現し、畳み込みニューラルネットワークによって、サブ画像への特徴抽出を実現し、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルの訓練を実現し、訓練によって強い意味判別能力を有する自己監視学習型のセマンティックセグメンテーションモデルを得て、セマンティックセグメンテーションにおいて高い正解率を得ることができる。
本願のセマンティックセグメンテーションモデルの訓練装置の別の実施例では、上記実施例をもとに、訓練部43は、
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフを作成するためのパッチグラフ作成モジュールと、
セマンティックセグメンテーションモデルを訓練し、それによってパッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含む。
該実施例では、パッチグラフ(patch graph)を作成するために、まずノードを決定しなければならず、本実施例ではサブ画像をノードとし、接続関係を有するサブ画像間の特徴距離をリンクとし、ここでサブ画像間の接続関係はサブ画像に対応するカテゴリによって決定され、サブ画像の特徴は対応する選択ボックスによって畳み込みニューラルネットワークの出力層が出力した特徴マップから選択した特徴であり、任意選択的に、該出力層は畳み込みニューラルネットワークにおける中層または深層のうちの一層であり、畳み込みニューラルネットワークの中層または深層のうちの一層を出力層として選択し、ここで画像浅層の特徴は通常、画像における物体のいくつかの縁部(edge)、角点などの情報を特徴付け、画像中層の特徴は通常、物体のいくつかの部材の情報(例えば、車両のホイール、ヒトの鼻など)を特徴付け、画像深層の特徴は通常、画像全体のカテゴリ情報(例えば、ヒト、車、ウマなど)を特徴付け、サブ画像によってグラフを作成しかつパラメータを最適化するために、中層または深層のうちの一層をラベル付けされた画像およびラベル付けされていない画像の出力層として選択し、しかも、数回の実践によれば、中層の特徴の最適化効果が深層の特徴よりも高いことが実証されており、ここで、第一所定値および第二所定値は予め設定され、通常第二所定値は第一所定値よりも大きく、第一所定値および第二所定値によってカテゴリが同じである二つのサブ画像間の特徴距離を小さくすればするほど、カテゴリが異なる二つのサブ画像間の特徴距離が大きくなる。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、パッチグラフ作成モジュールは、
少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
少なくとも一つの基準ノードのそれぞれに対して、基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの前記負の相関関係があるノードとの間でそれぞれ負相関接続を確立するための接続関係確立モジュールと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成するための接続グラフ作成モジュールと、を含む。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、モデル訓練モジュールは、
勾配バックプロパゲーションアルゴリズムによって、セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、ネットワーク訓練モジュールは具体的に、
作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算すること反復実行し、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正するために用いられる。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、モデル訓練モジュールはさらに、
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得て、得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含む。
本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、サブ画像抽出部は、所定の大きさの選択ボックスが少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、選択ボックス内の画像をサブ画像として出力し、かつサブ画像をカテゴリとしてラベル付け、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得るために用いられる。
本実施例では、大きさが可変な選択ボックスによって少なくとも二つの画像へのセグメンテーションを行い、ここで、少なくとも二つの画像はラベル付けされていない画像およびラベル付けされた画像を含み、選択ボックス内の画素のうち同一カテゴリ(例えば、意味カテゴリ)に属する画素が占める比率が所定値以上である場合、該選択ボックスを該カテゴリに分類し、かつ該選択ボックス内の画素をサブ画像として出力することができ、選択ボックスの大きさは調整可能であり、ある大きさの選択ボックスで画像からサブ画像を得ることができない場合、選択ボックスの大きさを調整し、改めてセグメンテーションを、一定数のサブ画像を得るまで行うようにしてもよい。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、サブ画像抽出部はさらに、選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、該選択ボックスを破棄するために用いられる。
本願のセマンティックセグメンテーションモデルの訓練装置の上記各実施例の任意選択的な一例では、サブ画像抽出部は、畳み込みニューラルネットワークによってサブ画像に対応する特徴を得ようとする場合、畳み込みニューラルネットワークによってラベル付けされていない画像およびラベル付けされた画像の特徴をそれぞれ抽出し、対応するラベル付けされていない画像およびラベル付けされた画像の特徴マップを取得し、サブ画像に対応する選択ボックスの位置および大きさに基づき、対応するラベル付けされた画像の特徴マップから対応する選択ボックス内の特徴を得て、サブ画像に対応する特徴を特定するために用いられる。
本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、本実施例の装置はさらに、ランダム勾配降下法を使用してセマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練するためのモデル微調整部を含む。
本実施例はセマンティックセグメンテーションモデルに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、1.VGG−16ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、2.セマンティックセグメンテーションモデルの初期学習率を0.01とし、30000回の反復実行毎に10倍降下させることと、3.ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで8つのGPUで分散計算することと、4.ランダム勾配降下アルゴリズムを、1グループのデータ(本例では16枚のピクチャー)をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、5.60000回目程度まで反復実行してモデルを収束させることと、6.このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。
本願のセマンティックセグメンテーションモデルの訓練装置のさらに別の実施例では、上記各実施例をもとに、本実施例の装置はさらに、ランダム勾配降下法を使用して畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練するためのネットワーク微調整部を含む。
本実施例は畳み込みニューラルネットワークに対するそれぞれの微調整を実現し、任意選択的に、微調整プロセスは、1.VGG−16ネットワーク構造のセマンティックセグメンテーションモデルを使用することと、2.セマンティックセグメンテーションモデルの初期学習率を0.01とし、30000回の反復実行毎に10倍降下させることと、3.ランダム勾配降下アルゴリズムを使用してセマンティックセグメンテーションタスクを微調整かつ最適化し、このプロセスで8つのGPUで分散計算することと、4.ランダム勾配降下アルゴリズムを、1グループのデータ(本例では16枚のピクチャー)をランダムに選択し、ネットワークに入力し、フォワードプロパゲーションによって結果を得て、それとラベル付けされた結果との誤差を計算し、バックプロパゲーションによって少なくとも一層の誤差を得るようにし、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じてパラメータ値を補正し、補正中にモデルを収束させることと、5.60000回目程度まで反復実行してモデルを収束させることと、6.このセマンティックセグメンテーションモデルを利用して従来の公開データセットにおいてテストすることと、を含むことができる。
本願の実施例の一態様によれば、本願のセマンティックセグメンテーションモデルの訓練装置の各実施例のいずれか一項を含むプロセッサを含む電子機器が提供される。
本願の実施例の一態様によれば、実行可能命令を記憶するためのメモリ、および
メモリと通信して実行可能命令を実行することで本願のセマンティックセグメンテーションモデルの訓練方法の各実施例のいずれか一項の操作を実行するためのプロセッサを含む電子機器が提供される。
本願の実施例の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に本願のセマンティックセグメンテーションモデルの訓練方法の各実施例のいずれか一項の操作を実行するコンピュータ記憶媒体が提供される。
本願の実施例はさらに、機器において動作される時、前記機器内のプロセッサが本願のいずれか一つの実施例に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むコンピュータプログラムを提供する。
本願の実施例はさらに、電子機器を提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図5を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器500の構成模式図が示される。図5に示すように、電子機器500は一つ以上のプロセッサ、通信部などを含み、前記は一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)501、および/または一つ以上の画像処理装置(GPU)513などであり、プロセッサは読み取り専用メモリ(ROM)502に記憶されている実行可能命令または記憶部分508からランダムアクセスメモリ(RAM)503にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部512はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、
プロセッサは読み取り専用メモリ502および/またはランダムアクセスメモリ503と通信して実行可能命令を実行し、バス504を介して通信部512と接続し、通信部512によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像が対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を実行することができ、そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
また、RAM503には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU501、ROM502およびRAM503はバス504を介して互いに接続される。RAM503が存在する場合、ROM502は任意選択的なモジュールとなる。RAM503は実行可能命令を記憶するか、または動作時にROM502へ実行可能命令を書き込み、実行可能命令によって中央処理装置501は上記通信方法に対応する操作を実行する。入力/出力(I/O)インタフェース505もバス504に接続される。通信部512は統合設置してもよく、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分506、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分507、ハードディスクなどを含む記憶部分508、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分509といった部品は、I/Oインタフェース505に接続される。通信部分509はインターネットのようなネットワークによって通信処理を実行する。ドライバ510も必要に応じてI/Oインタフェース505に接続される。取り外し可能な媒体511、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ510に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分508にインストールされる。
説明すべきは、図5に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図5の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施形態を採用でき、例えばGPU513とCPU501は分離設置するかまたはGPU513をCPU501に統合するようにしてもよく、通信部は分離設置してもよく、CPU501またはGPU513に統合してもよいなどである。これらの置換可能な実施形態はいずれも本願が開示する保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づいて、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含むことができ、そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。このような実施例では、該コンピュータプログラムは通信部分509によってネットワークからダウンロードおよびインストールでき、および/または取り外し可能な媒体511からインストールできる。該コンピュータプログラムは中央処理装置(CPU)501に実行される時、本願の方法に特定された上記機能を実行する。
本明細書における各実施例は漸進の方式を採用して記述し、各実施例では他の実施例との相違点を重点に説明し、各実施例間の同じまたは類似部分は互いに参照すればよい。システムの実施例は、方法の実施例に基本的に対応するため、記述したものが比較的簡単で、その関連部分は方法の実施例の一部の説明を参照すればよい。
本願の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願に係る方法を実現するための機械可読命令を含む。従って、本願は本願に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。
本願の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本願を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims (26)

  1. セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
    畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることであって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、ことと、
    少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含むことを特徴とする、セマンティックセグメンテーションモデルの訓練方法。
  2. 少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するステップは、
    サブ画像間のカテゴリ関係に基づき、パッチグラフを作成することであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むことと、
    前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含むことを特徴とする、請求項1に記載の方法。
  3. サブ画像間のカテゴリ関係に基づいてパッチグラフを作成するステップは、
    少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
    前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立することと、
    少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記パッチグラフを形成することと、を含むことを特徴とする、請求項2に記載の方法。
  4. 前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
    勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化することを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項2または3に記載の方法。
  5. 勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
    作成した前記パッチグラフにおけるサブ画像間の特徴距離に基づいて、損失関数計算によって最大誤差を得て、前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
    前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
    パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
    前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、
    前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正することと、を含むことを特徴とする、請求項4に記載の方法。
  6. セマンティックセグメンテーションモデルを訓練する前記ステップは、
    前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得ることと、
    得られたた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことを特徴とする、請求項4から5のいずれか一項に記載の方法。
  7. 畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得る前記ステップは、
    所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付けることと、
    前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ることと、を含むことを特徴とする、請求項1から6のいずれか一項に記載の方法。
  8. さらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄することを含むことを特徴とする、請求項7に記載の方法。
  9. 畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得る前記ステップは、
    畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得することと、
    前記サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定することと、を含むことを特徴とする、請求項7または8に記載の方法。
  10. セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行うステップの前に、さらに、
    ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項1から9のいずれか一項に記載の方法。
  11. 畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るステップの前に、さらに、
    ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項1から10のいずれか一項に記載の方法。
  12. セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
    畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部であって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、サブ画像抽出部と、
    少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための前記ラベル付けされた画像の訓練部と、を含む、ことを特徴とする、セマンティックセグメンテーションモデルの訓練装置。
  13. 前記訓練部は、
    サブ画像間のカテゴリ関係に基づき、パッチグラフを作成するためのパッチグラフ作成モジュールであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むパッチグラフ作成モジュールと、
    前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含むことを特徴とする、請求項12に記載の装置。
  14. 前記パッチグラフ作成モジュールは、
    少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
    少なくとも一つの基準ノードのそれぞれに対して、前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立するための接続関係確立モジュールと、
    少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記グラフを形成するための接続グラフ作成モジュールと、を含むことを特徴とする、請求項13に記載の装置。
  15. 前記モデル訓練モジュールは、
    勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項13から14のいずれか一項に記載の装置。
  16. 前記ネットワーク訓練モジュールは具体的に、
    前記作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
    最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
    前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
    パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
    最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行し、前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正するために用いられることを特徴とする、請求項15に記載の装置。
  17. 前記モデル訓練モジュールはさらに、
    前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得て、得られた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含むことを特徴とする、請求項15から16のいずれか一項に記載の装置。
  18. 前記サブ画像抽出部は、所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付け、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得るために用いられることを特徴とする、請求項12から17のいずれか一項に記載の装置。
  19. 前記サブ画像抽出部はさらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄するために用いられることを特徴とする、請求項18に記載の装置。
  20. 前記サブ画像抽出部は、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ようとする場合、畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得し、前記サブ画像に対応する選択ボックスの位置および大きさに基づき、前記ラベル付けされた画像に対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定するために用いられることを特徴とする、請求項18または19に記載の装置。
  21. 前記装置はさらに、ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練するためのモデル微調整部を含むことを特徴とする、請求項12から20のいずれか一項に記載の装置。
  22. 前記装置はさらに、ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練するためのネットワーク微調整部を含むことを特徴とする、請求項12から21のいずれか一項に記載の装置。
  23. 請求項12から22のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練装置を含むプロセッサを含むことを特徴とする、電子機器。
  24. 実行可能命令を記憶するためのメモリ、および
    前記メモリと通信して前記実行可能命令を実行することで請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含むことを特徴とする、電子機器。
  25. コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行することを特徴とする、コンピュータ記憶媒体。
  26. 機器において動作される時、前記機器内のプロセッサが請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むことを特徴とする、コンピュータプログラム。
JP2019571272A 2017-08-01 2018-07-27 セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 Active JP6807471B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710648545.7A CN108229479B (zh) 2017-08-01 2017-08-01 语义分割模型的训练方法和装置、电子设备、存储介质
CN201710648545.7 2017-08-01
PCT/CN2018/097549 WO2019024808A1 (zh) 2017-08-01 2018-07-27 语义分割模型的训练方法和装置、电子设备、存储介质

Publications (3)

Publication Number Publication Date
JP2020524861A true JP2020524861A (ja) 2020-08-20
JP2020524861A5 JP2020524861A5 (ja) 2020-10-01
JP6807471B2 JP6807471B2 (ja) 2021-01-06

Family

ID=62654687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019571272A Active JP6807471B2 (ja) 2017-08-01 2018-07-27 セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体

Country Status (6)

Country Link
US (1) US11301719B2 (ja)
JP (1) JP6807471B2 (ja)
KR (1) KR102358554B1 (ja)
CN (1) CN108229479B (ja)
SG (1) SG11201913365WA (ja)
WO (1) WO2019024808A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022089166A (ja) * 2020-12-03 2022-06-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データペア生成方法、装置、電子デバイス及び記憶媒体

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN110012210B (zh) * 2018-01-05 2020-09-22 Oppo广东移动通信有限公司 拍照方法、装置、存储介质及电子设备
US11030525B2 (en) * 2018-02-09 2021-06-08 Baidu Usa Llc Systems and methods for deep localization and segmentation with a 3D semantic map
CN109101878B (zh) * 2018-07-01 2020-09-29 浙江工业大学 一种用于秸秆燃值估计的图像分析系统及图像分析方法
CN109084955A (zh) * 2018-07-02 2018-12-25 北京百度网讯科技有限公司 显示屏质量检测方法、装置、电子设备及存储介质
CN109190631A (zh) * 2018-08-31 2019-01-11 阿里巴巴集团控股有限公司 图片的目标对象标注方法及装置
CN109087708B (zh) * 2018-09-20 2021-08-31 深圳先进技术研究院 用于斑块分割的模型训练方法、装置、设备及存储介质
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN109583328B (zh) * 2018-11-13 2021-09-03 东南大学 一种嵌入稀疏连接的深度卷积神经网络字符识别方法
CN109859209B (zh) * 2019-01-08 2023-10-17 平安科技(深圳)有限公司 遥感影像分割方法、装置及存储介质、服务器
CN109886272B (zh) * 2019-02-25 2020-10-30 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备
CN111626313B (zh) * 2019-02-28 2023-06-02 银河水滴科技(北京)有限公司 一种特征提取模型训练方法、图像处理方法及装置
CN111553362B (zh) * 2019-04-01 2023-05-05 上海卫莎网络科技有限公司 一种视频处理方法、电子设备和计算机可读存储介质
CN111833291B (zh) * 2019-04-22 2023-11-03 上海汽车集团股份有限公司 一种语义分割训练集人工标注评价方法及装置
US11580673B1 (en) * 2019-06-04 2023-02-14 Duke University Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
CN111783779B (zh) * 2019-09-17 2023-12-05 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质
US20210089924A1 (en) * 2019-09-24 2021-03-25 Nec Laboratories America, Inc Learning weighted-average neighbor embeddings
CN110781895B (zh) * 2019-10-10 2023-06-20 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
CN111062252B (zh) * 2019-11-15 2023-11-10 浙江大华技术股份有限公司 一种实时危险物品语义分割方法、装置及存储装置
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
KR102198480B1 (ko) * 2020-02-28 2021-01-05 연세대학교 산학협력단 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법
CN113496277A (zh) 2020-04-03 2021-10-12 三星电子株式会社 用于检索图像的神经网络装置及其操作方法
CN111401474B (zh) * 2020-04-13 2023-09-08 Oppo广东移动通信有限公司 视频分类模型的训练方法、装置、设备及存储介质
CN111489366B (zh) * 2020-04-15 2024-06-11 上海商汤临港智能科技有限公司 神经网络的训练、图像语义分割方法及装置
CN111612802B (zh) * 2020-04-29 2023-06-20 杭州电子科技大学 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111652285A (zh) * 2020-05-09 2020-09-11 济南浪潮高新科技投资发展有限公司 一种茶饼类别识别方法、设备及介质
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111710009B (zh) * 2020-05-29 2023-06-23 北京百度网讯科技有限公司 人流密度的生成方法、装置、电子设备以及存储介质
CN111814805B (zh) * 2020-06-18 2023-07-11 浙江大华技术股份有限公司 特征提取网络训练方法以及相关方法和装置
CN111667483B (zh) * 2020-07-03 2022-08-30 腾讯科技(深圳)有限公司 多模态图像的分割模型的训练方法、图像处理方法和装置
CN111898696B (zh) * 2020-08-10 2023-10-27 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN112016599B (zh) * 2020-08-13 2023-09-15 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
CN112085739B (zh) * 2020-08-20 2024-05-24 深圳力维智联技术有限公司 基于弱监督的语义分割模型的训练方法、装置及设备
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
US20220147761A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Video domain adaptation via contrastive learning
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112668509B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 社交关系识别模型的训练方法、识别方法及相关设备
CN113781383B (zh) * 2021-01-06 2024-06-21 北京沃东天骏信息技术有限公司 处理图像的方法、装置、设备和计算机可读介质
CN112861911B (zh) * 2021-01-10 2024-05-28 西北工业大学 一种基于深度特征选择融合的rgb-d语义分割方法
CN112862792B (zh) * 2021-02-21 2024-04-05 北京工业大学 一种用于小样本图像数据集的小麦白粉病孢子分割方法
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113011430B (zh) * 2021-03-23 2023-01-20 中国科学院自动化研究所 大规模点云语义分割方法及系统
CN113159057B (zh) * 2021-04-01 2022-09-02 湖北工业大学 一种图像语义分割方法和计算机设备
CN113283434B (zh) * 2021-04-13 2024-06-21 北京工业大学 一种基于分割网络优化的图像语义分割方法及系统
CN113177926B (zh) * 2021-05-11 2023-11-14 泰康保险集团股份有限公司 一种图像检测方法和装置
KR102638075B1 (ko) * 2021-05-14 2024-02-19 (주)로보티즈 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템
CN113450311B (zh) * 2021-06-01 2023-01-13 国网河南省电力公司漯河供电公司 基于语义分割和空间关系的带销螺丝缺陷检测方法及系统
US20230004760A1 (en) * 2021-06-28 2023-01-05 Nvidia Corporation Training object detection systems with generated images
CN113627568B (zh) * 2021-08-27 2024-07-02 广州文远知行科技有限公司 一种补标方法、装置、设备及可读存储介质
CN113806573A (zh) * 2021-09-15 2021-12-17 上海商汤科技开发有限公司 标注方法、装置、电子设备、服务器及存储介质
CN113792742A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 遥感图像的语义分割方法和语义分割模型的训练方法
CN113837192B (zh) * 2021-09-22 2024-04-19 推想医疗科技股份有限公司 图像分割方法及装置,神经网络的训练方法及装置
EP4388507A1 (en) * 2021-10-14 2024-06-26 Hewlett-Packard Development Company, L.P. Training models for object detection
CN113642566B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能和大数据的药品包装设计方法
CN113642262B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能的牙膏包装外观辅助设计方法
US11941884B2 (en) * 2021-11-12 2024-03-26 Adobe Inc. Multi-source panoptic feature pyramid network
CN113936141B (zh) * 2021-12-17 2022-02-22 深圳佑驾创新科技有限公司 图像语义分割方法及计算机可读存储介质
CN114372537B (zh) * 2022-01-17 2022-10-21 浙江大学 一种面向图像描述系统的通用对抗补丁生成方法及系统
US20230260249A1 (en) * 2022-02-16 2023-08-17 Donde Fashion, Inc. Systems and methods for training and using a machine learning model for matching objects
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114663662B (zh) * 2022-05-23 2022-09-09 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN115086503B (zh) * 2022-05-25 2023-09-22 清华大学深圳国际研究生院 信息隐藏方法、装置、设备及存储介质
CN114677567B (zh) * 2022-05-27 2022-10-14 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN117274579A (zh) * 2022-06-15 2023-12-22 北京三星通信技术研究有限公司 图像处理方法及相关设备
CN116883673B (zh) * 2023-09-08 2023-12-26 腾讯科技(深圳)有限公司 语义分割模型训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017163759A1 (en) * 2016-03-25 2017-09-28 Mitsubishi Electric Corporation System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
WO2019019019A1 (zh) * 2017-07-25 2019-01-31 深圳前海达闼云端智能科技有限公司 训练数据生成方法、生成装置及其图像语义分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317908B2 (en) * 2012-06-29 2016-04-19 Behavioral Recognition System, Inc. Automatic gain control filter in a video analysis system
US9558268B2 (en) * 2014-08-20 2017-01-31 Mitsubishi Electric Research Laboratories, Inc. Method for semantically labeling an image of a scene using recursive context propagation
US9836641B2 (en) * 2014-12-17 2017-12-05 Google Inc. Generating numeric embeddings of images
CN108603922A (zh) 2015-11-29 2018-09-28 阿特瑞斯公司 自动心脏体积分割
CN105787482A (zh) * 2016-02-26 2016-07-20 华北电力大学 一种基于深度卷积神经网络的特定目标轮廓图像分割方法
CN106022221B (zh) * 2016-05-09 2021-11-30 腾讯科技(深圳)有限公司 一种图像处理方法及处理系统
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017163759A1 (en) * 2016-03-25 2017-09-28 Mitsubishi Electric Corporation System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
WO2019019019A1 (zh) * 2017-07-25 2019-01-31 深圳前海达闼云端智能科技有限公司 训练数据生成方法、生成装置及其图像语义分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022089166A (ja) * 2020-12-03 2022-06-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データペア生成方法、装置、電子デバイス及び記憶媒体
JP7266658B2 (ja) 2020-12-03 2023-04-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データペア生成方法、装置、電子デバイス及び記憶媒体
US11748340B2 (en) 2020-12-03 2023-09-05 Beijing Baidu Netcom Science And Technology Co., Ltd. Data pair generating method, apparatus, electronic device and storage medium

Also Published As

Publication number Publication date
KR102358554B1 (ko) 2022-02-04
JP6807471B2 (ja) 2021-01-06
US20200134375A1 (en) 2020-04-30
WO2019024808A1 (zh) 2019-02-07
SG11201913365WA (en) 2020-01-30
CN108229479A (zh) 2018-06-29
CN108229479B (zh) 2019-12-31
KR20200015611A (ko) 2020-02-12
US11301719B2 (en) 2022-04-12

Similar Documents

Publication Publication Date Title
JP2020524861A (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
US11361531B2 (en) Domain separation neural networks
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
TWI721510B (zh) 雙目圖像的深度估計方法、設備及儲存介質
CN110168560B (zh) 用于场景理解和生成的方法、系统和介质
EP3933693B1 (en) Object recognition method and device
WO2020006961A1 (zh) 用于提取图像的方法和装置
US20210342643A1 (en) Method, apparatus, and electronic device for training place recognition model
WO2018033156A1 (zh) 视频图像的处理方法、装置和电子设备
CN108154222B (zh) 深度神经网络训练方法和系统、电子设备
CN107507153B (zh) 图像去噪方法和装置
US20120219213A1 (en) Embedded Optical Flow Features
CN108280451B (zh) 语义分割及网络训练方法和装置、设备、介质
US10445910B2 (en) Generating apparatus, generating method, and non-transitory computer readable storage medium
WO2018109505A1 (en) Transforming source domain images into target domain images
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
CN108229287B (zh) 图像识别方法和装置、电子设备和计算机存储介质
CN112164002B (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
JP6932254B2 (ja) キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体
CN109948699B (zh) 用于生成特征图的方法和装置
WO2021077140A2 (en) Systems and methods for prior knowledge transfer for image inpainting
EP4290448A1 (en) Image generation model training method, generation method, apparatus, and device
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN115131218A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN108229650B (zh) 卷积处理方法、装置及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201207

R150 Certificate of patent or registration of utility model

Ref document number: 6807471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250