JP2020524861A - セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 - Google Patents
セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 Download PDFInfo
- Publication number
- JP2020524861A JP2020524861A JP2019571272A JP2019571272A JP2020524861A JP 2020524861 A JP2020524861 A JP 2020524861A JP 2019571272 A JP2019571272 A JP 2019571272A JP 2019571272 A JP2019571272 A JP 2019571272A JP 2020524861 A JP2020524861 A JP 2020524861A
- Authority
- JP
- Japan
- Prior art keywords
- sub
- image
- images
- semantic segmentation
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 166
- 238000012549 training Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 92
- 230000000875 corresponding effect Effects 0.000 claims description 85
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 230000002596 correlated effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は2017年8月1日に中国特許局へ提出された、出願番号CN201710648545.7、名称「セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体」の中国特許出願の優先権を主張しており、その全ての内容が引用により本願に組み込まれる。
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることと、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部と、を含み、
そのうち、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれていることを特徴とするセマンティックセグメンテーションモデルの訓練装置が提供される。
前記メモリと通信して前記実行可能命令を実行することで以上に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含む電子機器が提供される。
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフ(patch graph)を作成することと、
セマンティックセグメンテーションモデルを訓練し、それによって該パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含む。
少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの負の相関関係があるノードとの間でそれぞれ負相関接続を確立することと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成することと、を含む。
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化することを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。
作成したパッチグラフにおけるサブ画像の特徴の間の距離に基づいて損失関数計算によって最大誤差を得ることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正することと、を含む。
式(1)
ここで、
はサブ画像に基づいて作成したパッチグラフにおけるanchorとpositiveの間の距離を表し、
はサブ画像に基づいて作成したパッチグラフにおけるanchorとnegativeの間の距離を表し、mは定数を表し、該式は従来技術でのトリプレット損失関数(triplet loss)の式に基づいて得られ、算出した誤差で、勾配バックプロパゲーションアルゴリズムと結合すれば、畳み込みニューラルネットワークにおける層毎のパラメータ最適化を実現できる。
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得ることと、
得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことができる。
所定の大きさの選択ボックスが少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、選択ボックス内の画素のうち同一意味カテゴリの画素が占める比率が所定値以上である場合、選択ボックス内の画像をサブ画像として出力し、かつサブ画像をカテゴリとしてラベル付けることと、
畳み込みニューラルネットワークによってサブ画像に対応する特徴を得ることと、を含むことができる。
畳み込みニューラルネットワークによってラベル付けされていない画像およびラベル付けされた画像の特徴をそれぞれ抽出し、対応するラベル付けされていない画像およびラベル付けされた画像の特徴マップを得ることと、
サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する選択ボックス内の特徴を得て、サブ画像に対応する特徴を特定することと、を含む。
ランダム勾配降下法を使用してセマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことができる。
ランダム勾配降下法を使用して畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことができる。
セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部41と、
畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部42と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための訓練部43と、を含み、
そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
サブ画像間のカテゴリ関係に基づき、サブ画像を含むノードおよび任意の二つのサブ画像間の特徴距離を含むリンクを含むパッチグラフを作成するためのパッチグラフ作成モジュールと、
セマンティックセグメンテーションモデルを訓練し、それによってパッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含む。
少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
少なくとも一つの基準ノードのそれぞれに対して、基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、基準ノードと少なくとも一つの正の相関関係があるノードとの間でそれぞれ正相関接続を確立し、基準ノードと少なくとも一つの前記負の相関関係があるノードとの間でそれぞれ負相関接続を確立するための接続関係確立モジュールと、
少なくとも一つの基準ノード、基準ノードの正の相関関係があるノード、基準ノードの負の相関関係があるノード、正相関接続および負相関接続で疎接続グラフを形成するための接続グラフ作成モジュールと、を含む。
勾配バックプロパゲーションアルゴリズムによって、セマンティックセグメンテーションモデルを訓練し、それによって畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、誤差は畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失である。
作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
最大誤差を勾配バックプロパゲーションすることによって、畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算すること反復実行し、少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、勾配に応じて畳み込みニューラルネットワークにおける対応する層のパラメータを、最大誤差が所定値以下になるまで補正するために用いられる。
畳み込みニューラルネットワークの訓練結果に基づいて畳み込みニューラルネットワークのパラメータを得て、得られた畳み込みニューラルネットワークのパラメータに基づいてセマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含む。
メモリと通信して実行可能命令を実行することで本願のセマンティックセグメンテーションモデルの訓練方法の各実施例のいずれか一項の操作を実行するためのプロセッサを含む電子機器が提供される。
プロセッサは読み取り専用メモリ502および/またはランダムアクセスメモリ503と通信して実行可能命令を実行し、バス504を介して通信部512と接続し、通信部512によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、畳み込みニューラルネットワークによって、少なくとも一つのラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像が対応する特徴を得ることと、少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を実行することができ、そのうち、少なくとも二つの画像は少なくとも一つのラベル付けされていない画像および少なくとも一つのラベル付けされた画像を含み、少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている。
Claims (26)
- セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得ることと、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得ることであって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、ことと、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練することと、を含むことを特徴とする、セマンティックセグメンテーションモデルの訓練方法。 - 少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するステップは、
サブ画像間のカテゴリ関係に基づき、パッチグラフを作成することであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むことと、
前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくすることと、を含むことを特徴とする、請求項1に記載の方法。 - サブ画像間のカテゴリ関係に基づいてパッチグラフを作成するステップは、
少なくとも一つのサブ画像を基準ノードとして選択し、少なくとも一つの基準ノードのそれぞれに対して、
前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立することと、
少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記パッチグラフを形成することと、を含むことを特徴とする、請求項2に記載の方法。 - 前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化することを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項2または3に記載の方法。 - 勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練する前記ステップは、
作成した前記パッチグラフにおけるサブ画像間の特徴距離に基づいて、損失関数計算によって最大誤差を得て、前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することと、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正することと、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とすることと、
前記最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行することと、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正することと、を含むことを特徴とする、請求項4に記載の方法。 - セマンティックセグメンテーションモデルを訓練する前記ステップは、
前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得ることと、
得られたた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化することと、を含むことを特徴とする、請求項4から5のいずれか一項に記載の方法。 - 畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得る前記ステップは、
所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付けることと、
前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ることと、を含むことを特徴とする、請求項1から6のいずれか一項に記載の方法。 - さらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄することを含むことを特徴とする、請求項7に記載の方法。
- 畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得る前記ステップは、
畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得することと、
前記サブ画像に対応する選択ボックスの位置および大きさに基づき、対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定することと、を含むことを特徴とする、請求項7または8に記載の方法。 - セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行うステップの前に、さらに、
ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項1から9のいずれか一項に記載の方法。 - 畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るステップの前に、さらに、
ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練することを含むことを特徴とする、請求項1から10のいずれか一項に記載の方法。 - セマンティックセグメンテーションモデルによって、少なくとも一つのラベル付けされていない画像に対して、セマンティックセグメンテーションを行い、初歩のセマンティックセグメンテーション結果を、前記ラベル付けされていない画像のカテゴリとして得るためのセグメンテーション部と、
畳み込みニューラルネットワークによって、少なくとも一つの前記ラベル付けされていない画像のカテゴリ、および少なくとも一つのラベル付けされた画像のカテゴリに基づき、少なくとも二つの画像がそれぞれ対応するサブ画像およびサブ画像に対応する特徴を得るためのサブ画像抽出部であって、前記少なくとも二つの画像は、少なくとも一つの前記ラベル付けされていない画像および少なくとも一つの前記ラベル付けされた画像を含み、前記少なくとも二つのサブ画像には対応する画像のカテゴリが含まれている、サブ画像抽出部と、
少なくとも二つのサブ画像のカテゴリ、および少なくとも二つのサブ画像間の特徴距離に基づき、セマンティックセグメンテーションモデルを訓練するための前記ラベル付けされた画像の訓練部と、を含む、ことを特徴とする、セマンティックセグメンテーションモデルの訓練装置。 - 前記訓練部は、
サブ画像間のカテゴリ関係に基づき、パッチグラフを作成するためのパッチグラフ作成モジュールであって、前記パッチグラフが、前記サブ画像を含むノードおよび任意の二つの前記サブ画像間の特徴距離を含むリンクを含むパッチグラフ作成モジュールと、
前記セマンティックセグメンテーションモデルを訓練し、前記パッチグラフにおいて、カテゴリが同じである二つのサブ画像間の特徴距離を第一所定値よりも小さくし、カテゴリが異なる二つのサブ画像間の特徴距離を第二所定値よりも大きくするためのモデル訓練モジュールと、を含むことを特徴とする、請求項12に記載の装置。 - 前記パッチグラフ作成モジュールは、
少なくとも一つのサブ画像を基準ノードとして選択するための基準選択モジュールと、
少なくとも一つの基準ノードのそれぞれに対して、前記基準ノードと同じカテゴリのサブ画像を正の相関関係があるノードとし、前記基準ノードと異なるカテゴリのサブ画像を負の相関関係があるノードとし、前記基準ノードと少なくとも一つの前記正の相関関係があるノードとの間で正相関接続をそれぞれ確立し、前記基準ノードと少なくとも一つの前記負の相関関係があるノードとの間で負相関接続をそれぞれ確立するための接続関係確立モジュールと、
少なくとも一つの前記基準ノード、前記基準ノードの前記正の相関関係があるノード、前記基準ノードの前記負の相関関係があるノード、前記正相関接続および前記負相関接続によって、疎接続された前記グラフを形成するための接続グラフ作成モジュールと、を含むことを特徴とする、請求項13に記載の装置。 - 前記モデル訓練モジュールは、
勾配バックプロパゲーションアルゴリズムによって、前記セマンティックセグメンテーションモデルを訓練し、それによって前記畳み込みニューラルネットワークの誤差を最小化するためのネットワーク訓練モジュールを含み、前記誤差は、前記畳み込みニューラルネットワークに基づいて得られた、対応するサブ画像の特徴のトリプレット損失であることを特徴とする、請求項13から14のいずれか一項に記載の装置。 - 前記ネットワーク訓練モジュールは具体的に、
前記作成したパッチグラフにおけるサブ画像間の特徴距離に基づいて損失関数計算によって最大誤差を得て、
最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算し、
前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを補正し、
パラメータ最適化後の畳み込みニューラルネットワークによって出力されるサブ画像間の距離に基づいて誤差を算出し、前記誤差を最大誤差とし、
最大誤差を勾配バックプロパゲーションすることによって、前記畳み込みニューラルネットワークにおける少なくとも一層の誤差を計算することを反復実行し、前記少なくとも一層の誤差に基づいて少なくとも一層のパラメータの勾配を算出し、前記勾配に応じて前記畳み込みニューラルネットワークにおける対応する層のパラメータを、前記最大誤差が所定値以下になるまで補正するために用いられることを特徴とする、請求項15に記載の装置。 - 前記モデル訓練モジュールはさらに、
前記畳み込みニューラルネットワークの訓練結果に基づいて前記畳み込みニューラルネットワークのパラメータを得て、得られた前記畳み込みニューラルネットワークのパラメータに基づいて、前記セマンティックセグメンテーションモデルにおけるパラメータを初期化するためのセグメンテーションモデル訓練モジュールを含むことを特徴とする、請求項15から16のいずれか一項に記載の装置。 - 前記サブ画像抽出部は、所定の大きさの選択ボックスが前記少なくとも二つの画像において移動することに応じて、選択ボックス内の画素を判別し、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値以上である場合、前記選択ボックス内の画像をサブ画像として出力し、前記サブ画像を前記カテゴリとしてラベル付け、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得るために用いられることを特徴とする、請求項12から17のいずれか一項に記載の装置。
- 前記サブ画像抽出部はさらに、前記選択ボックス内の画素のうち同一カテゴリの画素が占める比率が所定値よりも小さい場合、前記選択ボックスを破棄するために用いられることを特徴とする、請求項18に記載の装置。
- 前記サブ画像抽出部は、前記畳み込みニューラルネットワークによって前記サブ画像に対応する特徴を得ようとする場合、畳み込みニューラルネットワークによって前記ラベル付けされていない画像および前記ラベル付けされた画像の特徴をそれぞれ抽出し、前記ラベル付けされていない画像および前記ラベル付けされた画像に対応する特徴マップを取得し、前記サブ画像に対応する選択ボックスの位置および大きさに基づき、前記ラベル付けされた画像に対応する特徴マップから対応する前記選択ボックス内の特徴を得て、前記サブ画像に対応する特徴を特定するために用いられることを特徴とする、請求項18または19に記載の装置。
- 前記装置はさらに、ランダム勾配降下法を使用して前記セマンティックセグメンテーションモデルを、所定の収束条件を満たすまで訓練するためのモデル微調整部を含むことを特徴とする、請求項12から20のいずれか一項に記載の装置。
- 前記装置はさらに、ランダム勾配降下法を使用して前記畳み込みニューラルネットワークを、所定の収束条件を満たすまで訓練するためのネットワーク微調整部を含むことを特徴とする、請求項12から21のいずれか一項に記載の装置。
- 請求項12から22のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練装置を含むプロセッサを含むことを特徴とする、電子機器。
- 実行可能命令を記憶するためのメモリ、および
前記メモリと通信して前記実行可能命令を実行することで請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行するためのプロセッサを含むことを特徴とする、電子機器。 - コンピュータ読み取り可能な命令を記憶するためのコンピュータ記憶媒体であって、前記命令が実行される時に請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法の操作を実行することを特徴とする、コンピュータ記憶媒体。
- 機器において動作される時、前記機器内のプロセッサが請求項1から11のいずれか一項に記載のセマンティックセグメンテーションモデルの訓練方法における各ステップを実現するための命令を実行するコンピュータ読み取り可能コードを含むことを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710648545.7 | 2017-08-01 | ||
CN201710648545.7A CN108229479B (zh) | 2017-08-01 | 2017-08-01 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
PCT/CN2018/097549 WO2019024808A1 (zh) | 2017-08-01 | 2018-07-27 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020524861A true JP2020524861A (ja) | 2020-08-20 |
JP2020524861A5 JP2020524861A5 (ja) | 2020-10-01 |
JP6807471B2 JP6807471B2 (ja) | 2021-01-06 |
Family
ID=62654687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019571272A Active JP6807471B2 (ja) | 2017-08-01 | 2018-07-27 | セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11301719B2 (ja) |
JP (1) | JP6807471B2 (ja) |
KR (1) | KR102358554B1 (ja) |
CN (1) | CN108229479B (ja) |
SG (1) | SG11201913365WA (ja) |
WO (1) | WO2019024808A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022089166A (ja) * | 2020-12-03 | 2022-06-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データペア生成方法、装置、電子デバイス及び記憶媒体 |
Families Citing this family (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229479B (zh) * | 2017-08-01 | 2019-12-31 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
US10755142B2 (en) * | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
CN110012210B (zh) * | 2018-01-05 | 2020-09-22 | Oppo广东移动通信有限公司 | 拍照方法、装置、存储介质及电子设备 |
WO2019153245A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Systems and methods for deep localization and segmentation with 3d semantic map |
CN109101878B (zh) * | 2018-07-01 | 2020-09-29 | 浙江工业大学 | 一种用于秸秆燃值估计的图像分析系统及图像分析方法 |
CN109084955A (zh) * | 2018-07-02 | 2018-12-25 | 北京百度网讯科技有限公司 | 显示屏质量检测方法、装置、电子设备及存储介质 |
CN109190631A (zh) * | 2018-08-31 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 图片的目标对象标注方法及装置 |
CN109087708B (zh) * | 2018-09-20 | 2021-08-31 | 深圳先进技术研究院 | 用于斑块分割的模型训练方法、装置、设备及存储介质 |
JP6695947B2 (ja) * | 2018-09-21 | 2020-05-20 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像システム、画像処理方法及びプログラム |
CN109241951A (zh) * | 2018-10-26 | 2019-01-18 | 北京陌上花科技有限公司 | 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质 |
CN109583328B (zh) * | 2018-11-13 | 2021-09-03 | 东南大学 | 一种嵌入稀疏连接的深度卷积神经网络字符识别方法 |
CN109859209B (zh) * | 2019-01-08 | 2023-10-17 | 平安科技(深圳)有限公司 | 遥感影像分割方法、装置及存储介质、服务器 |
CN109886272B (zh) * | 2019-02-25 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
CN111626313B (zh) * | 2019-02-28 | 2023-06-02 | 银河水滴科技(北京)有限公司 | 一种特征提取模型训练方法、图像处理方法及装置 |
CN111767760A (zh) * | 2019-04-01 | 2020-10-13 | 北京市商汤科技开发有限公司 | 活体检测方法和装置、电子设备及存储介质 |
CN111553362B (zh) * | 2019-04-01 | 2023-05-05 | 上海卫莎网络科技有限公司 | 一种视频处理方法、电子设备和计算机可读存储介质 |
CN111833291B (zh) * | 2019-04-22 | 2023-11-03 | 上海汽车集团股份有限公司 | 一种语义分割训练集人工标注评价方法及装置 |
US11580673B1 (en) * | 2019-06-04 | 2023-02-14 | Duke University | Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis |
US11023783B2 (en) * | 2019-09-11 | 2021-06-01 | International Business Machines Corporation | Network architecture search with global optimization |
US10943353B1 (en) | 2019-09-11 | 2021-03-09 | International Business Machines Corporation | Handling untrainable conditions in a network architecture search |
CN111783779B (zh) * | 2019-09-17 | 2023-12-05 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置和计算机可读存储介质 |
US20210089924A1 (en) * | 2019-09-24 | 2021-03-25 | Nec Laboratories America, Inc | Learning weighted-average neighbor embeddings |
CN110781895B (zh) * | 2019-10-10 | 2023-06-20 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN111062252B (zh) * | 2019-11-15 | 2023-11-10 | 浙江大华技术股份有限公司 | 一种实时危险物品语义分割方法、装置及存储装置 |
KR20210061839A (ko) * | 2019-11-20 | 2021-05-28 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
KR102198480B1 (ko) * | 2020-02-28 | 2021-01-05 | 연세대학교 산학협력단 | 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법 |
CN113496277A (zh) | 2020-04-03 | 2021-10-12 | 三星电子株式会社 | 用于检索图像的神经网络装置及其操作方法 |
CN111401474B (zh) * | 2020-04-13 | 2023-09-08 | Oppo广东移动通信有限公司 | 视频分类模型的训练方法、装置、设备及存储介质 |
CN111489366B (zh) * | 2020-04-15 | 2024-06-11 | 上海商汤临港智能科技有限公司 | 神经网络的训练、图像语义分割方法及装置 |
CN111612802B (zh) * | 2020-04-29 | 2023-06-20 | 杭州电子科技大学 | 一种基于现有图像语义分割模型的再优化训练方法及应用 |
CN111652285A (zh) * | 2020-05-09 | 2020-09-11 | 济南浪潮高新科技投资发展有限公司 | 一种茶饼类别识别方法、设备及介质 |
CN111611420B (zh) * | 2020-05-26 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 用于生成图像描述信息的方法和装置 |
CN111724441A (zh) * | 2020-05-28 | 2020-09-29 | 上海商汤智能科技有限公司 | 图像标注方法及装置、电子设备及存储介质 |
CN111710009B (zh) * | 2020-05-29 | 2023-06-23 | 北京百度网讯科技有限公司 | 人流密度的生成方法、装置、电子设备以及存储介质 |
CN111814805B (zh) * | 2020-06-18 | 2023-07-11 | 浙江大华技术股份有限公司 | 特征提取网络训练方法以及相关方法和装置 |
CN111667483B (zh) * | 2020-07-03 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 多模态图像的分割模型的训练方法、图像处理方法和装置 |
CN111898696B (zh) * | 2020-08-10 | 2023-10-27 | 腾讯云计算(长沙)有限责任公司 | 伪标签及标签预测模型的生成方法、装置、介质及设备 |
CN111931782B (zh) * | 2020-08-12 | 2024-03-01 | 中国科学院上海微系统与信息技术研究所 | 语义分割方法、系统、介质及装置 |
CN112016599B (zh) * | 2020-08-13 | 2023-09-15 | 驭势科技(浙江)有限公司 | 用于图像检索的神经网络训练方法、装置及电子设备 |
CN112085739B (zh) * | 2020-08-20 | 2024-05-24 | 深圳力维智联技术有限公司 | 基于弱监督的语义分割模型的训练方法、装置及设备 |
US11694301B2 (en) | 2020-09-30 | 2023-07-04 | Alibaba Group Holding Limited | Learning model architecture for image data semantic segmentation |
US20220147761A1 (en) * | 2020-11-10 | 2022-05-12 | Nec Laboratories America, Inc. | Video domain adaptation via contrastive learning |
CN112613515B (zh) * | 2020-11-23 | 2024-09-20 | 上海眼控科技股份有限公司 | 语义分割方法、装置、计算机设备和存储介质 |
CN112668509B (zh) * | 2020-12-31 | 2024-04-02 | 深圳云天励飞技术股份有限公司 | 社交关系识别模型的训练方法、识别方法及相关设备 |
CN113781383B (zh) * | 2021-01-06 | 2024-06-21 | 北京沃东天骏信息技术有限公司 | 处理图像的方法、装置、设备和计算机可读介质 |
CN112861911B (zh) * | 2021-01-10 | 2024-05-28 | 西北工业大学 | 一种基于深度特征选择融合的rgb-d语义分割方法 |
CN112862792B (zh) * | 2021-02-21 | 2024-04-05 | 北京工业大学 | 一种用于小样本图像数据集的小麦白粉病孢子分割方法 |
CN112686898B (zh) * | 2021-03-15 | 2021-08-13 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN113011430B (zh) * | 2021-03-23 | 2023-01-20 | 中国科学院自动化研究所 | 大规模点云语义分割方法及系统 |
CN113159057B (zh) * | 2021-04-01 | 2022-09-02 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113283434B (zh) * | 2021-04-13 | 2024-06-21 | 北京工业大学 | 一种基于分割网络优化的图像语义分割方法及系统 |
CN113177926B (zh) * | 2021-05-11 | 2023-11-14 | 泰康保险集团股份有限公司 | 一种图像检测方法和装置 |
KR102638075B1 (ko) * | 2021-05-14 | 2024-02-19 | (주)로보티즈 | 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템 |
CN113450311B (zh) * | 2021-06-01 | 2023-01-13 | 国网河南省电力公司漯河供电公司 | 基于语义分割和空间关系的带销螺丝缺陷检测方法及系统 |
US20230004760A1 (en) * | 2021-06-28 | 2023-01-05 | Nvidia Corporation | Training object detection systems with generated images |
CN113627568B (zh) * | 2021-08-27 | 2024-07-02 | 广州文远知行科技有限公司 | 一种补标方法、装置、设备及可读存储介质 |
CN113806573A (zh) * | 2021-09-15 | 2021-12-17 | 上海商汤科技开发有限公司 | 标注方法、装置、电子设备、服务器及存储介质 |
CN113792742A (zh) * | 2021-09-17 | 2021-12-14 | 北京百度网讯科技有限公司 | 遥感图像的语义分割方法和语义分割模型的训练方法 |
CN113837192B (zh) * | 2021-09-22 | 2024-04-19 | 推想医疗科技股份有限公司 | 图像分割方法及装置,神经网络的训练方法及装置 |
WO2023063950A1 (en) * | 2021-10-14 | 2023-04-20 | Hewlett-Packard Development Company, L.P. | Training models for object detection |
CN113642262B (zh) * | 2021-10-15 | 2021-12-21 | 南通宝田包装科技有限公司 | 基于人工智能的牙膏包装外观辅助设计方法 |
CN113642566B (zh) * | 2021-10-15 | 2021-12-21 | 南通宝田包装科技有限公司 | 基于人工智能和大数据的药品包装设计方法 |
US11941884B2 (en) * | 2021-11-12 | 2024-03-26 | Adobe Inc. | Multi-source panoptic feature pyramid network |
CN113936141B (zh) * | 2021-12-17 | 2022-02-22 | 深圳佑驾创新科技有限公司 | 图像语义分割方法及计算机可读存储介质 |
CN114372537B (zh) * | 2022-01-17 | 2022-10-21 | 浙江大学 | 一种面向图像描述系统的通用对抗补丁生成方法及系统 |
US20230260249A1 (en) * | 2022-02-16 | 2023-08-17 | Donde Fashion, Inc. | Systems and methods for training and using a machine learning model for matching objects |
CN114693934B (zh) * | 2022-04-13 | 2023-09-01 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、视频语义分割方法及装置 |
CN114663662B (zh) * | 2022-05-23 | 2022-09-09 | 深圳思谋信息科技有限公司 | 超参数搜索方法、装置、计算机设备和存储介质 |
CN115086503B (zh) * | 2022-05-25 | 2023-09-22 | 清华大学深圳国际研究生院 | 信息隐藏方法、装置、设备及存储介质 |
CN114677567B (zh) * | 2022-05-27 | 2022-10-14 | 成都数联云算科技有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN117274579A (zh) * | 2022-06-15 | 2023-12-22 | 北京三星通信技术研究有限公司 | 图像处理方法及相关设备 |
US20240013399A1 (en) * | 2022-07-05 | 2024-01-11 | Alibaba (China) Co., Ltd. | Pyramid architecture for multi-scale processing in point cloud segmentation |
CN116883673B (zh) * | 2023-09-08 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
CN118397282B (zh) * | 2024-06-27 | 2024-08-30 | 中国民用航空飞行学院 | 基于语义sam大模型的三维点云鲁棒性部件分割方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017163759A1 (en) * | 2016-03-25 | 2017-09-28 | Mitsubishi Electric Corporation | System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium |
JP2018097807A (ja) * | 2016-12-16 | 2018-06-21 | 株式会社デンソーアイティーラボラトリ | 学習装置 |
WO2019019019A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳前海达闼云端智能科技有限公司 | 训练数据生成方法、生成装置及其图像语义分割方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9317908B2 (en) * | 2012-06-29 | 2016-04-19 | Behavioral Recognition System, Inc. | Automatic gain control filter in a video analysis system |
US9558268B2 (en) * | 2014-08-20 | 2017-01-31 | Mitsubishi Electric Research Laboratories, Inc. | Method for semantically labeling an image of a scene using recursive context propagation |
EP3796235B1 (en) * | 2014-12-17 | 2024-09-04 | Google LLC | Generating numeric embeddings of images |
EP3380859A4 (en) * | 2015-11-29 | 2019-07-31 | Arterys Inc. | AUTOMATED SEGMENTATION OF CARDIAC VOLUME |
CN105787482A (zh) * | 2016-02-26 | 2016-07-20 | 华北电力大学 | 一种基于深度卷积神经网络的特定目标轮廓图像分割方法 |
CN106022221B (zh) * | 2016-05-09 | 2021-11-30 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及处理系统 |
CN108229479B (zh) * | 2017-08-01 | 2019-12-31 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
-
2017
- 2017-08-01 CN CN201710648545.7A patent/CN108229479B/zh active Active
-
2018
- 2018-07-27 JP JP2019571272A patent/JP6807471B2/ja active Active
- 2018-07-27 WO PCT/CN2018/097549 patent/WO2019024808A1/zh active Application Filing
- 2018-07-27 KR KR1020197038767A patent/KR102358554B1/ko active IP Right Grant
- 2018-07-27 SG SG11201913365WA patent/SG11201913365WA/en unknown
-
2019
- 2019-12-25 US US16/726,880 patent/US11301719B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017163759A1 (en) * | 2016-03-25 | 2017-09-28 | Mitsubishi Electric Corporation | System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium |
JP2018097807A (ja) * | 2016-12-16 | 2018-06-21 | 株式会社デンソーアイティーラボラトリ | 学習装置 |
WO2019019019A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳前海达闼云端智能科技有限公司 | 训练数据生成方法、生成装置及其图像语义分割方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022089166A (ja) * | 2020-12-03 | 2022-06-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データペア生成方法、装置、電子デバイス及び記憶媒体 |
JP7266658B2 (ja) | 2020-12-03 | 2023-04-28 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データペア生成方法、装置、電子デバイス及び記憶媒体 |
US11748340B2 (en) | 2020-12-03 | 2023-09-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Data pair generating method, apparatus, electronic device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
US11301719B2 (en) | 2022-04-12 |
US20200134375A1 (en) | 2020-04-30 |
JP6807471B2 (ja) | 2021-01-06 |
SG11201913365WA (en) | 2020-01-30 |
CN108229479B (zh) | 2019-12-31 |
WO2019024808A1 (zh) | 2019-02-07 |
KR20200015611A (ko) | 2020-02-12 |
KR102358554B1 (ko) | 2022-02-04 |
CN108229479A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020524861A (ja) | セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体 | |
US11361531B2 (en) | Domain separation neural networks | |
US11170210B2 (en) | Gesture identification, control, and neural network training methods and apparatuses, and electronic devices | |
TWI721510B (zh) | 雙目圖像的深度估計方法、設備及儲存介質 | |
CN110168560B (zh) | 用于场景理解和生成的方法、系统和介质 | |
EP3933693B1 (en) | Object recognition method and device | |
US12100192B2 (en) | Method, apparatus, and electronic device for training place recognition model | |
WO2020006961A1 (zh) | 用于提取图像的方法和装置 | |
WO2018033156A1 (zh) | 视频图像的处理方法、装置和电子设备 | |
CN108280451B (zh) | 语义分割及网络训练方法和装置、设备、介质 | |
CN108154222B (zh) | 深度神经网络训练方法和系统、电子设备 | |
US20230134967A1 (en) | Method for recognizing activities using separate spatial and temporal attention weights | |
CN112348828B (zh) | 基于神经网络的实例分割方法和装置以及存储介质 | |
CN107507153B (zh) | 图像去噪方法和装置 | |
US10445910B2 (en) | Generating apparatus, generating method, and non-transitory computer readable storage medium | |
WO2018109505A1 (en) | Transforming source domain images into target domain images | |
CN108229287B (zh) | 图像识别方法和装置、电子设备和计算机存储介质 | |
CN112164002B (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
JP6932254B2 (ja) | キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体 | |
EP4290448A1 (en) | Image generation model training method, generation method, apparatus, and device | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
US20240320807A1 (en) | Image processing method and apparatus, device, and storage medium | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN108229650B (zh) | 卷积处理方法、装置及电子设备 | |
CN118076984A (zh) | 用于视线估计的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6807471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |