JP2020524858A - セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体 - Google Patents
セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2020524858A JP2020524858A JP2019570957A JP2019570957A JP2020524858A JP 2020524858 A JP2020524858 A JP 2020524858A JP 2019570957 A JP2019570957 A JP 2019570957A JP 2019570957 A JP2019570957 A JP 2019570957A JP 2020524858 A JP2020524858 A JP 2020524858A
- Authority
- JP
- Japan
- Prior art keywords
- bounding box
- parameter
- mask
- type object
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Neurology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Image Analysis (AREA)
Abstract
Description
訓練サンプル集合を構築する。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
本発明が提供したセマンティックセグメンテーションモデルの訓練装置は、
第1構築手段と、
訓練手段と、
第2構築手段と、を含む。
訓練手段は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものである。
前記メモリにコンピュータ可読命令即ちコンピュータープログラムが記憶されている。
前記プロセッサは、前記コンピュータ可読命令を実行する際に上記の方法のステップを実現する。
本発明は、さらにコンピュータ不揮発性可読記憶媒体を提供する。それにコンピュータ可読命令が記憶されている。
前記コンピュータ可読命令は、前記プロセッサに実行される際に上記の方法のステップを実現する。
ステップS1は、訓練サンプル集合を構築することである。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
要約すると、本実施例に構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記だけで、全部種類の物体にセグメンテーションマスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
ステップS3は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築することである。
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップS4を含む。
a、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測する。
本ステップaにおいて、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第1種類物体及び第2種類物体の境界ボックスを直接に予測することができる。
本ステップbにおいて、上記のステップaに予測した第1種類物体の境界ボックス、第2種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータを予測することができる。
上述ステップbに分割対象の画像における第1種類物体及び第2種類物体のマスクパラメータを取得した後、本ステップcに分割対象の画像中の第1種類物体及び第2種類物体に対応したセグメンテーションマスクを取得し、その後にセグメンテーションマスクにより分割対象の画像に対して画像セマンティックセグメンテーションを行う。
その中、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。
第1構築部10は、訓練サンプル集合を構築するためのものである。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
境界ボックスの標記は、ボックスで対象物体を注釈することである。セグメンテーションマスクの標記(マスク注釈)は、1つの物体に対してその輪郭を標記することである。相対的に言えば、境界ボックスの注釈を標記し易いため、コストが低い一方、マスクの注釈を標記しにくいため、標記コストが高い。
第2構築部30は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものである。
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するための分割部40と、を含む。
第1予測モジュール401は、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測するためのものである。
第1予測モジュール401は、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第1種類物体及び第2種類物体の境界ボックスを直接に予測することができる。
第2予測モジュール402は、上記の第1予測モジュール401が予測した第1種類物体の境界ボックス、第2種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータを予測することができる。
分割モジュール403は、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うためのものである。
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。
一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、異なるRGB色で異なる種類の物体を標記し、ハイライト表示を行い、かつ隣接した物体間に差異性が大きいRGB色を充填する。または物体輪郭及び背景に基づき、該物体の種類を識別し、かつデータベースから対応した(近い/類似する)写真を使用して分割した該物体を充填する。
訓練サンプル集合を構築する。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測することと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うことと、を含む。
一実施例において、上記の重み伝達関数は、以下の式に表れており
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。
当業者であれば、図6に示されている構造が、本発明の申請方案に関連する一部のブッロク図に過ぎず、本発明の申請方案に応用したコンピュータデバイスを制限するものではないという点を理解できることである。
それにコンピュータ可読命令が記憶されている。
コンピュータ可読命令は、プロセッサによって実行される際にセマンティックセグメンテーションモデルの訓練方法を実現する。
訓練サンプル集合を構築し、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測することと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うことと、を含む。
一実施例において、上記の重み伝達関数は、以下の式に表れており
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。
要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス及び記憶媒体において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。
20 訓練部
30 第2構築部
40 分割部
401 第1予測モジュール
402 第2予測モジュール
403 分割モジュール
Claims (15)
- セマンティックセグメンテーションモデルの訓練方法は、以下のステップを含み、
訓練サンプル集合を構築し、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練し、
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築することを特徴とするセマンティックセグメンテーションモデルの訓練方法。 - 前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力することを含むことを特徴とする請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。 - 分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するという前記ステップは、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測することと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うことと、を含むことを特徴とする請求項2に記載のセマンティックセグメンテーションモデルの訓練方法。 - 前記ディープネットワークモデルは、
Mask−RCNN型ネットワークモデルであることを特徴とする請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。 - 前記重み伝達関数は、二層の全接続ニューラルネットワークであり、
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256であり、
それが使用した活性化関数は、LeakyReLUであることを特徴とする請求項5に記載のセマンティックセグメンテーションモデルの訓練方法。 - 前記第2種類物体の数は、前記第1種類物体の数より多いことを特徴とする請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。
- 第1構築手段と、
訓練手段と、
第2構築手段と、を含み、
前記第1構築手段は、訓練サンプル集合を構築するためのものであり、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されており、
前記訓練手段は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものであり、
前記第2構築手段は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものであることを特徴とするセマンティックセグメンテーションモデルの訓練装置。 - さらに、分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するための分割手段と、を含むことを特徴とする請求項8に記載のセマンティックセグメンテーションモデルの訓練装置。
- 前記分割手段は、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測するための第1予測モジュールと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することための第2予測モジュールと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うための分割モジュールと、を含むことを特徴とする請求項9に記載のセマンティックセグメンテーションモデルの訓練装置。 - 前記ディープネットワークモデルは、
Mask−RCNN型ネットワークモデルであることを特徴とする請求項8に記載のセマンティックセグメンテーションモデルの訓練装置。 - 訓練サンプル集合を構築するための構築手段と、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するための訓練手段と、
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するための構築手段とを含む、ことを特徴とするコンピュータデバイス。 - 訓練サンプル集合を構築する機能と、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する機能と、
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する機能と、をコンピュータによって実行させるプログラム。 - 訓練サンプル集合を構築する機能と、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されており、
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する機能と、
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する機能と、をコンピュータによって実行させるプログラムを格納する読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810362207.1 | 2018-04-20 | ||
CN201810362207.1A CN108830277B (zh) | 2018-04-20 | 2018-04-20 | 语义分割模型的训练方法、装置、计算机设备和存储介质 |
PCT/CN2018/095673 WO2019200758A1 (zh) | 2018-04-20 | 2018-07-13 | 语义分割模型的训练方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020524858A true JP2020524858A (ja) | 2020-08-20 |
JP7107976B2 JP7107976B2 (ja) | 2022-07-27 |
Family
ID=64154509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019570957A Active JP7107976B2 (ja) | 2018-04-20 | 2018-07-13 | セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11398034B2 (ja) |
JP (1) | JP7107976B2 (ja) |
CN (1) | CN108830277B (ja) |
SG (1) | SG11202002078UA (ja) |
WO (1) | WO2019200758A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223102B (zh) * | 2018-11-23 | 2024-03-01 | 银河水滴科技(北京)有限公司 | 一种图像分割模型训练方法、图像分割方法及装置 |
CN113168713A (zh) * | 2018-12-14 | 2021-07-23 | 富士胶片株式会社 | 小批量学习装置及其工作程序、工作方法及图像处理装置 |
CN109978893B (zh) * | 2019-03-26 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 图像语义分割网络的训练方法、装置、设备及存储介质 |
CN110070034A (zh) * | 2019-04-19 | 2019-07-30 | 北京朗镜科技有限责任公司 | 模型训练方法、节识别方法、装置、设备及介质 |
CN112184802B (zh) * | 2019-07-05 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 标定框的调整方法、装置及存储介质 |
CN111080612B (zh) * | 2019-12-12 | 2021-01-01 | 哈尔滨市科佳通用机电股份有限公司 | 一种货车轴承破损检测方法 |
CN111292329B (zh) * | 2020-01-15 | 2023-06-06 | 北京字节跳动网络技术有限公司 | 视频分割网络的训练方法、装置及电子设备 |
CN111370002B (zh) * | 2020-02-14 | 2022-08-19 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN111402278B (zh) * | 2020-02-21 | 2023-10-27 | 华为云计算技术有限公司 | 分割模型训练方法、图像标注方法及相关装置 |
CN111340813B (zh) * | 2020-02-25 | 2023-09-01 | 北京字节跳动网络技术有限公司 | 图像实例分割方法、装置、电子设备及存储介质 |
CN111415330A (zh) * | 2020-02-27 | 2020-07-14 | 苏州杰锐思智能科技股份有限公司 | 基于深度学习的铜箔外观缺陷检测方法 |
CN113362351A (zh) * | 2020-03-05 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN111047609B (zh) * | 2020-03-13 | 2020-07-24 | 北京深睿博联科技有限责任公司 | 肺炎病灶分割方法和装置 |
CN111488854A (zh) * | 2020-04-23 | 2020-08-04 | 福建农林大学 | 一种道路交通标志自动识别与分类方法 |
US20230186478A1 (en) * | 2020-06-05 | 2023-06-15 | Nippon Telegraph And Telephone Corporation | Segment recognition method, segment recognition device and program |
CN112102300A (zh) * | 2020-09-18 | 2020-12-18 | 青岛商汤科技有限公司 | 计数方法及装置、电子设备和存储介质 |
CN112784701B (zh) * | 2021-01-04 | 2023-11-24 | 北京小米松果电子有限公司 | 一种视频语义分割方法、装置及存储介质 |
CN112926399A (zh) * | 2021-01-28 | 2021-06-08 | 上海商汤智能科技有限公司 | 目标对象检测方法、装置、电子设备和存储介质 |
CN113239836A (zh) * | 2021-05-20 | 2021-08-10 | 广州广电运通金融电子股份有限公司 | 一种车辆车身颜色识别方法、存储介质和终端 |
CN113409255A (zh) * | 2021-06-07 | 2021-09-17 | 同济大学 | 一种基于Mask R-CNN的斑马鱼形态学分类方法 |
CN113673529A (zh) * | 2021-08-16 | 2021-11-19 | 连城凯克斯科技有限公司 | 语义分割模型训练方法、硅熔融状态检测方法及电子设备 |
CN113947771B (zh) * | 2021-10-15 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备、存储介质以及程序产品 |
WO2023224436A1 (en) * | 2022-05-20 | 2023-11-23 | Samsung Electronics Co., Ltd. | Systems and methods for encoding temporal information for video instance segmentation and object detection |
CN115527180B (zh) * | 2022-11-03 | 2023-05-23 | 北京贝能达信息技术股份有限公司 | 一种基于图像识别技术的车厢拥挤度识别系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147905A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Systems and methods for end-to-end object detection |
CN107273870A (zh) * | 2017-07-07 | 2017-10-20 | 郑州航空工业管理学院 | 一种监控场景下融合上下文信息的行人位置检测方法 |
CN107609525A (zh) * | 2017-09-19 | 2018-01-19 | 吉林大学 | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 |
US9881207B1 (en) * | 2016-10-25 | 2018-01-30 | Personify, Inc. | Methods and systems for real-time user extraction using deep learning networks |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410096B2 (en) * | 2015-07-09 | 2019-09-10 | Qualcomm Incorporated | Context-based priors for object detection in images |
US9858525B2 (en) * | 2015-10-14 | 2018-01-02 | Microsoft Technology Licensing, Llc | System for training networks for semantic segmentation |
CN106780512B (zh) * | 2016-11-30 | 2020-01-17 | 厦门美图之家科技有限公司 | 分割图像的方法、应用及计算设备 |
CN107403183A (zh) * | 2017-07-21 | 2017-11-28 | 桂林电子科技大学 | 整合目标检测和图像分割为一体的智能分割方法 |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US10157331B1 (en) * | 2018-03-08 | 2018-12-18 | Capital One Services, Llc | Systems and methods for image preprocessing to improve accuracy of object recognition |
US10311335B1 (en) * | 2018-09-05 | 2019-06-04 | StradVision, Inc. | Method and device for generating image data set to be used for learning CNN capable of detecting obstruction in autonomous driving circumstance, and testing method, and testing device using the same |
-
2018
- 2018-04-20 CN CN201810362207.1A patent/CN108830277B/zh active Active
- 2018-07-13 SG SG11202002078UA patent/SG11202002078UA/en unknown
- 2018-07-13 US US16/759,383 patent/US11398034B2/en active Active
- 2018-07-13 JP JP2019570957A patent/JP7107976B2/ja active Active
- 2018-07-13 WO PCT/CN2018/095673 patent/WO2019200758A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147905A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Systems and methods for end-to-end object detection |
US9881207B1 (en) * | 2016-10-25 | 2018-01-30 | Personify, Inc. | Methods and systems for real-time user extraction using deep learning networks |
CN107273870A (zh) * | 2017-07-07 | 2017-10-20 | 郑州航空工业管理学院 | 一种监控场景下融合上下文信息的行人位置检测方法 |
CN107609525A (zh) * | 2017-09-19 | 2018-01-19 | 吉林大学 | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108830277B (zh) | 2020-04-21 |
JP7107976B2 (ja) | 2022-07-27 |
US11398034B2 (en) | 2022-07-26 |
WO2019200758A1 (zh) | 2019-10-24 |
SG11202002078UA (en) | 2020-04-29 |
CN108830277A (zh) | 2018-11-16 |
US20200294240A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020524858A (ja) | セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
Goyal et al. | Towards transparent ai systems: Interpreting visual question answering models | |
US11069345B2 (en) | Speech recognition using convolutional neural networks | |
CN106156003B (zh) | 一种问答系统中的问句理解方法 | |
Binder et al. | Layer-wise relevance propagation for neural networks with local renormalization layers | |
US11328180B2 (en) | Method for updating neural network and electronic device | |
Raghavan et al. | Cognitive computing: Theory and applications | |
EP3701429A1 (en) | Auto-regressive neural network systems with a soft attention mechanism using support data patches | |
CN111191791A (zh) | 机器学习模型的应用方法、训练方法、装置、设备及介质 | |
JP2022006174A (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
Ni et al. | Semantic representation for visual reasoning | |
CN107636691A (zh) | 用于识别图像中的文本的方法和设备 | |
CN109977428A (zh) | 一种答案获取的方法及装置 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN109597998B (zh) | 一种视觉特征和语义表征联合嵌入的图像特征构建方法 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
US20220343120A1 (en) | Image processing method, computer system, electronic device, and program product | |
US20230401830A1 (en) | Model training method and related device | |
CN106022294A (zh) | 一种面向智能机器人的人机交互方法及装置 | |
CN111444313B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
Manna et al. | Bird image classification using convolutional neural network transfer learning architectures | |
CN114169408A (zh) | 一种基于多模态注意力机制的情感分类方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7107976 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |