JP2022515620A - 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム - Google Patents
人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022515620A JP2022515620A JP2021537734A JP2021537734A JP2022515620A JP 2022515620 A JP2022515620 A JP 2022515620A JP 2021537734 A JP2021537734 A JP 2021537734A JP 2021537734 A JP2021537734 A JP 2021537734A JP 2022515620 A JP2022515620 A JP 2022515620A
- Authority
- JP
- Japan
- Prior art keywords
- image
- region
- division
- heat map
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000012545 processing Methods 0.000 title claims description 57
- 238000004590 computer program Methods 0.000 title claims description 10
- 238000013473 artificial intelligence Methods 0.000 title abstract description 5
- 238000003709 image segmentation Methods 0.000 claims abstract description 275
- 239000011159 matrix material Substances 0.000 claims description 136
- 230000006870 function Effects 0.000 claims description 58
- 230000011218 segmentation Effects 0.000 claims description 49
- 238000010586 diagram Methods 0.000 claims description 48
- 230000004044 response Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 206010024796 Logorrhoea Diseases 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/149—Segmentation; Edge detection involving deformable models, e.g. active contour models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20101—Interactive definition of point of interest, landmark or seed
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は、2019年06月20日にて中国特許庁に提出され、出願番号が201910537529.Xであり、出願の名称が「画像領域の分割方法、モデルのトレーニング方法及び装置」である中国特許出願の優先権を主張して、その全ての内容は本出願に援用される。
本出願は、人工知能分野に関し、特に、画像領域の分割及び認識に関する。
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、を含む。
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルにより前記トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を含む。
複数の極値点を含む分割対象画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記分割対象画像に基づき、第1画像特徴情報を生成する生成モジュールであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップが前記複数の極値点に基づき生成され、前記Nが1以上の整数である、前記生成モジュールと、を含み、
前記取得モジュールは、
第1画像分割モデルにより前記生成モジュールから生成された前記第1画像特徴情報に対応する第1画像分割領域を取得し、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有し、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得し、
第2画像分割モデルにより前記分割対象画像に対応する第2画像分割領域を取得し、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有する、
よう構成され、
前記生成モジュールは、前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成する。
取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
前記取得モジュールは、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
前記取得モジュールは、前記トレーニング対象画像、前記第1予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
前記決定モジュールは、前記取得モジュールにより取得された前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する。
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップが前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して前記メモリと前記プロセッサーとを通信させる。
前記メモリはプログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、待トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる。
本出願の実施例において、画像領域の認識方法を提供し、まず複数の極値点を含む分割対象画像を取得し、分割対象画像に基づき、第1画像特徴情報を生成し、第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得し、最後に、第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得する。上記の方式で、画像の分割過程を2つの段階に分けて、第2段階の分割補助により、第1段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を得て、画像の分割結果を修正するのに大量の時間を要する必要がなく、画像分割のパフォーマンスを向上させ、第2画像分割領域に基づき、分割対象画像の画像認識結果を生成し、画像認識の精度を向上させる。
101:複数の極値点を含む分割対象画像を取得する。
処理対象画像に対する物体アノテーション命令を受信するステップであって、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別する、ステップ
を含む。
第1アノテーション命令を受信するステップであって、第1アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の内部に位置し、Mは1以上の整数であるステップと、
第1アノテーション命令に応答し、第1アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成するステップと、を含む。
第2アノテーション命令を受信するステップであって、第2アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の外部に位置して、Mは1以上の整数であるステップと、
第2アノテーション命令に応答し、第2アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成するステップと、を含む。
分割対象画像における複数の極値点に基づき、第1ヒートマップを生成するステップと、
分割対象画像に基づきN個の画像行列を生成するステップであって、前記N個の画像行列は前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含むステップと、
第1ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第1画像特徴情報を生成するステップと、を含む。
(1)離散点に対して1つの半径を設定し、1つのバッファを確立する
(2)各離散点のバッファに対して、漸進するグレースケールバンドを利用して、内部から外部へ、浅から深まで充填する
(3)グレースケール値を重ね合わせることができるため、バッファが交差する領域に対して、グレースケール値を重ね合わせてもよく、バッファが交差するほど、グレースケール値が大きくなり、当該ブロック領域も熱くなる
(4)重ね合わせたグレースケール値をインデックスとして、256種の色を有する1本のカラーバンドから色をマッピングし、画像を改めて着色し、ヒートマップを生成する。
前記分割対象画像に基づき、N個の画像行列を生成し、前記N個の画像行列は前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含む。
第1画像分割領域、第2ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第2画像特徴情報を生成するステップであって、第2画像特徴情報は第2画像分割領域を取得した場合の第2画像分割モデルの入力情報であるステップを含む。
第2画像分割モデルの符号器により、第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得するステップであって、符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第2画像特徴情報の特徴マップを抽出し、middle flowモジュールは繰り返してT回実行し、Tは8より大きい整数であるステップと、
第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第2画像分割領域を取得するステップと、を含む。
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得するステップと、
第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成するステップと、を含む。
201:少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得する。
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域における正のサンプルの数を示し、Neg_numは実分割領域における負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域における正のサンプルの数を示し、Neg_numは実分割領域における負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。正のサンプルは実分割領域の正点(即ち、前景の点)であり、負のサンプルは実分割領域の負点(即ち、背景の点)である。
実分割領域及び第1予測分割領域に基づき、差異図を決定するステップであって、差異図は、実分割領域と第1予測分割領域との不一致の領域を示すステップと、
差異図に基づき、第1候補領域及び第2候補領域を決定するステップと、
第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択するステップと、
少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成するステップと、を含む。
複数の極値点を含む分割対象画像を取得する取得モジュール301と、
取得モジュール301により取得した分割対象画像に基づき、第1画像特徴情報を生成する生成モジュール302であって、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップは複数の極値点に基づき生成され、Nが1以上の整数である、生成モジュール302と、を含み、
取得モジュール301は、
第1画像分割モデルにより、生成モジュール302が生成した第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、N個の第1行列チャンネルとN個の画像行列とが一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとが対応関係を有し、
第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得し、
第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得し、第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、N個の第2行列チャンネルとN個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とが対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとが対応関係を有する、
よう構成される。
取得モジュール301は具体的に、
処理対象画像に対する物体アノテーション命令を受信し、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点はターゲットオブジェクトの輪郭エッジを識別し、
物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。
取得モジュール301は具体的に、
第1アノテーション命令を受信し、第1アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の内部に位置し、Mは1以上の整数であり、
第1アノテーション命令に応答し、第1アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成する。
取得モジュール301は具体的に、
第2アノテーション命令を受信し、第2アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の外部に位置し、Mは1以上の整数であり、
第2アノテーション命令に応答し、第2アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成する。
生成モジュール302は具体的に、
分割対象画像における複数の極値点に基づき、第1ヒートマップを生成し、
分割対象画像に基づき、N個の画像行列を生成し、N個の画像行列は赤チャンネルに対応する第1画像行列、緑チャンネルに対応する第2画像行列、及び青チャンネルに対応する第3画像行列を含み、
第1ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第1画像特徴情報を生成する。
生成モジュール302はさらに、
分割対象画像に基づき、N個の画像行列を生成し、N個の画像行列は赤チャンネルに対応する第1画像行列、緑チャンネルに対応する第2画像行列、及び青チャンネルに対応する第3画像行列を含み、
第1画像分割領域、第2ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第2画像特徴情報を生成し、第2画像特徴情報は、第2画像分割領域を取得した場合、第2画像分割モデルの入力情報である。
取得モジュール301は具体的に、
第2画像分割モデルの符号器により第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得し、符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第2画像特徴情報の特徴マップを抽出し、middle flowモジュールは繰り返してT回実行し、Tは8より大きい整数であり、
第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得し、
第2画像分割モデルの復号器によりターゲット特徴マップを復号化し、第2画像分割領域を取得する。
取得モジュール301は具体的に、
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得し、
第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成する。
取得モジュール401は、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得するための取得モジュール401であって、第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
生成モジュール402は、トレーニング対象画像の実分割領域及び取得モジュール401により取得された第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するための生成モジュール402であって、トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
取得モジュール401は、トレーニング対象画像、第1予測分割領域、生成モジュール402により生成されたトレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
決定モジュール403は、取得モジュール401により取得された第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
トレーニングモジュール404は、決定モジュール403により決定されたモデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する。
ターゲット損失関数は、以下
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域の正のサンプルの数を示し、Neg_numは実分割領域の負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。
生成モジュール402は具体的に、
実分割領域及び第1予測分割領域に基づき、差異図を決定し、差異図は実分割領域と第1予測分割領域との不一致の領域を示し、
差異図に基づき、第1候補領域及び第2候補領域を決定し、
第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択し、
少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成する。
複数の極値点を含む分割対象画像を取得する機能と、
分割対象画像に基づき、第1画像特徴情報を生成する機能であって、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップが複数の極値点に基づき生成され、Nが1以上の整数である機能と、
第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得する機能であって、第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、N個の第1行列チャンネルとN個の画像行列とが一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとが対応関係を有する機能と、
第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得する機能と、
第2画像分割モデルにより分割対象画像に対応する第2画像分割領域を取得する機能であって、第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、N個の第2行列チャンネルとN個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とが対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとが対応関係を有する機能と、
第2画像分割領域に基づき、分割対象画像の画像認識結果を生成する機能と、を有する。
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得する機能と、
第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得する機能であって、第1画像分割モデルは予めトレーニングされた画像分割モデルである機能と、
トレーニング対象画像の実分割領域及び第1予測分割領域に基づき、トレーニング対象ヒートマップを生成する機能であって、トレーニング対象ヒートマップは少なくとも1つの差異点から生成される機能と、
トレーニング対象画像、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得する機能と、
第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定する機能と、
モデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する機能と、を有する。
Claims (17)
- 画像処理機器により実行される画像領域の認識方法であって、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが1対1対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を含む方法。 - 前記分割対象画像を取得する前記ステップは、
処理対象画像に対する物体アノテーション命令を受信するステップであって、前記処理対象画像はターゲットオブジェクトを含み、前記物体アノテーション命令は、前記ターゲットオブジェクトに対応する複数の極値点の位置情報を含み、前記複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別するためのものであるステップと、
前記物体アノテーション命令に応答し、前記処理対象画像に基づき、前記分割対象画像を生成するステップと、を含む請求項1に記載の方法。 - 前記複数の極値点の位置情報は、前記ターゲットオブジェクトの輪郭エッジの四囲をそれぞれ識別するための第1極値点位置情報、第2極値点位置情報、第3極値点位置情報及び第4極値点位置情報を含む請求項2に記載の方法。
- 前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得する前記ステップは、
第1アノテーション命令を受信するステップであって、前記第1アノテーション命令はM個のアノテーションポイントに対応し、前記アノテーションポイントは前記第1画像分割領域の内部に位置し、前記Mは1以上の整数であるステップと、
前記第1アノテーション命令に応答し、前記第1アノテーション命令に対応する前記M個のアノテーションポイントに基づき、前記第2ヒートマップを生成するステップと、を含み、
または、前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得する前記ステップは、
第2アノテーション命令を受信するステップであって、前記第2アノテーション命令はM個のアノテーションポイントに対応し、前記アノテーションポイントは前記第1画像分割領域の外部に位置し、前記Mは1以上の整数であるステップと、
前記第2アノテーション命令に応答し、前記第2アノテーション命令に対応する前記M個のアノテーションポイントに基づき、前記第2ヒートマップを生成するステップと、を含む請求項1に記載の方法。 - 前記N個の第1行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
前記分割対象画像に基づき、第1画像特徴情報を生成する前記ステップは、
前記分割対象画像における前記複数の極値点に基づき、前記第1ヒートマップを生成するステップと、
前記分割対象画像に基づき、N個の画像行列を生成するステップであって、前記N個の画像行列は、前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含むステップと、
前記第1ヒートマップ、前記第1画像行列、前記第2画像行列及び前記第3画像行列に基づき、前記第1画像特徴情報を生成するステップと、を含む請求項1に記載の方法。 - 前記N個の第2行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
前記N個の画像行列は、前記分割対象画像に基づき、N個の画像行列を生成することにより決定され、
前記N個の画像行列は、前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含み、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得した後、前記方法はさらに、
前記第1画像分割領域、前記第2ヒートマップ、前記第1画像行列、前記第2画像行列及び前記第3画像行列に基づき、第2画像特徴情報を生成するステップであって、前記第2画像特徴情報は、前記第2画像分割領域を取得した場合、前記第2画像分割モデルの入力情報であるステップを含む請求項1に記載の方法。 - 前記第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得する前記ステップは、
前記第2画像分割モデルの符号器により、前記第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得するステップであって、前記符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、前記拡張深さ方向の分離可能な畳み込みは前記第2画像特徴情報の特徴マップを抽出し、前記middle flowモジュールは繰り返してT回実行し、前記Tは8より大きい整数であるステップと、
前記第1特徴マップと前記第2特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第2画像分割領域を取得するステップと、を含む請求項6に記載の方法。 - 前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第2画像分割領域を取得するステップは、
前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得するステップと、
前記第1画素点セット及び前記第2画素点セットに基づき、前記第2画像分割領域を生成するステップと、を含む請求項7に記載の方法。 - 画像処理機器により実行されるモデルのトレーニング方法であって、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルにより、前記トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を含む方法。 - 前記ターゲット損失関数は、
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
によって表され、
前記Lossは前記ターゲット損失関数を示し、前記Pos_lossは前記第2予測分割領域の正のサンプル損失の和を示し、前記Neg_lossは前記第2予測分割領域の負のサンプル損失の和を示し、前記Pos_numは前記実分割領域の正のサンプルの数を示し、前記Neg_numは前記実分割領域の負のサンプルの数を示し、前記Total_numは前記正のサンプルの数と前記負のサンプルの数との和を示す請求項9に記載の方法。 - 前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成する前記ステップは、
前記実分割領域及び前記第1予測分割領域に基づき、差異図を決定するステップであって、前記差異図は前記実分割領域と前記第1予測分割領域との不一致の領域を示すステップと、
前記差異図に基づき、第1候補領域及び第2候補領域を決定するステップと、
前記第1候補領域及び前記第2候補領域に基づき、前記少なくとも1つの差異点を選択するステップと、
前記少なくとも1つの差異点に基づき、前記トレーニング対象ヒートマップを生成するステップと、を含む請求項9に記載の方法。 - 画像処理機器であって、
複数の極値点を含む分割対象画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記分割対象画像に基づき、第1画像特徴情報を生成する生成モジュールであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数である、前記生成モジュールと、を含み、
前記取得モジュールは、
第1画像分割モデルにより、前記生成モジュールにより生成された前記第1画像特徴情報に対応する第1画像分割領域を取得し、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有し、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得し、
第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得し、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有する、
よう構成され、
前記生成モジュールは、前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するよう構成される、画像処理機器。 - 画像処理機器であって、
取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
前記取得モジュールは、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
前記取得モジュールは、前記トレーニング対象画像、前記第1予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
前記決定モジュールは、前記取得モジュールにより取得された前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する、画像処理機器。 - メモリ、送受信機、プロセッサー及びバスシステムを含む端末機器であって、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、端末機器。 - メモリ、送受信機、プロセッサー及びバスシステムを含むサーバーであって、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を実行するよう構成され、
前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、サーバー。 - コンピュータプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体と、プロセッサーとを含むコンピュータ機器であって、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、請求項1~8の何れかの1項に記載の方法、または、請求項9~11の何れかの1項に記載の方法を実行するコンピュータ機器。 - 命令を含むコンピュータプログラムであって、コンピュータで実行される場合、前記コンピュータに、請求項1~8の何れかの1項に記載の方法、または、請求項9~11の何れかの1項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537529.XA CN110232696B (zh) | 2019-06-20 | 2019-06-20 | 一种图像区域分割的方法、模型训练的方法及装置 |
CN201910537529.X | 2019-06-20 | ||
PCT/CN2020/096237 WO2020253663A1 (zh) | 2019-06-20 | 2020-06-16 | 基于人工智能的图像区域识别方法、模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022515620A true JP2022515620A (ja) | 2022-02-21 |
JP7238139B2 JP7238139B2 (ja) | 2023-03-13 |
Family
ID=67856917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021537734A Active JP7238139B2 (ja) | 2019-06-20 | 2020-06-16 | 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11983881B2 (ja) |
EP (1) | EP3989166A4 (ja) |
JP (1) | JP7238139B2 (ja) |
CN (1) | CN110232696B (ja) |
WO (1) | WO2020253663A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232696B (zh) | 2019-06-20 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 一种图像区域分割的方法、模型训练的方法及装置 |
KR20210042696A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 모델 학습 방법 및 장치 |
CN110826449A (zh) * | 2019-10-30 | 2020-02-21 | 杭州叙简科技股份有限公司 | 基于轻量型卷积神经网络的非机动车再识别目标检索方法 |
CN110910405B (zh) * | 2019-11-20 | 2023-04-18 | 湖南师范大学 | 基于多尺度空洞卷积神经网络的脑肿瘤分割方法及系统 |
CN110889858A (zh) * | 2019-12-03 | 2020-03-17 | 中国太平洋保险(集团)股份有限公司 | 一种基于点回归的汽车部件分割方法及装置 |
CN111210439B (zh) * | 2019-12-26 | 2022-06-24 | 中国地质大学(武汉) | 通过抑制非感兴趣信息的语义分割方法、设备及存储设备 |
CN111259900A (zh) * | 2020-01-13 | 2020-06-09 | 河海大学 | 一种卫星遥感图像的语义分割方法 |
CN111325714B (zh) * | 2020-01-21 | 2024-03-26 | 上海联影智能医疗科技有限公司 | 感兴趣区域的处理方法、计算机设备和可读存储介质 |
CN113221897B (zh) * | 2020-02-06 | 2023-04-18 | 马上消费金融股份有限公司 | 图像矫正方法、图像文本识别方法、身份验证方法及装置 |
CN111445440B (zh) * | 2020-02-20 | 2023-10-31 | 上海联影智能医疗科技有限公司 | 一种医学图像分析方法、设备和存储介质 |
JP7446903B2 (ja) * | 2020-04-23 | 2024-03-11 | 株式会社日立製作所 | 画像処理装置、画像処理方法及び画像処理システム |
CN111582104B (zh) * | 2020-04-28 | 2021-08-06 | 中国科学院空天信息创新研究院 | 基于自注意特征聚合网络的遥感图像语义分割方法及装置 |
CN111598900B (zh) * | 2020-05-18 | 2022-08-09 | 腾讯医疗健康(深圳)有限公司 | 一种图像区域分割模型训练方法、分割方法和装置 |
US11823379B2 (en) * | 2020-08-05 | 2023-11-21 | Ping An Technology (Shenzhen) Co., Ltd. | User-guided domain adaptation for rapid annotation from user interactions for pathological organ segmentation |
CN112116612A (zh) * | 2020-09-15 | 2020-12-22 | 南京林业大学 | 基于Mask R-CNN的行道树图像实例分割方法 |
CN112258431B (zh) * | 2020-09-27 | 2021-07-20 | 成都东方天呈智能科技有限公司 | 基于混合深度可分离膨胀卷积的图像分类模型及其分类方法 |
CN112634282B (zh) * | 2020-12-18 | 2024-02-13 | 北京百度网讯科技有限公司 | 图像处理方法、装置以及电子设备 |
CN112529894B (zh) * | 2020-12-22 | 2022-02-15 | 徐州医科大学 | 一种基于深度学习网络的甲状腺结节的诊断方法 |
CN112633148B (zh) * | 2020-12-22 | 2022-08-09 | 杭州景联文科技有限公司 | 一种签名指印真假检测方法及系统 |
CN113538456B (zh) * | 2021-06-22 | 2022-03-18 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113608805B (zh) * | 2021-07-08 | 2024-04-12 | 阿里巴巴创新公司 | 掩膜预测方法、图像处理方法、显示方法及设备 |
CN113989251B (zh) * | 2021-11-02 | 2022-05-24 | 河南中平自动化股份有限公司 | 一种矿用煤矸分选智能控制系统及方法 |
CN113850249A (zh) * | 2021-12-01 | 2021-12-28 | 深圳市迪博企业风险管理技术有限公司 | 一种图表信息格式化提取方法 |
CN114187318B (zh) * | 2021-12-10 | 2023-05-05 | 北京百度网讯科技有限公司 | 图像分割的方法、装置、电子设备以及存储介质 |
CN114049569B (zh) * | 2022-01-13 | 2022-03-18 | 自然资源部第三地理信息制图院 | 一种深度学习模型性能评价方法及系统 |
CN116934769A (zh) * | 2022-03-29 | 2023-10-24 | 北京字跳网络技术有限公司 | 交互式分割模型训练方法、标注数据生成方法及设备 |
CN114918944A (zh) * | 2022-06-02 | 2022-08-19 | 哈尔滨理工大学 | 基于卷积神经网络融合的家庭服务机器人抓取检测方法 |
CN115272288B (zh) * | 2022-08-22 | 2023-06-02 | 杭州微引科技有限公司 | 一种医学图像标记点自动识别方法、电子设备及存储介质 |
CN115861739B (zh) * | 2023-02-08 | 2023-07-14 | 海纳云物联科技有限公司 | 图像分割模型的训练方法、装置、设备、存储介质及产品 |
CN116020122B (zh) * | 2023-03-24 | 2023-06-09 | 深圳游禧科技有限公司 | 游戏攻略推荐方法、装置、设备及存储介质 |
CN116071376B (zh) * | 2023-04-04 | 2023-06-20 | 江苏势通生物科技有限公司 | 图像分割方法及相关装置、设备和存储介质 |
CN116188995B (zh) * | 2023-04-13 | 2023-08-15 | 国家基础地理信息中心 | 一种遥感图像特征提取模型训练方法、检索方法及装置 |
CN116563615B (zh) * | 2023-04-21 | 2023-11-07 | 南京讯思雅信息科技有限公司 | 基于改进多尺度注意力机制的不良图片分类方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131075B2 (en) * | 2007-03-29 | 2012-03-06 | Siemens Aktiengesellschaft | Fast 4D segmentation of large datasets using graph cuts |
JP5959168B2 (ja) * | 2011-08-31 | 2016-08-02 | オリンパス株式会社 | 画像処理装置、画像処理装置の作動方法、及び画像処理プログラム |
US9740957B2 (en) * | 2014-08-29 | 2017-08-22 | Definiens Ag | Learning pixel visual context from object characteristics to generate rich semantic images |
US9805248B2 (en) * | 2014-08-29 | 2017-10-31 | Definiens Ag | Applying pixelwise descriptors to a target image that are generated by segmenting objects in other images |
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
CN111343917B (zh) * | 2017-08-31 | 2023-08-01 | 泽图公司 | 用于托管对高分辨率脑电图数据的移动访问的方法 |
CN107657619B (zh) * | 2017-10-13 | 2019-03-01 | 西安科技大学 | 一种低照度林火图像分割方法 |
CN110210487A (zh) * | 2019-05-30 | 2019-09-06 | 上海商汤智能科技有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
CN110276344B (zh) * | 2019-06-04 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种图像分割的方法、图像识别的方法以及相关装置 |
CN110232696B (zh) * | 2019-06-20 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 一种图像区域分割的方法、模型训练的方法及装置 |
-
2019
- 2019-06-20 CN CN201910537529.XA patent/CN110232696B/zh active Active
-
2020
- 2020-06-16 JP JP2021537734A patent/JP7238139B2/ja active Active
- 2020-06-16 EP EP20827039.7A patent/EP3989166A4/en active Pending
- 2020-06-16 WO PCT/CN2020/096237 patent/WO2020253663A1/zh active Application Filing
-
2021
- 2021-08-05 US US17/395,329 patent/US11983881B2/en active Active
Non-Patent Citations (5)
Title |
---|
BENENSON, R. ET AL.: "Large-Scale Interactive Object Segmentation With Human Annotators", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6022034556, 15 June 2019 (2019-06-15), pages 11692 - 11701, XP033686781, ISSN: 0004855219, DOI: 10.1109/CVPR.2019.01197 * |
CHEN, L.-C. ET AL., ENCODER-DECODER WITH ATROUS SEPARABLE CONVOLUTION FOR SEMANTIC IMAGE SEGMENTATION [ONLINE], JPN6022034559, 22 August 2018 (2018-08-22), pages 1 - 18, ISSN: 0004855222 * |
KERVADEC, H. ET AL., BOUNDARY LOSS FOR HIGHLY UNBALANCED SEGMENTATION [ONLINE], JPN6022034560, 17 December 2018 (2018-12-17), pages 1 - 12, ISSN: 0004855223 * |
MANINIS, K.-K. ET AL.: "Deep Extreme Cut: From Extreme Points to Object Segmentation", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION [ONLINE], JPN6022034557, 18 June 2018 (2018-06-18), pages 616 - 625, XP033476022, ISSN: 0004855220, DOI: 10.1109/CVPR.2018.00071 * |
WANG, Z. ET AL.: "Object Instance Annotation With Deep Extreme Level Set Evolution", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6022034558, 15 June 2019 (2019-06-15), pages 7492 - 7500, XP033687494, ISSN: 0004855221, DOI: 10.1109/CVPR.2019.00768 * |
Also Published As
Publication number | Publication date |
---|---|
EP3989166A4 (en) | 2022-08-17 |
CN110232696A (zh) | 2019-09-13 |
EP3989166A1 (en) | 2022-04-27 |
WO2020253663A1 (zh) | 2020-12-24 |
US11983881B2 (en) | 2024-05-14 |
JP7238139B2 (ja) | 2023-03-13 |
US20210366123A1 (en) | 2021-11-25 |
CN110232696B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7238139B2 (ja) | 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム | |
WO2020244373A1 (zh) | 基于人工智能的图像识别方法以及相关装置 | |
CN109635621B (zh) | 用于第一人称视角中基于深度学习识别手势的系统和方法 | |
WO2020192471A1 (zh) | 一种图像分类模型训练的方法、图像处理的方法及装置 | |
JP7130057B2 (ja) | 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム | |
EP3940638A1 (en) | Image region positioning method, model training method, and related apparatus | |
US20210295483A1 (en) | Image fusion method, model training method, and related apparatuses | |
CN109543195A (zh) | 一种文本翻译的方法、信息处理的方法以及装置 | |
CN111860485B (zh) | 图像识别模型的训练方法、图像的识别方法、装置、设备 | |
CN113076814B (zh) | 文本区域的确定方法、装置、设备及可读存储介质 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN112101329A (zh) | 一种基于视频的文本识别方法、模型训练的方法及装置 | |
CN115471662B (zh) | 语义分割模型的训练方法、识别方法、装置和存储介质 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN113763931B (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN116543076B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116310315A (zh) | 抠图方法、装置、电子设备以及存储介质 | |
CN111310701B (zh) | 手势识别方法、装置、设备及存储介质 | |
CN114462580A (zh) | 文本识别模型的训练方法、文本识别方法、装置和设备 | |
CN113723168A (zh) | 一种基于人工智能的主体识别方法、相关装置及存储介质 | |
CN113516665A (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN114550185B (zh) | 一种文档生成的方法、相关装置、设备以及存储介质 | |
CN112785687A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN117635715A (zh) | 位姿确定方法、虚拟形象生成方法及模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7238139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |