JP2022515620A - 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム - Google Patents

人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2022515620A
JP2022515620A JP2021537734A JP2021537734A JP2022515620A JP 2022515620 A JP2022515620 A JP 2022515620A JP 2021537734 A JP2021537734 A JP 2021537734A JP 2021537734 A JP2021537734 A JP 2021537734A JP 2022515620 A JP2022515620 A JP 2022515620A
Authority
JP
Japan
Prior art keywords
image
region
division
heat map
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021537734A
Other languages
English (en)
Other versions
JP7238139B2 (ja
Inventor
ワン,ルォイチェン
ワン,シアオリ
ヤン,グォイシア
チェン,チュチョン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022515620A publication Critical patent/JP2022515620A/ja
Application granted granted Critical
Publication of JP7238139B2 publication Critical patent/JP7238139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本出願は人工知能による画像領域の認識方法、モデルのトレーニング方法及び装置を開示している。画像領域の認識方法であって、複数の極値点を含む分割対象画像を取得するステップ(101)と、分割対象画像に基づき、第1画像特徴情報を生成するステップであって、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップは複数の極値点に基づき生成されるステップ(102)と、第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得するステップ(103)と、第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得するステップ(104)と、第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得するステップ(105)と、前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップ(106)とを含む。当該方法は第2段階の分割補助により、第1段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像の分割結果を得て、画像分割のパフォーマンスを向上させる。

Description

[関連出願への相互参照]
本出願は、2019年06月20日にて中国特許庁に提出され、出願番号が201910537529.Xであり、出願の名称が「画像領域の分割方法、モデルのトレーニング方法及び装置」である中国特許出願の優先権を主張して、その全ての内容は本出願に援用される。
[技術分野]
本出願は、人工知能分野に関し、特に、画像領域の分割及び認識に関する。
コンピュータ技術の発展に連れて、画像分割技術の応用はますます幅広くなり、例えば、医学画像分割及び自然画像分割などがある。画像分割技術は、画像を独特な性質を有するいくつかの特定の領域に分けて、興味あるターゲットを提示する技術を指す。例えば、人体組織画像分割のシーンにおいて、医学画像を分割して、分割した画像から、人体の各組織を明らかに区別するようにする。
現在、分割を補助するためのツールが提供されており、まず、ユーザーは画像において、1つのバウンディングボックス(bounding box、bbox)を描き出し、当該bboxは、アノテーション対象のターゲットボックスを選択する必要があり、そしてニューラルネットワークモデルにより、当該アノテーション対象ターゲットの多角形の分割結果を出力し、分割結果が正確でない場合には、ユーザーは当該結果を修正することができる。
本出願の実施例は、人工知能による画像領域の認識方法、モデルのトレーニング方法及び装置を提供することで、第2段階の分割補助により、第1段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割の能力を向上させる。
これに鑑みて、本出願の第1態様は、画像処理機器により実行される画像領域の認識方法を提供し、前記方法は、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、を含む。
本出願の第2態様は画像処理機器により実行されるモデルのトレーニング方法を提供し、前記方法は、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルにより前記トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を含む。
本出願の第3態様は画像処理機器を提供し、
複数の極値点を含む分割対象画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記分割対象画像に基づき、第1画像特徴情報を生成する生成モジュールであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップが前記複数の極値点に基づき生成され、前記Nが1以上の整数である、前記生成モジュールと、を含み、
前記取得モジュールは、
第1画像分割モデルにより前記生成モジュールから生成された前記第1画像特徴情報に対応する第1画像分割領域を取得し、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有し、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得し、
第2画像分割モデルにより前記分割対象画像に対応する第2画像分割領域を取得し、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有する、
よう構成され、
前記生成モジュールは、前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成する。
本出願の第4態様は画像処理機器を提供し、
取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
前記取得モジュールは、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
前記取得モジュールは、前記トレーニング対象画像、前記第1予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
前記決定モジュールは、前記取得モジュールにより取得された前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する。
本出願の第5態様は、メモリ、送受信機、プロセッサー及びバスシステムを含む端末機器を提供し、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップが前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
第1画像分割モデルにより前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
第2画像分割モデルにより前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して前記メモリと前記プロセッサーとを通信させる。
本出願の第6態様は、メモリ、送受信機、プロセッサー及びバスシステムを含むサーバーを提供し、
前記メモリはプログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、待トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる。
本出願の第7態様はコンピュータプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムは上記の各態様に記載の方法を実行する。
本出願の第8態様は命令を含むコンピュータプログラムを提供し、前記コンピュータプログラムはコンピュータで実行される場合、前記コンピュータに上記の各態様に記載の方法を実行させる。
以上の技術案から分かるように、本出願の実施例の利点は少なくとも以下を含み、即ち、
本出願の実施例において、画像領域の認識方法を提供し、まず複数の極値点を含む分割対象画像を取得し、分割対象画像に基づき、第1画像特徴情報を生成し、第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得し、最後に、第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得する。上記の方式で、画像の分割過程を2つの段階に分けて、第2段階の分割補助により、第1段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を得て、画像の分割結果を修正するのに大量の時間を要する必要がなく、画像分割のパフォーマンスを向上させ、第2画像分割領域に基づき、分割対象画像の画像認識結果を生成し、画像認識の精度を向上させる。
本出願の実施例における画像領域認識システムのアーキテクチャ概略図である。 本出願の実施例における画像領域の認識方法のフロー概略図である。 本出願の実施例における画像領域の認識方法の実施例の概略図である。 本出願の実施例における4つの極値点に対する選択の実施例の概略図である。 本出願の実施例における第1画像分割モデルが、第1画像分割領域に戻る実施例の概略図である。 本出願の実施例における、第1画像分割領域による1つのアノテーション位置の概略図である。 本出願の実施例における、第1画像分割領域による他のアノテーション位置の概略図である。 本出願の実施例における、第1画像特徴情報を生成する実施例の概略図である。 本出願の実施例における、第2画像特徴情報を生成する実施例の概略図である。 本出願の実施例における第2画像分割モデルの構成概略図である。 本出願の実施例におけるXceptionモデルの構成概略図である。 本出願の実施例における拡張深さ方向に分離可能な畳み込みの概略図である。 本出願の実施例におけるモデルのトレーニング方法の実施例の概略図である。 本出願の実施例におけるインスタンスのオリジナル画像の概略図である。 本出願の実施例における、差異点に対する選択の実施例の概略図である。 本出願の実施例における画像処理機器の実施例の概略図である。 本出願の実施例における画像処理機器の実施例の概略図である。 本出願の実施例における端末機器の構成概略図である。 本出願の実施例におけるサーバーの構成概略図である。
本出願の実施例は、画像領域の分割方法、モデルのトレーニング方法及び装置を提供し、第2段階の分割補助により、第1段階の画像分割において効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割の能力を向上させる。
本願の明細書、請求項、及び図面における「第1」、「第2」、「第3」、「第4」など(存在すれば)の用語は、特定の順番または前後順序を説明するためのものではなく、類似した対象を区別するためのものである。このように使用するデータは適切な場合に互いに交換することができ、ここで説明する本出願の実施例は、本明細書に図示または説明する順番以外の順番で実行することができる。また、用語「含む」、「対応する」及びそれらの如何なる変形も、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、明示されているステップまたはユニットに限定されず、明示されていないもの、またはこれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含むことができる。
なお、本出願が提供する画像領域の分割方法は、人工知能(artificial intelligence、AI)分野に適用することができ、具体的に、コンピュータ視覚分野に適用することができる。コンピュータ科学技術の発展に連れて、画像処理及び分析は科学システムを形成していき、新たな処理方法が次々と出現し、その発展歴史は長くないが、各分野の人々の幅広い注目を集めている。まず、視覚は人間の最も重要な感知手段であり、画像は視覚の基礎であるため、デジタル画像は、心理学、生理学及びコンピュータ科学などのようないろいろな分野内の学者たちが、視覚感知を研究するための効果的なツールになっている。そして、画像処理は軍事、リモートセンシング及び気象などのような大規模応用において、ますます成長している。画像分割技術はずっとコンピュータ視覚分野の基礎技術及び重要な研究方向であり、具体的に、1枚の画像から、興味ある領域(例えば、人間、車及び建物等)を実輪郭に従って、分割する。画像分割技術は、画像セマンティックに対する理解の重要な一環であり、近年、ニューラルネットワークの発展に連れて、画像処理能力は著しく向上し、画像分割技術は医学映像分析(腫瘍及び他の病理に対する位置決め、組織体積に対する測定、コンピュータによりガイドされる手術、治療解決策の制定、解剖学構成の研究を含む)、顔認識、指紋認識、自動運転及びマシン視覚などの分野においても、より重要な作用をもたらす。
理解を容易にするために、図1を参照すると、図1は本出願の実施例における画像領域認識システムのアーキテクチャの概略図であり、図に示すように、本出願が提供する画像処理機器は、端末機器またはサーバーを含み、例えば、クライアントが配置された端末機器であってもよく、当該クライアントは具体的に、分割補助ツールであり、ここで、当該クライアントが配置された端末機器は、タブレット、ノートパソコン、ハンドヘルドパソコン、スマートフォン、音声インタラクション機器及びパーソナルコンピュータ(personal computer、PC)を含むが、これらに限定されず、ここで、限定しない。
ユーザーが画像分割データセットを便利にアノテーションするために、本出願はニューラルネットワークモデル(即ち、第1画像分割モデル及び第2画像分割モデル)によるインタラクション型画像分割補助ツールを提供する。画像分割アノテーションタスクにおいて、分割補助ツールは、ユーザーの何らかのインタラクション行為を取得する場合に、ニューラルネットワークモデル(即ち、第1画像分割モデル)により、正確な事前分割の結果(即ち、第1画像分割領域を取得する)をフィードバックすることができ、そして、事前分割の結果(即ち、第1画像分割領域)に基づき、ほんの2回のアノテーションを行って、これによって、ニューラルネットワークモデル(即ち、第2画像分割モデル)により最終の分割結果を取得することができる(即ち、第2画像分割領域を取得する)。本出願は、「少量のアノテーションポイントのインタラクティブ」型の分割方法を提供し、画像分割モデルを改良することで、より優れた分割結果及びツールのリアルタイム性表現を取得する。
ここで、第1画像分割モデル及び第2画像分割モデルは、画像処理機器としてのサーバーに配置され、第1画像分割モデル及び第2画像分割モデルにより、画像分割領域を予測することで、オンラインで画像を分割するという目的を果たす。第1画像分割モデル及び第2画像分割モデルは画像処理機器としての端末機器に配置されてもよく、オフラインの状態で画像分割領域を予測することで、オフラインで画像を分割するという目的を果たす。
図2を参照すると、図2は、本出願の実施例における画像領域の認識方法のフロー概略図であり、図に示すように、ユーザーは、分割補助ツールにより処理対象画像に対して極値点のアノテーションを行い、例えば、図2の分割対象画像における木に対してアノテーションを行い、分割補助ツールは、ユーザーのアノテーション結果に基づき、第1ヒートマップを生成し、当該第1ヒートマップと分割対象画像の画像行列とを組み合わせて、第1画像特徴情報を取得する。第1画像特徴情報を第1画像分割モデルに入力し、当該第1画像分割モデルにより特徴を抽出することで、第1画像分割領域を出力し、例えば、木の分割領域を取得する。第1画像分割モデルは画像分割畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)であってもよく、そのモデル構成は主に、入力層、特徴抽出層及び出力層を含む。生成された第1画像分割領域の効果は十分ではないため、分割補助ツールを利用してアノテーションポイントを入力し、例えば、ユーザーにより入力されたアノテーションポイントに基づき、第2ヒートマップを生成し、当該第2ヒートマップと、処理対象画像の画像行列と、第1画像分割領域とを組み合わせて、第2画像特徴情報を取得してもよい。第2画像特徴情報を第2画像分割モデルに入力し、当該第2画像分割モデルにより特徴を抽出し、第2画像分割領域を出力し、より正確な木の分割領域を取得する。第2画像分割領域に基づき、分割対象画像に対して画像認識を行って、取得した画像認識結果は、高い精度を有する。
上記の前書きを組み合わせて、以下で、本出願の画像領域の分割方法について説明する。図3を参照すると、本出願の実施例において、画像領域の認識方法の実施例は、以下のステップを含み、即ち、
101:複数の極値点を含む分割対象画像を取得する。
本実施例において、画像領域認識装置は、分割対象画像を取得し、画像処理機器は、配置された分割補助ツールとして表現され、分割対象画像は当該分割補助ツールによりアノテーションされることで得られ、ユーザーは分割補助ツールを利用して、複数の極値点をアノテーションし、これらの極値点に基づき、分割対象画像を生成する。なお、本出願が提供する画像処理機器は、端末機器に配置される。
具体的に、複数の極値点は、分割対象画像におけるターゲットオブジェクトの最高点、最低点、最左点及び最右点であってもよいし、そのうちのいくつかの極値点であってもよく、ここで、限定しない。
102:分割対象画像に基づき、第1画像特徴情報を生成する。第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップは複数の極値点に基づき生成され、Nが1以上の整数である。
本実施例において、画像領域分割装置は、分割対象画像に基づきN個の画像行列を生成し、複数の極値点に基づき第1ヒートマップを生成し、第1ヒートマップとN個の画像行列とを組み合わせて、分割対象画像に対応する第1画像特徴情報を取得する。
デジタル画像データは行列で表され、読み取られた分割対象画像のサイズが128*128であるならば、画像行列のサイズは128*128*Nであり、Nは1以上の整数である。Nが1である場合、画像行列はグレースケール画像に対応する行列であってもよい。Nが3である場合、画像行列は赤緑青(red green blue、RGB)画像の行列であり、RGB画像は3次元であり、3つの次元はそれぞれ赤、緑及び青という3つの成分を示し、サイズは0~255であり、各画素はいずれも当該3つの成分からなる。各RGBチャンネルはいずれも1つの画像行列(即ち、第1画像行列、第2画像行列及び第3画像行列)に対応するので、当該3つのRGBチャンネルは重畳されて、カラー画像を形成し、即ち、分割対象画像を取得する。Nが4である場合、画像行列は赤緑青及びAlpha(アルファ)(red green blue Alpha、RGBA)の色空間であり、ポータブルネットワークグラフィックス(Portable Network Graphics、PNG)に対しても、4つの画像行列を有し、ここで、Nの数を限定しない。
103:第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得する。第1画像分割モデルは、第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、N個の第1行列チャンネルとN個の画像行列とは一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとは対応関係を有する。この対応関係は以下のように理解すればよく、即ち、画像行列aと第1行列チャンネルaとが対応関係を有するならば、画像分割モデルにより、画像特徴情報に対応する第1画像分割領域を取得する場合、画像行列aは第1行列チャンネルaから画像分割モデルに入力される。第1ヒートマップと第1ヒートマップチャンネルとの間の対応関係も、上記のような入力方式を示す。
本実施例において、画像処理機器は、第1画像特徴情報を第1画像分割モデルに入力し、第1画像分割モデルは、深層実験(Deep Lab)の構成を採用してもよく、DeepLabV1、DeepLabV2、DeepLabV3及びDeepLabV3+を含むが、これらに限定されない。DeepLabV2構成は、画像分割のためのCNNモデル構成であり、1枚のピクチャを入力し、オリジナル画像と同じサイズのマスクマップを出力し、図における各画素点の値は、当該画素が所属するカテゴリラベル値を示す。DeepLabV3+構成は、DeeplabV2に基づき改良した、画像分割のためのCNNモデル構成であり、数ある画像分割の中で、一般的に優れた結果を得ることができる。CNNはニューラルネットワークモデルの発展であり、人工ニューラルネットワークの完全接続層構成を畳み込み層に代えて、各種のコンピュータ視覚分野において、優れた性能を実現する。
本出願は、第1画像分割モデルの構成を改良し、第1画像分割モデルの第1層パラメータを修正する必要があり、第1画像分割モデルは(N+1)個のチャンネル(channel)の画像データを受信することができ、即ち、第1画像分割モデルはN個の第1行列チャンネル及び1つの第1ヒートマップチャンネルを含む。Nが3であると仮定すれば、3つの画像行列があることを示し、この場合、3つの第1行列チャンネルに対応し、各第1行列チャンネルは1つの画像行列に対応し、この場合、さらに、第1ヒートマップに対応する1つの第1ヒートマップチャンネルを有する。
同様に、Nが1であると仮定すれば、1つの画像行列があることを示し、この場合、1つの第1行列チャンネルに対応し、1つの第1行列チャンネルはグレースケール画像の1つの画像行列に対応し、この場合、さらに、第1ヒートマップに対応する1つの第1ヒートマップチャンネルを有する。
同様に、Nが4であると仮定すれば、4つの画像行列があることを示し、この場合、4つの第1行列チャンネルに対応し、各第1行列チャンネルは1つの画像行列に対応し、且つさらに、第1ヒートマップに対応する1つの第1ヒートマップチャンネルを有する。
104:前記第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得する。
本実施例において、画像処理機器はアノテーションポイントを受信し、当該アノテーションポイントは1つまたは複数であってもよく、当該アノテーションポイントはユーザーが第1画像分割領域に基づきアノテーションすることで得られ、画像領域分割装置はアノテーションポイントに基づき、第2ヒートマップを生成し、第2ヒートマップの生成方式は第1ヒートマップの生成方式に類似するため、ここで、贅言を要しない。
なお、分割対象画像における実際に認識を必要とするターゲットオブジェクトに対して、第1画像分割領域は、少なく認識される領域及び多く認識される領域を有する可能性がある。少なく認識される領域は、ターゲットオブジェクトの、第1画像分割領域に位置しない部分として理解され、多く認識される領域は、第1画像分割領域の、明らかにターゲットオブジェクトに属しない領域として理解される。
少なく認識される領域に対して、その対応するアノテーションポイントはエッジにあってもよいし、非エッジの位置にあってもよく、少なく認識される領域に対して、対応するアノテーションポイントは負点であり、-1として示し、負点であれば、ガウス分布(即ち、第2ヒートマップ)を生成する際、-1を乗算する。
多く認識される領域に対して、その対応するアノテーションポイントはエッジにあってもよいし、非エッジの位置にあってもよく、多く認識される領域に対して、対応するアノテーションポイントは正点であり、1として示し、正点であれば、ガウス分布(即ち、第2ヒートマップ)を生成する際、1を乗算する。
105:第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得する。第2画像分割モデルは、分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、N個の第2行列チャンネルとN個の画像行列とは一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とは対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとは対応関係を有する。
本実施例において、画像処理機器は、第2ヒートマップと、第1画像分割領域と、分割対象画像のN個の画像行列とを組み合わせて、分割対象画像に対応する第2画像特徴情報を取得し、そして、第2画像特徴情報を第2画像分割モデルに入力し、第2画像分割モデルはN個の第2行列チャンネル、分割領域チャンネル及び第2ヒートマップチャンネルを含み、N個の第2行列チャンネルとN個の画像行列とは一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とは対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとは対応関係を有する。
106:第2画像分割領域に基づき、分割対象画像の画像認識結果を生成する。
画像処理機器はさらに、第2画像分割領域に基づき、分割対象画像の画像認識結果を生成し、具体的に、第2画像分割領域及び第1画像分割領域はいずれもマスク(mask)画像であり、当該mask画像に基づき、分割対象画像におけるターゲットオブジェクトのエッジを取得し、最後に、画像認識結果を取得する。当該画像認識結果はテキスト情報により表してもよく、例えば、画像認識結果は「猿」または「自動車」などのオブジェクトである。画像認識結果は、分割対象画像において、ターゲットオブジェクトをハイライト表示してもよく、ターゲットオブジェクトは「自動車」または「猿」などのオブジェクトであってもよい。
本出願の実施例において、画像領域の分割方法を提供し、まず、複数の極値点を含む分割対象画像を取得し、そして、分割対象画像に基づき、第1画像特徴情報を生成し、第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割領域に基づき、第2ヒートマップを取得し、第2ヒートマップはアノテーションポイントに基づき生成され、最後に、第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得する。上記の方式で、画像分割の過程を2つの段階に分けて、第2段階の分割補助により、第1段階の画像分割における効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割結果の修正に大量の時間をかける必要がなく、画像分割のパフォーマンスを向上させ、第2画像分割領域に基づき、分割対象画像の画像認識結果を生成し、画像認識の精度を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、本出願の実施例が提供する画像領域の認識方法の好適な実施例において、分割対象画像を取得するステップは、以下の
処理対象画像に対する物体アノテーション命令を受信するステップであって、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別する、ステップ
を含む。
ターゲットオブジェクトを識別するために、ターゲットオブジェクトの輪郭エッジの四囲により、極値点を決定し、例えば、上下左右の4つの方向の極値点について、例えば、図4に示すようである。この場合、当該複数の極値点は4つを含み得て、対応するように、4つの極値点の位置情報は第1極値点位置情報、第2極値点位置情報、第3極値点位置情報及び第4極値点位置情報を含む。
物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。
本実施例において、極値点によるアノテーション方式が導入され、ユーザーは分割補助ツールを利用して、複数の極値点をアノテーションすることができる。理解を容易にするために、図4を参照すると、図4は本出願の実施例における、4つの極値点に対する選択の実施例の概略図であり、図に示すように、まず1つの処理対象画像が表示され、当該処理対象画像には花、干し草の山及び樹木のようなターゲットオブジェクトが含まれ、実際の応用では、ターゲットオブジェクトは人間、動物、車両及び他の物体を含むが、これらに限定されない。分割補助ツールを起動させた後、ユーザーは物体アノテーション命令をトリガーし、例えば、クリックの方式で、処理対象画像からいくつかの極値点を選択し、図4を例として、ターゲットオブジェクトが樹木であれば、ユーザーは分割補助ツールにより、第1極値点A、第2極値点B、第3極値点C及び第4極値点Dという樹木の4つの極値点を選択する。物体アノテーション命令には、具体的に当該4つの極値点の座標情報が含まれ、これによって、物体アノテーション命令に基づき、処理対象画像に対応する分割対象画像を生成し、分割対象画像は、図4に示す樹木に対応する画像のようであり、第1極値点A、第2極値点B、第3極値点C及び第4極値点Dからなる領域を含む。
分割補助ツールは、分割対象画像に基づき、第1画像特徴情報を生成し(第1ヒートマップ及びN個の画像行列を含む)、第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得する。図5を参照すると、図5は本出願の実施例における、第1画像分割モデルが第1画像分割領域に戻る実施例の概略図であり、図に示すように、分割補助ツールは4つの極値点に基づき第1画像分割領域を算出し、当該第1画像分割領域に戻って、例えば、図5のハッチング部分に対応する画像が、画像分割領域である。なお、画像分割領域は事前分割された多角形結果であってもよく、図5は例示に過ぎず、本出願に対する限定ではない。
そして、本出願の実施例において、極値点のアノテーション方法を提供し、まず、処理対象画像を表示し、物体アノテーション命令を受信し、物体アノテーション命令には、ターゲットオブジェクトに対応する第1極値点の位置情報、第2極値点位置情報、第3極値点位置情報及び第4極値点位置情報が含まれ、最後に、物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。上記の方式で、分割補助ツールを利用して、処理対象画像をアノテーションすることができ、分割補助ツールの操作の難易度が低く、使用の利便性が高いので、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第1画像分割領域に基づき、第2ヒートマップを取得するステップは、
第1アノテーション命令を受信するステップであって、第1アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の内部に位置し、Mは1以上の整数であるステップと、
第1アノテーション命令に応答し、第1アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成するステップと、を含む。
本実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する方法について説明する。説明を容易にするために、図6を参照すると、図6は本出願の実施例における、第1画像分割領域によるアノテーション位置の概略図であり、図に示すように、第1画像分割領域は、ターゲットオブジェクト(例えば、木)に属しない余計な1つの領域があると仮定し、ユーザーは分割補助ツールにより余計な領域でM個のアノテーションポイントをマークし、Mは1以上の整数であり、M個のアノテーションポイントは第1画像分割領域の内部にあり、つまり、第1画像分割領域の余計な領域でアノテーションを行って、例えば、図6において、マークして得られたアノテーションポイントAがある。
なお、多く認識される領域はエッジ、または非エッジの位置にマークされてもよく、ここで、限定せず、多く認識される領域アノテーションポイントは正点であり、1として示す。
そして、本出願の実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する方法を提供し、即ち、第1アノテーション命令を受信し、第1アノテーション命令に応答し、第1アノテーション命令に含まれるM個のアノテーションポイントに基づき、第2ヒートマップを生成する。上記の方式で、分割補助ツールを利用して、予備予測により得られた第1画像分割領域に対して2回アノテーションを行うことができ、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、2回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第1画像分割領域に基づき、第2ヒートマップを取得するステップは、
第2アノテーション命令を受信するステップであって、第2アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の外部に位置して、Mは1以上の整数であるステップと、
第2アノテーション命令に応答し、第2アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成するステップと、を含む。
本実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する他の方法について説明する。説明を容易にするために、図7を参照すると、図7は本出願の実施例における、第1画像分割領域による他のアノテーション位置の概略図であり、図に示すように、第1画像分割領域は、ターゲットオブジェクト(例えば、木)に属すべきである1つの領域が欠如すると仮定し、ユーザーは分割補助ツールにより欠如する領域に、M個のアノテーションポイントをマークし、Mは1以上の整数であり、M個のアノテーションポイントは第1画像分割領域の内部にあり、つまり、ターゲットオブジェクトの欠如する領域でアノテーションを行って、例えば、図7において、マークして得られたアノテーションポイントBがある。
ここで、少なく認識される領域は、エッジ、または非エッジの位置にマークされてもよく、ここで、限定せず、少なく認識された領域のアノテーションポイントは負点であり、-1として示してもよく、負点であれば、ガウス分布を生成する際、-1を乗算する。
そして、本出願の実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する他の方法を提供し、即ち、第2アノテーション命令を受信し、第2アノテーション命令に応答し、第2アノテーション命令に含まれるM個のアノテーションポイントに基づき、第2ヒートマップを生成する。上記の方式で、分割補助ツールを利用して、予備予測により得られた第1画像分割領域に対して2回アノテーションを行うことができ、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、2回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、図3のステップ102に対して、本出願の実施例は好適な実施例を提供し、即ち、N個の第1行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、分割対象画像に基づき、第1画像特徴情報を生成するステップは、
分割対象画像における複数の極値点に基づき、第1ヒートマップを生成するステップと、
分割対象画像に基づきN個の画像行列を生成するステップであって、前記N個の画像行列は前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含むステップと、
第1ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第1画像特徴情報を生成するステップと、を含む。
本実施例において、N=3個の行列チャンネル及び1つの第1ヒートマップチャンネルを例として、第1画像特徴情報を生成する方式について説明する。理解を容易にするために、図8を参照すると、図8は本出願の実施例における、第1画像特徴情報を生成する実施例の概略図であり、図に示すように、本出願は深層極値点分割(Deep Extreme Cut、DEXTR)の入力フォーマットを利用して、4チャンネルの画像行列を入力し、つまり、本出願が利用する第1画像分割モデルの入力は、オリジナル画像以外に、さらに4つの極値点の情報を含み、4つの極値点の情報を十分に利用するために、分割対象画像のサイズと同じヒートマップ(heatmap)、即ち、第1ヒートマップを生成し、即ち、図8に示すように、それぞれ4つの極値点座標を中心として、2Dガウス分布を生成し、当該第1ヒートマップを第1ヒートマップチャンネル(即ち、4番目の行列チャンネル)の入力とし、他の3つの画像行列とマージして、第1画像特徴情報を取得し、最後に、第1画像特徴情報を第1画像分割モデルの入力とする。
3つの画像行列は、それぞれ第1画像行列、第2画像行列及び第3画像行列であり、第1画像行列は赤(R)入力チャンネルに対応し、第2画像行列は緑(G)入力チャンネルに対応し、第3画像行列は青(B)入力チャンネルに対応する。
第1ヒートマップにより大量のデータを簡単にアグリゲーションすることができ、漸進するカラーバンドで表現し、最終の効果は、一般的に離散点の直接的な表示より優れており、空間データの疎密程度または頻度の高さを直観的に表すことができる。ヒートマップの生成原理は主に4つのステップに分けられ、具体的に、
(1)離散点に対して1つの半径を設定し、1つのバッファを確立する
(2)各離散点のバッファに対して、漸進するグレースケールバンドを利用して、内部から外部へ、浅から深まで充填する
(3)グレースケール値を重ね合わせることができるため、バッファが交差する領域に対して、グレースケール値を重ね合わせてもよく、バッファが交差するほど、グレースケール値が大きくなり、当該ブロック領域も熱くなる
(4)重ね合わせたグレースケール値をインデックスとして、256種の色を有する1本のカラーバンドから色をマッピングし、画像を改めて着色し、ヒートマップを生成する。
なお、実際の応用では、さらに、他のヒートマップの生成方式があり、例えば、直接的に各極値点を中心として、4つの中実円を構築してもよい。2Dガウス分布は、中心点に近接するほど、値が大きくなり、中心点から離れるに連れて、急速に減衰することを特徴とする。本出願において、第1ヒートマップを入力する際、第1画像分割モデルに予備知識を付与し、第1画像分割モデルはこの4つの点が、ユーザーにより選択された極値点であると認識することができる。ただし、ユーザーが選択するものが必ずしも実際の極値点ではなく、一定の誤差がある可能性があることを考慮すると、極値点を中心として、1つの第1ヒートマップの分布を生成する。
そして、本出願の実施例において、分割対象画像に基づき、第1画像特徴情報を生成する方法を提供し、分割対象画像における複数の極値点に基づき、第1ヒートマップを生成し、分割対象画像に基づき、第1画像行列を生成し、分割対象画像に基づき、第2画像行列を生成し、分割対象画像に基づき、第3画像行列を生成する。上記の方式で、ユーザーが選択する極値点を十分に考慮して生成したヒートマップは、有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、図3のステップ102に対して、本出願の実施例は好適な実施例を提供し、前記N個の第2行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、前記N個の画像行列は以下のように決定され、即ち、
前記分割対象画像に基づき、N個の画像行列を生成し、前記N個の画像行列は前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含む。
ステップ104に対して、前記第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得した後、さらに、
第1画像分割領域、第2ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第2画像特徴情報を生成するステップであって、第2画像特徴情報は第2画像分割領域を取得した場合の第2画像分割モデルの入力情報であるステップを含む。
本実施例において、N=3個の行列チャンネル、1つの分割領域チャンネル及び1つの第2ヒートマップチャンネルを例として、第2画像特徴情報を生成する方式について説明する。理解を容易にするために、図9を参照すると、図9は本出願の実施例における、第2画像特徴情報を生成する実施例の概略図であり、図に示すように、本出願はDEXTRという入力フォーマットを利用して、5チャンネルの画像行列を入力し、つまり、本出願が利用する第2画像分割モデルの入力は、オリジナル画像以外に、さらに、アノテーションポイントの情報及び第1画像分割モデルから出力される第1画像分割領域を含み、M個のアノテーションポイントの情報を十分に利用して、分割対象画像のサイズと同じheatmap、即ち、第2ヒートマップを生成するために、図9に示すように、それぞれM個のアノテーションポイント座標を中心として、2Dガウス分布を生成してから、第2ヒートマップを第2ヒートマップチャンネル(即ち、4番目の行列チャンネル)の入力とし、第1画像分割領域を分割領域チャンネル(即ち、5番目の行列チャンネル)の入力とし、別の3つの画像行列とマージして、第2画像特徴情報を取得し、最後に、第2画像特徴情報を第2画像分割モデルの入力とする。3つの画像行列はそれぞれ第1画像行列、第2画像行列及び第3画像行列であり、第1画像行列はR入力チャンネルに対応し、第2画像行列はG入力チャンネルに対応し、第3画像行列はB入力チャンネルに対応する。
本出願において、第2ヒートマップを入力する際、第2画像分割モデルに予備知識を付与し、第2画像分割モデルは、アノテーションポイントがユーザーにより選択されたと認識することができる。ただし、ユーザーが選択するものが、必ずしもアノテーションポイントの最適な点ではないことを考慮すると、アノテーションポイントを中心として、第2ヒートマップの分布を生成する。
そして、本出願の実施例において、分割対象画像に基づき、第2画像特徴情報を生成する方法を提供し、第1画像分割領域に基づき、第2ヒートマップを取得した後、さらに、分割対象画像に基づき、第1画像行列を生成し、分割対象画像に基づき、第2画像行列を生成し、分割対象画像に基づき、第3画像行列を生成し、第1画像分割領域、第2ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第2画像特徴情報を生成してもよく、第2画像特徴情報は第2画像分割モデルの入力情報である。上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して、生成されたヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図3に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得するステップは、
第2画像分割モデルの符号器により、第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得するステップであって、符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第2画像特徴情報の特徴マップを抽出し、middle flowモジュールは繰り返してT回実行し、Tは8より大きい整数であるステップと、
第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第2画像分割領域を取得するステップと、を含む。
本実施例において、第2画像分割モデルの構成が導入され、本出願は、第1画像分割モデル及び第2画像分割モデルという2つのモデルを採用して、まず、第1段階の第1画像分割モデルを利用してマスクを取得し、インタラクション方式で、マスクに対応する修正領域の境界点をマークし、当該境界点でガウス中心を生成し、インスタンスのサイズに対応する第1ヒートマップを形成し、最後に、オリジナル画像、第1画像分割モデルから生成されたマスク(即ち、第1画像分割領域)及び第1ヒートマップを、5チャンネルの入力行列に形成し、第2段階の第2画像分割領域に入力し、対応する分割結果を取得する。
本出願は、第2画像分割モデルが深層実験V3+バージョン(DeeplabV3+)構成に基づくことを例として説明され、DeeplabV2モデルの構成、U-Net、マスク領域畳み込みニューラルネットワーク(Mask Region-CNN、Mask R-CNN)またはピラミッドシーンパージングネットワーク(Pyramid Scene Parsing Network、PSPNet)などを採用してもよく、第1画像分割モデルに対して、DeeplabV3+を採用してもよく、DeeplabV3+は、効率的且つ高速で、マルチスケールのインスタンスを処理することができるセマンティックセグメンテーションアルゴリズムである。
理解を容易にするために、図10を参照すると、図10は本出願の実施例における、第2画像分割モデルの構成概略図であり、図に示すように、第2画像特徴情報を取得した後、第2画像特徴情報を第2画像分割モデルに入力する。第2画像分割モデルは、豊かな高レベルのセマンティック情報を取得するための符号器(Encoder)、及び境界情報を回復させるための復号器(Decoder)を含む。
符号器の深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network、DCNN)により画像特徴情報を符号化し、即ち、バイリニア補間により4倍のサイズの解像度を回復させ、第1特徴マップを取得する。1*1の畳み込み処理を利用して、チャンネル数を低減させることで、画像特徴情報の低レベル特徴を抽出し、即ち、第2特徴マップを得ることができる。画像分割モデルの復号器のスプライシングレイヤー(concat)により第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得する。サイズが3*3である畳み込みを利用して、ターゲット特徴マップを強化させ、1つの補間により、さらに4倍の解像度を、分割対象画像のサイズに回復させる。
なお、符号器は主に、改良後のXception(Extreme Inception)及び拡張空間ピラミッドからなる。理解を容易にするために、図11を参照すると、図11は本出願の実施例における、Xceptionモデルの構成概略図であり、図に示すように、改良後のXceptionは画像に対して特徴を抽出し、具体的な構成パラメータは図11に示し、ここで、贅言を要しない。元のXceptionのミドルフロー(middle flow)モジュールで繰り返して8回実行し、改良後のmiddle flowモジュールは少なくとも9回繰り返し、本出願は16回繰り返すことを例とするが、本出願に対する限定ではない。
符号器は、さらに拡張深さ方向の分離可能な畳み込みを含み、符号器の全ての最大プーリング操作を、ステップサイズが付けられた深さ方向の分離可能な畳み込みに置き換えて、これによって、本出願は、拡張分離可能な畳み込みを利用して、任意の解像度で特徴マップを抽出することができる。拡張分離可能な畳み込みモデルの概略図が図12に示されている。図12を参照すると、図12は本出願の実施例における、拡張深さ方向の分離可能な畳み込みの概略図であり、特徴マップ(第1特徴マップ及び第2特徴マップ)を入力して、チャンネルに従って分離した後、図12(a)の深層畳み込み操作を利用して畳み込みを行って、取得した結果はチャンネルに従って連結した後、図12(b)のポイントごとの畳み込み操作を利用して、深さ方向の分離可能な畳み込み後の結果を取得する。また、図12(a)の深層畳み込みを、図12(c)の拡張深層畳み込みに置き換えて、図12(b)のポイントごとの畳み込みを行うと、拡張深さ方向の分離可能な畳み込み操作を実現することができる。
符号器において、各3*3の深さ方向の分離可能な畳み込みの後ろに、バッチ正規化及び正規化線形関数(Rectified Linear Unit、ReLU))活性化関数を追加する。改良後のXceptionモデルは強い特徴抽出能力を具備し、深さ方向の分離可能な畳み込みによりモデルのパフォーマンスを保証するとともに、パラメータ及び計算量を大幅に低減させる。
符号器において、拡張空間ピラミッドを利用し、当該拡張空間ピラミッドは、マルチスケールの情報をキャプチャすることで、スケールが異なるインスタンスに対する処理を実現する。オリジナル画像は、改良後のXceptionにより処理され、特徴マップの解像度が元の1/16に下がった後、拡張空間ピラミッドの構成に入力される。図10の符号器部分に示すように、拡張空間ピラミッドは1つの1*1畳み込み、3つの3*3のサンプリング率rate={6、12、18}の拡張畳み込み、及び1つの全体平均プーリングからなり、それらは並行位置にある。
拡張空間ピラミッドの5つの並行操作により得られた結果は、チャンネルに従って連結され、1つの1*1の畳み込み操作により符号器の最後の出力結果、即ち、第2画像分割領域が取得される。
そして、本出願の実施例において、第2画像分割モデルにより、第2画像分割領域を取得する方法を提供し、即ち、まず、第2画像分割モデルの符号器により、第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得し、第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得し、最後に、第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第2画像分割領域を取得する。上記の方式では、DeeplabV3+によるモデル構成を利用して画像分割領域を予測することができ、DeeplabV3+モデル構成の総パラメータが少ないので、トレーニングであろうが、実際予測であろうが、いずれも速い実行速度を有し、分割補助ツールに応用された場合には、ユーザー操作により速く応答し、使用効率を向上させ、ユーザー粘度を強化させる。また、改良後のXceptionモデルを利用すれば、特徴抽出パフォーマンスを保証するとともに、深さ方向の分離可能な畳み込みを利用してモデルのサイズを低減させ、分割速度を向上させる。また、拡張空間ピラミッドを利用して、マルチ拡張率の畳み込み操作及びプーリング操作を構築し、マルチスケールの情報を取得し、モデルのマルチスケールのインスタンスに対する処理に寄与する。
好ましくは、上記の図3に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第2画像分割領域を取得するステップは、
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得するステップと、
第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成するステップと、を含む。
本実施例において、第2画像分割モデルに基づき、第2画像分割領域を生成する方法が導入され、画像分割領域でターゲット特徴マップを復号化した後、第1画素点セット及び第2画素点セットを取得し、ここで、第1画素点セットはターゲットオブジェクトの画素点に属して、例えば、「1」として示され、第2画素点セットは背景に属して、例えば、「0」として示され、第1画素点セット及び第2画素点セットから、共同で第2画像分割領域を構成し、つまり、第2画像分割領域から、ターゲットオブジェクトの分割結果を見ることができる。
符号化-復号化構成は、空間情報を徐々に回復させることで、物体のエッジ情報を取得し、DeeplabV3+モデル構成は、DeeplabV3モデル構成を基に、物体エッジの分割を強化させるための1つの復号器を追加する。
DeeplabV3+モデルにおける復号器は、符号器から出力された高レベルセマンティック情報、及び符号器の特徴マップの解像度がオリジナル画像の解像度の1/4である特徴マップを利用して、復号化操作を行う。図10に示すように、符号器から出力された、豊かな細部情報を有する低レベル特徴マップは、1つの1*1の畳み込み操作(当該操作は主に低レベル特徴マップのチャンネル数を低減させて、低レベル特徴マップの割合を低減させる)により、新たな低レベル特徴マップを取得する。符号器から出力された、豊かなセマンティック情報を有する高レベル特徴マップは、4倍のアップサンプリングを行った後、新たな高レベル特徴マップを取得する。新たな低レベル特徴マップ及び新たな高レベル特徴マップは、チャンネルに従ってスプライシングし、得られた結果は、1つの3*3の畳み込み操作を経て、4倍のアップサンプリングを行って、復号器の最終出力として、オリジナル画像のサイズと同じ特徴マップを得る。復号器において、高レベルのセマンティック情報及び低レベルの細部情報を利用することで、モデルのパフォーマンスを向上させる。
さらに、本出願の実施例において、第2画像分割モデルを利用して復号化を行うことで、第2画像分割領域を取得する方法を提供し、まず第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第1画素点セット及び第2画素点セットを取得し、第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成する。上記の方式で、技術案の実現に具体的な根拠を提供し、第2画像分割モデルの構成に基づき、特徴を復号化し、第2画像分割モデルの応用の信頼性を向上させる。
上記の前書きを組み合わせて、以下は、本出願のモデルのトレーニング方法について説明する。図13を参照すると、本出願の実施例において、モデルのトレーニング方法の実施例は以下のステップを含み、即ち、
201:少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得する。
本実施例において、モデルトレーニング装置は、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、トレーニング対象画像には、「馬」、「人間」、「テレビ」または「ビル」などのようなインスタンスのオリジナル画像が含まれる。モデルのトレーニング過程において、Pascal-VOC2012データセットにおけるtrainトレーニングセットをトレーニング対象画像セットとしてもよく、ここで、限定しない。
202:第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、第1画像分割モデルは予めトレーニングされた画像分割モデルである。
本実施例において、モデルトレーニング装置はトレーニング対象画像を、予めトレーニングされた第1画像分割モデルに入力し、当該第1画像分割モデルから、トレーニング対象画像に対応する第1予測分割領域を出力する。第1予測分割領域は前景及び背景を含み、前景の画素点は「1」として示し、背景の画素点は「0」として示す。当該第1予測分割領域は1つのmask画像である。
203:トレーニング対象画像の実分割領域及び第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象ヒートマップは少なくとも1つの差異点から生成される。
本実施例において、モデルトレーニング装置は、トレーニング対象画像の第1予測分割領域及び実分割領域に基づき、少なくとも1つの差異点を自動に生成し、少なくとも1つの差異点により、対応するトレーニング対象ヒートマップを生成する。少なくとも1つの差異点の自動生成の過程は、アノテーションポイントに対するユーザーのマーキングをシミュレーションする過程である。実分割領域は、トレーニング対象画像に基づき分割した実際分割領域である。
204:トレーニング対象画像、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得する。
本実施例において、モデルトレーニング装置は、トレーニング対象画像(オリジナル画像)、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域という4つの入力情報を取得し、当該4つの入力情報を利用して、トレーニング対象画像分割モデルをトレーニングし、即ち、トレーニング対象画像、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域をトレーニング対象画像分割モデルに入力し、当該トレーニング対象画像分割モデルから、対応する第2予測分割領域を出力し、当該第2予測分割領域は1つのmask画像である。
205:第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定する。
本実施例において、モデルトレーニング装置は、第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、第2段階の必要なトレーニング対象画像分割モデルをトレーニングする。トレーニング段階で採用するトレーニング対象画像セットには、1464個のトレーニング対象画像が含まれ、且つ、合計で3507個のインスタンスが含まれてもよい。まず、第1段階における前の反復回数(epoch)の第1画像分割モデルを選択する。即ち、当該第1画像分割モデルの、トレーニング対象画像セットでの分割結果は、あまり良くない。第1画像分割モデルを利用して、トレーニング対象画像セットをテストし、対応する第1予測分割領域(mask画像)を取得し、各インスタンスのオリジナル画像の差異点を取得し、差異点の位置でガウス中心を生成し、トレーニング対象ヒートマップを形成し、最後に、サイズがa*b(例えば、512*512)であるインスタンスのオリジナル画像、第1予測分割領域、実分割領域及び予測対象ヒートマップを、トレーニング対象画像分割モデルに入力し、トレーニングする。
トレーニング過程で、運動量を0.9、重み減衰を0.0005、学習レートを10-8、バッチサイズ(batchsize)を5にセットし、合計で100個のepochをセットし、5つのepochごとに、トレーニングされた特定のトレーニング対象画像分割モデルを利用して、トレーニング対象画像セットの生成mask画像を更新する。
206:モデルパラメータを利用してトレーニング対象画像分割モデルをトレーニングし、第2画像分割モデルを取得する。
本実施例において、モデルトレーニング装置は、ターゲットの損失関数が収束する場合、トレーニング対象画像分割モデルのモデルパラメータを決定し、当該モデルパラメータは、トレーニング対象画像分割モデルを更新することで、第2画像分割モデルを取得する。
本出願の実施例において、モデルのトレーニング方法を提供し、即ち、まず、トレーニング対象画像セットを取得し、第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得し、トレーニング対象画像の実分割領域及び第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象画像、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、最後に、第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、モデルパラメータを利用してトレーニング対象画像分割モデルをトレーニングし、第2画像分割モデルを取得する。上記の方式で、第1段階の分割アルゴリズムに基づき、より高い平均評価指標(mean Intersection Over Union、mIOU)値を取得し、第2画像分割モデルをトレーニングして取得し、第1画像分割モデル及び第2画像分割モデルに基づき、画像の分割結果をより正確に予測することができる。
好ましくは、上記の図13に対応する各実施例に基づき、本出願の実施例が提供するモデルのトレーニング方法の好適な実施例において、ターゲット損失関数は、以下
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域における正のサンプルの数を示し、Neg_numは実分割領域における負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。
本実施例において、ターゲット損失関数の具体的な実現が説明される。即ち、ターゲット損失関数は、正負のバランスを利用した交差エントロピー損失関数であり、具体的に、第2画像分割モデルの復号器の出力結果に基づき、softmax関数により確率プロットを取得し、実分割領域と比較し、損失を計算する。本出願の損失関数として、正負のバランスの交差エントロピー損失関数を採用する。正負のバランスの交差エントロピー損失関数は、元の標準の交差エントロピー損失関数に基づき、正負のサンプルの数という問題を考慮し、実分割領域の正のサンプルの数及び負のサンプルの数を計算することで、正負のサンプルの比を取得する。交差エントロピー損失を算出した後、正のサンプルの損失に、負のサンプル比を乗算し、負のサンプルの損失に正のサンプル比を乗算し、両者を加算して、最後の損失を取得し、正負のバランスの交差エントロピー損失関数(即ち、ターゲット損失関数)は、以下
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域における正のサンプルの数を示し、Neg_numは実分割領域における負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。正のサンプルは実分割領域の正点(即ち、前景の点)であり、負のサンプルは実分割領域の負点(即ち、背景の点)である。
そして、本出願の実施例において、正負のバランスを利用した交差エントロピー損失関数を提供することで、モデルはトレーニングする際、正負の損失をよりよく処理することができ、モデルが数の多い方向に傾斜して、トレーニングの失敗を招致することを避け、トレーニングの信頼性を向上させる。
好ましくは、上記の図13に対応する各実施例に基づき、本出願の実施例が提供するモデルのトレーニング方法の好適な実施例において、トレーニング対象画像の実分割領域及び第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップは、
実分割領域及び第1予測分割領域に基づき、差異図を決定するステップであって、差異図は、実分割領域と第1予測分割領域との不一致の領域を示すステップと、
差異図に基づき、第1候補領域及び第2候補領域を決定するステップと、
第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択するステップと、
少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成するステップと、を含む。
本実施例において、トレーニング対象ヒートマップを自動に生成する方法が説明される。第2段階の分割補助アルゴリズムにおいて、第1段階の分割補助アルゴリズムにより得られた生成マスクとインスタンスの実マスクとの間の最大の差異点を利用して、トレーニング過程で、最大の差異点を人工で描く必要がないので、以下の方法でシミュレーションして、差異点を生成する。
具体的に、まず、オリジナル画像、オリジナル画像に対応する実分割領域及び第1段階の分割補助モデルから出力される第1予測分割領域に対して「バンドル」を行うことで、三者が読み取られる際、対応関係が一致するようにする。理解を容易にするために、図14を参照すると、図14は本出願の実施例における、インスタンスのオリジナル画像の概略図であり、図に示すように、1枚のオリジナル画像を読み取った後、「バンドル」関係のため、オリジナル画像に対応する実分割領域での画素値を利用して、インスタンスを実分割領域から抽出し、当該インスタンスに対応する上端点、下端点、左端点及び右端点という4つの極端点を計算する。そして、4つの極端点を利用してオリジナル画像、実マスク及び生成マスクをクロップし、対応するインスタンス部分を取得する。サンプリング画像は境界ボックス(Bounding Box、BBox)により抽出され、背景の要因を考慮するために、クロップする際、サンプリング画像の境界ボックスの周りに、50個の画素点を浮動させることで、インスタンスのオリジナル画像を取得する。
実マスク(即ち、実分割領域)及び生成マスク(即ち、第1予測分割領域)に対して、画素のゼロパディングを行って、クロップされたインスタンスのオリジナル画像、インスタンスの実マスク及びインスタンスの生成マスクに対して、サイズを調整することで、それらの解像度を512*512にし、上記の解像度は本出願に対する限定ではなく、例示に過ぎない。
実マスク(即ち、実分割領域)と生成マスク(即ち、第1予測分割領域)との間の差異点(1つの最大の差異点であってもよい)を取得するために、まず、サイズが調整された実マスク(即ち、実分割領域)と生成マスク(即ち、第1予測分割領域)との間の全ての差異点を計算しなければならない。
理解を容易にするために、図15を参照すると、図15は本出願の実施例における、差異点に対する選択の実施例の概略図であり、図に示すように、具体的に、まず、実マスク(即ち、実分割領域)と生成マスク(即ち、第1予測分割領域)との間の対応する位置の画素が一致するかどうかを判定して、1つの差異図を取得し、差異図は図15に示すS1領域及びS2領域である。差異図に対して連通領域を計算し、候補領域1として、連通領域における最大の領域を取得し、S2領域がS1領域より大きいから、S2領域を候補領域1とする。それと同時に、インスタンスの実マスク(即ち、実分割領域)境界(または中心位置)を計算し、当該境界(または中心位置)を候補領域2とし、最後に、候補領域1と候補領域2との共通集合から、少なくとも1つの差異点をランダムに選択し、例えば、図15に示すD1点は、ランダムに選択された差異点である。当該少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成することができる。
そして、本出願の実施例において、トレーニング対象ヒートマップを自動に生成する方法を提供し、即ち、実分割領域及び第1予測分割領域に基づき、差異図を決定し、差異図に基づき、第1候補領域及び第2候補領域を決定し、第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択し、最後に、少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成する。上記の方式で、トレーニングの過程において、差異点のアノテーションに人間の関与の必要はなく、アテンションのメカニズムを利用して、予測マスクと実マスクとの差異点の生成箇所に、ガウス中心を生成し、ヒートマップを形成し、モデルの当該領域に対する注目を向上させる。
以下は、本出願の画像処理機器を詳しく説明し、図16を参照すると、図16は本出願の実施例における、画像処理機器の実施例の概略図であり、画像処理機器30は、
複数の極値点を含む分割対象画像を取得する取得モジュール301と、
取得モジュール301により取得した分割対象画像に基づき、第1画像特徴情報を生成する生成モジュール302であって、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップは複数の極値点に基づき生成され、Nが1以上の整数である、生成モジュール302と、を含み、
取得モジュール301は、
第1画像分割モデルにより、生成モジュール302が生成した第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、N個の第1行列チャンネルとN個の画像行列とが一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとが対応関係を有し、
第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得し、
第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得し、第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、N個の第2行列チャンネルとN個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とが対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとが対応関係を有する、
よう構成される。
生成モジュール302は、第2画像分割領域に基づき、分割対象画像の画像認識結果を生成する。
本実施例において、取得モジュール301は複数の極値点を含む分割対象画像を取得し、生成モジュール302は取得モジュール301により取得された分割対象画像に基づき、第1画像特徴情報を生成し、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップは複数の極値点に基づき生成され、Nが1以上の整数であり、取得モジュール301は第1画像分割モデルにより、生成モジュール302により生成された第1画像特徴情報に対応する第1画像分割領域を取得し、第1画像分割モデルはN個の第1行列チャンネル及び第1ヒートマップチャンネルを含み、N個の第1行列チャンネルとN個の画像行列とが一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとが対応関係を有し、取得モジュール301は第1画像分割領域に基づき、第2ヒートマップを取得し、第2ヒートマップはアノテーションポイントに基づき生成され、取得モジュール301は第2画像分割モデルにより、分割対象画像に対応する第2画像分割領域を取得し、第2画像分割モデルはN個の第2行列チャンネル、分割領域チャンネル及び第2ヒートマップチャンネルを含み、N個の第2行列チャンネルとN個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とが対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとが対応関係を有する。
本出願の実施例において、画像処理機器を提供し、上記の方式で、画像の分割過程を2つの段階に分けて、第2段階の分割補助により、第1段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割結果の修正に大量の時間をかける必要がなく、画像分割のパフォーマンスを向上させる。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理機器30の他の実施例において、
取得モジュール301は具体的に、
処理対象画像に対する物体アノテーション命令を受信し、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点はターゲットオブジェクトの輪郭エッジを識別し、
物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。
好ましくは、複数の極値点の位置情報は、ターゲットオブジェクトの輪郭エッジの周囲をそれぞれ識別するための第1極値点位置情報、第2極値点位置情報、第3極値点位置情報及び第4極値点位置情報を含む。
そして、本出願の実施例において、極値点のアノテーション方法を提供し、上記の方式で、分割補助ツールを利用して、処理対象画像に対してアノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高く、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理装置30の他の実施例において、
取得モジュール301は具体的に、
第1アノテーション命令を受信し、第1アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の内部に位置し、Mは1以上の整数であり、
第1アノテーション命令に応答し、第1アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成する。
そして、本出願の実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する方法を提供し、上記の方式で、分割補助ツールを利用して、予備予測により得られた第1画像分割領域に対して2回アノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、2回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理機器30の他の実施例において、
取得モジュール301は具体的に、
第2アノテーション命令を受信し、第2アノテーション命令はM個のアノテーションポイントに対応し、アノテーションポイントは第1画像分割領域の外部に位置し、Mは1以上の整数であり、
第2アノテーション命令に応答し、第2アノテーション命令に対応するM個のアノテーションポイントに基づき、第2ヒートマップを生成する。
そして、本出願の実施例において、アノテーションポイントに基づき、第2ヒートマップを生成する他の方法を提供し、上記の方式で、分割補助ツールを利用して、予備予測により得られた第1画像分割領域に対して2回アノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、2回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。
好ましくは、上記の図16に対応する実施例に基づき、N個の第1行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、本出願の実施例が提供する画像処理機器30の他の実施例において、
生成モジュール302は具体的に、
分割対象画像における複数の極値点に基づき、第1ヒートマップを生成し、
分割対象画像に基づき、N個の画像行列を生成し、N個の画像行列は赤チャンネルに対応する第1画像行列、緑チャンネルに対応する第2画像行列、及び青チャンネルに対応する第3画像行列を含み、
第1ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第1画像特徴情報を生成する。
そして、本出願の実施例において、分割対象画像に基づき、第1画像特徴情報を生成する方法を提供し、上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して生成したヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理機器30の他の実施例において、N個の第2行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、
生成モジュール302はさらに、
分割対象画像に基づき、N個の画像行列を生成し、N個の画像行列は赤チャンネルに対応する第1画像行列、緑チャンネルに対応する第2画像行列、及び青チャンネルに対応する第3画像行列を含み、
第1画像分割領域、第2ヒートマップ、第1画像行列、第2画像行列及び第3画像行列に基づき、第2画像特徴情報を生成し、第2画像特徴情報は、第2画像分割領域を取得した場合、第2画像分割モデルの入力情報である。
そして、本出願の実施例において、分割対象画像に基づき、第2画像特徴情報を生成する方法を提供し、上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して生成したヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理機器30の他の実施例において、
取得モジュール301は具体的に、
第2画像分割モデルの符号器により第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得し、符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第2画像特徴情報の特徴マップを抽出し、middle flowモジュールは繰り返してT回実行し、Tは8より大きい整数であり、
第1特徴マップと第2特徴マップとをスプライシングし、ターゲット特徴マップを取得し、
第2画像分割モデルの復号器によりターゲット特徴マップを復号化し、第2画像分割領域を取得する。
そして、本出願の実施例において、第2画像分割モデルにより、第2画像分割領域を取得する方法を提供し、DeeplabV3+によるモデル構成を利用して画像分割領域を予測し、DeeplabV3+モデル構成の総体パラメータが少ないので、トレーニングであろうが、実際予測であろうが、いずれも速い実行速度を有し、分割補助ツールに応用された場合には、ユーザー操作により速く応答し、使用効率を向上させ、ユーザー粘度を強化させる。また、改良後のXceptionモデルを利用すれば、特徴抽出パフォーマンスを保証するとともに、深さ方向の分離可能な畳み込みを利用してモデルのサイズを低減させ、分割速度を向上させる。また、拡張空間ピラミッドを利用して、マルチ拡張率の畳み込み操作及びプーリング操作を構築し、マルチスケールの情報を取得し、モデルのマルチスケールのインスタンスに対する処理に寄与する。
好ましくは、上記の図16に対応する実施例に基づき、本出願の実施例が提供する画像処理機器30の他の実施例において、
取得モジュール301は具体的に、
第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得し、
第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成する。
さらに、本出願の実施例において、第2画像分割モデルを利用して復号化を行うことで、第2画像分割領域を取得する方法を提供し、まず第2画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第1画素点セット及び第2画素点セットを取得し、第1画素点セット及び第2画素点セットに基づき、第2画像分割領域を生成する。上記の方式で、技術案の実現に具体的な根拠を提供し、第2画像分割モデルの構成に基づき、特徴を復号化し、第2画像分割モデルの応用の信頼性を向上させる。
以下は、本出願のモデルトレーニング装置を詳しく説明し、図17を参照すると、図17は本出願の実施例における、画像処理機器の実施例の概略図であり、画像処理機器40は、取得モジュール401、生成モジュール402、決定モジュール403、トレーニングモジュール404を含み、
取得モジュール401は、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得するための取得モジュール401であって、第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
生成モジュール402は、トレーニング対象画像の実分割領域及び取得モジュール401により取得された第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するための生成モジュール402であって、トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
取得モジュール401は、トレーニング対象画像、第1予測分割領域、生成モジュール402により生成されたトレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
決定モジュール403は、取得モジュール401により取得された第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
トレーニングモジュール404は、決定モジュール403により決定されたモデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する。
本実施例において、取得モジュール401は、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、取得モジュール401は第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、第1画像分割モデルは予めトレーニングされた画像分割モデルであり、生成モジュール402はトレーニング対象画像の実分割領域及び取得モジュール401により取得された第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、取得モジュール401はトレーニング対象画像、第1予測分割領域、生成モジュール402から生成されたトレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、決定モジュール403は取得モジュール401により取得された第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、トレーニングモジュール404は決定モジュール403により決定されたモデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する。
本出願の実施例において、モデルのトレーニング方法を提供し、上記の方式で、第1段階の分割アルゴリズムに基づき、より高いmIOU値を取得し、第2画像分割モデルをトレーニングし得て、第1画像分割モデル及び第2画像分割モデルに基づき、画像の分割結果をより正確に予測することができる。
好ましくは、上記の図17に対応する実施例に基づき、本出願の実施例が提供する画像処理機器40の他の実施例において、
ターゲット損失関数は、以下
Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
のように示される。Lossはターゲット損失関数を示し、Pos_lossは第2予測分割領域の正のサンプル損失の和を示し、Neg_lossは第2予測分割領域の負のサンプル損失の和を示し、Pos_numは実分割領域の正のサンプルの数を示し、Neg_numは実分割領域の負のサンプルの数を示し、Total_numは正のサンプルの数と負のサンプルの数との和を示す。
そして、本出願の実施例において、正負のバランスを利用した交差エントロピー損失関数を提供することで、モデルがトレーニングする際、正負の損失をよりよく処理することができ、モデルが数の多い方向に傾斜してトレーニングの失敗を招致することを避け、トレーニングの信頼性を向上させる。
好ましくは、上記の図17に対応する実施例に基づき、本出願の実施例が提供する画像処理機器40の他の実施例において、
生成モジュール402は具体的に、
実分割領域及び第1予測分割領域に基づき、差異図を決定し、差異図は実分割領域と第1予測分割領域との不一致の領域を示し、
差異図に基づき、第1候補領域及び第2候補領域を決定し、
第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択し、
少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成する。
そして、本出願の実施例において、トレーニング対象ヒートマップを自動に生成する方法を提供し、即ち、実分割領域及び第1予測分割領域に基づき、差異図を決定し、差異図に基づき、第1候補領域及び第2候補領域を決定し、第1候補領域及び第2候補領域に基づき、少なくとも1つの差異点を選択し、最後に、少なくとも1つの差異点に基づき、トレーニング対象ヒートマップを生成する。上記の方式で、トレーニングの過程において、差異点のアノテーションに人間の関与の必要がなく、アテンションのメカニズムを利用して、予測マスクと実マスクとの差異点の生成箇所に、ガウス中心を生成し、ヒートマップを形成し、モデルの当該領域に対する注目を向上させる。
本出願の実施例はさらに別の画像処理機器を提供し、図18に示すように、説明を容易にするために、本出願の実施例と関連する部分のみを示し、記載していない具体的な技術細部は、本出願の実施例の方法部分を参照すればよい。本実施例において、画像処理機器は画像領域認識のための端末機器である。
当該端末機器は、スマートフォン、タブレット、携帯情報端末(Personal Digital Assistant、PDA)、販売端末機器(Point of Sales、POS)、車載コンピュータなどを含む任意の端末機器であってもよく、端末機器がスマートフォンであることを例とし、図18は、本出願の実施例が提供する端末機器と関連するスマートフォンの一部構成のブロック図を示す。図18を参照すると、スマートフォンは、無線周波数(Radio Frequency、RF)回路510、メモリ520、入力ユニット530、表示ユニット540、センサー550、オーディオ回路560、ワイヤレス・フィデリティ(wireless fidelity、Wi-Fi)モジュール570、プロセッサー580、及び電源590などの部材を含む。当業者が理解することができるように、図18に示すスマートフォン構成は、スマートフォンに対する限定ではなく、図示より多いまたは少ない部材、またはいくつかの部材の組み合わせ、或いは異なる部材配置を含んでもよい。
以下は図18とともに、スマートフォンの各構成部材について具体的に説明する。RF回路510は、情報の送受信、または通話過程での信号の受信及び送信に用いられ、特に、基地局のダウンリンク情報を受信した後、プロセッサー580に処理させる。また、アップリンクに設計されたデータを基地局に送信する。通常、RF回路510はアンテナ、少なくとも1つの増幅器、トランシーバ、結合器、低雑音増幅器(Low Noise Amplifier、LNA)、デュプレクサなどを含むが、これらに限定されない。また、RF回路510はさらに無線通信によりネットワーク及び他の装置と通信することができる。上記の無線通信は何れかの通信標準またはプロトコルを利用してもよく、グローバルモバイルシステムオブシステム(Global System of Mobilecommunication、GSM)、汎用パケット無線サービス(General Packet Radio Service、GPRS)、符号分割多元接続(Code Division Multiple Access、CDMA)、広帯域符号分割多元接続(Wideband Code Division Multiple Access、WCDMA)、ロングタームエボリューション(Long Term Evolution、LTE)、電子メール、ショートメッセージサービス(Short Messaging Service、SMS)などを含むが、これらに限定されない。
メモリ520は、ソフトウェアプログラム及びモジュールを記憶することができ、プロセッサー580はメモリ520に記憶されるソフトウェアプログラム及びモジュールを実行することで、スマートフォンの各種の機能アプリケーション及びデータ処理を実行する。メモリ520は主に、プログラム記憶領域及びデータ記憶領域を含み、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能の必要なアプリケーションプログラム(例えば、音再生機能、画像再生機能等)などを記憶することができ、データ記憶領域は、スマートフォンの使用に基づき構築されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。また、メモリ520は高速ランダムアクセスメモリを含んでもよいし、さらに、非揮発性メモリ、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリデバイス、または他の揮発性固体記憶装置を含んでもよい。
入力ユニット530は、入力された数字または文字情報を受信し、及びスマートフォンのユーザー配置及び機能制御に関するキー信号入力を発生させる。具体的に、入力ユニット530はタッチパネル531及び他の入力機器532を含む。タッチパネル531はタッチスクリーンとも呼ばれて、ユーザーによる、その上または付近のタッチ操作(例えば、ユーザーによる、指、タッチペンなどの任意の適切な物体または付属品を利用して、タッチパネル531の上またはタッチパネル531の付近の操作)を収集し、予め設定されたプログラムに基づき、相応する接続装置を駆動する。好ましくは、タッチパネル531はタッチ検出装置とタッチコントローラという2つの部分を含み、タッチ検出装置はユーザーのタッチ方位、及びタッチ操作による信号を検出し、信号をタッチコントローラに伝送し、タッチコントローラはタッチ検出装置からタッチ情報を受信し、接点座標に変換してから、プロセッサー580に伝送し、プロセッサー580から送信された命令を受信し、実行する。また、抵抗式、容量式、赤外線及び弾性表面波などのような多種のタイプを採用して、タッチパネル531を実現してもよい。タッチパネル531以外に、入力ユニット530はさらに他の入力機器532を含んでもよい。具体的に、他の入力機器532は、物理キーボード、機能キー(例えば、音量制御ボタン、スイッチボタンなど)、トラックボール、マウス、ジョイスティックなどのうちの1種または多種を含んでもよい。
表示ユニット540は、ユーザーにより入力された情報またはユーザーに提供した情報、及びスマートフォンの各種のメニューを表示する。表示ユニット540は表示パネル541を含み、好ましくは、液晶ディスプレイ(Liquid Crystal Display、LCD)、有機発光ダイオード(Organic Light-Emitting Diode、OLED)などの形態で、表示パネル541を配置する。さらに、タッチパネル531は表示パネル541をカバーすることができ、タッチパネル531はその上またはその付近のタッチ操作を検出した後、プロセッサー580に伝送することで、タッチイベントのタイプを決定し、その後、プロセッサー580はタッチイベントのタイプに基づき、表示パネル541で、相応する視覚出力を提供する。図18において、タッチパネル531と表示パネル541とは2つの独立部材として、スマートフォンの入力及び出力機能を実現するが、いくつかの実施例において、タッチパネル531と表示パネル541とを集積させることで、スマートフォンの入力及び出力機能を実現してもよい。
スマートフォンはさらに、少なくとも1種のセンサー550を含み、例えば、光センサー、モーションセンサー及び他のセンサーである。具体的に、光センサーは環境光センサー及び近接センサーを含み、環境光センサーは環境光線の明暗に基づき、表示パネル541の輝度を調整し、近接センサーはスマートフォンが耳元に移動されると、表示パネル541及び/またはバックライトをシャットダウンすることができる。モーションセンサーの1種として、加速度計センサーは各方向(一般的に、3軸である)の加速度の大きさを検出することができ、静止の際、重力の大きさ及方向を検出することができ、スマートフォンの姿勢を認識するためのアプリケーション(例えば、水平及び垂直画面の切り替え、関連ゲーム、磁力計姿勢校正)、振動認識の関連機能(例えば、歩数計、タッピング)などに適用される。スマートフォンに配置することができるジャイロ、気圧計、湿度計、温度計、赤外線センサーなどの他のセンサーについて、ここで、贅言を要しない。
オーディオ回路560、スピーカ561、マイクロフォン562は、ユーザーとスマートフォンとの間のオーディオインターフェースを提供することができる。オーディオ回路560は、受信したオーディオデータの変換後の電気信号をスピーカ561に伝送し、スピーカ561により音声信号に変換して出力し、また、マイクロフォン562は収集した音声信号を電気信号に変換し、オーディオ回路560により受信した後、オーディオデータに変換し、オーディオデータをプロセッサー580に出力し処理した後、RF回路510により、例えば、別のフォンに送信するか、または、オーディオデータをメモリ520に出力し、さらに処理させてもよい。
WiFiは短距離無線伝送技術に属して、スマートフォンはWiFiモジュール570により、ユーザーの、電子メールに対する送受信、ウェブページに対する閲覧、及びストリーミングメディアに対するアクセスなどに寄与し、ユーザーに無線のブロードバンドインターネットアクセスを提供する。図18はWiFiモジュール570を示しているが、スマートフォンの必須な構成ではなく、ニーズに基づき、発明の本質を変更しない範囲内で、省略してもよい。
プロセッサー580は、スマートフォンの制御センターであり、各種のインターフェース及び回路を利用して、スマートフォン全体の各部分を接続することができ、メモリ520内に記憶されるソフトウェアプログラム及び/またはモジュールを運転または実行し、及びメモリ520内に記憶されるデータを呼び出し、スマートフォンの各種の機能及び処理データを実行することで、スマートフォン全体を監視する。好ましくは、プロセッサー580は1つまたは複数の処理ユニットを含み、好ましくは、プロセッサー580にはアプリケーションプロセッサー及びモデムプロセッサーが集積されてもよく、アプリケーションプロセッサーは主に、オペレーティングシステム、ユーザーインターフェース及びアプリケーションプログラムなどを処理し、モデムプロセッサーは主に、無線通信を処理する。上記のモデムプロセッサーはプロセッサー580に集積されなくてもよい。
スマートフォンはさらに、各部材に給電するための電源590(例えばバッテリ)を含んでもよく、好ましくは、電源は電源管理システムによりプロセッサー580に論理接続されることで、電源管理システムにより充電、放電に対する管理、及び電力消費管理などの機能を実現する。
スマートフォンはさらに、カメラ、ブルートゥースモジュールなどを含んでもよく(開示せず)、ここで、贅言を要しない。
本出願の実施例において、当該端末機器に含まれるプロセッサー580はさらに、
複数の極値点を含む分割対象画像を取得する機能と、
分割対象画像に基づき、第1画像特徴情報を生成する機能であって、第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、第1ヒートマップが複数の極値点に基づき生成され、Nが1以上の整数である機能と、
第1画像分割モデルにより第1画像特徴情報に対応する第1画像分割領域を取得する機能であって、第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、N個の第1行列チャンネルとN個の画像行列とが一対一対応の関係を有し、第1ヒートマップチャンネルと第1ヒートマップとが対応関係を有する機能と、
第1画像分割領域に対応するアノテーションポイント、及び第1画像分割領域に基づき、第2ヒートマップを取得する機能と、
第2画像分割モデルにより分割対象画像に対応する第2画像分割領域を取得する機能であって、第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、N個の第2行列チャンネルとN個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第1画像分割領域とが対応関係を有し、第2ヒートマップチャンネルと第2ヒートマップとが対応関係を有する機能と、
第2画像分割領域に基づき、分割対象画像の画像認識結果を生成する機能と、を有する。
図19は、本出願の実施例が提供するサーバーの構成概略図であり、当該サーバー600は画像処理機器の可能な実現形態である。当該サーバー600は配置またはパフォーマンスにより、大きい差が生じて、1つまたは複数の中央処理装置(central processing units、CPU)622(例えば、1つまたは1つ以上のプロセッサー)及びメモリ632、1つまたは複数の記憶アプリケーションプログラム642、或いはデータ644の記憶媒体630(例えば、1つまたは1つ以上の大容量記憶装置)を含む。メモリ632及び記憶媒体630は一時記憶または持続記憶であってもよい。記憶媒体630に記憶されるプログラムは、1つまたは複数のモジュール(図示せず)を含み、各モジュールはサーバーに対する一連の命令操作を含む。さらに、中央処理装置622は、記憶媒体630と通信することができ、サーバー600で記憶媒体630の一連の命令操作を実行するように配置される。
サーバー600はさらに、1つまたは複数の電源626、1つまたは複数の有線または無線ネットワークインターフェース650、1つまたは複数の入出力インターフェース658、及び/または、1つまたは複数のオペレーティングシステム641、例えばWindowsServerTM、MacOSXTM、UnixTM、LinuxTM、FreeBSDTMなどを含んでもよい。
上記の実施例において、サーバーにより実行されるステップは、当該図19に示すサーバー構成に基づく。
本出願の実施例において、当該サーバーに含まれるCPU622はさらに、
少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得する機能と、
第1画像分割モデルによりトレーニング対象画像の第1予測分割領域を取得する機能であって、第1画像分割モデルは予めトレーニングされた画像分割モデルである機能と、
トレーニング対象画像の実分割領域及び第1予測分割領域に基づき、トレーニング対象ヒートマップを生成する機能であって、トレーニング対象ヒートマップは少なくとも1つの差異点から生成される機能と、
トレーニング対象画像、第1予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得する機能と、
第2予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定する機能と、
モデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する機能と、を有する。
説明を容易及び簡潔にするために、上記に記載のシステム、装置及びユニットの具体的な動作過程について、方法実施例における対応する過程を参照すればよいので、ここで、贅言を要しない。
また、本出願の実施例はさらに、コンピュータプログラムを記憶するための記憶媒体を提供し、コンピュータプログラムは上記の実施例から提供される方法を実行する。
本出願の実施例はさらに、命令を含むコンピュータプログラム製品を提供し、コンピュータプログラム製品はコンピュータで実行される場合、コンピュータに上記の実施例から提供される方法を実行させる。
本出願に提供されるいくつかの実施例においては、開示のシステム、装置、及び方法を他の方式で実現することもできる。例えば、以上に記載の装置の実施例はただ例示的なものである。例えば、ユニットに対する区画は論理的な機能区画で、実際の実現に際しては他の区画とすることもできる。例えば、複数のユニットまたはモジュールは結合されるか、または別のシステムに集積されてもよく、いくつかの特徴は無視、または実行されなくてもよい。また、記載または説明した相互の間の結合または直接結合、或いは通信接続は、特定のインターフェースにより実現することもできる。装置の間またはユニットの間の間接結合または通信接続は、電気的、機械的、または他の形態として実現することができる。
個別部材として説明したユニットは物理的に分離されてもよく、そうでなくてもよく、ユニットとして表示した部材は、物理的ユニットであってもよく、そうではなくてもよく、1箇所に位置してもよく、複数のネットワークユニットに分散されてもよい。実際のニーズに基づき、そのうちの一部または全てのユニットを選択して、本実施例の技術案の目的を達成することもできる。
また、本出願の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよいし、各ユニットは物理的に独立して存在してもよく、または2つ或いは2つ以上のユニットは1つのユニットに集積されてもよい。上記の集積されたユニットはハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。
集積されたユニットはソフトウェア機能ユニットの形態で実現され、独立の製品として販売されるか、または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶することができる。このような理解に基づき、本出願の技術案の本質、または従来技術に寄与する部分、または当該技術案の全部或いはその一部は、ソフトウェア製品の形態で表現することができ、当該ソフトウェア製品は記憶媒体に記憶されており、コンピュータ機器(パーソナルコンピュータ、サーバー、またはネットワーク機器であってもよい)に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。上記の記憶媒体は、Uディスク、モバイルハードドライブ、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク、または光ディスクなどのような、プログラムコードを記憶することができる任意の媒体を含む。
上記のように、以上の実施例は本出願の技術案を限定せず、ただ説明するためのものである。前記実施例を参照して、本出願を詳しく説明したが、当業者が理解することができるように、依然として、前記各実施例に記載の技術案を修正するか、またはその一部の技術特徴に対して等価置換を行ってもよく、これらの修正または置換は、相応する技術案の本質を本出願の各実施例の技術案の精神及び範囲から逸脱させることがない。

Claims (17)

  1. 画像処理機器により実行される画像領域の認識方法であって、
    複数の極値点を含む分割対象画像を取得するステップと、
    前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
    第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが1対1対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
    前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
    第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
    前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を含む方法。
  2. 前記分割対象画像を取得する前記ステップは、
    処理対象画像に対する物体アノテーション命令を受信するステップであって、前記処理対象画像はターゲットオブジェクトを含み、前記物体アノテーション命令は、前記ターゲットオブジェクトに対応する複数の極値点の位置情報を含み、前記複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別するためのものであるステップと、
    前記物体アノテーション命令に応答し、前記処理対象画像に基づき、前記分割対象画像を生成するステップと、を含む請求項1に記載の方法。
  3. 前記複数の極値点の位置情報は、前記ターゲットオブジェクトの輪郭エッジの四囲をそれぞれ識別するための第1極値点位置情報、第2極値点位置情報、第3極値点位置情報及び第4極値点位置情報を含む請求項2に記載の方法。
  4. 前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得する前記ステップは、
    第1アノテーション命令を受信するステップであって、前記第1アノテーション命令はM個のアノテーションポイントに対応し、前記アノテーションポイントは前記第1画像分割領域の内部に位置し、前記Mは1以上の整数であるステップと、
    前記第1アノテーション命令に応答し、前記第1アノテーション命令に対応する前記M個のアノテーションポイントに基づき、前記第2ヒートマップを生成するステップと、を含み、
    または、前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得する前記ステップは、
    第2アノテーション命令を受信するステップであって、前記第2アノテーション命令はM個のアノテーションポイントに対応し、前記アノテーションポイントは前記第1画像分割領域の外部に位置し、前記Mは1以上の整数であるステップと、
    前記第2アノテーション命令に応答し、前記第2アノテーション命令に対応する前記M個のアノテーションポイントに基づき、前記第2ヒートマップを生成するステップと、を含む請求項1に記載の方法。
  5. 前記N個の第1行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
    前記分割対象画像に基づき、第1画像特徴情報を生成する前記ステップは、
    前記分割対象画像における前記複数の極値点に基づき、前記第1ヒートマップを生成するステップと、
    前記分割対象画像に基づき、N個の画像行列を生成するステップであって、前記N個の画像行列は、前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含むステップと、
    前記第1ヒートマップ、前記第1画像行列、前記第2画像行列及び前記第3画像行列に基づき、前記第1画像特徴情報を生成するステップと、を含む請求項1に記載の方法。
  6. 前記N個の第2行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
    前記N個の画像行列は、前記分割対象画像に基づき、N個の画像行列を生成することにより決定され、
    前記N個の画像行列は、前記赤チャンネルに対応する第1画像行列、前記緑チャンネルに対応する第2画像行列、及び前記青チャンネルに対応する第3画像行列を含み、
    前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得した後、前記方法はさらに、
    前記第1画像分割領域、前記第2ヒートマップ、前記第1画像行列、前記第2画像行列及び前記第3画像行列に基づき、第2画像特徴情報を生成するステップであって、前記第2画像特徴情報は、前記第2画像分割領域を取得した場合、前記第2画像分割モデルの入力情報であるステップを含む請求項1に記載の方法。
  7. 前記第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得する前記ステップは、
    前記第2画像分割モデルの符号器により、前記第2画像特徴情報を符号化し、第1特徴マップ及び第2特徴マップを取得するステップであって、前記符号器はmiddle flowモジュール及び拡張深さ方向の分離可能な畳み込みを含み、前記拡張深さ方向の分離可能な畳み込みは前記第2画像特徴情報の特徴マップを抽出し、前記middle flowモジュールは繰り返してT回実行し、前記Tは8より大きい整数であるステップと、
    前記第1特徴マップと前記第2特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
    前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第2画像分割領域を取得するステップと、を含む請求項6に記載の方法。
  8. 前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第2画像分割領域を取得するステップは、
    前記第2画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、複数の第1画素点を含む第1画素点セット、及び第2画素点を含む第2画素点セットを取得するステップと、
    前記第1画素点セット及び前記第2画素点セットに基づき、前記第2画像分割領域を生成するステップと、を含む請求項7に記載の方法。
  9. 画像処理機器により実行されるモデルのトレーニング方法であって、
    少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
    第1画像分割モデルにより、前記トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
    前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
    前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
    前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
    前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を含む方法。
  10. 前記ターゲット損失関数は、
    Loss=Pos_loss*(Neg_num/Total_num)+Neg_loss*(Pos_num/Total_num)
    によって表され、
    前記Lossは前記ターゲット損失関数を示し、前記Pos_lossは前記第2予測分割領域の正のサンプル損失の和を示し、前記Neg_lossは前記第2予測分割領域の負のサンプル損失の和を示し、前記Pos_numは前記実分割領域の正のサンプルの数を示し、前記Neg_numは前記実分割領域の負のサンプルの数を示し、前記Total_numは前記正のサンプルの数と前記負のサンプルの数との和を示す請求項9に記載の方法。
  11. 前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成する前記ステップは、
    前記実分割領域及び前記第1予測分割領域に基づき、差異図を決定するステップであって、前記差異図は前記実分割領域と前記第1予測分割領域との不一致の領域を示すステップと、
    前記差異図に基づき、第1候補領域及び第2候補領域を決定するステップと、
    前記第1候補領域及び前記第2候補領域に基づき、前記少なくとも1つの差異点を選択するステップと、
    前記少なくとも1つの差異点に基づき、前記トレーニング対象ヒートマップを生成するステップと、を含む請求項9に記載の方法。
  12. 画像処理機器であって、
    複数の極値点を含む分割対象画像を取得する取得モジュールと、
    前記取得モジュールにより取得された前記分割対象画像に基づき、第1画像特徴情報を生成する生成モジュールであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数である、前記生成モジュールと、を含み、
    前記取得モジュールは、
    第1画像分割モデルにより、前記生成モジュールにより生成された前記第1画像特徴情報に対応する第1画像分割領域を取得し、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有し、
    前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得し、
    第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得し、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有する、
    よう構成され、
    前記生成モジュールは、前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するよう構成される、画像処理機器。
  13. 画像処理機器であって、
    取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
    前記取得モジュールは、少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得し、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであり、
    前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成され、
    前記取得モジュールは、前記トレーニング対象画像、前記第1予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得し、
    前記決定モジュールは、前記取得モジュールにより取得された前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
    前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得する、画像処理機器。
  14. メモリ、送受信機、プロセッサー及びバスシステムを含む端末機器であって、
    前記メモリは、プログラムを記憶し、
    前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
    複数の極値点を含む分割対象画像を取得するステップと、
    前記分割対象画像に基づき、第1画像特徴情報を生成するステップであって、前記第1画像特徴情報はN個の画像行列及び第1ヒートマップを含み、前記第1ヒートマップは前記複数の極値点に基づき生成され、前記Nが1以上の整数であるステップと、
    第1画像分割モデルにより、前記第1画像特徴情報に対応する第1画像分割領域を取得するステップであって、前記第1画像分割モデルは第1ヒートマップチャンネル及びN個の第1行列チャンネルを含み、前記N個の第1行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記第1ヒートマップチャンネルと前記第1ヒートマップとが対応関係を有するステップと、
    前記第1画像分割領域に対応するアノテーションポイント、及び前記第1画像分割領域に基づき、第2ヒートマップを取得するステップと、
    第2画像分割モデルにより、前記分割対象画像に対応する第2画像分割領域を取得するステップであって、前記第2画像分割モデルは分割領域チャンネル、第2ヒートマップチャンネル及びN個の第2行列チャンネルを含み、前記N個の第2行列チャンネルと前記N個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第1画像分割領域とが対応関係を有し、前記第2ヒートマップチャンネルと前記第2ヒートマップとが対応関係を有するステップと、
    前記第2画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
    前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、端末機器。
  15. メモリ、送受信機、プロセッサー及びバスシステムを含むサーバーであって、
    前記メモリは、プログラムを記憶し、
    前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
    少なくとも1つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
    第1画像分割モデルにより、トレーニング対象画像の第1予測分割領域を取得するステップであって、前記第1画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
    前記トレーニング対象画像の実分割領域及び前記第1予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも1つの差異点から生成されるステップと、
    前記トレーニング対象画像、前記第1予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第2予測分割領域を取得するステップと、
    前記第2予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
    前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第2画像分割モデルを取得するステップと、を実行するよう構成され、
    前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、サーバー。
  16. コンピュータプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体と、プロセッサーとを含むコンピュータ機器であって、
    前記コンピュータプログラムが前記プロセッサーによって実行される場合、請求項1~8の何れかの1項に記載の方法、または、請求項9~11の何れかの1項に記載の方法を実行するコンピュータ機器。
  17. 命令を含むコンピュータプログラムであって、コンピュータで実行される場合、前記コンピュータに、請求項1~8の何れかの1項に記載の方法、または、請求項9~11の何れかの1項に記載の方法を実行させるコンピュータプログラム。
JP2021537734A 2019-06-20 2020-06-16 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム Active JP7238139B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910537529.XA CN110232696B (zh) 2019-06-20 2019-06-20 一种图像区域分割的方法、模型训练的方法及装置
CN201910537529.X 2019-06-20
PCT/CN2020/096237 WO2020253663A1 (zh) 2019-06-20 2020-06-16 基于人工智能的图像区域识别方法、模型训练方法及装置

Publications (2)

Publication Number Publication Date
JP2022515620A true JP2022515620A (ja) 2022-02-21
JP7238139B2 JP7238139B2 (ja) 2023-03-13

Family

ID=67856917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537734A Active JP7238139B2 (ja) 2019-06-20 2020-06-16 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11983881B2 (ja)
EP (1) EP3989166A4 (ja)
JP (1) JP7238139B2 (ja)
CN (1) CN110232696B (ja)
WO (1) WO2020253663A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232696B (zh) 2019-06-20 2024-03-08 腾讯科技(深圳)有限公司 一种图像区域分割的方法、模型训练的方法及装置
KR20210042696A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 모델 학습 방법 및 장치
CN110826449A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 基于轻量型卷积神经网络的非机动车再识别目标检索方法
CN110910405B (zh) * 2019-11-20 2023-04-18 湖南师范大学 基于多尺度空洞卷积神经网络的脑肿瘤分割方法及系统
CN110889858A (zh) * 2019-12-03 2020-03-17 中国太平洋保险(集团)股份有限公司 一种基于点回归的汽车部件分割方法及装置
CN111210439B (zh) * 2019-12-26 2022-06-24 中国地质大学(武汉) 通过抑制非感兴趣信息的语义分割方法、设备及存储设备
CN111259900A (zh) * 2020-01-13 2020-06-09 河海大学 一种卫星遥感图像的语义分割方法
CN111325714B (zh) * 2020-01-21 2024-03-26 上海联影智能医疗科技有限公司 感兴趣区域的处理方法、计算机设备和可读存储介质
CN113221897B (zh) * 2020-02-06 2023-04-18 马上消费金融股份有限公司 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN111445440B (zh) * 2020-02-20 2023-10-31 上海联影智能医疗科技有限公司 一种医学图像分析方法、设备和存储介质
JP7446903B2 (ja) * 2020-04-23 2024-03-11 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
CN111582104B (zh) * 2020-04-28 2021-08-06 中国科学院空天信息创新研究院 基于自注意特征聚合网络的遥感图像语义分割方法及装置
CN111598900B (zh) * 2020-05-18 2022-08-09 腾讯医疗健康(深圳)有限公司 一种图像区域分割模型训练方法、分割方法和装置
US11823379B2 (en) * 2020-08-05 2023-11-21 Ping An Technology (Shenzhen) Co., Ltd. User-guided domain adaptation for rapid annotation from user interactions for pathological organ segmentation
CN112116612A (zh) * 2020-09-15 2020-12-22 南京林业大学 基于Mask R-CNN的行道树图像实例分割方法
CN112258431B (zh) * 2020-09-27 2021-07-20 成都东方天呈智能科技有限公司 基于混合深度可分离膨胀卷积的图像分类模型及其分类方法
CN112634282B (zh) * 2020-12-18 2024-02-13 北京百度网讯科技有限公司 图像处理方法、装置以及电子设备
CN112529894B (zh) * 2020-12-22 2022-02-15 徐州医科大学 一种基于深度学习网络的甲状腺结节的诊断方法
CN112633148B (zh) * 2020-12-22 2022-08-09 杭州景联文科技有限公司 一种签名指印真假检测方法及系统
CN113538456B (zh) * 2021-06-22 2022-03-18 复旦大学 基于gan网络的图像软分割及背景替换系统
CN113608805B (zh) * 2021-07-08 2024-04-12 阿里巴巴创新公司 掩膜预测方法、图像处理方法、显示方法及设备
CN113989251B (zh) * 2021-11-02 2022-05-24 河南中平自动化股份有限公司 一种矿用煤矸分选智能控制系统及方法
CN113850249A (zh) * 2021-12-01 2021-12-28 深圳市迪博企业风险管理技术有限公司 一种图表信息格式化提取方法
CN114187318B (zh) * 2021-12-10 2023-05-05 北京百度网讯科技有限公司 图像分割的方法、装置、电子设备以及存储介质
CN114049569B (zh) * 2022-01-13 2022-03-18 自然资源部第三地理信息制图院 一种深度学习模型性能评价方法及系统
CN116934769A (zh) * 2022-03-29 2023-10-24 北京字跳网络技术有限公司 交互式分割模型训练方法、标注数据生成方法及设备
CN114918944A (zh) * 2022-06-02 2022-08-19 哈尔滨理工大学 基于卷积神经网络融合的家庭服务机器人抓取检测方法
CN115272288B (zh) * 2022-08-22 2023-06-02 杭州微引科技有限公司 一种医学图像标记点自动识别方法、电子设备及存储介质
CN115861739B (zh) * 2023-02-08 2023-07-14 海纳云物联科技有限公司 图像分割模型的训练方法、装置、设备、存储介质及产品
CN116020122B (zh) * 2023-03-24 2023-06-09 深圳游禧科技有限公司 游戏攻略推荐方法、装置、设备及存储介质
CN116071376B (zh) * 2023-04-04 2023-06-20 江苏势通生物科技有限公司 图像分割方法及相关装置、设备和存储介质
CN116188995B (zh) * 2023-04-13 2023-08-15 国家基础地理信息中心 一种遥感图像特征提取模型训练方法、检索方法及装置
CN116563615B (zh) * 2023-04-21 2023-11-07 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131075B2 (en) * 2007-03-29 2012-03-06 Siemens Aktiengesellschaft Fast 4D segmentation of large datasets using graph cuts
JP5959168B2 (ja) * 2011-08-31 2016-08-02 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、及び画像処理プログラム
US9740957B2 (en) * 2014-08-29 2017-08-22 Definiens Ag Learning pixel visual context from object characteristics to generate rich semantic images
US9805248B2 (en) * 2014-08-29 2017-10-31 Definiens Ag Applying pixelwise descriptors to a target image that are generated by segmenting objects in other images
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
CN111343917B (zh) * 2017-08-31 2023-08-01 泽图公司 用于托管对高分辨率脑电图数据的移动访问的方法
CN107657619B (zh) * 2017-10-13 2019-03-01 西安科技大学 一种低照度林火图像分割方法
CN110210487A (zh) * 2019-05-30 2019-09-06 上海商汤智能科技有限公司 一种图像分割方法及装置、电子设备和存储介质
CN110276344B (zh) * 2019-06-04 2023-11-24 腾讯科技(深圳)有限公司 一种图像分割的方法、图像识别的方法以及相关装置
CN110232696B (zh) * 2019-06-20 2024-03-08 腾讯科技(深圳)有限公司 一种图像区域分割的方法、模型训练的方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BENENSON, R. ET AL.: "Large-Scale Interactive Object Segmentation With Human Annotators", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6022034556, 15 June 2019 (2019-06-15), pages 11692 - 11701, XP033686781, ISSN: 0004855219, DOI: 10.1109/CVPR.2019.01197 *
CHEN, L.-C. ET AL., ENCODER-DECODER WITH ATROUS SEPARABLE CONVOLUTION FOR SEMANTIC IMAGE SEGMENTATION [ONLINE], JPN6022034559, 22 August 2018 (2018-08-22), pages 1 - 18, ISSN: 0004855222 *
KERVADEC, H. ET AL., BOUNDARY LOSS FOR HIGHLY UNBALANCED SEGMENTATION [ONLINE], JPN6022034560, 17 December 2018 (2018-12-17), pages 1 - 12, ISSN: 0004855223 *
MANINIS, K.-K. ET AL.: "Deep Extreme Cut: From Extreme Points to Object Segmentation", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION [ONLINE], JPN6022034557, 18 June 2018 (2018-06-18), pages 616 - 625, XP033476022, ISSN: 0004855220, DOI: 10.1109/CVPR.2018.00071 *
WANG, Z. ET AL.: "Object Instance Annotation With Deep Extreme Level Set Evolution", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6022034558, 15 June 2019 (2019-06-15), pages 7492 - 7500, XP033687494, ISSN: 0004855221, DOI: 10.1109/CVPR.2019.00768 *

Also Published As

Publication number Publication date
EP3989166A4 (en) 2022-08-17
CN110232696A (zh) 2019-09-13
EP3989166A1 (en) 2022-04-27
WO2020253663A1 (zh) 2020-12-24
US11983881B2 (en) 2024-05-14
JP7238139B2 (ja) 2023-03-13
US20210366123A1 (en) 2021-11-25
CN110232696B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
JP7238139B2 (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
WO2020244373A1 (zh) 基于人工智能的图像识别方法以及相关装置
CN109635621B (zh) 用于第一人称视角中基于深度学习识别手势的系统和方法
WO2020192471A1 (zh) 一种图像分类模型训练的方法、图像处理的方法及装置
JP7130057B2 (ja) 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム
EP3940638A1 (en) Image region positioning method, model training method, and related apparatus
US20210295483A1 (en) Image fusion method, model training method, and related apparatuses
CN109543195A (zh) 一种文本翻译的方法、信息处理的方法以及装置
CN111860485B (zh) 图像识别模型的训练方法、图像的识别方法、装置、设备
CN113076814B (zh) 文本区域的确定方法、装置、设备及可读存储介质
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
CN112101329A (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN115471662B (zh) 语义分割模型的训练方法、识别方法、装置和存储介质
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN116543076B (zh) 图像处理方法、装置、电子设备及存储介质
CN116310315A (zh) 抠图方法、装置、电子设备以及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN113723168A (zh) 一种基于人工智能的主体识别方法、相关装置及存储介质
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN114550185B (zh) 一种文档生成的方法、相关装置、设备以及存储介质
CN112785687A (zh) 图像处理方法、装置、电子设备和可读存储介质
CN117635715A (zh) 位姿确定方法、虚拟形象生成方法及模型的训练方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230301

R150 Certificate of patent or registration of utility model

Ref document number: 7238139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150