JP2022515620A

JP2022515620A - 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2022515620A
Application number: JP2021537734A
Authority: JP
Inventors: ワン，ルォイチェン; ワン，シアオリ; ヤン，グォイシア; チェン，チュチョン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-06-20
Filing date: 2020-06-16
Publication date: 2022-02-21
Anticipated expiration: 2040-06-16
Also published as: EP3989166A4; CN110232696A; EP3989166A1; WO2020253663A1; US11983881B2; JP7238139B2; US20210366123A1; CN110232696B

Abstract

本出願は人工知能による画像領域の認識方法、モデルのトレーニング方法及び装置を開示している。画像領域の認識方法であって、複数の極値点を含む分割対象画像を取得するステップ（１０１）と、分割対象画像に基づき、第１画像特徴情報を生成するステップであって、第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、第１ヒートマップは複数の極値点に基づき生成されるステップ（１０２）と、第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得するステップ（１０３）と、第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得するステップ（１０４）と、第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得するステップ（１０５）と、前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップ（１０６）とを含む。当該方法は第２段階の分割補助により、第１段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像の分割結果を得て、画像分割のパフォーマンスを向上させる。

Description

［関連出願への相互参照］
本出願は、２０１９年０６月２０日にて中国特許庁に提出され、出願番号が２０１９１０５３７５２９.Ｘであり、出願の名称が「画像領域の分割方法、モデルのトレーニング方法及び装置」である中国特許出願の優先権を主張して、その全ての内容は本出願に援用される。

［技術分野］
本出願は、人工知能分野に関し、特に、画像領域の分割及び認識に関する。

コンピュータ技術の発展に連れて、画像分割技術の応用はますます幅広くなり、例えば、医学画像分割及び自然画像分割などがある。画像分割技術は、画像を独特な性質を有するいくつかの特定の領域に分けて、興味あるターゲットを提示する技術を指す。例えば、人体組織画像分割のシーンにおいて、医学画像を分割して、分割した画像から、人体の各組織を明らかに区別するようにする。

現在、分割を補助するためのツールが提供されており、まず、ユーザーは画像において、１つのバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ、ｂｂｏｘ）を描き出し、当該ｂｂｏｘは、アノテーション対象のターゲットボックスを選択する必要があり、そしてニューラルネットワークモデルにより、当該アノテーション対象ターゲットの多角形の分割結果を出力し、分割結果が正確でない場合には、ユーザーは当該結果を修正することができる。

本出願の実施例は、人工知能による画像領域の認識方法、モデルのトレーニング方法及び装置を提供することで、第２段階の分割補助により、第１段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割の能力を向上させる。

これに鑑みて、本出願の第１態様は、画像処理機器により実行される画像領域の認識方法を提供し、前記方法は、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第１画像特徴情報を生成するステップであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップは前記複数の極値点に基づき生成され、前記Ｎが１以上の整数であるステップと、
第１画像分割モデルにより、前記第１画像特徴情報に対応する第１画像分割領域を取得するステップであって、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有するステップと、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得するステップと、
第２画像分割モデルにより、前記分割対象画像に対応する第２画像分割領域を取得するステップであって、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有するステップと、を含む。

本出願の第２態様は画像処理機器により実行されるモデルのトレーニング方法を提供し、前記方法は、
少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第１画像分割モデルにより前記トレーニング対象画像の第１予測分割領域を取得するステップであって、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第１予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得するステップと、
前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得するステップと、を含む。

本出願の第３態様は画像処理機器を提供し、
複数の極値点を含む分割対象画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記分割対象画像に基づき、第１画像特徴情報を生成する生成モジュールであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップが前記複数の極値点に基づき生成され、前記Ｎが１以上の整数である、前記生成モジュールと、を含み、
前記取得モジュールは、
第１画像分割モデルにより前記生成モジュールから生成された前記第１画像特徴情報に対応する第１画像分割領域を取得し、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有し、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得し、
第２画像分割モデルにより前記分割対象画像に対応する第２画像分割領域を取得し、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有する、
よう構成され、
前記生成モジュールは、前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成する。

本出願の第４態様は画像処理機器を提供し、
取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
前記取得モジュールは、少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第１画像分割モデルにより、トレーニング対象画像の第１予測分割領域を取得し、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであり、
前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成され、
前記取得モジュールは、前記トレーニング対象画像、前記第１予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得し、
前記決定モジュールは、前記取得モジュールにより取得された前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得する。

本出願の第５態様は、メモリ、送受信機、プロセッサー及びバスシステムを含む端末機器を提供し、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第１画像特徴情報を生成するステップであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップが前記複数の極値点に基づき生成され、前記Ｎが１以上の整数であるステップと、
第１画像分割モデルにより前記第１画像特徴情報に対応する第１画像分割領域を取得するステップであって、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有するステップと、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得するステップと、
第２画像分割モデルにより前記分割対象画像に対応する第２画像分割領域を取得するステップであって、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが一対一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有するステップと、
前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して前記メモリと前記プロセッサーとを通信させる。

本出願の第６態様は、メモリ、送受信機、プロセッサー及びバスシステムを含むサーバーを提供し、
前記メモリはプログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第１画像分割モデルによりトレーニング対象画像の第１予測分割領域を取得するステップであって、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第１予測分割領域に基づき、待トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第１予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得するステップと、
前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得するステップと、を実行するよう構成され、
前記バスシステムは前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる。

本出願の第７態様はコンピュータプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムは上記の各態様に記載の方法を実行する。

本出願の第８態様は命令を含むコンピュータプログラムを提供し、前記コンピュータプログラムはコンピュータで実行される場合、前記コンピュータに上記の各態様に記載の方法を実行させる。

以上の技術案から分かるように、本出願の実施例の利点は少なくとも以下を含み、即ち、
本出願の実施例において、画像領域の認識方法を提供し、まず複数の極値点を含む分割対象画像を取得し、分割対象画像に基づき、第１画像特徴情報を生成し、第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得し、第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得し、最後に、第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得する。上記の方式で、画像の分割過程を２つの段階に分けて、第２段階の分割補助により、第１段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を得て、画像の分割結果を修正するのに大量の時間を要する必要がなく、画像分割のパフォーマンスを向上させ、第２画像分割領域に基づき、分割対象画像の画像認識結果を生成し、画像認識の精度を向上させる。

本出願の実施例における画像領域認識システムのアーキテクチャ概略図である。本出願の実施例における画像領域の認識方法のフロー概略図である。本出願の実施例における画像領域の認識方法の実施例の概略図である。本出願の実施例における４つの極値点に対する選択の実施例の概略図である。本出願の実施例における第１画像分割モデルが、第１画像分割領域に戻る実施例の概略図である。本出願の実施例における、第１画像分割領域による１つのアノテーション位置の概略図である。本出願の実施例における、第１画像分割領域による他のアノテーション位置の概略図である。本出願の実施例における、第１画像特徴情報を生成する実施例の概略図である。本出願の実施例における、第２画像特徴情報を生成する実施例の概略図である。本出願の実施例における第２画像分割モデルの構成概略図である。本出願の実施例におけるＸｃｅｐｔｉｏｎモデルの構成概略図である。本出願の実施例における拡張深さ方向に分離可能な畳み込みの概略図である。本出願の実施例におけるモデルのトレーニング方法の実施例の概略図である。本出願の実施例におけるインスタンスのオリジナル画像の概略図である。本出願の実施例における、差異点に対する選択の実施例の概略図である。本出願の実施例における画像処理機器の実施例の概略図である。本出願の実施例における画像処理機器の実施例の概略図である。本出願の実施例における端末機器の構成概略図である。本出願の実施例におけるサーバーの構成概略図である。

本出願の実施例は、画像領域の分割方法、モデルのトレーニング方法及び装置を提供し、第２段階の分割補助により、第１段階の画像分割において効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割の能力を向上させる。

本願の明細書、請求項、及び図面における「第１」、「第２」、「第３」、「第４」など（存在すれば）の用語は、特定の順番または前後順序を説明するためのものではなく、類似した対象を区別するためのものである。このように使用するデータは適切な場合に互いに交換することができ、ここで説明する本出願の実施例は、本明細書に図示または説明する順番以外の順番で実行することができる。また、用語「含む」、「対応する」及びそれらの如何なる変形も、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、明示されているステップまたはユニットに限定されず、明示されていないもの、またはこれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含むことができる。

なお、本出願が提供する画像領域の分割方法は、人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）分野に適用することができ、具体的に、コンピュータ視覚分野に適用することができる。コンピュータ科学技術の発展に連れて、画像処理及び分析は科学システムを形成していき、新たな処理方法が次々と出現し、その発展歴史は長くないが、各分野の人々の幅広い注目を集めている。まず、視覚は人間の最も重要な感知手段であり、画像は視覚の基礎であるため、デジタル画像は、心理学、生理学及びコンピュータ科学などのようないろいろな分野内の学者たちが、視覚感知を研究するための効果的なツールになっている。そして、画像処理は軍事、リモートセンシング及び気象などのような大規模応用において、ますます成長している。画像分割技術はずっとコンピュータ視覚分野の基礎技術及び重要な研究方向であり、具体的に、１枚の画像から、興味ある領域（例えば、人間、車及び建物等）を実輪郭に従って、分割する。画像分割技術は、画像セマンティックに対する理解の重要な一環であり、近年、ニューラルネットワークの発展に連れて、画像処理能力は著しく向上し、画像分割技術は医学映像分析（腫瘍及び他の病理に対する位置決め、組織体積に対する測定、コンピュータによりガイドされる手術、治療解決策の制定、解剖学構成の研究を含む）、顔認識、指紋認識、自動運転及びマシン視覚などの分野においても、より重要な作用をもたらす。

理解を容易にするために、図１を参照すると、図１は本出願の実施例における画像領域認識システムのアーキテクチャの概略図であり、図に示すように、本出願が提供する画像処理機器は、端末機器またはサーバーを含み、例えば、クライアントが配置された端末機器であってもよく、当該クライアントは具体的に、分割補助ツールであり、ここで、当該クライアントが配置された端末機器は、タブレット、ノートパソコン、ハンドヘルドパソコン、スマートフォン、音声インタラクション機器及びパーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ、ＰＣ）を含むが、これらに限定されず、ここで、限定しない。

ユーザーが画像分割データセットを便利にアノテーションするために、本出願はニューラルネットワークモデル（即ち、第１画像分割モデル及び第２画像分割モデル）によるインタラクション型画像分割補助ツールを提供する。画像分割アノテーションタスクにおいて、分割補助ツールは、ユーザーの何らかのインタラクション行為を取得する場合に、ニューラルネットワークモデル（即ち、第１画像分割モデル）により、正確な事前分割の結果（即ち、第１画像分割領域を取得する）をフィードバックすることができ、そして、事前分割の結果（即ち、第１画像分割領域）に基づき、ほんの２回のアノテーションを行って、これによって、ニューラルネットワークモデル（即ち、第２画像分割モデル）により最終の分割結果を取得することができる（即ち、第２画像分割領域を取得する）。本出願は、「少量のアノテーションポイントのインタラクティブ」型の分割方法を提供し、画像分割モデルを改良することで、より優れた分割結果及びツールのリアルタイム性表現を取得する。

ここで、第１画像分割モデル及び第２画像分割モデルは、画像処理機器としてのサーバーに配置され、第１画像分割モデル及び第２画像分割モデルにより、画像分割領域を予測することで、オンラインで画像を分割するという目的を果たす。第１画像分割モデル及び第２画像分割モデルは画像処理機器としての端末機器に配置されてもよく、オフラインの状態で画像分割領域を予測することで、オフラインで画像を分割するという目的を果たす。

図２を参照すると、図２は、本出願の実施例における画像領域の認識方法のフロー概略図であり、図に示すように、ユーザーは、分割補助ツールにより処理対象画像に対して極値点のアノテーションを行い、例えば、図２の分割対象画像における木に対してアノテーションを行い、分割補助ツールは、ユーザーのアノテーション結果に基づき、第１ヒートマップを生成し、当該第１ヒートマップと分割対象画像の画像行列とを組み合わせて、第１画像特徴情報を取得する。第１画像特徴情報を第１画像分割モデルに入力し、当該第１画像分割モデルにより特徴を抽出することで、第１画像分割領域を出力し、例えば、木の分割領域を取得する。第１画像分割モデルは画像分割畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）であってもよく、そのモデル構成は主に、入力層、特徴抽出層及び出力層を含む。生成された第１画像分割領域の効果は十分ではないため、分割補助ツールを利用してアノテーションポイントを入力し、例えば、ユーザーにより入力されたアノテーションポイントに基づき、第２ヒートマップを生成し、当該第２ヒートマップと、処理対象画像の画像行列と、第１画像分割領域とを組み合わせて、第２画像特徴情報を取得してもよい。第２画像特徴情報を第２画像分割モデルに入力し、当該第２画像分割モデルにより特徴を抽出し、第２画像分割領域を出力し、より正確な木の分割領域を取得する。第２画像分割領域に基づき、分割対象画像に対して画像認識を行って、取得した画像認識結果は、高い精度を有する。

上記の前書きを組み合わせて、以下で、本出願の画像領域の分割方法について説明する。図３を参照すると、本出願の実施例において、画像領域の認識方法の実施例は、以下のステップを含み、即ち、
１０１：複数の極値点を含む分割対象画像を取得する。

本実施例において、画像領域認識装置は、分割対象画像を取得し、画像処理機器は、配置された分割補助ツールとして表現され、分割対象画像は当該分割補助ツールによりアノテーションされることで得られ、ユーザーは分割補助ツールを利用して、複数の極値点をアノテーションし、これらの極値点に基づき、分割対象画像を生成する。なお、本出願が提供する画像処理機器は、端末機器に配置される。

具体的に、複数の極値点は、分割対象画像におけるターゲットオブジェクトの最高点、最低点、最左点及び最右点であってもよいし、そのうちのいくつかの極値点であってもよく、ここで、限定しない。

１０２：分割対象画像に基づき、第１画像特徴情報を生成する。第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、第１ヒートマップは複数の極値点に基づき生成され、Ｎが１以上の整数である。

本実施例において、画像領域分割装置は、分割対象画像に基づきＮ個の画像行列を生成し、複数の極値点に基づき第１ヒートマップを生成し、第１ヒートマップとＮ個の画像行列とを組み合わせて、分割対象画像に対応する第１画像特徴情報を取得する。

デジタル画像データは行列で表され、読み取られた分割対象画像のサイズが１２８＊１２８であるならば、画像行列のサイズは１２８＊１２８＊Ｎであり、Ｎは１以上の整数である。Ｎが１である場合、画像行列はグレースケール画像に対応する行列であってもよい。Ｎが３である場合、画像行列は赤緑青（ｒｅｄｇｒｅｅｎｂｌｕｅ、ＲＧＢ）画像の行列であり、ＲＧＢ画像は３次元であり、３つの次元はそれぞれ赤、緑及び青という３つの成分を示し、サイズは０～２５５であり、各画素はいずれも当該３つの成分からなる。各ＲＧＢチャンネルはいずれも１つの画像行列（即ち、第１画像行列、第２画像行列及び第３画像行列）に対応するので、当該３つのＲＧＢチャンネルは重畳されて、カラー画像を形成し、即ち、分割対象画像を取得する。Ｎが４である場合、画像行列は赤緑青及びＡｌｐｈａ（アルファ）（ｒｅｄｇｒｅｅｎｂｌｕｅＡｌｐｈａ、ＲＧＢＡ）の色空間であり、ポータブルネットワークグラフィックス（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ、ＰＮＧ）に対しても、４つの画像行列を有し、ここで、Ｎの数を限定しない。

１０３：第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得する。第１画像分割モデルは、第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、Ｎ個の第１行列チャンネルとＮ個の画像行列とは一対一対応の関係を有し、第１ヒートマップチャンネルと第１ヒートマップとは対応関係を有する。この対応関係は以下のように理解すればよく、即ち、画像行列ａと第１行列チャンネルａとが対応関係を有するならば、画像分割モデルにより、画像特徴情報に対応する第１画像分割領域を取得する場合、画像行列ａは第１行列チャンネルａから画像分割モデルに入力される。第１ヒートマップと第１ヒートマップチャンネルとの間の対応関係も、上記のような入力方式を示す。

本実施例において、画像処理機器は、第１画像特徴情報を第１画像分割モデルに入力し、第１画像分割モデルは、深層実験（ＤｅｅｐＬａｂ）の構成を採用してもよく、ＤｅｅｐＬａｂＶ１、ＤｅｅｐＬａｂＶ２、ＤｅｅｐＬａｂＶ３及びＤｅｅｐＬａｂＶ３＋を含むが、これらに限定されない。ＤｅｅｐＬａｂＶ２構成は、画像分割のためのＣＮＮモデル構成であり、１枚のピクチャを入力し、オリジナル画像と同じサイズのマスクマップを出力し、図における各画素点の値は、当該画素が所属するカテゴリラベル値を示す。ＤｅｅｐＬａｂＶ３＋構成は、ＤｅｅｐｌａｂＶ２に基づき改良した、画像分割のためのＣＮＮモデル構成であり、数ある画像分割の中で、一般的に優れた結果を得ることができる。ＣＮＮはニューラルネットワークモデルの発展であり、人工ニューラルネットワークの完全接続層構成を畳み込み層に代えて、各種のコンピュータ視覚分野において、優れた性能を実現する。

本出願は、第１画像分割モデルの構成を改良し、第１画像分割モデルの第１層パラメータを修正する必要があり、第１画像分割モデルは（Ｎ＋１）個のチャンネル（ｃｈａｎｎｅｌ）の画像データを受信することができ、即ち、第１画像分割モデルはＮ個の第１行列チャンネル及び１つの第１ヒートマップチャンネルを含む。Ｎが３であると仮定すれば、３つの画像行列があることを示し、この場合、３つの第１行列チャンネルに対応し、各第１行列チャンネルは１つの画像行列に対応し、この場合、さらに、第１ヒートマップに対応する１つの第１ヒートマップチャンネルを有する。

同様に、Ｎが１であると仮定すれば、１つの画像行列があることを示し、この場合、１つの第１行列チャンネルに対応し、１つの第１行列チャンネルはグレースケール画像の１つの画像行列に対応し、この場合、さらに、第１ヒートマップに対応する１つの第１ヒートマップチャンネルを有する。

同様に、Ｎが４であると仮定すれば、４つの画像行列があることを示し、この場合、４つの第１行列チャンネルに対応し、各第１行列チャンネルは１つの画像行列に対応し、且つさらに、第１ヒートマップに対応する１つの第１ヒートマップチャンネルを有する。

１０４：前記第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得する。

本実施例において、画像処理機器はアノテーションポイントを受信し、当該アノテーションポイントは１つまたは複数であってもよく、当該アノテーションポイントはユーザーが第１画像分割領域に基づきアノテーションすることで得られ、画像領域分割装置はアノテーションポイントに基づき、第２ヒートマップを生成し、第２ヒートマップの生成方式は第１ヒートマップの生成方式に類似するため、ここで、贅言を要しない。

なお、分割対象画像における実際に認識を必要とするターゲットオブジェクトに対して、第１画像分割領域は、少なく認識される領域及び多く認識される領域を有する可能性がある。少なく認識される領域は、ターゲットオブジェクトの、第１画像分割領域に位置しない部分として理解され、多く認識される領域は、第１画像分割領域の、明らかにターゲットオブジェクトに属しない領域として理解される。

少なく認識される領域に対して、その対応するアノテーションポイントはエッジにあってもよいし、非エッジの位置にあってもよく、少なく認識される領域に対して、対応するアノテーションポイントは負点であり、－１として示し、負点であれば、ガウス分布（即ち、第２ヒートマップ）を生成する際、－１を乗算する。

多く認識される領域に対して、その対応するアノテーションポイントはエッジにあってもよいし、非エッジの位置にあってもよく、多く認識される領域に対して、対応するアノテーションポイントは正点であり、１として示し、正点であれば、ガウス分布（即ち、第２ヒートマップ）を生成する際、１を乗算する。

１０５：第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得する。第２画像分割モデルは、分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、Ｎ個の第２行列チャンネルとＮ個の画像行列とは一対一対応の関係を有し、分割領域チャンネルと第１画像分割領域とは対応関係を有し、第２ヒートマップチャンネルと第２ヒートマップとは対応関係を有する。

本実施例において、画像処理機器は、第２ヒートマップと、第１画像分割領域と、分割対象画像のＮ個の画像行列とを組み合わせて、分割対象画像に対応する第２画像特徴情報を取得し、そして、第２画像特徴情報を第２画像分割モデルに入力し、第２画像分割モデルはＮ個の第２行列チャンネル、分割領域チャンネル及び第２ヒートマップチャンネルを含み、Ｎ個の第２行列チャンネルとＮ個の画像行列とは一対一対応の関係を有し、分割領域チャンネルと第１画像分割領域とは対応関係を有し、第２ヒートマップチャンネルと第２ヒートマップとは対応関係を有する。

１０６：第２画像分割領域に基づき、分割対象画像の画像認識結果を生成する。

画像処理機器はさらに、第２画像分割領域に基づき、分割対象画像の画像認識結果を生成し、具体的に、第２画像分割領域及び第１画像分割領域はいずれもマスク（ｍａｓｋ）画像であり、当該ｍａｓｋ画像に基づき、分割対象画像におけるターゲットオブジェクトのエッジを取得し、最後に、画像認識結果を取得する。当該画像認識結果はテキスト情報により表してもよく、例えば、画像認識結果は「猿」または「自動車」などのオブジェクトである。画像認識結果は、分割対象画像において、ターゲットオブジェクトをハイライト表示してもよく、ターゲットオブジェクトは「自動車」または「猿」などのオブジェクトであってもよい。

本出願の実施例において、画像領域の分割方法を提供し、まず、複数の極値点を含む分割対象画像を取得し、そして、分割対象画像に基づき、第１画像特徴情報を生成し、第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得し、第１画像分割領域に基づき、第２ヒートマップを取得し、第２ヒートマップはアノテーションポイントに基づき生成され、最後に、第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得する。上記の方式で、画像分割の過程を２つの段階に分けて、第２段階の分割補助により、第１段階の画像分割における効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割結果の修正に大量の時間をかける必要がなく、画像分割のパフォーマンスを向上させ、第２画像分割領域に基づき、分割対象画像の画像認識結果を生成し、画像認識の精度を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、本出願の実施例が提供する画像領域の認識方法の好適な実施例において、分割対象画像を取得するステップは、以下の
処理対象画像に対する物体アノテーション命令を受信するステップであって、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別する、ステップ
を含む。

ターゲットオブジェクトを識別するために、ターゲットオブジェクトの輪郭エッジの四囲により、極値点を決定し、例えば、上下左右の４つの方向の極値点について、例えば、図４に示すようである。この場合、当該複数の極値点は４つを含み得て、対応するように、４つの極値点の位置情報は第１極値点位置情報、第２極値点位置情報、第３極値点位置情報及び第４極値点位置情報を含む。

物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。

本実施例において、極値点によるアノテーション方式が導入され、ユーザーは分割補助ツールを利用して、複数の極値点をアノテーションすることができる。理解を容易にするために、図４を参照すると、図４は本出願の実施例における、４つの極値点に対する選択の実施例の概略図であり、図に示すように、まず１つの処理対象画像が表示され、当該処理対象画像には花、干し草の山及び樹木のようなターゲットオブジェクトが含まれ、実際の応用では、ターゲットオブジェクトは人間、動物、車両及び他の物体を含むが、これらに限定されない。分割補助ツールを起動させた後、ユーザーは物体アノテーション命令をトリガーし、例えば、クリックの方式で、処理対象画像からいくつかの極値点を選択し、図４を例として、ターゲットオブジェクトが樹木であれば、ユーザーは分割補助ツールにより、第１極値点Ａ、第２極値点Ｂ、第３極値点Ｃ及び第４極値点Ｄという樹木の４つの極値点を選択する。物体アノテーション命令には、具体的に当該４つの極値点の座標情報が含まれ、これによって、物体アノテーション命令に基づき、処理対象画像に対応する分割対象画像を生成し、分割対象画像は、図４に示す樹木に対応する画像のようであり、第１極値点Ａ、第２極値点Ｂ、第３極値点Ｃ及び第４極値点Ｄからなる領域を含む。

分割補助ツールは、分割対象画像に基づき、第１画像特徴情報を生成し（第１ヒートマップ及びＮ個の画像行列を含む）、第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得する。図５を参照すると、図５は本出願の実施例における、第１画像分割モデルが第１画像分割領域に戻る実施例の概略図であり、図に示すように、分割補助ツールは４つの極値点に基づき第１画像分割領域を算出し、当該第１画像分割領域に戻って、例えば、図５のハッチング部分に対応する画像が、画像分割領域である。なお、画像分割領域は事前分割された多角形結果であってもよく、図５は例示に過ぎず、本出願に対する限定ではない。

そして、本出願の実施例において、極値点のアノテーション方法を提供し、まず、処理対象画像を表示し、物体アノテーション命令を受信し、物体アノテーション命令には、ターゲットオブジェクトに対応する第１極値点の位置情報、第２極値点位置情報、第３極値点位置情報及び第４極値点位置情報が含まれ、最後に、物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。上記の方式で、分割補助ツールを利用して、処理対象画像をアノテーションすることができ、分割補助ツールの操作の難易度が低く、使用の利便性が高いので、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第１画像分割領域に基づき、第２ヒートマップを取得するステップは、
第１アノテーション命令を受信するステップであって、第１アノテーション命令はＭ個のアノテーションポイントに対応し、アノテーションポイントは第１画像分割領域の内部に位置し、Ｍは１以上の整数であるステップと、
第１アノテーション命令に応答し、第１アノテーション命令に対応するＭ個のアノテーションポイントに基づき、第２ヒートマップを生成するステップと、を含む。

本実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する方法について説明する。説明を容易にするために、図６を参照すると、図６は本出願の実施例における、第１画像分割領域によるアノテーション位置の概略図であり、図に示すように、第１画像分割領域は、ターゲットオブジェクト（例えば、木）に属しない余計な１つの領域があると仮定し、ユーザーは分割補助ツールにより余計な領域でＭ個のアノテーションポイントをマークし、Ｍは１以上の整数であり、Ｍ個のアノテーションポイントは第１画像分割領域の内部にあり、つまり、第１画像分割領域の余計な領域でアノテーションを行って、例えば、図６において、マークして得られたアノテーションポイントＡがある。

なお、多く認識される領域はエッジ、または非エッジの位置にマークされてもよく、ここで、限定せず、多く認識される領域アノテーションポイントは正点であり、１として示す。

そして、本出願の実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する方法を提供し、即ち、第１アノテーション命令を受信し、第１アノテーション命令に応答し、第１アノテーション命令に含まれるＭ個のアノテーションポイントに基づき、第２ヒートマップを生成する。上記の方式で、分割補助ツールを利用して、予備予測により得られた第１画像分割領域に対して２回アノテーションを行うことができ、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、２回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第１画像分割領域に基づき、第２ヒートマップを取得するステップは、
第２アノテーション命令を受信するステップであって、第２アノテーション命令はＭ個のアノテーションポイントに対応し、アノテーションポイントは第１画像分割領域の外部に位置して、Ｍは１以上の整数であるステップと、
第２アノテーション命令に応答し、第２アノテーション命令に対応するＭ個のアノテーションポイントに基づき、第２ヒートマップを生成するステップと、を含む。

本実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する他の方法について説明する。説明を容易にするために、図７を参照すると、図７は本出願の実施例における、第１画像分割領域による他のアノテーション位置の概略図であり、図に示すように、第１画像分割領域は、ターゲットオブジェクト（例えば、木）に属すべきである１つの領域が欠如すると仮定し、ユーザーは分割補助ツールにより欠如する領域に、Ｍ個のアノテーションポイントをマークし、Ｍは１以上の整数であり、Ｍ個のアノテーションポイントは第１画像分割領域の内部にあり、つまり、ターゲットオブジェクトの欠如する領域でアノテーションを行って、例えば、図７において、マークして得られたアノテーションポイントＢがある。

ここで、少なく認識される領域は、エッジ、または非エッジの位置にマークされてもよく、ここで、限定せず、少なく認識された領域のアノテーションポイントは負点であり、－１として示してもよく、負点であれば、ガウス分布を生成する際、－１を乗算する。

そして、本出願の実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する他の方法を提供し、即ち、第２アノテーション命令を受信し、第２アノテーション命令に応答し、第２アノテーション命令に含まれるＭ個のアノテーションポイントに基づき、第２ヒートマップを生成する。上記の方式で、分割補助ツールを利用して、予備予測により得られた第１画像分割領域に対して２回アノテーションを行うことができ、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、２回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、図３のステップ１０２に対して、本出願の実施例は好適な実施例を提供し、即ち、Ｎ個の第１行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、分割対象画像に基づき、第１画像特徴情報を生成するステップは、
分割対象画像における複数の極値点に基づき、第１ヒートマップを生成するステップと、
分割対象画像に基づきＮ個の画像行列を生成するステップであって、前記Ｎ個の画像行列は前記赤チャンネルに対応する第１画像行列、前記緑チャンネルに対応する第２画像行列、及び前記青チャンネルに対応する第３画像行列を含むステップと、
第１ヒートマップ、第１画像行列、第２画像行列及び第３画像行列に基づき、第１画像特徴情報を生成するステップと、を含む。

本実施例において、Ｎ＝３個の行列チャンネル及び１つの第１ヒートマップチャンネルを例として、第１画像特徴情報を生成する方式について説明する。理解を容易にするために、図８を参照すると、図８は本出願の実施例における、第１画像特徴情報を生成する実施例の概略図であり、図に示すように、本出願は深層極値点分割（ＤｅｅｐＥｘｔｒｅｍｅＣｕｔ、ＤＥＸＴＲ）の入力フォーマットを利用して、４チャンネルの画像行列を入力し、つまり、本出願が利用する第１画像分割モデルの入力は、オリジナル画像以外に、さらに４つの極値点の情報を含み、４つの極値点の情報を十分に利用するために、分割対象画像のサイズと同じヒートマップ（ｈｅａｔｍａｐ）、即ち、第１ヒートマップを生成し、即ち、図８に示すように、それぞれ４つの極値点座標を中心として、２Ｄガウス分布を生成し、当該第１ヒートマップを第１ヒートマップチャンネル（即ち、４番目の行列チャンネル）の入力とし、他の３つの画像行列とマージして、第１画像特徴情報を取得し、最後に、第１画像特徴情報を第１画像分割モデルの入力とする。

３つの画像行列は、それぞれ第１画像行列、第２画像行列及び第３画像行列であり、第１画像行列は赤（Ｒ）入力チャンネルに対応し、第２画像行列は緑（Ｇ）入力チャンネルに対応し、第３画像行列は青（Ｂ）入力チャンネルに対応する。

第１ヒートマップにより大量のデータを簡単にアグリゲーションすることができ、漸進するカラーバンドで表現し、最終の効果は、一般的に離散点の直接的な表示より優れており、空間データの疎密程度または頻度の高さを直観的に表すことができる。ヒートマップの生成原理は主に４つのステップに分けられ、具体的に、
（１）離散点に対して１つの半径を設定し、１つのバッファを確立する
（２）各離散点のバッファに対して、漸進するグレースケールバンドを利用して、内部から外部へ、浅から深まで充填する
（３）グレースケール値を重ね合わせることができるため、バッファが交差する領域に対して、グレースケール値を重ね合わせてもよく、バッファが交差するほど、グレースケール値が大きくなり、当該ブロック領域も熱くなる
（４）重ね合わせたグレースケール値をインデックスとして、２５６種の色を有する１本のカラーバンドから色をマッピングし、画像を改めて着色し、ヒートマップを生成する。

なお、実際の応用では、さらに、他のヒートマップの生成方式があり、例えば、直接的に各極値点を中心として、４つの中実円を構築してもよい。２Ｄガウス分布は、中心点に近接するほど、値が大きくなり、中心点から離れるに連れて、急速に減衰することを特徴とする。本出願において、第１ヒートマップを入力する際、第１画像分割モデルに予備知識を付与し、第１画像分割モデルはこの４つの点が、ユーザーにより選択された極値点であると認識することができる。ただし、ユーザーが選択するものが必ずしも実際の極値点ではなく、一定の誤差がある可能性があることを考慮すると、極値点を中心として、１つの第１ヒートマップの分布を生成する。

そして、本出願の実施例において、分割対象画像に基づき、第１画像特徴情報を生成する方法を提供し、分割対象画像における複数の極値点に基づき、第１ヒートマップを生成し、分割対象画像に基づき、第１画像行列を生成し、分割対象画像に基づき、第２画像行列を生成し、分割対象画像に基づき、第３画像行列を生成する。上記の方式で、ユーザーが選択する極値点を十分に考慮して生成したヒートマップは、有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、図３のステップ１０２に対して、本出願の実施例は好適な実施例を提供し、前記Ｎ個の第２行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、前記Ｎ個の画像行列は以下のように決定され、即ち、
前記分割対象画像に基づき、Ｎ個の画像行列を生成し、前記Ｎ個の画像行列は前記赤チャンネルに対応する第１画像行列、前記緑チャンネルに対応する第２画像行列、及び前記青チャンネルに対応する第３画像行列を含む。

ステップ１０４に対して、前記第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得した後、さらに、
第１画像分割領域、第２ヒートマップ、第１画像行列、第２画像行列及び第３画像行列に基づき、第２画像特徴情報を生成するステップであって、第２画像特徴情報は第２画像分割領域を取得した場合の第２画像分割モデルの入力情報であるステップを含む。

本実施例において、Ｎ＝３個の行列チャンネル、１つの分割領域チャンネル及び１つの第２ヒートマップチャンネルを例として、第２画像特徴情報を生成する方式について説明する。理解を容易にするために、図９を参照すると、図９は本出願の実施例における、第２画像特徴情報を生成する実施例の概略図であり、図に示すように、本出願はＤＥＸＴＲという入力フォーマットを利用して、５チャンネルの画像行列を入力し、つまり、本出願が利用する第２画像分割モデルの入力は、オリジナル画像以外に、さらに、アノテーションポイントの情報及び第１画像分割モデルから出力される第１画像分割領域を含み、Ｍ個のアノテーションポイントの情報を十分に利用して、分割対象画像のサイズと同じｈｅａｔｍａｐ、即ち、第２ヒートマップを生成するために、図９に示すように、それぞれＭ個のアノテーションポイント座標を中心として、２Ｄガウス分布を生成してから、第２ヒートマップを第２ヒートマップチャンネル（即ち、４番目の行列チャンネル）の入力とし、第１画像分割領域を分割領域チャンネル（即ち、５番目の行列チャンネル）の入力とし、別の３つの画像行列とマージして、第２画像特徴情報を取得し、最後に、第２画像特徴情報を第２画像分割モデルの入力とする。３つの画像行列はそれぞれ第１画像行列、第２画像行列及び第３画像行列であり、第１画像行列はＲ入力チャンネルに対応し、第２画像行列はＧ入力チャンネルに対応し、第３画像行列はＢ入力チャンネルに対応する。

本出願において、第２ヒートマップを入力する際、第２画像分割モデルに予備知識を付与し、第２画像分割モデルは、アノテーションポイントがユーザーにより選択されたと認識することができる。ただし、ユーザーが選択するものが、必ずしもアノテーションポイントの最適な点ではないことを考慮すると、アノテーションポイントを中心として、第２ヒートマップの分布を生成する。

そして、本出願の実施例において、分割対象画像に基づき、第２画像特徴情報を生成する方法を提供し、第１画像分割領域に基づき、第２ヒートマップを取得した後、さらに、分割対象画像に基づき、第１画像行列を生成し、分割対象画像に基づき、第２画像行列を生成し、分割対象画像に基づき、第３画像行列を生成し、第１画像分割領域、第２ヒートマップ、第１画像行列、第２画像行列及び第３画像行列に基づき、第２画像特徴情報を生成してもよく、第２画像特徴情報は第２画像分割モデルの入力情報である。上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して、生成されたヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図３に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得するステップは、
第２画像分割モデルの符号器により、第２画像特徴情報を符号化し、第１特徴マップ及び第２特徴マップを取得するステップであって、符号器はｍｉｄｄｌｅｆｌｏｗモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第２画像特徴情報の特徴マップを抽出し、ｍｉｄｄｌｅｆｌｏｗモジュールは繰り返してＴ回実行し、Ｔは８より大きい整数であるステップと、
第１特徴マップと第２特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第２画像分割領域を取得するステップと、を含む。

本実施例において、第２画像分割モデルの構成が導入され、本出願は、第１画像分割モデル及び第２画像分割モデルという２つのモデルを採用して、まず、第１段階の第１画像分割モデルを利用してマスクを取得し、インタラクション方式で、マスクに対応する修正領域の境界点をマークし、当該境界点でガウス中心を生成し、インスタンスのサイズに対応する第１ヒートマップを形成し、最後に、オリジナル画像、第１画像分割モデルから生成されたマスク（即ち、第１画像分割領域）及び第１ヒートマップを、５チャンネルの入力行列に形成し、第２段階の第２画像分割領域に入力し、対応する分割結果を取得する。

本出願は、第２画像分割モデルが深層実験Ｖ３＋バージョン（ＤｅｅｐｌａｂＶ３＋）構成に基づくことを例として説明され、ＤｅｅｐｌａｂＶ２モデルの構成、Ｕ－Ｎｅｔ、マスク領域畳み込みニューラルネットワーク（ＭａｓｋＲｅｇｉｏｎ－ＣＮＮ、ＭａｓｋＲ－ＣＮＮ）またはピラミッドシーンパージングネットワーク（ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ、ＰＳＰＮｅｔ）などを採用してもよく、第１画像分割モデルに対して、ＤｅｅｐｌａｂＶ３＋を採用してもよく、ＤｅｅｐｌａｂＶ３＋は、効率的且つ高速で、マルチスケールのインスタンスを処理することができるセマンティックセグメンテーションアルゴリズムである。

理解を容易にするために、図１０を参照すると、図１０は本出願の実施例における、第２画像分割モデルの構成概略図であり、図に示すように、第２画像特徴情報を取得した後、第２画像特徴情報を第２画像分割モデルに入力する。第２画像分割モデルは、豊かな高レベルのセマンティック情報を取得するための符号器（Ｅｎｃｏｄｅｒ）、及び境界情報を回復させるための復号器（Ｄｅｃｏｄｅｒ）を含む。

符号器の深層畳み込みニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＣＮＮ）により画像特徴情報を符号化し、即ち、バイリニア補間により４倍のサイズの解像度を回復させ、第１特徴マップを取得する。１＊１の畳み込み処理を利用して、チャンネル数を低減させることで、画像特徴情報の低レベル特徴を抽出し、即ち、第２特徴マップを得ることができる。画像分割モデルの復号器のスプライシングレイヤー（ｃｏｎｃａｔ）により第１特徴マップと第２特徴マップとをスプライシングし、ターゲット特徴マップを取得する。サイズが３＊３である畳み込みを利用して、ターゲット特徴マップを強化させ、１つの補間により、さらに４倍の解像度を、分割対象画像のサイズに回復させる。

なお、符号器は主に、改良後のＸｃｅｐｔｉｏｎ（ＥｘｔｒｅｍｅＩｎｃｅｐｔｉｏｎ）及び拡張空間ピラミッドからなる。理解を容易にするために、図１１を参照すると、図１１は本出願の実施例における、Ｘｃｅｐｔｉｏｎモデルの構成概略図であり、図に示すように、改良後のＸｃｅｐｔｉｏｎは画像に対して特徴を抽出し、具体的な構成パラメータは図１１に示し、ここで、贅言を要しない。元のＸｃｅｐｔｉｏｎのミドルフロー（ｍｉｄｄｌｅｆｌｏｗ）モジュールで繰り返して８回実行し、改良後のｍｉｄｄｌｅｆｌｏｗモジュールは少なくとも９回繰り返し、本出願は１６回繰り返すことを例とするが、本出願に対する限定ではない。

符号器は、さらに拡張深さ方向の分離可能な畳み込みを含み、符号器の全ての最大プーリング操作を、ステップサイズが付けられた深さ方向の分離可能な畳み込みに置き換えて、これによって、本出願は、拡張分離可能な畳み込みを利用して、任意の解像度で特徴マップを抽出することができる。拡張分離可能な畳み込みモデルの概略図が図１２に示されている。図１２を参照すると、図１２は本出願の実施例における、拡張深さ方向の分離可能な畳み込みの概略図であり、特徴マップ（第１特徴マップ及び第２特徴マップ）を入力して、チャンネルに従って分離した後、図１２（ａ）の深層畳み込み操作を利用して畳み込みを行って、取得した結果はチャンネルに従って連結した後、図１２（ｂ）のポイントごとの畳み込み操作を利用して、深さ方向の分離可能な畳み込み後の結果を取得する。また、図１２（ａ）の深層畳み込みを、図１２（ｃ）の拡張深層畳み込みに置き換えて、図１２（ｂ）のポイントごとの畳み込みを行うと、拡張深さ方向の分離可能な畳み込み操作を実現することができる。

符号器において、各３＊３の深さ方向の分離可能な畳み込みの後ろに、バッチ正規化及び正規化線形関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ））活性化関数を追加する。改良後のＸｃｅｐｔｉｏｎモデルは強い特徴抽出能力を具備し、深さ方向の分離可能な畳み込みによりモデルのパフォーマンスを保証するとともに、パラメータ及び計算量を大幅に低減させる。

符号器において、拡張空間ピラミッドを利用し、当該拡張空間ピラミッドは、マルチスケールの情報をキャプチャすることで、スケールが異なるインスタンスに対する処理を実現する。オリジナル画像は、改良後のＸｃｅｐｔｉｏｎにより処理され、特徴マップの解像度が元の１／１６に下がった後、拡張空間ピラミッドの構成に入力される。図１０の符号器部分に示すように、拡張空間ピラミッドは１つの１＊１畳み込み、３つの３＊３のサンプリング率ｒａｔｅ＝｛６、１２、１８｝の拡張畳み込み、及び１つの全体平均プーリングからなり、それらは並行位置にある。

拡張空間ピラミッドの５つの並行操作により得られた結果は、チャンネルに従って連結され、１つの１＊１の畳み込み操作により符号器の最後の出力結果、即ち、第２画像分割領域が取得される。

そして、本出願の実施例において、第２画像分割モデルにより、第２画像分割領域を取得する方法を提供し、即ち、まず、第２画像分割モデルの符号器により、第２画像特徴情報を符号化し、第１特徴マップ及び第２特徴マップを取得し、第１特徴マップと第２特徴マップとをスプライシングし、ターゲット特徴マップを取得し、最後に、第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第２画像分割領域を取得する。上記の方式では、ＤｅｅｐｌａｂＶ３＋によるモデル構成を利用して画像分割領域を予測することができ、ＤｅｅｐｌａｂＶ３＋モデル構成の総パラメータが少ないので、トレーニングであろうが、実際予測であろうが、いずれも速い実行速度を有し、分割補助ツールに応用された場合には、ユーザー操作により速く応答し、使用効率を向上させ、ユーザー粘度を強化させる。また、改良後のＸｃｅｐｔｉｏｎモデルを利用すれば、特徴抽出パフォーマンスを保証するとともに、深さ方向の分離可能な畳み込みを利用してモデルのサイズを低減させ、分割速度を向上させる。また、拡張空間ピラミッドを利用して、マルチ拡張率の畳み込み操作及びプーリング操作を構築し、マルチスケールの情報を取得し、モデルのマルチスケールのインスタンスに対する処理に寄与する。

好ましくは、上記の図３に対応する各実施例に基づき、本出願の実施例が提供する画像領域の分割方法の好適な実施例において、第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第２画像分割領域を取得するステップは、
第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第１画素点を含む第１画素点セット、及び第２画素点を含む第２画素点セットを取得するステップと、
第１画素点セット及び第２画素点セットに基づき、第２画像分割領域を生成するステップと、を含む。

本実施例において、第２画像分割モデルに基づき、第２画像分割領域を生成する方法が導入され、画像分割領域でターゲット特徴マップを復号化した後、第１画素点セット及び第２画素点セットを取得し、ここで、第１画素点セットはターゲットオブジェクトの画素点に属して、例えば、「１」として示され、第２画素点セットは背景に属して、例えば、「０」として示され、第１画素点セット及び第２画素点セットから、共同で第２画像分割領域を構成し、つまり、第２画像分割領域から、ターゲットオブジェクトの分割結果を見ることができる。

符号化－復号化構成は、空間情報を徐々に回復させることで、物体のエッジ情報を取得し、ＤｅｅｐｌａｂＶ３＋モデル構成は、ＤｅｅｐｌａｂＶ３モデル構成を基に、物体エッジの分割を強化させるための１つの復号器を追加する。

ＤｅｅｐｌａｂＶ３＋モデルにおける復号器は、符号器から出力された高レベルセマンティック情報、及び符号器の特徴マップの解像度がオリジナル画像の解像度の１／４である特徴マップを利用して、復号化操作を行う。図１０に示すように、符号器から出力された、豊かな細部情報を有する低レベル特徴マップは、１つの１＊１の畳み込み操作（当該操作は主に低レベル特徴マップのチャンネル数を低減させて、低レベル特徴マップの割合を低減させる）により、新たな低レベル特徴マップを取得する。符号器から出力された、豊かなセマンティック情報を有する高レベル特徴マップは、４倍のアップサンプリングを行った後、新たな高レベル特徴マップを取得する。新たな低レベル特徴マップ及び新たな高レベル特徴マップは、チャンネルに従ってスプライシングし、得られた結果は、１つの３＊３の畳み込み操作を経て、４倍のアップサンプリングを行って、復号器の最終出力として、オリジナル画像のサイズと同じ特徴マップを得る。復号器において、高レベルのセマンティック情報及び低レベルの細部情報を利用することで、モデルのパフォーマンスを向上させる。

さらに、本出願の実施例において、第２画像分割モデルを利用して復号化を行うことで、第２画像分割領域を取得する方法を提供し、まず第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、第１画素点セット及び第２画素点セットを取得し、第１画素点セット及び第２画素点セットに基づき、第２画像分割領域を生成する。上記の方式で、技術案の実現に具体的な根拠を提供し、第２画像分割モデルの構成に基づき、特徴を復号化し、第２画像分割モデルの応用の信頼性を向上させる。

上記の前書きを組み合わせて、以下は、本出願のモデルのトレーニング方法について説明する。図１３を参照すると、本出願の実施例において、モデルのトレーニング方法の実施例は以下のステップを含み、即ち、
２０１：少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得する。

本実施例において、モデルトレーニング装置は、少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、トレーニング対象画像には、「馬」、「人間」、「テレビ」または「ビル」などのようなインスタンスのオリジナル画像が含まれる。モデルのトレーニング過程において、Ｐａｓｃａｌ－ＶＯＣ２０１２データセットにおけるｔｒａｉｎトレーニングセットをトレーニング対象画像セットとしてもよく、ここで、限定しない。

２０２：第１画像分割モデルにより、トレーニング対象画像の第１予測分割領域を取得し、第１画像分割モデルは予めトレーニングされた画像分割モデルである。

本実施例において、モデルトレーニング装置はトレーニング対象画像を、予めトレーニングされた第１画像分割モデルに入力し、当該第１画像分割モデルから、トレーニング対象画像に対応する第１予測分割領域を出力する。第１予測分割領域は前景及び背景を含み、前景の画素点は「１」として示し、背景の画素点は「０」として示す。当該第１予測分割領域は１つのｍａｓｋ画像である。

２０３：トレーニング対象画像の実分割領域及び第１予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象ヒートマップは少なくとも１つの差異点から生成される。

本実施例において、モデルトレーニング装置は、トレーニング対象画像の第１予測分割領域及び実分割領域に基づき、少なくとも１つの差異点を自動に生成し、少なくとも１つの差異点により、対応するトレーニング対象ヒートマップを生成する。少なくとも１つの差異点の自動生成の過程は、アノテーションポイントに対するユーザーのマーキングをシミュレーションする過程である。実分割領域は、トレーニング対象画像に基づき分割した実際分割領域である。

２０４：トレーニング対象画像、第１予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得する。

本実施例において、モデルトレーニング装置は、トレーニング対象画像（オリジナル画像）、第１予測分割領域、トレーニング対象ヒートマップ及び実分割領域という４つの入力情報を取得し、当該４つの入力情報を利用して、トレーニング対象画像分割モデルをトレーニングし、即ち、トレーニング対象画像、第１予測分割領域、トレーニング対象ヒートマップ及び実分割領域をトレーニング対象画像分割モデルに入力し、当該トレーニング対象画像分割モデルから、対応する第２予測分割領域を出力し、当該第２予測分割領域は１つのｍａｓｋ画像である。

２０５：第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定する。

本実施例において、モデルトレーニング装置は、第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、第２段階の必要なトレーニング対象画像分割モデルをトレーニングする。トレーニング段階で採用するトレーニング対象画像セットには、１４６４個のトレーニング対象画像が含まれ、且つ、合計で３５０７個のインスタンスが含まれてもよい。まず、第１段階における前の反復回数（ｅｐｏｃｈ）の第１画像分割モデルを選択する。即ち、当該第１画像分割モデルの、トレーニング対象画像セットでの分割結果は、あまり良くない。第１画像分割モデルを利用して、トレーニング対象画像セットをテストし、対応する第１予測分割領域（ｍａｓｋ画像）を取得し、各インスタンスのオリジナル画像の差異点を取得し、差異点の位置でガウス中心を生成し、トレーニング対象ヒートマップを形成し、最後に、サイズがａ＊ｂ（例えば、５１２＊５１２）であるインスタンスのオリジナル画像、第１予測分割領域、実分割領域及び予測対象ヒートマップを、トレーニング対象画像分割モデルに入力し、トレーニングする。

トレーニング過程で、運動量を０．９、重み減衰を０．０００５、学習レートを１０^－８、バッチサイズ（ｂａｔｃｈｓｉｚｅ）を５にセットし、合計で１００個のｅｐｏｃｈをセットし、５つのｅｐｏｃｈごとに、トレーニングされた特定のトレーニング対象画像分割モデルを利用して、トレーニング対象画像セットの生成ｍａｓｋ画像を更新する。

２０６：モデルパラメータを利用してトレーニング対象画像分割モデルをトレーニングし、第２画像分割モデルを取得する。

本実施例において、モデルトレーニング装置は、ターゲットの損失関数が収束する場合、トレーニング対象画像分割モデルのモデルパラメータを決定し、当該モデルパラメータは、トレーニング対象画像分割モデルを更新することで、第２画像分割モデルを取得する。

本出願の実施例において、モデルのトレーニング方法を提供し、即ち、まず、トレーニング対象画像セットを取得し、第１画像分割モデルによりトレーニング対象画像の第１予測分割領域を取得し、トレーニング対象画像の実分割領域及び第１予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象画像、第１予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得し、最後に、第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、モデルパラメータを利用してトレーニング対象画像分割モデルをトレーニングし、第２画像分割モデルを取得する。上記の方式で、第１段階の分割アルゴリズムに基づき、より高い平均評価指標（ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ、ｍＩＯＵ）値を取得し、第２画像分割モデルをトレーニングして取得し、第１画像分割モデル及び第２画像分割モデルに基づき、画像の分割結果をより正確に予測することができる。

好ましくは、上記の図１３に対応する各実施例に基づき、本出願の実施例が提供するモデルのトレーニング方法の好適な実施例において、ターゲット損失関数は、以下
Ｌｏｓｓ＝Ｐｏｓ＿ｌｏｓｓ＊（Ｎｅｇ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）＋Ｎｅｇ＿ｌｏｓｓ＊（Ｐｏｓ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）
のように示される。Ｌｏｓｓはターゲット損失関数を示し、Ｐｏｓ＿ｌｏｓｓは第２予測分割領域の正のサンプル損失の和を示し、Ｎｅｇ＿ｌｏｓｓは第２予測分割領域の負のサンプル損失の和を示し、Ｐｏｓ＿ｎｕｍは実分割領域における正のサンプルの数を示し、Ｎｅｇ＿ｎｕｍは実分割領域における負のサンプルの数を示し、Ｔｏｔａｌ＿ｎｕｍは正のサンプルの数と負のサンプルの数との和を示す。

本実施例において、ターゲット損失関数の具体的な実現が説明される。即ち、ターゲット損失関数は、正負のバランスを利用した交差エントロピー損失関数であり、具体的に、第２画像分割モデルの復号器の出力結果に基づき、ｓｏｆｔｍａｘ関数により確率プロットを取得し、実分割領域と比較し、損失を計算する。本出願の損失関数として、正負のバランスの交差エントロピー損失関数を採用する。正負のバランスの交差エントロピー損失関数は、元の標準の交差エントロピー損失関数に基づき、正負のサンプルの数という問題を考慮し、実分割領域の正のサンプルの数及び負のサンプルの数を計算することで、正負のサンプルの比を取得する。交差エントロピー損失を算出した後、正のサンプルの損失に、負のサンプル比を乗算し、負のサンプルの損失に正のサンプル比を乗算し、両者を加算して、最後の損失を取得し、正負のバランスの交差エントロピー損失関数（即ち、ターゲット損失関数）は、以下
Ｌｏｓｓ＝Ｐｏｓ＿ｌｏｓｓ＊（Ｎｅｇ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）＋Ｎｅｇ＿ｌｏｓｓ＊（Ｐｏｓ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）
のように示される。Ｌｏｓｓはターゲット損失関数を示し、Ｐｏｓ＿ｌｏｓｓは第２予測分割領域の正のサンプル損失の和を示し、Ｎｅｇ＿ｌｏｓｓは第２予測分割領域の負のサンプル損失の和を示し、Ｐｏｓ＿ｎｕｍは実分割領域における正のサンプルの数を示し、Ｎｅｇ＿ｎｕｍは実分割領域における負のサンプルの数を示し、Ｔｏｔａｌ＿ｎｕｍは正のサンプルの数と負のサンプルの数との和を示す。正のサンプルは実分割領域の正点（即ち、前景の点）であり、負のサンプルは実分割領域の負点（即ち、背景の点）である。

そして、本出願の実施例において、正負のバランスを利用した交差エントロピー損失関数を提供することで、モデルはトレーニングする際、正負の損失をよりよく処理することができ、モデルが数の多い方向に傾斜して、トレーニングの失敗を招致することを避け、トレーニングの信頼性を向上させる。

好ましくは、上記の図１３に対応する各実施例に基づき、本出願の実施例が提供するモデルのトレーニング方法の好適な実施例において、トレーニング対象画像の実分割領域及び第１予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップは、
実分割領域及び第１予測分割領域に基づき、差異図を決定するステップであって、差異図は、実分割領域と第１予測分割領域との不一致の領域を示すステップと、
差異図に基づき、第１候補領域及び第２候補領域を決定するステップと、
第１候補領域及び第２候補領域に基づき、少なくとも１つの差異点を選択するステップと、
少なくとも１つの差異点に基づき、トレーニング対象ヒートマップを生成するステップと、を含む。

本実施例において、トレーニング対象ヒートマップを自動に生成する方法が説明される。第２段階の分割補助アルゴリズムにおいて、第１段階の分割補助アルゴリズムにより得られた生成マスクとインスタンスの実マスクとの間の最大の差異点を利用して、トレーニング過程で、最大の差異点を人工で描く必要がないので、以下の方法でシミュレーションして、差異点を生成する。

具体的に、まず、オリジナル画像、オリジナル画像に対応する実分割領域及び第１段階の分割補助モデルから出力される第１予測分割領域に対して「バンドル」を行うことで、三者が読み取られる際、対応関係が一致するようにする。理解を容易にするために、図１４を参照すると、図１４は本出願の実施例における、インスタンスのオリジナル画像の概略図であり、図に示すように、１枚のオリジナル画像を読み取った後、「バンドル」関係のため、オリジナル画像に対応する実分割領域での画素値を利用して、インスタンスを実分割領域から抽出し、当該インスタンスに対応する上端点、下端点、左端点及び右端点という４つの極端点を計算する。そして、４つの極端点を利用してオリジナル画像、実マスク及び生成マスクをクロップし、対応するインスタンス部分を取得する。サンプリング画像は境界ボックス（ＢｏｕｎｄｉｎｇＢｏｘ、ＢＢｏｘ）により抽出され、背景の要因を考慮するために、クロップする際、サンプリング画像の境界ボックスの周りに、５０個の画素点を浮動させることで、インスタンスのオリジナル画像を取得する。

実マスク（即ち、実分割領域）及び生成マスク（即ち、第１予測分割領域）に対して、画素のゼロパディングを行って、クロップされたインスタンスのオリジナル画像、インスタンスの実マスク及びインスタンスの生成マスクに対して、サイズを調整することで、それらの解像度を５１２＊５１２にし、上記の解像度は本出願に対する限定ではなく、例示に過ぎない。

実マスク（即ち、実分割領域）と生成マスク（即ち、第１予測分割領域）との間の差異点（１つの最大の差異点であってもよい）を取得するために、まず、サイズが調整された実マスク（即ち、実分割領域）と生成マスク（即ち、第１予測分割領域）との間の全ての差異点を計算しなければならない。

理解を容易にするために、図１５を参照すると、図１５は本出願の実施例における、差異点に対する選択の実施例の概略図であり、図に示すように、具体的に、まず、実マスク（即ち、実分割領域）と生成マスク（即ち、第１予測分割領域）との間の対応する位置の画素が一致するかどうかを判定して、１つの差異図を取得し、差異図は図１５に示すＳ１領域及びＳ２領域である。差異図に対して連通領域を計算し、候補領域１として、連通領域における最大の領域を取得し、Ｓ２領域がＳ１領域より大きいから、Ｓ２領域を候補領域１とする。それと同時に、インスタンスの実マスク（即ち、実分割領域）境界（または中心位置）を計算し、当該境界（または中心位置）を候補領域２とし、最後に、候補領域１と候補領域２との共通集合から、少なくとも１つの差異点をランダムに選択し、例えば、図１５に示すＤ１点は、ランダムに選択された差異点である。当該少なくとも１つの差異点に基づき、トレーニング対象ヒートマップを生成することができる。

そして、本出願の実施例において、トレーニング対象ヒートマップを自動に生成する方法を提供し、即ち、実分割領域及び第１予測分割領域に基づき、差異図を決定し、差異図に基づき、第１候補領域及び第２候補領域を決定し、第１候補領域及び第２候補領域に基づき、少なくとも１つの差異点を選択し、最後に、少なくとも１つの差異点に基づき、トレーニング対象ヒートマップを生成する。上記の方式で、トレーニングの過程において、差異点のアノテーションに人間の関与の必要はなく、アテンションのメカニズムを利用して、予測マスクと実マスクとの差異点の生成箇所に、ガウス中心を生成し、ヒートマップを形成し、モデルの当該領域に対する注目を向上させる。

以下は、本出願の画像処理機器を詳しく説明し、図１６を参照すると、図１６は本出願の実施例における、画像処理機器の実施例の概略図であり、画像処理機器３０は、
複数の極値点を含む分割対象画像を取得する取得モジュール３０１と、
取得モジュール３０１により取得した分割対象画像に基づき、第１画像特徴情報を生成する生成モジュール３０２であって、第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、第１ヒートマップは複数の極値点に基づき生成され、Ｎが１以上の整数である、生成モジュール３０２と、を含み、
取得モジュール３０１は、
第１画像分割モデルにより、生成モジュール３０２が生成した第１画像特徴情報に対応する第１画像分割領域を取得し、第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、Ｎ個の第１行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、第１ヒートマップチャンネルと第１ヒートマップとが対応関係を有し、
第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得し、
第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得し、第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、Ｎ個の第２行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第１画像分割領域とが対応関係を有し、第２ヒートマップチャンネルと第２ヒートマップとが対応関係を有する、
よう構成される。

生成モジュール３０２は、第２画像分割領域に基づき、分割対象画像の画像認識結果を生成する。

本実施例において、取得モジュール３０１は複数の極値点を含む分割対象画像を取得し、生成モジュール３０２は取得モジュール３０１により取得された分割対象画像に基づき、第１画像特徴情報を生成し、第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、第１ヒートマップは複数の極値点に基づき生成され、Ｎが１以上の整数であり、取得モジュール３０１は第１画像分割モデルにより、生成モジュール３０２により生成された第１画像特徴情報に対応する第１画像分割領域を取得し、第１画像分割モデルはＮ個の第１行列チャンネル及び第１ヒートマップチャンネルを含み、Ｎ個の第１行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、第１ヒートマップチャンネルと第１ヒートマップとが対応関係を有し、取得モジュール３０１は第１画像分割領域に基づき、第２ヒートマップを取得し、第２ヒートマップはアノテーションポイントに基づき生成され、取得モジュール３０１は第２画像分割モデルにより、分割対象画像に対応する第２画像分割領域を取得し、第２画像分割モデルはＮ個の第２行列チャンネル、分割領域チャンネル及び第２ヒートマップチャンネルを含み、Ｎ個の第２行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第１画像分割領域とが対応関係を有し、第２ヒートマップチャンネルと第２ヒートマップとが対応関係を有する。

本出願の実施例において、画像処理機器を提供し、上記の方式で、画像の分割過程を２つの段階に分けて、第２段階の分割補助により、第１段階の画像分割における、効果が悪い領域をさらに分割することで、より正確な画像分割結果を取得し、画像分割結果の修正に大量の時間をかける必要がなく、画像分割のパフォーマンスを向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理機器３０の他の実施例において、
取得モジュール３０１は具体的に、
処理対象画像に対する物体アノテーション命令を受信し、処理対象画像はターゲットオブジェクトを含み、物体アノテーション命令には、ターゲットオブジェクトに対応する複数の極値点の位置情報が含まれ、複数の極値点はターゲットオブジェクトの輪郭エッジを識別し、
物体アノテーション命令に応答し、処理対象画像に基づき、分割対象画像を生成する。

好ましくは、複数の極値点の位置情報は、ターゲットオブジェクトの輪郭エッジの周囲をそれぞれ識別するための第１極値点位置情報、第２極値点位置情報、第３極値点位置情報及び第４極値点位置情報を含む。

そして、本出願の実施例において、極値点のアノテーション方法を提供し、上記の方式で、分割補助ツールを利用して、処理対象画像に対してアノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高く、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理装置３０の他の実施例において、
取得モジュール３０１は具体的に、
第１アノテーション命令を受信し、第１アノテーション命令はＭ個のアノテーションポイントに対応し、アノテーションポイントは第１画像分割領域の内部に位置し、Ｍは１以上の整数であり、
第１アノテーション命令に応答し、第１アノテーション命令に対応するＭ個のアノテーションポイントに基づき、第２ヒートマップを生成する。

そして、本出願の実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する方法を提供し、上記の方式で、分割補助ツールを利用して、予備予測により得られた第１画像分割領域に対して２回アノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、２回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理機器３０の他の実施例において、
取得モジュール３０１は具体的に、
第２アノテーション命令を受信し、第２アノテーション命令はＭ個のアノテーションポイントに対応し、アノテーションポイントは第１画像分割領域の外部に位置し、Ｍは１以上の整数であり、
第２アノテーション命令に応答し、第２アノテーション命令に対応するＭ個のアノテーションポイントに基づき、第２ヒートマップを生成する。

そして、本出願の実施例において、アノテーションポイントに基づき、第２ヒートマップを生成する他の方法を提供し、上記の方式で、分割補助ツールを利用して、予備予測により得られた第１画像分割領域に対して２回アノテーションを行って、分割補助ツールの操作の難易度が低く、使用の利便性が高い一方で、２回のアノテーションにより、より正確な画像分割結果を生成することができ、技術案の操作可能性及び実行可能性を向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、Ｎ個の第１行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、本出願の実施例が提供する画像処理機器３０の他の実施例において、
生成モジュール３０２は具体的に、
分割対象画像における複数の極値点に基づき、第１ヒートマップを生成し、
分割対象画像に基づき、Ｎ個の画像行列を生成し、Ｎ個の画像行列は赤チャンネルに対応する第１画像行列、緑チャンネルに対応する第２画像行列、及び青チャンネルに対応する第３画像行列を含み、
第１ヒートマップ、第１画像行列、第２画像行列及び第３画像行列に基づき、第１画像特徴情報を生成する。

そして、本出願の実施例において、分割対象画像に基づき、第１画像特徴情報を生成する方法を提供し、上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して生成したヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理機器３０の他の実施例において、Ｎ個の第２行列チャンネルは赤チャンネル、緑チャンネル及び青チャンネルを含み、
生成モジュール３０２はさらに、
分割対象画像に基づき、Ｎ個の画像行列を生成し、Ｎ個の画像行列は赤チャンネルに対応する第１画像行列、緑チャンネルに対応する第２画像行列、及び青チャンネルに対応する第３画像行列を含み、
第１画像分割領域、第２ヒートマップ、第１画像行列、第２画像行列及び第３画像行列に基づき、第２画像特徴情報を生成し、第２画像特徴情報は、第２画像分割領域を取得した場合、第２画像分割モデルの入力情報である。

そして、本出願の実施例において、分割対象画像に基づき、第２画像特徴情報を生成する方法を提供し、上記の方式で、ユーザーが選択するアノテーションポイントを十分に考慮して生成したヒートマップは有効な情報をよりよく提供することができ、技術案の実行可能性及び操作可能性を向上させる。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理機器３０の他の実施例において、
取得モジュール３０１は具体的に、
第２画像分割モデルの符号器により第２画像特徴情報を符号化し、第１特徴マップ及び第２特徴マップを取得し、符号器はｍｉｄｄｌｅｆｌｏｗモジュール及び拡張深さ方向の分離可能な畳み込みを含み、拡張深さ方向の分離可能な畳み込みは第２画像特徴情報の特徴マップを抽出し、ｍｉｄｄｌｅｆｌｏｗモジュールは繰り返してＴ回実行し、Ｔは８より大きい整数であり、
第１特徴マップと第２特徴マップとをスプライシングし、ターゲット特徴マップを取得し、
第２画像分割モデルの復号器によりターゲット特徴マップを復号化し、第２画像分割領域を取得する。

そして、本出願の実施例において、第２画像分割モデルにより、第２画像分割領域を取得する方法を提供し、ＤｅｅｐｌａｂＶ３＋によるモデル構成を利用して画像分割領域を予測し、ＤｅｅｐｌａｂＶ３＋モデル構成の総体パラメータが少ないので、トレーニングであろうが、実際予測であろうが、いずれも速い実行速度を有し、分割補助ツールに応用された場合には、ユーザー操作により速く応答し、使用効率を向上させ、ユーザー粘度を強化させる。また、改良後のＸｃｅｐｔｉｏｎモデルを利用すれば、特徴抽出パフォーマンスを保証するとともに、深さ方向の分離可能な畳み込みを利用してモデルのサイズを低減させ、分割速度を向上させる。また、拡張空間ピラミッドを利用して、マルチ拡張率の畳み込み操作及びプーリング操作を構築し、マルチスケールの情報を取得し、モデルのマルチスケールのインスタンスに対する処理に寄与する。

好ましくは、上記の図１６に対応する実施例に基づき、本出願の実施例が提供する画像処理機器３０の他の実施例において、
取得モジュール３０１は具体的に、
第２画像分割モデルの復号器により、ターゲット特徴マップを復号化し、複数の第１画素点を含む第１画素点セット、及び第２画素点を含む第２画素点セットを取得し、
第１画素点セット及び第２画素点セットに基づき、第２画像分割領域を生成する。

以下は、本出願のモデルトレーニング装置を詳しく説明し、図１７を参照すると、図１７は本出願の実施例における、画像処理機器の実施例の概略図であり、画像処理機器４０は、取得モジュール４０１、生成モジュール４０２、決定モジュール４０３、トレーニングモジュール４０４を含み、
取得モジュール４０１は、少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第１画像分割モデルによりトレーニング対象画像の第１予測分割領域を取得するための取得モジュール４０１であって、第１画像分割モデルは予めトレーニングされた画像分割モデルであり、
生成モジュール４０２は、トレーニング対象画像の実分割領域及び取得モジュール４０１により取得された第１予測分割領域に基づき、トレーニング対象ヒートマップを生成するための生成モジュール４０２であって、トレーニング対象ヒートマップは少なくとも１つの差異点から生成され、
取得モジュール４０１は、トレーニング対象画像、第１予測分割領域、生成モジュール４０２により生成されたトレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得し、
決定モジュール４０３は、取得モジュール４０１により取得された第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
トレーニングモジュール４０４は、決定モジュール４０３により決定されたモデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得する。

本実施例において、取得モジュール４０１は、少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、取得モジュール４０１は第１画像分割モデルにより、トレーニング対象画像の第１予測分割領域を取得し、第１画像分割モデルは予めトレーニングされた画像分割モデルであり、生成モジュール４０２はトレーニング対象画像の実分割領域及び取得モジュール４０１により取得された第１予測分割領域に基づき、トレーニング対象ヒートマップを生成し、トレーニング対象ヒートマップは少なくとも１つの差異点から生成され、取得モジュール４０１はトレーニング対象画像、第１予測分割領域、生成モジュール４０２から生成されたトレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得し、決定モジュール４０３は取得モジュール４０１により取得された第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、トレーニングモジュール４０４は決定モジュール４０３により決定されたモデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得する。

本出願の実施例において、モデルのトレーニング方法を提供し、上記の方式で、第１段階の分割アルゴリズムに基づき、より高いｍＩＯＵ値を取得し、第２画像分割モデルをトレーニングし得て、第１画像分割モデル及び第２画像分割モデルに基づき、画像の分割結果をより正確に予測することができる。

好ましくは、上記の図１７に対応する実施例に基づき、本出願の実施例が提供する画像処理機器４０の他の実施例において、
ターゲット損失関数は、以下
Ｌｏｓｓ＝Ｐｏｓ＿ｌｏｓｓ＊（Ｎｅｇ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）＋Ｎｅｇ＿ｌｏｓｓ＊（Ｐｏｓ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）
のように示される。Ｌｏｓｓはターゲット損失関数を示し、Ｐｏｓ＿ｌｏｓｓは第２予測分割領域の正のサンプル損失の和を示し、Ｎｅｇ＿ｌｏｓｓは第２予測分割領域の負のサンプル損失の和を示し、Ｐｏｓ＿ｎｕｍは実分割領域の正のサンプルの数を示し、Ｎｅｇ＿ｎｕｍは実分割領域の負のサンプルの数を示し、Ｔｏｔａｌ＿ｎｕｍは正のサンプルの数と負のサンプルの数との和を示す。

そして、本出願の実施例において、正負のバランスを利用した交差エントロピー損失関数を提供することで、モデルがトレーニングする際、正負の損失をよりよく処理することができ、モデルが数の多い方向に傾斜してトレーニングの失敗を招致することを避け、トレーニングの信頼性を向上させる。

好ましくは、上記の図１７に対応する実施例に基づき、本出願の実施例が提供する画像処理機器４０の他の実施例において、
生成モジュール４０２は具体的に、
実分割領域及び第１予測分割領域に基づき、差異図を決定し、差異図は実分割領域と第１予測分割領域との不一致の領域を示し、
差異図に基づき、第１候補領域及び第２候補領域を決定し、
第１候補領域及び第２候補領域に基づき、少なくとも１つの差異点を選択し、
少なくとも１つの差異点に基づき、トレーニング対象ヒートマップを生成する。

そして、本出願の実施例において、トレーニング対象ヒートマップを自動に生成する方法を提供し、即ち、実分割領域及び第１予測分割領域に基づき、差異図を決定し、差異図に基づき、第１候補領域及び第２候補領域を決定し、第１候補領域及び第２候補領域に基づき、少なくとも１つの差異点を選択し、最後に、少なくとも１つの差異点に基づき、トレーニング対象ヒートマップを生成する。上記の方式で、トレーニングの過程において、差異点のアノテーションに人間の関与の必要がなく、アテンションのメカニズムを利用して、予測マスクと実マスクとの差異点の生成箇所に、ガウス中心を生成し、ヒートマップを形成し、モデルの当該領域に対する注目を向上させる。

本出願の実施例はさらに別の画像処理機器を提供し、図１８に示すように、説明を容易にするために、本出願の実施例と関連する部分のみを示し、記載していない具体的な技術細部は、本出願の実施例の方法部分を参照すればよい。本実施例において、画像処理機器は画像領域認識のための端末機器である。

当該端末機器は、スマートフォン、タブレット、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、販売端末機器（ＰｏｉｎｔｏｆＳａｌｅｓ、ＰＯＳ）、車載コンピュータなどを含む任意の端末機器であってもよく、端末機器がスマートフォンであることを例とし、図１８は、本出願の実施例が提供する端末機器と関連するスマートフォンの一部構成のブロック図を示す。図１８を参照すると、スマートフォンは、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）回路５１０、メモリ５２０、入力ユニット５３０、表示ユニット５４０、センサー５５０、オーディオ回路５６０、ワイヤレス・フィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、Ｗｉ－Ｆｉ）モジュール５７０、プロセッサー５８０、及び電源５９０などの部材を含む。当業者が理解することができるように、図１８に示すスマートフォン構成は、スマートフォンに対する限定ではなく、図示より多いまたは少ない部材、またはいくつかの部材の組み合わせ、或いは異なる部材配置を含んでもよい。

以下は図１８とともに、スマートフォンの各構成部材について具体的に説明する。ＲＦ回路５１０は、情報の送受信、または通話過程での信号の受信及び送信に用いられ、特に、基地局のダウンリンク情報を受信した後、プロセッサー５８０に処理させる。また、アップリンクに設計されたデータを基地局に送信する。通常、ＲＦ回路５１０はアンテナ、少なくとも１つの増幅器、トランシーバ、結合器、低雑音増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、ＬＮＡ）、デュプレクサなどを含むが、これらに限定されない。また、ＲＦ回路５１０はさらに無線通信によりネットワーク及び他の装置と通信することができる。上記の無線通信は何れかの通信標準またはプロトコルを利用してもよく、グローバルモバイルシステムオブシステム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、ＧＳＭ）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳ）、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＣＤＭＡ）、広帯域符号分割多元接続（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＷＣＤＭＡ）、ロングタームエボリューション（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥ）、電子メール、ショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ＳＭＳ）などを含むが、これらに限定されない。

メモリ５２０は、ソフトウェアプログラム及びモジュールを記憶することができ、プロセッサー５８０はメモリ５２０に記憶されるソフトウェアプログラム及びモジュールを実行することで、スマートフォンの各種の機能アプリケーション及びデータ処理を実行する。メモリ５２０は主に、プログラム記憶領域及びデータ記憶領域を含み、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能の必要なアプリケーションプログラム（例えば、音再生機能、画像再生機能等）などを記憶することができ、データ記憶領域は、スマートフォンの使用に基づき構築されたデータ（例えば、オーディオデータ、電話帳など）などを記憶することができる。また、メモリ５２０は高速ランダムアクセスメモリを含んでもよいし、さらに、非揮発性メモリ、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリデバイス、または他の揮発性固体記憶装置を含んでもよい。

入力ユニット５３０は、入力された数字または文字情報を受信し、及びスマートフォンのユーザー配置及び機能制御に関するキー信号入力を発生させる。具体的に、入力ユニット５３０はタッチパネル５３１及び他の入力機器５３２を含む。タッチパネル５３１はタッチスクリーンとも呼ばれて、ユーザーによる、その上または付近のタッチ操作（例えば、ユーザーによる、指、タッチペンなどの任意の適切な物体または付属品を利用して、タッチパネル５３１の上またはタッチパネル５３１の付近の操作）を収集し、予め設定されたプログラムに基づき、相応する接続装置を駆動する。好ましくは、タッチパネル５３１はタッチ検出装置とタッチコントローラという２つの部分を含み、タッチ検出装置はユーザーのタッチ方位、及びタッチ操作による信号を検出し、信号をタッチコントローラに伝送し、タッチコントローラはタッチ検出装置からタッチ情報を受信し、接点座標に変換してから、プロセッサー５８０に伝送し、プロセッサー５８０から送信された命令を受信し、実行する。また、抵抗式、容量式、赤外線及び弾性表面波などのような多種のタイプを採用して、タッチパネル５３１を実現してもよい。タッチパネル５３１以外に、入力ユニット５３０はさらに他の入力機器５３２を含んでもよい。具体的に、他の入力機器５３２は、物理キーボード、機能キー（例えば、音量制御ボタン、スイッチボタンなど）、トラックボール、マウス、ジョイスティックなどのうちの１種または多種を含んでもよい。

表示ユニット５４０は、ユーザーにより入力された情報またはユーザーに提供した情報、及びスマートフォンの各種のメニューを表示する。表示ユニット５４０は表示パネル５４１を含み、好ましくは、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤ）などの形態で、表示パネル５４１を配置する。さらに、タッチパネル５３１は表示パネル５４１をカバーすることができ、タッチパネル５３１はその上またはその付近のタッチ操作を検出した後、プロセッサー５８０に伝送することで、タッチイベントのタイプを決定し、その後、プロセッサー５８０はタッチイベントのタイプに基づき、表示パネル５４１で、相応する視覚出力を提供する。図１８において、タッチパネル５３１と表示パネル５４１とは２つの独立部材として、スマートフォンの入力及び出力機能を実現するが、いくつかの実施例において、タッチパネル５３１と表示パネル５４１とを集積させることで、スマートフォンの入力及び出力機能を実現してもよい。

スマートフォンはさらに、少なくとも１種のセンサー５５０を含み、例えば、光センサー、モーションセンサー及び他のセンサーである。具体的に、光センサーは環境光センサー及び近接センサーを含み、環境光センサーは環境光線の明暗に基づき、表示パネル５４１の輝度を調整し、近接センサーはスマートフォンが耳元に移動されると、表示パネル５４１及び／またはバックライトをシャットダウンすることができる。モーションセンサーの１種として、加速度計センサーは各方向（一般的に、３軸である）の加速度の大きさを検出することができ、静止の際、重力の大きさ及方向を検出することができ、スマートフォンの姿勢を認識するためのアプリケーション（例えば、水平及び垂直画面の切り替え、関連ゲーム、磁力計姿勢校正）、振動認識の関連機能（例えば、歩数計、タッピング）などに適用される。スマートフォンに配置することができるジャイロ、気圧計、湿度計、温度計、赤外線センサーなどの他のセンサーについて、ここで、贅言を要しない。

オーディオ回路５６０、スピーカ５６１、マイクロフォン５６２は、ユーザーとスマートフォンとの間のオーディオインターフェースを提供することができる。オーディオ回路５６０は、受信したオーディオデータの変換後の電気信号をスピーカ５６１に伝送し、スピーカ５６１により音声信号に変換して出力し、また、マイクロフォン５６２は収集した音声信号を電気信号に変換し、オーディオ回路５６０により受信した後、オーディオデータに変換し、オーディオデータをプロセッサー５８０に出力し処理した後、ＲＦ回路５１０により、例えば、別のフォンに送信するか、または、オーディオデータをメモリ５２０に出力し、さらに処理させてもよい。

ＷｉＦｉは短距離無線伝送技術に属して、スマートフォンはＷｉＦｉモジュール５７０により、ユーザーの、電子メールに対する送受信、ウェブページに対する閲覧、及びストリーミングメディアに対するアクセスなどに寄与し、ユーザーに無線のブロードバンドインターネットアクセスを提供する。図１８はＷｉＦｉモジュール５７０を示しているが、スマートフォンの必須な構成ではなく、ニーズに基づき、発明の本質を変更しない範囲内で、省略してもよい。

プロセッサー５８０は、スマートフォンの制御センターであり、各種のインターフェース及び回路を利用して、スマートフォン全体の各部分を接続することができ、メモリ５２０内に記憶されるソフトウェアプログラム及び／またはモジュールを運転または実行し、及びメモリ５２０内に記憶されるデータを呼び出し、スマートフォンの各種の機能及び処理データを実行することで、スマートフォン全体を監視する。好ましくは、プロセッサー５８０は１つまたは複数の処理ユニットを含み、好ましくは、プロセッサー５８０にはアプリケーションプロセッサー及びモデムプロセッサーが集積されてもよく、アプリケーションプロセッサーは主に、オペレーティングシステム、ユーザーインターフェース及びアプリケーションプログラムなどを処理し、モデムプロセッサーは主に、無線通信を処理する。上記のモデムプロセッサーはプロセッサー５８０に集積されなくてもよい。

スマートフォンはさらに、各部材に給電するための電源５９０（例えばバッテリ）を含んでもよく、好ましくは、電源は電源管理システムによりプロセッサー５８０に論理接続されることで、電源管理システムにより充電、放電に対する管理、及び電力消費管理などの機能を実現する。

スマートフォンはさらに、カメラ、ブルートゥースモジュールなどを含んでもよく（開示せず）、ここで、贅言を要しない。

本出願の実施例において、当該端末機器に含まれるプロセッサー５８０はさらに、
複数の極値点を含む分割対象画像を取得する機能と、
分割対象画像に基づき、第１画像特徴情報を生成する機能であって、第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、第１ヒートマップが複数の極値点に基づき生成され、Ｎが１以上の整数である機能と、
第１画像分割モデルにより第１画像特徴情報に対応する第１画像分割領域を取得する機能であって、第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、Ｎ個の第１行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、第１ヒートマップチャンネルと第１ヒートマップとが対応関係を有する機能と、
第１画像分割領域に対応するアノテーションポイント、及び第１画像分割領域に基づき、第２ヒートマップを取得する機能と、
第２画像分割モデルにより分割対象画像に対応する第２画像分割領域を取得する機能であって、第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、Ｎ個の第２行列チャンネルとＮ個の画像行列とが一対一対応の関係を有し、分割領域チャンネルと第１画像分割領域とが対応関係を有し、第２ヒートマップチャンネルと第２ヒートマップとが対応関係を有する機能と、
第２画像分割領域に基づき、分割対象画像の画像認識結果を生成する機能と、を有する。

図１９は、本出願の実施例が提供するサーバーの構成概略図であり、当該サーバー６００は画像処理機器の可能な実現形態である。当該サーバー６００は配置またはパフォーマンスにより、大きい差が生じて、１つまたは複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）６２２（例えば、１つまたは１つ以上のプロセッサー）及びメモリ６３２、１つまたは複数の記憶アプリケーションプログラム６４２、或いはデータ６４４の記憶媒体６３０（例えば、１つまたは１つ以上の大容量記憶装置）を含む。メモリ６３２及び記憶媒体６３０は一時記憶または持続記憶であってもよい。記憶媒体６３０に記憶されるプログラムは、１つまたは複数のモジュール（図示せず）を含み、各モジュールはサーバーに対する一連の命令操作を含む。さらに、中央処理装置６２２は、記憶媒体６３０と通信することができ、サーバー６００で記憶媒体６３０の一連の命令操作を実行するように配置される。

サーバー６００はさらに、１つまたは複数の電源６２６、１つまたは複数の有線または無線ネットワークインターフェース６５０、１つまたは複数の入出力インターフェース６５８、及び／または、１つまたは複数のオペレーティングシステム６４１、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭなどを含んでもよい。

上記の実施例において、サーバーにより実行されるステップは、当該図１９に示すサーバー構成に基づく。

本出願の実施例において、当該サーバーに含まれるＣＰＵ６２２はさらに、
少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得する機能と、
第１画像分割モデルによりトレーニング対象画像の第１予測分割領域を取得する機能であって、第１画像分割モデルは予めトレーニングされた画像分割モデルである機能と、
トレーニング対象画像の実分割領域及び第１予測分割領域に基づき、トレーニング対象ヒートマップを生成する機能であって、トレーニング対象ヒートマップは少なくとも１つの差異点から生成される機能と、
トレーニング対象画像、第１予測分割領域、トレーニング対象ヒートマップ及び実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得する機能と、
第２予測分割領域及び実分割領域に基づき、ターゲット損失関数を利用して、トレーニング対象画像分割モデルに対応するモデルパラメータを決定する機能と、
モデルパラメータを利用して、トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得する機能と、を有する。

説明を容易及び簡潔にするために、上記に記載のシステム、装置及びユニットの具体的な動作過程について、方法実施例における対応する過程を参照すればよいので、ここで、贅言を要しない。

また、本出願の実施例はさらに、コンピュータプログラムを記憶するための記憶媒体を提供し、コンピュータプログラムは上記の実施例から提供される方法を実行する。

本出願の実施例はさらに、命令を含むコンピュータプログラム製品を提供し、コンピュータプログラム製品はコンピュータで実行される場合、コンピュータに上記の実施例から提供される方法を実行させる。

本出願に提供されるいくつかの実施例においては、開示のシステム、装置、及び方法を他の方式で実現することもできる。例えば、以上に記載の装置の実施例はただ例示的なものである。例えば、ユニットに対する区画は論理的な機能区画で、実際の実現に際しては他の区画とすることもできる。例えば、複数のユニットまたはモジュールは結合されるか、または別のシステムに集積されてもよく、いくつかの特徴は無視、または実行されなくてもよい。また、記載または説明した相互の間の結合または直接結合、或いは通信接続は、特定のインターフェースにより実現することもできる。装置の間またはユニットの間の間接結合または通信接続は、電気的、機械的、または他の形態として実現することができる。

個別部材として説明したユニットは物理的に分離されてもよく、そうでなくてもよく、ユニットとして表示した部材は、物理的ユニットであってもよく、そうではなくてもよく、１箇所に位置してもよく、複数のネットワークユニットに分散されてもよい。実際のニーズに基づき、そのうちの一部または全てのユニットを選択して、本実施例の技術案の目的を達成することもできる。

また、本出願の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよいし、各ユニットは物理的に独立して存在してもよく、または２つ或いは２つ以上のユニットは１つのユニットに集積されてもよい。上記の集積されたユニットはハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。

集積されたユニットはソフトウェア機能ユニットの形態で実現され、独立の製品として販売されるか、または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶することができる。このような理解に基づき、本出願の技術案の本質、または従来技術に寄与する部分、または当該技術案の全部或いはその一部は、ソフトウェア製品の形態で表現することができ、当該ソフトウェア製品は記憶媒体に記憶されており、コンピュータ機器（パーソナルコンピュータ、サーバー、またはネットワーク機器であってもよい）に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。上記の記憶媒体は、Ｕディスク、モバイルハードドライブ、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク、または光ディスクなどのような、プログラムコードを記憶することができる任意の媒体を含む。

上記のように、以上の実施例は本出願の技術案を限定せず、ただ説明するためのものである。前記実施例を参照して、本出願を詳しく説明したが、当業者が理解することができるように、依然として、前記各実施例に記載の技術案を修正するか、またはその一部の技術特徴に対して等価置換を行ってもよく、これらの修正または置換は、相応する技術案の本質を本出願の各実施例の技術案の精神及び範囲から逸脱させることがない。

Claims

画像処理機器により実行される画像領域の認識方法であって、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第１画像特徴情報を生成するステップであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップは前記複数の極値点に基づき生成され、前記Ｎが１以上の整数であるステップと、
第１画像分割モデルにより、前記第１画像特徴情報に対応する第１画像分割領域を取得するステップであって、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが１対１対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有するステップと、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得するステップと、
第２画像分割モデルにより、前記分割対象画像に対応する第２画像分割領域を取得するステップであって、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有するステップと、
前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を含む方法。
前記分割対象画像を取得する前記ステップは、
処理対象画像に対する物体アノテーション命令を受信するステップであって、前記処理対象画像はターゲットオブジェクトを含み、前記物体アノテーション命令は、前記ターゲットオブジェクトに対応する複数の極値点の位置情報を含み、前記複数の極値点は前記ターゲットオブジェクトの輪郭エッジを識別するためのものであるステップと、
前記物体アノテーション命令に応答し、前記処理対象画像に基づき、前記分割対象画像を生成するステップと、を含む請求項１に記載の方法。
前記複数の極値点の位置情報は、前記ターゲットオブジェクトの輪郭エッジの四囲をそれぞれ識別するための第１極値点位置情報、第２極値点位置情報、第３極値点位置情報及び第４極値点位置情報を含む請求項２に記載の方法。
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得する前記ステップは、
第１アノテーション命令を受信するステップであって、前記第１アノテーション命令はＭ個のアノテーションポイントに対応し、前記アノテーションポイントは前記第１画像分割領域の内部に位置し、前記Ｍは１以上の整数であるステップと、
前記第１アノテーション命令に応答し、前記第１アノテーション命令に対応する前記Ｍ個のアノテーションポイントに基づき、前記第２ヒートマップを生成するステップと、を含み、
または、前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得する前記ステップは、
第２アノテーション命令を受信するステップであって、前記第２アノテーション命令はＭ個のアノテーションポイントに対応し、前記アノテーションポイントは前記第１画像分割領域の外部に位置し、前記Ｍは１以上の整数であるステップと、
前記第２アノテーション命令に応答し、前記第２アノテーション命令に対応する前記Ｍ個のアノテーションポイントに基づき、前記第２ヒートマップを生成するステップと、を含む請求項１に記載の方法。
前記Ｎ個の第１行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
前記分割対象画像に基づき、第１画像特徴情報を生成する前記ステップは、
前記分割対象画像における前記複数の極値点に基づき、前記第１ヒートマップを生成するステップと、
前記分割対象画像に基づき、Ｎ個の画像行列を生成するステップであって、前記Ｎ個の画像行列は、前記赤チャンネルに対応する第１画像行列、前記緑チャンネルに対応する第２画像行列、及び前記青チャンネルに対応する第３画像行列を含むステップと、
前記第１ヒートマップ、前記第１画像行列、前記第２画像行列及び前記第３画像行列に基づき、前記第１画像特徴情報を生成するステップと、を含む請求項１に記載の方法。
前記Ｎ個の第２行列チャンネルは、赤チャンネル、緑チャンネル及び青チャンネルを含み、
前記Ｎ個の画像行列は、前記分割対象画像に基づき、Ｎ個の画像行列を生成することにより決定され、
前記Ｎ個の画像行列は、前記赤チャンネルに対応する第１画像行列、前記緑チャンネルに対応する第２画像行列、及び前記青チャンネルに対応する第３画像行列を含み、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得した後、前記方法はさらに、
前記第１画像分割領域、前記第２ヒートマップ、前記第１画像行列、前記第２画像行列及び前記第３画像行列に基づき、第２画像特徴情報を生成するステップであって、前記第２画像特徴情報は、前記第２画像分割領域を取得した場合、前記第２画像分割モデルの入力情報であるステップを含む請求項１に記載の方法。
前記第２画像分割モデルにより、前記分割対象画像に対応する第２画像分割領域を取得する前記ステップは、
前記第２画像分割モデルの符号器により、前記第２画像特徴情報を符号化し、第１特徴マップ及び第２特徴マップを取得するステップであって、前記符号器はｍｉｄｄｌｅｆｌｏｗモジュール及び拡張深さ方向の分離可能な畳み込みを含み、前記拡張深さ方向の分離可能な畳み込みは前記第２画像特徴情報の特徴マップを抽出し、前記ｍｉｄｄｌｅｆｌｏｗモジュールは繰り返してＴ回実行し、前記Ｔは８より大きい整数であるステップと、
前記第１特徴マップと前記第２特徴マップとをスプライシングし、ターゲット特徴マップを取得するステップと、
前記第２画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第２画像分割領域を取得するステップと、を含む請求項６に記載の方法。
前記第２画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、前記第２画像分割領域を取得するステップは、
前記第２画像分割モデルの復号器により、前記ターゲット特徴マップを復号化し、複数の第１画素点を含む第１画素点セット、及び第２画素点を含む第２画素点セットを取得するステップと、
前記第１画素点セット及び前記第２画素点セットに基づき、前記第２画像分割領域を生成するステップと、を含む請求項７に記載の方法。
画像処理機器により実行されるモデルのトレーニング方法であって、
少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第１画像分割モデルにより、前記トレーニング対象画像の第１予測分割領域を取得するステップであって、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第１予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得するステップと、
前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得するステップと、を含む方法。
前記ターゲット損失関数は、
Ｌｏｓｓ＝Ｐｏｓ＿ｌｏｓｓ＊（Ｎｅｇ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）＋Ｎｅｇ＿ｌｏｓｓ＊（Ｐｏｓ＿ｎｕｍ／Ｔｏｔａｌ＿ｎｕｍ）
によって表され、
前記Ｌｏｓｓは前記ターゲット損失関数を示し、前記Ｐｏｓ＿ｌｏｓｓは前記第２予測分割領域の正のサンプル損失の和を示し、前記Ｎｅｇ＿ｌｏｓｓは前記第２予測分割領域の負のサンプル損失の和を示し、前記Ｐｏｓ＿ｎｕｍは前記実分割領域の正のサンプルの数を示し、前記Ｎｅｇ＿ｎｕｍは前記実分割領域の負のサンプルの数を示し、前記Ｔｏｔａｌ＿ｎｕｍは前記正のサンプルの数と前記負のサンプルの数との和を示す請求項９に記載の方法。
前記トレーニング対象画像の実分割領域及び前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成する前記ステップは、
前記実分割領域及び前記第１予測分割領域に基づき、差異図を決定するステップであって、前記差異図は前記実分割領域と前記第１予測分割領域との不一致の領域を示すステップと、
前記差異図に基づき、第１候補領域及び第２候補領域を決定するステップと、
前記第１候補領域及び前記第２候補領域に基づき、前記少なくとも１つの差異点を選択するステップと、
前記少なくとも１つの差異点に基づき、前記トレーニング対象ヒートマップを生成するステップと、を含む請求項９に記載の方法。
画像処理機器であって、
複数の極値点を含む分割対象画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記分割対象画像に基づき、第１画像特徴情報を生成する生成モジュールであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップは前記複数の極値点に基づき生成され、前記Ｎが１以上の整数である、前記生成モジュールと、を含み、
前記取得モジュールは、
第１画像分割モデルにより、前記生成モジュールにより生成された前記第１画像特徴情報に対応する第１画像分割領域を取得し、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが逐一対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有し、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得し、
第２画像分割モデルにより、前記分割対象画像に対応する第２画像分割領域を取得し、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有する、
よう構成され、
前記生成モジュールは、前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するよう構成される、画像処理機器。
画像処理機器であって、
取得モジュールと、生成モジュールと、決定モジュールと、トレーニングモジュールとを含み、
前記取得モジュールは、少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得し、第１画像分割モデルにより、トレーニング対象画像の第１予測分割領域を取得し、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであり、
前記生成モジュールは、前記トレーニング対象画像の実分割領域及び前記取得モジュールにより取得された前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成し、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成され、
前記取得モジュールは、前記トレーニング対象画像、前記第１予測分割領域、前記生成モジュールにより生成された前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得し、
前記決定モジュールは、前記取得モジュールにより取得された前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定し、
前記トレーニングモジュールは、前記決定モジュールにより決定された前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得する、画像処理機器。
メモリ、送受信機、プロセッサー及びバスシステムを含む端末機器であって、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
複数の極値点を含む分割対象画像を取得するステップと、
前記分割対象画像に基づき、第１画像特徴情報を生成するステップであって、前記第１画像特徴情報はＮ個の画像行列及び第１ヒートマップを含み、前記第１ヒートマップは前記複数の極値点に基づき生成され、前記Ｎが１以上の整数であるステップと、
第１画像分割モデルにより、前記第１画像特徴情報に対応する第１画像分割領域を取得するステップであって、前記第１画像分割モデルは第１ヒートマップチャンネル及びＮ個の第１行列チャンネルを含み、前記Ｎ個の第１行列チャンネルと前記Ｎ個の画像行列とが逐一対応の関係を有し、前記第１ヒートマップチャンネルと前記第１ヒートマップとが対応関係を有するステップと、
前記第１画像分割領域に対応するアノテーションポイント、及び前記第１画像分割領域に基づき、第２ヒートマップを取得するステップと、
第２画像分割モデルにより、前記分割対象画像に対応する第２画像分割領域を取得するステップであって、前記第２画像分割モデルは分割領域チャンネル、第２ヒートマップチャンネル及びＮ個の第２行列チャンネルを含み、前記Ｎ個の第２行列チャンネルと前記Ｎ個の画像行列とが逐一対応の関係を有し、前記分割領域チャンネルと前記第１画像分割領域とが対応関係を有し、前記第２ヒートマップチャンネルと前記第２ヒートマップとが対応関係を有するステップと、
前記第２画像分割領域に基づき、前記分割対象画像の画像認識結果を生成するステップと、を実行するよう構成され、
前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、端末機器。
メモリ、送受信機、プロセッサー及びバスシステムを含むサーバーであって、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリにおけるプログラムを実行する場合に、
少なくとも１つのトレーニング対象画像を含むトレーニング対象画像セットを取得するステップと、
第１画像分割モデルにより、トレーニング対象画像の第１予測分割領域を取得するステップであって、前記第１画像分割モデルは予めトレーニングされた画像分割モデルであるステップと、
前記トレーニング対象画像の実分割領域及び前記第１予測分割領域に基づき、トレーニング対象ヒートマップを生成するステップであって、前記トレーニング対象ヒートマップは少なくとも１つの差異点から生成されるステップと、
前記トレーニング対象画像、前記第１予測分割領域、前記トレーニング対象ヒートマップ及び前記実分割領域に基づき、トレーニング対象画像分割モデルにより第２予測分割領域を取得するステップと、
前記第２予測分割領域及び前記実分割領域に基づき、ターゲット損失関数を利用して、前記トレーニング対象画像分割モデルに対応するモデルパラメータを決定するステップと、
前記モデルパラメータを利用して、前記トレーニング対象画像分割モデルをトレーニングすることで、第２画像分割モデルを取得するステップと、を実行するよう構成され、
前記バスシステムは、前記メモリと前記プロセッサーとを接続して、前記メモリと前記プロセッサーとを通信させる、サーバー。
コンピュータプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体と、プロセッサーとを含むコンピュータ機器であって、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、請求項１～８の何れかの１項に記載の方法、または、請求項９～１１の何れかの１項に記載の方法を実行するコンピュータ機器。
命令を含むコンピュータプログラムであって、コンピュータで実行される場合、前記コンピュータに、請求項１～８の何れかの１項に記載の方法、または、請求項９～１１の何れかの１項に記載の方法を実行させるコンピュータプログラム。