JP2022537866A

JP2022537866A - 画像分類方法、画像分類装置、画像処理方法、医療用電子機器、画像分類機器、及びコンピュータプログラム

Info

Publication number: JP2022537866A
Application number: JP2021548679A
Authority: JP
Inventors: ジエ，ゼォチュン; ジャオ，ボ; フォン，ジィアシ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-06-28
Filing date: 2020-06-28
Publication date: 2022-08-31
Anticipated expiration: 2040-06-28
Also published as: EP3992851A1; WO2020259666A1; CN110276411A; CN110276411B; KR20210119526A; JP7297081B2; KR102605969B1; US20210390695A1; EP3992851A4; US11900647B2

Abstract

画像分類方法、装置、機器、記憶媒体、及び医療用電子機器に関する。画像分類方法は、医用画像である目標画像と、目標画像に関する参照画像とを受信するステップと、同じ方式で、目標画像の第１画像特徴と、参照画像の第２画像特徴とを決定するステップと、第１画像特徴と第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップと、分類対象画像特徴を利用して、目標画像が所定のカテゴリに属する確率を決定するステップと、を含む。

Description

本願は、２０１９年６月２８日に提出された、出願番号が第２０１９１０５７３５６０．９であり、発明の名称が「画像分類方法、装置、機器、記憶媒体、及び医療用電子機器」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。

本願は、画像処理分野に関し、具体的には、画像分類方法、装置、機器、記憶媒体、及び医療用電子機器、並びに画像処理方法に関する。

画像分類とは、一定の分類規則に基づいて、入力画像を１組の予め定義されたカテゴリに自動的に分けることである。例えば、画像に含まれるセマンティック情報に基づいて、入力画像に対してオブジェクト分類やシナリオ分類などを行ってもよい。例えば、入力画像に含まれる所定の目標オブジェクトを認識し、認識されたオブジェクトに基づいて、分類してもよい。また、例えば、入力画像におけるセマンティック情報に基づいて、類似する内容を有する画像を、同じカテゴリに区分してもよい。

本願は、画像分類方法、装置、機器、記憶媒体、及び医療用電子機器、並びに画像処理方法を提供することを目的とする。

本願の一態様によれば、電子機器が実行する画像分類方法が提供されている。前記方法は、医用画像である目標画像と、前記目標画像に関する参照画像とを受信するステップと、同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するステップと、前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップと、前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するステップと、を含む。前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定する前記ステップは、前記分類対象画像特徴を利用して、複数次元のベクトルを取得するステップであって、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものである、ステップと、前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定するステップと、を含む。

本願の別の態様によれば、画像分類装置がさらに提供されている。前記画像分類装置は、医用画像である目標画像と、前記目標画像に関する参照画像とを受信するように構成される受信ユニットと、同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するように構成される画像特徴決定ユニットと、前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するように構成される融合ユニットと、前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するように構成される分類結果生成ユニットと、を含む。分類結果生成ユニットは、前記分類対象画像特徴を利用して、複数次元のベクトルを取得し、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものであり、分類結果生成ユニットは、前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定する。

本願のさらなる態様によれば、電子機器が実行する画像処理方法がさらに提供されている。前記方法は、目標画像を受信するステップと、第１ニューラルネットワークを利用して、前記目標画像の第１目標画像特徴を決定するステップと、第２ニューラルネットワークを利用して、前記目標画像の第２目標画像特徴を決定するステップと、前記第１目標画像特徴と前記第２目標画像特徴とに基づいて、前記目標画像の第１画像処理結果及び第２画像処理結果を決定するステップと、前記第１画像処理結果と前記第２画像処理結果とを融合することにより、前記目標画像の画像処理結果を決定するステップと、を含む。前記第１ニューラルネットワークと前記第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、前記第１ニューラルネットワークは、第１訓練セットで訓練されたものであり、前記第２ニューラルネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる。

本願のさらなる態様によれば、医療用電子機器がさらに提供されている。前記医療用電子機器は、医用画像である目標画像と、前記目標画像に関する参照画像とを収集するように構成される画像収集ユニットと、同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するように構成される画像特徴決定ユニットと、前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するように構成される融合ユニットと、前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するように構成される分類結果生成ユニットと、を含む。分類結果生成ユニットは、前記分類対象画像特徴を利用して、複数次元のベクトルを取得し、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものであり、分類結果生成ユニットは、前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定する。

本願のさらなる態様によれば、メモリとプロセッサとを備える画像分類機器がさらに提供されている。前記メモリには、命令が記憶され、前記プロセッサを利用して前記命令を実行すると、前述した画像分類方法を前記プロセッサに実行させる。

本願のさらなる態様によれば、命令を記憶したコンピュータ読み取り可能な記憶媒体がさらに提供されている。前記命令は、プロセッサによって実行されると、前述した画像分類方法を前記プロセッサに実行させる。

本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。以下の図面は、意図的に実際のサイズと同じ比率で拡大縮小して描画されたものではなく、本願の主旨を示すのが重点である。

本願による画像処理システムの例示的なシナリオ図を示す。本願の実施例による画像分類方法の模式的なフローチャートを示す。本願による画像分類方法の模式的な過程を示す。人体の左側の乳腺のｃｃ画像及びｍｌｏ画像、並びに、右側の乳腺のｃｃ画像及びｍｌｏ画像を示す。本願の実施例による画像処理方法の模式的なフローチャートを示す。本願の実施例による画像分類装置の模式的なブロック図を示す。本願の実施例による医療用電子機器の模式的なブロック図を示す。本願の実施例によるコンピューティングデバイスのアーキテクチャを示す。

本発明の実施例の目的、構成、及びメリットをより明確にするために、以下に、本発明の実施例の図面を参照しながら、本発明の実施例の構成を明確かつ完全に説明する。明らかなように、説明される実施例は、本願の実施例の一部に過ぎず、実施例の全部ではない。説明される実施例に基づいて、当業者が創造的な労働をせずに得る全ての他の実施例は、本発明の保護範囲に属する。

別段の定義がない限り、ここで使用される技術用語もしくは科学用語は、当業者が理解する通常の意味を有すべきである。本願で使用される「第１」、「第２」及び類似の単語は、いかなる順番、数量、もしくは重要性を示すものではなく、異なる構成部分を区別するためのものに過ぎない。同様に、「含む」や「備える」などの類似の単語は、そのセンテンスの最初に現れる素子もしくは物品が、該単語の前に挙げられる素子もしくは物品、及びその同等物をカバーするが、他の素子もしくは物品を除外しないことを意味する。「接続」もしくは「連結」などの類似の単語は、物理的もしくは機械的な接続に限定されず、直接的か間接的かを問わず、電気的な接続を含んでもよい。「上」、「下」、「左」、「右」などは、相対位置関係を示すためのものに過ぎず、記述対象のオブジェクトの絶対位置が変わることに応じて、この相対位置関係も変わる可能性がある。

関連技術で使用される画像分類方法では、医用画像を例にすると、通常、関心のある目標画像のみに対して処理を行う。例えば、人体の乳腺の医用画像の場合、通常、関心のある側の乳腺の画像のみに対して画像分類処理を行う。しかしながら、異なる人の個体の医用画像は、組織の密度、脂肪の厚さなどの生理的特徴が大きく異なるので、異なる人について得られた乳腺の医用画像の視覚的効果も大きく異なる。したがって、関心のある側の医用画像のみに対して画像処理を行うと、精確な判断が難しい。しかしながら、画像分類を行う際に同一人の両側の器官の医用画像の比較情報を考慮すると、より精確な画像分類結果及び病気スクリーニング結果を取得することができる。

図１は、本願による画像分類システムの例示的なシナリオ図を示す。図１に示すように、該画像分類システム１００は、ユーザ端末１１０と、ネットワーク１２０と、サーバ１３０と、データベース１４０とを含んでもよい。

ユーザ端末１１０は、例えば図１に示すコンピュータ１１０－１、携帯電話１１０－２であってもよい。理解できるものとして、実際に、ユーザ端末は、データ処理を実行可能な任意の他のタイプの電子機器であってもよい。ユーザ端末は、デスクトップコンピュータ、ノートパソコン、タブレットコンピュータ、スマートフォン、スマートホーム家庭用機器、ウェアラブル機器、車載電子機器、監視機器などを含んでもよいが、これらに限定されない。ユーザ端末は、電子機器が設けられた任意の装備、例えば車両、ロボットなどであってもよい。

本願によるユーザ端末は、処理対象の画像を受信し、本願で提供される方法を利用して画像分類を実現し、さらに病気スクリーニングを実現することができる。例えば、ユーザ端末は、ユーザ端末に設けられた画像収集機器（例えば、カメラ、ビデオカメラなど）によって、処理対象の画像を収集してもよい。また、例えば、ユーザ端末は、独立して設けられた画像収集機器から、処理対象の画像を受信してもよい。さらに、例えば、ユーザ端末は、ネットワークを介して、サーバから処理対象の画像を受信してもよい。ここで記載された処理対象の画像は、個別の画像であってもよいし、ビデオにおける１フレームであってもよい。処理対象の画像が医用画像である場合、ユーザ端末は、医用収集機器から、処理対象の画像を受信してもよい。ここで言う医用画像は、例えば、コンピュータ断層撮影（ＣＴ：ＣｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ）、磁気共鳴画像（ＭＲＩ：ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）、超音波、Ｘ線、核種イメージング（例えば、単光子放射型コンピュータ断層撮影（ＳＰＥＣＴ：Ｓｉｎｇｌｅ－ＰｈｏｔｏｎＥｍｉｓｓｉｏｎｃｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ）、陽電子放出断層撮影（ＰＥＴ：ＰｏｓｉｔｒｏｎＥｍｉｓｓｉｏｎＴｏｍｏｇｒａｐｈｙ））などの方法によって収集された医用画像であってもよいし、例えば、心電図、脳電図、光学撮影など、人体の生理的情報を表示する画像であってもよい。

いくつかの実施例では、ユーザ端末の処理ユニットを利用して、本願で提供される画像分類方法を実行してもよい。いくつかの実現形態において、ユーザ端末は、ユーザ端末に内蔵されたアプリケーションを利用して、画像分類方法を実行してもよい。他のいくつかの実現形態において、ユーザ端末は、ユーザ端末の外部に記憶されたアプリケーションを呼び出すことにより、本願で提供される画像分類方法を実行してもよい。

他のいくつかの実施例では、ユーザ端末が、受信された処理対象の画像を、ネットワーク１２０を介してサーバ１３０に送信し、サーバ１３０が画像分類方法を実行する。いくつかの実現形態において、サーバ１３０は、サーバに内蔵されたアプリケーションを利用して、画像分類方法を実行してもよい。他のいくつかの実現形態において、サーバ１３０は、サーバの外部に記憶されたアプリケーションを呼び出すことにより、画像分類方法を実行してもよい。

ネットワーク１２０は、単一のネットワーク、又は、少なくとも２つの異なるネットワークの組み合わせであってもよい。例えば、ネットワーク１２０は、ローカルエリアネットワーク、ワイドエリアネットワーク、パブリックネットワーク、プライベートネットワークなどのうちの１種又は数種の組み合わせを含んでもよいが、これらに限定されない。

サーバ１３０は、単独のサーバ、又はサーバクラスタであってもよい。クラスタ内の各サーバは、有線又は無線のネットワークを介して接続される。サーバクラスタは、例えばデータセンターのような集中型であってもよいし、分散型であってもよい。サーバ１３０は、ローカルであっても、リモートであってもよい。

データベース１４０は、一般に記憶機能を有する機器を指してもよい。データベース１４０は、主に、ユーザ端末１１０及びサーバ１３０の動作に利用、生成、及び出力される様々なデータを記憶する。データベース１４０は、ローカルであっても、リモートであってもよい。データベース１４０は、各種のメモリ、例えば、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などを含んでもよい。上記で言及された記憶機器は、いくつかの例を挙げたものに過ぎず、該システムに使用可能な記憶機器は、これらに限定されない。

データベース１４０は、ネットワーク１２０を介して、サーバ１３０又はその一部と相互接続又は通信するか、或いは、直接にサーバ１３０と相互接続又は通信するか、或いは、上記の２種の方式を組み合わせるようにしてもよい。

いくつかの実施例において、データベース１４０は、独立した機器であってもよい。他のいくつかの実施例において、データベース１４０は、ユーザ端末１１０及びサーバ１３０のうちの少なくとも１つに統合されてもよい。例えば、データベース１４０は、ユーザ端末１１０に設けられてもよいし、サーバ１３０に設けられてもよい。また、例えば、データベース１４０は、一部がユーザ端末１１０に設けられ、他の一部がサーバ１３０に設けられる分散型であってもよい。

以下、本願で提供される画像処理方法の手順を詳細に述べる。

図２は、本願の実施例による画像処理方法の模式的なフローチャートを示す。

図２に示すように、ステップＳ２０２では、目標画像と、目標画像に関する少なくとも１つの参照画像とを受信してもよい。いくつかの実施例において、参照画像は、目標画像と同じタイプの画像であってもよい。例えば、参照画像には、目標画像における目標オブジェクトと同様又は同じタイプの他の目標オブジェクトが含まれてもよい。

いくつかの実施例において、目標画像は、医用画像であってもよい。例えば、目標画像が人体の一方の側の器官の医用画像である場合、参照画像は、同一人の他方の側の器官の同じタイプの医用画像であってもよい。例えば、ここで言う器官は、乳腺、眼、肺、歯など、人体に２つ以上の数で存在する任意の器官であってもよい。

理解できるものとして、本願で開示された原理を逸脱することなく、目標画像における目標オブジェクトと同じタイプの目標オブジェクトを参照画像に含めることができる限り、ここで言う目標画像は、医用画像以外の任意の他のタイプの画像であってもよい。例えば、目標画像は顔画像であってもよい。この場合、参照画像は、他の時間に（例えば、異なる背景、異なる照明、異なる年齢段階で）撮影された顔画像であってもよい。また、例えば、目標画像は、人以外の任意の動物又は植物の画像であってもよい。

いくつかの実施例において、目標画像は、同一の目標オブジェクトに対する複数の画像を含んでもよい。

いくつかの実現形態において、目標画像は、少なくとも２つの角度から取得された目標オブジェクトの画像を含んでもよい。例えば、目標画像は、頭尾方向（ＣＣ：Ｃｒａｎｉｏｃａｕｄａｌ）視角で撮影された人体の乳腺のモリブデンターゲット検出画像と、内外斜位方向（ＭＬＯ：Ｍｅｄｉｏｌａｔｅｒａｌ－Ｏｂｌｉｑｕｅ）視角で撮影された人体の乳腺のモリブデンターゲット検出画像とを含んでもよい。理解できるものとして、目標画像に他のタイプの目標オブジェクトが含まれる場合、当業者は、異なる角度から取得される他の目標画像を取得するために、目標オブジェクトの撮影方式を任意に設定してもよい。

他のいくつかの実現形態において、目標画像は、少なくとも２つの異なる機器によって取得された目標オブジェクトの画像を含んでもよい。例えば、目標画像は、Ｘ線機器によって収集された人体の乳腺の画像と、ＭＲＩ機器によって収集された人体の乳腺の画像とを含んでもよい。理解できるものとして、目標画像に他のタイプの目標オブジェクトが含まれる場合、当業者は、異なる機器によって取得される他の目標画像を取得するために、目標オブジェクトの撮影方式を任意に設定してもよい。例えば、パラメータが異なる少なくとも２つのカメラによって、目標オブジェクトが含まれる目標画像をそれぞれ取得してもよい。

目標画像に複数の画像が含まれる場合、参照画像は、複数の目標画像のうちのそれぞれの目標画像にそれぞれ対応する複数の参照画像を含んでもよい。ここで、各参照画像は、それに対応する目標画像と同じ方式で取得されたものである。

ステップＳ２０４では、目標画像の第１画像特徴と、参照画像の第２画像特徴とを決定してもよい。例えば、同じ方式で、目標画像の第１画像特徴と、参照画像の第２画像特徴とを決定してもよい。

いくつかの実施例では、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行うことにより、第１画像特徴を取得してもよい。さらに、第１ニューラルネットワークを利用して、参照画像に対して畳み込み処理を行うことにより、第２画像特徴を取得してもよい。つまり、パラメータを共有するニューラルネットワークを利用して、目標画像及び参照画像を処理してもよい。第１画像特徴及び第２画像特徴は、それぞれ、複数の画像特徴を含んでもよい。

いくつかの実現形態において、第１ニューラルネットワークは、画像から画像特徴を取得できる任意のニューラルネットワークであってもよい。例えば、第１ニューラルネットワークは、少なくとも１つの畳み込み層が含まれる任意のネットワーク、例えば、Ｉｎｃｅｐｔｉｏｎシリーズのネットワーク（例えばＧｏｏｇｌｅｎｅｔなど）、ＶＧＧシリーズのネットワーク、Ｒｅｓｎｅｔシリーズのネットワークなどの任意１つ、又は上記ネットワークの任意１つの少なくとも一部であってもよい。

いくつかの実施例では、目標画像における色特徴、テクスチャ特徴、形状特徴、空間関係特徴などの特徴のうちの少なくとも１種を抽出して第１画像特徴としてもよい。さらに、同じ方法で、参照画像における特徴を抽出して第２画像特徴としてもよい。

ステップＳ２０６では、第１画像特徴と第２画像特徴とを融合することにより、分類対象画像特徴を決定してもよい。

いくつかの実施例では、第１画像特徴と第２画像特徴とを連結することにより、分類対象画像特徴を決定してもよい。

１つの実現形態において、第１画像特徴及び第２画像特徴は、複数のチャネルを有してもよい。例えば、第１画像特徴は、サイズがＨ１＊Ｗ１＊Ｃ１であるテンソルであってもよい。ここで、Ｈ１は、第１画像特徴の第１方向（例えば長さ方向）におけるサイズであってもよく、Ｗ１は、第１画像特徴の第２方向（例えば幅方向）におけるサイズであってもよく、Ｈ１、Ｗ１は、画素数を単位とするサイズであってもよく、Ｃ１は、第１画像特徴のチャネル数であってもよい。第２画像特徴は、サイズがＨ２＊Ｗ２＊Ｃ２であるテンソルであってもよい。ここで、Ｈ２は、第２画像特徴の第１方向（例えば長さ方向）におけるサイズであってもよく、Ｗ２は、第２画像特徴の第２方向（例えば幅方向）におけるサイズであってもよく、Ｈ２、Ｗ２は、画素数を単位とするサイズであってもよく、Ｃ２は、第２画像特徴のチャネル数であってもよい。ここで、Ｃ１、Ｃ２は、１よりも大きい整数である。

このような場合、第１画像特徴と第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップは、第１画像特徴と第２画像特徴とを連結することにより、分類対象画像特徴を決定するステップを含んでもよい。

例えば、第１画像特徴は１０２４個のチャネルを有してもよく、第２画像特徴も１０２４個のチャネルを有してもよい。第１画像特徴と第２画像特徴とを連結することにより、２０４８個のチャネルを有する分類対象画像特徴を取得することができる。この２０４８個のチャネルを有する分類対象画像特徴には、第１画像特徴及び第２画像特徴の情報が融合されており、即ち、目標画像及び参照画像の画像情報が融合されている。

いくつかの実施例では、第１画像特徴と第２画像特徴との対応するチャネルにおける対応する位置の各要素を加算することにより、目標画像及び参照画像の画像情報が融合されている分類対象画像特徴を決定してもよい。

ステップＳ２０８では、ステップＳ２０６で取得された分類対象画像特徴を利用して、目標画像が所定のカテゴリに属する確率を決定してもよい。例えば、融合された分類対象画像特徴は、左右両側の乳腺が乳癌陽性であるか否かの予測に同時に用いられる。

いくつかの実施例では、第１全結合ネットワークを利用して、分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する確率を取得してもよい。

例えば、第１全結合ネットワークから複数の次元を有するベクトルを出力するように、第１全結合ネットワークを設定してもよい。該ベクトルにおける各要素は、目標画像及び参照画像が所定のカテゴリに属する信頼スコアを示す。

医用画像に対する分類過程を例にすると、所定のカテゴリは、健康カテゴリと病気カテゴリとを含んでもよい。１つの実現形態において、目標画像は、人体の左側の乳腺の医用画像であってもよく、参照画像は、人体の右側の乳腺の医用画像であってもよい。このような場合、第１全結合ネットワークから出力されるベクトルは、４次元であってもよい。該ベクトルの４つの次元の要素は、それぞれ、左側の乳腺の医用画像が健康カテゴリ、病気カテゴリに属する信頼スコア、及び、右側の乳腺の医用画像が健康カテゴリ、病気カテゴリに属する信頼スコアを示す。

理解できるものとして、異なる適用シナリオに対して、当業者は、実際の状況に応じて、分類用の所定のカテゴリの数を設定してもよい。例えば、所定のカテゴリは、予め定義された動物カテゴリ、植物カテゴリ、シナリオカテゴリなど、任意の可能な分類カテゴリであってもよい。入力画像の数（即ち、目標画像及び参照画像の総数）と、所定のカテゴリの数とに基づいて、第１全結合ネットワークを設定することにより、所定の次元のベクトルを出力してもよい。例えば、入力画像の数がｍであり、所定のカテゴリの数がｎである場合、第１全結合ネットワークから出力されるベクトルは、ｍ^ｎ個の次元を有してもよい。

いくつかの実施例では、第１全結合ネットワークから出力された、複数の次元に対する信頼スコアに基づいて、目標画像及び参照画像が所定のカテゴリに属する確率を決定してもよい。

例えば、左側の乳腺がそれぞれ健康カテゴリ及び病気カテゴリに属する２つの信頼スコアに対して、ｓｏｆｔｍａｘ関数を利用して左側の乳腺用の２つの信頼スコアを正規化することにより、左側の乳腺の医用画像が健康カテゴリに属する確率と、左側の乳腺の医用画像が病気カテゴリに属する確率とを取得してもよい。同様に、ｓｏｆｔｍａｘ関数を利用して、右側の乳腺の医用画像が健康カテゴリに属する確率と、右側の乳腺の医用画像が病気カテゴリに属する確率を取得してもよい。

いくつかの実施例では、目標画像が所定のカテゴリに属する確率が、所定の確率閾値（例えば０．５）よりも大きい場合、目標画像が所定のカテゴリに属すると考えられる。

このように、参照画像の画像情報に基づいて、目標画像に対する画像分類を実現することができる。

本願の実施例で提供される上記画像分類方法によれば、画像分類過程において参照画像及び目標画像の画像情報を融合することができ、目標画像及び参照画像の画像情報が融合された画像特徴に基づいて、目標画像が所定のカテゴリに属する確率を決定することができる。これにより、目標画像に対するより正確な分類が実現される。目標画像及び参照画像が医用画像である場合、病気スクリーニングの正確性を向上させる。例えば、本願の実施例で提供される上記画像分類方法によれば、乳癌病人が乳癌に罹患していることに起因して、両側の乳腺の画像の比較情報が顕著に異なる場合、高確率でこの人のある側が乳癌陽性であると判断できる。

図３Ａは、本願による画像分類方法の模式的な過程を示す。図３Ａに示すように、入力画像は、人体の左側の乳腺のｃｃ画像及びｍｌｏ画像、並びに、右側の乳腺のｃｃ画像及びｍｌｏ画像を含んでもよい。図３Ｂは、人体の左側の乳腺のｃｃ画像及びｍｌｏ画像、並びに、右側の乳腺のｃｃ画像及びｍｌｏ画像を示す。

図３Ａに示すように、上記の４つの入力画像を、それぞれ、パラメータを共有するｇｏｏｇｌｅｎｅｔネットワークに入力することにより、各画像それぞれのベクトル化された画像特徴を取得してもよい。いくつかの実施例では、ｇｏｏｇｌｅｎｅｔネットワークにおけるいずれか１層（例えば、後寄りのいずれか１層、例えばｇｏｏｇｌｅｎｅｔネットワークにおける第ｐｏｏｌ５／７×７＿ｓ１層）から出力された結果を選択して、画像のベクトル化された画像特徴としてもよい。

例えば、ｇｏｏｇｌｅｎｅｔネットワークにおける第ｐｏｏｌ５／７×７＿ｓ１層を利用して、それぞれの入力画像に１つの１０２４次元のベクトル化された特徴を生成してもよい。この４つの１０２４次元の画像特徴ｆ_ｃｃ ^ｌ、ｆ_ｍｌｏ ^ｌ、ｆ_ｃｃ ^Ｒ、ｆ_ｍｌｏ ^Ｒを融合することにより、４０９６次元の融合特徴Ｆ＝［ｆ_ｃｃ ^ｌ，ｆ_ｍｌｏ ^ｌ，ｆ_ｃｃ ^Ｒ，ｆ_ｍｌｏ ^Ｒ］を取得することができる。さらに、この融合特徴を全結合層で処理すると、左側の乳腺、右側の乳腺がそれぞれ健康カテゴリ、病気カテゴリに属する信頼スコアｓ_＋ ^ｌ、ｓ_－ ^ｌ、ｓ_＋ ^Ｒ、ｓ_－ ^Ｒをそれぞれ示す４次元のベクトルを取得することができる。ｓｏｆｔｍａｘ関数を利用してｓ_＋ ^ｌ、ｓ_－ ^ｌを正規化することにより、左側の乳腺が健康カテゴリと病気カテゴリに属する確率ｐ_＋ ^ｌとｐ_－ ^ｌを取得してもよい。

同様に、ｓｏｆｔｍａｘ関数を利用してｓ_＋ ^Ｒ、ｓ_－ ^Ｒを正規化することにより、右側の乳腺が健康カテゴリと病気カテゴリに属する確率のｐ_＋ ^Ｒとｐ_－ ^Ｒを取得してもよい。ここで、ｅｘｐ（）は、指数関数である。

左側の乳腺の医用画像を目標画像として、右側の乳腺の医用画像を参照画像とする場合、図３Ａに示す過程によって、目標画像と参照画像がそれぞれ健康カテゴリと病気カテゴリに属する確率を取得することができる。左側の乳腺の医用画像が健康カテゴリに属する確率ｐ_＋ ^ｌの値が、所定の確率閾値（例えば０．５）よりも大きい場合、左側の乳腺の医用画像が健康カテゴリに属すると考えられる。同様に、右側の乳腺の医用画像が属するカテゴリを決定することができる。

本願の実施例で提供される画像分類方法は、乳癌が疑われる患者の乳腺のモリブデンターゲットスキャンフィルムに乳癌が含まれているか否かを認識することに適用可能である。例えば、左右両側の乳腺を比較するネットワーク構造に基づいて、左右両側の乳腺の多視角スキャンフィルムを同時に受信し、各側の乳腺の各スキャンフィルムに対して特徴抽出を個別に行い、次に特徴融合を行い、融合された特徴を、左右両側の乳腺が乳癌陽性であるか否かの予測に同時に用いてもよい。

ニューラルネットワークを利用して、画像特徴を抽出して最後の分類結果を取得する場合、異なるタイプの入力画像について正確な分類効果を実現するために、対応するタイプの訓練セットで、使用されるニューラルネットワーク（例えば、上記で言及された第１ニューラルネットワーク及び／又は第１全結合ネットワーク）を訓練する必要がある。

いくつかの実施例において、第１ニューラルネットワーク及び第１全結合ネットワークは、以下の方式によって訓練されてもよい。例えば、第１ニューラルネットワークの第１訓練セットを決定してもよい。ここで、第１訓練セットには、複数の訓練画像が含まれる。該複数の訓練画像は、目標画像と同じタイプの画像である。例えば、医用画像を例にすると、上記第１ニューラルネットワーク及び第１全結合ネットワークが乳腺の画像の分類に用いられる場合、第１訓練セットに含まれる複数の訓練画像は、所定のタイプに合致することが知られている異なる乳腺の画像のサンプルであってもよい。例えば、第１訓練セットには、第１訓練画像が含まれてもよい。図２に示す方法によれば、第１訓練画像用の第１参照訓練画像を決定することができる。例えば、第１訓練画像が左側の乳腺の医用画像である場合、第１参照訓練画像は、右側の乳腺の医用画像であってもよい。

図２に示す方法を参照すると、第１ニューラルネットワークを利用して、第１訓練画像及び第１参照訓練画像のそれぞれに対して畳み込み処理を行うことにより、第１訓練画像特徴及び第２訓練画像特徴を取得してもよい。さらに、第１訓練画像特徴と第２訓練画像特徴とに基づいて、分類対象訓練画像特徴を決定してもよい。ここで、分類対象訓練画像特徴には、第１訓練画像及び第１訓練参照画像の画像情報が融合されている。さらに、第１全結合ネットワークを利用して分類対象訓練画像特徴を処理することにより、第１訓練画像が所定のカテゴリに属する確率を決定してもよい。

第１ニューラルネットワーク及び第１全結合ネットワークに対する訓練を実現するために、第１訓練画像が所定のカテゴリに属する確率と、第１訓練画像が属する実際のカテゴリとの間の損失が最小となるように、第１ニューラルネットワーク及び第１全結合ネットワークのパラメータを調整してもよい。

クロスエントロピー損失関数を利用して、第１訓練画像が所定のカテゴリに属する確率と、第１訓練画像が属する実際のカテゴリとの間の損失を計算してもよい。

上記のように、乳腺の医用画像を例にすると、第１全結合ネットワークは、左側の乳腺の画像が健康カテゴリ及び病気カテゴリに属する確率、並びに、右側の乳腺の画像が健康カテゴリ及び病気カテゴリに属する確率を出力することができる。このような場合、下式によって、左側の乳腺の画像の損失を計算してもよい。

ここで、ｐ_＋ ^ｌは、左側の乳腺の画像が健康カテゴリに属する確率であり、ｐ_－ ^ｌは、左側の乳腺の画像が病気カテゴリに属する確率であり、ｄは、ラベル付きの真の値であり、左側の乳腺の画像が属する実際のカテゴリが健康カテゴリである場合、ｄ＝０であり、左側の乳腺の画像が属する実際のカテゴリが病気カテゴリである場合、ｄ＝１である。

同様に、下式によって、右側の乳腺の画像の損失を計算してもよい。

ここで、ｐ_＋ ^ｒは、右側の乳腺の画像が健康カテゴリに属する確率であり、ｐ_－ ^ｒは、右側の乳腺の画像が病気カテゴリに属する確率であり、ｄは、ラベル付きの真の値であり、右側の乳腺の画像が属する実際のカテゴリが健康カテゴリである場合、ｄ＝０であり、右側の乳腺の画像が属する実際のカテゴリが病気カテゴリである場合、ｄ＝１である。

本願の実施例によれば、第１ニューラルネットワーク及び第１全結合ネットワークは、カテゴリが知られている両側の乳腺の画像を複数使用して訓練されたものであり、訓練過程において、両側の乳腺の画像の比較情報を学習することができる。このため、異なる人の個体の乳腺スキャンフィルムが組織の密度や脂肪の厚さなどの点に大きく異なる場合においても、訓練済みの第１ニューラルネットワーク及び第１全結合ネットワークは、乳腺スキャンフィルムに基づいて、乳癌の有無についての安定的且つ精確な判断結果を出すことができる。

いくつかの場合、訓練データの正のサンプルと負のサンプルとの割合が不均衡である。例えば、医用画像を例にすると、訓練画像において、病気カテゴリに属するサンプルが少ないが、健康カテゴリに属するサンプルが多いので、サンプルが不均衡であるという問題が存在する。

上述したサンプルが不均衡であるという問題を解決するために、異なる割合の正のサンプルと負のサンプルとが含まれるサンプルセットによって、同じ方法で、パラメータが異なる少なくとも２つのネットワークモデル（例えば、前述した第１ニューラルネットワークと第１全結合ネットワークとが含まれるネットワークモデル）を訓練することにより、入力画像を処理し、異なるネットワークの出力結果に基づいて、入力画像が所定のカテゴリに属する確率を決定してもよい。入力画像は、目標画像と、目標画像の参照画像とを含む。例えば、第１ニューラルネットワークは、第１訓練セットで訓練されたものであり、第２ニューラルネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる。

図４は、本願の実施例による画像処理方法のフローチャートである。図４に示すように、ステップＳ４０２では、目標画像を受信してもよい。ここで、目標画像は、医用画像又は他の任意のタイプの画像であってもよい。

ステップＳ４０４では、第１ニューラルネットワークを利用して、目標画像の第１目標画像特徴を決定してもよい。例えば、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行うことにより、第１目標画像特徴を取得してもよい。第１目標画像特徴は、複数の画像特徴を含んでもよい。

ステップＳ４０６では、第２ニューラルネットワークを利用して、目標画像の第２目標画像特徴を決定してもよい。例えば、少なくとも１つの畳み込み層が含まれる第２ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行うことにより、第２目標画像特徴を取得してもよい。第２目標画像特徴は、複数の画像特徴を含んでもよい。

いくつかの実現形態において、第１ニューラルネットワーク及び第２ニューラルネットワークは、画像から画像特徴を取得できる任意のニューラルネットワークであってもよい。例えば、第１ニューラルネットワークは、少なくとも１つの畳み込み層が含まれる任意のネットワーク、例えば、Ｉｎｃｅｐｔｉｏｎシリーズのネットワーク（例えばＧｏｏｇｌｅｎｅｔなど）、ＶＧＧシリーズのネットワーク、Ｒｅｓｎｅｔシリーズのネットワークなどの任意１つ、又は上記ネットワークの任意１つの少なくとも一部であってもよい。

いくつかの実施例において、第１ニューラルネットワークと第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、第１ニューラルネットワークは、第１訓練セットで訓練されたたものであり、第２ニューラルネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる。

ステップＳ４０８では、第１目標画像特徴と第２目標画像特徴とに基づいて、目標画像の第１画像処理結果及び第２画像処理結果を決定してもよい。

理解できるものとして、第１ニューラルネットワークと第２ニューラルネットワークが、同じ訓練方法で取得された異なるネットワークであるので、第１画像処理結果と第２画像処理結果は、同じタイプである。例えば、第１画像処理結果及び第２画像処理結果は、画像分類結果、画像分割結果、目標検出結果のうちの少なくとも１つであってもよい。これは、ニューラルネットワークを訓練するために当業者によって採用される具体的な方式及び訓練セットに依存する。

ステップＳ４１０では、第１画像処理結果と第２画像処理結果とを融合することにより、目標画像の画像処理結果を決定する。ここで、第１画像処理結果及び第２画像処理結果のタイプに対応して、画像処理結果は、画像分類結果、画像分割結果、目標検出結果のうちの少なくとも１つを含む。

実験を通じて、ネットワークの正のサンプルの損失と負のサンプルの損失とが近い、正のサンプルと負のサンプルとの割合を決定してもよい。例えば、訓練セットにおける全ての正のサンプルの損失関数と全ての負のサンプルの損失関数とを計算することにより、該訓練セットで訓練されたネットワークの正のサンプルの損失と負のサンプルの損失とを決定してもよい。以下、正のサンプルと負のサンプルとの割合が１：２である場合、ネットワークの正のサンプルの損失と負のサンプルの損失とが近い場合を例にして、本願の原理を説明する。

１つの実現形態では、正のサンプルと負のサンプルとの割合が１：１である第１訓練セット、及び、正のサンプルと負のサンプルとの割合が１：３である第２訓練セットを、サンプリングによって決定してもよい。

本願の原理によれば、正のサンプルと負のサンプルとの割合が１：２である場合、ネットワークの正のサンプルの損失と負のサンプルの損失とが近いため、訓練セットにおける正のサンプルと負のサンプルとの割合を変えることに応じて、訓練により生成されたネットワークの正のサンプルの損失と負のサンプルの損失との割合も変わることが可能である。したがって、正のサンプルと負のサンプルとの割合が１：１である第１訓練セットにおいて、正のサンプルの割合が高まるため、第１訓練セットで訓練されたネットワークの正のサンプルの損失が負のサンプルの損失よりも小さい。同様に、正のサンプルと負のサンプルとの割合が１：３である第２訓練セットにおいて、負のサンプルの割合が高まるため、第２訓練セットで訓練されたネットワークの正のサンプルの損失が負のサンプルの損失よりも大きい。

このような場合、第１訓練セットで訓練されたネットワークは、正のサンプルに対する分類効果がより良く、第２訓練セットで訓練されたネットワークは、負のサンプルに対する分類効果がより良い。例えば、第１訓練セットで訓練されたネットワークを利用して画像分類を行う場合、正のサンプルの入力画像について、第１訓練セットで訓練されたネットワークから出力された、該入力画像が所定のカテゴリに属する確率が、０又は１により近くなり、即ち、該入力画像が所定のカテゴリに属するか否かをより容易に判別できる。これに応じて、第１訓練セットで訓練されたネットワークは、負のサンプルに対する分類効果が悪いので、負のサンプルの入力画像について、第１訓練セットで訓練されたネットワークは、０．５により近い確率を出力し、即ち、該入力画像が属するカテゴリの判別が容易ではない。以上の特性に基づいて、第１訓練セットで訓練されたネットワークと、第２訓練セットで訓練されたネットワークとの出力結果を融合することにより、より精確な予測結果を取得することができる。

同様に、正のサンプルと負のサンプルとの割合が１：１である第１訓練セット、正のサンプルと負のサンプルとの割合が１：３である第２訓練セット、及び正のサンプルと負のサンプルとの割合が１：２である第３訓練セットを、サンプリングにより決定してもよい。上記第１訓練セット、第２訓練セット、及び第３訓練セットで、第１ニューラルネットワーク、第２ニューラルネットワーク、及び第３ニューラルネットワークをそれぞれ訓練してもよい。前述した人体の乳腺の医用画像を例にすると、第１ニューラルネットワーク、第２ニューラルネットワーク、及び第３ニューラルネットワークを利用して、左側の乳腺の医用画像が健康カテゴリに属する３つの出力結果ＰＡ_＋ ^ｌ，ＰＢ_＋ ^ｌ，ＰＣ_＋ ^ｌ、左側の乳腺の医用画像が病気カテゴリに属する３つの出力結果ＰＡ_－ ^ｌ，ＰＢ_－ ^ｌ，ＰＣ_－ ^ｌ、右側の乳腺の医用画像が健康カテゴリに属する３つの出力結果ＰＡ_＋ ^ｒ，ＰＢ_＋ ^ｒ，ＰＣ_＋ ^ｒ、右側の乳腺の医用画像が病気カテゴリに属する３つの出力結果ＰＡ_－ ^ｒ，ＰＢ_－ ^ｒ，ＰＣ_－ ^ｒをそれぞれ出力してもよい。異なる訓練セットによって得られた上記の３つのネットワークから出力された結果を融合（例えば加重平均）することにより、左側の乳腺の医用画像と、右側の乳腺の医用画像とが健康カテゴリ及び病気カテゴリに属する確率を決定してもよい。例えば、下式によって、左側の乳腺の医用画像と、右側の乳腺の医用画像とが健康カテゴリ及び病気カテゴリに属する確率を決定してもよい。

ここで、Ｐ_＋ ^ｌは、左側の乳腺の医用画像が健康カテゴリに属する確率であり、Ｐ_－ ^ｌは、左側の乳腺の医用画像が病気カテゴリに属する確率であり、Ｐ_＋ ^ｒは、右側の乳腺の医用画像が健康カテゴリに属する確率であり、Ｐ_－ ^ｒは、右側の乳腺の画像が病気カテゴリに属する確率である。

同様に、ステップＳ４０２～Ｓ４１０と類似するステップによって、参照画像の第１目標参照画像特徴及び第２目標参照画像特徴を取得してもよい。

図２に戻って参照すると、ステップＳ２０４では、いくつかの実施例において、第１画像特徴は、第１目標画像特徴と、第２目標画像特徴とを含む。第１目標画像特徴は、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行って得たものであり、第２目標画像特徴は、第２ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行って得たものである。

第２画像特徴は、第１目標参照画像特徴と、第２目標参照画像特徴とを含む。ここで、第１目標参照画像特徴は、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、参照画像に対して畳み込み処理を行って得たものであり、第２目標参照画像特徴は、第２ニューラルネットワークを利用して、参照画像に対して畳み込み処理を行って得たものである。

ここで、第１ニューラルネットワークと第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、第１ニューラルネットワークは、前述した第１訓練セットで訓練されたものであり、第２ニューラルネットワークは、前述した第２訓練セットで訓練されたものである。上記のように、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる。したがって、第１ニューラルネットワークと第２ニューラルネットワークは、異なるパラメータを有するため、異なる出力結果を有する。

このような場合、ステップＳ２０６では、分類対象画像特徴は、第１分類対象画像特徴と、第２分類対象画像特徴とを含む。例えば、第１分類対象画像特徴は、第１目標画像特徴と第１目標参照画像特徴とを連結することにより決定されたものであってもよく、第２分類対象画像特徴は、第２目標画像特徴と第２目標参照画像特徴とを連結することにより決定されたものであってもよい。

ステップＳ２０８では、第１全結合ネットワークを利用して、第１分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する第１確率を取得してもよい。第２全結合ネットワークを利用して、第２分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する第２確率を取得してもよい。第１確率と第２確率とを融合することにより、目標画像が所定のカテゴリに属する確率を決定することができる。例えば、第１確率と第２確率との加重平均値に基づいて、目標画像が所定のカテゴリに属する確率を決定してもよい。ここで、第１全結合ネットワークと第２全結合ネットワークは、同じ訓練方法で訓練された異なるネットワークであり、そのうち、第１全結合ネットワークは、第１訓練セットで訓練されたものであり、第２全結合ネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる。

本願では、２つ又は３つの異なる訓練セットのみを例にして、本願の原理を解釈しているが、本願の実施例は、これに限定されない。当業者は、実際の状況に応じて、より多くの異なる訓練セットを選択して、画像分類を実行するためのネットワークモデルをより多く取得することができる。

本願で提供される、異なる訓練セットで取得されたネットワークモデルに基づいて実現される上記画像分類方法によれば、関連技術において訓練データの割合が不均衡であるという問題を克服し、画像分類の正確性、及び病気スクリーニングの正確性を向上させることができる。

図５は、本願の実施例による画像分類装置の模式的なブロック図を示す。図５に示すように、画像分類装置５００は、受信ユニット５１０と、画像特徴決定ユニット５２０と、融合ユニット５３０と、分類結果生成ユニット５４０とを含んでもよい。

受信ユニット５１０は、目標画像と、目標画像に関する少なくとも１つの参照画像とを受信するように構成されてもよい。いくつかの実施例において、参照画像は、目標画像と同じタイプの画像であってもよい。例えば、参照画像には、目標画像における目標オブジェクトと同様の目標オブジェクト又は同じタイプの他の目標オブジェクトが含まれてもよい。

ここで、目標画像は、医用画像であってもよい。例えば、目標画像が人体の一方の側の器官の医用画像である場合、参照画像は、同一人の他方の側の器官の同じタイプの医用画像であってもよい。例えば、ここで言う器官は、乳腺、眼、肺、歯など、人体に２つ以上の数で存在する任意の器官であってもよい。

画像特徴決定ユニット５２０は、目標画像の第１画像特徴と、参照画像の第２画像特徴とを決定するように構成されてもよい。例えば、同じ方式で、目標画像の第１画像特徴と、参照画像の第２画像特徴とを決定してもよい。

いくつかの実施例では、第１画像特徴は、第１目標画像特徴と、第２目標画像特徴とを含む。第１目標画像特徴は、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行って得たものであり、第２目標画像特徴は、第２ニューラルネットワークを利用して、目標画像に対して畳み込み処理を行って得たものである。第１目標画像特徴と第２目標画像特徴は、それぞれ、複数の画像特徴を含んでもよい。

ここで、第１ニューラルネットワークと第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、第１ニューラルネットワークは、前述した第１訓練セットで訓練されたものであり、第２ニューラルネットワークは、前述した第２訓練セットで訓練されたものである。

融合ユニット５３０は、第１画像特徴と第２画像特徴とを融合することにより、分類対象画像特徴を決定するように構成されてもよい。

ここで、第１画像特徴と第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップは、第１画像特徴と第２画像特徴とを連結することにより、分類対象画像特徴を決定するステップを含んでもよい。

いくつかの実施例では、分類対象画像特徴は、第１分類対象画像特徴と、第２分類対象画像特徴とを含む。例えば、第１分類対象画像特徴は、第１目標画像特徴と第１目標参照画像特徴とを連結することにより決定されたものであってもよく、第２分類対象画像特徴は、第２目標画像特徴と第２目標参照画像特徴とを連結することにより決定されたものであってもよい。

分類結果生成ユニット５４０は、融合ユニット５３０によって生成された分類対象画像特徴を利用して、目標画像が所定のカテゴリに属する確率を決定するように構成されてもよい。いくつかの実施例では、第１全結合ネットワークを利用して、分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する確率を取得してもよい。

理解できるものとして、異なる適用シナリオの場合、当業者は、実際の状況に応じて、分類用の所定のカテゴリの数を設定してもよい。

いくつかの実施例では、分類結果生成ユニット５４０は、第１全結合ネットワークを利用して、第１分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する第１確率を取得してもよい。第２全結合ネットワークを利用して、第２分類対象画像特徴を処理することにより、目標画像が所定のカテゴリに属する第２確率を取得してもよい。第１確率と第２確率とを融合することにより、目標画像が所定のカテゴリに属する確率を決定することができる。例えば、第１確率と第２確率との加重平均値に基づいて、目標画像が所定のカテゴリに属する確率を決定してもよい。

本願の実施例で提供される上記画像分類装置によれば、画像分類過程において参照画像及び目標画像の画像情報を融合することができ、目標画像及び参照画像の画像情報が融合された画像特徴に基づいて、目標画像が所定のカテゴリに属する確率を決定することができる。これにより、目標画像に対するより正確な分類が実現される。目標画像及び参照画像が医用画像である場合、病気スクリーニングの正確性を向上させる。また、関連技術において訓練データの割合が不均衡であるという問題を克服し、画像分類の正確性、及び病気スクリーニングの正確性をさらに向上させることもできる。

図６は、本願の実施例による医療用電子機器の模式的なブロック図を示す。図６に示すように、医療用電子機器６００は、画像収集ユニット６１０と、画像特徴決定ユニット６２０と、融合ユニット６３０と、分類結果生成ユニット６４０とを含んでもよい。

画像収集ユニット６１０は、目標画像と、目標画像に関する参照画像とを収集することができる。ここで言う医用画像は、例えば、ＣＴ、ＭＲＩ、超音波、Ｘ線、核種イメージング（例えば、ＳＰＥＣＴ、ＰＥＴ）などの方法によって収集された医用画像であってもよいし、例えば、心電図、脳電図、光学撮影など、人体の生理的情報を表示する画像であってもよい。

画像特徴決定ユニット６２０、融合ユニット６３０、及び分類結果生成ユニット６４０は、図５に示す画像特徴決定ユニット５２０、融合ユニット５３０、及び分類結果生成ユニット５４０として実現されてもよく、ここではこれ以上の説明を省略する。

いくつかの実施形態において、本願で提供される医療用電子機器は、ＣＴ、ＭＲＩ、超音波、Ｘ線装置など、任意の医用画像機器であってもよい。画像収集ユニット６１０は、上記医用画像機器のイメージングユニットとして実現されてもよく、画像特徴決定ユニット６２０、融合ユニット６３０、及び分類結果生成ユニット６４０は、医用画像機器の内部処理ユニット（例えば、プロセッサ）によって実現されてもよい。

また、本願の実施例による方法又は装置は、図７に示すコンピューティングデバイスのアーキテクチャで実現されてもよい。図７は、該コンピューティングデバイスのアーキテクチャを示す。図７に示すように、コンピューティングデバイス７００は、バス７１０、１つ又は少なくとも２つのＣＰＵ７２０、読み出し専用メモリ（ＲＯＭ）７３０、ランダムアクセスメモリ（ＲＡＭ）７４０、ネットワークに接続された通信ポート７５０、入出力コンポーネント７６０、ハードディスク７７０などを含んでもよい。コンピューティングデバイス７００の記憶機器、例えば、ＲＯＭ７３０又はハードディスク７７０は、本願で提供される、ビデオから目標を検出するための方法の処理及び／又は通信に使用される各種のデータ又はファイル、並びに、ＣＰＵが実行するプログラム命令を記憶することができる。コンピューティングデバイス７００は、ユーザインタフェース７８０をさらに含んでもよい。勿論、図７に示すアーキテクチャは、例示的なものに過ぎず、異なる機器を実現する場合、実際の必要に応じて、図７に示すコンピューティングデバイスの１つ又は少なくとも２つのコンポーネントを省略してもよい。

本願の実施例は、コンピュータ読み取り可能な記憶媒体として実現されてもよい。本願の実施例によるコンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶されている。コンピュータ読み取り可能な命令は、プロセッサによって実行されると、上記の図面を参照して説明された本願の実施例による方法を実行させることができる。コンピュータ読み取り可能な記憶媒体は、例えば、揮発性メモリ及び／又は不揮発性メモリを含むが、これらに限定されない。揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュ（ｃａｃｈｅ）などを含んでもよい。不揮発性メモリは、例えば、読み出し専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでもよい。

当業者が理解できるように、本願に披露された内容は、様々な変形や改良が可能である。例えば、上記に説明された各種の機器又はコンポーネントは、ハードウェアで実現されてもよいし、ソフトウェア、ファームウェア、もしくはこの３つのうちの一部又は全部の組み合わせで実現されてもよい。

また、本願及び特許請求の範囲に示すように、文脈において例外が明確に示されない限り、「一」、「１つ」、「１種」、及び／又は「該」などの用語は、単数を特に指すのではなく、複数を含んでもよい。一般的には、用語「備える」及び「含む」は、明確に標識されたステップ及び要素を含むことのみを示すが、これらのステップ及び要素が排他的な羅列となるのではなく、方法もしくは機器は、他のステップ又は要素を含む可能性もある。

また、本願では、本願の実施例によるシステムにおけるいくつかのユニットへの様々な参照を行っているが、任意の数の異なるユニットは、クライアント及び／又はサーバ上で使用且つ実行されてもよい。ユニットは例示的なものに過ぎず、システム及び方法の異なる態様では、異なるユニットを使用してもよい。

また、本願では、本願の実施例によるシステムが実行する操作を説明するために、フローチャートを使用している。理解すべきものとして、先行又は後続の操作は、必ずしも精確に順序に従って実行されるとは限らない。逆に、各ステップを、逆の順序で、又は同時に処理してもよい。また、他の操作をこれらの過程に追加したり、又はこれらの過程からある１つのステップ又はいくつかのステップの操作を除去したりしてもよい。

別段の定義がない限り、ここで使用される全ての用語（技術用語及び科学用語を含む）は、当業者に共通して理解されるのと同じ意味を有する。また、理解すべきものとして、通常の辞書で定義されているような用語は、関連技術の文脈におけるその意味と一致する意味を有すると解釈されるべきであり、ここで明確に定義されていない限り、理想的な又は極度に形式化された意味で解釈されるべきではない。

上記は、本発明についての説明であるが、本発明を制限するものと見なされるべきではない。本発明の若干の例示的な実施例が説明されているが、当業者は、本発明の新規な教示および利点を逸脱することなく、例示的な実施例に対して多くの修正を行うことができることを容易に理解する。したがって、これらの修正は、全て、特許請求の範囲によって限定される本発明の範囲に含まれることが意図されている。理解すべきものとして、上記は、本発明についての説明であるが、開示された特定の実施例に限定されると見なされるべきではない。また、開示された実施例及び他の実施例に対する修正は、添付の特許請求の範囲に含まれることが意図されている。本発明は、特許請求の範囲及びその同等物によって限定される。

Claims

電子機器が実行する画像分類方法であって、
医用画像である目標画像と、前記目標画像に関する参照画像とを受信するステップと、
同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するステップと、
前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップと、
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するステップと、を含み、
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定する前記ステップは、
前記分類対象画像特徴を利用して、複数次元のベクトルを取得するステップであって、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものである、ステップと、
前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定するステップと、を含む、
画像分類方法。
前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するステップは、
少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、前記目標画像に対して畳み込み処理を行うことにより、第１画像特徴を取得するステップと、
前記第１ニューラルネットワークを利用して、前記参照画像に対して畳み込み処理を行うことにより、第２画像特徴を取得するステップと、を含む、
請求項１に記載の画像分類方法。
前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するステップは、
前記第１画像特徴と前記第２画像特徴とを連結することにより、前記分類対象画像特徴を決定するステップを含む、
請求項１又は２に記載の画像分類方法。
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するステップは、
第１全結合ネットワークを利用して、前記分類対象画像特徴を処理することにより、前記目標画像が所定のカテゴリに属する確率を取得するステップを含む、
請求項２に記載の画像分類方法。
前記第１画像特徴は、第１目標画像特徴と、第２目標画像特徴とを含み、前記第１目標画像特徴は、少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、前記目標画像に対して畳み込み処理を行って得たものであり、前記第２目標画像特徴は、第２ニューラルネットワークを利用して、前記目標画像に対して畳み込み処理を行って得たものであり、
前記第２画像特徴は、第１目標参照画像特徴と、第２目標参照画像特徴とを含み、前記第１目標参照画像特徴は、少なくとも１つの畳み込み層が含まれる前記第１ニューラルネットワークを利用して、前記参照画像に対して畳み込み処理を行って得たものであり、前記第２目標参照画像特徴は、前記第２ニューラルネットワークを利用して、前記参照画像に対して畳み込み処理を行って得たものであり、
前記第１ニューラルネットワークと前記第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、前記第１ニューラルネットワークは、第１訓練セットで訓練されたものであり、前記第２ニューラルネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる、
請求項１に記載の画像分類方法。
前記分類対象画像特徴は、第１分類対象画像特徴と、第２分類対象画像特徴とを含み、前記第１分類対象画像特徴は、前記第１目標画像特徴と前記第１目標参照画像特徴とを連結することにより決定されたものであり、前記第２分類対象画像特徴は、前記第２目標画像特徴と前記第２目標参照画像特徴とを連結することにより決定されたものである、
請求項５に記載の画像分類方法。
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するステップは、
第１全結合ネットワークを利用して、前記第１分類対象画像特徴を処理することにより、前記目標画像が所定のカテゴリに属する第１確率を取得するステップと、
第２全結合ネットワークを利用して、前記第２分類対象画像特徴を処理することにより、前記目標画像が所定のカテゴリに属する第２確率を取得するステップと、
前記第１確率と前記第２確率との加重平均値に基づいて、前記目標画像が所定のカテゴリに属する確率を決定するステップと、を含み、
前記第１全結合ネットワークと前記第２全結合ネットワークは、同じ訓練方法で訓練された異なるネットワークであり、前記第１全結合ネットワークは、第１訓練セットで訓練されたものであり、前記第２全結合ネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる、
請求項６に記載の画像分類方法。
前記第１ニューラルネットワーク及び前記第１全結合ネットワークは、
前記第１ニューラルネットワークの第１訓練セットを決定するステップであって、前記第１訓練セットには、第１訓練画像が含まれる、ステップと、
前記第１訓練画像の第１参照訓練画像を決定するステップと、
前記第１ニューラルネットワークを利用して、前記第１訓練画像及び前記第１参照訓練画像のそれぞれに対して畳み込み処理を行うことにより、第１訓練画像特徴及び第２訓練画像特徴を取得するステップと、
前記第１訓練画像特徴と前記第２訓練画像特徴とに基づいて、分類対象訓練画像特徴を決定するステップと、
第１全結合ネットワークを利用して、前記分類対象訓練画像特徴を処理することにより、前記第１訓練画像が所定のカテゴリに属する確率を決定するステップと、
前記第１訓練画像が所定のカテゴリに属する確率と、前記第１訓練画像が属する実際のカテゴリとの間の損失が最小となるように、前記第１ニューラルネットワーク及び前記第１全結合ネットワークのパラメータを調整するステップと、によって訓練されたものである、
請求項４又は７に記載の画像分類方法。
画像分類装置であって、
医用画像である目標画像と、前記目標画像に関する参照画像とを受信するように構成される受信ユニットと、
同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するように構成される画像特徴決定ユニットと、
前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するように構成される融合ユニットと、
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するように構成される分類結果生成ユニットと、を含み、
分類結果生成ユニットは、前記分類対象画像特徴を利用して、複数次元のベクトルを取得し、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものであり、分類結果生成ユニットは、前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定する、
画像分類装置。
画像特徴決定ユニットは、さらに、
少なくとも１つの畳み込み層が含まれる第１ニューラルネットワークを利用して、前記目標画像に対して畳み込み処理を行うことにより、第１画像特徴を取得し、
前記第１ニューラルネットワークを利用して、前記参照画像に対して畳み込み処理を行うことにより、第２画像特徴を取得するように構成される、
請求項９に記載の画像分類装置。
電子機器が実行する画像処理方法であって、
目標画像を受信するステップと、
第１ニューラルネットワークを利用して、前記目標画像の第１目標画像特徴を決定するステップと、
第２ニューラルネットワークを利用して、前記目標画像の第２目標画像特徴を決定するステップと、
前記第１目標画像特徴と前記第２目標画像特徴とに基づいて、前記目標画像の第１画像処理結果及び第２画像処理結果を決定するステップと、
前記第１画像処理結果と前記第２画像処理結果とを融合することにより、前記目標画像の画像処理結果を決定するステップと、を含み、
前記第１ニューラルネットワークと前記第２ニューラルネットワークは、同じ訓練方法で訓練された異なるネットワークであり、前記第１ニューラルネットワークは、第１訓練セットで訓練されたものであり、前記第２ニューラルネットワークは、第２訓練セットで訓練されたものであり、第１訓練セットと第２訓練セットに含まれる訓練画像における正のサンプルと負のサンプルとの割合が異なる、
画像処理方法。
前記画像処理結果は、画像分類結果、画像分割結果、目標検出結果のうちの少なくとも１つを含む、
請求項１１に記載の画像処理方法。
医療用電子機器であって、
医用画像である目標画像と、前記目標画像に関する参照画像とを収集するように構成される画像収集ユニットと、
同じ方式で、前記目標画像の第１画像特徴と、前記参照画像の第２画像特徴とを決定するように構成される画像特徴決定ユニットと、
前記第１画像特徴と前記第２画像特徴とを融合することにより、分類対象画像特徴を決定するように構成される融合ユニットと、
前記分類対象画像特徴を利用して、前記目標画像が所定のカテゴリに属する確率を決定するように構成される分類結果生成ユニットと、を含み、
分類結果生成ユニットは、前記分類対象画像特徴を利用して、複数次元のベクトルを取得し、該ベクトルにおける要素が、それぞれ、前記目標画像及び前記参照画像が所定のカテゴリに属する信頼スコアを示すものであり、分類結果生成ユニットは、前記目標画像が所定のカテゴリに属する信頼スコアに基づいて、前記目標画像が所定のカテゴリに属する確率を決定する、
医療用電子機器。
メモリとプロセッサとを備える画像分類機器であって、前記メモリには、命令が記憶され、前記プロセッサを利用して前記命令を実行すると、請求項１～８及び１１～１２のいずれか１項に記載の画像分類方法を前記プロセッサに実行させる、画像分類機器。
請求項１～８及び１１～１２のいずれか１項に記載の画像分類方法をコンピュータに実行させる、コンピュータプログラム。