JP2020170408A

JP2020170408A - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP2020170408A
Application number: JP2019072302A
Authority: JP
Inventors: 大介古川; Daisuke Furukawa; 深山嵜; Fukashi Yamazaki; 啓太中込; Keita Nakagome
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2020-10-15
Also published as: US11455730B2; US20200320713A1; JP2023159216A

Abstract

【課題】本発明は、識別器の学習に利用する教示データを効率的に生成することのできる画像処理装置を提供することを目的とする。【解決手段】本発明に係る画像処理装置は、教示データに基づいて、識別器の学習をする学習部１３０と、前記学習部１３０により学習された前記識別器により、画像から第一の注目領域の抽出を行う第一の抽出部１４０と、前記第一の注目領域を含む第一の抽出結果に基づいて、グラフカット・セグメンテーション法に用いられる領域情報を設定する設定部１５０と、前記設定された領域情報に基づいて、前記グラフカット・セグメンテーション法により、第二の注目領域の抽出を行う第二の抽出部１６０と、前記第二の抽出領域を含む第二の抽出結果に基づいて、前記画像に対応する正解画像を生成する生成部１７０と、を備える。【選択図】図１

Description

本発明は、撮像装置で撮影された画像中に描出されている注目領域を指示する正解画像を作成する画像処理装置、画像処理方法およびプログラムに関する。

画像処理技術の中の重要な技術の一つとして、セグメンテーションがある。セグメンテーションとは画像中に存在する注目領域と注目領域以外の領域を区別する処理のことであり、領域抽出、領域分割、画像分割とも呼ばれる。これまでに多くのセグメンテーション手法が提案されているが、近年では非特許文献１に開示されているような機械学習に基づく手法が注目されている。

ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ，ｅｔａｌ．"Ｕ−Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔｔｉｏｎ"，ＭＩＣＣＡＩ，２０１５

しかしながら、機械学習の精度は、学習画像と正解画像の組による教示データに依存する。正解画像の作成は労力を要する作業であるため、正解画像を大量に作成することは難しいという課題があった。本発明は労力を軽減しながら、正解画像を作成することのできる画像処理装置を提供することを目的とする。

本発明に係る画像処理装置は、以下の構成を備える。すなわち、教示データに基づいて、識別器の学習をする学習部と、学習部により学習された識別器により、画像から第一の注目領域の抽出を行う第一の抽出部と、第一の注目領域を含む第一の抽出結果に基づいて、グラフカット・セグメンテーション法に用いられる領域情報を設定する設定部と、設定された領域情報に基づいて、グラフカット・セグメンテーション法により、第二の注目領域の抽出を行う第二の抽出部と、第二の抽出領域を含む第二の抽出結果に基づいて、画像に対応する正解画像を生成する生成部と、を備える。

本発明によれば、労力を軽減しながら、正解画像を作成することができる。

第一の実施形態に係る画像処理装置の構成を示す図。第一の実施形態に係る画像処理装置の処理手順を示すフローチャート。第一の実施形態に係る画像処理装置の教示データの一例を示す図。前景シードと背景シードの設定方法を説明する図。第二の実施形態に係る画像処理装置の構成を示す図。第二の実施形態に係る画像処理装置の処理手順を示すフローチャート。

以下、図面を参照して本発明の実施形態を説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において構成要素、部材、処理の一部は省略して表示する。

また以下では、Ｘ線コンピュータ断層撮像（Ｘ線ＣＴ）装置で撮影された腹部ＣＴ画像中に描出されている肝臓を例に挙げて、本発明について説明する。本発明において、人体の腹部に存在する肝臓が注目物体であり、腹部を撮影した腹部ＣＴ画像が学習画像である。そして、腹部Ｘ線ＣＴ画像中に描出されている肝臓が注目領域である。ここで正解画像とは、学習画像に対応しており、学習画像に対して注目物体の位置情報を示した画像を指す。

なお、本発明は他の臓器のみならず、骨や、筋肉など人体のあらゆる構造物に対して適用可能である。本発明は、核磁気共鳴画像撮像装置（ＭＲＩ）装置、ポジトロン断層撮像（ＰＥＴ）装置、超音波撮像装置で撮像された断層画像や、カメラで撮影された通常の画像に対しても適用可能である。また、２次元画像でも３次元画像にも適用可能である。さらに、本発明は一般物体を撮影した実画像に対しても適用可能である。なお、本発明の実施形態は以下の実施形態に限定されるものではない。

＜第一の実施形態＞
以下では図１を参照して、実施形態に係る画像処理装置の構成について説明する。本発明にかかる画像処理装置１００は、最初に識別器１０１を用いて画像中に描出されている注目領域を抽出する。次に、グラフカット・セグメンテーション部１０２にて公知のグラフカット・セグメンテーション法を用いて、再度、画像中の注目領域を抽出する。画像処理装置はこの際、識別器による注目領域の抽出結果に基づいて、グラフカット・セグメンテーション部１０２で利用されるグラフを構築する。最後に、画像処理装置１００はグラフカット・セグメンテーション部１０２による注目領域の抽出結果を修正して、画像についての正解画像を生成する。

一般に少数の学習画像と少数の正解画像で学習された識別器を用いて注目領域の抽出を行う場合であっても、注目領域の中心付近の領域は比較的高い精度で抽出される。しかしながら、識別器への教示データが不十分であると注目領域の境界付近の領域が注目領域として正しく抽出されないことがある。それにより、たとえば注目領域が抽出不足になったり、注目領域より外側の領域が注目領域として誤って抽出されたりする場合がある。

一方、公知のグラフカット・セグメンテーション法では、設定部によりグラフ構築が適切になされた場合、注目領域の中心付近と境界付近の両方の領域を非常に高い精度で抽出することができる。ここで、設定部がグラフを適切に構築するためには、領域情報の設定が必要である。領域情報とは前景シードと背景シードの２種類の情報から構成される。前景シードとは、画像中の領域のうち、注目領域である領域うち少なくとも一部の領域を示す情報である。一方、背景シードとは、注目領域でない領域のうち少なくとも一部の領域を示す情報である。設定部によりこれら２種類の情報に基づいたグラフが構築されると、グラフカット・セグメンテーション法により注目領域を抽出することができる。

以上の点に注目して、本発明にかかる画像処理装置１００は、まず識別器１０１を用いて注目領域の抽出を行う。次に、設定部１５０が識別器で抽出された領域のうち、境界付近の領域を削除する。設定部１５０はさらに抽出領域のうち削除されずに残った領域に基づいて、グラフの前景シードと背景シードを設定する。そして設定された前景シードと背景シードを用い、設定部１５０がグラフを構築する。最後に構築されたグラフに基づいてグラフカット・セグメンテーション法を実行する。このような方法により、画像中の注目領域を高い精度で抽出する。そして抽出された領域を正解領域と見なす。なお正解領域は正解画像における注目物体の位置情報である。

画像処理装置１００は、学習画像と正解画像の組である教示データを取得する第一の取得部１１０、画像を取得する第二の取得部１２０、識別器１０１の学習を行う学習部１３０を持つ。また学習された識別器１０１により注目領域の抽出を行う第一の抽出部１４０、第一の抽出部の抽出結果から領域情報を設定する設定部１５０、設定された領域情報を基に注目領域の抽出を行う第二の抽出部１６０、抽出結果から正解画像を生成する生成部１７０を有する。そして結果を出力する出力部１８０から構成される。さらに、画像処理装置１００への入力となるデータ、および画像処理装置１００が出力するデータを保存するためのデータサーバ２００が存在する。データサーバ２００はコンピュータ記憶媒体の一例であり、ハードディスクドライブ（ＨＤＤ）やソリッドステイトドライブ（ＳＳＤ）に代表される大容量情報記憶装置である。データサーバ２００は、画像処理装置１００内に保持されていてもよいし、画像処理装置１００外に別途設けられネットワークを介して通信可能に構成されていてもよい。ここで、学習部１３０と第一の抽出部１４０は識別器１０１を含み、第二の抽出部１６０はグラフカット・セグメンテーション部１０２を含み、それぞれが対応関係にある。

第一の取得部１１０はデータサーバ２００から教示データを取得する。そして、第一の取得部１１０は取得した教示データを学習部１３０に送信する。

ここで、図３を参照して教示データについて説明する。図３は、第一の実施形態にかかる画像処理装置１００における教示データの一例を示している。本実施形態にかかる画像処理装置において、教示データは少なくとも一つの学習画像および正解画像を含む。図３の学習画像３１０、学習画像３３０、学習画像３５０が学習画像の一例である。学習画像３１０、学習画像３３０、学習画像３５０はそれぞれ、異なる複数の患者の腹部を撮影して得られた３次元腹部ＣＴ画像の一つの断面（横断面）である。学習画像３１０のうち領域３１１が肝臓である。同様に、学習画像３３０の領域３３１と領域３３２も肝臓である。また、学習画像３５０の領域３５１も肝臓である。よって図３において領域３１１、領域３３１、領域３３２、領域３５１が注目領域である。

次に正解画像について説明する。学習画像には少なくとも一つの正解画像が対応して存在する。図３に示す教示データの例では、正解画像３２０が学習画像３１０に対応する正解画像である。同様に、正解画像３４０が学習画像３３０に対応する正解画像であり、正解画像３６０が学習画像３５０に対応する正解画像である。学習画像の各画素には、対応する正解画像の少なくとも一つの画素が対応する。学習画像３１０と正解画像３２０の組の例では、学習画像３１０の各画素と正解画像３２０の各画素が１対１の関係になっている。学習画像３３０と正解画像３４０の組、学習画像３５０と正解画像３６０の組も同様である。正解画像の各画素の画素値は、学習画像の対応画素が注目領域に属する画素か否かを示す。正解画像３２０の例では、対応画素が注目領域に属する画素である場合は白色で、対応画素が注目領域に属さない場合は黒色で示されている。正解画像３２０の領域３２１、正解画像３４０の領域３４１と領域３４２、正解画像３６０の領域３６１を正解領域と呼ぶ。

生成部１７０により、正解画像の各画素に割り当てられる画素値は、学習部１３０と第一の抽出部１４０で使用する識別器１０１（後述）に応じて、二値、または多値である。正解画像３２０、正解画像３４０、正解画像３６０は、二値画像の一例である。

学習画像において注目物体の領域を表す画素とそれ以外の画素が識別可能であれば、対応する正解画像の画素値はどのような値であっても構わない。例えば、生成部１７０により生成される正解画像の画素値が１または２のいずれか一方であってもよい。また、生成部１７０による正解画像の画素値は注目物体の領域を表す画素とそれ以外の画素に、それぞれ互いに異なる複数の値の中の任意の一つが与えられたものでもよい。なお本実施形態では注目物体である肝臓と、それ以外の２クラスを識別する識別器による処理を説明したが、肝臓と腎臓、その他などクラスの数は問わない。またクラスの数が複数存在した場合においても、生成部１７０により生成される正解画像の画素のそれぞれに割り振られる画素値は二値でも多値でもよい。

なお、図３では注目領域が描出されている学習画像の例を示した。しかしながら、第一の実施形態にかかる画像処理装置１００が扱う教示データに、注目物体が描出されていない学習画像が含まれていてもよい。この時、対応する正解画像には正解領域は存在しない。

ふたたび、図１を参照して本実施形態に係る画像処理装置の機能構成について説明する。第二の取得部１２０はデータサーバ２００から画像を取得する。以下では、第二の取得部１２０がデータサーバ２００から取得する画像のことをターゲット画像と記述する。第二の取得部１２０は、取得したターゲット画像を第一の抽出部１４０、設定部１５０、第二の抽出部１６０、生成部１７０に送信する。

第二の取得部１２０が取得するターゲット画像は、対応する正解画像が存在している画像であってもよいし、対応する正解画像が存在していない画像であってもよい。また、教示データに学習画像として含まれている画像であってもよい。さらに、ターゲット画像中に注目領域が描出されている画像でもよいし、注目領域が描出されていない画像でもよい。

学習部１３０は、第一の取得部１１０から教示データを受け取る。そして、受け取った教示データを使って識別器１０１の学習を行う。学習部１３０は、識別器１０１の学習を行うことで学習の結果（識別器のパラメータ）を取得する。学習部１３０は、識別器１０１のパラメータを第一の抽出部１４０に送信する。なお学習部は画像処理装置１００内に設けられていなくともよい。たとえばクラウド上に識別器１０１を設けクラウド上で学習を行っても、異なる画像処理装置より学習された識別器１０１によるパラメータを第一の抽出部１４０に送信してもよい。

ここで、学習部１３０と第一の抽出部１４０で使用する識別器１０１について説明する。第一の実施形態にかかる画像処理装置１００において識別器とは、画像中の複数の画素のそれぞれについて、その画素が注目領域に属する画素であるか否かを出力する。すなわちセグメンテーションを行う画像処理手段を意味する。このような識別器１０１の一例が、機械学習に基づく画像処理手段である。機械学習に基づく画像処理手段には、例えば、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＡｄａＢｏｏｓｔ、ＮｅｕｒａｌＮｅｔｗｏｒｋが含まれる。

また、異なる種類の画像処理手段として、しきい値処理、領域拡張、ＬｅｖｅｌＳｅｔ法のように機械学習に基づかない方法も存在する。第一の実施形態にかかる画像処理装置１００では、上述の機械学習に基づく画像処理手段と、機械学習に基づかない画像処理手段のどちらの画像処理手段でも利用可能である。なお画像処理手段は、複数の画像処理手段を組み合わせたものでもよい。また、それが機械学習に基づく手法でも、機械学習の基づかない手法でも、両者を組み合わせた手法でもよい。なお機械学習に基づく画像処理手段であっても、機械学習に基づかない画像処理手段であっても、学習部１３０と第一の抽出部１４０では同一の識別器１０１を利用する。

次に、学習部１３０が学習により取得する識別器１０１のパラメータについて説明する。学習部１３０と第一の抽出部１４０で用いる識別器１０１に応じて、識別器１０１のパラメータは異なる。例えば、識別器１０１としてＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いる場合、識別関数の重みベクトルの値、およびカーネルトリックを用いる場合はカーネル関数のパラメータが識別器１０１のパラメータとなる。識別器１０１としてＡｄａＢｏｏｓｔを用いる場合は、ＡｄａＢｏｏｓｔの学習アルゴリズムにより選択された弱識別器、弱識別器のパラメータ、弱識別器に付与される重みが識別器１０１のパラメータとなる。識別器１０１としてＮｅｕｒａｌＮｅｔｗｏｒｋを用いる場合は、ネットワークの重みが識別器のパラメータとなる。

識別器１０１が機械学習に基づかない画像処理手段である場合、識別器１０１のパラメータとは識別器１０１の動作を規定するパラメータのことである。例えば、識別器１０１としてしきい値処理を用いる場合、識別器１０１のパラメータはしきい値である。また、領域拡張処理の場合は、識別器１０１のパラメータは拡張条件と終了条件で利用されるパラメータである。ＬｅｖｅｌＳｅｔ法の場合は、速度関数のパラメータである。

ふたたび、図１を参照して本実施形態に係る画像処理装置の機能構成について説明する。第一の抽出部１４０は第二の取得部１２０からターゲット画像を取得する。また、第一の抽出部１４０は学習部１３０から識別器１０１のパラメータを取得する。次に第一の抽出部１４０は、ターゲット画像に対して所定の識別器１０１を適用し、ターゲット画像中の注目領域の抽出を行う。最後に、第一の抽出部１４０は抽出した領域（第一の抽出結果）を設定部１５０に送信する。

ここで、第一の抽出結果について説明する。学習部１３０と第一の抽出部１４０で用いられる識別器の種類に応じて、識別器１０１によって複数の画素のそれぞれに割り当てられる画素値は二値である場合と、多値である場合がある。第一の抽出結果が二値の画素値から構成される二値画像である場合、ターゲット画像中の画素のうち、識別器が注目領域に属する画素であると判定した画素には、第一の画素値が設定される。そして、識別器が注目領域に属さない画素であると判定した画素には、第一の画素値とは異なる画素値が設定される。

第一の抽出結果が多値の画素から構成される多値画像である場合、第一の抽出結果の画素値は、その画素が注目領域に属する確からしさである尤度を表す。例えば、尤度を表す画素値が高い値を持つ場合、その画素は注目領域に属する可能性が高い画素であることを意味する。また、尤度を表す画素値が低い値を持つ場合、その画素は注目領域に属する可能性が低いことを意味する。以下では、注目領域に属する画素であると判定された画素の集合、もしくは注目領域に属する可能性がわずかでもある画素の集合を第一の抽出領域とする。

設定部１５０は第二の取得部１２０からターゲット画像を取得する。また、設定部１５０は第一の抽出部１４０から注目領域の抽出結果（第一の抽出結果）を取得する。次に、設定部１５０はターゲット画像と注目領域の抽出結果を参照して、公知のグラフカット・セグメンテーション部１０２で利用するグラフを構築するために必要な情報（領域情報）を設定する。この情報には、少なくとも前景シード、背景シードの情報を含む。また領域情報として前景シード、背景シードの情報に加え、エッジ（ｔ−ｌｉｎｋ）へ付与するエネルギー値を含んでいてもよい。以下では、設定部１５０で設定される情報をグラフ情報と記述する。設定部１５０はグラフ情報を第二の抽出部１６０に送信する。

第二の抽出部１６０は第二の取得部１２０からターゲット画像を取得する。また、第二の抽出部１６０は設定部１５０からグラフ情報を取得する。次に、第二の抽出部１６０は画像に対して公知のグラフカット・セグメンテーション法を適用し、ターゲット画像中の注目領域を抽出する。第二の抽出部１６０は抽出した領域（第二の抽出結果）を生成部１７０に送信する。

生成部１７０は第二の取得部１２０からターゲット画像を取得する。また、生成部１７０は第二の抽出部１６０から第二の抽出結果を取得する。次に、生成部１７０は第二の抽出結果に基づき、ターゲット画像に対応する正解画像を生成する。最後に、生成部１７０は生成した正解画像を出力部１８０に送信する。以下では、生成部１７０が生成する正解画像をターゲット画像に対応する正解画像と記述する。

出力部１８０は、生成部１７０からターゲット画像に対応する正解画像を取得する。そして、出力部１８０はターゲット画像に対応する正解画像をデータサーバ２００に保存する。なお、出力部１８０は、ターゲット画像に対応する正解画像をターゲット画像と対応付けてデータサーバ２００に保存してもよい。この場合、出力部１８０は第二の取得部１２０からターゲット画像を取得する。そして、出力部１８０はターゲット画像に対応する正解画像とターゲット画像を一つの組としてデータサーバ２００に保存する。

出力部１８０は、ターゲット画像に対応する正解画像を図１には不図示の表示部に出力してもよい。表示部に含まれる表示装置の一例は、ディスプレイである。表示部は、ターゲット画像に対応する正解画像のみを表示してもよい。また、表示部はターゲット画像に対応する正解画像とターゲット画像を同時に表示してもよい。

次に図２を参照して、第一の実施形態にかかる画像処理装置１００の処理手順を説明する。

（Ｓ１０１０）
ステップＳ１０１０において、第一の取得部１１０はデータサーバ２００から教示データを取得する。そして、第一の取得部１１０は取得した教示データを学習部１３０に送信する。

（Ｓ１０２０）
ステップＳ１０２０において、学習部１３０は第一の取得部１１０から教示データを取得する。そして、学習部１３０において所定の識別器１０１の学習を行う。

識別器１０１が機械学習に基づく画像処理手段である場合、学習部１３０は公知の学習アルゴリズムを用いて識別器１０１の学習を行う。それぞれの識別器には、その識別器に適した公知の学習アルゴリズムが存在する。そのため、学習部１３０は、学習部１３０と第一の抽出部１４０で選択されている識別器１０１に応じて、公知の学習アルゴリズムを用いて識別器１０１の学習を行う。なお学習部１３０による学習は画像処理装置１００で行われなくとも、クラウド上でも、異なる画像処理装置で行われてもよい。

一方で識別器１０１が機械学習に基づかない画像処理手段である場合、学習部１３０は識別器１０１の動作を規定するパラメータの最適化を行う。例えば識別器１０１としてしきい値処理を用いる場合、学習とはしきい値を決定する処理のことである。また、領域拡張処理の場合は、拡張条件と終了条件で利用されるパラメータを決定する処理のことである。

最後に、ステップＳ１０２０において、学習部１３０は上述の学習で得られた識別器１０１のパラメータを第一の抽出部１４０に送信する。

（Ｓ１０３０）
ステップＳ１０３０において、第二の取得部１２０はデータサーバ２００からターゲット画像を取得する。そして、第二の取得部１２０は取得したターゲット画像を第一の抽出部１４０、設定部１５０、第二の抽出部１６０、生成部１７０に送信する。

（Ｓ１０４０）
ステップＳ１０４０において、第一の抽出部１４０は第二の取得部１２０からターゲット画像を取得する。次に、第一の抽出部１４０は学習部１３０から識別器のパラメータを取得する。そして、第一の抽出部１４０は所定の識別器１０１を用いてターゲット画像から注目領域を抽出する。

ステップＳ１０４０において行う処理は、識別器１０１として選択されている画像処理手段により異なる。識別器１０１が機械学習の一手法であるＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅである場合、第一の抽出部１４０は識別器のパラメータに格納されている識別関数の重みベクトルやカーネル関数のパラメータを使って、識別関数を構築する。次に、第一の抽出部１４０はターゲット画像の複数の画素のそれぞれを順次、構築された識別関数に入力し、識別関数の計算を実行する。そして、識別関数の計算結果を第一の抽出結果に格納する。

識別器１０１がＡｄａＢｏｏｓｔである場合、第一の抽出部１４０は識別器１０１のパラメータに格納されている弱識別器の種類や弱識別器のパラメータを用いて強識別器を構築する。次に、第一の抽出部１４０はターゲット画像の複数の画素のそれぞれを順次、構築された強識別器に入力し、強識別器の計算を実行する。そして、強識別器の計算結果を第一の抽出結果に格納する。

識別器１０１がＮｅｕｒａｌＮｅｔｗｏｒｋである場合、第一の抽出部１４０は識別器のパラメータに格納されているネットワークの重みを用いてネットワークを構築する。次に、第一の抽出部１４０はターゲット画像の複数の画素のそれぞれの値をネットワークの入力層にセットする。その後、第一の抽出部１４０はネットワークの重み層の計算を行い、最後に出力層の計算を行う。最後に、出力層の計算結果を第一の抽出結果に格納する。

識別器が機械学習に基づかない画像処理手段である場合も同様である。例えば、識別器がしきい値処理である場合は、第一の抽出部１４０は識別器のパラメータに格納されているしきい値を使って、ターゲット画像に対してしきい値処理を適用する。また、識別器が領域拡張である場合、第一の抽出部１４０は識別器のパラメータに格納されている拡張条件と終了条件のパラメータを使って、ターゲット画像に対して領域拡張処理を適用する。また、識別器がＬｅｖｅｌＳｅｔ法の場合、第一の抽出部１４０は識別器のパラメータに格納されている速度関数のパラメータを使って、ターゲット画像に対して領域拡張処理を適用する。これらの画像処理手段を実行した後、第一の抽出部１４０は計算結果を第一の抽出結果に格納する。

以上の処理を終えた後、第一の抽出部１４０は第一の抽出結果を設定部１５０に送信する。

（Ｓ１０５０）
ステップＳ１０５０において、設定部１５０は第二の取得部１２０からターゲット画像を取得する。次に、設定部１５０は第一の抽出部１４０から第一の抽出結果を取得する。そして、設定部１５０は公知のグラフカット・セグメンテーション法で利用される前景シードと背景シードの設定を行う。

図４を参照して、前景シードと背景シードの設定方法について説明する。ステップＳ１０５０において設定部１５０は、ステップＳ１０４０で取得される第一の抽出結果が二値である場合と多値である場合とで異なる処理を行う。最初に、第一の抽出結果が二値画像である場合の処理について説明する。

図４の画像４１０は、ステップＳ１０３０において第二の取得部１２０が取得したターゲット画像である。ターゲット画像４１０における領域４１１と領域４１２が、注目領域である肝臓である。図４の画像４２０は、ステップＳ１０４０において第一の抽出部１４０が出力した第一の抽出結果である。第一の抽出結果４２０における領域４２０と領域４２１は、識別器１０１により注目領域として識別された領域（第一の抽出領域）である。注目領域４１１と第一の抽出領域４２１を比較すると分かる通り、識別器１０１は注目領域４１１の中心部分をおおむね正しく抽出しているが、注目領域４１１の境界付近では正しく識別できていない個所がある。これは、注目領域４１２と第一の抽出領域４２２についても同様である。

以上で述べた注目領域と第一の抽出領域の関係に注目し、設定部１５０は領域情報として、注目領域４１１と注目領域４１２の輪郭を三次元的に挟むように前景シードと背景シードを設定する。言い換えると、設定部１５０は第一の抽出領域の内部に前景シードを設定する。また、設定部１５０は第一の抽出領域以外の領域（第一の抽出領域の外部）に背景シードを設定する。

具体的な処理は次の通りである。前景シードを設定するために、設定部１５０は第一の抽出結果４２０中の第一の抽出領域４２１と第一の抽出領域４２２に対してモルフォロジー演算の一つである縮小処理を適用する。この縮小処理で得られる領域を前景シードとする。画像４３０中の領域４３１と領域４３２が前景シードの一例である。画像４３０は、第一の抽出結果４２０に対して縮小処理を適用した結果である。縮小処理は、第一の抽出領域４２１と第一の抽出領域４２２を三次元的に縮小させる処理である。そのため、たとえ第一の抽出領域４２１および第一の抽出領域４２２が注目領域４１１および注目領域４１２に正確に一致していなくても、第一の抽出領域４２１と第一の抽出領域４２２を縮小して得られる領域（領域４３１と領域４３２）は注目領域４１１と注目領域４１２の内側に留まることが期待される。そのため、領域４３１と領域４３２を前景シードとする。

次に、背景シードを設定するために、設定部１５０は、第一の抽出結果４２０の第一の抽出領域４２１および第一の抽出領域４２２以外の領域である領域４２３に対してモルフォロジー演算の一つである縮小処理を適用する。この縮小処理で得られる領域を背景シードとする。画像４４０中の領域４４１が背景シードの一例である。画像４４０は、第一の抽出結果４２０における領域４２３に対して縮小処理を適用した結果である。領域４４１は、縮小処理の結果、注目領域４１１と注目領域４１２以外の領域を覆っている可能性が非常に高い。そのため、領域４４１を背景シードとする。

設定部１５０は、以上の処理で得られた画像４３０と画像４４０を、第一の抽出結果が二値画像である場合の前景シードと背景シードとする。

次に、第一の抽出結果が多値画像である場合に、設定部１５０が領域情報である前景シードと背景シードを設定する処理について説明する。今、ステップＳ１０４０において第一の抽出部１４０がターゲット画像４１０を処理したとする。図４の画像４５０が、第一の抽出部１４０により出力された第一の抽出結果である。第一の抽出結果４５０は多値画像であり、領域４５１と領域４５２は識別器により注目領域４１１および注目領域４１２に属する可能性があると判定された領域（第一の抽出領域）である。また、領域４５３は注目領域ではないと判定された領域である。

第一の抽出結果４５０を見ると分かる通り、注目領域４１１、注目領域４１２の中心部に対応する領域４５２において、注目領域への尤度を示す画素値が高くなっている。一方、注目領域４１１、注目領域４１２の辺縁部に対応する領域４５１において、注目領域への尤度を示す画素値が低くなっている。一般に、第一の抽出領域は注目領域の中心部で高い値を有する。逆に、第一の抽出領域は注目領域の辺縁部で低い値を有する。

以上で述べた注目領域と第一の抽出領域の関係に注目し、設定部１５０は注目領域４１１と注目領域４１２の輪郭を三次元的に挟むように前景シードと背景シードを設定する。言い換えると、設定部１５０は第一の抽出領域の内部に前景シードを設定する。また、設定部１５０は第一の抽出領域以外の領域（第一の抽出領域の外部）に背景シードを設定する。

具体的な処理は次の通りである。前景シードを設定するために、設定部１５０は第一の抽出結果４５０に対してしきい値処理を適用する。画像４６０の領域４６１と領域４６２は、しきい値処理で得られた領域である。領域４６１と領域４６２は、注目領域４１１と注目領域４１２に含まれている可能性が高い。そこで、領域４６１と領域４６２を前景シードとする。

次に、背景シードを設定するために、設定部１５０は、画像４６０の前景シード４６１と前景シード４６２以外の領域、領域４６３に対して縮小処理を適用する。そして、この縮小処理で得られる領域を背景シードとする。画像４７０における領域４７１は、画像４６０における領域４６３に対して縮小処理を適用して得られる領域である。領域４７１は、注目領域４１１および注目領域４１２以外の領域を覆っている可能性が非常に高い。そこで、領域４７１を背景シードとする。

設定部１５０は、以上の処理で得られた画像４６０と画像４７０を、第一の抽出結果が多値画像である場合の前景シードと背景シードとする。

以上で設定部１５０が前景シードと背景シードを設定する処理の説明を終える。上述の処理の要諦は、第一の抽出領域の内部に前景シードを設定すること、および第一の抽出領域の外部に背景シードを設定することである。このような設定を実現するために、設定部１５０は第一の抽出結果の境界から所定の距離だけ内側に前景シードを配置する。また、設定部１５０は第一の抽出結果の境界から所定の距離だけ外側に背景シードを配置する。

上述の例では、設定部１５０はしきい値処理と縮小処理を用いて、前景シードと背景シードを設定したが、同様の設定は距離変換処理を用いても実現できる。例えば、設定部１５０は画像４２０に対して距離変換を適用し、距離画像を取得する。この距離画像の画素値は、領域４２１と領域４２２の境界までのユークリッド距離値である。そこで、距離画像に対して所定の距離値でしきい値処理を行うことで、前景シード４３１、前景シード４３２、背景シード４４１と同様の前景シード、背景シードを得ることが出来る。また、設定部１５０は画像４６０に対して距離変換を適用してもよい。この時、得られる距離画像の距離値は前景シード４６２と前景シード４６３の境界からの距離値である。そこで、この距離画像に対して所定の距離値でしきい値処理を行うことで、背景シード４７１と同様の背景シードを得ることが出来る。また、画像４５０に対して距離変換としきい値処理を適用することで、前景シード４６１、前景シード４６２と同様の前景シードを得ることが出来る。設定部１５０は引き続き、ステップＳ１０６０の処理を行う。

（Ｓ１０６０）
ステップＳ１０６０において、設定部１５０は前景シードまたは背景シードに設定された画素以外の複数の画素のそれぞれについて、公知のグラフカット・セグメンテーション法で利用されるエッジ（ｔ−ｌｉｎｋ）に付与するエネルギーを計算する。エネルギーは、識別器を用いて抽出された領域（第一の抽出結果）に基づいて計算される。

はじめに、設定部１５０は、前景シードおよび背景シードに設定された画素以外の複数の画素のそれぞれについて、前景シードの境界からの距離を計算する。そして、設定部１５０は前景シードの境界からの距離に応じたエネルギーの値を計算する。計算の一例は次のとおりである。前景シードの境界に最も近い画素に付与するエネルギー値をＬ１とする。また、前景シードの境界から最も遠い画素、すなわち背景シードの境界に隣接する画素に付与するエネルギー値をＬ２とする。ただし、Ｌ１とＬ２はＬ２＜０＜Ｌ１とする。そして、前景シードから背景シードまでの距離値をＤ２とする。すると、前景シードと背景シード以外の各画素について、（式１）で示す式でエネルギー値Ｌを計算し、付与する。

ここで、（式１）中のｄは、当該画素の前景シードの境界からの距離である。Ｌ１とＬ２はＬ２＜０＜Ｌ１を満たせば任意の値でよいが、好適な一例はＬ１＝１、Ｌ２＝−１とすることである。

ここまででエッジ（ｔ−ｌｉｎｋ）に付与するエネルギー値Ｌの計算方法の一例について説明したが、エネルギー値の計算方法は以上の例に限定されない。例えば、エネルギー値として一定の値を付与してもよい。好適な一例は、Ｌ＝０とすることである。

以上で、エッジ（ｔ−ｌｉｎｋ）に付与するエネルギー値Ｌの計算方法の説明を終える。

最後に、設定部１５０は、ステップＳ１０５０で得られた前景シードと背景シードと、ステップＳ１０６０で得られたエッジ（ｔ−ｌｉｎｋ）に付与するエネルギーをグラフ情報として、第二の抽出部１６０に送信する。

（Ｓ１０７０）
ステップＳ１０７０において、第二の抽出部１６０は公知のグラフカット・セグメンテーション法を用いて、ターゲット画像中の注目領域を抽出する。グラフカット・セグメンテーション法の詳細については、例えば、特許文献ＵＳ６９７３２１２を参照されたい。

グラフカット・セグメンテーション法では、最初にターゲット画像に対応するグラフを作成する。グラフの作成方法は、公知のグラフカット・セグメンテーション法と同じである。

以下、ターゲット画像の各画素に１対１で対応するノードを画素ノードと呼ぶ。注目領域（肝臓）を表す１つのノードをターミナル・ノードＦ、注目領域以外の領域を表す１つのノードをターミナル・ノードＢと呼ぶ。隣接する画素ノード間を結ぶエッジをエッジ（ｎ−ｌｉｎｋ）、各画素ノードと２つのターミナル・ノードとの間を結ぶエッジをエッジ（ｔ−ｌｉｎｋ）と呼ぶ。

次に、ステップＳ１０５０とステップＳ１０６０において設定部１５０により生成されたグラフ情報に基づいて、各画素ノードと２つのターミナル・ノードとの間を結ぶエッジ（ｔ−ｌｉｎｋ）にエネルギーを付与する。エッジ（ｔ−ｌｉｎｋ）にエネルギーを付与する処理は、次の３通りの方法に分かれる。

（１）画素ノードに対応する画素が前景シードに含まれる場合
当該画素ノードとターミナル・ノードＦとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーを無限大とする。一方、当該画素ノードとターミナル・ノードＢとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーをゼロとする。

（２）画素ノードに対応する画素が背景シードに含まれる場合
当該画素ノードとターミナル・ノードＢとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーを無限大とする。一方、当該画素ノードとターミナル・ノードＦとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーをゼロとする。

（３）画素ノードに対応する画素が前景シードにも背景シードにも含まれない場合
ステップＳ１０６０において設定部１５０により計算された当該画素のエネルギー値ＬがＬ＞０である場合、当該画素ノードとターミナル・ノードＦとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーをＬとする。一方、当該画素ノードとターミナル・ノードＢとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーをゼロとする。Ｌ＜０である場合、当該画素ノードとターミナル・ノードＢとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーを−Ｌとする。一方、当該画素ノードとターミナル・ノードＦとの間のエッジ（ｔ−ｌｉｎｋ）のエネルギーをゼロとする。Ｌ＝０である場合、両方のエッジ（ｔ−ｌｉｎｋ）のエネルギーをゼロとする。

以降は、公知のグラフカット・セグメンテーション法と同様の処理ステップを行う。すなわち、ターゲット画像のすべての隣接画素間で画素値の類似性を表す値（例えば画素値の差の逆数）を計算する。そして、それらの隣接画素に対応する画素ノード間を結ぶエッジ（ｎ−ｌｉｎｋ）に、計算で得られた値を付与する。最後に、グラフ分割アルゴリズム（例えばＦｏｒｄ−Ｆｕｌｋｅｒｓｏｎ法）を用いて、グラフを２つの部分グラフに分割する。ここで、部分グラフの一方に少なくともターミナル・ノードＦが含まれ、もう一方にターミナル・ノードＢが含まれるように、分割を実行する。この時、ターミナル・ノードＦが含まれる部分グラフ（部分グラフＧＦ）に、「注目領域（肝臓）に属することが確からしい画素」に対応する画素ノードが含まれる。そして、ターミナル・ノードＢが含まれる部分グラフ（部分グラフＧＢ）に、「注目領域外に属することが確からしい画素」に対応する画素ノードが含まれる。そこで、部分グラフＧＦに含まれる画素ノードに対応する画素を注目領域（肝臓）に属する画素とする。この計算で得られた結果を第二の抽出結果とする。

最後に、第二の抽出部１６０は第二の抽出結果を生成部１７０に送信する。

（Ｓ１０８０）
ステップＳ１０８０において、生成部１７０は第二の抽出部１６０から第二の抽出結果を取得する。そして、第二の抽出結果に基づいて、ターゲット画像に対応する正解画像を生成する。

正解画像を生成する最も単純な方法は、第二の抽出結果に変更を加えることなく、第二の抽出結果をそのまま正解画像とすることである。

生成部１７０は、第二の抽出結果の抽出精度に関して事前に得られている知見に基づいて、第二の抽出結果に対して所定の画像処理を適用することも可能である。例えば、どのような画像処理装置１００がどのようなターゲット画像を処理した場合でも、注目領域が十分に抽出されていない場合、生成部１７０は第二の抽出結果に対してモルフォロジー演算の一つである膨張処理を適用する。これにより、第二の抽出結果は拡大される。逆に注目領域以外の領域が誤って抽出されている場合、生成部１７０は第二の抽出結果に対してモルフォロジー演算の一つである縮小処理を適用する。これにより、第二の抽出結果は縮小される。生成部１７０は、これらの画像処理により修正された第二の抽出結果を正解画像とする。

生成部１７０は、第二の抽出結果に対して一様重み平滑化フィルタやガウシアンフィルタといった平滑化フィルタを適用し、その結果として得られる画像を正解画像としてもよい。例えば、第二の抽出部１６０により出力される第二の抽出結果のうち、注目領域（肝臓）に属すると判定された画素の画素値を１、それ以外の画素の画素値を０とする。このような画素値を有する第二の抽出結果に対して平滑化フィルタを適用すると、画素値０を有する領域と画素値１を有する領域の境界付近の画素の画素値が０から１まで連続的に変化する値になる。そこで、この画素値を当該画素が注目領域に属する確からしさを表す尤度と見なす。このような考えに基づき、生成部１７０は、第二の抽出結果に平滑化フィルタを適用し、その結果として得られる画像を正解画像とする。

生成部１７０は、画像処理装置１００の操作者により入力される画像処理に基づいて、第二の抽出結果を修正してもよい。この場合、操作者は図１には不図示の操作部を使って、注目領域として十分に抽出されていない領域や、注目領域として誤って抽出された領域を指示装置で指定する。生成部１７０は不図示の操作部から操作者の指示を受け取り、その指示に基づいて、第二の抽出結果に対して膨張処理や縮小処理を適用する。そして、生成部１７０はこれらの画像処理により修正された第二の抽出結果を正解画像とする。

最後に、生成部１７０はターゲット画像に対応する正解画像を出力部１８０に送信する。

（Ｓ１０９０）
ステップＳ１０９０において、出力部１８０は生成部１８０からターゲット画像に対応する正解画像を取得する。そして、出力部１９０はターゲット画像に対応する正解画像をデータサーバ２００に保存する。

以上の手順に従い、第一の実施形態に係る画像処理装置１００はターゲット画像に対応する正解画像を生成する。

第一の実施形態に係る画像処理装置１００は、上述の処理によりターゲット画像中の注目領域を高い精度で抽出することが出来る。そして、その抽出結果を正解画像とすることで、ターゲット画像に対応する正解画像を高い精度で、かつ簡便に生成できる。

＜第二の実施形態＞
図５を参照して、第二の実施形態に係る画像処理装置５００について説明する。画像処理装置５００は、第一の取得部５１０、第二の取得部５２０、学習部５３０、第一の抽出部１４０、設定部１５０、第二の抽出部１６０、生成部５７０、更新部５８０、出力部５９０から構成される。なお図１と同様に学習部５３０および第一の抽出部は識別器１０１を含み、第二の抽出部１６０はグラフカット・セグメンテーション部１０２を含む。

第一の抽出部１４０、設定部１５０、第二の抽出部１６０については、第二の取得部５２０からターゲット画像を取得すること以外、第一の実施形態にかかる画像処理装置１００において同じ符号を付与された処理部と同じ処理を行う。そのため、これらの処理部については説明を省略する。

第一の取得部５１０は、データサーバ２００から教示データを取得する。そして、第一の取得部５１０は取得した教示データを学習部５３０と更新部５８０に送信する。

第二の取得部５２０はデータサーバ２００から画像を取得する。そして、第二の取得部５２０は、取得したターゲット画像を第一の抽出部１４０、設定部１５０、第二の抽出部１６０、生成部５７０、更新部５８０に送信する。第二の取得部５２０が取得するターゲット画像の種類については、第一の実施形態にかかる画像処理装置１００の第二の取得部１２０が取得するターゲット画像の種類と同じである。

学習部５３０は、第一の取得部５１０から教示データを受け取る。そして、受け取った教示データを使って識別器１０１の学習を行う。識別器１０１の学習の方法については、第一の実施形態にかかる画像処理装置１００の学習部１３０の説明で述べたとおりである。学習部５３０は、識別器１０１の学習を行うことで学習の結果（識別器のパラメータ）を取得する。学習部５３０は、識別器１０１のパラメータを第一の抽出部１４０と出力部５９０に送信する。

生成部５７０は、第二の取得部５２０からターゲット画像を取得する。また、生成部５７０は第二の抽出部１６０から第二の抽出結果を取得する。次に、生成部５７０は第二の抽出結果に基づき、ターゲット画像に対応する正解画像を生成する。最後に、生成部１７０は生成した正解画像を更新部５８０と出力部５９０に送信する。

更新部５８０は、第一の取得部５１０から教示データを取得する。また、更新部５８０は第二の取得部５２０からターゲット画像を取得する。さらに、更新部５８０は生成部１７０からターゲット画像に対応する正解画像を取得する。そして、更新部５８０は取得した教示データを更新する。更新の方法については、後述する。更新部５８０は、更新された教示データを出力部５９０に送信する。

出力部５９０は、学習部５３０から識別器１０１のパラメータを取得する。また、出力部５９０は更新部５８０から更新された教示データを取得する。そして、出力部５９０は識別器１０１のパラメータと更新された教示データをデータサーバ２００に保存する。出力部５９０が実施する処理の詳細については、後述する。

次に図６を参照して、本実施形態の画像処理装置の処理手順を説明する。

（Ｓ６０１０）
ステップＳ６０１０において、第一の取得部５１０はデータサーバ２００から教示データを取得する。そして、第一の取得部５１０は取得した教示データを学習部５３０と更新部５８０に送信する。

（Ｓ６０２０）
ステップＳ６０２０において、学習部５３０は第一の取得部５１０から教示データを取得する。そして、所定の識別器１０１の学習を行う。学習の方法は、第一の実施形態に係る画像処理装置１００の学習部１３０がステップＳ１０３０で実施する処理と同じである。

最後に、ステップＳ６０２０において、学習部５３０は学習で得られた識別器１０１のパラメータを第一の抽出部１４０と出力部５９０に送信する。

（Ｓ６０３０）
ステップＳ６０３０において、第二の取得部５２０はデータサーバ２００からターゲット画像を取得する。そして、第二の取得部５２０は取得したターゲット画像を第一の抽出部１４０、設定部１５０、第二の抽出部１６０、生成部５７０、更新部５８０に送信する。

第二の実施形態に係る画像処理装置５００は、ステップＳ６０３０の処理を実行した後、第一の実施形態に係る画像処理装置１００で実行されるステップＳ１０４０、ステップＳ１０５０、ステップＳ１０６０、ステップＳ１０７０の処理を実施する。その後、次に述べるステップＳ６０８０の処理を実行する。

（Ｓ６０８０）
ステップＳ６０８０において、生成部５７０は第二の抽出部１６０から第二の抽出結果を取得する。そして、第二の抽出結果に基づいて、ターゲット画像に対応する正解画像を生成する。正解画像の生成処理は、第一の実施形態にかかる画像処理装置１００の生成部１７０がステップＳ１０８０で実行する処理と同じである。最後に、生成部５７０はターゲット画像に対応する正解画像を更新部５８０と出力部５９０に送信する。

（Ｓ６０９０）
ステップＳ６０９０において、更新部５８０は第一の取得部５１０から教示データを取得する。また、更新部５８０は第二の取得部５２０からターゲット画像を取得する。さらに、更新部５８０は生成部１７０からターゲット画像に対応する正解画像を取得する。そして、更新部５８０は取得した教示データを更新する。

教示データを更新する方法は２通り存在する。もし、ターゲット画像が教示データに含まれていない場合、ターゲット画像とターゲット画像に対応する正解画像を一つの組として、教示データに追加する。これが一つ目の更新方法である。もし、ターゲット画像が教示データにすでに含まれている場合、当該ターゲット画像に対応する正解画像を生成部１７０により生成された正解画像に置き換える。これが二つ目の更新方法である。なお、ターゲット画像が教示データにすでに含まれている場合であっても、取得したターゲット画像とターゲット画像に対応する正解画像を一つの組として教示データに追加してもよい。

最後に、更新部５８０は更新された教示データを出力部５９０に送信する。

（Ｓ６０９３）
ステップＳ６０９３において、出力部５９０は生成部５７０からターゲット画像に対応する正解画像を取得する。そして、出力部５９０はターゲット画像に対応する正解画像をデータサーバ２００に保存する。出力部５９０は、第二の取得部５２０で取得されたターゲット画像と、生成部５７０で生成されたターゲット画像に対応する正解画像を対応付けてデータサーバ２００に保存してもよい。この場合、図５では不図示であるが、出力部１８０は第二の取得部５２０からターゲット画像を取得する。

またステップＳ６０９３において、出力部５９０はターゲット画像に対応する正解画像を図５には不図示の表示部に出力してもよい。表示部に含まれる表示装置の一例は、ディスプレイである。表示部は、ターゲット画像に対応する正解画像のみを表示してもよい。また、表示部はターゲット画像に対応する正解画像とターゲット画像を同時に表示してもよい。

さらにはステップＳ６０９３において、出力部５９０は識別器１０１のパラメータと更新された教示データをデータサーバ２００に保存してもよい。この場合、出力部５９０は学習部５３０から識別器１０１のパラメータを取得する。また、出力部５９０は更新部５８０から更新された教示データを取得する。

（Ｓ６０９５）
ステップＳ６０９５において、第二の実施形態にかかる画像処理装置５００の制御部（図５では不図示）はデータサーバ２００に処理対象となるターゲット画像が存在しているか否かを判定する。もし、処理対象となるターゲット画像が存在している場合、ステップＳ６０１０に戻って以降の処理を再度実行する。もし、存在していない場合、第二の実施形態にかかる画像処理装置５００は処理を終了する。なお、処理対象となるターゲット画像が存在している場合においても、正解画像が生成される度に教示データの更新をしなくともよい。例えば、ターゲット画像が複数存在する場合において、その複数のターゲット画像に対する正解画像の作成は同一の学習器のパラメータにより行う。具体的にはステップＳ６０８０により、ターゲット画像に対応する正解画像が作成される。その時点で未処理のターゲット画像を取得するステップＳ６０３０に戻って以降の処理を実行してもよい（図６では不図示）。またその際には、ターゲット画像が存在しなくなるまでその処理を繰り返す。

以上の手順に従い、第二の実施形態に係る画像処理装置５００はターゲット画像に対応する正解画像を生成する。

第二の実施形態に係る画像処理装置５００は、初期の教示データを用いて識別器の学習を行う。そして、学習された識別器、グラフカット・セグメンテーション法、公知の画像処理（膨張や収縮処理。手動による補正を含む）を用いて最初のターゲット画像に対して正解画像を作成する。続いて、作成された正解画像を用いて教示データを更新する。以降、更新された教示データを用いて最初と同様の処理を実施し、次のターゲット画像に対して正解画像を作成する。このような処理を繰り返して実施することで、ターゲット画像中に描出されている注目領域の抽出精度は次第に高くなっていく。結果として、ターゲット画像に対応する正解画像を高い精度で、かつ簡便に生成できるようになる。

（終了条件の判定）
第二の実施形態として、正解画像を作成し、教示データを更新する方法について説明をした。ターゲット画像に対応する正解画像が存在しない場合は、学習画像に対して正解画像を作成する。もしくは、ターゲット画像に対応する正解画像が存在する場合、正解画像の置き換え、もしくは、さらにターゲット画像と正解画像をひとつの組として、教示データに追加する。そして、作成または更新された教示データを用いて識別器を学習し、さらに正解画像を作成することで、注目領域の抽出精度が次第に高くなっていく効果が期待される。

ここで、複数回の学習および正解画像を作成する場合の終了条件について説明する。機械学習に基づく識別器を用いる場合において、同一の画像を基にしたデータ拡張やＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を用いた画像の水増しにより作成された画像を複数回学習させると、過学習になる問題がある。過学習とは、学習したデータに対しては高い識別能を発揮する一方で、学習データとは異なる画像に対しては精度が劣る問題である。そのために、同一画像を基にした学習において、精度と学習回数のバランスを保つ必要がある。

一般に、識別器の精度は、人手で作成されたような高品位な正解画像と、識別器が抽出した抽出結果とを比較し、両者の画像間の差が小さい場合に、識別器の精度が高いとされ、学習の終了条件とされる。本発明においても、終了条件として、人手で作成されたような高品位の画像と識別器による識別結果とを比較し、終了条件としてもよい。

しかしながら、医用画像のように正解画像の作成が医者のような知見を有した人間によってなされる場合においては、高品位な正解画像を作成することは手間である。高品位な正解画像が存在しない場合においては、上述の終了条件による終了は難しい。

そこで、人手による高品位な正解画像が存在しない場合、教示データによって学習された識別器による抽出結果と、前回以前の教示データ（教示データが更新される前）によって学習された識別器による抽出結果を比較して終了条件としてもよい。以下では前者を最新の識別器による抽出結果、後者を前回以前の識別器による抽出結果とする。

最新の識別器による抽出結果と、前回以前の識別器による抽出結果の比較は、抽出結果が二値画像、多値画像のいずれから構成されているかで異なる。識別器１０１による抽出結果が二値画像である場合、前回以前の抽出結果と、最新の抽出結果を比較し、注目領域を構成する画素を比較する。機械学習による学習は学習回数を重ねるごとに精度が向上していくため、注目領域を構成する画素のばらつきが小さくなっていく。識別器１０１による抽出結果のばらつきが所定値以下となることを終了条件とする。

識別器１０１による抽出結果が尤度から構成される多値画像である場合、機械学習による学習回数を重ねていく毎に、所定値以上の尤度を有する画素数が増加することが期待される。前回以前の抽出結果と、最新の抽出結果を比較し、抽出結果を構成する複数の画素のそれぞれの画素値を比較し、その尤度のばらつきが所定値以下になることを終了条件とする。もしくは、所定値以上の尤度を有する画素を比較し、その画素のばらつきが所定値以下となることを終了条件としてもよい。なお本形態は、識別器１０１の抽出結果を基にグラフカット・セグメンテーションを行った後の画像を対象に実施されてもよい。

さらに、終了条件として、識別器１０１による注目領域の抽出結果と、グラフカット・セグメンテーションによる抽出結果が比較されてもよい。具体的には、識別器１０１により抽出された注目領域を構成する画素と、グラフカット・セグメンテーションにより抽出された注目領域を構成する画素を比較し、その両者の画素の差が所定値以下になった場合にそれを終了条件とする。なお、グラフカット・セグメンテーションの抽出結果は二値画像であるため、識別器１０１による抽出結果が多値画像である場合は、尤度をしきい値処理し、２値に変換してもよい。終了条件は、上述のいずれかにより判定されても、上述の複数から判定されてもよい。また、単純にユーザが定義した回数を終了条件とするものでも問わない。なお、終了条件で比較をする対象は、識別器による抽出結果（第一の抽出結果）、グラフカット・セグメンテーションによる識別結果（第二の抽出結果）のみならず、生成された正解画像を比較するものでもよい。

上述したような終了条件の判定をする場合、画像処理装置５００が別途、終了条件を満たすかの判定をする判定部を有していてもよい。具体的には、判定部は上述の終了条件を満たす場合においては、本処理を終了させ、終了条件を満たさない場合においては正解画像の生成フローを再度実行する。

（パラメータの変更）
複数回の学習と正解画像の作成を行う場合において、注目領域の抽出精度の向上が期待される。識別器は教示データの数と質に依存するため、フローを繰り返すごとに信頼度の高い結果を示す。例えば、多値画像においては注目領域や注目領域以外を示す尤度が高く算出され、二値画像においては画像中における実際の注目領域との重なり部分が大きくなる。

そのため、図４に記載の処理（しきい値処理、モルフォロジー処理）をパラメータの変更をせずに行う場合には、注目領域の過抽出や抽出不足が発生する可能性がある。例えば縮小処理により実際の注目領域との重なり部分が前景シード外に設定がされたり、膨張処理やしきい値処理により実際の注目領域と重なっていない部分が前景シードに設定されたりすることが挙げられる。

そこで学習と正解画像の作成を繰り返し行う場合において、前景シードを設定するためのしきい値を前回以前の学習と正解画像の作成に用いたしきい値よりも高く設定する。または、モルフォロジー処理における縮小処理や膨張処理の割合を小さく設定をすることで識別器の精度の向上に伴う注目領域の抽出が可能になる。

機械学習に基づく識別器は、教示データに基づいて識別に用いられるパラメータを設定する。機械学習の中でも、特にＮｅｕｒａｌＮｅｔｗｏｒｋに基づく識別器は高い識別能を発揮する一方で、一からパラメータを探索する場合、より多くの教示データと時間が必要とされる。教示データが十分にない場合、データ拡張やＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を用いた画像の水増しにより教示データを増加させる方法と、他の教示データにより学習された識別器のパラメータを用いて識別に用いる方法である転移学習がある。転移学習を行う場合、他の教示データと今回の教示データの間に一定の関係性が認められることが望ましい。本発明においては、例えば学習と正解画像の作成を複数回行う場合において、最新の識別器のパラメータの初期値として、前回以前に学習した識別器のパラメータを用いてもよい。前回以前に用いた教示データと、最新の教示データは相関が高く、ファインチューニングに際するコストも低減される効果が期待される。また前回以前に学習した識別器のパラメータを用いる際には、相同性が低い画像を学習した識別器のパラメータよりも、パラメータの質が高い。そのため、最新の教示データを基に学習をした識別器が、前回以前の教示データにより学習された識別器のパラメータに基づく場合、その相同性が高くなるほど、学習の際の学習率を小さくする。正解画像の学習率を小さくすることで、パラメータの更新幅を限定できるため、より正確なパラメータを有する識別器が作成できる効果がある。最新の識別器のパラメータの初期値として、前回以前に学習した識別器のパラメータを用いる場合には、データサーバ２００に蓄えられているすべての教示データを使用して識別器の学習を行ってもよい。また、直近の数回の学習で使用した教示データだけを使用して、識別器の学習を行ってもよい。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

教示データに基づいて、識別器の学習をする学習部と、
前記学習部により学習された前記識別器により、画像から第一の注目領域の抽出を行う第一の抽出部と、
前記第一の注目領域を含む第一の抽出結果に基づいて、グラフカット・セグメンテーション法に用いられる領域情報を設定する設定部と、
前記設定された領域情報に基づいて、前記グラフカット・セグメンテーション法により、第二の注目領域の抽出を行う第二の抽出部と、
前記第二の抽出領域を含む第二の抽出結果に基づいて、前記画像に対応する正解画像を生成する生成部と、を有することを特徴とする画像処理装置。
前記設定部は、前記第一の抽出結果に対し、モルフォロジー処理およびしきい値処理、距離変換処理のうち少なくともひとつの処理をする処理部をさらに有し、前記処理部による処理結果に基づいて、前記領域情報を設定することを特徴とする請求項１に記載の画像処理装置。
前記設定部により設定される領域情報が、前景シード、背景シード、エネルギーのうち、少なくとも一つを含むことを特徴とする請求項１または２のいずれか一項に記載の画像処理装置。
前記設定部は、前記第一の注目領域の内部に前記前景シードを設定し、前記第一の抽出領域の外部に前記背景シードを設定することを特徴とする請求項３に記載の画像処理装置。
前記設定部における前記エネルギーは、

によって設定されることを特徴とする請求項１から３のうちいずれか一項に記載の画像処理装置。
前記生成部で生成された正解画像に基づいて、前記教示データを更新する更新部と、
をさらに有することを特徴とする請求項１から４のいずれか一項に記載の画像処理装置。
前記更新部は、前記教示データの正解画像を前記生成部で生成された正解画像で置き換えることを特徴とする請求項６に記載の画像処理装置。
前記学習部は前記更新部により更新された教示データに基づいて識別器の学習を行うことを特徴とする請求項６または７のいずれか一項に記載の画像処理装置。
前記第一の抽出結果または、前記第二の抽出結果、生成された正解画像のいずれかに基づいて前記正解画像の生成の終了を判定する判定部を有することを特徴とする請求項１から８のいずれか一項に記載の画像処理装置。
前記判定部は、前記第一の抽出結果と、前記第二の抽出結果を構成する画素のばらつきが所定値以下になると前記正解画像の生成の終了と判定をすることを特徴とする請求項９に記載の画像処理装置。
前記判定部は、前記教示データによって学習された識別器による前記抽出結果と、前記教示データに更新される以前の教示データによって学習された識別器による抽出結果とを構成する画素のばらつきが所定値以下になると前記正解画像の生成の終了と判定をすることを特徴とする請求項９に記載の画像処理装置。
前記識別器による抽出結果が尤度であることを特徴とする請求項１１に記載の画像処理装置。
前記判定部は、前記尤度の差により正解画像の生成の終了と判定をすることを特徴とする請求項１２記載の画像処理装置。
前記教示データによって学習された識別器による前記抽出結果に対するしきい値が、前記教示データに更新される以前の教示データによって学習された識別器による抽出結果に対するしきい値よりも大きいことを特徴とする請求項２に記載の画像処理装置。
前記教示データによって学習された識別器による前記抽出結果に対するモルフォロジー処理の割合よりも、
前記教示データに更新される以前の教示データによって学習された識別器による抽出結果に対するモルフォロジー処理の割合が大きいことを特徴とする請求項２に記載の画像処理装置。
前記教示データに基づいて学習をする前記識別器の学習率が、前記教示データに更新される以前の教示データに基づいて学習をした識別器の学習率よりも小さいことを特徴とする請求項１記載の画像処理装置。
教示データに基づいて識別器の学習をするステップと、
前記学習された識別器により、画像から第一の注目領域の抽出を行うステップと、
前記第一の注目領域を含む抽出結果に基づいて、グラフカット・セグメンテーション法の領域情報を設定するステップと、
前記設定された領域情報に基づいて、グラフカット・セグメンテーション法により、第二の注目領域の抽出を行うステップと、
前記第二の注目領域を含む抽出結果に基づいて、画像に対応する正解画像を生成するステップと、を有することを特徴とする画像処理方法。
請求項１７に記載の画像処理方法をコンピュータに実行させるためのプログラム。