JP6945253B2

JP6945253B2 - 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Info

Publication number: JP6945253B2
Application number: JP2020548058A
Authority: JP
Inventors: 陽一朗山本
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2018-09-26
Filing date: 2019-07-25
Publication date: 2021-10-06
Anticipated expiration: 2039-07-25
Also published as: JP2022000777A; US20220036140A1; JP7294695B2; JPWO2020066257A1; WO2020066257A1; EP3859666A4; CN112771516A; EP3859666A1

Description

本発明は、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体に関する。

従来から、対象を撮影した写真をニューラルネットワークにより分類して、診断等に役立てようとする技術が提案されている。

たとえば、特許文献1では、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、を受け付け、対象をニューラルネットワークにより分類する際に、与えられた特徴マップの各要素と、受け付けられた1以上の属性パラメータと、を畳み込む技術が開示されている。

ここで、病変等を有する患者を撮影した写真であっても、健常者と同じ外観を有する領域が撮影されていることは多い。たとえば、一部の細胞は病変の影響を受けているが、多数の細胞は正常のままである、という場合である。

従来から、前立腺癌の再発予測等の予後診断においては、被験者の対象部位を撮影した病理写真から、医学知識に基いて、医師が、癌がある領域(病変がある領域)をその他の領域(正常な領域)から絞り込んで囲い込むことが広く行われている。たとえば、癌の悪性度分類として広く使われているグリソン分類では、癌の領域を絞り込んだ後で、その癌を対象として組織形態をさらに調べることで悪性度を測定する必要がある。

このような絞り込み、囲い込みには、非常に大きな手間および長い時間がかかるとともに、医師によってその精度が異なるほか、既存の医学知識で認識できる外観についてしか解析できない、という問題がある。

特許第6345332号公報

したがって、対象(たとえば、診断対象の「人」)を撮影した写真から、特定のグループ(たとえば、「癌が再発する人」のグループ)に属する対象を特徴付ける領域を精度高く自動的に抽出することにより、当該対象が特定のグループに属するか否か、を分類するとともに、既存の医学知識では認識できていなかった新たな再発要因を探し出す技術が望まれている。

すなわち、どの領域が各グループを特徴付ける重要要素か判別することによって、対象を精度良くグループに分類するとともに、グループの差異に関する知見を人が理解できるようにしたい、という要望がある。

このような領域を抽出するためには、写真を小さく分割した画像のそれぞれが、特定の一つのグループに特徴的なものであるか、それとも、他のグループとも共通して出現するものか、を同定する必要がある。

本発明は、上記の課題を解決するもので、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することを目的とする。

本発明に係る分類装置は、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得し、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習し、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付け、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する。
また、本分類装置は、さらに、
前記各学習写真S_iに撮影された学習対象を、前記各圧縮済ベクトルv_i,1, v_i,2, …が分類されたクラスC_y(i,1), C_y(i,2), …に対応付けられたグループG_x(y(i,1)), G_x(y(i,2)), …の分布に基づいて、前記複数のグループG₁, G₂, …, G_Lのうち、いずれかのグループに振り分ける第2モデルを学習し、
前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG₁, G₂, …, G_Lのうち、いずれのグループに属するかを推定する
ように構成することができる。

本発明によれば、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することができる。

本発明の実施形態に係る分類装置(ステージ1)の概要構成を示す説明図である。第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の前段を示す説明図である。第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の後段を示す説明図である。分類装置に与えられる写真をグレイスケールで表現した図面代用写真である。分類装置に与えられる写真をモノクロ2階調で表現した図面代用写真である。分類装置に与えられた写真を分割した様子をグレイスケールで表現した図面代用写真である。分類装置に与えられた写真を分割した様子をモノクロ2階調で表現した図面代用写真である。分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をモノクロ2階調で表現した図面代用写真である。他の症例の写真をグレイスケールで表現した図面代用写真である。他の症例の写真をモノクロ2階調で表現した図面代用写真である。他の症例の写真において各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。他の症例の写真において各グループを代表する領域を強調表示したモノクロ2階調で表現した図面代用写真である。本発明の実施形態に係る分類装置(ステージ2)の概要構成を示す説明図である。第1モデルを学習するために利用可能な深層学習のオートエンコーダの一例を示す説明図である。再発ありグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。再発ありグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。再発ありグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。再発なしグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。再発なしグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。再発なしグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。本発明の実施形態に係る変換装置の基本構成を示す説明図である。本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。

以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。

(構成)
本実施形態に係る分類装置は、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。

コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。

プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPUは、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。

さらに、上記のように、コンピュータは、GPUを備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。

なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。

以下では、理解を容易にするため、分類装置101は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。図1は、本発明の実施形態に係る分類装置(ステージ1)の概要構成を示す説明図である。

本図に示すように、本実施形態に係る分類装置101は、取得部102、第1学習部103、対応付け部104、受付部105、同定部106を備える。このほか省略可能な要素として、第2学習部107、推定部108をさらに備えることとしても良い。上記のように、これら各部は、コンピュータがプログラムを実行することによって、あるいは、プログラムに定められた仕様に基づいて構築された電子回路によって、実現される。以下、各部の機能について説明する。

(学習写真、学習画像、グループ)
まず、取得部102は、複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得する。本図では、添字や引数等が1, 2, …の整数値をとりうることを記号「*」にて表記している。

取得部102には、入力として、学習写真S₁, S₂, …のi番目の学習写真S_iに撮影された学習対象が属するグループを特定するための対応付けz(i)が与えられる。ここで、対応付けz(i)は関数の形式で表現されているが、たとえば、配列、連想配列、ハッシュ等、種々の形式で取得部102に与えることとしても良い。

したがって、取得部102では、
(1) 学習写真S₁を分割した学習画像S_1,1, S_1,2, …がグループG_z(1)に対応付けて取得され、
(2) 学習写真S₂を分割した学習画像S_2,1, S_2,2, …がグループG_z(2)に対応付けて取得され、
…
(i) 学習写真S_iを分割した学習画像S_i,1, S_i,2, …がグループG_z(i)に対応付けて取得され、
…
のように、対応付けがなされることになる。

取得部102に対しては、学習写真S₁, S₂, …, S_i, …が与えられ、取得部102が、これらを適宜分割して、複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…,
S_i,1, S_i,2, …,
…
としても良い(本図に示す態様)。

また、分類装置101に対する前処理により、あらかじめ、学習写真を複数の学習画像に分割してしまい、分割結果である複数の学習画像を取得部102に与えることとしても良い。

このほか、学習写真が超高精細な写真である場合には、学習写真を分割する際に、さらに、各学習写真の解像度を下げることによって、学習画像を得ることとしても良い。これは、人工知能を用いた学習を高速化する上で好適である。

グループについて、たとえば、L=2とし、第1グループとして健常者を、第2グループとして罹患者を、それぞれ採用し、学習対象となる臓器から採取した組織サンプルを撮影した顕微鏡写真や対象となる臓器を撮影したレントゲン写真等、種々の病理写真を学習写真として採用することができる。

上記の例の場合、各学習対象についての学習写真は1枚乃至数枚となる。本実施形態では、学習写真から、診断を下す医師に対して注意を喚起すべき領域を自動抽出するため、当該学習写真を、複数の学習画像に分割し、各学習画像を、その学習画像の分割元である学習写真に撮影された学習対象と同じグループに対応付けることとしている。

したがって、各学習対象についての学習画像は多数枚になる。また、対象が罹患者であっても、健常者と区別がつかない学習画像(たとえば、罹患はしているが、健常な形態を呈する細胞が撮影された領域の画像等。)が存在することがありうる。

学習写真を分割する際には、全学習画像が同じサイズになるように調整することができる。なお、学習画像に出現する画素値の分布や文字認識、ノイズ認識等に基づいて、対象が一部しか撮影されていない背景部分や境界部分、対象以外の情報、たとえば、撮影日時や患者番号等の文字情報が描画された部分を除去し、学習画像から排除しても良い。ただし、これらの背景、境界、文字情報については、健常者の写真にも罹患者の写真にも出現するので、排除する処理をしなくとも、後述する処理によって、そのほとんどが自動的に除去できる。

(第1モデル)
さて、第1学習部103は、第1モデルを学習する。この第1モデルによって、以下の3種の情報が得られることになる。
(a) 取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…,
S_i,1, S_i,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…,
v_i,1, v_i,2, …,
…
と、
(b) 複数のクラスC₁, C₂, …, C_Mのうち、複数の学習画像の各学習画像S_i,jならびに複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、
(c) 各圧縮済ベクトルv_i,jと複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,j。

(次元圧縮)
学習画像を次元圧縮して圧縮済ベクトルを得るには、オートエンコーダを利用することができる。オートエンコーダとしては、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せ等を利用することができる。

図2Aは、第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の前段を示す説明図である。図2Bは、第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の後段を示す説明図である。これら図に示すほか、種々のニューラルネットワーク等を第1モデルを学習するために適用することができる。

次元圧縮は、学習画像の全ピクセル値を並べたベクトルを、学習画像の外観上の特徴を表す、より次元の低いベクトルに変換する処理である。上記のように、画像処理や機械学習、深層学習などの人工知能処理では、画像を表す特徴を抽出する技術が実現されている。

したがって、次元圧縮には、オートエンコーダに限らず、このような種々の技術を適宜適用することができる。

なお、最も単純な形態では、第1モデルではバックプロパゲーションは行わず、入力された多数の学習画像の特徴を自動的に次元圧縮へ分類する処理のみを実行する。ただし、後述する推定を行うことにより、バックプロパゲーションを行って、グループへの分類の精度を高めるように、オートエンコーダ等のパラメータ等を学習することができる。

(クラス)
圧縮済ベクトルをクラスに分類するには、圧縮済ベクトルの最大要素の位置により分類する手法と、クラスタリングを利用する手法と、がある。各クラスは、いずれかのグループのみに出現する特徴を表す場合と、いずれか複数のグループに共通する特徴を表す場合と、がある。

したがって、分類されるクラスの数Mは、グループの数L、学習写真の総数およびサイズ、学習画像の総数およびサイズに応じて、適宜調整することが望ましい。

たとえば、L個のグループの各グループについて、当該各グループの特徴を表すクラスをそれぞれ1つ以上発見するためには、クラスの数Mは、L以上である必要があり、MをLの数倍乃至数十倍にすることもできる。一方で、いずれかのグループについては特徴が見出せなくとも良い場合には、クラスの数Mをもっと小さくすることもできる。

圧縮済ベクトルがM次元のベクトルである場合には、単純に、圧縮済ベクトルv_i,jの最大要素のインデックスk(最大要素がk番目の要素)を用いて、y(i,j)=kとすることによって、圧縮済ベクトルv_i,jをクラスC_k(=C_y(i,j))に分類することができる。この手法では、圧縮済ベクトルがM次元であるから、圧縮済ベクトルはM個のクラスに分類されることになる。

ここで、y(i,j)は、学習画像S_i,jおよび圧縮済ベクトルv_i,jがクラスC_y(i,j)に分類されることを関数形式で表現したものである。上記の対応付けz(i)と同様に、分類y(i,j)は、配列、連想配列、ハッシュ等、種々の形式で実装することが可能である。

一方で、圧縮済ベクトルの次元がMよりも十分に大きい(たとえば、100倍以上など、オーダーが十分に大きい)次元のベクトルの場合には、圧縮済ベクトルに対してクラスタリングを適用することにより、分類y(i,j)を求めることが可能である。

クラスタリングには、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せを利用することができる。また、X-meansなどのように、分類されるクラスの数を自動調整する態様では、分類されるクラス数の下限につきグループの数Lに応じた制約を課すことで、クラスの数Mを自動調整することも可能である。

このような分類を行うと、外観が何らかの特徴で共通する学習画像が、同じクラスに分類されることになる。発明者の実験によれば、この外観による特徴には、従来の診断手法において医師が経験的に知得したものもあるし、後述するように、本発明によって初めて判明したものもある。

写真の背景、境界、文字などが描画された学習画像は、それぞれまとまって、背景を表すクラス、境界を表すクラス、何らかの文字や文字列を表すクラスに分類されることが期待される。したがって、背景、境界、文字等を前処理で除去しなくとも、後述する処理によってこれらのクラスを無視することによって、手間なくスキップすることができる。

(スコアベクトル)
スコアベクトルu_i,jは、学習画像S_i,jおよび圧縮済ベクトルv_i,jがクラスC₁, C₂, …, C_Mのそれぞれに、どれだけ類似、近似、あるいは、近接しているかを表すベクトルである。したがって、スコアベクトルu_i,jは、M次元のベクトルである。以下、スコアベクトルu_i,jのk番目の要素をu_i,j,kと表記することとする。スコアベクトルの要素u_i,j,kは、学習画像S_i,jおよび圧縮済ベクトルv_i,jがクラスC_kにどれだけ類似、近似、あるいは、近接しているかを表すことになる。

最も単純なスコアベクトルは、クラスC_y(i,j)に対する要素u_i,j,y(i,j)を1、それ以外の要素u_{i,j,k|y(i,j)≠k}を0とするベクトルである。これは、y(i,j)番目の要素が1であり、それ以外の要素が0である単位ベクトルであり、学習画像S_i,jおよび圧縮済ベクトルv_i,jが分類されたクラスが、値1を持つ要素のインデックスによって表現される。

次に簡単なスコアベクトルは、各クラスC_kに対する要素を、圧縮済ベクトルv_i,jと各クラスC_kの代表点との近接度とするベクトルである。すなわち、k番目の要素には、クラスC_kの代表点(クラスタの重心)と、圧縮済ベクトルv_i,jと、の距離d_i,j,kにより定められる近接度を設定する。

距離d_i,j,kは、単純なユークリッド距離を採用しても良いし、クラスC_kに分類された圧縮済ベクトルv_i,j|y(i,j)=kの多次元分布の分散共分散行列に基づいて、代表点からの距離を各軸方向に正規化することとしても良い。

近接度としては、たとえば、
距離d_i,j,kの逆数、すなわち、u_i,j,k = 1/d_i,j,k、
距離d_i,j,kに正定数αを加算した値の逆数、すなわち、u_i,j,k = 1/(d_i,j,k+α)、
距離d_i,j,1, d_i,j,2, …, d_i,j,Mの中で、距離d_i,j,kが何番目に大きい値かを表す順序数(距離d_i,j,kが小さければ小さいほど順序数は大きい)、
上記順序数に応じて単調増加する係数、たとえば、距離d_i,j,1, d_i,j,2, …, d_i,j,Mの中で最小の距離d_i,j,kには10、次に小さい距離については5、その次は2、それ以外は0
などを採用することができる。

このほか、圧縮済ベクトルがM次元のベクトルである場合には、圧縮済ベクトルv_i,jに対してsoftmaxを適用することにより、スコアベクトルu_i,jを得ることとしても良い。すなわち、スコアベクトルu_i,jのk番目の要素は、指数関数exp()を用いて、
exp(d_i,j,k)/Σ_k=1 ^M exp(d_i,j,k)
により計算される。

なお、softmaxの適用は、オートエンコーダの最後で行うこととしても良い。この場合には、圧縮済ベクトルv_i,jをそのままスコアベクトルu_i,jとして利用することも可能である。

(代表度ベクトル)
さて、対応付け部104は、複数のグループG₁, G₂, …, G_Lの各グループG_hを複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求める。

代表度ベクトルr_hは、複数のクラスC₁, C₂, …, C_MがグループG_hを代表する度合を表し、グループG_hに対応付けられる学習画像および圧縮済ベクトルに対して計算されたスコアベクトル、すなわち、z(i)=hを満たすインデックスi,jに対するスコアベクトルu_i,jの総和とすることができる。すなわち、
r_h = Σ_i,j|z(i)=h u_i,j
であり、代表度ベクトルr_hのk番目の要素r_h,kは、クラスC_kがグループG_hを代表する度合を表す。

(クラスとグループの対応付け)
そして、対応付け部104は、求められた代表度ベクトルr₁, r₂, …, r_Lにより、各クラスC_kを複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付ける。

具体的には、複数のクラスC₁, C₂, …, C_Mの各クラスC_kについて、代表度ベクトルr₁, r₂, …, r_Lのそれぞれのk番目の要素r_1,k, r_2,k, …, r_L,kを取得し、これらの要素の最大値r_h,kが、要素r_1,k, r_2,k, …, r_L,kから最大値r_h,kを除いた残りの要素の分布に対して外れ値であれば、
x(k) = h
であり、そうでなければ、
x(k) = 0
である、とすることにより、クラスC_kを、グループG_hもしくはグループG₀に対応付ける。

ここで、最大値r_h,kが、残りの要素r_1,k, r_2,k, …, r_h-1,k, r_h+1,k, …, r_L,kに対して外れ値である、すなわち、最大値r_h,kが突出して大きい、ということは、クラスC_kによって、グループG_hと、それ以外のグループG₁, G₂, …, G_h-1, G_h+1, …, G_Lと、を峻別できる、ということを意味する。すなわち、クラスC_kに分類された学習画像は、グループG_hを特徴付け、それ以外のグループではほとんど見られない、外観上の共通性があることになる。

最も単純には、r_1,k, r_2,k, …, r_L,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、最大値r_h,kが超えていれば、最大値r_h,kは外れ値である、とみなす手法が採用できる。0.5以上1以下の定数は、あらかじめ定めておいても良いし、分類装置101の使用者が、適宜調整して定めることができるものとしても良い。この態様では、過半数を突出して大きい、とみなしている。

このほか、残りの要素の分布から所望の有意水準に基いて閾値を定め、この閾値をr_h,kが超えていれば、最大値r_h,kは外れ値である、とみなすこととしても良い。

たとえば、残りの要素の平均値μおよび標準偏差σを求め、閾値をμ+2σ、乃至、μ+3σとすれば、簡易な外れ値検定が可能である。

このほか、外れ値か否かを判定するために、スミルノフ・グラブス検定やトンプソン検定などの種々の外れ値検定を適用することができる。

検定による手法では、最大値r_h,kが過半数でない場合であっても、外れ値である、と判定することができる。

(判定画像)
これまでの処理によって、画像をクラスに分類する第1モデルが学習され、画像のクラスがグループに対応付けられた。

そこで、分類装置101の受付部105は、判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける。受け付ける判定写真は1枚でも複数枚でも良い。

同定部106は、学習された第1モデルにより、受け付けられた複数の判定画像のそれぞれを複数のクラスのいずれかに分類し、分類されたクラスに対応付けられたグループを同定する。

したがって、複数の判定画像のうち、
グループG₁に特徴的な外観を呈する判定画像は、グループG₁に対応付けられるいずれかのクラスC_k|x(k)=1に分類され、
グループG₂に特徴的な外観を呈する判定画像は、グループG₂に対応付けられるいずれかのクラスC_k|x(k)=2に分類され、
…、
グループG_hに特徴的な外観を呈する判定画像は、グループG_hに対応付けられるいずれかのクラスC_k|x(k)=hに分類され、
…、
グループG_Lに特徴的な外観を呈する判定画像は、グループG_Lに対応付けられるいずれかのクラスC_k|x(k)=Lに分類される
ことになる。

一方、複数のグループに共通して出現する外観を呈する判定画像や、背景、境界、文字などが描画されている判定画像は、グループG₀に対応付けられたいずれかのクラスC_k|x(k)=0に分類される。

そこで、判定写真を画面に表示する際に、判定写真内のグループG₁, G₂, …, G_Lのいずれかのグループに同定された判定画像の領域を、各グループに対応付けられる形態で強調表示すれば、診断や判断を行う医師や技師等に対して、判定写真に撮影された判定対象が、いずれのグループに属するかを判断する際に、注目すべき領域を明示することができるようになる。

図3Aは、分類装置に与えられる写真をグレイスケールで表現した図面代用写真である。図3Bは、分類装置に与えられる写真をモノクロ2階調で表現した図面代用写真である。これらの図は、カラーで撮影された学習写真や判定写真として利用される病理写真であるが、白黒写真や赤外線写真、レントゲン写真等、任意の写真を利用することが可能である。なお、本願では、出願書類作成上の制約のため、カラー写真を、グレイスケール化ならびにモノクロ2値化して表示している(以下同様)。これらの病理写真は、前立腺癌の再発予測のための予後診断に利用するために撮影されたもので、撮影された対象は、撮影後1年以内に再発のグループG₁と、撮影後1年以上再発しなかったのグループG₂と、の2つのグループ(L=2)に分類されている。

図4Aは、分類装置に与えられた写真を分割した様子をグレイスケールで表現した図面代用写真である。図4Bは、分類装置に与えられた写真を分割した様子をモノクロ2階調で表現した図面代用写真である。これらの図では、学習写真・判定写真をメッシュで分割する様子を示しており、各桝目の中身が、学習画像・判定画像に相当する。これらの図では、病理写真をスキャンする際に、フィルムスキャナが背景部分を除去している。そこで、試料の本体の部位、および、試料の固定材の境界部分の桝目が、学習画像・判定画像に相当する。

図5Aは、分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。図5Bは、分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をモノクロ2階調で表現した図面代用写真である。これらの図においては、学習の結果に基づいて、グループG₁を代表するクラスに分類された画像に相当する領域は太線で囲み、グループG₂を代表するクラスに分類された画像に相当する領域は細線で囲んで図示している。

図6Aは、他の症例の写真をグレイスケールで表現した図面代用写真である。図6Bは、他の症例の写真をモノクロ2階調で表現した図面代用写真である。図7Aは、他の症例の写真において各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。図7Bは、他の症例の写真において各グループを代表する領域を強調表示したモノクロ2階調で表現した図面代用写真である。これらは、別の対象について撮影された病理写真について同様の処理を施したものである。

これらの図に示す例では、太線で囲まれた領域は悪性度が高いと考えられ、細線で囲まれた領域は、良性度が高いと考えられる。図7A、7Bにおいては、悪性領域の数が多く、その悪性領域の数と良性領域の数の比は、図5A、5Bにおける悪性領域の数と良性領域の数の比に比べてかなり大きい。したがって、図7A、7Bの患者の予後は、図5A、5Bの患者の予後に比べて悪い、と予想できることになる。

なお、この病理写真が学習写真として利用されていて、対象が元々グループG₁に属しているのであれば、この病理写真が正解として学習が進んだことになり、対象が元々グループG₂に属しているのであれば、この病理写真の対象は、例外的な症状を呈している、と考えることができる。

このように、上記の分類装置101によれば、医師や技師等が診断、判断等や治療方針、対策等を決定することを補助するための重要な情報を提示することができるようになる。

(第2モデル)
上記態様では、ユーザに対して、判定対象をグループに分類する際に注目すべき判定写真内の領域を知らせ、ユーザの判定を補助することができた。本実施形態ではさらに進んで、判定対象が属すべきグループそのもの、あるいは、各グループに属する可能性がどの程度かを表すインパクトファクターを推定する。

本実施形態に係る分類装置101では、第2学習部107が、各学習写真S_iに撮影された学習対象を、各圧縮済ベクトルv_i,1, v_i,2, …が分類されたクラスC_y(i,1), C_y(i,2), …に対応付けられたグループG_x(y(i,1)), G_x(y(i,2)), …の分布に基づいて、複数のグループG₁, G₂, …, G_Lのうち、いずれかのグループに振り分ける第2モデルを学習する。

たとえば、学習写真S_iに対する学習画像S_i,1, S_i,2, …の1割がグループG₁に同定され、9割がグループG₀に同定され、グループG₂, …, G_Lに同定された学習画像がなければ、学習写真S_iに撮影されている学習対象は、グループG₁に振り分けられるべき、と考えられる。

当該学習対象がもともとグループG₁に分類されているのであれば、第1モデルおよび第2モデルにおける学習は順調に進んでいることになるが、当該学習対象がもともとグループG₂, …, G_Lに分類されていた場合には、第1モデルおよび第2モデルにおける学習が誤っていることになる。

分類装置101は、学習対象が元々分類されていたグループと、学習対象を第2モデルによって振り分けたグループと、を対比して、第1学習部103および第2学習部107に対して、差異を最小化し、精度を高めることによって、より適切に学習を進めることができる。

たとえば、試行錯誤あるいはランダムウォーク的に第1モデルや第2モデルを微小に変更する試行を行い、差異が小さくなった場合に、当該変更後のモデルを採用する、という手法を採用することができる。

このほか、両者の差異を最小化するための評価関数を定め、バックプロパゲーションや最急降下法等によって第1モデル、第2モデルを修正することとしても良い。

このようにして、第1モデルによる分類および第2モデルによる振り分けの精度を高めることが可能となる。

そして、分類装置101の推定部108は、判定対象が撮影された判定写真を分割した複数の判定画像に対して同定されたグループの分布に基づいて、学習された第2モデルにより、判定対象が複数のグループG₁, G₂, …, G_Lのうち、いずれのグループに属するかを推定する。

ここで、第2モデルでは、入力された対象を、複数のグループG₁, G₂, …, G_Lのいずれかに分類するため、サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレスト等を利用することが可能である。

なお、複数の判定画像のそれぞれについて、学習画像と同様にスコアベクトルを求め、当該スコアベクトルの総和(以下「判定総和」という。)を求めれば、判定総和のk番目の要素は、判定画像の集合体である判定写真が、クラスC_kにどの程度分類されているか、を表すことになる。

すなわち、判定写真Rを複数に分割した判定画像R₁, R₂, …について、第1モデルによりスコアベクトルq₁, q₂, …を求めて、判定総和Q=Σ_i q_iを計算する。判定総和QはM次元のベクトルで、そのk番目の要素Q_kは、判定写真RがクラスC_kにどの程度関連しているか、を表現している。

そこで、クラスC_kと対応付けられたグループG_x(k)に、判定総和Qのk番目の要素Q_kの値を得点として与えることとする。各グループについて積算された得点により、判定写真Rがどのグループに類似しているか、の程度を表現することができる。

すなわち、グループG_hに対する得点W_hは、
W_h = Σ_x(k)=h Q_k
と計算することができる。すると、判定写真Rに撮影された判定対象がグループG_hに属する確率に応じたインパクトファクターP_hを、
P_h = W_h / Σ_hW_h
により推定する。インパクトファクターP_hが大きければ大きいほど、判定写真Rに撮影された判定対象がグループG_hに属する可能性が高いことになる。

したがって、医師等のユーザは、判定写真Rから得られたインパクトファクターP₁, P₂, …, P_Lを参考にしつつ、判定対象が属すべきグループがG₁, G₂, …, G_Lのいずれであるか、の診断や判断を下すことができるようになる。

このほか、W₁, W₂, …, W_Lから最大値W_kを求め、
k = argmax_h W_h;
P_k = 1
とし、それ以外については、
P_h|h≠k = 0
とする態様を採用することもできる。この態様では、判定写真Rに撮影された判定対象は、グループG_kに属する、と推定することになる。

なお、ここで計算されたインパクトファクターP_hと同様の計算を学習写真および学習画像に対しても行って、第1モデルおよび第2モデルの精度を高めることとしても良い。すると、あらかじめ用意された学習対象のグループ分けが実際には確率的であることに配慮しつつ、学習を進めることができるようになり、推定精度の向上が期待できる。

(ステージ1とステージ2)
上記の処理においては、学習写真や判定写真を分割して得られる学習画像や判定画像により、学習写真や判定写真に撮影された対象が属するグループを学習、あるいは、判定する。ここでは、上記の処理をステージ1と呼ぶことにする。

ステージ1における学習画像や判定画像は、学習写真や判定写真を分割し、必要に応じて解像度を下げたものである。したがって、ステージ1の処理は、学習写真や判定写真を分割して拡大しながら観察を行った、と考えることができる。

以下では、ステージ1と同様の構成を持つ分類装置101により、ステージ1における学習の精度をさらに高める手法について説明する。そこで、この段階における処理をステージ2と呼ぶこととする。図8は、本発明の実施形態に係る分類装置(ステージ2)の概要構成を示す説明図である。なお、ステージ2に係る分類装置101では、受付部105、同定部106が省略されている(図示せず)。また、ステージ1の結果を修正するための変更部109が追加されている。

ステージ2では、ステージ1において、複数のグループG₁, G₂, …, G_Lの各グループG_hに対応付けられたクラスC_k|x(k)=hに分類された学習画像およびグループG_hを、学習写真および学習対象が属するグループとして、取得部102に新たに与える。

すなわち、ステージ2においては、グループG₀に対応付けられたクラスに分類された学習画像は、処理の対象としない。

ステージ2において処理の対象とされる学習画像S_i,jは、ステージ1において、クラスC_y(i,j)に分類され、グループG₀以外のグループG_x(y(i,j))に属すべき、とされたものである。したがって、処理対象となるインデックスの組(i,j)は、
x(y(i,j))∈{1, 2, …, L}
あるいは、
x(y(i,j))≠0
を満たすことになる。

ステージ2においては、上記の条件を満たす各学習画像S_{i,j|x(y(i,j))∈{1, 2, …, L}}を採番し直して、分類装置101に対して、複数の学習写真S'₁, S'₂, … として与える。以下、インデックスの組(i,j)と、当該組(i,j)を採番し直した新たなインデックスの値kと、の関係を、
(i,j) = f(k)
のように、関数表記することとする。

ステージ2においては、学習写真S'_kに撮影された対象が、グループG_z'(k)に属するものとして、学習写真S'₁, S'₂, …と、対応付けz'(k)と、を取得部102に与えることになる。なお、ステージ1と同様に、S'₁, S'₂, …をさらに分割したものを取得部102に与えることとしても良い。

ここで、x(y(i,j))∈{1, 2, …, L}を満たすインデックスの組(i,j)に対する学習画像S_i,jは、グループG_x(y(i,j))に属すべき、とされている。

ステージ2における学習写真S'_kは、ステージ1における学習画像S_f(k)である。学習画像S_f(k)は、ステージ1においてクラスC_y(f(k))に分類されているので、学習画像S_f(k)は、グループG_x(y(f(k)))に属すべき、と学習されていることになる。したがって、ステージ2における対応付けは
z'(k) = x(y(f(k)))
となる。

このようにして、ステージ2における複数の学習写真および対応付けを、ステージ1における複数の学習画像および学習結果に基づいて定めて、ステージ2の分類装置101に与えて、
取得部102による分割、対応付けおよび取得、
第1学習部103による学習、
対応付け部104による対応付け、
第2学習部107による学習、および、
推定部108による推定
を新たに実行する。

ここで、ステージ1の分類装置101と、ステージ2の分類装置101と、は、ほぼ同じ構成とすることができるが、対象とされる画像の特性が異なるので、学習される第1モデル、第2モデルも異なるものとなる。

また、ステージ1における第1学習部103では、図2A、2Bに示すようなオートエンコーダの結果をk-meansによりクラスタリングしてクラス分類するが、ステージ2における第1学習部103では、オートエンコーダの結果のベクトルの最大要素によりクラス分類する、等、異なる構成とすることも可能である。

図9は、第1モデルを学習するために利用可能な深層学習のオートエンコーダの一例を示す説明図である。本図に示すようなオートエンコーダを、ステージ2の第1学習部103で利用するなどの形態が可能である。

このようにして、ステージ2における学習が行われると、各学習写真S'_iのインパクトファクターp'_iが求められる。インパクトファクターp'_iはL次元のベクトルで、上記のように、学習写真S'_iがグループG₁, G₂, …, G_Lに属する確率に連動した値を持つ。

ステージ1では、クラスC_kがグループG_x(k)に対応付けられていたが、ステージ2では、この対応付けが正しいか否かを吟味する。ステージ2における学習写真S'_iは、ステージ1における学習画像S_f(i)に相当し、この学習画像S_f(i)は、ステージ1では、クラスC_y(f(i))に分類されている。

そこで、ステージ1において各クラスC_kに分類された各学習画像について、ステージ2では、変更部109が、推定されたインパクトファクターの総和Z_k
Z_k = Σ_i|y(f(i))=k p'_i
を計算する。

総和Z_kは、ステージ1においてクラスC_kに分類された複数の学習画像が、グループG₁, G₂, …, G_Lのいずれに属すべきかの度合(ステージ2で計算された度合)の分布をL次元のベクトルにより表したものである。

ステージ1において、クラスC_kがグループG_hに対応付けられていた(h=x(k))とすると、この対応付けが正しければ、クラスC_kに対して求められた総和Z_kにおけるh番目の要素は、総和Z_kの中の所定上位(たとえば、最上位)になるはずである。

したがって、変更部109は、クラスC_kが対応付けられていたグループG_hが、分布の所定上位でなければ、ステージ1におけるクラスC_kの対応付けを、グループG_hからグループG₀に変更する。

ここで、所定上位とは、最上位としても良いし、Lの値に応じて適宜、上位2位まで、上位3位まで、…等、種々調整も可能である。

ステージ2は、ステージ1におけるクラスとグループの対応付けを修正して、各グループを代表するクラスの対応付けの精度を高めようとするものである。

なお、ステージ2における分類装置101は、受付部105および同定部106を備える必要がない。ステージ2によって精度が高められたステージ1における分類装置101に対して、判定画像を与え、判定画像が属するグループを同定するからである。

(実験例)
以下では、前立腺癌の再発予測を行う予後診断において、被験者の対象部位を撮影した病理写真を処理の対象として、実験を行った例を示す。

本実験では、885人の患者の対象部位を撮影した10505枚の病理写真を用意した。

グループ数L=2であり、撮影後1年再発しなかったグループG₁(再発なしグループ)、撮影後1年以内に再発したグループG₂(再発ありグループ)のいずれかへの分類を試みた。

885人の症例病理写真のうち、100症例(写真100枚)を学習用に、785症例(写真10405枚)を判定用(検証用)に分け、分類の精度を計測することとした。

各病理写真は、症例ごとに患部の大きさが異なるため、サイズが異なる。図3A、3Bは、本実験で処理対象とした学習写真の一例をグレイスケール化/モノクロ2階調化したものである。元の学習写真はカラー画像により構成されており、横56448ピクセル、縦84224ピクセルであった。

ステージ1では、各病理写真をスキャナによりスキャンする際に、背景部分がスキャナによってある程度除去される。その上で、複数の区画に分割して分割画像を得て、これを学習画像および判定画像として利用する。図4A、4Bの例では、縦1024ピクセル、横1024ピクセルの分割画像が得られている。

本実験では、学習効率の向上のため、および、ステージ2で再分割することを考慮して、分割画像の解像度を縦128ピクセル、横128ピクセルに下げるスムージング処理を行ってから、これらを学習画像、判定画像とした。

ステージ1では、クラス数M=100として、図2A、2Bに示すフィルタ構成に基づく深層学習により第1モデルを学習し、k-meansによりM=100個のクラスに分類を行った。

また、ステージ1では、リッジ回帰、ラッソ回帰、サポートベクターマシンによる機械学習により第2モデルを学習し、最も精度が高いものを採用した。

さらに、ステージ2では、ステージ1の分割画像をさらに縦28ピクセル、横28ピクセルに分割してから、処理を行った。ステージ2では、図9に示すフィルタ構成により第1モデルを学習した。

熟達した医師がグリソン分類により予後の推測を行った場合の判別能をAUC(Area Under the Curve)により表現すると0.758であるが、ステージ1による判別能は0.715であり、さらにステージ2を行った場合の判別能は0.771であった。したがって、本実施形態による判別能は、熟達した医師と同等以上であると考えられる。

図10Aは、再発ありグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。図10Bは、再発ありグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。グループG₂に分類された学習画像は、予後が再発ありの特徴を表すものである。図11は、再発ありグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。本図では、グリソン分類にて高再発あり度癌とされる外観が抽出できている(図中黒四角)ほか、グリソン分類では認定されない間質反応も抽出できている(図中白四角)。このような間質反応は、本実施例を適用することによって初めて判明したものである。

図12Aは、再発なしグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。図12Bは、再発なしグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。グループG₁に分類された学習画像は、再発なしグループの特徴を表すものである。図13は、再発なしグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。本図では、グリソン分類にて低再発あり度癌とされる外観が抽出できている(図中黒四角)。ここで、低再発あり度癌とは、治療を積極的には行わないPSA監視療法の対象となる癌である。また、癌がまったくない断端も抽出されている(図中白四角)。従来の医師の診断手法では、再発なしグループの特徴は、再発ありグループの特徴と対比して表現されることが多かったが、本発明によれば、再発なしグループの特徴を積極的に表現することが可能となる。

このように、各グループの外観上の特徴につき、従来の知見で積極的には認定されていなかったものが、本実験によって新たに発見された。

したがって、本実験により、学習用の病理写真とグループ分類を用意するだけで、熟達した医師と同等の予後予測が熟達した人間並の精度ででき、かつ、再発に関与する癌の悪性度を弁別する新たな外観上の特徴が発見され、本実施形態の有用性が確認できた。

(次元圧縮の他の実施形態)
上記した態様では、次元圧縮にオートエンコーダ等を利用していたが、以下では、変換モデルによって入力ベクトルを特徴ベクトルに変換する変換装置において、教師なし学習をおこない、得られた特徴ベクトルを圧縮済ベクトルとする態様について説明する。

(変換装置の基本構成)
図14は、本発明の実施形態に係る変換装置の基本構成を示す説明図である。図15は、本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。以下、これらの図を参照して概要を説明する。

両図に示すように、変換装置1001は、分割部1002、第1分類部1003、第1学習部1004を備える。

また、両図を対比すればわかる通り、変換装置1001は、省略可能な構成に係る要素として、第2分類部1005、第2学習部1006を備えることができる。

本図に示す通り、変換装置1001は、入力与えられた入力ベクトルを、変換モデル1101により、特徴ベクトルへ変換する。

変換装置1001が使用する変換モデル1101については、あらかじめ学習を進める必要がある。図16は、本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。図17は、本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。以下、両図を参照して説明する。

両図に示すように、変換装置1001における処理は、変換モデル1101の学習段階(ステップS2001-S2004)、クラス分類(第2分類モデル1202)の学習段階(ステップS2005-S2006)、クラス分類の利用段階(ステップS2007-S2009)の3段階に分けることができ、それぞれ独立して実行することができる。ここで、変換モデル1101の学習段階は、図14、図15の両方で実行されるが、クラス分類(第2分類モデル1202)の学習段階ならびにクラス分類の利用段階(ステップS2009)は、図14では省略される。

まず、変換モデル1101の学習にあたって、変換装置1001は、入力ベクトルの典型例として、複数の訓練ベクトルv₁, v₂, …, v_Nを受け付ける(ステップS2001)。なお、省略可能な態様として、図15、図17に示すように、複数のクラスC₁, C₂, …, C_Lの中から、複数の訓練ベクトルv₁, v₂, …, v_Nがそれぞれ属すべき正解クラスC_c(1), C_c(2), …, C_c(N)のクラスラベルc(1), c(2), …, c(N)を、合わせて受け付けることも可能である。一方、図14、図16に係る基本構成では、クラスラベルの受け付けは不要である。

ついで、変換装置1001の分割部1002は、複数の訓練ベクトルv₁, v₂, …, v_Nを、ランダムに複数のグループG₁, G₂, …, G_Mに分割する(ステップS2002)。この分割は、訓練ベクトルv₁, v₂, …, v_Nのそれぞれに、分割先のグループの添字に相当するランダムラベル(グループラベル)g(1), g(2), …, g(N)を付与することにより表現することができる。グループの数Mは2以上の任意である。

以下、理解を容易にするため、整数i=1, 2, …, Nのそれぞれについて、訓練ベクトルv_iがグループG_g(i)に分類された(訓練ベクトルv_iには、ランダムラベルg(i)が付された)ものとする。すなわち、以下の関係が成立する。
v₁∈G_g(1), v₂∈G_g(2), …, v_N∈G_g(N)

また、省略可能な構成下では、訓練ベクトルv_iは、クラスC_c(i)に属する(訓練ベクトルv_iには、正解ラベルc(i)が付されている)ものとする。すなわち、以下の関係が成立する。
v₁∈C_c(1), v₂∈C_c(2), …, v_N∈C_c(N)

変換装置1001は、変換モデル1101により、与えられた入力ベクトルxを、特徴ベクトルp(x)に変換する。変換モデル1101としては、CNN(Convolutional Neural Network)のほか、畳み込みを使用しない任意のニューラルネットワークなど、種々のモデルを採用することができる。

さて、第1分類部1003は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第1分類モデル1201により、複数のグループG₁, G₂, …, G_Mのいずれかに分類するものである。実質的には、第1分類部1003は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきグループの添字(ラベル)を出力するものである。第1分類モデルとしては、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。

そして、変換装置1001における第1学習部1004は、複数の訓練ベクトルと、複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データ
(v₁, g(1)),
(v₂, g(2)),
…,
(v_N, g(N))
を生成する(ステップS2003)。第1教師データは、各訓練ベクトルをランダムラベル(グループラベル)に対応付けるものである。

そして、変換装置1001における第1学習部1004は、当該第1教師データにより、変換装置1001における変換モデル1101と、第1分類部1003における第1分類モデル1201と、を学習する(ステップS2004)。

このようにして、変換装置1001における変換モデル1101の学習が行われる。この後は、変換装置1001に入力ベクトルxを与えると、変換装置1001は特徴ベクトルp(x)を出力するようになる。

さて上記のように、以下は、図14では省略される構成である。そこで、適宜図15を参照しながら説明する。すなわち、この構成下では、複数の訓練ベクトルv₁, v₂, …, v_Nは、複数のクラスC₁, C₂, …, C_Lのいずれかにそれぞれ属する。

以下では、変換装置1001に与えられた入力ベクトルに対して、当該入力ベクトルが属すべきクラスを出力するクラス分類の学習段階について説明する。

ここで、第2分類部1005は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第2分類モデル1202により、複数のクラスC₁, C₂, …, C_Lのいずれかに分類するものである。実質的には、第2分類部1005は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきクラスの添字(クラスラベル)を出力するものである。第2分類モデル1202としては、第1分類モデル1201と同様に、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。このほか、第1分類モデル1201と第2分類モデル1202で、同じ構造のニューラルネットワークを採用することもできる。

ここで、変換装置1001の第2学習部1006は、第1学習部1004によって学習された変換モデル1101により、複数の訓練ベクトルが変換装置1001によってそれぞれ変換された特徴ベクトルと、複数の訓練ベクトルがそれぞれ属するクラスと、からなる第2教師データ
(p(v₁), c(1)),
(p(v₂), c(2)),
…,
(p(v_N), c(N))
を生成する(ステップS2005)。ステップS2004における変換モデル1101および第1分類モデル1201の学習においては、訓練ベクトルを特徴ベクトルに変換する。したがって、訓練ベクトルv_i (i=1, 2, …, N)が学習済の変換モデル1101により変換される特徴ベクトルp(v_i)は、ステップS2004における処理で計算済みである。ここでは、この計算済みの特徴ベクトルp(v_i)と、元の訓練ベクトルv_iに対して付された正解ラベルc(i)と、を、第2教師データとして利用する。

そして、第2学習部1006は、第2分類部1005における第2分類モデル1202を学習する(ステップS2006)。

本実施形態に係る変換装置1001では、第2学習部1006における学習では、第2分類モデル1202は更新されるが、変換モデル1101は更新されない点に特徴がある。

なお、第2教師データとして、
(v₁, c(1)),
(v₂, c(2)),
…,
(v_N, c(N))
を採用することも可能である。この場合は、変換装置1001における学習済の変換モデル1101は更新せずに、第2分類モデル1202を更新すれば良い。

さて、第2分類モデル1202が学習された後は、クラス分類を利用する段階に移ることができる。すなわち、新たな入力ベクトルyが変換装置1001に与えられる(ステップS2007)と、
変換装置1001は、学習された変換モデル1101により、新たな入力ベクトルyを新たな特徴ベクトルp(y)に変換し(ステップS2008)、
第2分類部1005は、学習された第2分類モデル1202により、新たな特徴ベクトルp(y)に対するラベルを求めることにより、複数のクラスC₁, C₂, …, C_Lのいずれかに分類する(ステップS2009)。
すなわち、入力ベクトルyは、特徴ベクトルp(y)が分類されたクラスに分類されることになる。

なお、本図では、クラス分類の利用段階(ステップS2007-S2009)は1回だけ実行されているが、入力ベクトルが与えられるごとに、任意の回数実行することが可能である。

また、図16に示すように、ステップS2001-S2004により変換モデルを学習し、ステップS2007-S2008により入力ベクトルを特徴ベクトルに変換することとして、クラス分類の要素は省略することができる。この場合も、特徴ベクトルへの変換は、任意の回数実行することが可能である。

発明者の実験によれば、本実施形態の変換装置1001による分類は、従来のオートエンコーダを用いた分類において、教師データとして
(v₁, c(1)),
(v₂, c(2)),
…,
(v_N, c(N))
を利用した場合に比べて、精度ならびに得られる特徴ベクトルのスパース性が向上することがわかっている。

従来のオートエンコーダでは、教師データに対する過学習が生じてしまうのに対し、本実施形態の変換装置1001では、変換モデル1101の学習時には教師データを参照しないため、過学習が抑制されているものと考えられる。

以下では、変換モデル1101の態様について種々説明する。変換モデル1101は、入力ベクトルを特徴ベクトルに変換するものであり、情報を圧縮するものである。このため、入力ベクトルの次元は、特徴ベクトルの次元より低いものとするのが一般的であった。

本変換装置1001においても、これと同様に、入力ベクトルを次元削減することにより、特徴ベクトルに変換するような変換モデル1101を採用することができる。特徴ベクトルの次元は、ランダムラベルの種類数以上、すなわち、グループの数M以上とすることが望ましい。

また、入力ベクトルをクラスに分類する態様では、特徴ベクトルの次元は、正解ラベルの種類数以上、すなわち、クラスの数L以上とすることが望ましい。

なお、ランダムラベルの種類数Mと、正解ラベルの種類数Lと、の大小については、対象によって性能が異なる。この場合、事前実験によって好適なパラメータを求めることができる。

このほか、分割部1002が訓練ベクトルを複数のグループのそれぞれにランダムに分割する確率は、互いに等しくても良いし、一致しないものがあっても良い。すなわち、各グループに含まれる訓練ベクトルの数は、一致しても良いし、異なっていても良い。これらについても、事前実験によって好適な確率割り当てwo求めることができる。

一方で、本変換装置1001では、特徴ベクトルのスパース性が良好であることがわかっている。したがって、入力ベクトルの次元を増大させることによって、特徴ベクトルへ変換することとしても良い。すなわち、特徴ベクトルの次元数は、入力ベクトルの次元数よりも多いことになる。

本実施形態に係る変換装置1001は、従来特徴ベクトルを得るために使われていたオートエンコーダに置き換わるものとして広く利用することができる。

なお、オートエンコーダでは、入力ベクトルを前半のエンコード部で次元削減して特徴ベクトルを得た後、当該特徴ベクトルを後半のデコード部で次元増大して出力ベクトルを得て、入力ベクトルと出力ベクトルとの差が小さくなるような学習を行う。このため、オートエンコーダのエンコード部により次元圧縮を行う用例に対して本実施形態に係る変換装置1001を適用する際には、エンコード部のフィルタ構成を、そのまま変換装置1001の変換モデル1101に利用することもできる。

(変換装置の実験例)
10種類の事物の写真を分類するCIFAR-10について、オートエンコーダと本実施形態に係る変換装置1001とを比較する実験をおこなった。

入力画像として、32ピクセル×32ピクセル×RGB 3層のカラー画像を利用しているため、入力ベクトルは3072次元となる。

変換装置1001のフィルタ構成は以下の通りである。
input_img = Input((x_train.shape[1], x_train.shape[2], x_train.shape[3]));
x1 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(input_img);
encoded = Flatten()(x1);
x2 = Reshape((16,16,8), input_shape=(2048,))(encoded);
x3 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(x2);
x4 = Flatten()(x3);
last = Dense(L, activation='softmax')(x4);

本実験における変換装置1001では、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNにより、入力ベクトルを2048次元に圧縮して(encoded)、特徴ベクトルを得ている。すなわち、上記のうち、encodedを得るまでが、変換モデルに相当する。

そして、得られた特徴ベクトルを2次元化して(x2)、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNを介した後(x3)、全結合してから、活性化関数softmaxを採用して、L種類のグループに分けている(last)。すなわち、encodedからx3, x4を経てlastに至るまでが、第1分類モデル1201に相当する。

また、本実験では、第2分類モデル1202として、一般的なロジスティック回帰を用いて、2048次元の特徴ベクトルを10種類のクラスに分類した。

従来例のオートエンコーダのエンコーダ部のフィルタ構成は、変換装置1001における変換モデルと同様であり、デコード部のフィルタ構成は、これを逆にしたものである。また、オートエンコーダの学習が済んだ後、特徴ベクトルを分類するために、ロジスティック回帰の学習をした。

また、教師データの数は5万とし、学習が終わったあとに与える入力データの数は1万として、特徴ベクトルの判定精度、スパース性、ならびに、特徴ベクトルを分類するためのロジスティック回帰の学習に要した時間(100試行平均)を調べた。

すると、オートエンコーダでは、以下のような結果が得られた。
判定精度 38.2%
特徴ベクトルにおけるゼロ要素割合 11.8%
ロジスティック回帰の学習時間 6745.6秒

ランダムラベルの種類数、すなわち、グループ数Mを2として、特徴ベクトルを同数(25000ずつ)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 44.8%
特徴ベクトルにおけるゼロ要素割合 55.1%
ロジスティック回帰の学習時間 643.1秒

グループ数Mを2として、特徴ベクトルを異なる要素数(1万と4万)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 44.7%
特徴ベクトルにおけるゼロ要素割合 59.7%
ロジスティック回帰の学習時間 378.8秒

グループ数Lを10として、特徴ベクトルを異なる要素数(2500, 3000, 3500, 4000, 4500, 5550, 6000, 6500, 7000, 7500)のグループに10分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 45.2%
特徴ベクトルにおけるゼロ要素割合 49.7%
ロジスティック回帰の学習時間 798.4秒

上記の結果からわかる通り、特徴ベクトルのスパース性、および、得られた特徴ベクトルに基づく判定精度は、本実施形態に係る変換装置1001の方が優れている。また、本実施形態に係る変換装置1001では、得られる特徴ベクトルがスパースであるため、ロジスティック回帰に要する学習時間も極めて短時間で済む。

このように、CIFAR-10にかかる実験によって、本実施形態に係る変換装置1001の性能を確認することができた。

分類装置101に上記の変換装置1001を適用した場合についても、上記と同様の条件により実験を行った。すなわち、上記したオートエンコーダ(エンコード部は、図2A、および、図2Bの2段目のフィルタまで)、を利用した分類装置101と、当該エンコード部と同じフィルタ構成でランダムなラベルを用いて教師なし学習を行う変換装置1001を利用した分類装置1001と、の比較を行った。なお、グループの数(ランダムラベルの種類数)L=2とした。

実験によれば、分類装置1001を利用することで、得られる圧縮済ベクトル(特徴ベクトル)におけるゼロ要素の割合は45%から55%に増加し、AUCも0.023だけ向上した。また、次元圧縮に要する計算時間は約3分の1となった。したがって、病理画像のような複雑な画像において、変換装置1001の有用性を確認することができた。

(他の応用例)
上記実験では、学習写真、判定写真として前立腺癌の患者の対象部位の病理写真を用い、撮影後1年以内に再発したか否かによるグループ分けを行うこととしていたが、本実施形態が適用できる分野はこれに限られない。すなわち、本実施形態は、学習用、判定用の写真が用意され、学習用の写真についてグループ分けがされていれば、判定用の写真について自動グループ分類を可能とするので、他の用途にも適用可能である。

たとえば、アンティーク着物の状態を判定するのに、本実施形態を適用することができる。すなわち、学習用のアンティーク着物の劣化の度合に応じて、その写真(学習写真)をグループ分けして、分類装置101により学習する。学習が完了したら、調べたいアンティーク着物の写真(判定写真)を分類装置101に与えると、当該アンティーク着物の劣化の度合に応じたグループが推定される。

アンティーク着物では、虫食いなどの目立つ傷は人間が判定できるが、このような目立つ傷以外の部分についても素材が劣化していることが多い。このような劣化は、たとえば「風合いが劣る」などのように感覚的に表現され、いわゆる目利きでなければ区別が困難であったが、本実施形態に係る分類装置101によれば、このような「風合いの劣化の程度」を自動的に分類することができるようになる。

このほか、工業製品の最終検品は、熟練工が行っていることが多いが、本実施形態を当該検品に適用することも可能である。

さらに、航空写真や天体写真の解析にも応用が可能である。たとえば、天体写真から流星群や隕石、超新星爆発の予兆を検知したり、航空写真から石炭、石油、水、金属鉱石等の地下資源や、遺跡、遺物等の地下埋設物の存在を検知したりするのにも、本実施形態を適用することができる。

(まとめ)
以上説明したように、本実施形態に係る分類装置は、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得する取得部、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習する第1学習部、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付ける対応付け部、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
を備える。

また、本実施形態に係る分類装置において、
前記各学習写真S_iに撮影された学習対象を、前記各圧縮済ベクトルv_i,1, v_i,2, …が分類されたクラスC_y(i,1), C_y(i,2), …に対応付けられたグループG_x(y(i,1)), G_x(y(i,2)), …の分布に基づいて、前記複数のグループG₁, G₂, …, G_Lのうち、いずれかのグループに振り分ける第2モデルを学習する第2学習部、
前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG₁, G₂, …, G_Lのうち、いずれのグループに属するかを推定する推定部
をさらに備えるように構成することができる。

また、本実施形態に係る分類装置において、
前記各学習写真S_iに撮影された学習対象を、前記各スコアベクトルu_i,1, u_i,2, …と、前記複数のクラスC₁, C₂, …, C_Mのそれぞれが対応付けられたグループG_x(1), G_x(2), …と、から、前記複数のグループG₁, G₂, …, G_Lの各グループに振り分ける確率を求める第2モデルを学習する第2学習部、
前記複数の判定画像に対して求められたスコアベクトルに基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG₁, G₂, …, G_Lの各グループに属する確率を推定する推定部
をさらに備えるように構成することができる。

また、本実施形態に係る分類装置において、
前記第1モデルでは、
オートエンコーダにより前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類する
ように構成することができる。

また、本実施形態に係る分類装置において、
前記オートエンコーダは、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せである
ように構成することができる。

また、本実施形態に係る分類装置において、
前記複数の圧縮済ベクトルは、M次元のベクトルであり、
前記各圧縮済ベクトルv_i,jの最大要素がk番目の要素であれば、y(i,j)=kとする
ように構成することができる。

また、本実施形態に係る分類装置において、
前記クラスタリングは、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せである
ように構成することができる。

また、本実施形態に係る分類装置において、
前記スコアベクトルu_i,jは、前記クラスC_y(i,j)に対する要素を1、それ以外の要素を0とするベクトルである
ように構成することができる。

また、本実施形態に係る分類装置において、
前記スコアベクトルu_i,jは、前記各クラスC_kに対する要素を、前記圧縮済ベクトルv_i,jと前記各クラスC_kの代表点との近接度とするベクトルである
ように構成することができる。

また、本実施形態に係る分類装置において、
前記複数の圧縮済ベクトルは、M次元のベクトルであり、
前記各圧縮済ベクトルv_i,jに対してsoftmaxを適用することにより、前記スコアベクトルu_i,jを得て、
前記スコアベクトルu_i,jの最大要素がk番目の要素であれば、y(i,j)=kとする
ように構成することができる。

また、本実施形態に係る分類装置において、
前記代表度ベクトルr_hは、
r_h = Σ_i,j|z(i)=h u_i,j
により求められる
ように構成することができる。

また、本実施形態に係る分類装置において、
前記複数のクラスC₁, C₂, …, C_Mの各クラスC_kについて、前記代表度ベクトルr₁, r₂, …, r_Lのそれぞれのk番目の要素r_1,k, r_2,k, …, r_L,kの最大値r_h,kが、要素r_1,k, r_2,k, …, r_L,kから前記最大値r_h,kを除いた要素の分布に対して外れ値であれば、
x(k) = h
であり、そうでなければ、
x(k) = 0
である
ように構成することができる。

また、本実施形態に係る分類装置において、
r_1,k, r_2,k, …, r_L,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、前記最大値r_h,kが超えていれば、前記最大値r_h,kが前記外れ値であるとみなす
ように構成することができる。

また、本実施形態に係る分類装置において、
前記分布から所望の有意水準に基いて定められる閾値をr_h,kが超えていれば、前記最大値r_h,kが前記外れ値であるとみなす
ように構成することができる。

また、本実施形態に係る分類装置において、
前記第2モデルでは、
サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレストにより、入力された対象を、前記複数のグループG₁, G₂, …, G_Lのいずれかに分類する
ように構成することができる。

また、本実施形態に係る分類装置において、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hに対応付けられた各クラスC_k|x(k)=hに分類された前記学習画像および前記グループG_hを、前記学習写真および前記学習対象が属するグループとして、前記取得部に新たに与えることにより、
前記取得部による分割、対応付けおよび取得、
前記第1学習部による学習、
前記対応付け部による対応付け、
前記第2学習部による学習、および、
前記推定部による推定
を新たに実行し、
前記各クラスC_kに分類された前記学習画像が属するとして前記新たに推定されたグループの分布を求め、
前記求められた分布の所定上位に前記グループG_hが含まれていなければ、前記クラスC_kの対応付けを、前記グループG_hから前記他のグループG₀に変更する
ように構成することができる。

また、本実施形態に係る分類装置において、
前記求められた分布の最上位がグループG_hでなければ、前記クラスC_kの対応付けを、前記グループG_hから前記他のグループG₀に変更する
ように構成することができる。

また、本実施形態に係る分類装置において、
前記第1モデルでは、
入力ベクトルを変換モデルにより特徴ベクトルに変換する変換装置により前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類し、
前記変換装置は、
複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
を備える
ように構成することができる。

本実施形態に係る変換装置は、上記の分類装置における変換装置とすることができる。

本実施形態に係る分類方法は、分類装置が、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得し、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習し、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付け、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する。

本実施形態に係るプログラムは、コンピュータを、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得する取得部、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習する第1学習部、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付ける対応付け部、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
として機能させる。

本実施形態に係るプログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。

本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
本願においては、日本国に対して平成30年(2018年)9月26日(水)に出願した特許出願特願2018-181008を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。

101 分類装置
102 取得部
103 第1学習部
104 対応付け部
105 受付部
106 同定部
107 第2学習部
108 推定部
109 変更部
1001 変換装置
1002 分割部
1003 第1分類部
1004 第1学習部
1005 第2分類部
1006 第2学習部
1101 変換モデル
1201 第1分類モデル
1202 第2分類モデル

Claims

複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得する取得部、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習する第1学習部、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付ける対応付け部、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
を備えることを特徴とする分類装置。
前記各学習写真S_iに撮影された学習対象を、前記各圧縮済ベクトルv_i,1, v_i,2, …が分類されたクラスC_y(i,1), C_y(i,2), …に対応付けられたグループG_x(y(i,1)), G_x(y(i,2)), …の分布に基づいて、前記複数のグループG₁, G₂, …, G_Lのうち、いずれかのグループに振り分ける第2モデルを学習する第2学習部、
前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG₁, G₂, …, G_Lのうち、いずれのグループに属するかを推定する推定部
をさらに備えることを特徴とする請求項1に記載の分類装置。
前記各学習写真S_iに撮影された学習対象を、前記各スコアベクトルu_i,1, u_i,2, …と、前記複数のクラスC₁, C₂, …, C_Mのそれぞれが対応付けられたグループG_x(1), G_x(2), …と、から、前記複数のグループG₁, G₂, …, G_Lの各グループに振り分ける確率を求める第2モデルを学習する第2学習部、
前記複数の判定画像に対して求められたスコアベクトルに基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG₁, G₂, …, G_Lの各グループに属する確率を推定する推定部
をさらに備えることを特徴とする請求項1に記載の分類装置。
前記第1モデルでは、
オートエンコーダにより前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類する
ことを特徴とする請求項1に記載の分類装置。
前記オートエンコーダは、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せである
ことを特徴とする請求項4に記載の分類装置。
前記複数の圧縮済ベクトルは、M次元のベクトルであり、
前記各圧縮済ベクトルv_i,jの最大要素がk番目の要素であれば、y(i,j)=kとする
ことを特徴とする請求項4に記載の分類装置。
前記クラスタリングは、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せである
ことを特徴とする請求項4に記載の分類装置。
前記スコアベクトルu_i,jは、前記クラスC_y(i,j)に対する要素を1、それ以外の要素を0とするベクトルである
ことを特徴とする請求項6または7に記載の分類装置。
前記スコアベクトルu_i,jは、前記各クラスC_kに対する要素を、前記圧縮済ベクトルv_i,jと前記各クラスC_kの代表点との近接度とするベクトルである
ことを特徴とする請求項6または7に記載の分類装置。
前記複数の圧縮済ベクトルは、M次元のベクトルであり、
前記各圧縮済ベクトルv_i,jに対してsoftmaxを適用することにより、前記スコアベクトルu_i,jを得て、
前記スコアベクトルu_i,jの最大要素がk番目の要素であれば、y(i,j)=kとする
ことを特徴とする請求項4に記載の分類装置。
前記代表度ベクトルr_hは、
r_h = Σ_i,j|z(i)=h u_i,j
により求められる
ことを特徴とする請求項6に記載の分類装置。
前記複数のクラスC₁, C₂, …, C_Mの各クラスC_kについて、前記代表度ベクトルr₁, r₂, …, r_Lのそれぞれのk番目の要素r_1,k, r_2,k, …, r_L,kの最大値r_h,kが、要素r_1,k, r_2,k, …, r_L,kから前記最大値r_h,kを除いた要素の分布に対して外れ値であれば、
x(k) = h
であり、そうでなければ、
x(k) = 0
である
ことを特徴とする請求項11に記載の分類装置。
r_1,k, r_2,k, …, r_L,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、前記最大値r_h,kが超えていれば、前記最大値r_h,kが前記外れ値であるとみなす
ことを特徴とする請求項12に記載の分類装置。
前記分布から所望の有意水準に基いて定められる閾値をr_h,kが超えていれば、前記最大値r_h,kが前記外れ値であるとみなす
ことを特徴とする請求項13に記載の分類装置。
前記第2モデルでは、
サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレストにより、入力された対象を、前記複数のグループG₁, G₂, …, G_Lのいずれかに分類する
ことを特徴とする請求項2に記載の分類装置。
前記複数のグループG₁, G₂, …, G_Lの各グループG_hに対応付けられた各クラスC_k|x(k)=hに分類された前記学習画像および前記グループG_hを、前記学習写真および前記学習対象が属するグループとして、前記取得部に新たに与えることにより、
前記取得部による分割、対応付けおよび取得、
前記第1学習部による学習、
前記対応付け部による対応付け、
前記第2学習部による学習、および、
前記推定部による推定
を新たに実行し、
前記各クラスC_kに分類された前記学習画像が属するとして前記新たに推定されたグループの分布を求め、
前記求められた分布の所定上位に前記グループG_hが含まれていなければ、前記クラスC_kの対応付けを、前記グループG_hから前記他のグループG₀に変更する
ことを特徴とする請求項2、3または15に記載の分類装置。
前記求められた分布の最上位がグループG_hでなければ、前記クラスC_kの対応付けを、前記グループG_hから前記他のグループG₀に変更する
ことを特徴とする請求項16に記載の分類装置。
前記第1モデルでは、
入力ベクトルを変換モデルにより特徴ベクトルに変換する変換装置により前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類し、
前記変換装置は、
複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
を備えることを特徴とする請求項1に記載の分類装置。
分類装置が、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得し、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習し、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付け、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する
ことを特徴とする分類方法。
コンピュータを、
複数の学習写真S₁, S₂, …の各学習写真S_iを分割した複数の学習画像S_i,1, S_i,2, …を、複数のグループG₁, G₂, …, G_Lのうち前記各学習写真S_iに撮影された学習対象が属するグループG_z(i)に対応付けて取得する取得部、
前記取得された複数の学習画像
S_1,1, S_1,2, …,
S_2,1, S_2,2, …,
…
を次元圧縮した複数の圧縮済ベクトル
v_1,1, v_1,2, …,
v_2,1, v_2,2, …,
…
と、複数のクラスC₁, C₂, …, C_Mのうち、前記複数の学習画像の各学習画像S_i,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルv_i,jが分類されるクラスC_y(i,j)と、前記各圧縮済ベクトルv_i,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルu_i,jと、を求める第1モデルを学習する第1学習部、
前記複数のグループG₁, G₂, …, G_Lの各グループG_hを前記複数のクラスC₁, C₂, …, C_Mのそれぞれが代表する度合を表すM次元の代表度ベクトルr_hを、各グループG_hに対応付けられる圧縮済ベクトルv_i,j|z(i)=hに対して求められたスコアベクトルu_i,j|z(i)=hから求め、前記求められた代表度ベクトルr₁, r₂, …, r_Lにより、前記複数のクラスの各クラスC_kを前記複数のグループG₁, G₂, …, G_Lおよび他のグループG₀のうち、グループG_x(k)に対応付ける対応付け部、
判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
として機能させることを特徴とするプログラム。
請求項20に記載のプログラムが記録された非一時的なコンピュータ読取可能な情報記録媒体。