JP7096218B2

JP7096218B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7096218B2
Application number: JP2019161031A
Authority: JP
Inventors: 一則松本; 啓一郎帆足
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-07-05
Anticipated expiration: 2039-09-04
Also published as: JP2021039580A

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、半教師有り学習と呼ばれる機械学習分野の技術に関する。

例えば、非特許文献１には、データ間の類似度をガウシアンカーネルとして表すことによってデータ多様体の計量を得たうえで、ラベル有りデータからラベル無しデータにラベル伝播を行う方法が開示されている。

また、非特許文献２では、データの隣接関係に基づいてラベル無しデータを学習に利用する半教師有り学習の手法において、データの隣接関係を適切に表すことを目的として、ドロネー三角形分割を多次元に拡張し、データの隣接性を抽出することで広域的な性質を組み込む技術が開示されている。

Zhou, D., Bousquet, O., Lal, N. T., Weston, J., Scholkopf, B. Learning with local and global consistency, Proceeding of Advances in neural information processing systems 2004. 松本一則, 帆足啓一郎, 池田和史, ドロネー分割を用いたラベル伝搬型半教師あり学習の検討, 信学技報 116(209), 211-214, 2016-09-05.

非特許文献２に開示されている技術では、多次元版ドロネー分割によって、広域的なデータも考慮したグラフ構造を得ている。しかしながら、非特許文献１に開示されている技術のような計量をデータ間の類似度として使用する場合、計量の次元数はラベル有り及びラベル無しのデータの総数に等しくなり、次元数が非常に大きくなる。この結果、多次元版のドロネー分割の計算量が膨大になってしまい、現実的な時間での計算が困難となるという問題が生じていた。

本発明はこれらの点に鑑みてなされたものであり、多次元のドロネー分割を利用した半教師有り学習におけるラベル伝搬を実用化するための技術を提供することを目的とする。

本発明の第１の態様は、情報処理装置である。この装置は、属するクラスを示すラベルが付されたラベル有りデータ群と、属するクラスが不明であるラベル無しデータ群とを取得するデータ取得部と、前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出する行列算出部と、前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成する行列圧縮部と、前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をする分割部と、ドロネー分割後の各点の接続関係を隣接行列として取得する隣接行列取得部と、前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させるラベル伝搬部と、を備える。

前記行列算出部は、半定値性を持つ関数を用いて前記計量を算出してもよい。

前記行列算出部は、ガウシアンカーネルを用いて前記計量を算出してもよい。

前記行列圧縮部は、前記計量行列の要素のうち所定の閾値未満の要素を０で置換した後に、疎行列に基づく行列分解を用いて前記圧縮計量行列を生成してもよい。

前記計量行列を構成する計量ベクトルを順に選択するベクトル選択部をさらに備えてもよく、前記行列圧縮部は、前記ベクトル選択部が選択した計量ベクトルの要素のうち所定の閾値以上の要素を抽出するとともに、前記計量行列を構成する他の計量ベクトルも前記計量ベクトルを構成する要素に対応する要素を抽出し、抽出した要素によって構成される行列を前記圧縮計量行列として生成してもよく、前記隣接行列取得部は、前記ベクトル選択部が選択した計量ベクトルに対応する点と他の点との接続関係を前記圧縮計量行列に基づいて特定することにより、前記ベクトル選択部が選択した計量ベクトルに対応する前記隣接行列の要素を決定してもよい。

本発明の第２の態様は、情報処理方法である。この方法において、プロセッサが、属するクラスを示すラベルが付されたラベル有りデータ群を取得するステップと、属するクラスが不明であるラベル無しデータ群を取得するステップと、前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出するステップと、前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成するステップと、前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をするステップと、ドロネー分割後の各点の接続関係を隣接行列として取得するステップと、前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させるステップと、を実行する。

本発明の第３の態様は、プログラムである。このプログラムは、コンピュータに、属するクラスを示すラベルが付されたラベル有りデータ群を取得する機能と、属するクラスが不明であるラベル無しデータ群を取得する機能と、前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出する機能と、前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成する機能と、前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をする機能と、ドロネー分割後の各点の接続関係を隣接行列として取得する機能と、前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させる機能と、を実現させる。

このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、多次元のドロネー分割を利用した半教師有り学習におけるラベル伝搬を実用化することができる。

実施の形態に係る情報処理装置の機能構成を模式的に示す図である。実施の形態に係る分割部が実行するドロネー分割を説明するための図である。実施の形態に係る隣接行列取得部が取得した隣接行列の一例を模式的に示す図である。実施の形態に係る行列算出部が算出する計量行列の一例を模式的に示す図である。実施の形態に係る行列圧縮部が実行する行列圧縮を説明するための図である。実施の形態に係る情報処理装置が実行する情報処理の流れを説明するためのフローチャートである。

＜実施の形態の概要＞
実施の形態に係る情報処理方法は、属するクラスを示すラベルが付されたラベル有り学習データと、属するクラスが不明であるラベル無し学習データとの隣接関係に基づいて、ラベル有り学習データに付されたラベルをラベル無し学習データを構成する各データに伝搬させるための手法に関する。

実施の形態に係る情報処理装置は、まず、ラベル有り学習データとラベル無し学習データとの各学習データを構成するデータ間の類似関係を示す計量行列を生成する。続いて、実施の形態に係る情報処理装置は、生成した計量行列を圧縮してサイズの小さな圧縮計量行列を生成する。次に、実施の形態に係る情報処理装置は、圧縮計量行列を構成する要素に基づいて、ラベル有り学習データとラベル無し学習データとの各学習データのデータ数Ｎと同じ次元のＮ次元空間上に各学習データに対応する点をマッピングし、マッピングした点群に対してＮ次元のドロネー三角形分割を実行する。最後に、実施の形態に係る情報処理装置は、ドロネー三角形分割後の各点の接続関係に基づいて、ラベル有り学習データに付されたラベルをラベル無し学習データを構成する各データに伝搬させる。

［ドロネー三角形分割］
ここで「ドロネー三角形分割」とは、２次元平面上に離散的に分布する点を頂点とする三角形によって２次元平面を漏れなくかつ重なりなく分割する手法の一種である。ドロネー三角形分割によって分割された三角形は以下に記載するような性質を持つ。すなわち、ドロネー三角形分割によって分割された任意の三角形の外接円の内部には、他の三角形を構成する点が含まれないという性質である。

ドロネー三角形分割は、３次元以上の多次元空間における点群を対象とする空間分割手法に拡張できることが知られている。拡張されたドロネー三角形分割では、多次元空間上に離散的に分布する点を頂点とするシンプレックス（Simplex；単体）によって、多次元空間を分割することになる。

例えば、３次元空間におけるシンプレックスは四面体であるため、３次元空間におけるドロネー三角形分割は、３次元空間上に離散的に分布する点を頂点とする四面体で３次元空間を分割することになる。３次元空間におけるドロネー三角形分割を実行すると、任意の四面体の外接球の内部には、他の四面体を構成する点が含まれない。

同様に４次元空間におけるシンプレックスは五胞体であるため、４次元空間におけるドロネー三角形分割は、４次元空間上に離散的に分布する点を頂点とする五胞体で４次元空間を分割することになる。４次元空間におけるドロネー三角形分割を実行すると、任意の五胞体の外接球の内部には、他の五胞体を構成する点が含まれない。

なお、四面体における“超平面”は三角形であり、五胞体における超平面は四面体である。一般に、Ｎ次元のシンプレックスを構成する超平面は、Ｎ－１次元のシンプレックスとなる。

このように、３次元以上の多次元空間における点群を対象とするドロネー三角形分割は、正確には“シンプレックス分割”である。本明細書では２次元以上の多次元空間を対象とする分割を、便宜上単に「ドロネー分割」と記載し、ドロネー分割して得られた２次元又はそれ以上の次元のシンプレックスを、単に「シンプレックス」と記載する。ドロネー分割を実行することによって得られた任意のシンプレックスは、そのシンプレックスの外接超球の内部に他のシンプレックスを構成する点が含まれない。この性質は、既知データが分布する空間全体にわたって成り立つ広域的な性質である。

一般にＮ次元空間におけるドロネー分割の計算量は、Ｎの３乗のオーダーである。機械学習に用いられるデータの数（すなわち、Ｎ次元空間における次元数Ｎ）は、数万から百万のオーダーとなり得るため、そのような場合は現実的な時間での処理が難しくなる。そこで、実施の形態に係る情報処理装置は、ラベル有り学習データとラベル無し学習データとの各学習データを構成するデータ間の類似関係を示す計量行列を圧縮して計算量を削減する。一例として、実施の形態に係る情報処理装置は、計量行列のサイズを百分の一に圧縮する。これにより、多次元空間におけるドロネー分割を現実的な時間で実行することができる。

＜実施の形態に係る情報処理装置１の機能構成＞
図１は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部２と制御部３とを備える。図１において、矢印は主なデータの流れを示しており、図１に示していないデータの流れがあってもよい。図１において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図１に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

記憶部２は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部３は、情報処理装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部２に記憶されたプログラムを実行することによってデータ取得部３０、行列算出部３１、行列圧縮部３２、分割部３３、隣接行列取得部３４、ラベル伝搬部３５、及びベクトル選択部３６として機能する。

なお、図１は、情報処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部３を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

データ取得部３０は、属するクラスを示すラベルが付されたデータ群であるラベル有りデータ群を取得する。ラベル有りデータ群は、例えば記憶部２に格納されている。この場合、データ取得部３０は、ラベル有りデータ群を記憶部２から読み出して取得する。ラベル有りデータ群を構成する各データはベクトルで表現される。このベクトルは、データを特徴付ける複数の特徴量を要素に持つベクトルであってもよい。

データ取得部３０は、属するクラスが不明であるデータ群であるラベル無しデータ群も取得する。ラベル有りデータ群と同様に、ラベル無しデータ群も、例えば記憶部２に格納されている。ラベル無しデータ群を構成する各データは、ラベル有りデータ群を構成する各データと同次元のベクトルで表現されている。

行列算出部３１は、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと、その１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出する。

具体的には、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するデータの総計がＮ（Ｎは２以上の自然数）個であり、それぞれをｘ_１，ｘ_２，・・・，ｘ_Ｎで表すとする。行列算出部３１は、ｘ_１からはじめてｘ_Ｎに到達するまで順番にデータを選択する。いま、行列算出部３１が選択したデータをｘ_ｉとする。行列算出部３１は、ｘ_ｉとｘ_ｉを含む他のデータとの類似度を示す計量を算出する。ｘ_ｉを含む他のデータをｘ_ｊとし、ｘ_ｉとｘ_ｊとの類似度を示す計量をｇ_ｉｊとする。

ｇ_ｉｊ＝Ｆ（ｘ_ｉ，ｘ_ｊ）（１）
式（１）において、Ｆはｘ_ｉとｘ_ｊとの計量を算出するための関数である。関数Ｆの詳細は後述する。

行列算出部３１は、ｘ_ｉ毎に、計量ｇ_ｉｊを要素とする計量ベクトルｇ_ｉを生成する。すなわち、計量ベクトルｇ_ｉは、以下の式（２）で表される。

行列算出部３１は、計量ベクトルｇ_ｉを並べた行列を生成し、計量行列Ｇとする。すなわち、計量行列Ｇは以下の式（３）で表される。

式（３）から明らかなように、計量行列ＧはＮ次の正方行列である。データ取得部３０が取得するラベル有りデータ群とラベル無しデータ群とはいずれも、例えばＤＮＮ（Deep Neural Network）やＳＶＭ（Support Vector Machine）等のいわゆる教師有り学習に用いられるデータである。したがって、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するデータの総計Ｎは、小さくても百のオーダーがあることが多く、大きい場合は百万のオーダーとなる。

そこで、行列圧縮部３２は、計量行列Ｇを構成する各計量ベクトルｇ_ｉの次元Ｎを圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成する。行列圧縮部３２が実行する圧縮処理の詳細は後述するが、行列圧縮部３２は、各計量ベクトルｇ_ｉを圧縮することで、ｍ次元（ｍ＜＜Ｎ）の圧縮計量ベクトルｃ_ｉを生成する。一例として、ｍはＮの百分の一程度である。行列圧縮部３２は、圧縮計量ベクトルｃ_ｉを並べて構成される圧縮計量行列Ｃを生成する。圧縮計量行列Ｃは、以下の式（４）で表される。

なお、ｍ＜Ｎであるため、圧縮計量行列Ｃは正方行列ではない。

分割部３３は、圧縮計量ベクトルｃ_ｉそれぞれの要素を座標とする複数の点を圧縮計量ベクトルｃ_ｉの次元数と同次元の多次元空間にマッピングし、複数の点に対して多次元のドロネー分割をする。

図２（ａ）－（ｂ）は、実施の形態に係る分割部３３が実行するドロネー分割を説明するための図である。具体的には、図２（ａ）は、分割部３３による圧縮計量ベクトルｃ_ｉのマッピング結果を示す図である。また、図２（ｂ）は、分割部３３によるドロネー分割の結果を示す図である。圧縮計量ベクトルｃ_ｉの第１の要素ｆ１を第１の軸、第２の要素ｆ２を第２の軸とすることで、分割部３３は、圧縮計量ベクトルｃ_ｉを２次元空間上の１点にマッピングすることができる。

一般に、圧縮計量ベクトルｃ_ｉの次元は２より大きいが、図示の便宜上、図２（ａ）－（ｂ）は、圧縮計量ベクトルｃ_ｉの次元が２の場合の例を示している。圧縮計量ベクトルｃ_ｉが２次元の場合、圧縮計量ベクトルｃ_ｉは２つの要素ｆ１及びｆ２によって構成される。図２（ａ）に示すように、圧縮計量ベクトルｃ_ｉの１つの要素ｆ１を第１の軸、２つ目の要素ｆ２を第２の軸とすることにより、各圧縮計量ベクトルｃ_ｉは圧縮計量ベクトルｃ_ｉの次元と同じ次元（図２では２次元）の空間中の１点にマッピングされる。

分割部３３は、多次元空間にマッピングした各圧縮計量ベクトルｃ_ｉに対してドロネー分割を実行する。この結果、図２（ｂ）に示すように、多次元空間中にマッピングされた各圧縮計量ベクトルｃ_ｉを頂点とする複数のシンプレックス（図２（ｂ）では三角形）が生成される。すなわち、多次元空間中にマッピングされた各圧縮計量ベクトルｃ_ｉは、それぞれ複数の他の圧縮計量ベクトルｃ_ｉと辺で結ばれることになる。

隣接行列取得部３４は、ドロネー分割後の各点の接続関係を隣接行列として取得する。具体的には、隣接行列取得部３４は、ドロネー分割の結果、互いに辺で直接結ばれた点に対応する圧縮計量ベクトルｃ_ｉ同士は「接続関係有り」、互いに辺で直接結ばれていない点同士を「接続関係無し」とする接続行列を生成して取得する。

図３は、実施の形態に係る隣接行列取得部３４が取得した隣接行列の一例を模式的に示す図である。図３において、破線の矩形で示される領域が隣接行列を示している。

隣接行列は既知の概念であるため詳細な説明を省略するが、多次元空間中にマッピングされた複数の点（頂点）の対が辺（すなわちエッジ）で結ばれているか否かの関係を示す行列である。具体的には、隣接行列の各行を構成するベクトルの要素が、そのベクトルに対応する頂点と、他の頂点との接続関係を示している。このため、隣接行列は、頂点の数と同次元の対称行列となる。

図３に示す例は、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するＮ個のデータｘ_１，ｘ_２，・・・，ｘ_Ｎについて、それぞれが他のベクトルと接続関係がある場合は１、接続関係がない場合は０として表している。具体的には、隣接行列の各行は、それぞれデータｘ_１，ｘ_２，・・・，ｘ_Ｎに関する他のベクトルとの接続関係を示している。例えば、データｘ_１は自分自身との接続関係はないため、データｘ_１に対応する第１行を構成するベクトルの第１列目は０となる。また、データｘ_１はデータｘ_Ｎと接続しているため、図３に示す隣接行列の１行Ｎ列の要素は１となっている。

ラベル伝搬部３５は、隣接行列及びラベル有りデータ群のラベルに基づいて、ラベル無しデータ群を構成する各データにラベルを伝搬させる。なお、隣接行列が既知である場合におけるラベル伝搬の手法は既知であるため、以下では、ラベルが＋１と－１との２クラスである場合について、伝搬アルゴリズムの一例を簡単に説明する。

いま、隣接行列をＷで表す。また、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するＮ個のデータｘ_１，ｘ_２，・・・，ｘ_Ｎそれぞれのラベルをｙで表す。具体的には、ラベル有りデータ群を構成する各データのラベルｙは、＋１又は－１のいずれかである。ラベル無しデータ群を構成する各ベクトルのラベルｙは０とする。

ラベル無しデータ群を構成する各データのラベルｙの予測値をｆとする。ｆは、－１から＋１までの間の実数を取り得る。このとき、予測性能を最大にする目的関数Ｊ（ｆ）は以下の式（５）で示される。

ここで、Ｌ＝Ｄ－Ｗであり、ＤはＷの各行の和を対角成分に持つ行列、λは右辺第１項と第２項とのバランスを取る定数である。

式（５）において、目的関数Ｊ（ｆ）の値を最小化するとき、以下の式（６）が成り立つ。
（１＋λＬ）ｆ＝ｙ（６）

式（５）及び式（６）を用いることで、ラベル伝搬部３５は、隣接行列及びラベル有りデータ群のラベルに基づいて、ラベル無しデータ群を構成する各データにラベルを伝搬させることができる。

実施の形態に係る情報処理装置１は、各計量ベクトルｇ_ｉを圧縮してから多次元空間にマッピングするため、ドロネー分割を実用的な範囲の演算時間で終了することができる。このように、実施の形態に係る情報処理装置１は、多次元のドロネー分割を利用した半教師有り学習におけるラベル伝搬を実用化することができる。

［計量の算出］
行列算出部３１が計量行列Ｇを算出するために用いる関数Ｆについて説明する。
実施の形態に係る行列算出部３１は、半定値性を持つ関数Ｆを用いて各データ間の計量を算出する。半定値性を持つ関数Ｆの例としてはＳＶＭにおけるカーネル関数が挙げられる。具体的には、多項式カーネル、ガウシアンカーネル、双曲線正接カーネル等が挙げられる。以下では、行列算出部３１がガウシアンカーネルを用いて各データ間の計量を算出することを前提として説明する。

上述したように、ラベル有りデータ群とラベル無しデータ群とを構成する各データはベクトルで表現されている。それらをベクトルｘ_１，ｘ_２，・・・，ｘ_Ｎとする。このとき、ガウシアンカーネルを用いる場合の関数Ｆは以下の式（７）で表される。

式（７）において、ｘ_ｉｋは、ベクトルｘ_ｉのｋ番目の要素を示す。ｘ_ｊｋも同様である。

図４は、実施の形態に係る行列算出部３１が算出する計量行列の一例を模式的に示す図である。図４において、破線の矩形で示される領域が計量行列を示している。式（７）に示す関数Ｆの定義から明らかなように、計量ｇ_ｉｊは０以上１以下の値を取り、ベクトルｘ_ｉとベクトルｘ_ｊとが同値の場合（すなわち、最も類似している場合）１となり、ベクトルｘ_ｉとベクトルｘ_ｊとが離れるほど０に近い値となる。図４に示す例では、ベクトルｘ_１はベクトルｘ_Ｎよりもベクトルｘ_２と類似していることを示している。

［計量行列Ｇの圧縮］
続いて、行列圧縮部３２による計量行列Ｇの圧縮について説明する。行列圧縮部３２は、互いに独立な２つの手法を用いて計量行列Ｇを圧縮する。

（第１の手法）
式（７）に示す関数Ｆの定義から明らかなように、計量ｇ_ｉｊは、ベクトルｘ_ｉとベクトルｘ_ｊとが離れるほど急激に０に近づく。したがって、ラベル有りデータ群とラベル無しデータ群とに偏りがないことを前提とすれば、計量行列Ｇの要素は０に近いものが多いと考えられる。

そこで、行列圧縮部３２は、計量行列Ｇの要素のうち所定の閾値未満の要素を０で置換して行列Ｄを生成する。「所定の閾値」とは、行列圧縮部３２がデータ間の接続関係がないと見なすために参照する「接続関係判定時参照閾値」である。接続関係判定時参照閾値の具体的な値は、圧縮効率（すなわち、演算効率）と精度とのバランス、及び式（７）におけるγの値等を考慮して実験により定めればよいが、例えば０．５である。これにより、行列圧縮部３２は、行列算出部３１が算出した計量行列Ｇを疎行列である行列Ｄに変換する。続いて、行列圧縮部３２は、行列Ｄを、疎行列に基づく行列分解を用いて圧縮計量行列Ｃを生成する。

図５（ａ）－（ｂ）は、実施の形態に係る行列圧縮部３２が実行する行列圧縮を説明するための図である。具体的には、図５（ａ）は、一般的な特異値分解を説明するための図であり、図５（ｂ）は、特異値分解を利用したベクトルの圧縮を説明するための図である。

図５（ａ）に示すように、行列圧縮部３２が行列Ｄに対して特異値分解を実行することにより、行列Ｄは、左特異ベクトルを並べて構成される行列Ｓと、特異値を対角成分に持つ行列Σと、右特異ベクトルを並べて構成される行列Ｖ^Ｔ（Ｔは行列の転置）とに分解される。なお、図５（ａ）は一般的な特異値分解を説明するための図であるため行列Ｄは行の長さと列の長さとが異なるように図示しているが、計量行列Ｇは正方行列であるため、行の長さと列の長さとは等しい。

行列Σの対角成分は、特異値を大きい順に並べて構成されている。行列圧縮部３２は、所定の値以下となる特異値を切り捨てることにより、新たな行列Σ’を生成する。行列Σ’は、行列Σと比較して、行の長さが短い。

行列圧縮部３２は、左特異ベクトルを並べて構成される行列Ｓに行列Σ’を乗算することで、新たな行列Ｄ’を算出する。行列Ｄ’は、行列Ｄと比較すると、行の長さが短くなっている。行列Ｄ’の列の長さは行列Ｄと同じであり、ラベル有りデータ群とラベル無しデータ群とを構成する各データの数と等しい。行列圧縮部３２は、行列Ｄ’を構成するｉ番目の行ベクトルを、圧縮計量ベクトルｃ_ｉとする。これにより、行列圧縮部３２は、計量行列Ｇの行方向のサイズを圧縮することができる。

（第２の手法）
続いて、行列圧縮部３２による計量行列Ｇの圧縮の第２の手法について説明する。

計量行列Ｇの圧縮の第２の手法の概要は、計量ベクトルｇ_ｉの接続関係を決定する際には、多次元空間において計量ベクトルｇ_ｉの近傍に存在する計量ベクトルｇ_ｊのみを選択して決定するというものである。

これを実現するために、ベクトル選択部３６は、まず計量行列Ｇを構成する計量ベクトルｇ_ｉを順に選択する。計量ベクトルｇ_ｉの各要素は、他の計量ベクトルｇ_ｊとの類似度を表している。そこで、行列圧縮部３２は、ベクトル選択部３６が選択した計量ベクトルｇ_ｉの要素のうち所定の閾値以上の要素を抽出する。ここで、所定の閾値とは、行列圧縮部３２が計量ベクトルｇの対が近傍であるかどうか、言い換えると、計量ベクトルｇの対が類似しているか否かを判定するために参照する「近傍判定用閾値」である。近傍判定用閾値の具体的な値は、圧縮効率（すなわち、演算効率）と精度とのバランスや、計量の算出に用いる関数Ｆの値域等を考慮して実験により定めればよい。

行列圧縮部３２は、計量行列Ｇを構成する他の計量ベクトルｇ_ｊも計量ベクトルｇ_ｉを構成する要素に対応する要素を抽出し、抽出した要素によって構成される行列を計量ベクトルｇ_ｊに関する圧縮計量行列Ｃ_ｉとして生成する。

例えば、ベクトル選択部３６が、ベクトルｘ_１に対応する計量ベクトルｇ_１を選択したとする。行列圧縮部３２が、計量ベクトルｇ_１を構成する要素（ｇ_１１，ｇ_１２，・・・，ｇ_１Ｎ）の中から近傍判定用閾値以上の要素を抽出した結果、１番目、５番目、及びＮ番目の要素であるｇ_１１，ｇ_１５，及びｇ_１Ｎが抽出されたとする。この場合、圧縮計量ベクトルｃ_１は、ｃ_１（ｇ_１１，ｇ_１５，ｇ_Ｎ）となる。行列圧縮部３２は、残りの計量ベクトルｃ_ｊ（計量ベクトルｇ_２から計量ベクトルｇ_Ｎ）についても１番目、５番目、及びＮ番目の要素を抽出して圧縮計量ベクトルｃ_ｊを生成する。これにより、行列圧縮部３２は、計量ベクトルｇ_１に関する圧縮計量行列Ｃ_１を生成する。

ベクトル選択部３６が計量ベクトルｇ_ｉを選択する度に、行列圧縮部３２は、選択された計量ベクトルｇ_ｉに対応する圧縮計量行列Ｃ_ｉを生成する。隣接行列取得部３４は、ベクトル選択部３６が選択した計量ベクトルｇ_ｉに対応する点と他の点との接続関係を圧縮計量行列Ｃ_ｉに基づいて特定することにより、ベクトル選択部３６が選択した計量ベクトルｇ_ｉに対応する隣接行列の要素を決定する。

これにより、情報処理装置１は、各計量ベクトルｇについて、その計量ベクトルｇの近傍にある計量ベクトルｇのみを用いて隣接行列を決定することができる。ゆえに、すべての計量ベクトルｇの接続関係を特定する場合と比較して、情報処理装置１は、隣接行列の算出に要する演算時間を短縮することができる。

（第１の手法と第２の手法との関係）
上述した計量行列Ｇの圧縮に関する第１の手法と第２の手法とは互いに独立している。したがって、行列圧縮部３２は、第１の手法と第２の手法とを併用することができる。具体的には、行列圧縮部３２は、第１の手法を用いて算出した行列に対して、さらに第２の手法を用いて圧縮することができる。

＜情報処理装置１が実行する情報処理方法の処理フロー＞
図６は、実施の形態に係る情報処理装置１が実行する情報処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

データ取得部３０は、属するクラスを示すラベルが付されたラベル有りデータを取得する（Ｓ２）。また、データ取得部３０は、属するクラスが不明であるラベル無しデータ群を取得する（Ｓ４）。

行列算出部３１は、ラベル有りデータ群とラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと、その１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルｇを、データ毎に並べて構成される計量行列Ｇを算出する（Ｓ６）。

行列圧縮部３２は、計量行列Ｇを構成する各計量ベクトルｇの次元を圧縮した圧縮計量ベクトルｃを並べて構成される圧縮計量行列Ｃを生成する（Ｓ８）。分割部３３は、圧縮計量ベクトルｃそれぞれの要素を座標とする複数の点を圧縮計量ベクトルｃの次元数と同次元の多次元空間にマッピングし、複数の点に対して多次元のドロネー分割を実行する（Ｓ１０）。

隣接行列取得部３４は、分割部３３によるドロネー分割後の各点の接続関係を隣接行列として取得する（Ｓ１２）。ラベル伝搬部３５は、隣接行列及びラベル有りデータ群のラベルに基づいて、ラベル無しデータ群を構成する各データにラベルを伝搬させる（Ｓ１４）。

ラベル伝搬部３５がラベル無しデータ群を構成する各データにラベルを伝搬させると、本フローチャートにおける処理は終了する。

＜実施の形態に係る情報処理装置１が奏する効果＞
以上説明したように、実施の形態に係る情報処理装置１によれば、多次元のドロネー分割を利用した半教師有り学習におけるラベル伝搬を実用化することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。

１・・・情報処理装置
２・・・記憶部
３・・・制御部
３０・・・データ取得部
３１・・・行列算出部
３２・・・行列圧縮部
３３・・・分割部
３４・・・隣接行列取得部
３５・・・ラベル伝搬部
３６・・・ベクトル選択部

Claims

属するクラスを示すラベルが付されたラベル有りデータ群と、属するクラスが不明であるラベル無しデータ群とを取得するデータ取得部と、
前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出する行列算出部と、
前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成する行列圧縮部と、
前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をする分割部と、
ドロネー分割後の各点の接続関係を隣接行列として取得する隣接行列取得部と、
前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させるラベル伝搬部と、
を備える情報処理装置。
前記行列算出部は、半定値性を持つ関数を用いて前記計量を算出する、
請求項１に記載の情報処理装置。
前記行列算出部は、ガウシアンカーネルを用いて前記計量を算出する、
請求項１又は２に記載の情報処理装置。
前記行列圧縮部は、前記計量行列の要素のうち所定の閾値未満の要素を０で置換した後に、疎行列に基づく行列分解を用いて前記圧縮計量行列を生成する、
請求項３に記載の情報処理装置。
前記計量行列を構成する計量ベクトルを順に選択するベクトル選択部をさらに備え、
前記行列圧縮部は、前記ベクトル選択部が選択した計量ベクトルの要素のうち所定の閾値以上の要素を抽出するとともに、前記計量行列を構成する他の計量ベクトルも前記計量ベクトルを構成する要素に対応する要素を抽出し、抽出した要素によって構成される行列を前記圧縮計量行列として生成し、
前記隣接行列取得部は、前記ベクトル選択部が選択した計量ベクトルに対応する点と他の点との接続関係を前記圧縮計量行列に基づいて特定することにより、前記ベクトル選択部が選択した計量ベクトルに対応する前記隣接行列の要素を決定する、
請求項３又は４に記載の情報処理装置。
プロセッサが、
属するクラスを示すラベルが付されたラベル有りデータ群を取得するステップと、
属するクラスが不明であるラベル無しデータ群を取得するステップと、
前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出するステップと、
前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成するステップと、
前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をするステップと、
ドロネー分割後の各点の接続関係を隣接行列として取得するステップと、
前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させるステップと、
を実行する情報処理方法。
コンピュータに、
属するクラスを示すラベルが付されたラベル有りデータ群を取得する機能と、
属するクラスが不明であるラベル無しデータ群を取得する機能と、
前記ラベル有りデータ群と前記ラベル無しデータ群とのそれぞれを構成するデータ中の１つのデータと当該１つのデータを含む他のデータとの間の類似度を示す計量を要素とする計量ベクトルを、データ毎に並べて構成される計量行列を算出する機能と、
前記計量行列を構成する各計量ベクトルの次元を圧縮した圧縮計量ベクトルを並べて構成される圧縮計量行列を生成する機能と、
前記圧縮計量ベクトルそれぞれの要素を座標とする複数の点を前記圧縮計量ベクトルの次元数と同次元の多次元空間にマッピングし、前記複数の点に対して多次元のドロネー分割をする機能と、
ドロネー分割後の各点の接続関係を隣接行列として取得する機能と、
前記隣接行列及び前記ラベル有りデータ群のラベルに基づいて、前記ラベル無しデータ群を構成する各データにラベルを伝搬させる機能と、
を実現させるプログラム。