JP6663323B2 - データ処理方法、データ処理装置、及びプログラム - Google Patents

データ処理方法、データ処理装置、及びプログラム Download PDF

Info

Publication number
JP6663323B2
JP6663323B2 JP2016150717A JP2016150717A JP6663323B2 JP 6663323 B2 JP6663323 B2 JP 6663323B2 JP 2016150717 A JP2016150717 A JP 2016150717A JP 2016150717 A JP2016150717 A JP 2016150717A JP 6663323 B2 JP6663323 B2 JP 6663323B2
Authority
JP
Japan
Prior art keywords
data
class
data processing
unit
belongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016150717A
Other languages
English (en)
Other versions
JP2018018460A (ja
Inventor
一則 松本
一則 松本
啓一郎 帆足
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016150717A priority Critical patent/JP6663323B2/ja
Priority to US15/658,993 priority patent/US20180032912A1/en
Publication of JP2018018460A publication Critical patent/JP2018018460A/ja
Application granted granted Critical
Publication of JP6663323B2 publication Critical patent/JP6663323B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ処理方法、データ処理装置、及びプログラムに関し、特に機械学習に用いられるデータを簡約化する技術に関する。
近年、ニューラルネットワーク、サポートベクタマシン、ブースティング等の教師付き機械学習手法が急激に発達してきている。これらの機械学習手法は一般に、学習に用いる訓練データが多いほど汎化能力の高い学習結果が得られる傾向にある。一方で、学習に用いる訓練データが多いほど学習に要する時間が増大する。そのため、例えば本願の発明者は、サポートベクタマシンに用いる複数個の訓練データを選択し、その中から1個の最適訓練ベクトルを求める手順を繰り返し行うことにより、訓練データを簡約化する手法を過去に提案している(特許文献1)。
特許第5291478号公報
教師付き機械学習手法に用いられる訓練データは、各訓練データが属するクラスが定められている。教師付き機械学習は、いわば与えられた訓練データのクラスを判別するための判別基準を定める手続きともいえる。したがって、訓練データを簡約化することは訓練データを変更することになるため、教師付き機械学習による判別基準の生成に大きな影響を及ぼしかねない。このような背景から、訓練データの簡約化の妥当性を高めることが望まれている。
そこで、本発明はこれらの点に鑑みてなされたものであり、教師付き機械学習手法で用いられるデータの簡約化処理の妥当性を高める技術を提供することを目的とする。
本発明の第1の態様は、プロセッサが実行するデータ処理方法である。このデータ処理方法は、属するクラスが既知である複数のデータのそれぞれを、2以上の特徴量を用いてN(Nは2以上の整数又は無限)次元の特徴空間の1点に写像するステップと、前記特徴空間に写像された前記複数のデータに対応する点の集合を、各点を頂点とする複数のN次元のシンプレックスに分割するステップと、分割により得られた各シンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に分類するステップと、分類された部分集合それぞれについて、当該部分集合の要素を簡約化するステップと、を含む。前記分割するステップにおいて、各シンプレックスに外接する超球の内部に他のシンプレックスを構成する点が含まれないように、複数のシンプレックスに分割する。
前記簡約化するステップにおいて、分類した前記部分集合のそれぞれを構成する要素のうち、前記特徴空間におけるユークリッド距離が最短となる2つの要素を1つの新たな要素に簡約してもよい。
前記簡約化するステップにおいて、簡約化によって得られた新たな要素のクラスを、簡約化の対象とした2つの要素が属するクラスと同一としてもよく、前記簡約化するステップにおいて得られた新たな要素を含む複数のデータについて、前記分割するステップ、前記分類するステップ、及び前記簡約化するステップを繰り返す反復ステップをさらに含んでもよい。
前記データ処理方法は、前記簡約化したデータを機械学習することにより、任意のデータの属するクラスを識別するための識別器を生成するステップをさらに含んでもよい。
前記生成するステップにおいて、サポートベクタマシンを用いて機械学習してもよい。
前記写像するステップにおいて、それぞれの属するクラスが既知である複数の訓練データの中からサポートベクタマシンを用いて機械学習することによって選択されたデータである複数のサポートベクタを、前記複数のデータとして写像しもよい。
本発明の第2の態様はデータ処理装置である。この装置は、属するクラスが既知である複数のデータを格納するデータベースと、2以上の特徴量を用いて前記複数のデータのそれぞれをN(Nは2以上の整数又は無限)次元の特徴空間の1点に写像する写像部と、前記特徴空間に写像された前記複数のデータに対応する点の集合を、各点を頂点とする複数のN次元のシンプレックスに分割するデータ分割部と、分割により得られた各シンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に分類する分類部と、分類された部分集合それぞれについて、当該部分集合の要素を簡約するデータ簡約部と、を備える。前記データ分割部は、各シンプレックスに外接する超球の内部に他のシンプレックスを構成する点が含まれないように、複数のシンプレックスに分割する。
本発明の第3の態様は、コンピュータにデータ処理機能を実現させるためのプログラムである。このプログラムは、コンピュータに、属するクラスが既知である複数のデータのそれぞれを、2以上の特徴量を用いてN(Nは2以上の整数又は無限)次元の特徴空間の1点に写像する機能と、前記特徴空間に写像された前記複数のデータに対応する点の集合を、各点を頂点とする複数のN次元のシンプレックスに分割する機能と、分割により得られた各シンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に分類する機能と、分類された部分集合それぞれについて、当該部分集合の要素を簡約する機能と、を実現させる。前記分割する機能において、各シンプレックスに外接する超球の内部に他のシンプレックスを構成する点が含まれないように、複数のシンプレックスに分割する。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、システム、コンピュータプログラム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、教師付き機械学習手法に用いられるデータの簡約化処理の妥当性を高める技術を提供することができる。
実施の形態に係るデータ処理装置の機能構成を模式的に示す図である。 実施の形態に係るデータ処理装置が実行する既知データの簡約化処理を説明するための図である。 実施の形態に係るデータ簡約部による簡約化処理を説明するための図である。 実施の形態に係るデータ簡約部による簡約化処理を説明するための別の図である。 実施の形態に係るデータ処理装置が実行するデータ簡約化処理の流れを説明するためのフローチャートである。
<サポートベクタマシンの概要>
実施の形態に係るデータ処理技術の前提となる機械学習について、サポートベクタマシン(Support Vector Machine;以下、「SVM」と記載する)を例とし、その概要についてまず説明する。
SVMは教師付き機械学習手法の一種であり、線形入力素子を利用して2つのクラスの識別器を生成する手法である。SVMの主要なタスクは、−1又は+1のラベルyを持つl個の訓練用データx(ここで、i=1,2,・・・,l)が与えられた場合に、次の(1)式の制約二次計画問題(QP問題)を解くことである。なお、−1のラベルyが付された訓練用データxと、+1のラベルyが付された訓練用データxとが、上述した2つのクラスのデータに対応する。
Figure 0006663323
訓練データを構成する各要素は、複数の特徴量によって多次元の特徴空間上の1点に写像される。このため各訓練用データは特徴空間上の位置ベクトルxを用いて特定できる。そこで、以下訓練データを構成する各要素を、特徴空間上のベクトルxを用いて参照する。すなわち、ある訓練データが特徴空間上の位置ベクトルxに写像される場合、その訓練データを「ベクトルx」と表現する。
(1)式におけるK(x,x)は、特徴空間上の二つのベクトルxとx間の内積を計算するカーネル関数であり、C(i=1,2,・・・,l)は前記与えられた訓練用データ中のノイズの入った訓練用データにペナルティを課すパラメータである。
上記の問題を解くことは、訓練用データの数lが大きくなると、次のような3つの問題が起きてくる。
1)カーネルマトリックKij=K(x,x)、(ここに、i,j=1,2,・・・,l)を蓄積するメモリの容量の問題。すなわち、カーネルマトリックスのデータ量は、通常のコンピュータのメモリ容量を超えてしまうという問題。
2)カーネル値Kij(i,j=1,2,・・・,l)をコンピュータで計算するのが複雑であるという問題。
3)QP問題をコンピュータで解くのが複雑であるという問題。
テストフェーズ、すなわち教師データを用いて生成された識別子を用いて未知データxのクラスを検証するフェーズでは、SVMの決定関数f(x)は以下の(2)式で表され、サポートベクタと呼ばれるNs個の訓練用データx(i=1,2,・・・,Ns)から選択されたデータによって構成される。
Figure 0006663323
(2)式において、f(x)>0であれば、未知データxはラベルが正のクラスに分類される。同様に、f(x)<0であれば、未知データxはラベルが負のクラスに分類される。
(2)式におけるSVMの決定関数f(x)の複雑度は、サポートベクタの個数Nsが増えるとともに線形に増大する。この個数が大きくなると、テストフェーズでのSVMの計算速度は、カーネル値K(x,x)(i=1,2,・・・,Ns)の計算量が増大するために遅くなる。
以上をまとめると、訓練データの数lが多くなると識別器を生成するための訓練にかかる時間が増大する。また、識別器として得られるサポートベクタの数が多くなると、テストフェーズにおいて未知データの識別にかかる時間が増大する。
ここで、訓練データとして用意された複数のデータは、それぞれ属するクラス、すなわち上述のラベルyの値が既知である。この訓練データからSVMの学習手法によって選択された1以上のサポートベクタもまた、属するクラスが既知である。なぜなら、サポートベクタはそれぞれの属するクラスが既知である複数の訓練データの中から、選択されたデータであるからである。したがって以下本明細書において、訓練データ及び識別器であるサポートベクタを特に区別する場合を除いて、属するクラスが既知であるデータを単に「既知データ」と記載する。
本願の発明者は過去に、SVMの演算を高速化するために、N個の訓練データを低減ベクトルと呼ばれるM個(M<<N)の訓練データに簡約化する手法を提案している。ここで、訓練データもサポートベクタも既知データであるから、上記の簡約化手法はサポートベクタの簡約にも適用できる。
一方で、訓練データを簡約化することは教師付き機械学習による判別基準(SVMであればサポートベクタ)の生成に大きな影響を及ぼしうるため、訓練データの簡約化の妥当性を高めることが好ましい。
<実施の形態の概要>
実施の形態に係るデータ処理方法は、訓練データ及びサポートベクタを含む既知データを簡約化する際に、簡約化の対象とする既知データを選択するための手法に関する。
実施の形態に係るデータ処理装置は、既知データをそれぞれ特徴空間上の点に写像し、写像した点群に対して多次元におけるドロネー三角形分割を実行する。
ここで「ドロネー三角形分割」とは、2次元平面上に離散的に分布する点を頂点とする三角形によって2次元平面を漏れなくかつ重なりなく分割する手法の一種である。ドロネー三角形分割によって分割された三角形は以下に記載するような性質を持つ。すなわち、ドロネー三角形分割によって分割された任意の三角形の外接円の内部には、他の三角形を構成する点が含まれないという性質である。
ドロネー三角形分割は、3次元以上の多次元空間における点群を対象とする空間分割手法に拡張できることが知られている。拡張されたドロネー三角形分割では、多次元空間上に離散的に分布する点を頂点とするシンプレックス(Simplex;単体)によって、多次元空間を分割することになる。
例えば、3次元空間におけるシンプレックスは四面体であるため、3次元空間におけるドロネー三角形分割は、3次元空間上に離散的に分布する点を頂点とする四面体で3次元空間を分割することになる。3次元空間におけるドロネー三角形分割を実行すると、任意の四面体の外接球の内部には、他の四面体を構成する点が含まれない。
同様に4次元空間におけるシンプレックスは五胞体であるため、4次元空間におけるドロネー三角形分割は、3次元空間上に離散的に分布する点を頂点とする五胞体で4次元空間を分割することになる。4次元空間におけるドロネー三角形分割を実行すると、任意の五胞体の外接球の内部には、他の五胞体を構成する点が含まれない。
なお、四面体における“超平面”は三角形であり、五胞体における超平面は四面体である。一般に、N次元のシンプレックスを構成する超平面は、N−1次元のシンプレックスとなる。
このように、3次元以上の多次元空間における点群を対象とするドロネー三角形分割は、正確には“シンプレックス分割”である。本明細書では2次元以上の多次元空間を対象とする分割を、便宜上単に「ドロネー分割」と記載し、ドロネー分割して得られた2次元又はそれ以上の次元のシンプレックスを、単に「シンプレックス」と記載する。ドロネー分割を実行することによって得られた任意のシンプレックスは、そのシンプレックスの外接超球の内部に他のシンプレックスを構成する点が含まれない。この性質は、既知データが分布する空間全体にわたって成り立つ広域的な性質である。
実施の形態に係るデータ処理装置は、特徴空間上に離散的に分布した既知データに対して多次元ドロネー分割を実行して結果得られた各シンプレックスの超平面を、簡約化の対象とする。このように実施の形態に係るデータ処理装置は、特徴空間上に分布した既知データを、ドロネー分割を利用して分類した後に簡約化を実行する。このため、単に特徴空間における2つの既知データの距離といった局所的な情報ではなく、ドロネー分割の広域的な性質を簡約化に組み込むことができる。故に、機械学習手法に用いられるデータの簡約化処理の妥当性が高まると考えられる。
以下、実施の形態に係るデータ処理装置についてより詳細に説明する。なお、以下では、データ処理装置1はSVMの手法を用いて機械学習を実行することを前提とする。
<データ処理装置の機能構成>
図1は、実施の形態に係るデータ処理装置1の機能構成を模式的に示す図である。実施の形態に係るデータ処理装置1は、データ処理装置1とデータベース20とを備える。データ処理装置1は、写像部11、データ分割部12、分類部13、データ簡約部14、訓練部15、未知データ取得部16、及び検証部17を含む。またデータベース20は、訓練データデータベース21及びサポートベクタデータベース22を含む。
データ処理装置1は、例えばPC(Personal Computer)やサーバ等、CPU(Central Processing Unit)及びメモリ等の計算リソースを持つコンピュータである。データ処理装置1はデータ処理装置1のCPUであり、コンピュータプログラムを実行することによって写像部11、データ分割部12、分類部13、データ簡約部14、訓練部15、未知データ取得部16、及び検証部17として機能する。
データベース20は、例えばHDD(Hard Disc Drive)やSSD(Solid State Drive)等の既知の大容量記憶装置である。データベース20に含まれる訓練データデータベース21とサポートベクタデータベース22とはいずれも、複数の既知データを格納するデータベースである。
より具体的には、訓練データデータベース21は、属するクラスが既知である複数の訓練データを記憶している。サポートベクタデータベース22は、SVMを用いて訓練データから生成されたサポートベクタを記憶している。データベース20はこの他、データ処理装置1を制御するためのオペレーティングシステムや、データ処理装置1に各部の機能を実現させるためのコンピュータプログラム、SVMで用いるための複数の特徴量も記憶している。
写像部11は、2以上の特徴量を用いてデータベース20が記憶している複数の既知データのそれぞれをN次元の特徴空間の1点に写像する。ここでNは2以上の整数又は無限であり、(1)式におけるK(x,x)の種類によって異なる。
データ分割部12は、写像部11が特徴空間に写像した複数のデータに対応する点の集合を、ドロネー分割の手法を用いて各点を頂点とする複数のN次元のシンプレックスに分割する。より具体的には、データ分割部12は、各シンプレックスに外接する超球の内部に他のシンプレックスを構成する点が含まれないように、複数のシンプレックスに分割する。
分類部13は、データ分割部12によるドロネー分割によって得られた各シンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に分類する。データ簡約部14は、分類部13が分類した部分集合それぞれについて、当該部分集合の要素を簡約する。
図2(a)−(d)は、実施の形態に係るデータ処理装置1が実行する既知データの簡約化処理を説明するための図である。なお、図示の便宜上、図2(a)−(d)は、特徴量f1と特徴量f2との二つの特徴量によって張られた2次元の特徴空間上に、既知データを写像した場合の例を示している。しかしながら、特徴空間の次元は一般には2次元よりも大きい。
図2(a)は、写像部11が特徴量f1と特徴量f2とを用いて既知データを2次元の特徴空間に写像した場合の特徴空間を模式的に示す図である。図2(a)において、白丸は正のラベル、すなわちyの値が+1である既知データを示している。また、図2(a)において、黒丸は負のラベル、すなわちyの値が−1である既知データを示している。
図2(b)は、図2(a)に示された点群に対してデータ分割部12がドロネー分割を実行した結果を示す図である。図2(b)に示すように、データ分割部12は各点をそのラベルの値によって区別せずに、ドロネー分割を実行する。このため図2(b)に示すように、シンプレックス(図2(b)では三角形)を構成する辺は、両端が白丸の辺、両端が黒丸の辺、及び一方が白丸であり他方が黒丸の辺の3種類が存在する。
なお、2次元のシンプレックスにおける辺は、多次元のシンプレックスにおける超平面に対応する。2次元のシンプレックスの場合と同様に、多次元のシンプレックスにおける超平面は、正のラベルを持つデータに対応する点のみから構成されるもの、負のラベルを持つデータに対応する点のみから構成されるもの、及びどちらの点も含むもの、の3種類が存在する。
図2(c)は、図2(b)に示されたシンプレックスの超平面(すなわち、三角形の辺)に対して、分類部13が分類した結果を示す図である。分類部13は、図2(b)における各三角形のそれぞれの辺のうち両端の点の属するクラスが同じ辺を選択することにより、各点を二つの部分集合に分類している。図2(c)において、辺の両端のうち一方が白丸であり他方が黒丸の辺は分類部13が選択しない辺として破線で示している。
図2(d)は、図2(c)に示された選択結果に基づいて、データ簡約部14が簡約化を実行した結果を示す図である。図2(d)に示されるデータの数は図2(a)に示されるデータの数よりも減少している。図2(d)に示されるデータセットを利用することにより、データ処理装置1は、SVMの訓練又はテストの実行速度を上げることができる。
図3は、実施の形態に係るデータ簡約部14による簡約化処理を説明するための図であり、図2(c)及びその一部を拡大した様子を示す図である。
データ簡約部14は、分類部13が分類した部分集合のそれぞれを構成する要素のうち、特徴空間におけるユークリッド距離が最短となる2つの要素を1つの新たな要素に簡約する。例えば図3に示す例において、点P1と点P2との間の距離L12は、点P2と点P3との間の距離L23よりも長い。しかしながら、点P2と点P3とは同一のシンプレックスを構成する点ではないため、データ簡約部14は点P2と点P3とを簡約化の対象とはしない。したがって、単に二つの点のユークリッド距離の短長に基づいて簡約化の対象を決定する従来の手法と比較して、簡約化の結果生成される新たなデータ群は異なるものとなる。
図4は、実施の形態に係るデータ簡約部14による簡約化処理を説明するための別の図である。より具体的には、特徴空間が4次元空間の場合におけるデータ簡約部14の簡約化の処理単位を説明するための図である。特徴空間が4次元空間の場合、シンプレックスは5胞体であり、その超辺は図4に示すような四面体である。
図4に示すシンプレックスの超辺としての四面体は、点V1、点V2、点V3、及び点V4を頂点とする四面体である。このうち、点V1、点V2、及び点V4は黒丸(ラベルの値が負)であり、点V3は白丸(ラベルの値が正)である。この場合、分類部13は、点V1、点V2、及び点V4を負のレベルを持つ点の部分集合として分類し、点V3を正のラベルを持つ点の部分集合として分類する。この例では、正のラベルを持つ点の部分集合の要素は点V3のみであるため、データ簡約部14は簡約化処理の対象とはしない。
正のラベルを持つ点の部分集合には複数の点が含まれるため、データ簡約部14による簡約化処理の対象となる。図4において、点V1と点V2との距離をL12、点V2と点V4との距離をL24、点V4と点V1との距離をL41とすると、L12<L24<L41である。このため、データ簡約部14は、点V1と点V2とを簡約化して一つの新たな点を生成する。なお、簡約化の具体的な手法は既知の手法を用いればよい。
ここでデータ簡約部14は、簡約化によって得られた新たな要素のクラスを、簡約化の対象とした2つの要素が属するクラスと同一とする。図3に示す例では、点V1と点V2とはともに負のラベルを持つ点であるから、データ簡約部14は、簡約化によって得られた新たな要素にも負のラベルを付す。データ簡約部14は、分類部13が分類した部分集合を参照しながら、データ分割部12が分割した全てのシンプレックスの超辺について簡約化処理を実行することにより、新たなデータセットを生成する。データ簡約部14は生成した新たなデータセットを訓練データデータベース21に記憶させる。
なお、図4において点V3と点V4との間の距離であるL34は、L12、L24、及びL41と比較して短い。つまり、図4に示す四面体を構成する辺のうち最短の辺である。しかしながら、点V3と点V4とは異なるラベルを持つため異なる部分集合に分類されているため、データ簡約部14は点V3と点V4とを簡約化して新たな要素とすることはしない。
データ分割部12は、新たなデータセットを対象として再度ドロネー分割を実行する。分類部13は、データ分割部12が再度ドロネー分割することによって得られたシンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に再分類する。データ簡約部14は、分類部13が再分類した部分集合を参照しながら、データ分割部12が新たに分割した全てのシンプレックスの超辺について再度簡約化処理を実行することにより、新たなデータセットを生成する。以上の処理を繰り返すことにより、データ処理装置1は既知データの数を減少することができる。
図1の説明に戻る。訓練部15は、訓練データデータベース21が記憶している訓練データに対してSVMを実行し、任意のデータの属するクラスを識別するための識別器としてサポートベクタを生成する。訓練部15は、生成したサポートベクタをサポートベクタデータベース22に記憶させる。
未知データ取得部16は、属するクラスが未知である未知データを取得する。検証部17は、未知データ取得部16が取得した未知データに対して訓練部15が生成した識別器を適用し、未知データのクラスを識別する。
データ処理装置1は、既知データとして訓練データデータベース21が格納する訓練データを対象として簡約化処理を実行する場合、SVMの実行対象となる訓練データの数を減らすことができる。この場合、データ処理装置1は訓練に要する計算量を減少させることができるので、訓練を高速化することができる。
一方、データ処理装置1が、既知データとしてサポートベクタデータベース22が格納するサポートベクタを対象として簡約化処理を実行する場合、サポートベクタの数を減らすことができる。この場合、データ処理装置1は未知データのクラスを識別する処理であるテスト処理に要する計算量を減少させることができるので、テスト処理を高速化することができる。
<データ簡約化処理の処理フロー>
図5は、実施の形態に係るデータ処理装置1が実行するデータ簡約化処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えばデータ処理装置1の電源が投入された時に開始する。
写像部11は、データベース20から既知データを取得する(S2)。写像部11は、取得した既知データをそれぞれ特徴空間上の1点に写像する(S4)。データ分割部12は、写像部11が特徴空間上に写像した既知データの点群に対しドロネー分割を実行する(S6)。
分類部13は、ドロネー分割によって得られた複数のシンプレックスの超辺を構成する各点を、対応するデータの属するクラス毎の部分集合に分類する(S8)。データ簡約部14は、分類された部分集合それぞれについて、当該部分集合を構成するデータを簡約化する(S10)。データ分割部12は、簡約化によって得られた新たな既知データをデータベース20に記憶させて格納する(S12)。
データ処理装置1は、予め定められた反復回数となるまでは簡約化処理を終了せず(S14のNo)、上述の各処理を継続する。データ処理装置1が予め定められた反復回数の簡約化処理を実行すると(S14のYes)、本フローチャートにおける処理は終了する。
以上説明したように、実施の形態に係るデータ処理装置1によれば、教師付き機械学習手法に用いられるデータの簡約化処理の妥当性を高めることができる。
特に、データ処理装置1が訓練データを対象に簡約化処理を実行した場合、機械学習に要する時間を削減することができる。また、データ処理装置1がサポートベクタを対象に簡約化処理を実行した場合、未知データのクラスを識別するテストフェーズに要する時間を削減することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。特に、装置の分散・統合の具体的な実施の形態は以上に図示するものに限られず、その全部又は一部について、種々の付加等に応じて、又は、機能負荷に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
例えば、上記の例では機械学習として主にSVMを例に説明した。しかしながら、訓練データの簡約化に関しては、例えばニューラルネットワークやブースティング等のSVM以外の他の機械学習手法に対しても適用することができる。
上記では、データ分割部12が特徴空間上に写像されたデータに対してドロネー三角形分割を実行することについて説明した。ここで、ドロネー三角形分割の双対としてボロノイ図が存在する。より具体的には、ドロネー三角形分割によって得られた分割図は、ボロノイ領域の隣接関係を表現している。したがって、ドロネー三角形分割を実行することとボロノイ図を求めることとは1対1の関係がある。この意味で、データ分割部12は特徴空間上に写像されたデータに対してドロネー三角形分割を実行することに代えて、ボロノイ図を求めてもよい。
1・・・データ処理装置
11・・・写像部
12・・・データ分割部
13・・・分類部
14・・・データ簡約部
15・・・訓練部
16・・・未知データ取得部
17・・・検証部
20・・・データベース
21・・・訓練データデータベース
22・・・サポートベクタデータベース

Claims (6)

  1. プロセッサが実行するデータ処理方法であって、
    属するクラスを示すラベルが付された複数のデータのそれぞれを、2以上の特徴量を用いてN(Nは2以上の整数)次元の特徴空間におけるベクトルデータに変換するステップと、
    変換されたベクトルデータそれぞれに対応する点の集合を、ドロネー三角形分割のアルゴリズムにしたがって各点を頂点とする複数のN次元のシンプレックスに分割するステップと、
    分割により得られた各シンプレックスの各超平面を構成する前記点の集合を、属するクラスが同じ点を要素とする部分集合に分類するステップと、
    分類された部分集合それぞれを構成する要素のうち、前記特徴空間におけるユークリッド距離が最短となる2つの要素を1つの新たな要素に簡約化するステップと、
    前記簡約化されたデータを機械学習することにより、任意のデータの属するクラスを識別するための識別器を生成するステップと、を含
    データ処理方法。
  2. 前記簡約化するステップにおいて、簡約化によって得られた新たな要素のクラスを、簡約化の対象とした2つの要素が属するクラスと同一とし、
    前記簡約化するステップにおいて得られた新たな要素を含む複数のデータについて、前記分割するステップ、前記分類するステップ、及び前記簡約化するステップを繰り返す反復ステップをさらに含む、
    請求項に記載のデータ処理方法。
  3. 前記生成するステップにおいて、サポートベクタマシンを用いて機械学習する、
    請求項1又は2に記載のデータ処理方法。
  4. 前記変換するステップにおいて、それぞれの属するクラスが既知である複数の訓練データの中からサポートベクタマシンを用いて機械学習することによって選択されたデータである複数のサポートベクタを、前記ベクトルデータとする、
    請求項1に記載のデータ処理方法。
  5. 属するクラスを示すラベルが付された複数のデータを格納するデータベースと、
    2以上の特徴量を用いて前記複数のデータのそれぞれをN(Nは2以上の整数)次元の特徴空間におけるベクトルデータに変換する写像部と、
    変換されたベクトルデータそれぞれに対応する点の集合を、ドロネー三角形分割のアルゴリズムにしたがって各点を頂点とする複数のN次元のシンプレックスに分割するデータ分割部と、
    分割により得られた各シンプレックスの各超平面を構成する前記点の集合を、属するクラスが同じ点を要素とする部分集合に分類する分類部と、
    分類された部分集合それぞれを構成する要素のうち、前記特徴空間におけるユークリッド距離が最短となる2つの要素を1つの新たな要素に簡約するデータ簡約部と、
    前記簡約化されたデータを機械学習することにより、任意のデータの属するクラスを識別するための識別器を生成する訓練部と、を備え
    データ処理装置。
  6. コンピュータに、
    属するクラスを示すラベルが付された複数のデータのそれぞれを、2以上の特徴量を用いてN(Nは2以上の整数)次元の特徴空間におけるベクトルデータに変換する機能と、
    変換されたベクトルデータそれぞれに対応する点の集合を、ドロネー三角形分割のアルゴリズムにしたがって各点を頂点とする複数のN次元のシンプレックスに分割する機能と、
    分割により得られた各シンプレックスの各超平面を構成する点の集合を、属するクラスが同じ点を要素とする部分集合に分類する機能と、
    分類された部分集合それぞれを構成する要素のうち、前記特徴空間におけるユークリッド距離が最短となる2つの要素を1つの新たな要素に簡約する機能と
    前記簡約化されたデータを機械学習することにより、任意のデータの属するクラスを識別するための識別器を生成する機能と、
    を実現させるプログラム。
JP2016150717A 2016-07-29 2016-07-29 データ処理方法、データ処理装置、及びプログラム Active JP6663323B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016150717A JP6663323B2 (ja) 2016-07-29 2016-07-29 データ処理方法、データ処理装置、及びプログラム
US15/658,993 US20180032912A1 (en) 2016-07-29 2017-07-25 Data processing method, and data processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016150717A JP6663323B2 (ja) 2016-07-29 2016-07-29 データ処理方法、データ処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018018460A JP2018018460A (ja) 2018-02-01
JP6663323B2 true JP6663323B2 (ja) 2020-03-11

Family

ID=61009677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016150717A Active JP6663323B2 (ja) 2016-07-29 2016-07-29 データ処理方法、データ処理装置、及びプログラム

Country Status (2)

Country Link
US (1) US20180032912A1 (ja)
JP (1) JP6663323B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065039A1 (en) * 2019-08-27 2021-03-04 Sap Se Explanations of machine learning predictions using anti-models

Also Published As

Publication number Publication date
US20180032912A1 (en) 2018-02-01
JP2018018460A (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
Imani et al. Bric: Locality-based encoding for energy-efficient brain-inspired hyperdimensional computing
Yu et al. Pu-net: Point cloud upsampling network
Yavartanoo et al. Spnet: Deep 3d object classification and retrieval using stereographic projection
US11556826B2 (en) Generating hyper-parameters for machine learning models using modified Bayesian optimization based on accuracy and training efficiency
US9208278B2 (en) Clustering using N-dimensional placement
JP6863926B2 (ja) データ分析システム及びデータ分析方法
JP7293387B2 (ja) データ分類方法、分類器訓練方法及びシステム
Kolouri et al. Joint dictionaries for zero-shot learning
Cen et al. Open-world semantic segmentation for lidar point clouds
Xiong et al. Diagnose like a pathologist: Transformer-enabled hierarchical attention-guided multiple instance learning for whole slide image classification
Raghuwanshi et al. Classifying imbalanced data using BalanceCascade-based kernelized extreme learning machine
Ji et al. Balance between object and background: Object-enhanced features for scene image classification
Ma et al. RENNSH: A novel\alpha-helix identification approach for intermediate resolution electron density maps
Agarwal et al. Learning embedding of 3d models with quadric loss
Fan et al. RPR-Net: A point cloud-based rotation-aware large scale place recognition network
JP6663323B2 (ja) データ処理方法、データ処理装置、及びプログラム
Yang et al. Submodular reranking with multiple feature modalities for image retrieval
US20220375205A1 (en) Aggregating Nested Vision Transformers
JP7270839B2 (ja) 顔認識のための汎用特徴表現学習
Zhang et al. Cross diffusion on multi-hypergraph for multi-modal 3d object recognition
Peng et al. A general framework for multi-label learning towards class correlations and class imbalance
Liu Hardware-efficient deep learning for 3D point cloud
Bhowmick et al. A comprehensive study and analysis of semi supervised learning techniques
JP5906100B2 (ja) 情報処理装置、情報処理方法、プログラム
Lin et al. Efficient shape classification using region descriptors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200214

R150 Certificate of patent or registration of utility model

Ref document number: 6663323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150