JP7276483B2 - 学習装置、分類装置、学習方法及び学習プログラム - Google Patents

学習装置、分類装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP7276483B2
JP7276483B2 JP2021551101A JP2021551101A JP7276483B2 JP 7276483 B2 JP7276483 B2 JP 7276483B2 JP 2021551101 A JP2021551101 A JP 2021551101A JP 2021551101 A JP2021551101 A JP 2021551101A JP 7276483 B2 JP7276483 B2 JP 7276483B2
Authority
JP
Japan
Prior art keywords
score
index
data
calculation unit
calculates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021551101A
Other languages
English (en)
Other versions
JPWO2021070394A1 (ja
Inventor
泰史 西山
充敏 熊谷
和憲 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021070394A1 publication Critical patent/JPWO2021070394A1/ja
Application granted granted Critical
Publication of JP7276483B2 publication Critical patent/JP7276483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置、分類装置、学習方法及び学習プログラムに関する。
機械学習の手法の1つとして二値分類が知られている。二値分類では、データの特徴量から算出したスコアを基に、例えばメールがスパムメールであるか否か、癌検査で陽性か陰性か、等の分類が行われる。
ここで、二値分類の結果は、Accuracy、Precision、TPR: True Positive Rate、等の様々な性能指標を用いて評価することができる。しかし、これらの性能指標を基準に分類を行うことは必ずしも適切でない場合がある。例えば、99人の健康な患者と1人の癌患者の不均衡な状況に対して分類を行う場合を考える。このとき、100人全員を健康な患者に分類すると、正解率は99%と高くなる。しかしながら、このような結果は、肝心の癌患者を検知できていないため、望ましい結果とはいえない。
これに対し、評価するための指標として、AUC(Area Under the Curve)が知られている。AUCは、ROC(Receiver Operating Characteristic)曲線の下の部分の面積に相当する。そのため、AUCは、検知率(TPR)の大きさ及び誤検知率(FPR: False Positive Rate)の両方を考慮した指標であるといえる。ただし、実用上のいくつかのタスクでは、低誤検知率(FPR)でのTPRが重視される。例えば、癌か否かを判定する場合、誤検知が多いと正常な人に対して癌判定をしてしまうこととなるので、病院で実用化する際には問題となる。よって、実用上はある程度誤検知を抑えた時に(例えばFPRが1%)、どれだけ癌が検知できるか(TPR)が重要となる。このような場合、ある誤検知率のときの(例えばFPRが1%)検知率(TPR)を最大化することが望ましい。つまり、AUCの一部分を最大化する手法が望まれている。この領域のことを一部のAUC(partial AUC)から、以降pAUCと呼ぶこととする。
特開2017-102540号公報 特開2017-126158号公報
しかしながら、従来のpAUCの最大化方法では、対象データの中にスコアが等しいデータが存在する場合、二値分類の評価を適切に行うことが難しい場合があるという問題がある。
例えば、pAUCは、経験分布による近似を用いて求めることができる。このとき、例えば図6に示すように、スコアが等しいデータが存在する場合、経験分布によるpAUCと本来のROC曲線によるpAUCが大きく乖離する場合がある。具体的には、図6のFPRが0.25から0.75の範囲では、FPRの変化に対してTPRが変化しない。一方で、同じ範囲において、本来のROC曲線のTPRはFPRに対して増加していく。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する指標算出部と、前記指標算出部によって算出された指標が最適化されるように、前記パラメータを更新する更新部と、を有することを特徴とする。
本発明によれば、対象データの中にスコアが等しいデータが存在する場合であっても、二値分類の評価を適切に行うことができる。
図1は、第1の実施形態に係る分類装置の構成例を示す図である。 図2は、分類結果を説明するための図である。 図3は、ROC曲線及びAUCの一例を示す図である。 図4は、AUCが等しいが、pAUCが異なる場合の例を示す図である。 図5は、経験分布に関する各部の長さの算出方法を説明するための図である。 図6は、本来のROC曲線のpAUC及び経験分布によるpAUCの一例を示す図である。 図7は、第1の実施形態に係る分類装置の学習処理の流れを示すフローチャートである。 図8は、分類プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係る学習装置、分類装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。また、実施形態における分類装置は、学習装置としても機能する。
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る分類装置の構成について説明する。図1は、第1の実施形態に係る分類装置の構成例を示す図である。分類装置10は、データから抽出した特徴量を基に、当該データを正例又は負例のいずれかに分類する二値モデルの学習を行う。また、分類装置10は、学習済みの二値モデルを使ってテストデータの分類を行うことができる。
本実施形態では、図2に示すように、二値分類モデルの分類結果として、真陽性(TP: True Positive)、偽陽性(FP: False Positive)、偽陰性(FN: False Negative)、真陰性(TN: True Negative)があるものとする。図2は、分類結果を説明するための図である。図2のActualは、真のクラスである。また、Testは二値分類モデルによって推定されたクラスである。また、癌患者及び正常な人(癌ではない人)を、癌患者又は正常な人に分類するタスクにおいて、癌患者(Cancer)及びPositiveは正例である。また、正常な人(Healthy)及びNegativeは負例である。例えば、TPは、二値分類モデルが、正例のデータを正例として正しく分類できたことを示す。また、FPは、二値分類モデルが、負例のデータを正例として誤って分類したことを示す。
また、真陽性率TPRはTP/(TP+FN)であるものとする。すなわち、TPRは、正例のデータに占める、正例に分類されたデータの割合である。一方、偽陽性率FPRはFP/(FP+TN)であるものとする。すなわち、FPRは、負例のデータに占める、正例に分類されたデータの割合である。
次に、図3を用いて、ROC曲線及びAUCについて説明する。図3は、ROC曲線及びAUCの一例を示す図である。ここでは、二値分類モデルを用いて、癌患者及び正常な人(癌でない人)を、癌患者又は正常な人に分類する。また、癌患者を正例とし、+で、正常な人を負例とし、-で表現する。
本例の二値分類モデルでは、癌患者5人と正常な人4人の検査値等からスコアを計算する。スコアが大きいほど癌であることが疑われるものとする。例えば、図3の例では、二値分類モデルは、患者x1 +のスコアを0.99と計算する。また、例えば、二値分類モデルは、患者x2 -のスコアを0.6と計算する。
二値分類モデルは、スコアが閾値以上である患者を癌患者に分類し、スコアが閾値より小さい患者を正常な人に分類する。このとき、閾値を0から1の間で変化させながら、FPRとTPRの関係をプロットしていくと、図3に示すようなROC曲線を得ることができる。また、ROC曲線の下側(斜線部)の面積がAUCに相当する。図3の例では、斜線部の面積は16/20=0.8なので、AUCは0.8である。
ここで、実用上のいくつかのタスクでは、低誤検知率(FPR)領域での検知率(TPR)が重視される。例えば、癌か否かを判定する場合、誤検知が多いと、大量の正常な人に対して癌判定をしてしまうことになるので、実際の病院で実用化する際には問題になりうる。したがって、実用上はある程度誤検知を抑えたときに(例えば誤検知率1%等)、どれだけ癌が検知できるか(検知率)が重要となる。医療用途だけでなく、例えばスパムフィルター、ウイルス対策ソフト等の用途でも、誤検知が多いと無駄に利用者を困らせるだけである。
このような場合、ある誤検知率のときの(例えばFPR=1%)のときの検知率(TPR)を最大化することが望ましい。そこで、AUCの一部分だけを最大化することで、目的の誤検知率での検知率の最大化を目指す手法のことを以降pAUC(partial AUC)最大化問題と呼ぶこととする。図4は、AUCは同じだが、pAUCが異なる場合の例を示す図である。図4に示す2つの経験分布のAUCはいずれも0.8である。しかしながら、FPR=0.1としたときのTPRは、左側では0.4であり、右側では0.6である。また、FPRが0-0.1区間でのpAUC(pAUC[0-0.1]と表記)は左側で0.4、右側で0.6となる。本発明では、このように任意の誤検知率区間での検知率、つまりpAUCを最大化することで、所望の誤検知率での検知率の最大化を目指す。
本実施形態は、二値分類モデルについて、pAUCを最大化するものである。さらに、本実施形態は、対象データの中にスコアが等しいデータが存在する場合であっても、二値分類の評価を適切に行うことを目的とする。なお、pAUCで指定する、任意の誤検知率区間を0から1にとれば、pAUCとAUCが等しくなるため、本発明で議論するpAUC最大化問題はAUC最大化問題にも応用できる。
図1に示すように、分類装置10は、入力部11、学習部12及びテスト部13を有する。入力部11は、データの入力を受け付ける。学習部12は、二値分類モデルの学習を行う。テスト部13は、学習済みの二値分類モデルを用いて、テストデータの分類を行う。
学習部12について説明する。図1に示すように、学習部12は、学習データ取得部121、特徴抽出部122、スコア算出部123、指標算出部124、更新部125、収束判定部126、パラメータ記憶部127を有する。
学習データ取得部121は、入力された学習データを取得する。また、特徴抽出部122は、学習データから特徴を抽出し、特徴ベクトルを生成する。ここで、学習データは、負例又は正例であることが既知の1つ以上のデータである。
例えば、健康か不健康かの分類を行う場合、1日に吸うタバコの本数、BMI、1日あたりの飲酒量等が特徴量に該当する。特徴量は、人によって手動で設計されたものであってもよいし、Deep Learning等で自動的設計されたものであってもよい。また、特徴抽出部122は、N-gramやBag-of-Words等の手法により、特徴量を特徴ベクトルに変換する特徴ベクトル化を行う。
特徴抽出部122によって特徴の抽出が行われた正例のデータセットS+は、S+={(x1 +, y1 +), (x2 +, y2 +)…, (xm +, ym +)}と表される。また、特徴抽出部122によって特徴の抽出が行われた負例のデータセットS-は、S-={(x1 -, y1 -), (x2 -, y2 -)…, (xn -, yn -)}と表される。m、nはそれぞれ正例のデータの数及び負例のデータの数である。ここで、ここで、xp∈RDはp番目のデータ点の特徴量を特徴ベクトル化したものであり(Dは特徴量の次元数を意味する)、yp∈{+, -}はそのクラス(正例又は負例)である。
スコア算出部123は、パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出する。
ここで、wをスコア関数に含まれる二値分類モデルのパラメータベクトル、t∈Rを閾値、f(x;w)をwで定められるスコア関数とする。そして、二値分類モデルは、データ点pのデータxpを、f(xp,w)>tならば正例に分類し、f(xp,w)<tならば負例に分類するものとする。また、pAUCの対象となるFPRの区間は[α,β](0≦<α<β≦1)であるものとする。このとき、TPR、FPR、AUC及びpAUCは、(1-1)式、(1-2)式、(1-3)式、(1-4)式により計算できる。
Figure 0007276483000001
(1-3)では、TPR及びFPRの積分によりAUCが計算されている。一方で、経験分布による近似を行った場合、AUC及びpAUCは、(2-1)式及び(2-2)のように計算される。
Figure 0007276483000002
ここで、jαは、nαを超える又はnαと等しい最小の整数である。また、jβは、nβを超える又はnβと等しい最小の整数である。また、Iはヘビサイドのステップ関数である。また、x(j) -は、スコア関数fを基に算出されたスコアが上位j番目である負例のデータを意味する。
しかしながら、(2-1)式、(2-2)式によって計算されたAUC及びpAUCの近似値は、実際のROC曲線に基づく各値と大きく乖離する場合がある。例えば、図6の例では、x2 +、x3 +、x4 +、x2 -、x3 -のスコアがいずれも0.7であり等しい。このとき、(2-1)式、(2-2)式で計算する場合、FPRが0.25以上0.75未満の範囲で、TPRが不変である。このため、図6の例では、ROC曲線から求めたAUCは11/20=0.55であるのに対し、経験分布から求めたAUCは8/20=0.4となるため、両者は大きく乖離している。また、このようなAUC及びpAUCでは、二値分類モデルをうまく最適化できないことが考えられる。
そこで、本実施形態の指標算出部124は、指定したFPR領域において、正例のスコアが負例のスコアより大きくなればなるほど大きくなる指標であって、当該算出領域のデータのうちスコアが等しいものを考慮して算出する。
指標算出部124は、スコア算出部123によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する。また、指標算出部124は、ROC曲線と偽陽性率の軸とに囲まれる部分の面積を経験分布で近似して、指標として算出する。
まず、図5を用いて、経験分布に関する各部の長さの算出方法を説明する。図5は、経験分布に関する各部の長さの算出方法を説明するための図である。指標算出部124は、符号201で示す部分の長さを(3-1)式により算出する。また、指標算出部124は、符号202で示す部分の長さを(3-2)式により算出する。また、指標算出部124は、符号203で示す部分の長さを(3-3)式により算出する。また、指標算出部124は、符号204で示す部分の長さを(3-4)式により算出する。また、指標算出部124は、符号205で示す部分の長さを(3-5)式により算出する。また、指標算出部124は、符号206で示す部分の長さを(3-6)式により算出する。
Figure 0007276483000003
指標算出部124は、[α,jα/n]区間、[jα/n,jβ/n]区間、[jβ/n,β]区間のそれぞれについてpAUCを計算する。なお、α=0、β=1とすればpAUCはAUCに等しくなるため、以降の説明では、AUC及びpAUCを単にpAUCと呼ぶ。指標算出部124では、各区間の台形の面積を計算する。
指標算出部124は、[α,jα/n]区間のpAUClを、(4)式のように算出する。
Figure 0007276483000004
また、指標算出部124は、[jα/n,jβ/n]区間のpAUCcを、(5)式のように算出する。
Figure 0007276483000005
また、指標算出部124は、[jβ/n,β]区間のpAUCrを、(6)式のように算出する。
Figure 0007276483000006
なお、jα=0の場合、pAUClは0である。また、jβ=nの場合、pAUCrは0である。
また、指標算出部124は、全区間の面積を合わせたpAUCを(7)式のように算出する。
Figure 0007276483000007
このように、指標算出部124は、分類結果を表す真陽性率と偽陽性率を軸とした平面上のROC曲線と偽陽性率の軸とに囲まれる領域のうち、偽陽性率が所定の区間に含まれる部分の面積(partial AUC)に、スコアが所定の値に等しいデータにおける正例のデータの数の負例のデータの数に対する比を掛けた値を指標として算出することができる。
ここで、(3-5)式等に現れる分数部分は、スコアが同じ数になるデータの数を考慮した倍率である。このように、指標算出部124は、スコアの引き分けが生じた場合の、経験分布によるpAUCと、実際のROC曲線のpAUCの乖離を縮小している。
ここで、経験分布を表すヘビサイドのステップ関数Iは微分不可能である。このため、指標算出部124は、パラメータに対して微分可能な連続関数に置き換えて指標を計算する。指標算出部124は、(8)式に示すように、例えば、ヘビサイドのステップ関数Iの不等号部分をロジスティックシグモイド関数で近似する。
Figure 0007276483000008
また、指標算出部124は、(9)式に示すように、ヘビサイドのステップ関数Iの等号部分を、例えば、最大値1の指数関数で近似する。
Figure 0007276483000009
置き換えた後の各区間のpAUCは、(10)式、(11)式、(12)式のように表される。
Figure 0007276483000010
Figure 0007276483000011
Figure 0007276483000012
更新部125は、指標のパラメータに対する勾配を基にパラメータを更新する。例えば、更新部125は、pAUCの対数を取り、正則化項を加えた(16)式で表される目的関数の最適化を行う。R(w)は正則化関数であり、L1正則化(||w||)やL2正則化(||w||2)等である。また、(16)式では、jの値に応じて(13)式、(14)式、(15)式のように定義されるs(xi +,x(j) -)が導入される。ただし、Jはjα+1以上jβ以下の整数である。
Figure 0007276483000013
Figure 0007276483000014
Figure 0007276483000015
Figure 0007276483000016
更新部125は、目的関数が最適化されるように、パラメータベクトルwを更新し、スコア関数f(x;w)を決定する。なお、初めはパラメータに任意の初期値が設定されていてもよい。更新部125は、確率的勾配降下法、ニュートン法、準ニュートン法(L-BFGS等)、共役勾配法等の任意の方法で最適化を行うことができる。なお、目的関数は(13)式のものに限定されず、logを付与しない形であってもよい。
収束判定部126は、更新部125によって更新されたパラメータが、所定の収束条件を満たすか否かを判定する。また、スコア算出部123は、収束判定部126によってパラメータが収束条件を満たさないと判定された場合、更新部125によって更新されたパラメータに従うスコア関数を用いてさらにスコアを算出する。また、収束判定部126は、収束したと判定した場合、パラメータwをパラメータ記憶部127に格納する。
収束判定部126は、更新前と更新後の目的関数の差分が所望の値以下であれば収束したと判定してもよいし、更新前と更新後のパラメータベクトルwの差分が所望の値以下であれば収束したと判定してもよい。また、収束判定部126が収束したと判定したときのパラメータベクトルwを、pAUC最大化問題の解ということができる。
図1に戻り、テスト部13の構成を説明する。図1に示すように、テスト部13は、テストデータ取得部131、特徴抽出部132、スコア算出部133及び判定部134を有する。また、出力部14は、二値分類の結果を出力する。
テストデータ取得部131は、入力されたテストデータを取得する。テストデータとは、負例であるか正例であるかが未知のデータである。特徴抽出部132及びスコア算出部133は、特徴抽出部122及びスコア算出部123と同様の機能を有する。ただし、スコア算出部133は、パラメータ記憶部127から更新済みのパラメータwを取得し、当該パラメータwを基にスコア関数f(w;x)を生成する。
判定部134は、スコア関数によって算出されたスコアが閾値を超えているか否かによって分類を行う。つまり、判定部134は、更新部125によって更新されたパラメータに従って計算されたスコアが閾値を超えているか否かを判定する。例えば、判定部134は、スコアが閾値を超えているデータを正例と判定し、スコアが閾値以下であるデータを負例と判定する。
[第1の実施形態の処理]
図7は、第1の実施形態に係る分類装置の学習処理の流れを示すフローチャートである。図7に示すように、まず、分類装置10は、データの入力を受け付ける(ステップS101)。次に、分類装置10は、関数を用いてスコアを算出する(ステップS102)。
ここで、分類装置10は、スコア及びスコアが等しいデータの数から目的関数を計算する。具体的には、分類装置10は、(4)式、(5)式、(6)式によりpAUCを計算する(ステップS103)。
そして、分類装置10は、目的関数が最適化されるように関数のパラメータを更新する(ステップS104)。分類装置10は、パラメータの更新が収束したと判定した場合(ステップS105、Yes)、処理を終了する。一方、分類装置10は、パラメータの更新が収束していないと判定した場合(ステップS105、No)、ステップS102に戻し、処理を繰り返す。
[第1の実施形態の効果]
これまで説明してきたように、スコア算出部133は、パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出する。また、指標算出部124は、スコア算出部123によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する。また、更新部125は、指標算出部124によって算出された指標が最適化されるように、パラメータを更新する。
このように、分類装置10は、スコアが等しいデータの数を考慮して指標を算出する。このため、分類装置10によれば、対象データの中にスコアが等しいデータが存在する場合であっても、二値分類の評価を適切に行うことができる。
指標算出部124は、分類結果を表す真陽性率と偽陽性率を軸とした平面上のROC曲線と偽陽性率の軸とに囲まれる領域のうち、偽陽性率が所定の区間に含まれる部分の面積(partial AUC)に、スコアが所定の値に等しいデータにおける正例のデータの数と負例のデータの数に対する比を掛けた値を指標として算出することができる。このため、分類装置10は、AUCの計算方法を利用して指標を算出することができる。
指標算出部124は、ROC曲線と偽陽性率の軸とに囲まれる部分の面積を経験分布で近似して、指標として算出する。このため、分類装置10は、ROC曲線が厳密に求められない場合であっても指標を算出することができる。
指標算出部124は、経験分布による近似を行った箇所を、パラメータに対して微分可能な連続関数に置き換えて指標を計算する。更新部125は、指標のパラメータに対する勾配を基にパラメータを更新することができる。これにより、分類装置10は、ヘビサイドのステップ関数等の微分不可能な関数を指標の算出に用いる場合であっても、勾配を利用した最適化を行うことができる。
収束判定部126は、更新部125によって更新されたパラメータが、所定の収束条件を満たすか否かを判定することができる。また、このとき、スコア算出部123は、収束判定部126によってパラメータが収束条件を満たさないと判定された場合、更新部125によって更新されたパラメータに従うスコア関数を用いてさらにスコアを算出する。このように、分類装置10は、繰り返しパラメータを更新することにより、pAUCの最大化問題の解を得ることができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、分類装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の分類処理を実行する分類プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習又は分類プログラムを情報処理装置に実行させることにより、情報処理装置を分類装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、分類装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習又は分類処理に関するサービスを提供する分類サーバ装置として実装することもできる。例えば、分類サーバ装置は、グラフデータを入力とし、グラフ信号処理又はグラフデータの分析結果を出力とする分類サービスを提供するサーバ装置として実装される。この場合、分類サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の分類処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図8は、分類プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、分類装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、分類装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 分類装置
11 入力部
12 学習部
13 テスト部
14 出力部
121 学習データ取得部
122 特徴抽出部
123 スコア算出部
124 指標算出部
125 更新部
126 収束判定部
127 パラメータ記憶部
131 テストデータ取得部
132 特徴抽出部
133 スコア算出部
134 判定部

Claims (8)

  1. パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出するスコア算出部と、
    前記スコア算出部によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する指標算出部と、
    前記指標算出部によって算出された指標が最適化されるように、前記パラメータを更新する更新部と、
    を有することを特徴とする学習装置。
  2. 前記指標算出部は、前記分類結果を表す真陽性率と偽陽性率を軸とした平面上のROC曲線と偽陽性率の軸とに囲まれる領域のうち、偽陽性率が所定の区間に含まれる部分の面積(partial AUC)に、スコアが所定の値に等しいデータにおける正例のデータの数の負例のデータの数に対する比を掛けた値を前記指標として算出することを特徴とする請求項1に記載の学習装置。
  3. 前記指標算出部は、ROC曲線(Receiver Operating Characteristic)と偽陽性率の軸とに囲まれる部分の面積を経験分布で近似して、前記指標として算出することを特徴とする請求項2に記載の学習装置。
  4. 前記指標算出部は、前記経験分布で近似した式を、前記パラメータに対して微分可能な連続関数に置き換えて前記指標を計算し、
    前記更新部は、前記指標の前記パラメータに対する勾配を基に前記パラメータを更新することを特徴とする請求項3に記載の学習装置。
  5. 前記更新部によって更新されたパラメータが、所定の収束条件を満たすか否かを判定する収束判定部をさらに有し、
    前記スコア算出部は、前記収束判定部によって前記パラメータが前記収束条件を満たさないと判定された場合、前記更新部によって更新されたパラメータに従う前記スコア関数を用いてさらに前記スコアを算出することを特徴とする請求項1から4のいずれか1項に記載の学習装置。
  6. パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出するスコア算出部と、
    前記スコア算出部によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する指標算出部と、
    前記指標算出部によって算出された指標が最適化されるように、前記パラメータを更新する更新部と、
    前記更新部によって更新されたパラメータに従って計算されたスコアが閾値を超えているか否かを判定する判定部と、
    を有することを特徴とする分類装置。
  7. コンピュータによって実行される学習方法であって、
    パラメータに従いデータの特徴からスコアを計算するスコア関数を用いて、負例又は正例であることが既知の1つ以上のデータのそれぞれについてスコアを算出するスコア算出工程と、
    前記スコア算出工程によって算出されたスコアを基に分類を行った場合の分類結果において、偽陽性率が所定の区間内にある場合の真陽性率が大きいほど大きくなる指標であって、スコアが所定の値に等しいデータのうち正例のデータの割合が多いほど大きくなる指標を算出する指標算出工程と、
    前記指標算出工程によって算出された指標が最適化されるように、前記パラメータを更新する更新工程と、
    を含むことを特徴とする学習方法。
  8. コンピュータを、請求項1から5のいずれか1項に記載の学習装置として機能させるための学習プログラム。
JP2021551101A 2019-10-11 2019-10-11 学習装置、分類装置、学習方法及び学習プログラム Active JP7276483B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/040337 WO2021070394A1 (ja) 2019-10-11 2019-10-11 学習装置、分類装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2021070394A1 JPWO2021070394A1 (ja) 2021-04-15
JP7276483B2 true JP7276483B2 (ja) 2023-05-18

Family

ID=75437377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021551101A Active JP7276483B2 (ja) 2019-10-11 2019-10-11 学習装置、分類装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US20230119103A1 (ja)
JP (1) JP7276483B2 (ja)
WO (1) WO2021070394A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230036384A (ko) * 2021-09-07 2023-03-14 현대자동차주식회사 이상 탐지 시스템 및 그의 임계치 설정 방법
WO2024009362A1 (ja) * 2022-07-04 2024-01-11 日本電信電話株式会社 異常検知装置、異常検知方法および異常検知プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102540A (ja) 2015-11-30 2017-06-08 日本電信電話株式会社 分類装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102540A (ja) 2015-11-30 2017-06-08 日本電信電話株式会社 分類装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
桑原 昭之,ROC曲線を局所的に改善するパーセプトロンの学習則,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2012年03月07日,第111巻, 第483号,pp.399-404,ISSN:0913-5685
西山 泰史 ほか3名,マルウェア検知のためのpAUC最大化学習法,情報処理学会 コンピュータセキュリティシンポジウム2019 [online],日本,一般社団法人情報処理学会,2019年10月14日,pp.503-510,ISSN:1882-0840

Also Published As

Publication number Publication date
US20230119103A1 (en) 2023-04-20
WO2021070394A1 (ja) 2021-04-15
JPWO2021070394A1 (ja) 2021-04-15

Similar Documents

Publication Publication Date Title
US20230325724A1 (en) Updating attribute data structures to indicate trends in attribute data provided to automated modelling systems
WO2018077285A1 (zh) 机器学习模型训练方法、装置、服务器及存储介质
CN107784312B (zh) 机器学习模型训练方法及装置
CN112639843A (zh) 使用机器学习模型来抑制偏差数据
Kar et al. Online optimization methods for the quantification problem
JP6546180B2 (ja) ネットワークサブジェクトの社会的関係タイプの取得
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
Koivu et al. Synthetic minority oversampling of vital statistics data with generative adversarial networks
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
WO2020090413A1 (ja) 分類装置、分類方法および分類プログラム
WO2021056275A1 (en) Optimizing generation of forecast
CN110956255A (zh) 难样本挖掘方法、装置、电子设备及计算机可读存储介质
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
JP7276483B2 (ja) 学習装置、分類装置、学習方法及び学習プログラム
CN116305289B (zh) 医疗隐私数据处理方法、装置、计算机设备及存储介质
US20220129754A1 (en) Utilizing machine learning to perform a merger and optimization operation
US11507782B2 (en) Method, device, and program product for determining model compression rate
US8744987B1 (en) Count estimation via machine learning
US20230162518A1 (en) Systems for Generating Indications of Relationships between Electronic Documents
CN112200488B (zh) 针对业务对象的风险识别模型训练方法及装置
CN115169455A (zh) 基于改进的社区发现算法的交易数据异常检测方法及装置
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN110322055B (zh) 一种提高数据风险模型评分稳定性的方法和系统
CN114067149A (zh) 互联网服务提供方法、装置和计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7276483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150