CN112714918A - Pu分类装置、pu分类方法以及pu分类程序 - Google Patents

Pu分类装置、pu分类方法以及pu分类程序 Download PDF

Info

Publication number
CN112714918A
CN112714918A CN201980043070.6A CN201980043070A CN112714918A CN 112714918 A CN112714918 A CN 112714918A CN 201980043070 A CN201980043070 A CN 201980043070A CN 112714918 A CN112714918 A CN 112714918A
Authority
CN
China
Prior art keywords
case
learning
positive
probability
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980043070.6A
Other languages
English (en)
Inventor
鹫尾隆
谷口正辉
大城敬人
吉田刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Epel Ltd
Original Assignee
Epel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Epel Ltd filed Critical Epel Ltd
Publication of CN112714918A publication Critical patent/CN112714918A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供PU分类装置、PU分类方法以及PU分类程序。PU分类装置具备:分类器,在给出了分类对象的事例的情况下,使用判定不等式将分类对象的事例最大似然分类为正事例或负事例,所述判定不等式对事例作为正事例从学习用总体分布中被抽样的第一概率与事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定;以及学习部,根据从学习用总体分布中被抽样的正事例的集合来估计第一概率的分布函数,根据从学习用总体分布中被抽样的正负未知的事例的集合来估计第二概率的分布函数,由此对分类器进行学习,其中,使用由学习部进行了学习的所述分类器,将分类对象的事例分类为正事例或负事例。

Description

PU分类装置、PU分类方法以及PU分类程序
技术领域
本发明涉及PU分类装置、PU分类方法以及PU分类程序。
背景技术
以往,提出了根据正事例集合和正负未知的事例集合来对分离未知事例所包括的正事例和负事例的分类器进行学习的PU分类手法(Classification of Positive andUnlabeled Examples:正事例和未标记事例的分类)。
现有技术文献
非专利文献
非专利文献1:Elkan,C.and Noto,K."Learning classifiers from onlypositive and unlabeled data,"in Proc.KDD08:the 14th ACM SIGKDD Int.Conf.onKnowledge Discovery and Data Mining,pp.213-220(2008)
非专利文献2:Ward,G.,Hastie,T.,Barry,S.,Elith,J.,and Leathwick,J.R."Presence-only data and the em algorithm,"Biometrics,Vol.65,No.2,pp.554-563(2009)
发明内容
发明所要解决的问题
然而,以往的PU分类手法使用贝叶斯估计(Bayesian estimation)原理,是以实际作为分类对象的正负未知的事例集合和用于学习的未知事例集合从统计上相同的概率分布中被抽样为前提的分类手法。
因此,例如像传感器的校准用对象事例集合和作为实际的计测对象的事例集合那样,在学习事例和实际对象事例的正负比例不同,并且事先得不到了解其差异的线索的情况下,以往的PU分类手法不能达成足够的分类精度。
本发明是鉴于这样的情况而完成的,其目的在于提供即使在学习事例和实际对象事例的正负比例不同且事先得不到了解其差异的线索的情况下,也能够达成足够的分类精度的PU分类装置、PU分类方法以及PU分类程序。
用于解决问题的方案
本发明的一个方案的PU分类装置具备:分类器,在给出了分类对象的事例的情况下,使用判定不等式将分类对象的事例最大似然(Maximum Likelihood)分类为正事例或负事例,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定;以及学习部,根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数,由此对所述分类器进行学习,其中,使用由所述学习部进行了学习的所述分类器,将分类对象的事例分类为正事例或负事例。
本发明的一个方案的PU分类方法对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习,其中,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定,所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的,使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。
本发明的一个方案的PU分类程序用于使计算机执行如下处理:对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习,其中,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定,所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的,使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。
发明效果
根据本申请,即使在学习事例和实际对象事例的正负比例不同且事先得不到了解其差异的线索的情况下,也能够达成足够的分类精度。
附图说明
图1是表示本实施方式的分类装置的硬件配置的框图。
图2是对第一实施方式的分类装置的功能配置进行说明的说明图。
图3是对检测系统中的计测系统的概略构成进行说明的说明图。
图4是表示由计测系统得到的计测信号的一个例子的波形图。
图5是对分类装置执行的处理的步骤进行说明的流程图。
图6是表示第一实施方式的分类装置的性能评价的图表。
图7是表示第二实施方式的分类装置的性能评价的图表。
具体实施方式
以下,基于表示其实施方式的附图来具体地说明本发明。
(第一实施方式)
图1是表示本实施方式的分类装置1的硬件配置的框图。本实施方式的分类装置1例如是个人计算机、服务器装置等信息处理装置,具备:控制部11、存储部12、输入部13、通信部14、操作部15以及显示部16。分类装置1将输入的分类对象的事例分类为正事例或负事例。
控制部11具备:CPU(Central Processing Unit:中央处理单元)、ROM(Read OnlyMemory:只读存储器)、RAM(Random Access Memory:随机存取存储器)等。在控制部11具备的ROM中存储用于控制上述硬件各部的动作的控制程序等。控制部11内的CPU通过执行在ROM中存储的控制程序以及在后述的存储部12中存储的各种程序来控制上述硬件各部的动作,使装置整体作为本申请的PU分类装置发挥功能。在控制部11具备的RAM中存储在各种程序的执行中暂时被利用的数据。
需要说明的是,控制部11不限于上述的构成,只要是包括单核CPU、多核CPU、GPU(Graphics Processing Unit:图形处理器)、微型计算机、易失性或非易失性的存储器等的一个或多个处理电路或运算电路即可。此外,控制部11可以具备输出日期和时间信息的时钟、计测从给出计测开始指示到给出计测结束指示为止的经过时间的计时器、对数量进行计数的计数器等的功能。
存储部12具备使用SRAM(Static Random Access Memory:静态随机存取存储器)、闪存、硬盘等的存储装置。在存储部12中存储使控制部11执行的各种程序以及各种程序的执行所需的数据等。在存储于存储部12的程序中例如包括将输入的分类对象的事例集合所包括的各事例分类为正事例或负事例的PU分类程序。
存储于存储部12的程序可以由可读取地记录该程序的记录介质M提供。记录介质M例如是SD(Secure Digital:安全数字)卡、微型SD卡、Compact Flash(注册商标)等便携式存储器。在该情况下,控制部11能够使用未图示的读取装置从记录介质M中读取程序,并将读取的程序安装在存储部12中。此外,存储于存储部12的程序可以通过经由通信部14的通信来提供。在该情况下,控制部11能够通过通信部14取得程序,并将取得的程序安装在存储部12中。
输入部13具备用于向装置内输入各种数据的输入接口。在输入部13连接例如输出学习用的事例以及分类对象的事例的传感器或输出装置。控制部11能够通过输入部13来取得学习用的事例以及分类对象的事例。
通信部14具备用于连接到因特网等通信网(未图示)的通信接口,发送应当向外部通知的各种信息,并且接收从外部发送的各种信息。在本实施方式中,采用通过输入部13来取得学习用的事例以及分类对象的事例的构成,但也可以是通过通信部14来取得学习用的事例以及分类对象的事例的构成。
操作部15具备键盘、触摸面板等用户界面,接受各种操作信息、设定信息。控制部11基于从操作部15输入的操作信息来进行适当的控制,根据需要将设定信息存储在存储部12中。
显示部16具备液晶显示面板、有机EL(Electro Luminescence:电致发光)显示面板等显示设备,基于从控制部11输出的控制信号来显示应当通知给用户的信息。
需要说明的是,在本实施方式中,对通过控制部11执行的软件的处理来实现本申请的分类方法的构成进行说明,但也可以是与控制部11分开搭载实现该分类方法的LSI(Large Scale Integration:大规模集成电路)、ASIC(Application Specific IntegratedCircuit:专用集成电路)、FPGA(Field-Programmable Gate Array:现场可编程门阵列)等硬件的构成。在该情况下,控制部11将通过输入部13取得的分类对象的事例等交给上述硬件,由此在该硬件的内部将分类对象的事例集合所包括的各事例分类为正事例或负事例。
此外,在本实施方式中,为了简化,将分类装置1记载为一个装置,但也可以由多个处理装置或运算装置构成,也可以由一个或多个虚拟机构成。
此外,在本实施方式中,分类装置1采用具备操作部15和显示部16的构成,但操作部15和显示部16不是必需的,也可以是通过与外部连接的计算机来接受操作,并将应当通知的信息向外部的计算机输出的构成。
图2是对第一实施方式的分类装置1的功能配置进行说明的说明图。分类装置1的控制部11通过执行在ROM中存储的控制程序以及在存储部12中存储的PU分类程序来控制上述的硬件各部的动作,来实现以下说明的各功能。
分类装置1具备分类器110和学习部120作为功能配置。分类器110是在给出了分类对象的事例的情况下、将给出的分类对象的事例分类为正事例或负事例的分类器。关于分类手法,将在后面详述,分类器110的特征在于,使用判定不等式将事例最大似然分类为正事例或负事例,所述判定不等式对给出的事例作为正事例从学习用总体分布中被提取的概率(第一概率)与所述事例从学习用总体分布中被抽样的概率(第二概率)的大小关系进行判定。
学习部120使用已知为正事例的学习用正事例集合和正负未知的学习用未知事例集合来对分类器110进行学习。具体而言,学习部120根据从学习用总体分布中被抽样的正事例的集合(学习用正事例集合)来估计前述的第一概率的分布函数,并且根据从学习用总体分布中被抽样的正负未知的事例的集合(学习用未知事例集合)来估计前述的第二概率的分布函数,由此对分类器110进行学习。
以下,作为分类装置1的应用例之一,对在使用纳米间隙传感器对检测对象分子进行检测的检测系统中的应用例进行说明。在该应用例中,分类装置1用于将来自纳米间隙传感器的信号脉冲分类为起因于检测对象分子的信号脉冲和包含噪声的其他的信号脉冲。
图3是对检测系统中的计测系统的概略构成进行说明的说明图。检测系统具备纳米间隙传感器NS。纳米间隙传感器NS具备隔开微细距离(例如1nm)配置的一对电极D1、D2以及计测电极D1、D2之间流动的电流的电流计测器ME。电极D1、D2例如是由金原子构成的微细形状的电极。在对电极D1、D2施加一定的电压的状态下,在检测对象分子通过间隙附近的情况下,在电极D1、D2之间流过微弱的隧道电流。电流计测器ME以适当的时间间隔按时序计测流过电极D1、D2之间的隧道电流,并输出计测结果(脉冲信号)。
检测对象分子例如是二噻吩尿嘧啶衍生物(BithioU)和TTF尿嘧啶衍生物(TTF)。这些分子是人工核酸碱基,为了容易识别对表观遗传部位进行了化学修饰。在以下的说明中,将检测对象分子的二噻吩尿嘧啶衍生物和TTF尿嘧啶衍生物也仅记载为对象碱基。
对象碱基通过分子自身的布朗运动或电泳、电渗流、介电电泳等手段在包含对象碱基的溶液内移动。检测系统通过确定对象碱基通过纳米间隙传感器NS的电极D1、D2附近时的脉冲波形,以一个分子为单位来识别对象碱基。图3的A示出二噻吩尿嘧啶衍生物通过电极D1、D2附近的情形,图3的B示出TTF尿嘧啶衍生物通过电极D1、D2附近的情形。通过使用这样的检测系统,例如,能够以一个分子为单位来识别DNA碱基分子的种类,实现了利用现有技术难以实现的肽的氨基酸序列、成为疾病标记的修饰氨基分子的识别。
然而,在由计测系统得到的计测信号中,由于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的影响,有时包含噪声脉冲。如果不能适当地去除噪声脉冲,则有可能将噪声脉冲误认为来自对象碱基的脉冲,成为识别精度降低的原因。
图4是表示由计测系统得到的计测信号的一个例子的波形图。图4的A示出在不包含对象碱基的状态下的计测结果,图4的B示出在包含对象碱基的状态下的计测结果。所有波形图的横轴表示时间,纵轴表示电流值。
在由计测系统得到的计测信号(事例)中,通常包含噪声。即使在计测对象的溶液中不包含对象碱基的情况下,由于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的影响,有时也会出现具有某种程度的波高的噪声脉冲。图4的A所示的例子示出在时间T=T11、T12、T13观测到噪声脉冲的状态。噪声脉冲出现的定时完全是随机的,预测出现定时是不可能的。
另一方面,在计测对象的溶液中包含对象碱基的情况下,起因于对象碱基通过纳米间隙传感器NS的电极D1、D2附近时流过的隧道电流,观测到具有某种程度的波高的脉冲。该脉冲是来自对象碱基的脉冲(以下,也记载为对象碱基脉冲),是为了识别对象碱基而应当观测的脉冲。此外,即使在计测对象的溶液中包含对象碱基的情况下,也无法避免起因于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的噪声脉冲。图4的B所示的例子示出在时间T=T21、T24、T25、T26观测到对象碱基脉冲,在T=T22、T23观测到噪声脉冲的状态。
如上所述,噪声脉冲出现的定时完全是随机的,预测出现定时是不可能的。此外,如图4的B所示,噪声脉冲具有与对象碱基脉冲相同程度或其以上的波高。因此,仅使用计测对象碱基而得到的计测信号、仅提取对象碱基脉冲在原理上是不可能的。
为了与噪声脉冲分离并提取计测信号所包含的对象碱基脉冲,将对象碱基脉冲和噪声脉冲分类的分类手法的构筑是不可或缺的。发明人等在日本特愿2017-092075号中提出了如下手法:使用基于贝叶斯估计原理的PU分类手法,基于由纳米间隙传感器NS得到的计测信号,构筑将噪声脉冲(正事例)和对象碱基脉冲(负事例)分类的分类器,从计测信号中降低噪声。
基于贝叶斯估计原理的现有的PU分类手法的前提是,用于对分类器进行学习的学习用事例和正负未知的分类对象的事例从同一总体分布中被提取,只有在两者从同一总体分布中被提取的情况下才能够正确地分类。
然而,在将计测信号作为分类对象的情况下,在用于分类器的学习的计测信号和实际成为分类对象的计测信号中,分别所包含的噪声脉冲(正事例)和对象碱基脉冲(负事例)的比例不一定一致,大多显示出两者从不同的总体分布中被提取的事例。因此,在使用基于贝叶斯估计原理的现有的PU分类手法将计测信号分类为正事例和负事例的情况下,无法达成足够的分类精度。
因此,在本申请中,提出了一种PU分类手法,根据学习用正事例集合和学习用未知事例集合,通过不依赖于未知事例集合所遵循的概率分布的最大似然估计原理,将具有任意的正负比例的概率分布的分类对象的事例高精度地分类为正事例或负事例,其中,所述学习用正事例集合是用于学习给出的正事例的集合,所述学习用未知事例集合是用于学习给出的正事例和负事例混合存在、正事例和负事例的比例未知的事例的集合。
以下,对本实施方式的PU分类手法进行说明。
将用于学习给出的有标签的正事例集合标记为DLP,将用于学习给出的无标签的事例集合标记为DLU,将每次计测取得的测试用无标签的事例集合标记为DTU。DLP的事例从正事例边缘分布(marginal distribution)pLP(X|Y=P)中被IID(独立同分布)抽样,DLU、DTU的事例分别从边缘分布pLU(X)、pTU(X)中被IID抽样。
在此,X表示特征向量。特征向量是包含反映从计测信号中得到的各脉冲的脉冲波形的特征量作为分量的向量。作为特征向量,例如可以使用以将从脉冲开始时间点直至结束时间点分割为十个区间的各区间中的计测电流值的平均值为分量的十维特征向量。需要说明的是,不限于计测电流值的平均值,也可以使用包含将脉冲峰值标准化为1的峰值、未标准化的峰值、将脉冲波长时间标准化为1的波长方向时间、未标准化的波长方向时间、将这些组合的值等特征量作为分量的特征向量。Y表示正负事例标签。在本实施方式中,将噪声脉冲作为正事例,将对象碱基脉冲作为负事例。
在本实施方式中,假定为pLP(X|Y=P)、pLU(X)、pTU(X)由同一不变的分布p(X|Y)构成(以下,称为假定1)。该假定1不是特殊的,在过去的所有的PU分类手法中,在所有事例集合中都假定有共同的p(X|Y)。此外,包括上述的纳米间隙传感器NS的各种计测系统被设计成稳定地实现不变的p(X|Y),以便能够针对先验概率密度函数p(Y)的变化进行Y的稳健估计,由此可知,假定1不是特殊的。
根据假定1,pLP(X|Y=P)=p(X|Y=P)成立,因此使用关于Y=P、N的共同的p(X|Y)、正负事例的类先验概率(class prior probabilities)πL=pLU(Y=P)以及πT=pTU(Y=P),能够如下表示pLU(X)以及pTU(X)。
pLU(X)=πL p(X|Y=P)+(1-πL)p(X|Y=N)…(1)
pTU(X)=πT p(X|Y=P)+(1-πT)p(X|Y=N)…(2)
在此,πL、πT∈[0,1]的各自的值是未知的,但设为是独立给出的。为了构成不需要πL以及πT的估计的分类器,在本实施方式中,采用使用不受类先验概率的影响的最大似然估计原理的分类基准。
无标签测试事例x(∈DTU)的最大似然Y根据假定1由以下的公式给出。
[数学式1]
Figure BDA0002859809300000091
在此,关于具有任意的π∈[0,1]、pπ(X)=πp(X|Y=P)+(1-π)p(X|Y=N),以下的两个不等式是等价的。
p(X|Y=P)≥pπ(x)…(4)
p(Y|Y=P)≥p(x|Y=N)…(5)
基于假定1和公式(1)~公式(5),得到在任意的πL∈[0,1]下给出的以下的判定不等式。该判定不等式给出遵循具有独立于πL而给出的任意的πT∈[0,1]的pTU(X)的事例x∈DTU的最大似然分类基准。
[数学式2]
Figure BDA0002859809300000092
通过使用这样的最大似然分类基准,能够构成如下的分类器110:根据DLP、DLU分别非参数估计p(x|Y=P)的估计值和pLU(x)的估计值,使用上述判定不等式来最大似然估计x∈DTU的标签y。
需要说明的是,在上述的最大似然分类基准中,在p(x|Y=P)=pLU(x)的情况下,设为正事例,但在p(x|Y=P)=pLU(x)的情况下,当然也可以使用判定为负事例的最大似然分类基准。
以下,对分类装置1的动作进行说明。
图5是对分类装置1执行的处理的步骤进行说明的流程图。分类装置1的控制部11判断当前时间点是否为学习阶段(步骤S101)。例如,在通过操作部15事先接受到向学习阶段转移的指示的情况下,控制部11能够判断为当前时间点为学习阶段。
在判断为学习阶段的情况下(S101:是),控制部11通过输入部13取得学习用的事例(步骤S102)。在步骤S102中取得的事例是从学习用总体分布中被抽样的事例。此时,控制部11通过计测系统计测不包含对象碱基的溶液,取得多个仅包含噪声脉冲的计测信号作为已知是正事例的学习用的事例。此外,控制部11通过计测系统计测包含对象碱基的溶液,取得多个包含噪声脉冲和对象碱基脉冲双方的计测信号作为正负未知的学习用的事例。
接着,控制部11基于用于学习取得的已知为正事例的事例的集合即学习用正事例集合,估计作为分类对象给出的事例作为正事例从学习用总体分布中被提取的第一概率的分布函数(步骤S103)。具体而言,基于学习用正事例集合来估计上述的公式(6)中的p(x|Y=P)的函数形式。
接着,控制部11基于用于学习取得的正负未知的事例的集合即学习用未知事例集合,估计从学习用总体分布中事例被抽样的第二概率的分布函数(步骤S104)。具体而言,基于学习用未知事例集合来估计上述的公式(6)中的pLU(x)的函数形式。需要说明的是,步骤S103和S104的处理顺序是任意的。
接着,控制部11使用在步骤S103和S104中估计的分布函数来构成具有公式(6)的最大似然分类基准的分类器110(步骤S105)。控制部11将构成的分类器110存储于存储部12,结束学习阶段。
在步骤S101中判断为不是学习阶段的情况下(S101:否),控制部11判断为是将输入的事例分类为正事例或负事例的分类阶段。
控制部11通过输入部13取得分类对象的事例(计测信号)(步骤S106)。在步骤S106中取得的事例是从分类用总体分布中被抽样的事例。
接着,控制部11使用在学习阶段中估计的第一概率的分布函数来计算取得的事例作为正事例从学习用总体分布中被抽样的第一概率的估计值(步骤S107)。
接着,控制部11使用在学习阶段中估计的第二概率的分布函数来计算从学习用总体分布中事例被抽样的第二概率的估计值(步骤S108)。需要说明的是,步骤S107和S108的处理顺序是任意的。
接着,控制部11判定计算出的第一概率p(x|X=P)是否为第二概率pLU(x)以上(步骤S109)。
在判断为第一概率p(x|X=P)为第二概率pLU(x)以上的情况下(S109:是),控制部11判断为取得的事例为正事例(噪声)(步骤S110),将判断结果存储于存储部12。
此外,在判断为第一概率p(x|X=P)小于第二概率pLU(x)的情况下(S109:否),控制部11判断为取得的事例为负事例(对象碱基)(步骤S111),将判断结果存储于存储部12。
需要说明的是,在本实施方式中,采用在第一概率p(x|X=P)与第二概率pLU(x)相等的情况下、控制部11判断为输入的事例为正事例(噪声)的构成,但也可以判断为负事例(对象碱基)。
接着,控制部11判断计测是否结束(步骤S112)。在判断为计测未结束的情况下(S112:否),控制部11使处理返回步骤S106。在判断为计测结束的情况下(S112:是),控制部11结束分类阶段。
以下,对第一实施方式的分类装置1的性能评价进行记载。
分类装置1将输入的分类对象的事例(计测信号)分类为正事例或负事例,但不可能知道包含对象碱基脉冲和噪声脉冲的事例集合中的哪个脉冲真正是对象碱基脉冲,因此无法将正负事例的分类结果作为性能指标。因此,针对测试用事例集合计算以下定义的伪F-measure的值(F tilde:~),作为性能指标。
[数学式3]
Figure BDA0002859809300000121
在此,DTP是测试用的正事例集合,DTU是测试用的无标签事例集合。此外,有脱字号(hat:^)的DTP是在测试用的正事例集合中估计为正事例的事例的集合,有脱字号的Dp TU是在测试用的无标签事例集合中估计为正事例的事例的集合。
图6是表示第一实施方式的分类装置1的性能评价的图表。关于各事例集合,取得|DLP|=20、|DLU|=800用于学习,取得|DTP|=20、|DTU|=100用于测试。此外,作为比较对象,同时示出使用Elkan等的PU分类器(参照非专利文献1)、使用高斯朴素贝叶斯(Gaussiannaive Bayesian)估计(NE-E&N)和使用高斯核密度(Gaussian kernel density)的贝叶斯估计(KD-E&N)这两种手法运算pLP(X|Y=P)和pLU(X)的估计值的结果。
各PU分类手法的伪F-measure的值如图6所示。作为DTU,调查了计测的初始阶段(πL≈πT)、经过一段时间夹杂物变多的时期(πL<πT)、夹杂物增加得非常多的时期(πL<<πT)这三种。伪F-measure的值与通常的值不同,未标准化为[0,1],但该值越大表示分类性能越高。
如图6所示,可知第一实施方式的分类装置1(NL-PUC:Native Likelihood PUC)表现出与πT的值无关、远高于现有手法的性能。
如上所述,在本实施方式中,即使在用于分类器的学习的事例与实际成为分类对象的事例之间分别所包含的噪声脉冲(正事例)和对象碱基脉冲(负事例)的比例不同的情况下,也能够将输入的事例高精度地分类为正事例或负事例。
(第二实施方式)
在第一实施方式中,采用使用已知为正事例的学习用正事例集合来估计第一概率的分布函数、使用正负未知的学习用未知事例集合来估计第二概率的分布函数的构成,但有时无法充分取得已知为正事例的学习用的事例。在无法充分得到已知为正事例的学习用的事例的情况下,估计的第一概率的分布函数的误差变大,其结果有可能分类精度降低。
因此,在第二实施方式中,对即使在学习时无法充分准备已知为正事例的学习用的事例的情况下也能够高精度地估计第一概率的分布函数的手法进行说明。
在第二实施方式中,不是仅使用已知为正事例的事例,而是同时使用通常能够准备足够的事例数的正负未知的事例,由此抑制关于第一概率的分布函数的估计精度的降低。
其目的在于,使用根据用于学习给出的无标签事例集合DLU导出的p(k-1)(X|Y=P)的概率变量,反复地更新(update)pLP(X|Y=P)的估计值,由此得到更准确的p(k)(X|Y=P)的估计值。p(k)(X|Y=P)的估计值可以如下记述。
[数学式4]
Figure BDA0002859809300000131
在此,r∈[0,1],k为2以上的整数。
核密度pK(X|x)和其权重w(x)给出以下所示的p(X|Y=P)的非非参数近似(nonparametric approximation)。
[数学式5]
Figure BDA0002859809300000132
为了减小统计误差,使用p(k-1)(x|Y=P)的估计值来反复地计算概率变量p(k-1)(X|Y=P)。
[数学式6]
Figure BDA0002859809300000141
在针对属于无标签事例集合DLU的所有的x,w(k-1)(x)的概率变量充分收敛的情况下,能够得到更准确的p(k)(X|Y=P)的估计值。
图7是表示第二实施方式的分类装置1的性能评价的图表。关于各事例集合,取得|DLP|=20、|DLU|=800用于学习,取得|DTP|=20、|DTU|=100用于测试。作为比较对象,同时示出使用高斯朴素贝叶斯估计(NE-E&N)和使用高斯核密度的贝叶斯估计(KD-E&N)这两种手法的Elkan等的PU分类器的性能评价以及在第一实施方式中说明的分类装置(NL-PUC)的性能评价。
各PU分类手法的伪F-measure的值如图7所示。作为DTU,调查了计测的初始阶段(πL≈πT)、经过一段时间夹杂物变多的时期(πL<πT)、夹杂物增加得非常多的时期(πL<<πT)这三种。伪F-measure的值与通常的值不同,未标准化为[0,1],但该值越大表示分类性能越高。
如图7所示,可知第二实施方式的分类装置1(EL-PUC:Enhanced Likelihood PUC)尽管学习用的正事例数少,但也表现出比现有手法和第一实施方式的分类装置1(NL-PUC)高的性能。
如上所述,在本实施方式中,即使在作为学习用得到的正事例集合的事例数少的情况下,也能够提高估计精度,能够将计测信号高精度地分类为正事例或负事例。
应当认为本次公开的实施方式在所有方面都是例示性的,而不是限制性的。本发明的范围不是通过上述的意思,而是通过权利要求书来表示,其意图在于包括与权利要求书等同的意思和范围内的所有变更。
例如,在本实施方式中,作为一个例子,对如下构成进行了说明,使用仅包含噪声脉冲的事例和包含对象碱基脉冲以及噪声脉冲双方的事例对分类器110进行学习,从作为分类对象被输入的包含对象碱基脉冲以及噪声脉冲双方的事例中分类出正事例(噪声脉冲)和负事例(对象碱基脉冲),但分类对象的事例不限于由特定的传感器计测出的计测信号(事例),可以是任意的事例。
附图标记说明:
1:分类装置;11:控制部;12:存储部;13:输入部;14:通信部;15:操作部;16:显示部;110:分类器;120:学习部;M:记录介质。

Claims (6)

1.一种PU分类装置,具备:
分类器,在给出了分类对象的事例的情况下,使用判定不等式将分类对象的事例最大似然分类为正事例或负事例,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定;以及
学习部,根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数,由此对所述分类器进行学习,
其中,使用由所述学习部进行了学习的所述分类器,将分类对象的事例分类为正事例或负事例。
2.根据权利要求1所述的PU分类装置,其中,
所述学习部基于从所述学习用总体分布中被抽样的正事例的集合和从所述学习用总体分布中被抽样的正负未知的事例的集合双方,估计所述第一概率的分布函数。
3.根据权利要求2所述的PU分类装置,其中,
所述学习部通过核密度估计来估计所述第一概率的分布函数,所述核密度估计使用了核密度和针对所述核密度的权重。
4.根据权利要求1至3中任一项所述的PU分类装置,其中,
所述分类器在通过所述判定不等式判定为所述第一概率大于所述第二概率的情况下,将分类对象的事例分类为正事例,
在通过所述判定不等式判定为所述第一概率小于所述第二概率的情况下,将分类对象的事例分类为负事例。
5.一种PU分类方法,其中,
对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习,其中,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定,所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的,
使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。
6.一种PU分类程序,用于使计算机执行如下处理:
对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习,其中,所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定,所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数,根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的,
使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。
CN201980043070.6A 2018-04-27 2019-03-28 Pu分类装置、pu分类方法以及pu分类程序 Pending CN112714918A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-087641 2018-04-27
JP2018087641 2018-04-27
PCT/JP2019/013650 WO2019208087A1 (ja) 2018-04-27 2019-03-28 Pu分類装置、pu分類方法、及びpu分類プログラム

Publications (1)

Publication Number Publication Date
CN112714918A true CN112714918A (zh) 2021-04-27

Family

ID=68295127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980043070.6A Pending CN112714918A (zh) 2018-04-27 2019-03-28 Pu分类装置、pu分类方法以及pu分类程序

Country Status (4)

Country Link
US (1) US20210232870A1 (zh)
JP (1) JP6985687B2 (zh)
CN (1) CN112714918A (zh)
WO (1) WO2019208087A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7979363B1 (en) * 2008-03-06 2011-07-12 Thomas Cecil Minter Priori probability and probability of error estimation for adaptive bayes pattern recognition
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US10063582B1 (en) * 2017-05-31 2018-08-28 Symantec Corporation Securing compromised network devices in a network
US11468358B2 (en) * 2017-11-30 2022-10-11 Palo Alto Networks (Israel Analytics) Ltd. Framework for semi-supervised learning when no labeled data is given
US11263035B2 (en) * 2018-04-13 2022-03-01 Microsoft Technology Licensing, Llc Longevity based computer resource provisioning

Also Published As

Publication number Publication date
WO2019208087A1 (ja) 2019-10-31
JPWO2019208087A1 (ja) 2021-02-12
US20210232870A1 (en) 2021-07-29
JP6985687B2 (ja) 2021-12-22

Similar Documents

Publication Publication Date Title
Peel et al. Detecting change points in the large-scale structure of evolving networks
Mukhoti et al. Deep deterministic uncertainty: A new simple baseline
Xue et al. $ t $-Tests, $ F $-Tests and Otsu's Methods for Image Thresholding
Quinn et al. A least-squares approach to anomaly detection in static and sequential data
JP6179305B2 (ja) 分類装置、分類方法及び電子設備
McIntosh et al. Reducing semantic drift with bagging and distributional similarity
Ferreira et al. Amanda: Semi-supervised density-based adaptive model for non-stationary data with extreme verification latency
Trstanova et al. Local and global perspectives on diffusion maps in the analysis of molecular systems
US20210117802A1 (en) Training a Neural Network Using Small Training Datasets
US12039443B2 (en) Distance-based learning confidence model
Koeppl et al. Accounting for extrinsic variability in the estimation of stochastic rate constants
Campbell et al. Probabilistic modeling of bifurcations in single-cell gene expression data using a Bayesian mixture of factor analyzers
Shi et al. A new evaluation framework for topic modeling algorithms based on synthetic corpora
Chen et al. Did the model change? efficiently assessing machine learning api shifts
Shukla et al. A mathematical analysis of learning loss for active learning in regression
JP2019191769A (ja) データ判別プログラム、データ判別装置およびデータ判別方法
Maho et al. A calibrant-free drift compensation method for gas sensor arrays
Yu et al. Remembrance of transistors past: Compact model parameter extraction using Bayesian inference and incomplete new measurements
Rogers et al. Semi-parametric analysis of multi-rater data
Zaman et al. A multilingual perspective towards the evaluation of attribution methods in natural language inference
CN112714918A (zh) Pu分类装置、pu分类方法以及pu分类程序
Bootkrajang et al. Learning a label-noise robust logistic regression: Analysis and experiments
Kuss et al. Approximate inference for robust Gaussian process regression
Supriyati et al. Recognition system of Indonesia sign language based on sensor and artificial neural network
US20220405585A1 (en) Training device, estimation device, training method, and training program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination