CN112714918A

CN112714918A - Pu分类装置、pu分类方法以及pu分类程序

Info

Publication number: CN112714918A
Application number: CN201980043070.6A
Authority: CN
Inventors: 鹫尾隆; 谷口正辉; 大城敬人; 吉田刚
Original assignee: Epel Ltd
Current assignee: Epel Ltd
Priority date: 2018-04-27
Filing date: 2019-03-28
Publication date: 2021-04-27
Also published as: WO2019208087A1; JPWO2019208087A1; US20210232870A1; JP6985687B2

Abstract

本发明提供PU分类装置、PU分类方法以及PU分类程序。PU分类装置具备：分类器，在给出了分类对象的事例的情况下，使用判定不等式将分类对象的事例最大似然分类为正事例或负事例，所述判定不等式对事例作为正事例从学习用总体分布中被抽样的第一概率与事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定；以及学习部，根据从学习用总体分布中被抽样的正事例的集合来估计第一概率的分布函数，根据从学习用总体分布中被抽样的正负未知的事例的集合来估计第二概率的分布函数，由此对分类器进行学习，其中，使用由学习部进行了学习的所述分类器，将分类对象的事例分类为正事例或负事例。

Description

PU分类装置、PU分类方法以及PU分类程序

技术领域

本发明涉及PU分类装置、PU分类方法以及PU分类程序。

背景技术

以往，提出了根据正事例集合和正负未知的事例集合来对分离未知事例所包括的正事例和负事例的分类器进行学习的PU分类手法(Classification of Positive andUnlabeled Examples：正事例和未标记事例的分类)。

现有技术文献

非专利文献

非专利文献1：Elkan,C.and Noto,K."Learning classifiers from onlypositive and unlabeled data,"in Proc.KDD08:the 14th ACM SIGKDD Int.Conf.onKnowledge Discovery and Data Mining,pp.213-220(2008)

非专利文献2：Ward,G.,Hastie,T.,Barry,S.,Elith,J.,and Leathwick,J.R."Presence-only data and the em algorithm,"Biometrics,Vol.65,No.2,pp.554-563(2009)

发明内容

发明所要解决的问题

然而，以往的PU分类手法使用贝叶斯估计(Bayesian estimation)原理，是以实际作为分类对象的正负未知的事例集合和用于学习的未知事例集合从统计上相同的概率分布中被抽样为前提的分类手法。

因此，例如像传感器的校准用对象事例集合和作为实际的计测对象的事例集合那样，在学习事例和实际对象事例的正负比例不同，并且事先得不到了解其差异的线索的情况下，以往的PU分类手法不能达成足够的分类精度。

本发明是鉴于这样的情况而完成的，其目的在于提供即使在学习事例和实际对象事例的正负比例不同且事先得不到了解其差异的线索的情况下，也能够达成足够的分类精度的PU分类装置、PU分类方法以及PU分类程序。

用于解决问题的方案

本发明的一个方案的PU分类装置具备：分类器，在给出了分类对象的事例的情况下，使用判定不等式将分类对象的事例最大似然(Maximum Likelihood)分类为正事例或负事例，所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定；以及学习部，根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数，根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数，由此对所述分类器进行学习，其中，使用由所述学习部进行了学习的所述分类器，将分类对象的事例分类为正事例或负事例。

本发明的一个方案的PU分类方法对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习，其中，所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定，所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数，根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的，使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。

本发明的一个方案的PU分类程序用于使计算机执行如下处理：对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习，其中，所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定，所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数，根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的，使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。

发明效果

根据本申请，即使在学习事例和实际对象事例的正负比例不同且事先得不到了解其差异的线索的情况下，也能够达成足够的分类精度。

附图说明

图1是表示本实施方式的分类装置的硬件配置的框图。

图2是对第一实施方式的分类装置的功能配置进行说明的说明图。

图3是对检测系统中的计测系统的概略构成进行说明的说明图。

图4是表示由计测系统得到的计测信号的一个例子的波形图。

图5是对分类装置执行的处理的步骤进行说明的流程图。

图6是表示第一实施方式的分类装置的性能评价的图表。

图7是表示第二实施方式的分类装置的性能评价的图表。

具体实施方式

以下，基于表示其实施方式的附图来具体地说明本发明。

(第一实施方式)

图1是表示本实施方式的分类装置1的硬件配置的框图。本实施方式的分类装置1例如是个人计算机、服务器装置等信息处理装置，具备：控制部11、存储部12、输入部13、通信部14、操作部15以及显示部16。分类装置1将输入的分类对象的事例分类为正事例或负事例。

控制部11具备：CPU(Central Processing Unit：中央处理单元)、ROM(Read OnlyMemory：只读存储器)、RAM(Random Access Memory：随机存取存储器)等。在控制部11具备的ROM中存储用于控制上述硬件各部的动作的控制程序等。控制部11内的CPU通过执行在ROM中存储的控制程序以及在后述的存储部12中存储的各种程序来控制上述硬件各部的动作，使装置整体作为本申请的PU分类装置发挥功能。在控制部11具备的RAM中存储在各种程序的执行中暂时被利用的数据。

需要说明的是，控制部11不限于上述的构成，只要是包括单核CPU、多核CPU、GPU(Graphics Processing Unit：图形处理器)、微型计算机、易失性或非易失性的存储器等的一个或多个处理电路或运算电路即可。此外，控制部11可以具备输出日期和时间信息的时钟、计测从给出计测开始指示到给出计测结束指示为止的经过时间的计时器、对数量进行计数的计数器等的功能。

存储部12具备使用SRAM(Static Random Access Memory：静态随机存取存储器)、闪存、硬盘等的存储装置。在存储部12中存储使控制部11执行的各种程序以及各种程序的执行所需的数据等。在存储于存储部12的程序中例如包括将输入的分类对象的事例集合所包括的各事例分类为正事例或负事例的PU分类程序。

存储于存储部12的程序可以由可读取地记录该程序的记录介质M提供。记录介质M例如是SD(Secure Digital：安全数字)卡、微型SD卡、Compact Flash(注册商标)等便携式存储器。在该情况下，控制部11能够使用未图示的读取装置从记录介质M中读取程序，并将读取的程序安装在存储部12中。此外，存储于存储部12的程序可以通过经由通信部14的通信来提供。在该情况下，控制部11能够通过通信部14取得程序，并将取得的程序安装在存储部12中。

输入部13具备用于向装置内输入各种数据的输入接口。在输入部13连接例如输出学习用的事例以及分类对象的事例的传感器或输出装置。控制部11能够通过输入部13来取得学习用的事例以及分类对象的事例。

通信部14具备用于连接到因特网等通信网(未图示)的通信接口，发送应当向外部通知的各种信息，并且接收从外部发送的各种信息。在本实施方式中，采用通过输入部13来取得学习用的事例以及分类对象的事例的构成，但也可以是通过通信部14来取得学习用的事例以及分类对象的事例的构成。

操作部15具备键盘、触摸面板等用户界面，接受各种操作信息、设定信息。控制部11基于从操作部15输入的操作信息来进行适当的控制，根据需要将设定信息存储在存储部12中。

显示部16具备液晶显示面板、有机EL(Electro Luminescence：电致发光)显示面板等显示设备，基于从控制部11输出的控制信号来显示应当通知给用户的信息。

需要说明的是，在本实施方式中，对通过控制部11执行的软件的处理来实现本申请的分类方法的构成进行说明，但也可以是与控制部11分开搭载实现该分类方法的LSI(Large Scale Integration：大规模集成电路)、ASIC(Application Specific IntegratedCircuit：专用集成电路)、FPGA(Field-Programmable Gate Array：现场可编程门阵列)等硬件的构成。在该情况下，控制部11将通过输入部13取得的分类对象的事例等交给上述硬件，由此在该硬件的内部将分类对象的事例集合所包括的各事例分类为正事例或负事例。

此外，在本实施方式中，为了简化，将分类装置1记载为一个装置，但也可以由多个处理装置或运算装置构成，也可以由一个或多个虚拟机构成。

此外，在本实施方式中，分类装置1采用具备操作部15和显示部16的构成，但操作部15和显示部16不是必需的，也可以是通过与外部连接的计算机来接受操作，并将应当通知的信息向外部的计算机输出的构成。

图2是对第一实施方式的分类装置1的功能配置进行说明的说明图。分类装置1的控制部11通过执行在ROM中存储的控制程序以及在存储部12中存储的PU分类程序来控制上述的硬件各部的动作，来实现以下说明的各功能。

分类装置1具备分类器110和学习部120作为功能配置。分类器110是在给出了分类对象的事例的情况下、将给出的分类对象的事例分类为正事例或负事例的分类器。关于分类手法，将在后面详述，分类器110的特征在于，使用判定不等式将事例最大似然分类为正事例或负事例，所述判定不等式对给出的事例作为正事例从学习用总体分布中被提取的概率(第一概率)与所述事例从学习用总体分布中被抽样的概率(第二概率)的大小关系进行判定。

学习部120使用已知为正事例的学习用正事例集合和正负未知的学习用未知事例集合来对分类器110进行学习。具体而言，学习部120根据从学习用总体分布中被抽样的正事例的集合(学习用正事例集合)来估计前述的第一概率的分布函数，并且根据从学习用总体分布中被抽样的正负未知的事例的集合(学习用未知事例集合)来估计前述的第二概率的分布函数，由此对分类器110进行学习。

以下，作为分类装置1的应用例之一，对在使用纳米间隙传感器对检测对象分子进行检测的检测系统中的应用例进行说明。在该应用例中，分类装置1用于将来自纳米间隙传感器的信号脉冲分类为起因于检测对象分子的信号脉冲和包含噪声的其他的信号脉冲。

图3是对检测系统中的计测系统的概略构成进行说明的说明图。检测系统具备纳米间隙传感器NS。纳米间隙传感器NS具备隔开微细距离(例如1nm)配置的一对电极D1、D2以及计测电极D1、D2之间流动的电流的电流计测器ME。电极D1、D2例如是由金原子构成的微细形状的电极。在对电极D1、D2施加一定的电压的状态下，在检测对象分子通过间隙附近的情况下，在电极D1、D2之间流过微弱的隧道电流。电流计测器ME以适当的时间间隔按时序计测流过电极D1、D2之间的隧道电流，并输出计测结果(脉冲信号)。

检测对象分子例如是二噻吩尿嘧啶衍生物(BithioU)和TTF尿嘧啶衍生物(TTF)。这些分子是人工核酸碱基，为了容易识别对表观遗传部位进行了化学修饰。在以下的说明中，将检测对象分子的二噻吩尿嘧啶衍生物和TTF尿嘧啶衍生物也仅记载为对象碱基。

对象碱基通过分子自身的布朗运动或电泳、电渗流、介电电泳等手段在包含对象碱基的溶液内移动。检测系统通过确定对象碱基通过纳米间隙传感器NS的电极D1、D2附近时的脉冲波形，以一个分子为单位来识别对象碱基。图3的A示出二噻吩尿嘧啶衍生物通过电极D1、D2附近的情形，图3的B示出TTF尿嘧啶衍生物通过电极D1、D2附近的情形。通过使用这样的检测系统，例如，能够以一个分子为单位来识别DNA碱基分子的种类，实现了利用现有技术难以实现的肽的氨基酸序列、成为疾病标记的修饰氨基分子的识别。

然而，在由计测系统得到的计测信号中，由于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的影响，有时包含噪声脉冲。如果不能适当地去除噪声脉冲，则有可能将噪声脉冲误认为来自对象碱基的脉冲，成为识别精度降低的原因。

图4是表示由计测系统得到的计测信号的一个例子的波形图。图4的A示出在不包含对象碱基的状态下的计测结果，图4的B示出在包含对象碱基的状态下的计测结果。所有波形图的横轴表示时间，纵轴表示电流值。

在由计测系统得到的计测信号(事例)中，通常包含噪声。即使在计测对象的溶液中不包含对象碱基的情况下，由于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的影响，有时也会出现具有某种程度的波高的噪声脉冲。图4的A所示的例子示出在时间T＝T11、T12、T13观测到噪声脉冲的状态。噪声脉冲出现的定时完全是随机的，预测出现定时是不可能的。

另一方面，在计测对象的溶液中包含对象碱基的情况下，起因于对象碱基通过纳米间隙传感器NS的电极D1、D2附近时流过的隧道电流，观测到具有某种程度的波高的脉冲。该脉冲是来自对象碱基的脉冲(以下，也记载为对象碱基脉冲)，是为了识别对象碱基而应当观测的脉冲。此外，即使在计测对象的溶液中包含对象碱基的情况下，也无法避免起因于隧道电流的量子噪声、构成电极D1、D2的表面原子的热运动、溶液所包含的夹杂物等的噪声脉冲。图4的B所示的例子示出在时间T＝T21、T24、T25、T26观测到对象碱基脉冲，在T＝T22、T23观测到噪声脉冲的状态。

如上所述，噪声脉冲出现的定时完全是随机的，预测出现定时是不可能的。此外，如图4的B所示，噪声脉冲具有与对象碱基脉冲相同程度或其以上的波高。因此，仅使用计测对象碱基而得到的计测信号、仅提取对象碱基脉冲在原理上是不可能的。

为了与噪声脉冲分离并提取计测信号所包含的对象碱基脉冲，将对象碱基脉冲和噪声脉冲分类的分类手法的构筑是不可或缺的。发明人等在日本特愿2017-092075号中提出了如下手法：使用基于贝叶斯估计原理的PU分类手法，基于由纳米间隙传感器NS得到的计测信号，构筑将噪声脉冲(正事例)和对象碱基脉冲(负事例)分类的分类器，从计测信号中降低噪声。

基于贝叶斯估计原理的现有的PU分类手法的前提是，用于对分类器进行学习的学习用事例和正负未知的分类对象的事例从同一总体分布中被提取，只有在两者从同一总体分布中被提取的情况下才能够正确地分类。

然而，在将计测信号作为分类对象的情况下，在用于分类器的学习的计测信号和实际成为分类对象的计测信号中，分别所包含的噪声脉冲(正事例)和对象碱基脉冲(负事例)的比例不一定一致，大多显示出两者从不同的总体分布中被提取的事例。因此，在使用基于贝叶斯估计原理的现有的PU分类手法将计测信号分类为正事例和负事例的情况下，无法达成足够的分类精度。

因此，在本申请中，提出了一种PU分类手法，根据学习用正事例集合和学习用未知事例集合，通过不依赖于未知事例集合所遵循的概率分布的最大似然估计原理，将具有任意的正负比例的概率分布的分类对象的事例高精度地分类为正事例或负事例，其中，所述学习用正事例集合是用于学习给出的正事例的集合，所述学习用未知事例集合是用于学习给出的正事例和负事例混合存在、正事例和负事例的比例未知的事例的集合。

以下，对本实施方式的PU分类手法进行说明。

将用于学习给出的有标签的正事例集合标记为D_LP，将用于学习给出的无标签的事例集合标记为D_LU，将每次计测取得的测试用无标签的事例集合标记为D_TU。D_LP的事例从正事例边缘分布(marginal distribution)p_LP(X|Y＝P)中被IID(独立同分布)抽样，D_LU、D_TU的事例分别从边缘分布p_LU(X)、p_TU(X)中被IID抽样。

在此，X表示特征向量。特征向量是包含反映从计测信号中得到的各脉冲的脉冲波形的特征量作为分量的向量。作为特征向量，例如可以使用以将从脉冲开始时间点直至结束时间点分割为十个区间的各区间中的计测电流值的平均值为分量的十维特征向量。需要说明的是，不限于计测电流值的平均值，也可以使用包含将脉冲峰值标准化为1的峰值、未标准化的峰值、将脉冲波长时间标准化为1的波长方向时间、未标准化的波长方向时间、将这些组合的值等特征量作为分量的特征向量。Y表示正负事例标签。在本实施方式中，将噪声脉冲作为正事例，将对象碱基脉冲作为负事例。

在本实施方式中，假定为p_LP(X|Y＝P)、p_LU(X)、p_TU(X)由同一不变的分布p(X|Y)构成(以下，称为假定1)。该假定1不是特殊的，在过去的所有的PU分类手法中，在所有事例集合中都假定有共同的p(X|Y)。此外，包括上述的纳米间隙传感器NS的各种计测系统被设计成稳定地实现不变的p(X|Y)，以便能够针对先验概率密度函数p(Y)的变化进行Y的稳健估计，由此可知，假定1不是特殊的。

根据假定1，p_LP(X|Y＝P)＝p(X|Y＝P)成立，因此使用关于Y＝P、N的共同的p(X|Y)、正负事例的类先验概率(class prior probabilities)π_L＝p_LU(Y＝P)以及π_T＝p_TU(Y＝P)，能够如下表示p_LU(X)以及p_TU(X)。

p_LU(X)＝π_L p(X|Y＝P)+(1－π_L)p(X|Y＝N)…(1)

p_TU(X)＝π_T p(X|Y＝P)+(1－π_T)p(X|Y＝N)…(2)

在此，π_L、π_T∈[0，1]的各自的值是未知的，但设为是独立给出的。为了构成不需要π_L以及π_T的估计的分类器，在本实施方式中，采用使用不受类先验概率的影响的最大似然估计原理的分类基准。

无标签测试事例x(∈D_TU)的最大似然Y根据假定1由以下的公式给出。

[数学式1]

在此，关于具有任意的π∈[0，1]、p_π(X)＝πp(X|Y＝P)+(1－π)p(X|Y＝N)，以下的两个不等式是等价的。

p(X|Y＝P)≥p_π(x)…(4)

p(Y|Y＝P)≥p(x|Y＝N)…(5)

基于假定1和公式(1)～公式(5)，得到在任意的π_L∈[0，1]下给出的以下的判定不等式。该判定不等式给出遵循具有独立于π_L而给出的任意的π_T∈[0，1]的p_TU(X)的事例x∈D_TU的最大似然分类基准。

[数学式2]

通过使用这样的最大似然分类基准，能够构成如下的分类器110：根据D_LP、D_LU分别非参数估计p(x|Y＝P)的估计值和p_LU(x)的估计值，使用上述判定不等式来最大似然估计x∈D_TU的标签y。

需要说明的是，在上述的最大似然分类基准中，在p(x|Y＝P)＝p_LU(x)的情况下，设为正事例，但在p(x|Y＝P)＝p_LU(x)的情况下，当然也可以使用判定为负事例的最大似然分类基准。

以下，对分类装置1的动作进行说明。

图5是对分类装置1执行的处理的步骤进行说明的流程图。分类装置1的控制部11判断当前时间点是否为学习阶段(步骤S101)。例如，在通过操作部15事先接受到向学习阶段转移的指示的情况下，控制部11能够判断为当前时间点为学习阶段。

在判断为学习阶段的情况下(S101：是)，控制部11通过输入部13取得学习用的事例(步骤S102)。在步骤S102中取得的事例是从学习用总体分布中被抽样的事例。此时，控制部11通过计测系统计测不包含对象碱基的溶液，取得多个仅包含噪声脉冲的计测信号作为已知是正事例的学习用的事例。此外，控制部11通过计测系统计测包含对象碱基的溶液，取得多个包含噪声脉冲和对象碱基脉冲双方的计测信号作为正负未知的学习用的事例。

接着，控制部11基于用于学习取得的已知为正事例的事例的集合即学习用正事例集合，估计作为分类对象给出的事例作为正事例从学习用总体分布中被提取的第一概率的分布函数(步骤S103)。具体而言，基于学习用正事例集合来估计上述的公式(6)中的p(x|Y＝P)的函数形式。

接着，控制部11基于用于学习取得的正负未知的事例的集合即学习用未知事例集合，估计从学习用总体分布中事例被抽样的第二概率的分布函数(步骤S104)。具体而言，基于学习用未知事例集合来估计上述的公式(6)中的p_LU(x)的函数形式。需要说明的是，步骤S103和S104的处理顺序是任意的。

接着，控制部11使用在步骤S103和S104中估计的分布函数来构成具有公式(6)的最大似然分类基准的分类器110(步骤S105)。控制部11将构成的分类器110存储于存储部12，结束学习阶段。

在步骤S101中判断为不是学习阶段的情况下(S101：否)，控制部11判断为是将输入的事例分类为正事例或负事例的分类阶段。

控制部11通过输入部13取得分类对象的事例(计测信号)(步骤S106)。在步骤S106中取得的事例是从分类用总体分布中被抽样的事例。

接着，控制部11使用在学习阶段中估计的第一概率的分布函数来计算取得的事例作为正事例从学习用总体分布中被抽样的第一概率的估计值(步骤S107)。

接着，控制部11使用在学习阶段中估计的第二概率的分布函数来计算从学习用总体分布中事例被抽样的第二概率的估计值(步骤S108)。需要说明的是，步骤S107和S108的处理顺序是任意的。

接着，控制部11判定计算出的第一概率p(x|X＝P)是否为第二概率p_LU(x)以上(步骤S109)。

在判断为第一概率p(x|X＝P)为第二概率p_LU(x)以上的情况下(S109：是)，控制部11判断为取得的事例为正事例(噪声)(步骤S110)，将判断结果存储于存储部12。

此外，在判断为第一概率p(x|X＝P)小于第二概率p_LU(x)的情况下(S109：否)，控制部11判断为取得的事例为负事例(对象碱基)(步骤S111)，将判断结果存储于存储部12。

需要说明的是，在本实施方式中，采用在第一概率p(x|X＝P)与第二概率p_LU(x)相等的情况下、控制部11判断为输入的事例为正事例(噪声)的构成，但也可以判断为负事例(对象碱基)。

接着，控制部11判断计测是否结束(步骤S112)。在判断为计测未结束的情况下(S112：否)，控制部11使处理返回步骤S106。在判断为计测结束的情况下(S112：是)，控制部11结束分类阶段。

以下，对第一实施方式的分类装置1的性能评价进行记载。

分类装置1将输入的分类对象的事例(计测信号)分类为正事例或负事例，但不可能知道包含对象碱基脉冲和噪声脉冲的事例集合中的哪个脉冲真正是对象碱基脉冲，因此无法将正负事例的分类结果作为性能指标。因此，针对测试用事例集合计算以下定义的伪F-measure的值(F tilde：～)，作为性能指标。

[数学式3]

在此，D_TP是测试用的正事例集合，D_TU是测试用的无标签事例集合。此外，有脱字号(hat：^)的D_TP是在测试用的正事例集合中估计为正事例的事例的集合，有脱字号的D^p _TU是在测试用的无标签事例集合中估计为正事例的事例的集合。

图6是表示第一实施方式的分类装置1的性能评价的图表。关于各事例集合，取得|D_LP|＝20、|D_LU|＝800用于学习，取得|D_TP|＝20、|D_TU|＝100用于测试。此外，作为比较对象，同时示出使用Elkan等的PU分类器(参照非专利文献1)、使用高斯朴素贝叶斯(Gaussiannaive Bayesian)估计(NE-E&N)和使用高斯核密度(Gaussian kernel density)的贝叶斯估计(KD-E&N)这两种手法运算p_LP(X|Y＝P)和p_LU(X)的估计值的结果。

各PU分类手法的伪F-measure的值如图6所示。作为D_TU，调查了计测的初始阶段(π_L≈π_T)、经过一段时间夹杂物变多的时期(π_L＜π_T)、夹杂物增加得非常多的时期(π_L＜＜π_T)这三种。伪F-measure的值与通常的值不同，未标准化为[0，1]，但该值越大表示分类性能越高。

如图6所示，可知第一实施方式的分类装置1(NL-PUC：Native Likelihood PUC)表现出与π_T的值无关、远高于现有手法的性能。

如上所述，在本实施方式中，即使在用于分类器的学习的事例与实际成为分类对象的事例之间分别所包含的噪声脉冲(正事例)和对象碱基脉冲(负事例)的比例不同的情况下，也能够将输入的事例高精度地分类为正事例或负事例。

(第二实施方式)

在第一实施方式中，采用使用已知为正事例的学习用正事例集合来估计第一概率的分布函数、使用正负未知的学习用未知事例集合来估计第二概率的分布函数的构成，但有时无法充分取得已知为正事例的学习用的事例。在无法充分得到已知为正事例的学习用的事例的情况下，估计的第一概率的分布函数的误差变大，其结果有可能分类精度降低。

因此，在第二实施方式中，对即使在学习时无法充分准备已知为正事例的学习用的事例的情况下也能够高精度地估计第一概率的分布函数的手法进行说明。

在第二实施方式中，不是仅使用已知为正事例的事例，而是同时使用通常能够准备足够的事例数的正负未知的事例，由此抑制关于第一概率的分布函数的估计精度的降低。

其目的在于，使用根据用于学习给出的无标签事例集合D_LU导出的p^(k-1)(X|Y＝P)的概率变量，反复地更新(update)p_LP(X|Y＝P)的估计值，由此得到更准确的p^(k)(X|Y＝P)的估计值。p^(k)(X|Y＝P)的估计值可以如下记述。

[数学式4]

在此，r∈[0，1]，k为2以上的整数。

核密度p_K(X|x)和其权重w(x)给出以下所示的p(X|Y＝P)的非非参数近似(nonparametric approximation)。

[数学式5]

为了减小统计误差，使用p^(k-1)(x|Y＝P)的估计值来反复地计算概率变量p^(k-1)(X|Y＝P)。

[数学式6]

在针对属于无标签事例集合D_LU的所有的x，w^(k-1)(x)的概率变量充分收敛的情况下，能够得到更准确的p^(k)(X|Y＝P)的估计值。

图7是表示第二实施方式的分类装置1的性能评价的图表。关于各事例集合，取得|D_LP|＝20、|D_LU|＝800用于学习，取得|D_TP|＝20、|D_TU|＝100用于测试。作为比较对象，同时示出使用高斯朴素贝叶斯估计(NE-E&N)和使用高斯核密度的贝叶斯估计(KD-E&N)这两种手法的Elkan等的PU分类器的性能评价以及在第一实施方式中说明的分类装置(NL-PUC)的性能评价。

各PU分类手法的伪F-measure的值如图7所示。作为D_TU，调查了计测的初始阶段(π_L≈π_T)、经过一段时间夹杂物变多的时期(π_L＜π_T)、夹杂物增加得非常多的时期(π_L＜＜π_T)这三种。伪F-measure的值与通常的值不同，未标准化为[0，1]，但该值越大表示分类性能越高。

如图7所示，可知第二实施方式的分类装置1(EL-PUC：Enhanced Likelihood PUC)尽管学习用的正事例数少，但也表现出比现有手法和第一实施方式的分类装置1(NL-PUC)高的性能。

如上所述，在本实施方式中，即使在作为学习用得到的正事例集合的事例数少的情况下，也能够提高估计精度，能够将计测信号高精度地分类为正事例或负事例。

应当认为本次公开的实施方式在所有方面都是例示性的，而不是限制性的。本发明的范围不是通过上述的意思，而是通过权利要求书来表示，其意图在于包括与权利要求书等同的意思和范围内的所有变更。

例如，在本实施方式中，作为一个例子，对如下构成进行了说明，使用仅包含噪声脉冲的事例和包含对象碱基脉冲以及噪声脉冲双方的事例对分类器110进行学习，从作为分类对象被输入的包含对象碱基脉冲以及噪声脉冲双方的事例中分类出正事例(噪声脉冲)和负事例(对象碱基脉冲)，但分类对象的事例不限于由特定的传感器计测出的计测信号(事例)，可以是任意的事例。

附图标记说明：

1：分类装置；11：控制部；12：存储部；13：输入部；14：通信部；15：操作部；16：显示部；110：分类器；120：学习部；M：记录介质。

Claims

1.一种PU分类装置，具备：

分类器，在给出了分类对象的事例的情况下，使用判定不等式将分类对象的事例最大似然分类为正事例或负事例，所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定；以及

学习部，根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数，根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数，由此对所述分类器进行学习，

其中，使用由所述学习部进行了学习的所述分类器，将分类对象的事例分类为正事例或负事例。

2.根据权利要求1所述的PU分类装置，其中，

所述学习部基于从所述学习用总体分布中被抽样的正事例的集合和从所述学习用总体分布中被抽样的正负未知的事例的集合双方，估计所述第一概率的分布函数。

3.根据权利要求2所述的PU分类装置，其中，

所述学习部通过核密度估计来估计所述第一概率的分布函数，所述核密度估计使用了核密度和针对所述核密度的权重。

4.根据权利要求1至3中任一项所述的PU分类装置，其中，

所述分类器在通过所述判定不等式判定为所述第一概率大于所述第二概率的情况下，将分类对象的事例分类为正事例，

在通过所述判定不等式判定为所述第一概率小于所述第二概率的情况下，将分类对象的事例分类为负事例。

5.一种PU分类方法，其中，

对于在给出了分类对象的事例的情况下使用判定不等式将分类对象的事例最大似然分类为正事例或负事例的分类器进行学习，其中，所述判定不等式对所述事例作为正事例从学习用总体分布中被抽样的第一概率与所述事例从所述学习用总体分布中被抽样的第二概率的大小关系进行判定，所述学习是通过根据从所述学习用总体分布中被抽样的正事例的集合来估计所述第一概率的分布函数，根据从所述学习用总体分布中被抽样的正负未知的事例的集合来估计所述第二概率的分布函数而进行的，

使用进行了学习的所述分类器将分类对象的事例分类为正事例或负事例。

6.一种PU分类程序，用于使计算机执行如下处理：