CN110084374A

CN110084374A - 构建基于pu学习的模型的方法、装置及预测方法、装置

Info

Publication number: CN110084374A
Application number: CN201910333907.2A
Authority: CN
Inventors: 涂威威; 王海
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02

Abstract

本发明公开了构建基于PU学习的模型的方法、装置及预测方法、装置，涉及机器学习技术领域，主要目的在于解决解决现有PU学习的模型训练过程中，需要操作人员具备一定的业务经验所导致的模型构建的难度较大、门槛较高的问题。本发明主要的技术方案为：获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；基于所述样本数据集训练得到多个候选模型；基于所述样本数据集构造评估集；根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果；选择评估结果符合预设条件的候选模型；根据预设的集成方法对所选择的模型进行集成，得到目标模型。本发明用于对PU学习的模型进行构建。

Description

构建基于PU学习的模型的方法、装置及预测方法、装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种构建基于PU学习的模型的方法、装置以及利用该模型进行预测的方法、装置。

背景技术

随着技术的不断进步，人工智能技术也逐步发展。其中，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。不论是训练机器学习模型，还是利用训练好的机器学习模型进行预测，数据都需要转换为包括各种特征的机器学习样本。

目前，在现实应用中，数据的获取是相对容易的，而对数据的标记则需要花费较高的人力、物力等资源，因此往往在某个数据集中会存在少量已标记的数据，记作正样本，以及大量未标记的数据。对于这种情况，一般会选择使用PU学习(Positive and unlabeledlearning，简称PU Learning)进行模型的训练。例如，在致病基因检测中，当已经识别出了一些致病基因后，可以将这部分基因视作正样本P，那么负样本则为非致病基因，但是我们并不能确定某一个基因到底是不是非致病基因，因为这个基因可能也是致病基因，只是我们还未发现而已，那么我们则可将这部分基因视作无标记样本U，由此我们的目标可以在P+U数据集上进行训练模型，使得训练后得到的模型能够识别出致病基因。

然而，在实际应用中，在通过PU学习来训练模型的过程中，往往是将未标记样本当做“负样本”进行模型的训练。而事实上，例如在银行卡漏点检测、商品或服务的推荐，以及图像或文本的分类等诸多领域中，有标记的数据仅为一小部分，大部分的数据仍属于未标记的数据。即在数据集中仅有少量的正样本，而其他均为未标记样本。在基于PU学习的模型训练过程中，针对不同的场景，PU学习模型的算法及超参数的选择是不同的，即在训练基于PU学习的模型时，操作人员需要具备针对不同场景的业务经验才能训练出较为适合的模型，从而导致现有的PU学习的模型在构建过程中，构建模型的门槛较高。

发明内容

鉴于上述问题，本发明提出了一种构建基于PU学习的模型的方法及装置，主要目的在于解决现有PU学习的模型训练过程中，需要操作人员具备一定的业务经验所导致的模型构建的难度较大、门槛较高的问题，从而降低构建模型的门槛。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种构建基于PU学习的模型方法，具体包括：

获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；

基于所述样本数据集训练得到多个候选模型；

基于所述样本数据集构造评估集；

根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果；

选择评估结果符合预设条件的候选模型；

根据预设的集成方法对所选择的模型进行集成，得到目标模型。

本发明还提供了一种利用机器学习模型执行预测任务的方法，其中，该方法包括：

根据如上任一项所述的方法，得到目标模型；

获取相应的预测样本数据；

利用所述目标模型对所述预测样本数据执行相应的预测任务。

可选地，所述获取相应的预测样本数据为：获取待预测的目标对象数据；所述利用所述目标模型对所述预测样本数据执行相应的预测操作为：利用所述目标模型针对所述待预测的目标对象数据执行目标对象推荐任务；

或者，所述获取相应的预测样本数据为：获取待检测泄漏点的被盗刷银行卡的交易数据；所述利用所述目标模型对所述预测样本数据执行相应的预测操作为：利用所述目标模型针对所述待检测泄漏点的被盗刷银行卡的交易数据执行银行卡泄露点检测任务；

或者，所述获取相应的预测样本数据为：获取待预测的图像/文本数据；所述利用所述目标模型对所述预测样本数据执行相应的预测操作为：利用所述目标模型针对所述待预测的图像/文本数据执行图像/文本分类任务；

或者，所述获取相应的预测样本数据为：获取待检测的基因数据；所述利用所述目标模型对所述预测样本数据执行相应的预测操作为：利用所述目标模型针对所述待检测的基因数据执行致病基因的检测任务。

另一方面，本发明提供一种构建基于PU学习的模型装置，具体包括：

获取单元，用于获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；

训练单元，用于基于所述样本数据集训练得到多个候选模型；

评估集构造单元，用于基于所述样本数据集构造评估集；

评估单元，用于根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果；

选择单元，用于选择评估结果符合预设条件的候选模型；

集成单元，用于根据预设的集成方法对所选择的模型进行集成，得到目标模型。

本发明还提供了一种利用机器学习模型执行预测任务的装置，其中，该装置包括：

如上任一项所述的装置，用于得到目标模型；

预测数据获取单元，用于获取相应的预测样本数据；

执行单元，用于利用所述目标模型对所述预测样本数据执行相应的预测任务。

可选地，所述预测数据获取单元，用于获取待预测的目标对象数据；所述执行单元，用于利用所述目标模型针对所述待预测的目标对象数据执行目标对象推荐任务；

或者，所述预测数据获取单元，用于获取待检测泄漏点的被盗刷银行卡的交易数据；所述执行单元，用于利用所述目标模型针对所述待检测泄漏点的被盗刷银行卡的交易数据执行银行卡泄露点检测任务；

或者，所述预测数据获取单元，用于获取待预测的图像/文本数据；所述执行单元，用于利用所述目标模型针对所述待预测的图像/文本数据执行图像/文本分类任务；

或者，所述预测数据获取单元，用于获取待检测的基因数据；所述执行单元，用于利用所述目标模型针对所述待检测的基因数据执行致病基因的检测任务。

另一方面，本发明提供一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现上述任一项所述方法。

另一方面，本发明提供一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述任一项所述方法。

借由上述技术方案，本发明提供的一种构建基于PU学习的模型的方法及装置，能够获取样本数据集，并基于所述样本数据集训练得到多个候选模型，再基于所述样本数据集构造评估集，根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果，最后选择评估结果符合预设条件的候选模型，并根据预设的集成方法对所选择的模型进行集成，得到目标模型，从而得到PU学习的模型，相对现有技术，本发明能够通过在获取到样本数据集后，根据多个候选模型及评估集进行评估，并根据评估结果选择符合预设条件的候选模型并集成，从而能够从多种不同的模型中选择适合的模型，无需人工介入时所需的业务经验便能够从对应不同算法及超参数的候选模型中选取适合样本数据的目标模型的功能，解决了现有的构建基于PU学习的模型的过程中需要针对不同场景的数据集所需的业务经验，降低了模型构建的门槛。同时，基于本方案在执行过程中无需人工的介入便能够自动运行，能够减少人工操作所需要的人力消耗，降低人力成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种构建基于PU学习的模型方法的流程图；

图2示出了本发明实施例提出的一种构建基于PU学习的模型装置的组成框图；

图3示出了本发明实施例提出的另一种构建基于PU学习的模型装置的组成框图；

图4示出了本发明实施例提出的一种实现目标对象推荐的系统的组成框图；

图5示出了本发明实施例提出的一种实现银行卡泄露点检测的系统的组成框图；

图6示出了本发明实施例提出的一种实现图像/文本分类的系统的组成框图；

图7示出了本发明实施例提出的一种致病基因检测的系统的组成框图。

具体实施方式

随着海量数据的出现，人工智能技术得到了迅速发展，而为了从大量数据中挖掘出价值，则要求相关人员不仅需要精通人工智能技术(特别是机器学习技术)，还需要非常熟悉应用机器学习技术的具体场景(例如，图像处理、语音处理、自动控制、金融业务、互联网广告等)。例如，若相关人员对业务了解不够，或建模经验不足，很容易导致较差的建模效果。目前可从两个方面缓解该现象，一是降低机器学习的门槛，使得机器学习算法易于上手；二是提高模型精度，使得算法通用性高，能够产生更好的结果。应理解，这两个方面并非对立，比如第二个方面中算法效果的提升，可以帮助第一点。此外，在期望利用已训练好的模型进行相应的目标预测时，相关人员不仅需要熟悉关于模型中的各种复杂技术细节，还需要理解所预测目标涉及的数据背后的业务逻辑，比如，如果想利用机器学习模型判别犯罪嫌疑犯，相关人员还必须理解哪些特性是犯罪嫌疑犯可能所具有的；如果想利用机器学习模型判别金融行业的欺诈交易，相关人员还必须了解金融行业的交易习惯以及一系列相应的专家规则等。上述种种都给机器学习技术的应用前景带来非常大的困难。

为此，技术人员希望通过技术的手段来解决上述问题，在有效提高已训练出的模型的预测效果的同时，降低模型训练和应用的门槛。在此过程中涉及诸多技术问题，例如，要想得到切实有效的模型，不仅要面对训练数据本身的不理想(例如，训练数据不足、训练数据存在缺失、训练数据稀疏、训练数据与预测数据的分布差异等)，还需要解决海量数据的运算效率问题。也就是说，现实中不可能依靠无限复杂的理想模型，利用完美的训练数据集来解决执行机器学习过程。作为针对预测目的数据处理系统或方法，任何用于训练模型的方案或利用模型进行预测的方案均必须受制于客观存在的数据限制和运算资源限制，通过在计算机中利用特定的数据处理机制来解决上述技术问题。这些数据处理机制所依托的是计算机的处理能力、处理方式和处理数据，并非是纯粹的数学或统计计算。

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种构建基于PU学习的模型方法，该方法可应用于诸如银行卡漏点检测、商品服务的推荐、以及图像或文本等分类过程中，上述场景中，已标记的正样本数据为一小部分，样本数据中的大部分为未标记的数据。该方法能够解决现有PU学习的模型训练过程中，需要操作人员具备一定的业务经验所导致的模型构建的难度较大、门槛较高的问题，大大降低了构建模型的门槛，本方法具体步骤如图1所示，包括：

101、获取样本数据集。

在很多实际情况中，数据很容易获得，但数据的标记过程需要花费高昂的人力物力资源。例如，在恶意代码检测、银行泄漏点检测、音乐推荐等过程中，往往只能获得少量的正样本数据(已知的恶意代码、泄露点、用户喜欢的音乐)以及大量的未标记样本数据。在此情况下，通常可以选择PU学习来进行模型训练，以便根据训练得到的模型对上述场景的数据进行分析和自动分类，其中PU(Positive and unlabeled learning，简称PU Learning)称作正例与未标记样本学习，即在只有正样本数据和未标记样本数据的情况下来训练分类模型。以往的研究通常从未标记样本中选取负类样本训练分类器，然而，在只含有正样本数据情况下，模型以及参数都很难选择出可靠的结果。

基于此，针对现有技术存在的问题，在本发明实施例中，首先可以根据本步骤的方法，进行样本数据集的获取，其中该样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据。

102、基于所述样本数据集训练得到多个候选模型。

在获取到样本数据集后，则可以由该样本数据集进行候选模型的训练，由于在模型训练过程中，样本数据集是由带正标签的正样本数据以及无标签的未标记样本数据构成，其中，在训练候选模型的过程中，还需要从样本数据集中选取用于训练模型的训练集，在本步骤中可以从样本数据集中进行抽样得到不同的训练集，其中该训练集中可以包含正样本数据的全部，以及部分的未标记样本。具体的，对于训练集的选取可以基于上述方式进行，在实际操作过程中还可以根据其他方式选取，例如，还可以从正样本和未标记样本中分别抽取其中的部分数据，分别作为训练集的正样本集和负样本集。

在得到多个不同的训练集后，则可以选取预设的机器算法及超参数来训练对应的候选模型，具体的，其机器算法可以从预设的机器算法集合中选取，超参数则可以由超参数组合的集合中获得，在此，所述候选模型可以是由一种机器学习算法，结合一组选定的超参数以及对应的多个训练集中的一个训练集所确定的。

例如，机器学习算法集合为：[算法1，算法2，算法3]，超参数组合的集合为：[超参数组合1，超参数组合2，……,超参数组合10]，训练集包括：训练集1，训练集2，……，训练集8。则选择“算法1+超参数组合1+训练集1”可确定一个候选模型，选择“算法2+超参数组合1+训练集1”可确定另一个候选模型，选择“算法1+超参数组合2+训练集1”可确定又一个候选模型，选择“算法1+超参数组合1+训练集2”可确定再一个候选模型，以此类推。

需要说明的是，在本发明实施例中，为了进一步提高PU学习的模型构建结果的准确性，在本发明实施例中可以尽可能多的训练候选模型，在实际应用中可以选取符合实际需要的数量进行候选模型的训练。

103、基于所述样本数据集构造评估集。

由于前述步骤102中得到了多个候选模型，而为了确定候选模型的准确程度，还需要对其进行评估，因此，在本步骤中可以首先根据样本数据集来构建用于后续评估时的数据集，即本发明实施例所述的评估集。其中该评估集可以从样本数据集中的正样本数据及未标记样本数据中分别抽样得到的。其中，为了进一步的提高评估结果的准确性，还可以多次按上述方式进行抽取，得到多个不同的评估集，以便后续能够通过多个评估集对多个候选模型中的每一个进行多次评估。

104、根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果。

在构建了评估集后，则可以对多个候选模型进行评估，该评估过程可以是通过评估集以及预设的评估条件分别对每个模型进行评估，得到对应每个候选模型的评估结果。其中，该预设评估条件可以选取常用的任意一种评估条件，例如，当所选择的评估条件为AUC值时，则可以根据每个评估集的AUC值作为评估结果进行后续的判断。

105、选择评估结果符合预设条件的候选模型。

基于前述评估过程的不同，在本步骤中确定符合评估条件的候选模型的方式上也存在区别，如前述示例所示，当选取的预设评估条件为AUC值时，则每个候选模型在评估后都能得到对应的AUC值，这样在本步骤中则可以按照AUC值的大小进行选取，其中，可以预先设置预设条件为：超过AUC阈值的候选模型为适合的模型。则可以根据该预设条件将评估得到的AUC值超过该AUC阈值的候选模型则确定为符合预设条件的候选模型。当然，在本步骤中所述的方式仅仅为示例性的，当选取的预设条件不同时，本步骤中选择的结果也存在不同，当然，在此需要说明的是，无论前述选取的预设评估条件是哪种，都要确保本步骤所选择的结果是符合预设条件的候选模型。

106、根据预设的集成方法对所选择的模型进行集成，得到目标模型。

在实际操作过程中，前述步骤105中选取的符合预设评估条件的候选模型往往是多个，为了进一步的确保基于PU学习的模型构建的准确性，在本步骤中还可以将上述符合预设条件的候选模型进行集成，其中集成的过程可以按照评估结果排序，并为其进行权重分配，从而按照权重值对候选模型进行集成。

在本发明的图1所示的实施例中，步骤101所获取的样本数据集可以是关于目标对象的数据集，其中，被用户选择过的目标对象的数据为正样本数据，未被用户选择过的目标对象的数据为未标记样本数据；则所述目标模型用于执行目标对象推荐任务；

或者，步骤101所获取的样本数据集是被盗刷的银行卡的交易数据集，其中，已标记泄露点的被盗刷银行卡的交易数据为正样本数据，未标记泄露点的被盗刷银行卡的交易数据为未标记样本数据；则所述目标模型用于执行银行卡泄露点检测任务；

或者，步骤101所获取的样本数据集是图像/文本数据集，其中，已有分类标记的图像/文本数据为正样本数据，无分类标记的图像/文本数据为未标记样本数据；则所述目标模型用于执行图像/文本分类任务；

或者，步骤101所获取的样本数据集是基因数据集，其中，已知的致病基因数据为正样本数据，未检测的基因数据为未标记样本数据；则所述目标模型用于执行致病基因的检测任务。

为了更好的对本发明实施例提供的构建基于PU学习的模型的方法进行说明，以下实施例将针对上述各步骤进行细化和扩展。

其中，基于模型的训练过程中，是一种机器学习算法、一组超参数和一个训练集确定一个候选模型来实现的，因此，在获取到所述样本数据集后，则在基于所述样本数据集训练得到多个候选模型的过程中，具体的可以为：首先基于所述样本数据集构建多个用以训练候选模型的训练集。然后从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择，训练得到多个候选模型。在此，对于机器学习算法、超参数的选取可以根据实际情况如上述所述的自行选取，在此并不做限定。

同时，在基于所述样本数据集构建多个训练集时，则在具体实施过程可以包括：首先基于所述样本数据集中的至少部分正样本数据构建一个正样本训练子集，并对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集。然后再将所述正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。当然，在构建训练集中正样本训练子集的过程中，可以如上述所述的构建一个正样本训练集，还可以从样本数据集中抽取部分正样本来进行训练集的构建，具体的可以为：首先，基于所述样本数据集中的至少部分正样本数据构建多个正样本训练子集，并对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集。然后，再将每个正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。

另外，基于前述步骤得到了多个候选模型，对于这些模型而言，其准确性是不同的，因此，在本发明实施例中还需要对这些候选模型进行评估，以便得到相对准确的模型，因此，在所述基于所述样本数据集构造评估集时，还可以具体为：对所述样本数据集中的正样本数据进行采样构建正样本评估子集，对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集，将正样本评估子集和负样本评估子集组合得到评估集。此外，为了进一步的提高评估结果的准确性，还可以在本步骤中构造多个评估集，以便后续利用多个评估集对每个候选模型进行多次评估，并按照多次评估结果确定综合评估效果，因此，基于所述样本数据集构造评估集时还可以具体为：基于所述样本数据集构建多个评估集，其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据。

当构建的评估集为多个评估集时，所述根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果的步骤，则可以按照下述方式进行：首先，对于每个候选模型，根据所述多个评估集和预设评估条件分别对该候选模型进行评估，得到多个评估结果。然后，对每个候选模型的多个评估结果进行融合，并将融合了所述多个评估结果得到该候选模型对应的最终评估结果作为实际的评估结果。

需要说明的是，在本发明实施例中，基于不同的预设评估条件对评估方式及评估结果存在直接影响，因此对于评估结果而言，基于不同的预设评估条件其对应的评估结果也是不同的，例如：当所述预设评估条件为最大间隔法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的预测结果的分类间隔。而当所述预设评估条件为计算AUC值的方法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的AUC值。其中，AUC值可以理解为一个概率值，当你随机挑选一个正样本以及负样本时，当前的分类算法根据计算得到的分数值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，说明当前分类模型越有可能将正样本排在负样本前面，从而能够更好地分类，从而确定模型的分类效果更为准确。

基于前述不同的预设评估条件，在选择评估结果符合预设条件的候选模型时，对于符合预设条件的候选模型的选择方式也存在不同：一方面，当所述预设评估条件为最大间隔法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的预测结果的分类间隔。在选择模型时则可以为：选择对应预测结果的分类间隔大于预设值的候选模型。另一方面，当所述预设评估条件为计算AUC值的方法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的AUC值。在选择模型时可以为：选择对应AUC值大于预设值的候选模型。

此外，在根据预设的集成方法对所选择的模型进行集成，得到目标模型时，基于在选择评估结果符合预设条件的候选模型时所得到符合预设条件的候选模型往往是多个，并且上述候选模型的准确性也不是相同的，为了进一步确保得到的模型的准确性，对于这种情况，需要将上述模型进行集成，其中，在集成时其过程可以为：按照对应的评估结果为每个所选择的候选模型分配对应的权重值，并根据权重值对所选择的候选模型进行集成。

进一步的，作为上述构建的基于PU学习的模型的目的不仅仅在于获取一个较为准确的模型，其实际意义还在于实际场景的应用以解决实际问题，例如，目标对象推荐、银行卡泄露点检测、图像/文本分类以及致病基因检测的过程中。因此，本发明的实施例还提供了一种利用机器学习模型执行预测任务的方法，其中，该方法包括：根据图1所述的方法，得到目标模型；获取相应的预测样本数据；利用所述目标模型对所述预测样本数据执行相应的预测任务。其中：

所述获取相应的预测样本数据为：获取待预测的目标对象数据；所述利用所述目标模型对所述预测样本数据执行相应的预测操作为：利用所述目标模型针对所述待预测的目标对象数据执行目标对象推荐任务；

以下示例中本发明还公开了如下方法。

示例一

本发明还提供一种实现目标对象推荐的方法，该方法包括：

11)根据如图1所述的方法，得到目标模型，其中，训练该目标模型的样本数据集是关于目标对象的数据集，其中，被用户选择过的目标对象的数据为正样本数据，未被用户选择过的目标对象的数据为未标记样本数据；

12)获取待预测的目标对象数据，其中，所述目标对象为通过互联网提供的商品或服务。

13)利用所得到的目标模型执行目标对象推荐任务，具体是利用目标模型预测出待预测的目标对象的推荐值(如推荐概率)。

在实现目标对象推荐的过程中，可以首先获取待预测的目标对象数据。其中，该目标对象推荐的具体实施场景可以是对用户购物过程中，确定用户喜好的商品，也可以是用户收听音乐的过程中，确定用户喜好的音乐。

例如，在购物场景中，第一，获取历史的商品数据作为样本数据，其中，在历史的样本数据中，正样本数据可以为用户添加至购物车的商品数据、添加至收藏夹的商品数据、或者是多次浏览的商品数据，而未标记样本数据则可以是其他未被用户添加过购物车的商品数据、或者是未添加过收藏夹的商品数据或者是未浏览过的商品数据。在此，对于正样本数据以及未标记样本数据的设定可以根据实际情况确定。譬如，当商品推荐的目的在于向用户推荐其能够添加到购物车的商品时，则该正样本数据则可以选取用户添加过购物车的商品数据，而未标记样本数据则可以是除了正样本数据外的其他全部商品数据。

第二，根据上述确定的正样本数据以及未标记样本数据，作为样本数据，并以此基础上按照如前述实施例中的方法进行目标模型的构建，具体的可以为：

首先、基于所述样本数据集训练得到多个候选模型。

一个候选模型则是由一种机器算法、一组超参数和一个训练集所确定的。因此，在训练候选模型之前，首先需要进行训练集的构建，其训练集的构建过程可以是从正样本数据中选取部分得到一个正样本训练子集，以及从多个未标记样本数据中抽样得到多个个负样本训练子集然后二者组合得到多个训练子集。或者是从正样本数据构建多个正样本训练子集，然后抽样负样本数据得到多个负样本训练子集，将多个正样本训练子集与多个负样本训练子集进行组合得到多个训练集

同时，基于所述样本数据集构造评估集。

在此，构造评估集的过程可以是：对所述样本数据集中的正样本数据进行采样构建正样本评估子集，对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集，将正样本评估子集和负样本评估子集组合得到评估集。当然，在构建时，还可以基于所述样本数据集构建多个评估集，其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据。

其次，根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果。

其中，对于每个候选模型，根据所述多个评估集和预设评估条件分别对该候选模型进行评估，得到多个评估结果，融合所述多个评估结果得到该候选模型对应的最终评估结果。

在此需要说明的是，基于所选取的评估条件的不同，评估结果也是不同的，例如，所述预设评估条件为最大间隔法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的预测结果的分类间隔；所述选择评估结果符合预设条件的候选模型包括：选择对应预测结果的分类间隔大于预设值的候选模型。而基于评估条件、评估结果的不同，选取模型时的依据也是不同的，例如：所述预设评估条件为计算AUC值的方法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的AUC值；所述选择评估结果符合预设条件的候选模型包括：选择对应AUC值大于预设值的候选模型。

再次，选择评估结果符合预设条件的候选模型。

最后，根据预设的集成方法对所选择的模型进行集成，得到目标模型。

其中，在进行集成时，为了确保所确定模型的准确性，可以按照对应的评估结果为每个所选择的候选模型分配对应的权重值，然后再根据权重值对所选择的候选模型进行集成。在此，所得到的目标模型则为能够对商品数据进行预测，以判断是否是用户能够将商品添加的购物车的检测模型。

第三、在按照上述步骤得到了能够对商品数据进行预测的目标模型后，则可以利用该目标模型执行商品推荐检测的任务，通过该目标模型能够对获取到的商品数据进行检测，确定其是否为正样本数据，即从未知用户喜好的商品中确定哪些是用户喜欢的、能够添加购物车的商品，从而实现对用户进行商品推荐的功能，从而实现从已有的少量已知的用户所喜欢的商品或服务的情况下，对未知用户是否喜欢的商品或服务进行判断，从而实现将正样本数据对应的商品推荐给用户的功能。

此外，在用户收听音乐的场景中，当需要对音乐数据进行用户推荐的预测任务时，可以首先获取需要预测的音乐，即获取所述待预测音乐数据，然后根据历史数据构建用于进行预测的检测模型，具体的第一，获取历史数据中的音乐文件数据作为样本数据，其中，在样本数据中，正样本数据可以为用户已下载的音乐文件数据、添加为收藏的音乐文件数据、或者是多次播放的音乐文件数据，而未标记样本数据则可以是其他未被下载的音乐文件数据、或者是未添加为收藏夹音乐文件数据或者是未播放的音乐文件数据。在此，对于正样本数据以及未标记样本数据的设定可以根据实际情况确定。譬如，当音乐推荐的目的在于向用户推荐其能够下载的音乐时，则该正样本数据则可以选取用户下载过的音乐文件数据，而未标记样本数据则可以是除了正样本数据外的其他全部音乐文件数据。

首先、基于所述样本数据集训练得到多个候选模型。

同时，基于所述样本数据集构造评估集。

再次，选择评估结果符合预设条件的候选模型。

其中，在进行集成时，为了确保所确定模型的准确性，可以按照对应的评估结果为每个所选择的候选模型分配对应的权重值，然后再根据权重值对所选择的候选模型进行集成。在此，所得到的目标模型则为能够预测用户是否能够下载音乐文件的检测模型。

第三、在按照上述步骤得到了能够对音乐文件数据进行预测的目标模型后，则可以利用该目标模型执行音乐推荐的检测任务，通过该目标模型能够对获取到的音乐文件数据进行检测，确定其是否为正样本数据，即从未知用户喜好的音乐文件中确定哪些是用户喜欢的、能够下载的音乐文件，从而实现对用户进行音乐推荐的功能，从而实现从已有的少量已知的用户所喜欢的商品或服务的情况下，对未知用户是否喜欢的商品或服务进行判断，从而实现将正样本数据所对应的音乐推荐给用户的功能。

示例二

本发明还提供一种实现银行卡泄露点检测的方法，该方法包括：

21)根据如图1所述的方法，得到目标模型，其中，训练该目标模型的样本数据集是被盗刷的银行卡的交易数据集，其中，已标记泄露点的被盗刷银行卡的交易数据为正样本数据，未标记泄露点的被盗刷银行卡的交易数据为未标记样本数据；

22)获取待检测泄漏点的被盗刷银行卡的交易数据。

23)利用所得到的目标模型执行银行卡泄露点检测任务。

在训练实现银行卡泄露点检测的模型的过程中，可以第一获取历史的被盗刷银行卡的交易数据。

第二，在历史数据中，将已知泄漏点的交易数据作为正样本数据，未标记泄漏点的交易数据作为未标记样本数据，由上述正样本数据及未标记样本数据构成样本数据集，并以此基础上按照如前述实施例中的方法进行目标模型的构建，具体的可以为：

首先、基于所述样本数据集训练得到多个候选模型。

同时，基于所述样本数据集构造评估集。

再次，选择评估结果符合预设条件的候选模型。

其中，在进行集成时，为了确保所确定模型的准确性，可以按照对应的评估结果为每个所选择的候选模型分配对应的权重值，然后再根据权重值对所选择的候选模型进行集成。在此，所得到的目标模型则为能够检测已被盗刷的银行卡的交易数据中哪些是通过泄漏点的交易数据，从而实现泄漏点的检测。

第三、当根据前述步骤得到用于进行泄漏点检测的目标模型后，则可以利用该模型对被盗刷的银行卡的交易数据进行检测，从而实现银行卡泄漏点的检测功能。

示例三

本发明还提供一种实现图像/文本分类的方法，该方法包括：

31)根据如图1所述的方法，得到目标模型，其中，训练该目标模型的样本数据集是图像/文本数据集，其中，已有分类标记的图像/文本数据为正样本数据，无分类标记的图像/文本数据为未标记样本数据；所述目标模型用于执行图像/文本分类任务；

32)获取待预测的图像/文本数据。

33)利用所得到的目标模型执行图像/文本分类任务。

在实现图像/文本分类的过程中，具体可以为：第一、获取待预测的图像/文本数据。

第二，获取图像/文本历史数据，在该历史数据中包含已分类的数据作为正样本数据以及未分类的数据作为未标记样本数据，并将该历史数据作为样本数据进行获取，再以此基础上按照如前述实施例中的方法进行目标模型的构建，具体的可以为：

首先、基于所述样本数据集训练得到多个候选模型。

同时，基于所述样本数据集构造评估集。

再次，选择评估结果符合预设条件的候选模型。

第三、在根据前述步骤得到用于进行文本/图像进行分类的目标模型后，则可以利用该目标模型对图像或文本进行分类操作。

示例四

本发明还提供一种实现致病基因检测的方法，该方法包括：

41)根据如图1所述的方法，得到目标模型，其中，训练该目标模型的样本数据集是是因数据集，其中，已知的致病基因数据为正样本数据，未检测的基因数据为未标记样本数据；所述目标模型用于执行致病基因的检测任务；

42)获取待检测的基因数据。

43)利用所得到的目标模型执行致病基因的检测任务。

在进行致病基因检测的场景中，其实施过程可以为：

第一、获取待检测的基因数据；

第二、获取基因数据的历史数据，其中该历史数据包含已知的致病基因数据作为正样本数据，以及未知的基因数据作为未标记样本数据，将上述正样本数据集未标记样本数据作为样本数据并获取，然后以此基础上按照如前述实施例中的方法进行目标模型的构建，具体的可以为：

首先、基于所述样本数据集训练得到多个候选模型。

同时，基于所述样本数据集构造评估集。

再次，选择评估结果符合预设条件的候选模型。

其中，在进行集成时，为了确保所确定模型的准确性，可以按照对应的评估结果为每个所选择的候选模型分配对应的权重值，然后再根据权重值对所选择的候选模型进行集成。由此，得到的该目标模型则为能够对未知的基因数据进行预测，以判断其是否为致病基因的致病基因检测模型。

第三、在根据上述步骤训练处致病基因检测模型后，则可以利用所得到的该致病基因检测模型执行致病基因的检测任务。

此外，作为对上述构建基于PU学习的模型方法的实现，本发明实施例提供了一种构建基于PU学习的模型装置，该装置主要用于提高基于PU学习的模型构建结果的准确性。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图2所示，具体包括：

获取单元21，可以用于获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；

训练单元22，可以用于基于所述获取单元21获取的样本数据集训练得到多个候选模型；

评估集构造单元23，可以用于基于所述获取单元21获取的样本数据集构造评估集；

评估单元24，可以用于根据所述评估集构造单元23构建的评估集，以及预设评估条件分别对训练单元22训练处的每个候选模型进行评估，得到对应每个候选模型的评估结果；

选择单元25，可以用于选择所述评估单元24得到的评估结果符合预设条件的候选模型；

集成单元26，可以用于根据预设的集成方法对所选择单元25所选择的模型进行集成，得到目标模型。

进一步的，如图3所示，所述训练单元22包括：

构建模块221，可以用于基于所述样本数据集构建多个训练集；

训练模块222，可以用于从机器学习算法的集合、超参数组合的集合以及所述构建模块221构建的多个训练集中分别进行选择，训练得到多个候选模型；其中，一种机器学习算法、一组超参数和一个训练集确定一个候选模型。

进一步的，如图3所示，所述构建模块221包括：

第一构建子模块2211，可以用于基于所述样本数据集中的至少部分正样本数据构建一个正样本训练子集，对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集，将所述正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集；

第二构建子模块2212，可以用于基于所述样本数据集中的至少部分正样本数据构建多个正样本训练子集，对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集，将每个正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。

进一步的，如图3所示，所述评估单元24，可以具体用于对所述样本数据集中的正样本数据进行采样构建正样本评估子集，对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集，将正样本评估子集和负样本评估子集组合得到评估集。

进一步的，如图3所示，所述评估集构造单元23，可以具体用于基于所述样本数据集构建多个评估集，其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据；

所述评估单元24，还可以具体用于对于每个候选模型，根据所述评估集构造单元23构建的多个评估集和预设评估条件分别对该候选模型进行评估，得到多个评估结果，融合所述多个评估结果得到该候选模型对应的最终评估结果。

进一步的，如图3所示，所述预设评估条件为最大间隔法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的预测结果的分类间隔；

所述选择单元25，可以具体用于选择对应预测结果的分类间隔大于预设值的候选模型。

进一步的，如图3所示，所述预设评估条件为计算AUC值的方法时，所述对应每个候选模型的评估结果是每个候选模型在评估集上的AUC值；

所述选择单元25，还可以具体用于选择对应AUC值大于预设值的候选模型。

进一步的，如图3所示，所述集成单元26，可以具体用于按照对应的评估结果为每个所选择的候选模型分配对应的权重值，并根据权重值对所选择的候选模型进行集成。

进一步地，

所述获取单元21用于获取关于目标对象的数据集，其中，被用户选择过的目标对象的数据为正样本数据，未被用户选择过的目标对象的数据为未标记样本数据；所述目标模型用于执行目标对象推荐任务；

或者，所述获取单元21用于获取被盗刷的银行卡的交易数据集，其中，已标记泄露点的被盗刷银行卡的交易数据为正样本数据，未标记泄露点的被盗刷银行卡的交易数据为未标记样本数据；所述目标模型用于执行银行卡泄露点检测任务；

或者，所述获取单元21用于获取图像/文本数据集，其中，已有分类标记的图像/文本数据为正样本数据，无分类标记的图像/文本数据为未标记样本数据；所述目标模型用于执行图像/文本分类任务；

或者，所述获取单元21用于获取基因数据集，其中，已知的致病基因数据为正样本数据，未检测的基因数据为未标记样本数据；所述目标模型用于执行致病基因的检测任务。

如图2所示的装置，用于得到目标模型；

预测数据获取单元，用于获取相应的预测样本数据；

其中，所述预测数据获取单元，用于获取待预测的目标对象数据；所述执行单元，用于利用所述目标模型针对所述待预测的目标对象数据执行目标对象推荐任务；

基于前述实施例所述的方法和装置，结合具体的应用场景，在诸如音乐推荐、商品推荐等目标对象推荐的过程中，本发明实施例还提供了一种实现目标对象推荐的系统，用以对实现目标对象的推荐功能的实现，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的，如图4所示，包括：

目标对象数据获取单元41，可以用于获取待预测的目标对象数据；

构建基于PU学习的模型的装置42，用于基于样本数据集，得到目标模型，其中，训练该目标模型的样本数据集是关于目标对象的数据集，其中，被用户选择过的目标对象的数据为正样本数据，未被用户选择过的目标对象的数据为未标记样本数据；在本发明的实施例中，构建基于PU学习的模型的装置42具体可以是如图2或图3所示；

执行单元43，可以用于利用构建基于PU学习的模型的装置42所得到的目标模型执行目标对象推荐任务；其中，所述目标对象为通过互联网提供的商品或服务。

另外，结合具体的应用场景，在银行卡泄漏点检测的过程中，本发明实施例还提供了一种实现银行卡泄露点检测的系统，用以对实现银行卡交易数据中进行泄漏点的检测功能，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的，如图5所示，包括：

交易数据获取单元51，可以用于获取待检测泄漏点的被盗刷银行卡的交易数据；

构建基于PU学习的模型的装置52，用于基于样本数据集，得到目标模型，其中，训练该目标模型的样本数据集是被盗刷的银行卡的交易数据集，其中，已标记泄露点的被盗刷银行卡的交易数据为正样本数据，未标记泄露点的被盗刷银行卡的交易数据为未标记样本数据；在本发明的实施例中，构建基于PU学习的模型的装置52具体可以是如图2或图3所示；

执行单元53，可以用于利用构建基于PU学习的模型的装置52所得到的目标模型执行银行卡泄露点检测任务；

其中，所述交易数据集中包含有每一个银行卡的每次交易时的交易时间及交易时的终端设备标识。

此外，结合具体的应用场景，在文本、图像进行分类的过程中，本发明实施例还提供了一种实现图像/文本分类的系统，用以实现对文本、图像进行分类的功能，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的，如图6所示，包括：

图像/文本数据获取单元61，可以用于获取待预测的图像/文本数据；

构建基于PU学习的模型的装置62，用于基于样本数据集，得到目标模型，其中，训练该目标模型的样本数据集是图像/文本数据集，其中，已有分类标记的图像/文本数据为正样本数据，无分类标记的图像/文本数据为未标记样本数据；在本发明的实施例中，构建基于PU学习的模型的装置62具体可以是如图2或图3所示；

执行单元63，可以用于利用构建基于PU学习的模型的装置62所得到的目标模型执行图像/文本分类任务。

此外，结合具体的应用场景，在基因检测的过程中，本发明实施例还提供了一种致病基因检测的系统，用以对从未知的基因中检测出致病基因，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的，如图7所示，包括：

基因数据获取单元71，可以用于获取待检测的基因数据；

构建基于PU学习的模型的装置72，用于基于样本数据集，得到目标模型，其中，训练该目标模型的样本数据集是基因数据集，其中，已知的致病基因数据为正样本数据，未检测的基因数据为未标记样本数据；在本发明的实施例中，构建基于PU学习的模型的装置72具体可以是如图2或图3所示；

执行单元73，可以用于利用构建基于PU学习的模型的装置72所得到的目标模型执行致病基因的检测任务。

进一步的，本发明实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现上述的构建基于PU学习的模型方法。

另外，本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的构建基于PU学习的模型方法。

综上所述，本发明实施例提出的一种构建基于PU学习的模型的方法及装置，能够获取样本数据集，并基于所述样本数据集训练得到多个候选模型，再基于所述样本数据集构造评估集，根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果，最后选择评估结果符合预设条件的候选模型，并根据预设的集成方法对所选择的模型进行集成，得到目标模型，从而得到PU学习的模型，相对现有技术，本发明能够通过在获取到样本数据集后，根据多个候选模型及评估集进行评估，并根据评估结果选择符合预设条件的候选模型并集成，从而能够从多种不同的模型中选择适合的模型，无需人工介入时所需的业务经验便能够从对应不同算法及超参数的候选模型中选取适合样本数据的目标模型的功能，解决了现有的构建基于PU学习的模型的过程中需要针对不同场景的数据集所需的业务经验，降低了模型构建的门槛。同时，基于本方案在执行过程中无需人工的介入便能够自动运行，能够减少人工操作所需要的人力消耗，降低人力成本。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述的方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种构建基于PU学习的模型的方法，包括：

基于所述样本数据集训练得到多个候选模型；

基于所述样本数据集构造评估集；

选择评估结果符合预设条件的候选模型；

2.如权利要求1所述的方法，其中，基于所述样本数据集训练得到多个候选模型包括：

基于所述样本数据集构建多个训练集；

从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择，训练得到多个候选模型；其中，一种机器学习算法、一组超参数和一个训练集确定一个候选模型。

3.如权利要求2所述的方法，其中，所述基于所述样本数据集构建多个训练集包括：

基于所述样本数据集中的至少部分正样本数据构建一个正样本训练子集，对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集，将所述正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集；

或者，

基于所述样本数据集中的至少部分正样本数据构建多个正样本训练子集，对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集，将每个正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。

4.如权利要求1所述的方法，其中，所述基于所述样本数据集构造评估集包括：

对所述样本数据集中的正样本数据进行采样构建正样本评估子集，对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集，将正样本评估子集和负样本评估子集组合得到评估集。

5.如权利要求1所述的方法，其中，

所述基于所述样本数据集构造评估集包括：基于所述样本数据集构建多个评估集，其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据；

所述根据所述评估集，以及预设评估条件分别对每个候选模型进行评估，得到对应每个候选模型的评估结果，包括：对于每个候选模型，根据所述多个评估集和预设评估条件分别对该候选模型进行评估，得到多个评估结果，融合所述多个评估结果得到该候选模型对应的最终评估结果。

6.一种利用机器学习模型执行预测任务的方法，其中，该方法包括：

根据如权利要求1-5中任一项所述的方法，得到目标模型；

获取相应的预测样本数据；

7.一种构建基于PU学习的模型的装置，包括：

评估集构造单元，用于基于所述样本数据集构造评估集；

选择单元，用于选择评估结果符合预设条件的候选模型；

8.一种利用机器学习模型执行预测任务的装置，其中，该装置包括：

如权利要求7所述的装置，用于得到目标模型；

预测数据获取单元，用于获取相应的预测样本数据；

9.一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现权利要求1-6中任意一项所述的方法。

10.一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-6中任一项所述的方法。