CN111400174B

CN111400174B - 数据源的应用效能的确定方法、装置和服务器

Info

Publication number: CN111400174B
Application number: CN202010146812.2A
Authority: CN
Inventors: 张敏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2022-08-12
Anticipated expiration: 2040-03-05
Also published as: CN111400174A

Abstract

本说明书提供了数据源的应用效能的确定方法、装置和服务器。在一个实施例中，该方法通过引入并利用了潜在价值参数，其中，该参数可以表征出测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益，并结合基于目标数据源的测试数据，和目标应用场景已有的样本数据所得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度评价参数来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值。

Description

数据源的应用效能的确定方法、装置和服务器

技术领域

本说明书属于互联网技术领域，尤其涉及数据源的应用效能的确定方法、装置和服务器。

背景技术

随着互联网技术的发展，与应用场景匹配、数据价值高的数据资源变得越来越重要。

数据使用方在针对某个应用场景进行数据处理时，往往希望拥有数据量较大、内容较全面、维度较细，且与该应用场景匹配的数据源。通过上述数据源，数据使用方可以获得大量在该应用场景下应用效果较好、参考价值较高的业务数据。进一步可以利用上述业务数据较为准确地理解、描绘出该应用场景中数据的联系和规律，进而能较好地进行针对应用场景的具体的数据处理。

因此，亟需一种能够较为准确地评价判断数据源针对应用场景的应用效能的方法。

发明内容

本说明书提供了一种数据源的应用效能的确定方法、装置和服务器，以达到能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值。

本说明书提供的一种数据源的应用效能的确定方法、装置和服务器是这样实现的：

一种数据源的应用效能的确定方法，包括：从目标数据源中获取多个数据作为针对目标应用场景的测试数据；获取与目标应用场景对应的已有业务数据，作为样本数据；根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

一种数据源的应用效能的确定装置，包括：第一获取模块，用于从目标数据源中获取多个数据作为针对目标应用场景的测试数据；第二获取模块，用于获取与目标应用场景对应的已有业务数据，作为样本数据；第一确定模块，用于根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；第二确定模块，用于根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现从目标数据源中获取多个数据作为针对目标应用场景的测试数据；获取与目标应用场景对应的已有业务数据，作为样本数据；根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现从目标数据源中获取多个数据作为针对目标应用场景的测试数据；获取与目标应用场景对应的已有业务数据，作为样本数据；根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

本说明书提供的数据源的应用效能的确定方法、装置和服务器，通过引入并利用能够表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益的潜在价值参数，结合基于目标数据源的测试数据，和目标应用场景的已有样本数据所得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度的评价参数来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的数据源的应用效能的确定方法的系统结构组成的一个实施例的示意图；

图2是在一个场景示例中，应用本说明书实施例提供的数据源的应用效能的确定方法的一种实施例的示意图；

图3是在一个场景示例中，应用本说明书实施例提供的数据源的应用效能的确定方法的一种实施例的示意图；

图4是本说明书的一个实施例提供的数据源的应用效能的确定方法的流程示意图；

图5是本说明书的一个实施例提供的服务器的结构组成示意图；

图6是本说明书的一个实施例提供的数据源的应用效能的确定装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种数据源的应用效能的确定方法，所述数据源的应用效能的确定方法具体可以应用于数据处理系统的第一服务器中。

具体实施时，可以参阅图1所示，上述第一服务器作为数据使用方可以对待接入的目标数据源的数据价值进行判断、评价。具体的，第二服务器作为数据提供方，为第一服务器提供目标数据源。上述第一服务器可以从第二服务器所提供的目标数据源中获取多个数据作为针对目标应用场景的测试数据。同时，第一服务器还会获取与目标应用场景对应的已有业务数据，作为样本数据。例如，可以从目标应用场景的已有数据源中获取已有业务数据作为样本数据。进而可以根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；进一步可以根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。第一服务器可以根据所确定出的目标数据源针对目标应用场景的应用效能来评价待接入的目标数据源针对目标应用场景的数据价值，进而能够较为准确地判断是否要接入第二服务器所提供目标数据源，以及为具体如何接入目标数据源、花费多少成本接入目标数据源等决策提供参考依据。

在本实施例中，所述第一服务器、第二服务器具体可以包括一种应用于业务平台的数据处理系统一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在一个具体的场景示例中，参阅图2所示。TB购物网计划针对用户网上购物交易的应用场景，训练出能够自动识别出中存在交易风险的异常交易数据(或称风险交易数据)的风险交易识别模型，进而可以通过该模型监测TB购物网上发生的交易，识别出存在交易风险的交易数据，并及时提醒用户，避免用户承担风险、遭受损失。

在本场景示例中，TB购物网的数据处理系统的服务器通过搜集自身平台网站上出现的交易数据，就已经积累并拥有一定规模的针对用户网上交易的应用场景的业务数据，构成已有数据源，可以记为数据源A。

但是考虑到上述数据源A中的业务数据都是服务器从TB购物网上搜集得到的，相对还是具有一定的局限性。例如，可能数据源A中的数据无法全面地覆盖在TB购物网中没有出现，但在其他购物网站上出现过的异常交易案例。

基于上述考虑，为了能够得到针对上述应用场景效果更好、更为全面的数据资源，以便能够训练得到准确度相对较高、覆盖性较广的风险交易识别模型，TB购物网计划与其他平台合作，从外部通过购买数据源的方式接入其他平台所拥有的数据资源，以扩充用于训练风险交易识别模型的数据资源。

例如，目前，TX网积累了大量与上述应用场景相关的数据，记为数据源B，也有意向与TB购物网合作，在TB购物网支付合理成本的情况下，将数据源B提供给TB购物网使用。

TB购物网在确定花费相应成本，接入并使用TX网提供的数据源B之前，需要对数据源B针对所关注的应用场景的数据价值进行评价，以便确定是否要花费成本购买接入该数据源B，以及确定具体耗费多少成本来购买数据源B比较合适。

通常在评价数据源针对某个应用场景的数据价值时，大多会单独对该数据源中的数据进行测试，以确定出该数据源中的数据针对应用场景的覆盖率和准确率等独立的参数，再由技术人员人工地基于经验根据覆盖率、准确率等独立的参数来确定该数据源的数据价值。但是在具体确定数据源的数据价值时，常常会出现覆盖率较高但准确率较低，或者覆盖率较低但准确率较高的情况，这时往往技术人员很难准确地对该数据源的数据价值进行判断。同时，依靠技术人员人工基于经验根据上述覆盖率、准确率这两个独立的参数，对数据源的数据价值进行判断，也容易受到人为主观因素的影响，导致评价不够客观、准确，容易产生误差。

并且，基于上述方法大多只能针对数据源当前已经表现出的数据价值进行评价，而无法对该数据源未来的数据价值进行预测。因此评价时还容易存在局限性，导致容易遗漏掉一些未来可能会带来较高的价值增益的数据源。例如，某一个数据源中的数据可能当前针对R应用场景的覆盖率较低，应用效果相对较差，但随着技术、业务的发展，该数据源中的数据未来可能会逐步变成能够反映出R应用场景的新案例的特征的业务数据，带来较高的价值增益。

考虑到上述情况，为了能够更加精准、全面、客观地对TX网的数据源B的数据价值进行判断。TB购物网数据处理系统的服务器可以先从数据源B中抽取多个数据作为数据源B针对用户网上购物交易的应用场景的测试数据。同时，服务器还可以从TB购物网已有的针对上述应用场景的数据源A中获取多个业务数据作为样本数据，并利用上述样本数据对测试数据进行测试。其中，上述样本数据中包括已标注出的多个正样本数据(例如，标记为正常交易的交易数据)，和多个负样本数据(例如，标记为风险交易的交易数据)。

具体的，可以参阅图3所示。服务器可以根据上述样本数据和测试数据先进行POC测试(ProofofConcept，验证性测试)，得到对应的测试结果数据。

例如，可以利用样本数据对测试数据进行数据碰撞。根据碰撞结果，统计确定出以下的测试结果数据，包括：测试数据中与正样本数据匹配的数据量(可以记为b)、测试数据中与负样本数据匹配的数据量(可以记为a)，以及测试数据中与样本数据(包括正样本数据和负样本数据)都不匹配的数据量(可以记为c)。同时，服务器还会统计样本数据中正样本数据的数据量(可以记为X)、负样本数据的数据量(可以记为Y)。

进一步，服务器可以根据上述确定出的测试结果数据，从多个不同的维度来描述评价测试数据所代表的数据源B针对该应用场景的应用效能。

具体的，服务器可以根据上述测试结果数据，从测试数据与该应用场景的相关性、测试数据针对该应用场景的正样本数据和负样本数据比例的准确度，以及测试数据针对该应用场景未来能够产生的价值增益这三个不同的维度，分别计算对应的测试数据针对该应用场景的相关性参数、准确率参数，以及潜在价值参数这三种评价参数。再根据上述三种基于不同维度得到的评价参数，综合地对测试数据所代表的数据B针对该应用场景总体的应用效能进行较为全面的评价。

具体实施时，首先服务器可以先获取TB购物网针对该应用场景对数据源的场景要求，例如，TB购物网根据模型训练的需要要求数据源中与该应用场景匹配的数据占比或者数据源针对该应用场景的覆盖率要达到11％以上。同时，服务器还会获取数据源B的提供方TX网提供的针对数据源B的参数信息。其中，上述参数信息中可以包含有TX网承诺的关于数据源B中数据针对该应用场景的中匹配数据的占比(或针对该应用场景的覆盖率等)，以及正样本数据和负样本数据的分布情况。进而，服务器可以根据TB购物网针对该应用场景对数据源的场景要求，结合数据提供方的针对数据源的参数信息，设置一个相对合理的数值，例如10％，作为上述相关度的预设期望，可以记为k_i。

进一步，服务器可以根据测试结果数据，分别计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，记为a+b。以及样本数据中的正样本数据的数据量、负样本数据的数据量的和，记为X+Y。再将上述测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和相除，得到对应的商值作为相关度的测试结果(也可以称为实际相关度)，记为(a+b)/(X+Y)。再计算出相关度的预设期望与相关度的测试结果之间的比值，记为t。

考虑到相关度对数据源的数据在应用场景中对数据使用的影响，往往会随着数据的使用效能出现衰减。并且相关度越大，且大于上述相关度的预设期望时，在使用该数据源时的衰减程度会相对越小，越不容易失效。又考虑到上述衰减随着t的变化趋势往往又近似于一种指数衰减的形式。因此，在本场景示例中，可以根据上述t，通过构造衰减指数的形式来表征出对应的相关性参数，以反映出数据源B在测试数据与该应用场景的相关性维度上的应用效能。

具体的，可以使用以下形式构建出数据源B针对该应用场景的相关性参数：e^-ωt。其中，ω可以表示一个系数，记为第一系数。进而可以利用该相关性参数，表征出在测试数据与该应用场景的相关性维度上的应用效能。

其次，针对测试数据对该应用场景的正样本数据和负样本数据比例的准确度维度，可以根据测试结果数据，先计算测试数据中与较为关注的负样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率，记为a/(a+b)。再计算样本数据中较为关注的负样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率，记为Y/(X+Y)。进而可以计算测试数据的准确率与样本数据的准确率之间的比值，记为r，用于表征数据源B中的数据较已有数据源的样本数据的准确率倍数。

考虑到准确率对数据源的数据在应用场景中对数据使用的影响，往往随着r变化，呈现一种近似对数函数的变化趋势。并且，通常r值越大，对应的数据价值越高，对在应用场景中的数据使用影响越大。因此，在本场景示例中，可以根据上述r，通过构造对数函数的形式来表征出准确率参数，以反映出数据源B在测试数据针对该应用场景的正样本数据和负样本数据比例的准确度维度上的应用效能。

具体的，可以使用以下形式构建出数据源B针对该应用场景的准确率参数：logr。进而可以利用该准确率参数，表征出在测试数据针对该应用场景的正样本数据和负样本数据比例的准确度维度上的应用效能。

更重要的是，在本场景示例中，为了能够更加全面、长远地确定出数据源B针对该应用场景的应用效能，还从测试数据针对该应用场景未来能够产生的价值增益这个维度出发，通过确定潜在价值参数，来对测试数据的基于该维度在该应用场景中的应用效能进行评价。

具体的，服务器可以根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率。再根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的负样本数据的数据量。再根据所述测试数据中与样本数据不匹配的测试数据中潜在的负样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

需要指出的是，在本场景中由于是为了训练识别异常交易数据的风险交易识别模型，相对更关注的是表征负向异常案例特征的负样本数据，所以在本场景示例中可以通过计算并根据潜在的负样本数据的数据量来确定测试数据针对目标应用场景的潜在价值参数。当然，具体实施时，根据不同的应用场景以及具体需要，如果更关注的是正样本数据，也可以通过计算并根据潜在的正样本数据的数据量来确定测试数据针对目标应用场景的潜在价值参数。

在本场景示例中，具体实施时，可以利用训练好的预测模型，根据测试数据中当前已经匹配出的与正样本数据匹配的数据量，和与负样本数据匹配的数据量通过模型预测出测试数据中与样本数据不匹配的测试数据中潜在的负样本数据的占比为a/(a+b)。进而可以将上述占比与测试数据中与样本数据不匹配的测试数据的数据量c的乘积作为上述测试数据中与样本数据不匹配的测试数据中潜在的负样本数据的数据量，可以记为p。

又考虑到在本场景示例中，主要需要对大量风险交易的案例进行学习、训练，以得到较为准确、全面的风险交易识别模型，而测试数据中与样本数据不匹配的测试数据中潜在的负样本数据，意味着很有可能会带来之前没有出现过的新的风险交易的案例，具有相对较高的价值。因此，会对数据源B对该应用场景产生相对更为明显、直接的影响。

基于上述考虑，可以使用以下形式来构建数据源B针对该应用场景的潜在价值参数：αpQ。其中，α表示另一个系数，记为第二系数，Q表示单个潜在的负样本数据的在该应用场景中带来的单位数据价值。而可以利用该潜在价值参数，表征出在测试数据针对该应用场景未来能够产生的价值增益维度上的应用效能。

按照上述方式，服务器可以分别计算出了对应不同的维度的相关性参数、准确率参数和潜在价值参数后，进一步可以综合上述三种不同维度得到的反应数据源B针对该应用场景的应用效能的评价参数，结合不同评价参数对总的应用效能的影响特点来确定出该测试数据所代表的数据源针对该应用场景总的应用效能。

具体的，可以按照以下算式来融合不同维度得到评价参数，计算测试数据所代表的数据源B针对该应用场景的应用效能：

其中，H_i表示数据源B针对该应用场景的应用效能，e^-ωt表示测试数据的相关性参数，logr表示测试数据的准确率参数，αpQ表示测试数据的潜在价值参数，

表示调整参数。

其中，上述调整参数的具体数值，可以设置为0，也可以根据影响数据源B针对该应用场景的其他影响因素，例如，数据源B的数据来源可靠度等，或者误差情况等灵活设置。

按照上述方式，服务器可以以量化的方式，较为客观、全面地计算出数据源B针对该应用场景的应用效能。进而可以根据上述应用效能，较为精准地确定出数据源B针对该应用场景的数据价值。

进一步，服务器可以根据基于上述方式确定出数据源针对该应用场景的数据价值确定出是否需要接入数据源B，以及如何接入使用数据源B，花多少成本接入数据源B等等。

如果根据应用效能确定出数据源B针对该应用场景的数据价值较小，则服务器可以确定拒绝与TX网合作，避免浪费成本从TX网购买并接入数据源B。如果根据应用效能确定出数据源B针对该应用场景的数据价值较大，则可以确定要进一步与TX网进行较为积极的协商讨论；并根据该数据源B针对该应用场景的数据价值，确定出一个相对较为合理的成本，以该成本来购买并接入数据源B。

由上述场景示例可见，本说明书提供的数据源的应用效能的确定方法，通过引入并利用能够表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益的潜在价值参数，结合基于目标数据源的测试数据，和目标应用场景的样本数据测试得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值，为是否接入目标数据源，以及如何合理地接入目标数据源提供参考。

参阅图4所示，本说明书实施例提供了一种数据源的应用效能的确定方法，其中，该方法具体实施时，该方法可以包括以下内容。

S41：从目标数据源中获取多个数据作为针对目标应用场景的测试数据。

在一些实施例中，上述目标数据源具体可以包括一种待评价的数据源。其中，上述目标数据源中具体可以包含多个数据。上述多个数据可能包括对目标应用场景而言具有价值的数据。例如，上述目标数据源中的某些数据可能是能够用于目标应用场景中的模型训练的正样本数据，也可能是能够用于目标应用场景中模型训练的负样本数据。当然，上述数据也有可能包括对目标应用场景而言没有应用价值的数据。例如，上述目标数据源中的某些数据可能是与目标应用场景不相关的数据，或者无意义的错误数据。

在一些实施例中，上述目标应用场景具体可以包括交易风险识别的业务场景，也可以包括交易行为预测的业务场景，还可以包括智能客服答复的业务场景等等。当然，上述所列举的目标应用场景只是一种示意性说明。具体实施时，上述目标应用场景还可以包括其他类型业务场景。对此，本说明书不作限定。

在一些实施例中，以交易风险识别的业务场景作为目标应用场景为例，为了训练应用于上述目标应用场景中的能够较为全面、精准地识别出存在交易风险的交易数据的风险交易识别模型，需要获取并对大量的业务数据作为学习样本进行模型的学习、训练。

对于上述目标应用场景，为了训练上述风险交易识别模型，数据使用方已经积累了多个与该目标应用场景对应的业务数据，作为已有业务数据，构成了已有数据源。例如，数据使用方可以通过自己或与第三方合作采集正常交易数据，以及被人工或机器判断出存在交易风险的异常交易数据作为上述已有业务数据，构成与该目标应用场景对应的已有数据源。但是，已有数据源所包含的业务数据相对有限，可能无法全面、精确地覆盖所有网络中出现的交易风险案例，这时数据使用方可以考虑通过合作或购买的方式接入外部的目标数据源中的数据，以便能够训练得到更加全面、精准的风险交易识别模型。

但在确定接入目标数据源之前需要对目标数据源针对目标应用场景的应用价值进行评价，以便数据使用方确定是否接入该目标数据源，以及花费多少成本来接入该目标数据源。对于数据使用方而言，针对于上述目标应用场景，结合已有数据源，首先希望所接入的目标数据源是与目标应用场景相关的，可以在一定程度上覆盖已有数据源中数据源。然后希望所接入的目标数据源中数据的准确率是相对较高的，例如，目标数据源中的正样本数据和负样本数据的比例是满足数据使用方和数据提供方约定要求，或者针对目标应用场景的模型训练要求的。进一步，更重要的，希望通过所接入的目标数据源中的数据能够学习、训练到已有数据源中没有的案例，包括正向案例和负向案例。例如，目标数据源中包含有一种比较特别的风险交易数据，而这种风险交易数据是一种基于已有数据源所无法学习到得到的通过最近新出现的违规操作所产生的异常交易数据。这时该目标数据源可能对数据使用方会具有较高的应用价值。

基于上述考虑，数据使用方在确定接入目标数据源之前，往往需要对目标数据源针对目标应用场景的应用效能进行确定，进而可以根据所确定出应用效能较为客观地评价目标数据源对目标应用场景的应用价值，以便更好地确定是否接入目标数据源，以及以何种合理的成本，或者合适的方式接入目标数据源。

在一些实施例中，考虑到目标数据源所包含的数据的量往往相对较为庞大，因此具体实施时，可以从目标数据源中随机抽取部分数据作为后续用于确定目标数据源的针对目标应用场景的应用效能的测试数据。

在一些实施例中，具体实施时，可以采用抽样的方法，例如随机抽样法等，从目标数据源中获取多个数据作为测试数据。当然，上述所列举的抽样方法只是一种示意性说明。具体实施时，根据具体情况，也可以采用其他合适的方式从目标数据源中获取测试数据。对此，本说明书不作限定。

S43：获取与目标应用场景对应的已有业务数据，作为样本数据。

在一些实施例中，上述已有业务数据具体可以理解为一种数据使用方已经拥有的，适用于目标应用场景的业务数据。上述样本数据具体可以理解为后续用于对测试数据进行具体测试的已有业务数据。

在一些实施例中，具体实施时，可以从与目标应用场景所对应的已有数据源中抽取多个业务数据，即与目标应用场景对应的已有业务数据，作为样本数据。其中，上述样本数据中具体可以包括正样本数据和负样本数据。

S45：根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益。

在一些实施例中，为了能够更加准确、全面地确定出目标数据源的应用效能，可以先利用样本数据对测试数据进行测试，得到对应的测试结果数据。再根据测试结果数据，从多个不同维度来确定用于反映目标数据源的应用效能的参数数据，以便后续可以综合上述基于多个不同维度得到的参数数据，更加客观、精细地评价目标数据源针对目标应用场景的应用效能。

在一些实施例中，具体实施时，可以利用所述样本数据，对所述测试数据进行验证性测试(或称POC测试)，得到对应的测试结果。再根据测试结果进行统计，得到对应的测试结果数据。

在一些实施例中，具体测试时，可以分别利用样本数据中已经标注出的正样本数据和负样本数据分别对测试数据进行碰撞匹配，以从测试数据中找到与正样本数据匹配的测试数据，和与负样本数据匹配的测试数据。

在一些实施例中，上述测试结果数据具体可以包括：测试数据中与正样本数据匹配的数据量、测试数据中与负样本数据匹配的数据量，以及测试数据中与样本数据不匹配的数据量(例如，同时不与正样本数据匹配，也不与负样本数据匹配的测试数据的数据量)等。

在一些实施例中，具体实施时，可以利用上述通过测试得到的测试结果数据，分别从测试数据与该应用场景的相关性维度、测试数据针对该应用场景的正样本数据和负样本数据比例的准确度维度，以及测试数据针对该应用场景未来能够产生的价值增益维度这三个不同的维度出发，分别确定出基于上述三种不同维度的用于评价目标数据源的应用效能的参数数据。

在一些实施例中，基于测试数据与该应用场景的相关性维度，可以通过根据测试结果数据来确定相关性参数，作为基于该维度的用于表征目标数据源的应用效能的参数数据。

其中，上述相关性参数具体可以用于表征测试数据所代表的目标数据源基于与该应用场景的相关性维度，应用在目标应用场景中所表现出来的应用价值。

在一些实施例中，上述根据测试结果数据，确定测试数据针对目标应用场景的相关性参数，具体实施时，可以包括以下内容：根据目标应用场景的场景要求，确定相关度的预设期望；计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值，作为相关度的测试结果；计算并根据所述相关度的预设期望与相关度的测试结果的比值，确定出测试数据针对目标应用场景的相关性参数。

在一些实施例中，具体实施时，可以按照以下算式来计算测试数据针对目标应用场景的相关性参数：

A_i＝e^-ωt

其中，A_i具体可以表示为测试数据针对于编号为i的目标应用场景的相关性参数，t具体可以表示为相关度的预设期望与相关度的测试结果的比值，k_i具体可以表示为相关度的预设期望，(a+b)/(X+Y)具体可以表示相关度的测试结果，ω具体可以表示第一系数，a具体可以表示为测试数据中与负样本数据匹配的数据量，b具体可以表示为测试数据中与正样本数据匹配的数据量，X具体可以表示为样本数据中的正样本数据的数据量，Y具体可以表示为样本数据中的负样本数据的数据量。

在一些实施例中，相关度的预设期望与相关度的测试结果的比值可以反映出测试数据针对目标应用场景的相关性，以及与已有业务数据的重叠性等特征，通常相关度的预设期望与相关度的测试结果的比值的数值越小，即相关度的测试结果(也称实际相关度)的数值越大，且大于相关度的预设期望，则测试数据的应用效能的衰减会相对越小，使得测试数据在该维度上表现出相对更高的应用价值。

在一些实施例中，具体实施时，可以根据目标应用场景针对测试数据的场景要求，以及数据使用方和数据提供方之间达成的协议约定，来设置合适的数值作为上述相关度的预设期望。对于相关度的预设期望的具体取值可以是为10％，也可以是为其他数值。对此，本说明书不作限定。

在一些实施例中，基于测试数据针对该应用场景的正样本数据和负样本数据比例的准确度维度，可以通过根据测试结果数据来确定准确率参数，作为基于该维度的用于表征目标数据源的应用效能的参数数据。

其中，上述准确率参数具体可以用于表征测试数据所代表的目标数据源基于测试数据针对该应用场景的正样本数据和负样本数据比例的准确度维度，应用在目标应用场景中所表现出来的应用价值。

在一些实施例中，上述根据测试结果数据，确定测试数据针对目标应用场景的准确率参数，具体实施时可以包括以下内容：计算测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率；计算样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率；计算并根据所述测试数据的准确率与样本数据的准确率的比值，确定出测试数据针对目标应用场景的准确率参数。

在一些实施例中，具体实施时，根据目标场景的场景需求，可以选择正样本数据作为被关注的样本数据，也可以选择负样本数据作为被关注的样本数据。例如，在交易风险识别场景中数据使用方相对更关注存在交易风险的异常交易数据，这时可以选择负样本数据作为被关注的样本数据。下面将主要以负样本数据作为被关注的样本数据进行具体说明。对于以正样本数据作为被关注的样本数据的情形，可以参阅以负样本数据作为被关注的样本数据的实施内容，本说明书不再赘述。

在一些实施例中，具体实施时，可以按照以下算式来计算测试数据针对目标应用场景的准确率参数：

B_i＝logr

其中，B_i具体可以表示为测试数据针对于编号为i的目标应用场景的准确率参数，r具体可以表示为测试数据的准确率与样本数据的准确率的比值，a/(a+b)具体可以表示为测试数据的准确率，Y/(X+Y)具体可以表示为样本数据的准确率。

在一些实施例中，上述测试数据的准确率与样本数据的准确率的比值可以反映出测试数据针对目标应用场景的已有业务数据的准确性，通常测试数据的准确率与样本数据的准确率的比值的数值越大，则测试数据的准确性越高，使得测试数据在该维度上表现出相对更高的应用价值。

在一些实施例中，基于测试数据针对该应用场景未来能够产生的价值增益维度，可以通过根据测试结果数据来确定潜在价值参数，作为基于该维度的用于表征目标数据源的应用效能的参数数据。

其中，上述潜在价值参数具体可以用于表征测试数据所代表的目标数据源基于测试数据针对该应用场景未来能够产生的价值增益维度，应用在目标应用场景中所表现出来的应用价值。

在一些实施例中，上述根据测试结果数据，确定测试数据针对目标应用场景的潜在价值参数，具体实施时可以包括以下内容：根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率；根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量；根据所述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

其中，上述测试数据中与样本数据不匹配的测试数据具体可以理解为当前与目标应用场景不对应的，或者当前对目标应用场景无意义，当前无法反映出目标应用场景中的案例特征的数据。上述与目标应用场景对应的业务数据具体可以理解为能够用于学习目标应用场景中的案例特征的数据，例如，正样本数据或负样本数据等。

在一些实施例中，具体实施时，类似于上述确定准确率参数，根据目标场景的场景需求，可以选择正样本数据作为被关注的样本数据，也可以选择负样本数据作为被关注的样本数据。例如，在交易风险识别场景中数据使用方相对更关注存在交易风险的异常交易数据，这时可以选择负样本数据作为被关注的样本数据。对此，本说明书不再赘述。以下以负样本数据作为被关注的样本数据为例具体说明如何计算潜在价值参数。

在一些实施例中，具体实施时，可以按照以下算式来计算测试数据针对目标应用场景的潜在价值参数：

C_i＝αpQ

其中，C_i具体可以表示为测试数据针对于编号为i的目标应用场景的潜在价值参数，p具体可以表示为测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，Q具体可以表示为单个潜在的被关注的样本数据的单位数据价值，α具体表示为第二系数，c具体可以表示为测试数据中与样本数据不匹配的测试数据的数据量。

其中，上述

具体可以表示为预测出的测试数据中与样本数据不匹配的测试数据中未来会转化为被关注的样本数据的转化率，可以记为被关注的样本数据转化率。

在一些实施例中，具体实施时可以利用已有数据进行模型训练得到用于预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率的预测模型。再根据上述预测模型基于测试数据中与正样本数据匹配的测试数据量以及与负样本数据匹配的测试数据量来预测出当前测试数据中与样本数据不匹配的测试数据中未来会转化为对目标应用场景有用的业务数据的转化率。进而一步可以根据测试数据中与正样本数据匹配的数据量和与负样本数据匹配的数据量之间的比值，结合上述转化率，预测出当前测试数据中与样本数据不匹配的测试数据中未来会转化为对目标应用场景有用的被关注的样本数据的被关注的样本数据转化率。进而可以根据上述被关注的样本数据转化率来量化该测试数据未来可以带来的应用价值增益。

在一些实施例中，上述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量可以反映出测试数据中当前与目标应用场景对应的测试数据中未来随着技术、业务等情况的变化，转化与目标应用场景对应的，能够反映出新出现的案例的情况特征的测试数据。通常测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量的数值越大，则该测试数据中后续相对会有越多数量当前与目标应用场景不对应的测试数据转化成与目标应用场景对应的业务数据，带更多新增的应用价值。

例如，在测试数据中可能存在通过利用已有业务数据作为样本数据进行数据测试，与样本数据都不匹配的一部分测试数据。这部分测试数据可能没有命中已有的案例，但是随着技术、业务的发展这部分测试数据可能会反映出未来出现的新的案例的特征，这时这部分测试数据对于该目标应用场景而言会重新具有较高的应用价值。

S47：根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

在一些实施例中，可以根据上述得到的测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数三种参数数据；综合对应于三种不同维度所反映出的测试数据对于目标应用场景的应用价值，通过融合确定出一个总的应用效能来表征测试数据所对应的目标数据针对该目标应用场景总的应用价值。

在一些实施例中，上述目标数据源针对目标应用场景的应用效能具体可以理解为一种考虑到了多个维度，在目标应用场景中使用目标数据源所提供的数据所能够给数据使用带来的整体价值。基于该应用效能，可以较为全面、精准地对目标数据源针对目标应用场景的价值进行量化的评价和判断。

在一些实施例中，具体实施时，可以按照以下算式来计算测试数据所代表的目标数据源针对目标应用场景的应用效能：

其中，H_i具体可以表示为目标数据源针对编号为i的目标应用场景的应用效能，

可以表示为调整参数。

在一些实施例中，具体实施时，还可以根据其他会对目标数据源针对目标应用场景的应用价值产生影响的因素，和/或，计算误差等来设置上述调整参数，使得通过上述调整参数最终得到的应用效能的精确相对更高。

在一些实施例中，上述目标数据源针对目标应用场景的应用效能融合了多个不同维度的考量，能够较为精准、全面、客观地以量化的方式表征出目标数据源中的数据应用于目标应用场景为数据使用方带来的应用价值。从而可以根据上述目标数据源针对目标应用场景的应用效能较为准确地衡量该目标数据针对目标应用场景的数据价值。例如，如果基于上述方式得到的应用效能的数值越大，则表示该目标数据源针对该目标应用场景的数据价值越高。相对的，如果应用效能的数值越小，则表示该目标数据源针对该目标应用场景的数据价值越小。进而可以指导数据使用方的决策，以便数据使用方更好地决定是否接入目标数据源，以及以何种成本，或者通过何种方式接入目标数据源，可以使得数据使用方和数据提供方双方都能获得较好收益。

在本实施例中，通过引入并利用能够表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益的潜在价值参数，结合基于目标数据源的测试数据，和目标应用场景的样本数据测试得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值。

在一些实施例中，上述根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，具体实施时，可以包括以下内容：利用所述样本数据，对所述测试数据进行验证性测试，得到对应的测试结果，其中，所述样本数据包括正样本数据和负样本数据；根据所述测试结果，确定测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量；根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量，以及样本数据中的正样本数据的数据量、负样本数据的数据量，确定出所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数。

在一些实施例中，上述确定测试数据针对目标应用场景的相关性参数，具体实施时，可以包括以下内容：根据目标应用场景的场景要求，确定相关度的预设期望；计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值，作为相关度的测试结果；计算并根据所述相关度的预设期望与相关度的测试结果的比值，确定出测试数据针对目标应用场景的相关性参数。

在一些实施例中，上述确定测试数据针对目标应用场景的准确率参数，具体实施时，可以包括以下内容：计算测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率；计算样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率；计算并根据所述测试数据的准确率与样本数据的准确率的比值，确定出测试数据针对目标应用场景的准确率参数。

在一些实施例中，上述确定测试数据针对目标应用场景的潜在价值参数，具体实施时，可以包括以下内容：根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率；根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量；根据所述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

在一些实施例中，在根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能后，所述方法具体实施时，还可以包括以下内容：根据所述目标数据源针对目标应用场景的应用效能，确定目标数据源的数据价值；并根据目标数据源的数据价值，确定是否将目标数据源接入目标应用场景。

在一些实施例中，具体实施时，如果目标数据源针对目标应用场景的应用效能越大，可以确定目标数据源针对目标应用场景的数据价值相对越高，如果确定出目标数据源针对目标应用场景的数据价值高于或等于预设的价值阈值，则可以确定要将目标数据源接入目标应用场景。相对的，如果目标数据源针对目标应用场景的应用效能越小，可以确定目标数据源针对目标应用场景的数据价值相对越低，如果确定出目标数据源针对目标应用场景的数据价值低于预设的价值阈值，则可以确定不需要浪费成本和精力将目标数据源接入目标应用场景。

在一些实施例中，具体实施时，还可以基于目标数据针对目标应用场景的应用效能所确定的数据价值，指导数据使用方确定合理的接入策略，以便以较为合理的方式，花费较合理的成本来接入目标数据源，保障数据使用方的利益，同时也可以使得数据提供方获得较为合理的收益。

在一些实施例中，在确定将目标数据源接入目标应用场景中的情况下，所述方法具体实施时，还可以包括以下内容：获取目标数据源中的数据作为训练数据；利用所述训练数据，训练针对目标应用场景的数据处理模型。

在一些实施例中，根据具体的目标应用场景和业务需求，上述数据处理模型具体可以是不同类型的数据处理模型。例如，在目标应用场景为用户交易风险识别场景时，上述数据处理模型可以是风险交易识别模型。又例如，在目标应用场景为业务服务场景时，上述数据处理模型可以是针对用户服务的分类模型。再例如，在目标应用场景为商品推荐场景时，上述数据处理模型还可以是预测用户想要购买的商品的预测模型等等。

在一些实施例中，具体实施时，还可以将目标数据源和已有数据源中数据进行融合，得到覆盖更广、效果更好的训练数据；进而可以利用上述训练，通过学习、训练得到针对目标应用场景的效果更好的数据处理模型。例如，可以根据融合后的训练数据，通过模型训练，得到针对风险交易识别场景中，能够更加精准地识别出存在交易风险的交易数据的风险交易识别模型等。

在一些实施例中，当存在多个待接入的目标数据源时，数据使用方还可以按照上述方式分别确定出多规格目标数据源针对目标应用场景的应用效能；再根据多个目标数据源针对目标应用场景的应用效能，筛选出应用效能最大的目标数据源作为要求接入使用到目标应用场景中的数据源。

由上可见，本说明书实施例提供的数据源的应用效能的确定方法，通过引入并利用能够表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益的潜在价值参数，结合基于目标数据源的测试数据，和目标应用场景的样本数据测试得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值，为数据使用方提供有效的参考。还通过根据目标数据源针对目标应用场景的应用效能，来确定目标数据源针对目标应用场景的数据价值；并根据目标数据源的数据价值，确定是否将目标数据源接入目标应用场景，从而能够指导相关人员准确地确定目标数据源的价值，并指导相关人员是否接入目标数据源，以及如何接入目标数据源、如何花费合理的成本来接入目标数据源。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：从目标数据源中获取多个数据作为针对目标应用场景的测试数据；获取与目标应用场景对应的已有业务数据，作为样本数据；根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

为了能够更加准确地完成上述指令，参阅图5所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口501、处理器502以及存储器503，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口501，具体可以用于从目标数据源中获取多个数据作为针对目标应用场景的测试数据；以及获取与目标应用场景对应的已有业务数据，作为样本数据。

所述处理器502，具体可以用于根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

所述存储器503，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口501可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的80号端口，也可以是负责进行FTP数据通信的21号端口，还可以是负责进行邮件数据通信的25号端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器502可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器503可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述数据源的应用效能的确定方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：从目标数据源中获取多个数据作为针对目标应用场景的测试数据；获取与目标应用场景对应的已有业务数据，作为样本数据；根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图6所示，在软件层面上，本说明书实施例还提供了一种数据源的应用效能的确定装置，该装置具体可以包括以下的结构模块。

第一获取模块601，具体可以用于从目标数据源中获取多个数据作为针对目标应用场景的测试数据；

第二获取模块602，具体可以用于获取与目标应用场景对应的已有业务数据，作为样本数据；

第一确定模块603，具体可以用于根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；

第二确定模块604，具体可以用于根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能。

在一些实施例中，所述第一确定模块603具体可以包括以下结构单元：

测试单元，具体可以用于利用所述样本数据，对所述测试数据进行验证性测试，得到对应的测试结果，其中，所述样本数据包括正样本数据和负样本数据；

第一确定单元，具体可以用于根据所述测试结果，确定测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量；

第二确定单元，具体可以用于根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量，以及样本数据中的正样本数据的数据量、负样本数据的数据量，确定出所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数。

在一些实施例中，所述第二确定单元具体可以包括相关性参数确定子单元，具体可以用于根据目标应用场景的场景要求，确定相关度的预设期望；计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值，作为相关度的测试结果；计算并根据所述相关度的预设期望与相关度的测试结果的比值，确定出测试数据针对目标应用场景的相关性参数。

在一些实施例中，所述第二确定单元具体可以包括准确率参数确定子单元，具体可以用于计算测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率；计算样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率；计算并根据所述测试数据的准确率与样本数据的准确率的比值，确定出测试数据针对目标应用场景的准确率参数。

在一些实施例中，所述第二确定单元具体可以包括潜在价值参数确定子单元，具体可以用于根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率；根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量；根据所述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

在一些实施例中，所述装置具体还可以包括第三确定模块，具体可以用于根据所述目标数据源针对目标应用场景的应用效能，确定目标数据源的数据价值；并根据目标数据源的数据价值，确定是否将目标数据源接入目标应用场景。

在一些实施例中，所述装置具体还可以包括应用模块，具体可以用于在确定将目标数据源接入目标应用场景中的情况下，获取目标数据源中的数据作为训练数据；利用所述训练数据，训练针对目标应用场景的数据处理模型。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的数据源的应用效能的确定装置，通过第一确定模块和第二确定模块引入并利用能够表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益的潜在价值参数，结合基于目标数据源的测试数据，和目标应用场景的样本数据测试得到的针对目标应用场景的相关性参数、准确率参数，综合多个不同维度来确定出目标数据源针对目标应用场景的应用效能，从而能够较为准确、全面地评价目标数据源针对目标应用场景的数据价值。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种数据源的应用效能的确定方法，包括：

从目标数据源中获取多个数据作为针对目标应用场景的测试数据；其中，所述目标应用场景包括：交易风险识别的业务场景；

获取与目标应用场景对应的已有业务数据，作为样本数据；

通过利用所述样本数据，对所述测试数据进行验证性测试，以确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；所述相关性参数根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值确定；所述准确率参数根据测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值确定；

根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能；

根据所述目标数据源针对目标应用场景的应用效能，确定是否接入目标数据源。

2.根据权利要求1所述的方法，根据所述样本数据和所述测试数据，确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，包括：

利用所述样本数据，对所述测试数据进行验证性测试，得到对应的测试结果，其中，所述样本数据包括正样本数据和负样本数据；

根据所述测试结果，确定测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量；

根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量，以及样本数据中的正样本数据的数据量、负样本数据的数据量，确定出所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数。

3.根据权利要求2所述的方法，确定测试数据针对目标应用场景的相关性参数，包括：

根据目标应用场景的场景要求，确定相关度的预设期望；

计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值，作为相关度的测试结果；

计算并根据所述相关度的预设期望与相关度的测试结果的比值，确定出测试数据针对目标应用场景的相关性参数。

4.根据权利要求2所述的方法，确定测试数据针对目标应用场景的准确率参数，包括：

计算测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率；

计算样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率；

计算并根据所述测试数据的准确率与样本数据的准确率的比值，确定出测试数据针对目标应用场景的准确率参数。

5.根据权利要求2所述的方法，确定测试数据针对目标应用场景的潜在价值参数，包括：

根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率；

根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量；

根据所述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

6.根据权利要求1所述的方法，在根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能后，所述方法还包括：

根据所述目标数据源针对目标应用场景的应用效能，确定目标数据源的数据价值；并根据目标数据源的数据价值，确定是否将目标数据源接入目标应用场景。

7.根据权利要求6所述的方法，在确定将目标数据源接入目标应用场景中的情况下，所述方法还包括：

获取目标数据源中的数据作为训练数据；

利用所述训练数据，训练针对目标应用场景的数据处理模型。

8.一种数据源的应用效能的确定装置，包括：

第一获取模块，用于从目标数据源中获取多个数据作为针对目标应用场景的测试数据；其中，所述目标应用场景包括：交易风险识别的业务场景；

第二获取模块，用于获取与目标应用场景对应的已有业务数据，作为样本数据；

第一确定模块，用于通过利用所述样本数据，对所述测试数据进行验证性测试，以确定所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，其中，所述潜在价值参数用于表征测试数据中当前与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据所产生的价值增益；所述相关性参数根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值确定；所述准确率参数根据测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值确定；

第二确定模块，用于根据所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数，确定目标数据源针对目标应用场景的应用效能；

9.根据权利要求8所述的装置，所述第一确定模块包括：

测试单元，用于利用所述样本数据，对所述测试数据进行验证性测试，得到对应的测试结果，其中，所述样本数据包括正样本数据和负样本数据；

第一确定单元，用于根据所述测试结果，确定测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量；

第二确定单元，用于根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量、与样本数据不匹配的数据量，以及样本数据中的正样本数据的数据量、负样本数据的数据量，确定出所述测试数据针对目标应用场景的相关性参数、准确率参数，和潜在价值参数。

10.根据权利要求9所述的装置，所述第二确定单元包括相关性参数确定子单元，用于根据目标应用场景的场景要求，确定相关度的预设期望；计算测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和，与样本数据中的正样本数据的数据量、负样本数据的数据量的和的比值，作为相关度的测试结果；计算并根据所述相关度的预设期望与相关度的测试结果的比值，确定出测试数据针对目标应用场景的相关性参数。

11.根据权利要求9所述的装置，所述第二确定单元包括准确率参数确定子单元，用于计算测试数据中与被关注的样本数据匹配的数据量，与测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量的和的比值，作为测试数据的准确率；计算样本数据中被关注的样本数据的数据量，与样本数据中负样本数据的数据量、正样本数据的数据量的和的比值，作为样本数据的准确率；计算并根据所述测试数据的准确率与样本数据的准确率的比值，确定出测试数据针对目标应用场景的准确率参数。

12.根据权利要求9所述的装置，所述第二确定单元包括潜在价值参数确定子单元，用于根据测试数据中与正样本数据匹配的数据量、与负样本数据匹配的数据量，预测测试数据中与样本数据不匹配的测试数据转化为与目标应用场景对应的业务数据的转化率；根据所述转化率，计算测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量；根据所述测试数据中与样本数据不匹配的测试数据中潜在的被关注的样本数据的数据量，确定测试数据针对目标应用场景的潜在价值参数。

13.根据权利要求8所述的装置，所述装置还包括第三确定模块，用于根据所述目标数据源针对目标应用场景的应用效能，确定目标数据源的数据价值；并根据目标数据源的数据价值，确定是否将目标数据源接入目标应用场景。

14.根据权利要求13所述的装置，所述装置还包括应用模块，用于在确定将目标数据源接入目标应用场景中的情况下，获取目标数据源中的数据作为训练数据；利用所述训练数据，训练针对目标应用场景的数据处理模型。

15.一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。