CN112579979A

CN112579979A - 自适应数据分析中的错误发现率控制方法及装置

Info

Publication number: CN112579979A
Application number: CN202011521825.XA
Authority: CN
Inventors: 吴若凡
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-30
Anticipated expiration: 2040-12-21
Also published as: CN112579979B

Abstract

本说明书实施例提供了一种自适应数据分析中的错误发现率控制方法及装置。控制系统包括外层的控制单元和内层的分析单元，而第一分析试验和第二分析试验是分析试验序列中依次排列的两个分析试验，各个分析试验针对包含私有数据的原始数据进行自适应数据分析。控制单元获取第一分析单元发送的针对第一分析试验的第一显著性检验结果，该结果是根据第一分析试验对应的假设的显著性P值与第一显著性阈值的比较得到；控制单元根据已获得的多个显著性检验结果以及目标错误发现率，确定第二显著性阈值，并将其发送至用于执行第二分析试验的第二分析单元，以使第二分析单元将第二显著性阈值应用于第二分析试验的检验结果判断中。

Description

自适应数据分析中的错误发现率控制方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及自适应数据分析中的错误发现率控制方法及装置。

背景技术

自适应数据分析是针对原始数据进行的一种数据分析。在自适应数据分析的分析框架中，其分析方法本身与原始数据强相关，而不仅仅由数据分析师的经验知识决定。在基于自适应数据分析的多重假设检验中，通常会对原始数据进行一系列的假设检验。基于自适应数据分析的每个分析试验可以在不同的设备中执行，也可以在同一设备中进行。分析试验的总数量可能固定也可能不固定。在这种场景下，需要对多次分析试验在整体上的错误发现率进行控制。

因此，希望能有改进的方案，可以更好地对自适应数据分析中的错误发现率进行控制。

发明内容

本说明书一个或多个实施例描述了自适应数据分析中的错误发现率控制方法及装置，可以更好地对自适应数据分析中的错误发现率进行控制。具体的技术方案如下。

第一方面，实施例提供了一种自适应数据分析中的错误发现率控制方法，通过控制系统中处于外层的控制单元执行，所述控制系统还包括处于内层的至少一个分析单元，所述方法包括：

获取第一分析单元发送的针对当前的第一分析试验的第一显著性检验结果；其中，所述第一显著性检验结果是根据所述第一分析试验对应的假设的显著性P值与第一显著性阈值的比较得到，所述第一显著性阈值是所述第一分析单元从所述控制单元中获取的，所述第一分析试验是针对原始数据进行的自适应数据分析；

根据已获得的多个显著性检验结果以及预设的目标错误发现率，确定第二显著性阈值；所述多个显著性检验结果包含所述第一显著性检验结果；

接收第二分析单元发送的显著性阈值获取请求；其中，所述第二分析单元是所述内层中待执行第二分析试验的分析单元，所述第二分析试验是分析试验序列中排在所述第一分析试验之后的下一个分析试验；

将所述第二显著性阈值发送至所述第二分析单元，以使所述第二分析单元将所述第二显著性阈值应用于所述第二分析试验的检验结果判断中。

在一种实施方式中，所述确定第二显著性阈值的步骤，包括：

采用预设的序列决策算法，根据已获得的多个显著性检验结果以及预设的目标错误发现率，确定第二显著性阈值。

根据所述第一显著性检验结果、预设的目标错误发现率、上一显著性财富值，以及待确定显著性阈值，计算当前显著性财富值；所述上一显著性财富值基于已获得的其他多个显著性检验结果确定，所述其他多个显著性检验结果中不包括所述第一显著性检验结果；

调整所述待确定显著性阈值的取值，将使得所述上一显著性财富值和所述当前显著性财富值满足预设条件时的待确定显著性阈值的取值，确定为第二显著性阈值。

基于已获得的多个显著性检验结果中的被拒绝结果以及预设的目标错误发现率，采用基于高斯混合模型的预设公式，计算第二显著性阈值。

在一种实施方式中，所述序列决策算法为LORD算法或MemLORD算法。

在一种实施方式中，所述原始数据包括以下内容中的一种：对象的历史记录数据，对象的试验数据；所述对象包括用户、商品、事件中的至少一种。

第二方面，实施例提供了一种自适应数据分析中的错误发现率控制方法，通过控制系统中处于内层的第一分析单元执行，所述控制系统还包括处于外层的控制单元；所述方法包括：

针对分析试验序列中当前在所述第一分析单元中执行的第一分析试验，采用自适应数据分析的方式与原始数据进行交互，得到交互数据，基于所述交互数据确定所述第一分析试验对应的假设的显著性P值；

向所述控制单元发送显著性阈值获取请求；

接收所述控制单元针对所述显著性阈值获取请求返回的第一显著性阈值，所述第一显著性阈值是所述控制单元根据已获得的多个显著性检验结果以及预设的目标错误发现率确定的，所述多个显著性检验结果包括所述分析试验序列中在所述第一分析试验之前进行的分析试验的显著性检验结果；

基于所述第一分析试验对应的假设的显著性P值与所述第一显著性阈值的比较，确定第一显著性检验结果；

将所述第一显著性检验结果发送至所述控制单元。

在一种实施方式中，所述确定第一显著性检验结果的步骤，包括：

利用阈值校正函数对所述第一显著性阈值进行校正，得到校正后阈值；

将所述第一分析试验对应的假设的显著性P值与所述校正后阈值进行比较，得到第一显著性检验结果。

在一种实施方式中，所述自适应数据分析的方式包括基于(ε,δ)-差分隐私算法的自适应数据分析方式，所述(ε，δ)-差分隐私算法包括差分隐私参数ε和δ。

在一种实施方式中，所述利用阈值校正函数对所述第一显著性阈值进行校正的步骤，包括，利用所述差分隐私参数ε和δ，采用所述阈值校正函数对所述第一显著性阈值进行校正。

在一种实施方式中，所述采用自适应数据分析的方式与原始数据进行交互的步骤，包括，基于预设的交互轮数和待获取数据，对所述原始数据进行统计查询，所述待获取数据包括针对所述原始数据中数据的均值、计数和比率中的至少一种。

第三方面，实施例提供了一种自适应数据分析中的错误发现率控制装置，部署在控制系统中处于外层的控制单元中，所述控制系统还包括处于内层的至少一个分析单元，所述装置包括：

结果获取模块，配置为，获取第一分析单元发送的针对当前的第一分析试验的第一显著性检验结果；其中，所述第一显著性检验结果是根据所述第一分析试验对应的假设的显著性P值与第一显著性阈值的比较得到，所述第一显著性阈值是所述第一分析单元从所述控制单元中获取的，所述第一分析试验是针对原始数据进行的自适应数据分析；

阈值确定模块，配置为，根据已获得的多个显著性检验结果以及预设的目标错误发现率，确定第二显著性阈值；所述多个显著性检验结果包含所述第一显著性检验结果；

请求接收模块，配置为，接收第二分析单元发送的显著性阈值获取请求；其中，所述第二分析单元是所述内层中待执行第二分析试验的分析单元，所述第二分析试验是分析试验序列中排在所述第一分析试验之后的下一个分析试验；

阈值发送模块，配置为，将所述第二显著性阈值发送至所述第二分析单元，以使所述第二分析单元将所述第二显著性阈值应用于所述第二分析试验的检验结果判断中。

在一种实施方式中，所述阈值确定模块，具体配置为：

在一种实施方式中，所述阈值确定模块，确定第二显著性阈值时，包括：

第四方面，实施例提供了一种自适应数据分析中的错误发现率控制装置，部署在控制系统中处于内层的第一分析单元中，所述控制系统还包括处于外层的控制单元；所述装置包括：

数据交互模块，配置为，针对分析试验序列中当前在所述第一分析单元中执行的第一分析试验，采用自适应数据分析的方式与原始数据进行交互，得到交互数据，基于所述交互数据确定所述第一分析试验对应的假设的显著性P值；

请求发送模块，配置为，向所述控制单元发送显著性阈值获取请求；

阈值接收模块，配置为，接收所述控制单元针对所述显著性阈值获取请求返回的第一显著性阈值，所述第一显著性阈值是所述控制单元根据已获得的多个显著性检验结果以及预设的目标错误发现率确定的，所述多个显著性检验结果包括所述分析试验序列中在所述第一分析试验之前进行的分析试验的显著性检验结果；

结果确定模块，配置为，基于所述第一分析试验对应的假设的显著性P值与所述第一显著性阈值的比较，确定第一显著性检验结果；

结果发送模块，配置为，将所述第一显著性检验结果发送至所述控制单元。

在一种实施方式中，所述结果确定模块，具体配置为：

在一种实施方式中，所述结果确定模块，利用阈值校正函数对所述第一显著性阈值进行校正时，包括，利用所述差分隐私参数ε和δ，采用所述阈值校正函数对所述第一显著性阈值进行校正。

在一种实施方式中，所述数据交互模块，采用自适应数据分析的方式与原始数据进行交互时，包括：

基于预设的交互轮数和待获取数据，对所述原始数据进行统计查询，所述待获取数据包括针对所述原始数据中数据的均值、计数和比率中的至少一种。

第五方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一至第二方面中任一项所述的方法。

第六方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一至第二方面中任一项所述的方法。

本说明书实施例提供的方法及装置中，外层的控制单元根据多个历史的分析试验的显著性检验结果以及目标错误发现率，确定用于对分析试验序列中下一个分析试验进行检验判断的显著性阈值；内层中的分析单元，可以从控制单元中获取显著性阈值，并与基于自适应数据分析而进行的分析试验的显著性P值进行比较，得到显著性检验结果。本说明书实施例，通过控制单元和分析单元双序列的执行流程，更好地实现了对自适应数据分析中假设检验的错误发现率的控制。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2为实施例提供的一种自适应数据分析中的错误发现率控制方法的流程示意图；

图3提供了一种分析单元基于MIDPC与原始数据进行交互的架构示意图；

图4为实施例提供的一种自适应数据分析中的错误发现率控制装置的示意性框图；

图5为实施例提供的另一种自适应数据分析中的错误发现率控制装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。其中控制系统包括外层的控制单元和内层的分析单元。内层和外层是对控制系统架构的一种抽象划分方式，是为了便于描述而进行的划分，并不构成对本申请控制系统结构的限定。分析试验序列包括多个分析试验，例如分析试验1……分析试验t、分析试验t+1、……。分析试验序列中的多个分析试验按照预定的次序排列，并且按照从左向右的顺序依次在对应的分析单元中进行。内层的分析单元可以包括多个，也可以只有一个。分析试验预先被安排在指定的分析单元中进行，例如分析试验t在分析单元i中进行，分析试验t+1在分析单元j中进行。上述所提到的分析试验均是针对原始数据进行的自适应数据分析。控制单元可以确定针对本次分析试验的显著性阈值，并接收从分析单元中获取的显著性检验结果。例如，分析单元i向控制单元查询针对分析试验t的显著性阈值α_t，并向控制单元反馈显著性检验结果D_t，分析单元j向控制单元查询针对分析试验t+1的显著性阈值α_t+1，并向控制单元反馈显著性检验结果D_t+1。下面分别对本说明书实施例提及的各种概念进行说明。

分析试验是在原始数据基础上进行的数据分析，并用以进行假设检验。原始数据可以包括以下内容中的一种：对象的历史记录数据，对象的试验数据。对象包括用户、商品、事件中的至少一种。例如，原始数据可以包括用户针对某个客户端的历史记录数据，具体包括用户的属性信息、登录记录和使用记，录等；或者，原始数据可以包括针对目标用户进行新药物效果测试后的试验数据，包括试用新药物前后目标用户的健康指标数据，等等。在一些业务场景下，用于进行假设检验的原始数据可以包括采用A/B测试或A/A测试等测试方式得到的数据。原始数据常常涉及用户隐私，属于私有数据或隐私数据，在从原始数据中获取试验数据时，通常会采用具有隐私保护的方式，以便保护隐私数据不泄露。

一次分析试验，包括前期设计如何获取试验相关的数据(即相应的原始数据)，制定试验目标(包括确定待检验的假设)，从相应的原始数据中获取试验数据(即统计查询过程)，并处理试验数据(包括计算显著性P值，并将其与显著性阈值进行比较)，得出针对试验目标的显著性检验结果。该显著性检验结果可以包括接收假设和拒绝假设。

制定试验目标，即制定希望被证实的理论假设，并确定对应的零假设。理论假设又称为备择假设，零假设和备择假设两者相互对立。通常将零假设作为分析试验中待检验的假设。在假设检验中，如果零假设能够被证伪，则可以实现对备择假设的证实。例如，备择假设是某个新药对高血压患者有效，其对应的零假设是该新药对高血压患者无效。为了便于描述，下面分析试验中的假设常常以零假设为例，当零假设被拒绝则说明理论假设被接受。

在基于自适应数据分析(Adaptive Data Analysis)进行的分析试验中，分析方法本身与原始数据强相关，而不仅仅由数据分析师的经验知识决定。举例来说，预先对指定人群a进行了新药物A的治疗效果的测试试验，并记录了包括测试试验前后指定人群a的健康数据的原始数据。在一般的分析试验中，希望检验理论假设“新药物A对指定人群a有明显正向效果”的正确性，但是其从原始数据中获取的试验数据并不能使得对应的零假设被拒绝，即整体上并不显示新药物A对指定人群a有明显的正向效果。而在基于自适应数据分析进行的分析试验中，可以先从原始数据中获取一定的试验数据，并基于这些试验数据确定理论假设，再基于该理论假设和部分试验数据计算显著性P值，对理论假设进行检验。例如，仍旧使用本段中的例子，通过针对原始数据进行的自适应数据分析，可能得到的结果是“新药物A对指定人群b有明显正向效果”，指定人群b不是测试试验进行之前确定的指定人群a。

在另一种应用场景中，在互联网行业中，可以预先收录大量用户对某个客户端的使用情况以及用户属性信息，并加入原始数据中。在针对原始数据进行基于自适应数据分析的分析试验中，可以对原始数据进行相应的统计查询，并基于此确定理论假设，并对理论假设进行检验，并基于检验结果可以实施对客户端进行相应改进等多种应用。

基于自适应数据分析的分析试验是针对预先获取的原始数据而进行的分析试验，是一种离线分析试验。

显著性P值(P-Value)是统计学中用于判断假设检验结果的参数。上述内容提到的显著性阈值，又称为显著性水平，可以理解为在单个假设检验中可容许的错误发现率。将针对零假设的显著性P值与显著性阈值进行比较，根据比较结果确定零假设是否被拒绝。例如，显著性阈值是0.05时，如果P值小于0.05，则认为零假设被拒绝的概率在95％的水平上，统计上描述为在0.05水平上显著，其理论假设被接受的概率为95％。该零假设正确地被拒绝，可以称为真阳性，而其错误地被拒绝则可以称为假阳性。

单个假设检验仅仅单独对每个假设进行检验，常应用在针对较简单的数据分析中。而面对复杂、高维数据的分析，多重假设检验(Multiple Hypothesis Testing)更能有效地进行数据分析。多重假设检验是指确定若干个需要被同时或依次做统计决策的假设以及对应的假设检验过程。在多重假设检验中，多个假设即对应多次分析试验，多次分析试验可以根据预定的次序排列为分析试验序列，形成试验流。无论单个假设检验中的显著性阈值被设定得有多小，将其应用在包含大量假设的多重假设检验中时，错误检测数量也会被无限放大。例如，当显著性阈值设定为0.01时，如果进行假设检验1万次，则零假设被错误拒绝的假阳性的次数可以达到0.01*1万＝100次。

在多重假设检验中，错误发现率(False Discovery Rate)η可以被定义为，错误发现占所有发现的假设的比例，即被错误拒绝的零假设数量r占所有被拒绝的零假设数量m的比例，η＝r/m。

为了有效地控制基于自适应数据分析的多重假设检验中的错误发现率，本说明书实施例提供了一种错误发现率控制方法，该控制方法可以应用在例如图1所示的控制系统中。第一分析单元可以从控制单元中获取第一显著性阈值，并将其与第一分析试验对应的假设的显著性P值进行比较，得到第一显著性检验结果。控制单元可以获取第一分析单元发送的第一显著性检验结果，并根据已获得的多个显著性检验结果以及预设的目标错误发现率，确定第二显著性阈值；控制单元在接收到第二分析单元发送的显著性阈值获取请求时，将第二显著性阈值发送至第二分析单元。第二分析单元是用于执行第二分析试验的分析单元，第二分析试验是分析试验序列中排在第一分析试验之后的下一个分析试验。第二分析单元可以将第二显著性阈值应用于第二分析试验的检验结果判断中。

在上述说明中，外层的控制单元根据多个历史的分析试验的显著性检验结果以及目标错误发现率，确定用于对分析试验序列中下一个分析试验进行检验判断的显著性阈值；内层中的分析单元，可以从控制单元中获取显著性阈值，并与基于自适应数据分析而进行的分析试验的显著性P值进行比较，得到显著性检验结果。这样，可以通过控制单元和分析单元双序列的执行流程实现内外层解耦，并通过外层对显著性阈值的控制，更好地实现了对自适应数据分析中多重假设检验的错误发现率的控制。下面对本说明书的具体实施例分别进行说明。

图2为实施例提供的一种自适应数据分析中的错误发现率控制方法的流程示意图。下面将结合图1所示的实施场景示意图，对本实施例进行说明。

其中，控制系统中包括控制单元和分析单元。控制单元和分析单元可以采用同一计算设备中的不同单元实现，也可以通过不同计算设备来实现。此处的计算设备，可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来执行。例如，在某个数据分析公司内，不同的计算设备可以分别作为控制单元和分析单元。为了使得表述便于理解，采用分析单元i表示第一分析单元，采用分析单元j表示第二分析单元。

分析试验序列可以存储在用于控制分析试验执行次序的中控设备中，该中控设备可以采用控制单元实现，也可以采用位于控制系统之外的其他设备实现。在分析试验依次执行的过程中，中控设备可以通过与分析设备的信息交互，使得对应的分析设备执行对应的分析试验。在另一种实施方式中，可以预先设定分析设备执行对应分析试验的顺序，各个分析试验按照预设的顺序依次执行分析试验。

分析试验序列中的多个分析试验可以是预先设定的，也可以是动态增加的，即可以在各个分析试验执行过程中向分析试验序列中添加新增分析试验，试验流动态增加。关于分析试验序列的实现还可以有更多种方式，本说明书实施例对此不做具体限定。

为了便于说明，采用分析试验t表示第一分析试验，采用分析试验t+1表示第二分析试验。分析试验t是分析试验序列中当前正在执行的分析试验，分析试验t+1是分析试验序列中排在分析试验t之后的下一个分析试验。分析试验t和分析试验t+1分别在分析单元i和分析单元j中执行。在具体实现中，分析单元i和分析单元j可以是同一个分析单元，也可以是不同分析单元。

图2所示实施例中的方法包括以下步骤S210～S250。

步骤S210，分析单元i针对分析试验t，采用自适应数据分析的方式与原始数据进行交互，得到交互数据，基于交互数据确定分析试验t对应的假设的显著性P值，并向控制单元发送显著性阈值获取请求，控制单元可以接收分析单元i发送的显著性阈值获取请求。

原始数据是预先获取到的数据，用于进行分析试验。原始数据可以存储在指定设备的数据库中。分析单元i可以采用自适应数据分析的方式与存储原始数据的数据库进行交互，得到交互数据。

在采用自适应数据分析的方式与原始数据进行交互时，具体可以基于预设的交互轮数Q和待获取数据，对原始数据进行统计查询，得到交互数据。待获取数据包括针对原始数据中数据的均值、计数和比率中的至少一种，待获取数据可以是预先设定的，也可以是根据分析师的输入操作确定的数据。交互轮数Q和待获取数据均可以是在分析试验i被执行之前确定的。

在基于交互数据确定分析试验t对应的假设的显著性P值时，可以基于分析试验t对应的零假设，以及对交互数据的后处理，确定显著性P值。分析试验t的零假设可以基于分析师在对交互数据进行分析之后的输入操作确定。在确定零假设之后，可以从交互数据中选择全部或部分数据进行后处理，并确定得到该零假设的显著性P值。

对交互数据的后处理，可以包括多种处理方式，例如可以包括Wald检验、最大似然估计检验、似然比检验和拉格朗日乘子检验等检验方式中的一种。在确定检验值之后，还可以通过换算表将检验值换算成对应的P值。在分析试验t中，对交互数据的后处理可以是在分析试验t被执行之前确定的，也可以是在分析试验t被执行的过程中，根据分析师的输入操作确定的。

在一种实施方式中，自适应数据分析的方式可以包括基于(ε，δ)-差分隐私算法的自适应数据分析方式，(ε，δ)-差分隐私算法包括差分隐私参数ε和δ。其中，ε为差分隐私算法的隐私预算，δ为差分隐私算法的隐私误差。基于差分隐私算法的自适应数据分析方式，能够在一定隐私误差情况下提高原始数据的隐私安全性。

在基于(ε，δ)-差分隐私算法的自适应数据分析中，交互轮数Q可以预估。由于差分隐私算法通常对于隐私成本累积有较严格的要求，预先对交互轮数Q进行较好的控制，能够更好地权衡隐私成本与算法准确率。交互轮数Q的取值可以在3轮至5轮，其一般并不会包含大量的交互。并且每一轮的统计查询较为简单，例如可以为均值、计数或比率等。

在一种具体实施方式中，上述自适应数据分析可以采用MIDPC(Max InformationDifferential Privacy Corrector)算法。该算法利用差分隐私算法构造最大信息指标满足不大于k的算法进行自适应数据分析。

图3提供了一种分析单元基于MIDPC与原始数据进行交互的架构示意图。分析单元i基于MIDPC算法与原始数据进行Q轮交互，得到交互数据，对交互数据进行后处理之后得到显著性P值。

在步骤S210中，分析单元i向控制单元发送显著性阈值获取请求的步骤，可以在与原始数据进行交互之前进行，也可以在下面步骤的执行过程中执行：与原始数据进行交互，基于交互数据确定分析试验t对应的假设的显著性P值。

步骤S220，控制单元在接收到分析单元i发送的显著性阈值获取请求之后，确定显著性阈值α_t，并向分析单元i发送该显著性阈值α_t，分析单元i接收控制单元发送的显著性阈值α_t。此处，采用显著性阈值α_t表示第一显著性阈值。

控制单元在确定显著性阈值α_t，时，可以根据在分析试验t之前已获得的多个显著性检验结果以及预设的目标错误发现率η确定。确定显著性阈值α_t的具体实施方式可以参见下面步骤S240中的详细说明，此处不再详述。

步骤S230，分析单元i基于分析试验t对应的假设的显著性P值与显著性阈值α_t的比较，确定显著性检验结果D_t，并将D_t发送至控制单元，控制单元接收分析单元i发送的显著性检验结果D_t。此处，采用D_t表示第一显著性检验结果。

显著性检验结果可以包括拒绝假设和接受假设，拒绝假设和接受假设可以分别采用0或1表示，例如采用0表示接受假设，采用1表示拒绝假设。当然也可以是其他表示形式，本申请对此不作具体限定。

在采用自适应数据分析进行分析试验时，确定显著性检验结果D_t的步骤，具体可以包括，利用阈值校正函数对显著性阈值α_t进行校正，得到校正后阈值α_t′，将分析试验t对应的假设的显著性P值与该校正后阈值α_t′进行比较，得到显著性检验结果D_t。由于自适应数据分析不同于一般的数据分析，其通常无法在进行分析试验之前确定假设，而一般是在与原始数据进行了交互之后，基于交互数据确定。因此，通过对显著性阈值α_t进行校正，可以得到适于自适应数据分析的分析试验的显著性阈值。

本说明书实施例的实施并不限于此，例如控制单元可以在确定显著性阈值时，通过一定的阈值校正函数对显著性阈值进行校正，将显著性阈值校正为适用于自适应数据分析的校正后阈值。

将显著性P值与该校正后阈值α_t′进行比较，例如可以包括，判断显著性P值是否小于校正后阈值α_t′，如果小于，则得到拒绝零假设的显著性检验结果，如果不小于，则得到接受零假设的显著性检验结果。

当自适应数据分析基于(ε，δ)-差分隐私算法的情况下，在利用阈值校正函数对显著性阈值α_t进行校正时，具体可以利用差分隐私参数ε和δ，采用阈值校正函数对显著性阈值α_t进行校正。

上述自适应数据分析中的差分隐私参数ε和δ可以预先选取。差分隐私参数ε和δ的选取可以与阈值校正函数联合考虑。例如，采用阈值校正函数对显著性阈值α_t进行校正时，可以采用以下公式：

α_t′＝G(α_t)＝max[(α_t-β)/2^k，0] (1)

其中，2^k表示2的k次方，k＝nε²+n(δ/Qε)^1/2，β＝n(δ/Qε)^1/2，n为原始数据中所有样本的数量，Qε表示累积误差预算。δ通常取值为密码意义上的小量，ε的取值应使得2^k与β处在一个合理的范围内。例如，k的取值可以不超过4，β的取值可以不超过0.01。

在不同的分析试验中，以上的各个参数，包括差分隐私参数ε、δ以及交互轮数Q，可以有不同的取值。

步骤S240，控制单元在获取到分析单元i发送的显著性检验结果D_t之后，根据已获得的多个显著性检验结果以及预设的目标错误发现率η，确定显著性阈值α_t+1。采用α_t+1表示第二显著性阈值。上述多个显著性检验结果包含显著性检验结果D_t，还可以包括在分析试验t之前进行的多个分析试验的显著性检验结果。目标错误发现率η可以是根据需要预先设置的数值，其可以理解为，希望将试验流的总体错误发现率所要控制至的目标值。

在步骤S240中，控制单元确定显著性阈值α_t+1时，可以采用预设的序列决策算法，根据已获得的多个显著性检验结果以及目标错误发现率η，确定显著性阈值α_t+1。序列决策算法可以包括基于GAI(Generalized Alpha Investing Protocol)的序列决策算法。在采用序列决策算法确定显著性阈值α_t+1时，可以包括多种实施方式，以下分别介绍几种实施方式。

在一种实施方式中，确定显著性阈值α_t+1时，具体可以包括：

根据显著性检验结果D_t、目标错误发现率η、上一显著性财富值W(t-1)，以及待确定显著性阈值，计算当前显著性财富值W(t)，调整待确定显著性阈值的取值，将使得上一显著性财富值W(t-1)和当前显著性财富值W(t)满足预设条件时的待确定显著性阈值的取值，确定为显著性阈值α_t+1。

其中，上一显著性财富值W(t-1)基于已获得的其他多个显著性检验结果确定，该其他多个显著性检验结果中不包括显著性检验结果D_t。显著性财富值可以理解为用于表示多重假设检验在整体上的潜能。

上述实施方式可以采用以下多个公式表示：

当W(t-1)＝0时，α＝0 (5)

W(0)＝ω₀ (6)

其中，r_t可以与D_t的取值相同，

ψ_t＝ψ_t(r₁，r₂，…，r_t-1)，以1至t-1为下角标的r可以表示分析试验t之前的各个分析试验的显著性检验结果，α为待确定显著性阈值。

在上述公式(2)至公式(6)中，b₀和ω₀为预设值，且目标错误发现率η＝b₀+ω₀。

可以理解为财富惩罚值，ψ_t可以理解为财富奖励值。在公式

中，通过财富惩罚值和财富奖励值对显著性财富进行增加或减少。当r_t与D_t的取值相同时，并且当显著性检验结果D_t取值为0时，也就是零假设被接受时D_t为0，即财富奖励值ψ_t仅存在于分析试验t的零假设被拒绝时，但是财富惩罚值一直存在。

调整待确定显著性阈值α的取值，当上述各个公式(2)至(6)均满足时，将待确定显著性阈值α的取值确定为显著性阈值α_t+1。

在另一种实施方式中，确定显著性阈值α_t+1时，具体可以包括：

基于已获得的多个显著性检验结果中的被拒绝结果以及目标错误发现率η，采用基于高斯混合模型的预设公式，计算显著性阈值α_t+1。

例如，可以采用以下公式(7)和(8)确定显著性阈值α_t+1：

其中，

表示多个显著性检验结果中被拒绝结果所对应的分析试验的序号集；C为常数，可以取为经验值0.0722；b₀和ω₀为预设值，且目标错误发现率η＝b₀+ω₀；公式(8)基于高斯混合模型得到；符号“Ⅴ”表示在t+1与2之间取较大的值。

在实际应用中，上述序列决策算法可以直接采用LORD(Levels based On RecentDiscovery)算法或MemLORD算法。

步骤S250，分析单元j向控制单元发送显著性阈值获取请求，控制单元接收分析单元j发送的显著性阈值获取请求，并将显著性阈值α_t+1发送至分析单元j，以使分析单元j将显著性阈值α_t+1应用于分析试验t+1的检验结果判断中。其中，分析单元j是内层中待执行分析试验t+1的分析单元。

分析单元j针对分析试验t+1，可以采用自适应数据分析的方式与原始数据进行交互，得到交互数据，基于交互数据确定分析试验t+1对应的假设的显著性P值，并向控制单元发送显著性阈值获取请求。分析单元j的执行过程可以与分析单元i针对分析试验t的执行过程类似，具体可以参见步骤S210中的说明。

分析单元j在执行分析试验t+1时所针对的原始数据，可以与分析单元i所执行分析试验t时针对的原始数据不同，也可以相同；两个分析试验中与原始数据进行交互时具体的统计查询内容也可以不同。

分析单元j在接收到控制单元发送的显著性阈值α_t+1之后，可以基于分析试验t+1对应的假设的显著性P值与显著性阈值α_t+1的比较，确定显著性检验结果，并将其发送至控制单元。

从上述各个步骤可见，控制单元与分析单元之间在形成“阈值下发—假设检验—反馈检验结果—更新阈值”闭环的同时，控制住了多重假设检验中的整体错误发现率，使其在任何时刻均不超过目标错误发现率。

从另一方面来看，上述实施例提供了最大程度的内外层在算法上的解耦。对于内层所进行的基于自适应数据分析的分析试验来说，其仅需要接收外层提供的显著性阈值，并反馈检验结果，而可以不考虑其他因素；对于内层的控制单元来说，其仅需要接收内层反馈的检验结果，并不需要知道内层具体使用了哪种决策方式。

上述实施例采用的分析试验中，原始数据是预先确定的，并不是在线持续更新的，且使用了自适应数据分析方式进行分析试验。这使得分析试验不需要与外部的原始数据进行频繁交互，少数轮数的统计查询即可以满足要求，也最大程度地发挥了双序列架构在企业级序列决策系统中的有效应用。

在控制系统的整个生命周期内，对纳入其中的所有分析试验的假设检验带来的错误发现率影响，均能进行及时、可靠的错误发现率控制，减少了不必要的运营成本，同时也实现了最细粒度的错误发现率控制。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图4为实施例提供的一种自适应数据分析中的错误发现率控制装置的示意性框图。该装置部署在控制系统中处于外层的控制单元中，控制系统还包括处于内层的至少一个分析单元。该装置实施例与图2所示方法实施例相对应。该装置400包括：

结果获取模块410，配置为，获取第一分析单元发送的针对当前的第一分析试验的第一显著性检验结果；其中，所述第一显著性检验结果是根据所述第一分析试验对应的假设的显著性P值与第一显著性阈值的比较得到，所述第一显著性阈值是所述第一分析单元从所述控制单元中获取的，所述第一分析试验是针对原始数据进行的自适应数据分析；

阈值确定模块420，配置为，根据已获得的多个显著性检验结果以及预设的目标错误发现率，确定第二显著性阈值；所述多个显著性检验结果包含所述第一显著性检验结果；

请求接收模块430，配置为，接收第二分析单元发送的显著性阈值获取请求；其中，所述第二分析单元是所述内层中待执行第二分析试验的分析单元，所述第二分析试验是分析试验序列中排在所述第一分析试验之后的下一个分析试验；

阈值发送模块440，配置为，将所述第二显著性阈值发送至所述第二分析单元，以使所述第二分析单元将所述第二显著性阈值应用于所述第二分析试验的检验结果判断中。

在一种实施方式中，阈值确定模块420具体配置为：

在一种实施方式中，阈值确定模块420，确定第二显著性阈值时，包括：

在一种实施方式中，序列决策算法为LORD算法或MemLORD算法。

在一种实施方式中，原始数据包括以下内容中的一种：对象的历史记录数据，对象的试验数据；所述对象包括用户、商品、事件中的至少一种。

图5为实施例提供的另一种自适应数据分析中的错误发现率控制装置的示意性框图。该装置500部署在控制系统中处于内层的第一分析单元中，所述控制系统还包括处于外层的控制单元。第一分析单元是分析试验序列中当前被执行的分析试验所在的分析单元。该装置实施例与图2所示方法实施例相对应。该装置500包括：

数据交互模块510，配置为，针对分析试验序列中当前在所述第一分析单元中执行的第一分析试验，采用自适应数据分析的方式与原始数据进行交互，得到交互数据，基于所述交互数据确定所述第一分析试验对应的假设的显著性P值；

请求发送模块520，配置为，向所述控制单元发送显著性阈值获取请求；

阈值接收模块530，配置为，接收所述控制单元针对所述显著性阈值获取请求返回的第一显著性阈值，所述第一显著性阈值是所述控制单元根据已获得的多个显著性检验结果以及预设的目标错误发现率确定的，所述多个显著性检验结果包括所述分析试验序列中在所述第一分析试验之前进行的分析试验的显著性检验结果；

结果确定模块540，配置为，基于所述第一分析试验对应的假设的显著性P值与所述第一显著性阈值的比较，确定第一显著性检验结果；

结果发送模块550，配置为，将第一显著性检验结果发送至所述控制单元。

在一种实施方式中，所述结果确定模块540具体配置为：

在一种实施方式中，自适应数据分析的方式包括基于(ε，δ)-差分隐私算法的自适应数据分析方式，所述(ε，δ)-差分隐私算法包括差分隐私参数ε和δ。

在一种实施方式中，所述结果确定模块540，利用阈值校正函数对所述第一显著性阈值进行校正时，包括：

利用所述差分隐私参数ε和δ，采用所述阈值校正函数对所述第一显著性阈值进行校正。

在一种实施方式中，所述数据交互模块510，采用自适应数据分析的方式与原始数据进行交互时，包括：

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1至图3任一项所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1至图3任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种自适应数据分析中的错误发现率控制方法，通过控制系统中处于外层的控制单元执行，所述控制系统还包括处于内层的至少一个分析单元，所述方法包括：

2.根据权利要求1所述的方法，所述确定第二显著性阈值的步骤，包括：

3.根据权利要求2所述的方法，所述确定第二显著性阈值的步骤，包括：

4.根据权利要求2所述的方法，所述确定第二显著性阈值的步骤，包括：

5.根据权利要求2所述的方法，所述序列决策算法为LORD算法或MemLORD算法。

6.根据权利要求1所述的方法，所述原始数据包括以下内容中的一种：对象的历史记录数据，对象的试验数据；所述对象包括用户、商品、事件中的至少一种。

7.一种自适应数据分析中的错误发现率控制方法，通过控制系统中处于内层的第一分析单元执行，所述控制系统还包括处于外层的控制单元；所述方法包括：

向所述控制单元发送显著性阈值获取请求；

将所述第一显著性检验结果发送至所述控制单元。

8.根据权利要求7所述的方法，所述确定第一显著性检验结果的步骤，包括：

9.根据权利要求7或8所述的方法，所述自适应数据分析的方式包括基于(ε,δ)-差分隐私算法的自适应数据分析方式，所述(ε，δ)-差分隐私算法包括差分隐私参数ε和δ。

10.根据权利要求9所述的方法，所述利用阈值校正函数对所述第一显著性阈值进行校正的步骤，包括：

11.根据权利要求7所述的方法，所述采用自适应数据分析的方式与原始数据进行交互的步骤，包括：

12.一种自适应数据分析中的错误发现率控制装置，部署在控制系统中处于外层的控制单元中，所述控制系统还包括处于内层的至少一个分析单元，所述装置包括：

13.根据权利要求12所述的装置，所述阈值确定模块，具体配置为：

14.根据权利要求13所述的装置，所述阈值确定模块，确定第二显著性阈值时，包括：

15.根据权利要求13所述的装置，所述阈值确定模块，确定第二显著性阈值时，包括：

16.根据权利要求13所述的装置，所述序列决策算法为LORD算法或MemLORD算法。

17.根据权利要求12所述的装置，所述原始数据包括以下内容中的一种：对象的历史记录数据，对象的试验数据；所述对象包括用户、商品、事件中的至少一种。

18.一种自适应数据分析中的错误发现率控制装置，部署在控制系统中处于内层的第一分析单元中，所述控制系统还包括处于外层的控制单元；所述装置包括：

19.根据权利要求18所述的装置，所述结果确定模块，具体配置为：

20.根据权利要求18或19所述的装置，所述自适应数据分析的方式包括基于(ε,δ)-差分隐私算法的自适应数据分析方式，所述(ε，δ)-差分隐私算法包括差分隐私参数ε和δ。

21.根据权利要求20所述的装置，所述结果确定模块，利用阈值校正函数对所述第一显著性阈值进行校正时，包括：

22.根据权利要求18所述的装置，所述数据交互模块，采用自适应数据分析的方式与原始数据进行交互时，包括：

23.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项所述的方法。

24.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。