CN112347088A

CN112347088A - 一种数据可信度优化方法、存储介质和设备

Info

Publication number: CN112347088A
Application number: CN202011171542.7A
Authority: CN
Inventors: 王玉峰; 仲雅雯
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-09
Anticipated expiration: 2040-10-28
Also published as: CN112347088B

Abstract

本发明公开了一种数据可信度优化方法、存储介质和设备，所述方法包括以下步骤：计算每个数据提供者提供的数据与真相之间的误差，对所述误差的方差进行区间估计，获得所述方差的置信区间，根据所述置信区间的上限，获得数据提供者的可信度；所述误差为数据提供者提供的数据与真相之间的差值；实时获取某时刻，数据提供者对于目标对象集提供的实时数据集，并根据所述数据提供者的可信度，计算出所述目标对象的聚合真相；计算该时刻，数据提供者提供的实时数据与聚合真相之间的实时误差，并根据所述实时误差计算出数据提供者的实时可信度，将所述数据提供者的可信度更新为实时可信度，用于下一时刻的真相聚合。本发明可对动态的长尾数据进行准确并且高效地聚合。

Description

一种数据可信度优化方法、存储介质和设备

技术领域

本发明涉及一种数据可信度优化方法，属于人工智能领域。

背景技术

在信息时代，人们获得信息的途径越来越多，通常社交平台是最常用地方式之一。然而，而社交平台上，数据提供者的信息权威性难以辨认，导致信息的可靠性有待商榷。为得到可信度更高的结果，通常采用多渠道信息聚合的方式。

而现有多渠道信息聚合的方法对于一些领域的应用存在缺陷。应对数据的长尾特性，由于数据提供者提供的信息数量不等，故若只是考虑数据的准确性，而不考虑提供数据的次数，那么对于数据提供者的权重估计也不准确，最终聚合的结果也不准确。此外，对于动态数据，由于数据是不断变化的，数据提供者的可信度往往也会是实时变化的。对于动态数据的聚合，现有多渠道信息聚合的方法无法在保证最终结果准确的基础上又符合动态系统所需的高效特性。

发明内容

本发明是提供一种数据可信度优化方法，可对动态的长尾数据进行准确并且高效的聚合。

为达到上述目的，本发明所采用的技术方案是：一种数据可信度优化方法，包括以下步骤：计算每个数据提供者提供的数据与真相之间的误差，对所述误差的方差进行区间估计，获得所述方差的置信区间，根据所述置信区间的上限，获得数据提供者的可信度；所述误差为数据提供者提供的数据与真相之间的差值；实时获取某时刻，数据提供者对于目标对象集提供的实时数据集，并根据所述数据提供者的可信度，计算出所述目标对象的聚合真相；计算该时刻，数据提供者提供的实时数据与聚合真相之间的实时误差，并根据所述实时误差计算出数据提供者的实时可信度，将所述数据提供者的可信度更新为实时可信度，用于下一时刻的真相聚合。

进一步地，所述方差的置信区间上限由公式(1)计算得到：

其中，

为置信区间上限，

为第s个数据提供者对于第i个问题提供的数据，V_i为第i个问题的真相，N_s为每个数据提供者s提供的数据集，

为自由度为|N_s|的χ²分布的上α/2分位点。

进一步地，所述数据提供者的可信度由公式(2)计算得到：

其中，w_s为数据提供者集S中所有数据提供者s的可信度，

为置信区间上限。

进一步地，所述聚合真相由公式(3)计算得到：

其中，

为目标对象o_i的聚合真相w_s为数据提供者集S中所有数据提供者s的可信度，

为每个数据提供者s对于目标对象o_i(o_i∈O_t)提供的数据。

进一步地，所述获得数据提供者的实时可信度包括以下步骤：数据提供者提供的实时数据与聚合真相之间的实时误差；更新截止到t时刻，数据提供者的累计的误差平方和；根据所述累计的误差平方和，计算实时误差的方差的实时置信区间上限；根据所述实时置信区间上限，获得该数据提供者的实时可信度。

进一步地，所述数据提供者s累计的误差平方和由公式(4)计算得到：

其中，

为数据提供者s累计的误差平方和，

为第s个数据提供者对于第i个问题提供的数据，V_i为第i个问题的真相，N_s为每个数据提供者s提供的数据集，T表示系统向数据提供者收集数据的时间间隔，n表示系统采集数据的次数，nT表示当前时刻，

为每个数据提供者s对于目标对象o_i提供的数据，O_t为目标对象集。

进一步地，所述实时置信区间上限由公式(5)计算得到：

其中，

为实时置信区间上限，

为数据提供者s累计的误差平方和，

为自由度为|N_s|的χ²分布的上α/2分位点。

进一步地，所述实时可信度采用公式(6)计算得到：

其中，|N_s,t|为数据提供者s累计提供数据的次数，

为实时置信区间上限。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述的方法中的任一方法。

一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明通过数据提供者误差的可信度以及处理动态数据的方式来构建真相，使得那些提供更多信息且准确度更高的数据提供者具有更高的可信度，在真相聚合阶段占有更大比例，进而使得聚合的结果更加准确。此外，本方法利用数据提供者简单的历史数据，提高系统处理数据的效率，进一步满足处理动态数据的系统所需要的高效特性。

附图说明

图1为本发明实施例提供的一种数据可信度优化方法的流程框图。

具体实施方式

为了更好的理解本发明的实质，下面结合具体实施例和附图对本发明作进一步的阐述。

本发明适用于人工智能领域，尤其适用于社交平台中数据提供者可信度的优化。本发明提供了一种数据可信度优化方法，如图1所示，具体包括以下步骤：

步骤1、计算数据提供者提供信息的误差，计算误差的方差的置信区间，根据所述置信区间求解数据提供者的可信度。

步骤1-1:设每个数据提供者s提供的数据集N_s。系统计算每个数据提供者s提供的数据

与真相V_i之间的差值，即数据提供者的误差

并获得数据提供者s出现错误的累计平方和

其中，|N_s|为数据提供者s提供数据的次数。

步骤1-2：根据累计平方和

和数据提供者s提供数据的次数|N_s|，对数据提供者s出现误差的方差

进行区间估计，获得

的置信区间为

定义各数据提供者相互独立，且一个数据提供者提供的数据与真相的误差，即数据提供者的误差

服从正态分布。假设数据提供者并不会故意提供错误数据，所以数据提供者的误差

的期望为0。

所以，数据提供者提供的数据的误差

对上面的正态分布进行标准化，得到

故

其中，ε_s为第s个数据提供者的误差，

为第s个数据提供者对于第i个问题提供的数据，V_i为第i个问题的真相，|N_s|为第s个数据提供者提供数据的次数，χ²(|N_s|)表示自由度为|N_s|的χ²分布。

根据公式(4)对数据提供者s的

进行区间估计，获得置信度为(1-α)的

置信区间为：

其中，α为显著性水平，为常数；

为数据提供者s出现误差的方差

的置信区间下限，,

为数据提供者s出现误差的方差

的置信区间上限，

为自由度为|N_s|的χ²分布的上(1-α/2)分位点，

为自由度为|N_s|的χ²分布的上α/2分位点。α常取0.05或0.1。

由公式(5)得到置信区间上限

步骤1-3：利用置信区间上限

将数据提供者s的可信度等效为优化问题：

s.t.∑_s∈Sw_s＝1,w_s≥0 (8)

解决该优化问题，即可得到数据提供者集S中所有数据提供者s的可信度w_s：

步骤2、获得某一时刻，目标对象集的聚合真相集。

步骤2-1：数据采集。每隔一定的时间间隔T，系统向数据提供者征集数据。而在t时刻，系统就需要获得真相的目标对象集O_t中的目标对象o_i(o_i∈O_t)，分别向数据提供者集S中的数据提供者采集数据。故在t时刻，系统得到数据提供者s提供的实时数据集

并且更新截止t时刻，数据提供者s提供数据的次数|N_s,t|

步骤2-2：聚合获得真相，结合数据提供者集S中所有数据提供者s当前的可信度w_s，每个数据提供者s对于目标对象o_i(o_i∈O_t)提供的实时数据

获得目标对象o_i的聚合真相

故可以得到在t时刻，与目标对象集O_t相对应的聚合真相集

步骤3:可信度演进。数据提供者提供的实时数据与聚合真相之间的实时误差，利用可信度演进更新数据提供者可信度。

步骤3-1：计算在t时刻，对于目标对象o_i，数据提供者s所提供的实时数据

与聚合结果

之间的实时误差

并且更新截止到t时刻，数据提供者s累计的误差平方和

计算在t时刻，对于目标对象o_i，数据提供者s所提供的数据

与聚合结果

之间的实时误差

并且更新截止到t时刻，数据提供者累计的误差平方和：

其中，T表示系统向数据提供者收集数据的时间间隔，n表示系统采集数据的次数，nT表示当前时刻。

步骤3-2：依据数据提供者s累计提供数据的次数|N_s,t|，和数据提供者的累计的误差平方和

获得置信度为(1-α)的数据提供者s提供数据的实时误差的方差

的实时置信区间上限

如公式(11)：

步骤3-3：依据可信度w_s,t的演进，更新每个数据提供者的可信度w_s。

依据步骤1-1中的优化问题的求解结果，并更新数据参与者的可信度w_s,t：

根据公式(13)更新每个数据提供者s的可信度w_s＝w_s,t。

步骤3-4：系统实现当前时刻的真相聚合和数据提供者的可信度演进后，将继续向数据提供者采集下一时刻的数据，获得新的真相和数据提供者的可信度。

以采用CATD、冲突数据算法、动态数据算法相比以及本发明算法，分别处理服从正态分布N(50,1)的数据、服从Gamma分布Ga(1,1.5)的数据、服从Beta分布B(1,1)的数据为例，其处理结果分别如表1至表3所示：

表1处理服从正态分布N(50,1)的数据

算法	MAE	RMSE
			本发明	0.3902	0.7513
CATD	0.5662	0.7604
			冲突数据算法	0.8057	0.9550
动态数据算法	0.5718	0.7949

表2处理服从Gamma分布Ga(1,1.5)的数据

算法	MAE	RMSE
			本发明	0.6792	0.9725
CATD	1.1962	2.1926
			冲突数据算法	1.6808	2.6881
动态数据算法	1.1596	2.0095

表3处理服从Beta分布B(1,1)的数据

算法	MAE	RMSE
			本发明	0.1398	0.2046
CATD	0.2148	0.2691
			冲突数据算法	0.1993	0.2402
动态数据算法	0.1636	0.2121

由表1至表3可知，在处理具有正态分布、均匀分布、Gamma分布和Beta分布特性的数据时，和CATD、冲突数据算法以及动态数据算法相比，本发明的平均绝对误差MAE和均方根误差RMSE更优，因此本发明可对动态的长尾数据进行更为准确的聚合。

本发明提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述的方法中的任一方法。

本发明提供了一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。