CN112347088A - 一种数据可信度优化方法、存储介质和设备 - Google Patents

一种数据可信度优化方法、存储介质和设备 Download PDF

Info

Publication number
CN112347088A
CN112347088A CN202011171542.7A CN202011171542A CN112347088A CN 112347088 A CN112347088 A CN 112347088A CN 202011171542 A CN202011171542 A CN 202011171542A CN 112347088 A CN112347088 A CN 112347088A
Authority
CN
China
Prior art keywords
data
real
data provider
time
provider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011171542.7A
Other languages
English (en)
Other versions
CN112347088B (zh
Inventor
王玉峰
仲雅雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011171542.7A priority Critical patent/CN112347088B/zh
Publication of CN112347088A publication Critical patent/CN112347088A/zh
Application granted granted Critical
Publication of CN112347088B publication Critical patent/CN112347088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据可信度优化方法、存储介质和设备,所述方法包括以下步骤:计算每个数据提供者提供的数据与真相之间的误差,对所述误差的方差进行区间估计,获得所述方差的置信区间,根据所述置信区间的上限,获得数据提供者的可信度;所述误差为数据提供者提供的数据与真相之间的差值;实时获取某时刻,数据提供者对于目标对象集提供的实时数据集,并根据所述数据提供者的可信度,计算出所述目标对象的聚合真相;计算该时刻,数据提供者提供的实时数据与聚合真相之间的实时误差,并根据所述实时误差计算出数据提供者的实时可信度,将所述数据提供者的可信度更新为实时可信度,用于下一时刻的真相聚合。本发明可对动态的长尾数据进行准确并且高效地聚合。

Description

一种数据可信度优化方法、存储介质和设备
技术领域
本发明涉及一种数据可信度优化方法,属于人工智能领域。
背景技术
在信息时代,人们获得信息的途径越来越多,通常社交平台是最常用地方式之一。然而,而社交平台上,数据提供者的信息权威性难以辨认,导致信息的可靠性有待商榷。为得到可信度更高的结果,通常采用多渠道信息聚合的方式。
而现有多渠道信息聚合的方法对于一些领域的应用存在缺陷。应对数据的长尾特性,由于数据提供者提供的信息数量不等,故若只是考虑数据的准确性,而不考虑提供数据的次数,那么对于数据提供者的权重估计也不准确,最终聚合的结果也不准确。此外,对于动态数据,由于数据是不断变化的,数据提供者的可信度往往也会是实时变化的。对于动态数据的聚合,现有多渠道信息聚合的方法无法在保证最终结果准确的基础上又符合动态系统所需的高效特性。
发明内容
本发明是提供一种数据可信度优化方法,可对动态的长尾数据进行准确并且高效的聚合。
为达到上述目的,本发明所采用的技术方案是:一种数据可信度优化方法,包括以下步骤:计算每个数据提供者提供的数据与真相之间的误差,对所述误差的方差进行区间估计,获得所述方差的置信区间,根据所述置信区间的上限,获得数据提供者的可信度;所述误差为数据提供者提供的数据与真相之间的差值;实时获取某时刻,数据提供者对于目标对象集提供的实时数据集,并根据所述数据提供者的可信度,计算出所述目标对象的聚合真相;计算该时刻,数据提供者提供的实时数据与聚合真相之间的实时误差,并根据所述实时误差计算出数据提供者的实时可信度,将所述数据提供者的可信度更新为实时可信度,用于下一时刻的真相聚合。
进一步地,所述方差的置信区间上限由公式(1)计算得到:
Figure BDA0002747453690000021
其中,
Figure BDA0002747453690000022
为置信区间上限,
Figure BDA0002747453690000023
为第s个数据提供者对于第i个问题提供的数据,Vi为第i个问题的真相,Ns为每个数据提供者s提供的数据集,
Figure BDA0002747453690000024
为自由度为|Ns|的χ2分布的上α/2分位点。
进一步地,所述数据提供者的可信度由公式(2)计算得到:
Figure BDA0002747453690000025
其中,ws为数据提供者集S中所有数据提供者s的可信度,
Figure BDA0002747453690000026
为置信区间上限。
进一步地,所述聚合真相由公式(3)计算得到:
Figure BDA0002747453690000027
其中,
Figure BDA0002747453690000028
为目标对象oi的聚合真相ws为数据提供者集S中所有数据提供者s的可信度,
Figure BDA0002747453690000031
为每个数据提供者s对于目标对象oi(oi∈Ot)提供的数据。
进一步地,所述获得数据提供者的实时可信度包括以下步骤:数据提供者提供的实时数据与聚合真相之间的实时误差;更新截止到t时刻,数据提供者的累计的误差平方和;根据所述累计的误差平方和,计算实时误差的方差的实时置信区间上限;根据所述实时置信区间上限,获得该数据提供者的实时可信度。
进一步地,所述数据提供者s累计的误差平方和由公式(4)计算得到:
Figure BDA0002747453690000032
其中,
Figure BDA0002747453690000033
为数据提供者s累计的误差平方和,
Figure BDA0002747453690000034
为第s个数据提供者对于第i个问题提供的数据,Vi为第i个问题的真相,Ns为每个数据提供者s提供的数据集,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻,
Figure BDA0002747453690000035
为目标对象oi的聚合真相ws为数据提供者集S中所有数据提供者s的可信度,
Figure BDA0002747453690000036
为每个数据提供者s对于目标对象oi提供的数据,Ot为目标对象集。
进一步地,所述实时置信区间上限由公式(5)计算得到:
Figure BDA0002747453690000037
其中,
Figure BDA0002747453690000041
为实时置信区间上限,
Figure BDA0002747453690000042
为数据提供者s累计的误差平方和,
Figure BDA0002747453690000043
为自由度为|Ns|的χ2分布的上α/2分位点。
进一步地,所述实时可信度采用公式(6)计算得到:
Figure BDA0002747453690000044
其中,|Ns,t|为数据提供者s累计提供数据的次数,
Figure BDA0002747453690000045
为实时置信区间上限。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述的方法中的任一方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
本发明通过数据提供者误差的可信度以及处理动态数据的方式来构建真相,使得那些提供更多信息且准确度更高的数据提供者具有更高的可信度,在真相聚合阶段占有更大比例,进而使得聚合的结果更加准确。此外,本方法利用数据提供者简单的历史数据,提高系统处理数据的效率,进一步满足处理动态数据的系统所需要的高效特性。
附图说明
图1为本发明实施例提供的一种数据可信度优化方法的流程框图。
具体实施方式
为了更好的理解本发明的实质,下面结合具体实施例和附图对本发明作进一步的阐述。
本发明适用于人工智能领域,尤其适用于社交平台中数据提供者可信度的优化。本发明提供了一种数据可信度优化方法,如图1所示,具体包括以下步骤:
步骤1、计算数据提供者提供信息的误差,计算误差的方差的置信区间,根据所述置信区间求解数据提供者的可信度。
步骤1-1:设每个数据提供者s提供的数据集Ns。系统计算每个数据提供者s提供的数据
Figure BDA0002747453690000051
与真相Vi之间的差值,即数据提供者的误差
Figure BDA0002747453690000052
并获得数据提供者s出现错误的累计平方和
Figure BDA0002747453690000053
Figure BDA0002747453690000054
其中,|Ns|为数据提供者s提供数据的次数。
步骤1-2:根据累计平方和
Figure BDA0002747453690000055
和数据提供者s提供数据的次数|Ns|,对数据提供者s出现误差的方差
Figure BDA0002747453690000056
进行区间估计,获得
Figure BDA0002747453690000057
的置信区间为
Figure BDA0002747453690000058
定义各数据提供者相互独立,且一个数据提供者提供的数据与真相的误差,即数据提供者的误差
Figure BDA0002747453690000059
服从正态分布。假设数据提供者并不会故意提供错误数据,所以数据提供者的误差
Figure BDA00027474536900000510
的期望为0。
所以,数据提供者提供的数据的误差
Figure BDA00027474536900000511
Figure BDA00027474536900000512
对上面的正态分布进行标准化,得到
Figure BDA0002747453690000061
Figure BDA0002747453690000062
其中,εs为第s个数据提供者的误差,
Figure BDA0002747453690000063
为第s个数据提供者对于第i个问题提供的数据,Vi为第i个问题的真相,|Ns|为第s个数据提供者提供数据的次数,χ2(|Ns|)表示自由度为|Ns|的χ2分布。
根据公式(4)对数据提供者s的
Figure BDA0002747453690000064
进行区间估计,获得置信度为(1-α)的
Figure BDA0002747453690000065
置信区间为:
Figure BDA0002747453690000066
其中,α为显著性水平,为常数;
Figure BDA0002747453690000067
为数据提供者s出现误差的方差
Figure BDA0002747453690000068
的置信区间下限,,
Figure BDA0002747453690000069
为数据提供者s出现误差的方差
Figure BDA00027474536900000610
的置信区间上限,
Figure BDA00027474536900000611
为自由度为|Ns|的χ2分布的上(1-α/2)分位点,
Figure BDA00027474536900000612
为自由度为|Ns|的χ2分布的上α/2分位点。α常取0.05或0.1。
由公式(5)得到置信区间上限
Figure BDA00027474536900000613
Figure BDA00027474536900000614
步骤1-3:利用置信区间上限
Figure BDA00027474536900000615
将数据提供者s的可信度等效为优化问题:
Figure BDA00027474536900000616
s.t.∑s∈Sws=1,ws≥0 (8)
解决该优化问题,即可得到数据提供者集S中所有数据提供者s的可信度ws
Figure BDA0002747453690000071
步骤2、获得某一时刻,目标对象集的聚合真相集。
步骤2-1:数据采集。每隔一定的时间间隔T,系统向数据提供者征集数据。而在t时刻,系统就需要获得真相的目标对象集Ot中的目标对象oi(oi∈Ot),分别向数据提供者集S中的数据提供者采集数据。故在t时刻,系统得到数据提供者s提供的实时数据集
Figure BDA0002747453690000072
Figure BDA0002747453690000073
并且更新截止t时刻,数据提供者s提供数据的次数|Ns,t|
步骤2-2:聚合获得真相,结合数据提供者集S中所有数据提供者s当前的可信度ws,每个数据提供者s对于目标对象oi(oi∈Ot)提供的实时数据
Figure BDA0002747453690000074
获得目标对象oi的聚合真相
Figure BDA0002747453690000075
Figure BDA0002747453690000076
故可以得到在t时刻,与目标对象集Ot相对应的聚合真相集
Figure BDA0002747453690000077
步骤3:可信度演进。数据提供者提供的实时数据与聚合真相之间的实时误差,利用可信度演进更新数据提供者可信度。
步骤3-1:计算在t时刻,对于目标对象oi,数据提供者s所提供的实时数据
Figure BDA0002747453690000078
与聚合结果
Figure BDA0002747453690000079
之间的实时误差
Figure BDA00027474536900000710
并且更新截止到t时刻,数据提供者s累计的误差平方和
Figure BDA00027474536900000711
计算在t时刻,对于目标对象oi,数据提供者s所提供的数据
Figure BDA00027474536900000712
与聚合结果
Figure BDA00027474536900000713
之间的实时误差
Figure BDA00027474536900000714
并且更新截止到t时刻,数据提供者累计的误差平方和:
Figure BDA0002747453690000081
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻。
步骤3-2:依据数据提供者s累计提供数据的次数|Ns,t|,和数据提供者的累计的误差平方和
Figure BDA0002747453690000082
获得置信度为(1-α)的数据提供者s提供数据的实时误差的方差
Figure BDA0002747453690000083
的实时置信区间上限
Figure BDA0002747453690000084
如公式(11):
Figure BDA0002747453690000085
其中,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻。
步骤3-3:依据可信度ws,t的演进,更新每个数据提供者的可信度ws
依据步骤1-1中的优化问题的求解结果,并更新数据参与者的可信度ws,t
Figure BDA0002747453690000086
根据公式(13)更新每个数据提供者s的可信度ws=ws,t
步骤3-4:系统实现当前时刻的真相聚合和数据提供者的可信度演进后,将继续向数据提供者采集下一时刻的数据,获得新的真相和数据提供者的可信度。
以采用CATD、冲突数据算法、动态数据算法相比以及本发明算法,分别处理服从正态分布N(50,1)的数据、服从Gamma分布Ga(1,1.5)的数据、服从Beta分布B(1,1)的数据为例,其处理结果分别如表1至表3所示:
表1处理服从正态分布N(50,1)的数据
算法 MAE RMSE
本发明 0.3902 0.7513
CATD 0.5662 0.7604
冲突数据算法 0.8057 0.9550
动态数据算法 0.5718 0.7949
表2处理服从Gamma分布Ga(1,1.5)的数据
算法 MAE RMSE
本发明 0.6792 0.9725
CATD 1.1962 2.1926
冲突数据算法 1.6808 2.6881
动态数据算法 1.1596 2.0095
表3处理服从Beta分布B(1,1)的数据
算法 MAE RMSE
本发明 0.1398 0.2046
CATD 0.2148 0.2691
冲突数据算法 0.1993 0.2402
动态数据算法 0.1636 0.2121
由表1至表3可知,在处理具有正态分布、均匀分布、Gamma分布和Beta分布特性的数据时,和CATD、冲突数据算法以及动态数据算法相比,本发明的平均绝对误差MAE和均方根误差RMSE更优,因此本发明可对动态的长尾数据进行更为准确的聚合。
本发明提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述的方法中的任一方法。
本发明提供了一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种数据可信度优化方法,其特征在于,包括以下步骤:
计算每个数据提供者提供的数据与真相之间的误差,对所述误差的方差进行区间估计,获得所述方差的置信区间,根据所述置信区间的上限,获得数据提供者的可信度;所述误差为数据提供者提供的数据与真相之间的差值;
实时获取某时刻,数据提供者对于目标对象集提供的实时数据集,并根据所述数据提供者的可信度,计算出所述目标对象的聚合真相;
计算该时刻,数据提供者提供的实时数据与聚合真相之间的实时误差,并根据所述实时误差计算出数据提供者的实时可信度,将所述数据提供者的可信度更新为实时可信度,用于下一时刻的真相聚合。
2.根据权利要求1所述数据可信度优化方法,其特征在于:
所述方差的置信区间上限由公式(1)计算得到:
Figure FDA0002747453680000011
其中,
Figure FDA0002747453680000012
为置信区间上限,
Figure FDA0002747453680000013
为第s个数据提供者对于第i个问题提供的数据,Vi为第i个问题的真相,Ns为每个数据提供者s提供的数据集,
Figure FDA0002747453680000021
为自由度为|Ns|的χ2分布的上α/2分位点。
3.根据权利要求1所述数据可信度优化方法,其特征在于:
所述数据提供者的可信度由公式(2)计算得到:
Figure FDA0002747453680000022
其中,ws为数据提供者集S中所有数据提供者s的可信度,
Figure FDA0002747453680000023
为置信区间上限。
4.根据权利要求1所述数据可信度优化方法,其特征在于:所述聚合真相由公式(3)计算得到:
Figure FDA0002747453680000024
其中,
Figure FDA0002747453680000025
为目标对象oi的聚合真相ws为数据提供者集S中所有数据提供者s的可信度,
Figure FDA0002747453680000026
为每个数据提供者s对于目标对象oi(oi∈Ot)提供的数据。
5.根据权利要求1所述数据可信度优化方法,其特征在于:所述获得数据提供者的实时可信度包括以下步骤:
根据所述数据提供者提供的实时数据与聚合真相之间的实时误差,更新截止到t时刻,数据提供者的累计的误差平方和;
根据所述累计的误差平方和,计算实时误差的方差的实时置信区间上限;
根据所述实时置信区间上限,获得该数据提供者的实时可信度。
6.根据权利要求5所述数据可信度优化方法,其特征在于:所述数据提供者的累计的误差平方和由公式(4)计算得到:
Figure FDA0002747453680000031
其中,
Figure FDA0002747453680000032
为数据提供者s的累计的误差平方和,
Figure FDA0002747453680000033
为第s个数据提供者对于第i个问题提供的数据,Vi为第i个问题的真相,Ns为每个数据提供者s提供的数据集,T表示系统向数据提供者收集数据的时间间隔,n表示系统采集数据的次数,nT表示当前时刻,
Figure FDA0002747453680000034
为目标对象oi的聚合真相ws为数据提供者集S中所有数据提供者s的可信度,
Figure FDA0002747453680000035
为每个数据提供者s对于目标对象oi提供的数据,Ot为目标对象集。
7.根据权利要求5所述数据可信度优化方法,其特征在于:所述实时置信区间上限由公式(5)计算得到:
Figure FDA0002747453680000036
其中,
Figure FDA0002747453680000037
为实时置信区间上限,
Figure FDA0002747453680000038
为数据提供者s累计的误差平方和,
Figure FDA0002747453680000039
为自由度为|Ns|的χ2分布的上α/2分位点。
8.根据权利要求5所述数据可信度优化方法,其特征在于:所述实时可信度采用公式(6)计算得到:
Figure FDA0002747453680000041
其中,|Ns,t|为数据提供者s累计提供数据的次数,
Figure FDA0002747453680000042
为实时置信区间上限。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于:包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
CN202011171542.7A 2020-10-28 2020-10-28 一种数据可信度优化方法、存储介质和设备 Active CN112347088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011171542.7A CN112347088B (zh) 2020-10-28 2020-10-28 一种数据可信度优化方法、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011171542.7A CN112347088B (zh) 2020-10-28 2020-10-28 一种数据可信度优化方法、存储介质和设备

Publications (2)

Publication Number Publication Date
CN112347088A true CN112347088A (zh) 2021-02-09
CN112347088B CN112347088B (zh) 2024-02-20

Family

ID=74358966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011171542.7A Active CN112347088B (zh) 2020-10-28 2020-10-28 一种数据可信度优化方法、存储介质和设备

Country Status (1)

Country Link
CN (1) CN112347088B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408599A (zh) * 2021-06-10 2021-09-17 南京邮电大学 一种基于地理相关性的连续数据优化方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042563A1 (en) * 2008-08-14 2010-02-18 Gov't of USA represented by the Secretary of the Navy, Chief of Naval Research Office of Counsel co Systems and methods of discovering mixtures of models within data and probabilistic classification of data according to the model mixture
US20100293129A1 (en) * 2009-05-15 2010-11-18 At&T Intellectual Property I, L.P. Dependency between sources in truth discovery
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
US20120278297A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Semi-supervised truth discovery
US20160147817A1 (en) * 2014-11-25 2016-05-26 International Business Machines Corporation Data credibility vouching system
CN109284316A (zh) * 2018-09-11 2019-01-29 中国人民解放军战略支援部队信息工程大学 基于数据源多维特性的真值发现方法
CN109782240A (zh) * 2019-01-25 2019-05-21 北京电子工程总体研究所 一种基于递推修正的多传感器系统误差配准方法和系统
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质
US20190332949A1 (en) * 2018-04-27 2019-10-31 International Business Machines Corporation Technology to automatically stream confidence and prediction intervals for non-parametric and non-stationary time series data
CN110490002A (zh) * 2019-08-27 2019-11-22 安徽大学 一种基于本地化差分隐私的多维众包数据真值发现方法
US20200019865A1 (en) * 2018-07-10 2020-01-16 City University Of Hong Kong System and method for processing data and managing information

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042563A1 (en) * 2008-08-14 2010-02-18 Gov't of USA represented by the Secretary of the Navy, Chief of Naval Research Office of Counsel co Systems and methods of discovering mixtures of models within data and probabilistic classification of data according to the model mixture
US20100293129A1 (en) * 2009-05-15 2010-11-18 At&T Intellectual Property I, L.P. Dependency between sources in truth discovery
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
US20120278297A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Semi-supervised truth discovery
US20160147817A1 (en) * 2014-11-25 2016-05-26 International Business Machines Corporation Data credibility vouching system
US20190332949A1 (en) * 2018-04-27 2019-10-31 International Business Machines Corporation Technology to automatically stream confidence and prediction intervals for non-parametric and non-stationary time series data
US20200019865A1 (en) * 2018-07-10 2020-01-16 City University Of Hong Kong System and method for processing data and managing information
CN109284316A (zh) * 2018-09-11 2019-01-29 中国人民解放军战略支援部队信息工程大学 基于数据源多维特性的真值发现方法
CN109782240A (zh) * 2019-01-25 2019-05-21 北京电子工程总体研究所 一种基于递推修正的多传感器系统误差配准方法和系统
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质
CN110490002A (zh) * 2019-08-27 2019-11-22 安徽大学 一种基于本地化差分隐私的多维众包数据真值发现方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
QI LI 等: "A confidence-aware approach for truth discovery on long-tail data", PROCEEDINGS OF THE VLDB ENDOWMENT, vol. 8, no. 4, pages 425 *
YALIANG LI等: "On the Discovery of Evolving Truth", 《PROCEEDINGS OF THE 21TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》, pages 675 *
刘笑笑: "移动数据同步机制与真值发现算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 136 - 1408 *
李卓倩: "群智感知中基于位置解决数据稀疏问题的真值发现", 中国优秀硕士学位论文全文数据库 信息科技辑》, no. 6, pages 138 - 555 *
李天义;谷峪;马茜;李芳芳;于戈;: "一种多源感知数据流上的连续真值发现技术", 软件学报, no. 07 *
李雪莲;孙尧;莫宏伟;: "基于最小二乘法的冗余信息数据融合算法实现", 计算机工程与应用, no. 15 *
王雄: "群智感知网络数据收集与真值推断研究", 中国博士学位论文全文数据库 信息科技辑, pages 136 - 49 *
陈超;申德荣;寇月;于戈;: "异构数据联合式的真值发现算法", 东北大学学报(自然科学版), no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408599A (zh) * 2021-06-10 2021-09-17 南京邮电大学 一种基于地理相关性的连续数据优化方法及系统
CN113408599B (zh) * 2021-06-10 2022-07-26 南京邮电大学 一种基于地理相关性的连续数据优化方法及系统

Also Published As

Publication number Publication date
CN112347088B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110851338B (zh) 异常检测方法、电子设备及存储介质
CN107305577B (zh) 基于K-means的妥投地址数据处理方法和系统
CN110647913B (zh) 基于聚类算法的异常数据检测方法及装置
CN113312578B (zh) 一种数据指标的波动归因方法、装置、设备、及介质
CN110572779B (zh) 一种基于ToF模型的基站的系统误差估计方法
CN112085125A (zh) 基于线性自学习网络的缺失值填补方法、存储介质及系统
CN103366091A (zh) 基于多级阈值指数加权平均的异常报税数据检测方法
CN110110339B (zh) 一种日前水文预报误差校正方法及系统
CN112347088A (zh) 一种数据可信度优化方法、存储介质和设备
CN113723716A (zh) 一种客流分级预警异常告警方法、设备及存储介质
CN106648839A (zh) 数据处理的方法和装置
CN113835626B (zh) 一种确定磁盘可使用时长的方法及装置
CN111563236B (zh) 一种短期风速预测方法及装置
CN112949697A (zh) 一种管道异常的确认方法、装置及计算机可读存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN116662904A (zh) 数据类型的变异检测方法、装置、计算机设备及介质
CN113507130B (zh) 基于dpmu的实时数据通信系统的电网状态估计方法及系统
CN111401671B (zh) 一种精准营销中衍生特征计算方法、装置和可读存储介质
CN114169590A (zh) 一种基于多情景划分的水库入库径流预报校正方法和系统
CN109960778B (zh) 计算风电场理论功率的方法和装置
CN109981325B (zh) 一种告警阈值的设定方法、装置、计算设备及介质
CN113128574A (zh) 场景缩减方法、装置及终端设备
CN113408599B (zh) 一种基于地理相关性的连续数据优化方法及系统
CN116405879B (zh) 一种室内定位轨迹纠偏方法、装置、设备和存储介质
CN111107162A (zh) 基于物联网的室内定位数据处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant