CN108255788A

CN108255788A - 一种评估数据的可信度的方法及装置

Info

Publication number: CN108255788A
Application number: CN201611229088.XA
Authority: CN
Inventors: 李欣; 邓丽; 王生; 王伟
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2018-07-06

Abstract

本发明公开一种评估数据可信度的方法及装置，该方法包括：获取N个数据源的冲突数据集合，选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数，确定N个数据源两两之间的相关性系数，并生成关于所述第一冲突字段的相关性矩阵；用所述可信度系数与所述相关性矩阵相乘，得到所述第一冲突字段的可信度评估矩阵；计算得到每个对象的每个冲突字段的可信度评估矩阵；将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，用以提高数据源中数据可信度的准确性。

Description

一种评估数据的可信度的方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种评估数据的可信度的方法及装置。

背景技术

随着信息技术的发展，“大数据”一词越来越多地被提及，大数据被用以描述和定义信息爆炸时代产生的海量数据，如企业在日常运营中生成、累积的用户网络行为数据。

大数据的特点不仅仅是数据规模的大，而且还有一个非常重要的特点是数据的多样性，多样性是指描述同一个对象的数据可能来自不同的数据源，且具有不同的数据表现形式。例如，同一个客户的信息可能存储在同一个公司的多个不同的数据库当中，一个病人的病历记录可能分布在多个不同的医院里，同一个自然现象(台风或者暴雨)在不同的实验室、气象台可能会观测到不同的风力指数等。数据在输入，变换等操作过程中由于人为或者设备的误差可能导致描述同一个对象的数据在不同的数据源中存在误差，缺失甚至是相互冲突的现象。在工业生产或者基于数据分析的决策支持系统中，这种数据的冲突而导致的信息不可靠会引起极其严重的后果，给企业造成重大的损失。所以，从多源异构数据源当中辨识出真实可靠的数据，化解多源数据之间的冲突现象具有非常重要现实意义和应用价值。

数据库研究领域对多源数据的冲突化解问题进行了深入的研究，在数据集成的应用中，提出了一系列的方法来化解多源异构数据的冲突。对于类别型的数据，常用的冲突化解方法是根据投票原则，将多个数据源当中出现次数最多的值作为数据的真实值；对于连续型的数据，常用的冲突化解方法是简单的取多个数据源的数据的中值或者均值作为数据的真实值。

然而，投票、取中值或均值的方法对于过去的应用来讲，一般来说能够满足要求，但是随着科技的发展和应用的变化，这种简单的方法对所有的数据源均等对待的手段就明显不足。对每个数据源都取相等的权重，极有可能得到与真实值偏差严重的不可靠数据。在复杂的现实世界当中，投票、取中值或均值的方法不能判断出不可靠的数据源。例如当出故障的传感器不断发射错误的值或者是网络病毒不断在网络上传播错误的信息时，投票、取中值或均值的方法不能判断出这种不可靠的信息来源，造成对真实值的偏差估计。

综上，现有的数据评估方法存在准确度地，不利于后续数据整合的缺点。

发明内容

本发明实施例提供一种评估数据的可信度的方法及装置，用以提高数据源中数据可信度的准确性。

本发明方法包括一种评估数据可信度的方法，该方法包括：

获取N个数据源的冲突数据集合，其中，各个数据源包含相同对象的相同字段，且所述冲突数据集合中每至少两个冲突数据归属于同一对象的同一字段；

针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据，确定每个冲突数据的可信度，并从各个冲突数据的可信度中，选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数，其中，所述第一对象为任意一个对象，所述第一冲突字段为所述冲突数据集合对应的M个冲突字段中的任意一个；

针对N个数据源所对应的第一对象的第一冲突字段，根据各个数据源中所述第一冲突字段对应的数据的相似性，确定N个数据源两两之间的相关性系数，并生成关于所述第一冲突字段的相关性矩阵；

用所述可信度系数与所述相关性矩阵相乘，得到所述第一冲突字段的可信度评估矩阵；

依照所述第一对象的第一冲突字段的可信度评估矩阵计算方法，计算得到每个对象的每个冲突字段的可信度评估矩阵；

将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的可信度评估结果。

基于同样的发明构思，本发明实施例进一步地提供一种评估数据可信度的装置，该装置包括：

获取单元，用于获取N个数据源的冲突数据集合，其中，各个数据源包含相同对象的相同字段，且所述冲突数据集合中每至少两个冲突数据归属于同一对象的同一字段；

第一参数确定单元，用于针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据，确定每个冲突数据的可信度，从各个冲突数据的可信度中，选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数，其中，所述第一对象为任意一个对象，所述第一冲突字段为所述冲突数据集合对应的M个冲突字段中的任意一个；

第二参数确定单元，用于针对N个数据源所对应的第一对象的第一冲突字段，根据各个数据源中所述第一冲突字段对应的数据的相似性，确定N个数据源两两之间的相关性系数，并生成关于所述第一冲突字段的相关性矩阵；

生成矩阵单元，用于用所述可信度系数与所述相关性矩阵相乘，得到所述第一冲突字段的可信度评估矩阵；依照所述第一对象的第一冲突字段的可信度评估矩阵计算方法，计算得到每个对象的每个冲突字段的可信度评估矩阵；

生成评估结果单元，用于将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的可信度评估结果。

本发明实施例通过获取N个数据源的冲突数据集合，然后对冲突数据集合中的每个对象的每个字段的冲突数据进行可信度的评估，从每个冲突数据的可信度中选择最大值作为该字段最可能对应的准确数据的可信度系数，然后利用N个数据源关于该冲突字段的该数据的相关性，计算得到该字段的相关性矩阵，进而用可信度系数与相关性矩阵相乘，得到每个对象的每个冲突字段的可信度评估矩阵，从而基于每个对象的各个字段的可信度评估矩阵乘积与数据源初始可信度相乘，得到N个数据源的可信度，这样得到的结果更加准确，有利于后续进行数据整合。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种评估数据可信度方法流程示意图；

图2为本发明实施例提供的一种冲突数据集合的示意图；

图3为本发明实施例提供的一种冲突数据的统计数字柱状图；

图4为本发明实施例提供的一种冲突数据更新后重新生成数据源的评估结果示意图；

图5为本发明实施例提供的一种评估数据可信度装置架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例提供一种评估数据可信度方法流程示意图，具体地实现方法包括：

步骤S101，获取N个数据源的冲突数据集合，其中，各个数据源包含相同对象的相同字段，且所述冲突数据集合中每至少两个冲突数据归属于同一对象的同一字段。

步骤S102，针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据，确定每个冲突数据的可信度，并从各个冲突数据的可信度中，选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数，其中，所述第一对象为任意一个对象，所述第一冲突字段为所述冲突数据集合对应的M个冲突字段中的任意一个。

步骤S103，针对N个数据源所对应的第一对象的第一冲突字段，根据各个数据源中所述第一冲突字段对应的数据的相似性，确定N个数据源两两之间的相关性系数，并生成关于所述第一冲突字段的相关性矩阵。

步骤S104，用所述可信度系数与所述相关性矩阵相乘，得到所述第一冲突字段的可信度评估矩阵。

步骤S105，依照所述第一对象的第一冲突字段的可信度评估矩阵计算方法，计算得到每个对象的每个冲突字段的可信度评估矩阵。

步骤S106，将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的可信度评估结果。

在步骤S101中，冲突数据是指同一对象的同一字段在不同的数据源中的取值不同，例如，同一身份证号对应姓名，在户籍部门的数据库中是张三，在民政部门的数据库中是李四，这样，张三和李四就构成了冲突数据。又或者说，同一身份证号对应的张三的婚姻状况在户籍部门的数据库中婚姻状况是已婚，在民政部门的数据库的婚姻状况是未婚，这样该身份证号的婚姻状况字段对应的两个结果就构成了冲突数据，以此类推，因此，将户籍部门的数据库和民政部门的数据库中这类相互冲突的数据筛选出来，如图2所示，就得到了冲突数据集合，冲突数据集合中存储了冲突数据，以及与冲突数据相关的冲突字段和对象的信息，其中，图3中统计了该冲突数据集合各个对象的同一字段的冲突数据数目。

进一步地，确定与每个冲突数据均相关的多个可信度评价因素；

针对所述冲突数据集合中的第一对象的第一冲突字段的第一冲突数据对应的第一可信度评价因素，确定所述第一冲突数据与所述第一可信度评价因素相关的第一权重，并确定所述第一冲突数据对应的所述第一可信度评价因素的第一统计值，其中，所述第一冲突数据为任意一个冲突数据，所述第一可信度评价因素为任意一个可信度评价因素；

将所述第一权重与所述第一统计值相乘得到所述所述第一冲突数据的第一参考可信度；

将所述第一冲突数据对应的各个可信度评价因素的参考可信度求和，得到所述第一冲突数据的可信度。

比如说，对每个唯一标识下的字段信息，结合以下三个因素：数据的采集间，采集时间最新的值作为该字段的正确值；基于数据的多数采纳原则，具有最多相同值的来源表；该字段信息为正确值数据的规范性，字段信息规范的来源表。该字段信息为正确值对以上三个因素赋予不同的权重因子，该权重因子取决于具体整合工作中的字段类型，例如为唯一身份证号下的姓名字段、婚姻状况字段、住址字段及其他字段类型，结合数据字段的特性，设置不同的权重因子，计算该字段对数据源的可信度系数。基于主成分分析，确定影响该数据源字段可靠性的主要影响因素，即分析时间、数量、规范等对该字段的影响程度。初始设定各影响因素权重均衡，基于标准数据对字段所有数据统计该数据各影响因素占比，基于主成分分析方式获得各字段类型的采纳时间、多数采纳、数据规范等因素的权重影响系数，比如说，对于婚姻状况该字段来说，时间权重可以赋值比较大，对于家庭住址该字段来说，可以数据规范性的权重赋值较大。

所述将所述第一冲突数据对应的各个可信度评价因素的参考可信度求和，得到所述第一冲突数据的可信度包括：

所述多个可信度评价因素包含时间因素、次数因素、数据规范性因素；

按照公式一将所述时间因素的统计值、所述次数因素的统计值和所述数据规范性因素的统计值组成的第一矩阵与第二矩阵相乘，得到所述第一冲突数据的可信度，其中所述第二矩阵为所述时间因素的权重、所述次数因素的权重和所述数据规范性因素的权重组成的，所述公式一为：

其中，所述α为时间因素的统计值、β为次数因素的统计值、γ为数据规范性因素的统计值，q1为时间因素的权重，q2为次数因素的权重，q3数据规范性因素的权重。

例如，对于身份证号100XXX121的婚姻状况冲突字段，假设该冲突字段存在冲突数据a已婚和冲突数据b未婚。结合影响因素及权重分配，分别计算冲突数据a及冲突数据b的可信度，分别为看

其中，x1为出现次数；y1为时间系数(根据采集时间0-1化)；z1为数据规范程度(是否是乱码等)；q1为x₁的权重值，q2为y₁的权重值，q3为z₁的权重值，Q1为x₂的权重值，Q2为y₂的权重值，Q3为z₂的权重值。假设经过上述计算之后，K1大于K2，则选择K1作为该对象的该冲突字段的可信度系数。

另外，还需要利用关联算法原则，计算各个数据源之间关于该对象的该冲突字段的关联因子，比如说，身份证号100XXX121的婚姻状况冲突字段对应的3个数据源两两之间的关联因子表示为如下关联因子矩阵：其中，n₁₂表示数据源2和数据源3之间的该对象的该字段的相似性大小，n₁₃表示数据源1和数据源3之间的该对象的该字段的相似性大小，依次类推。

当计算得到身份证号100XXX121的婚姻状况冲突字段对应的可信度系数k1和之后，可以将二者相乘，得到身份证号100XXX121的婚姻状况冲突字段可信度评估矩阵

进一步地，将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，包括：

按照公式二计算得到所述N个数据源的N行1列的评估结果矩阵，所述公式二为：

其中，x₁为第一个数据源的可信度评估结果，x₂为第二个数据源的可信度评估结果，x_n为第n个数据源的可信度评估结果，λ₁为第p个对象的第一冲突字段的可信度系数，λ_ε为第p个对象的第ε冲突字段的可信度系数，其中，ε不大于m，P的范围从1至t，t为对象的总数，ω₁为第一个数据源的初始可信度结果，ω₂为第二个数据源的初始可信度结果，ω_n为第n个数据源的初始可信度结果，u₁₂为第一个数据源和第二数据源之间关于第p对象的第一字段的相关性系数，其它以此类推，v₁₂为第一个数据源和第二数据源之间关于第p对象的第m字段的相关性系数，其它以此类推。

因为每个对象对应的冲突字段可能不同，比如说，求得对象1的3个冲突字段的3个可信度评估矩阵，对象2的4个冲突字段的4个可信度评估矩阵，对象8的1个冲突字段的3个可信度评估矩阵，等等，这样，将各个对象的可信度评估矩阵相乘之后，再与N和数据源的初始可信度相乘，一般初始可信度设置为就可以得到该次的可信度评估结果。

例如，身份证号100XXX121含有冲突字段1至m，将冲突字段1，…，冲突字段m对应的可信度矩阵相乘，得到如下结果：

进一步地，所述得到所述N个数据源的N行1列的评估结果矩阵之后，还包括：

每隔设定时间段更新所述N个数据源中的冲突数据集合；

用更新后冲突数据集合重新计算每个对象的每个冲突字段的可信度评估矩阵；

用重新计算得到的每个冲突字段的可信度评估矩阵与上一次计算得到的所述N个数据源的可信度评估结果矩阵相乘，得到最新的可信度评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的最新的可信度评估结果。

如图4所示，每隔一段时间之后，数据发生更新，这样就需要重新统计冲突数据，并结合之前的冲突数据，得到最新的冲突数据集合，从而按照上述方法计算得到新的可信度评估矩阵，但是更新初始可信度矩阵为上一次的计算结果，假设公式二计算得到的结果为那么当数据发生更新之后，再次计算这N个数据源之间的可信度时，就可以乘以这N个数据源的初始可信度

基于相同的技术构思，本发明实施例还提供一种评估数据可信度的装置，该装置可执行上述方法实施例。本发明实施例提供的装置如图5所示，包括：获取单元301、第一参数确定单元302、第二参数确定单元303、生成矩阵单元304、生成评估结果单元305，其中：

获取单元301，用于获取N个数据源的冲突数据集合，其中，各个数据源包含相同对象的相同字段，且所述冲突数据集合中每至少两个冲突数据归属于同一对象的同一字段；

第一参数确定单元302，用于针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据，确定每个冲突数据的可信度，从各个冲突数据的可信度中，选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数，其中，所述第一对象为任意一个对象，所述第一冲突字段为所述冲突数据集合对应的M个冲突字段中的任意一个；

第二参数确定单元303，用于针对N个数据源所对应的第一对象的第一冲突字段，根据各个数据源中所述第一冲突字段对应的数据的相似性，确定N个数据源两两之间的相关性系数，并生成关于所述第一冲突字段的相关性矩阵；

生成矩阵单元304，用于用所述可信度系数与所述相关性矩阵相乘，得到所述第一冲突字段的可信度评估矩阵；依照所述第一对象的第一冲突字段的可信度评估矩阵计算方法，计算得到每个对象的每个冲突字段的可信度评估矩阵；

生成评估结果单元305，用于将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的可信度评估结果。

进一步地，所述第一参数确定单元302具体用于：确定与每个冲突数据均相关的多个可信度评价因素；

进一步地，所述第一参数确定单元302具体用于：

按照公式一将所述时间因素的统计值、所述次数因素的统计值和所述数据规范性因素的统计值组成的第一矩阵与第二矩阵相乘，得到所述第一冲突数据的可信度，其中所述第二矩阵为所述时间因素的权重、所述次数因素的权重和所述数据规范性因素的权重组成的，所述公式一如上文所述，不再赘述。

进一步地，所述生成矩阵单元304具体用于：按照公式二计算得到所述N个数据源的N行1列的评估结果矩阵，所述公式二如上文所述，不再赘述。

进一步地，还包括：更新单元306，用于每隔设定时间段更新所述N个数据源中的冲突数据集合；用更新后冲突数据集合重新计算每个对象的每个冲突字段的可信度评估矩阵；用重新计算得到的每个冲突字段的可信度评估矩阵与上一次计算得到的所述N个数据源的可信度评估结果矩阵相乘，得到最新的可信度评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的最新的可信度评估结果。

综上所述，本发明实施例通过获取N个数据源的冲突数据集合，然后对冲突数据集合中的每个对象的每个字段的冲突数据进行可信度的评估，从每个冲突数据的可信度中选择最大值作为该字段最可能对应的准确数据的可信度系数，然后利用N个数据源关于该冲突字段的该数据的相关性，计算得到该字段的相关性矩阵，进而用可信度系数与相关性矩阵相乘，得到每个对象的每个冲突字段的可信度评估矩阵，从而基于每个对象的各个字段的可信度评估矩阵乘积与数据源初始可信度相乘，得到N个数据源的可信度，这样得到的结果更加准确，有利于后续进行数据整合。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种评估数据可信度的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据，确定每个冲突数据的可信度，包括：

确定与每个冲突数据均相关的多个可信度评价因素；

3.如权利要求2所述的方法，其特征在于，所述将所述第一冲突数据对应的各个可信度评价因素的参考可信度求和，得到所述第一冲突数据的可信度包括：

4.如权利要求1所述的方法，其特征在于，将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵，将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘，得到所述N个数据源的N行1列的评估结果矩阵，包括：

5.如权利要求1所述的方法，其特征在于，所述得到所述N个数据源的N行1列的评估结果矩阵之后，还包括：

每隔设定时间段更新所述N个数据源中的冲突数据集合；

6.一种评估数据可信度的装置，其特征在于，该装置包括：

7.如权利要求6所述的装置，其特征在于，所述第一参数确定单元具体用于：

确定与每个冲突数据均相关的多个可信度评价因素；

8.如权利要求7所述的装置，其特征在于，所述第一参数确定单元具体用于：

9.如权利要求6所述的装置，其特征在于，所述生成矩阵单元具体用于：

10.如权利要求6所述的装置，其特征在于，还包括：

更新单元，用于每隔设定时间段更新所述N个数据源中的冲突数据集合；用更新后冲突数据集合重新计算每个对象的每个冲突字段的可信度评估矩阵；用重新计算得到的每个冲突字段的可信度评估矩阵与上一次计算得到的所述N个数据源的可信度评估结果矩阵相乘，得到最新的可信度评估结果矩阵，其中，所述评估结果矩阵每一行的值为所述该行对应的数据源的最新的可信度评估结果。