CN106778048A - 数据处理的方法及装置 - Google Patents

数据处理的方法及装置 Download PDF

Info

Publication number
CN106778048A
CN106778048A CN201710141560.2A CN201710141560A CN106778048A CN 106778048 A CN106778048 A CN 106778048A CN 201710141560 A CN201710141560 A CN 201710141560A CN 106778048 A CN106778048 A CN 106778048A
Authority
CN
China
Prior art keywords
attribute
missing values
data sample
item
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710141560.2A
Other languages
English (en)
Other versions
CN106778048B (zh
Inventor
徐骄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201710141560.2A priority Critical patent/CN106778048B/zh
Publication of CN106778048A publication Critical patent/CN106778048A/zh
Application granted granted Critical
Publication of CN106778048B publication Critical patent/CN106778048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理的方法及装置。该方法包括:获取数据样本;根据未包含缺失值的数据样本的各属性项的属性信息确定未包含缺失值的数据样本的各属性项中与缺失值对应的频繁项集;从频繁项集中选择填充属性项;根据填充属性项中与包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据填充值更新包含缺失值的数据样本。本发明实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间。

Description

数据处理的方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据处理的方法及装置。
背景技术
近年来,随着信息处理技术的发展,大数据被越来越多的应用到了导航系统或城市规划等各个领域。
目前的大数据架构通常是以数据流为导向来进行数据处理的,即,首先从数据源获取数据并将获取到的数据进行存储,然后对数据进行预处理,再根据预处理后的数据进行数据建模、数据分析与数据挖掘,最后实现数据变现。由此可见,数据预处理是大数据结构中整个数据处理过程的基础,其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等,是数据处理过程的重要环节之一。
数据预处理的过程中通常会涉及到对数据中的缺失值进行处理,现有技术中,在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是,当数据量较多或达到一定级别时,人工填写需耗费较多的时间与精力,无法满足数据流实时快速传输与处理的需求;删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性,会导致数据准精确性和有效性降低,由此可见,现有技术无法同时满足缺失值处理的高效率和高精度的要求。
发明内容
有鉴于此,本发明实施例提供一种数据处理的方法及装置,以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。
第一方面,本发明实施例提供了一种数据处理的方法,包括:
获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;
根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;
从所述频繁项集中选择填充属性项;
根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
第二方面,本发明实施例还提供了一种数据处理的装置,包括:
数据样本获取模块,用于获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;
频繁项集确定模块,用于根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;
填充属性项选择模块,用于从所述频繁项集中选择填充属性项;
填充值确定模块,用于根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
本发明实施例提供的数据处理的技术方案,获取数据样本,根据未包含缺失值的数据样本各属性的属性信息确定未包含缺失值的数据样本的各属性项中与包含缺失值的数据样本中的缺失值对应的频繁项集,从频繁项集中选择填充属性项,根据填充项中与缺失值对应属性的属性值确定填充值,并根据所确定的填充值对包含缺失值的数据样本进行更新。本发明实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的一种数据处理的方法的流程示意图;
图2为本发明实施例二提供的一种数据处理的方法的流程示意图;
图3为本发明实施例三提供的一种数据处理的装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
本发明实施例一提供一种数据处理的方法。该方法可由数据处理的装置执行,其中该装置可以由硬件和/或软件实现,一般可集成在数据处理平台中。图1是本发明实施例一提供的数据处理的方法的流程示意图,如图1所示,该方法包括:
S110、获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本。
本实施例中,数据样本可以是实体类数据样本,数据样本可以包括第一数据样本和第二数据样本,其中第一数据样本是包含缺失值的数据样本,第二数据样本是未包含缺失值的数据样本。
具体应用中,数据样本可以预先存储在与数据处理平台相对应的数据库中,在获取数据样本时,直接从数据样本的存储位置调用该数据样本即可;也可以实时从数据传输接口获取其他平台或数据库发送的数据样本并对数据样本中的缺失值进行处理,此处不作限制。
S120、根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集。
本实施例中,为减少确定用于填充缺失值的填充值所需的计算量,包含缺失值的数据样本的各属性项优选为可用属性项,即,属性项中的各属性均不为缺失值。其中,各属性项中可以包括两个属性值、三个属性值甚至更多个属性值,此处不作限制。
在对数据样本中包含的缺失值进行处理时,可以以横向或纵向的顺序进行处理,即,可以以数据样本为单位进行处理,也可以以属性为单位进行处理。包含缺失值的数据样本和不包含缺失值的数据样本的具体定义可以根据处理方式的不同灵活设定,例如,可以将任意一个或多个属性值缺失的数据样本均定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为所有属性值均不缺失的数据样本;也可以在对数据样本某一个属性中包含的缺失值进行处理时,只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本,相应的,将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本。
考虑到在对数据样本某一个属性中包含的缺失值进行处理时,该属性的属性值不缺失但是其他属性的属性值缺失的数据样本也可以包含一个或多个属性项,例如,假设包含缺失值的数据样本中缺失值所对应的属性为属性A,某一数据样本共有4个属性:属性A(属性值为a1)、属性B(属性值为b1)、属性C和属性D(属性值为d1),其中,该数据样本中属性C的属性值缺失,此时该数据样本仍可构成如下属性项:(a1,b1)、(a1,d1)、(b1,d1)和(a1,b1,d1),因此,优选的,在对数据样本某一个属性中包含的缺失值进行处理时,可以只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本,将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本。
在对某一缺失值进行处理时,未包含缺失值的数据样本的各属性项中可以包含缺失值对应属性的属性值,也可以不包含缺失值对应属性的属性值。例如,假设包含缺失值的数据样本中缺失值所对应的属性为属性A,某一未包含缺失值的数据样本共有4个属性:属性A(属性值为a2)、属性B(属性值为b2)、属性C(属性值为c2)和属性D(属性值为d2),则由该未包含缺失值的数据样本组成的属性项可以包含缺失值对应属性(属性A)的属性值a2,如属性项可以为(a2,b2)、(a2,c2)、(a2,d2)、(a2,b2,c2)、(a2,b2,d2)、(a2,c2,d2)和(a2,b2,c2,d2),也可以不包含缺失值对应属性(属性A)的属性值a2,如属性项可以为(b2,c2)、(b2,d2)、(c2,d2)和(b2,c2,d2)。考虑到各属性项在确定用于填充缺失值的填充值时的实用性,未包含缺失值的数据样本的各属性项优选为包含缺失值对应属性的属性值的属性项。
本实施例中,可选的,可以以属性为单位对数据样本中的缺失值进行处理。在对某属性中的缺失值进行处理时,可以直接对该属性中的每个缺失值同时或依次进行处理,也可以首先根据该属性中各缺失值对应的数据样本的其他属性值或相关属性值对该属性中的各缺失值进行分组,例如,可以将各缺失值对应的数据样本的其他属性值完全相同的缺失值分为同一组,然后分别确定各组缺失值对应的频繁项集。举例而言,各属性项的属性信息可以包括各属性项的支持度信息和/或置信度信息,相应的,在确定与某一缺失值或某一组缺失值对应的频繁项集时,可以只考虑各属性项的支持度信息或置信度信息,也可以同时考虑各属性项的支持度信息和置信度信息,此处不作限制。示例性的,可以预先设置与缺失值对应的支持度阈值和/或置信度阈值,将大于或等于所设定的支持度阈值和/或置信度阈值的属性项添加至与缺失值对应的频繁项集中;也可以预先设置与缺失值对应的频繁项集中的属性项的个数,然后将各属性项按照支持度信息和/或置信度信息由高到低进行排序,并获取与设定的频繁项集中的属性项的个数相符的支持度信息和/或置信度信息排序靠前的属性项作为与缺失值对应的频繁项集中的属性项。
在此,需要指出的是,属性项的获取与属性信息的确定可以按照先后顺序执行,也可以同时执行。例如,可以首先获取所有未包含缺失值的数据样本的所有属性项,然后确定各属性项的属性信息是否与设定的阈值相符,并将与设定的阈值相符的属性项添加到频繁项集中;或者,首先获取未包含缺失值的数据样本的一个(或多个)属性项或首先获取一个(或多个)未包含缺失值的数据样本的所有属性项,确定各属性项的属性信息是否与设定的阈值相符并将与设定的阈值相符的属性项添加至频繁项集中,然后重新获取另外一个(或多个)属性项或另外一个(或多个)未包含缺失值的数据样本的所有属性项;也可以首先获取一个(或多个)属性项或一个(或多个)未包含缺失值的数据样本的所有属性项,然后确定各属性项的属性信息是否与设定的阈值相符,将与设定的阈值相符的属性项添加至频繁项集中,并在确定各属性项的属性信息是否与设定的阈值相符,将与设定的阈值相符的属性项添加至频繁项集中的同时,获取另外一个(或多个)属性项或另外一个(或多个)未包含缺失值的数据样本的所有属性项。
S130、从所述频繁项集中选择填充属性项。
本实施例中,填充属性项的数量可以为一个或多个,其具体数量可以由开发商或运营商根据需要灵活设定。示例性的,可以根据如下判定标准确定填充属性项:频繁项集各属性项与缺失值对应数据样本中相同属性值的个数、各属性项对应属性的初始化贡献度、各属性项的支持度信息和/或各属性项的置信度信息。例如,可以将频繁项集中与缺失值对应数据样本中相同属性值个数较多、对应属性的初始化贡献度较高、支持度信息较高和/或置信度信息较高的预设数量的属性项确定为填充属性项。在此,需要指出的是,判定标准可以根据需要灵活设定,在确定填充属性项时可以只考虑一个判定标准,也可以同时考虑两个或更多个判定标准,此处不作限制。
其中,初始化贡献度可以用于描述各属性与缺失值所对应属性业务关联度的大小。对于某一属性而言,其他各属性的初始化贡献度可以由开发商和/或运营商预先进行设定,也可以通过其他各属性与该属性的业务关联度计算获得,如可以将某一属性的初始化贡献度设置为其与缺失值对应属性的业务关联度等。相应的,在获取数据样本各属性的初始化贡献度时,可以直接从相应的存储位置获取各属性的初始化贡献度,也可以根据其他各属性与缺失值对应属性的业务关联度计算获得各属性的初始化贡献度。其中,某一属性与缺失值对应属性的业务关联度可以在数据创建时由开发商和/或运营商进行定义,也可以通过相应的计算规则进行计算获得,如可以计算当缺失值对应属性的属性值变化时其他各属性的属性值变化的概率从而得到其他各属性与缺失值对应属性的业务关联度。
S140、根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
示例性的,在确定与某一缺失值对应的填充值时,如果填充属性项的数量为一个,则可以直接获取填充属性项中缺失值对应属性的属性值作为填充值,例如,假设缺失值对应属性为是否买房,填充属性项为(28,已婚,买房),则可以将填充属性项中缺失值对应属性(是否买房)的属性值“买房”作为填充值填充到缺失值位置处。
如果填充属性项的数量为多个,则可以取各填充属性项中缺失值对应属性的属性值的平均值或各填充属性项中缺失值对应属性出现次数较多的属性值作为填充值;也可以首先根据权重值确定规则确定各填充属性项的权重值,然后根据各填充属性项的权重值以及各填充属性值中缺失值对应属性的属性值确定填充值。例如,假设缺失值对应属性为是否买房,填充属性项分别为(男,28,已婚,未买房)(权重值为0.4)、(28,已婚,买房)(权重值为0.3),(男,已婚,买房)(权重值为0.3),则在确定填充值时,可以直接将三个属性项中出现次数较多的与缺失值对应的属性值“买房”作为填充值;也可以考虑各填充项的权重值,计算三个属性项中缺失值对应属性的属性值的权重平均值,将权重平均值“买房”确定为填充值。
本发明实施例一提供的数据处理的方法,获取数据样本,根据未包含缺失值的数据样本各属性的属性信息确定未包含缺失值的数据样本的各属性项中与包含缺失值的数据样本中的缺失值对应的频繁项集,从频繁项集中选择填充属性项,根据填充项中与缺失值对应属性的属性值确定填充值,并根据所确定的填充值对包含缺失值的数据样本进行更新。本发明实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。
实施例二
图2为本发明实施例二提供的一种数据处理的方法的流程示意图。本实施例在上述实施例的基础上进行优化,进一步地,所述属性信息包括属性项的支持度信息和置信度信息,相应的,所述根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集,包括:根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。
进一步地,所述从所述频繁项集中选择填充属性项,具体为:根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效属性值与所述包含缺失值的数据样本的属性值相同。
相应的,如图2所示,本实施例提供的数据处理的方法包括:
S210、获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本。
S220、根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值。
其中,非缺失率可以描述某一属性中的属性值未缺失的概率。示例性的,假设某一缺失值对应属性为是否买房属性,在10000个数据样本中有2000个数据样本是否买房的属性值缺失,则该缺失值对应属性的非缺失率Rnm=(10000-2000)/10000=80%。
本实施例中,某一缺失值对应的最小支持度阈值和最小置信度阈值与缺失值对应属性的缺失率的对应关系可以根据需要灵活设定,例如,最小支持度阈值可以设置为MinSup=1-Rnm等,最小置信度信息可以设置为MinCon=0.9×Rnm+0.05等,此处不作限制。
在对某一属性中的缺失值进行处理时,为保证该属性的精确度,随着该属性中缺失值数量的增多,所选取的用于确定填充值的属性项应该具有更高的准确性,因此,在确定缺失值对应属性的的最小支持度阈值时,可选的,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,包括:如果Rnm≥90%,则MinSup=1-Rnm;如果60%≤Rnm<90%,则MinSup=1-0.9×Rnm;如果Rnm<60%,则MinSup=Rnm;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinSup为与所述缺失值相对应的最小支持阈值。例如,假设某一缺失值对应属性的非缺失率为80%,则该缺失值对应属性的最小支持度阈值为:MinSup=1-0.9×Rnm=1-0.9×80%=0.28。
通常,在确定填充属性项时,如果缺失值对应属性中缺失数值的数量较少,即缺失值对应属性的非缺失率较高,则可以选取较少的属性项添加到频繁项集中;如果缺失值对应属性中缺失数值的数量较多,即缺失值对应属性的非缺失率较低,则需要选取较多的属性项添加到频繁项集中,因此,在确定缺失值对应属性的最小置信度阈值时,可选的,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,还包括:如果Rnm≥90%,则MinCon=0.92;如果80%≤Rnm<90%,则MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,则MinCon=0.95×Rnm+0.1;如果Rnm<70%,则MinCon=0.75;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinCon为与所述缺失值相对应的最小置信阈值。例如,假设某一缺失值对应属性的非缺失率为80%,则该缺失值对应属性的最小置信度阈值为:MinCon=0.9×Rnm+0.1=0.9×80%+0.1=0.82。
S230、从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值。
本实施例中,某一属性项(A,B)的支持度信息可以用于描述该属性项在所有数据样本中出现的概率。示例性的,在确定是否将某一属性项添加至候选频繁项集中时,可以首先计算该属性项的支持度信息,然后判断该支持度信息是否大于缺失值对应属性的最小支持度阈值,若是,则将该属性项添加至候选频繁项集中;若否,则不将其添加至候选频繁项集中。例如,假设某一缺失值对应属性为是否买房属性(其最小支持度阈值MinSup=0.28),在10000个数据样本中,包含属性项(28,买房)的数据样本的个数为4000,则属性项(28,买房)的支持度信息Sup=4000/10000=0.4>0.28,因此,可以将属性项(28,买房)添加至候选频繁项集中。
S240、从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。
本实施例中,某一属性项(A,B)的置信度信息可以用于描述在先决条件A下,关联结果B发生的概率。示例性的,在确定是否将候选频繁项集中的某一属性项添加至频繁项集中时,可以首先计算该属性项的置信度信息,然后判断该置信度信息是否大于缺失值对应属性的最小置信度阈值,若是,则将该属性项添加至频繁项集中;若否,则不将其添加至频繁项集中。例如,假设某一缺失值对应属性为是否买房属性(最小置信度阈值MinCon=0.82),在4000个年龄属性为28岁的数据样本中,是否买房属性的属性值为“买房”的数据样本的个数为3500,则属性项(28,买房)的置信度信息Con=3500/4000=0.875>0.82,因此,可以将属性项(28,买房)添加至频繁项集中。
S250、根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效属性值与所述包含缺失值的数据样本的属性值相同。
本实施例中,填充属性项的数量可以为1个,在确定填充属性项时,可以首先设定各判定标准的优先级,然后按照优先级由高到低依次对频繁项集中的各属性项进行筛选,直至最终只剩余1个可作为填充项的属性项的为止,并将该剩余的可作为填充项的属性项确定为与缺失值对应的填充属性项。其中,各判定标准的优先级可以根据需要灵活设定,此处不作限制。
示例性的,假设属性项对应的有效属性值个数的优先级高于属性项的支持度信息的优先级,此时,对频繁项集中的各属性项进行筛选的过程可以为:获取频繁项集中属性值与包含缺失值的数据样本的属性值中相同属性值的个数(有效属性值个数)最多的属性项,如果获取到的相同属性值最多的属性项的数量为1个,则将该有效属性值最多的属性项作为与缺失值对应的填充属性项;如果获取到的属性项的个数大于或等于2个,则计算各相同属性值最多的属性项的支持度信息,并选取支持度信息最高的属性项作为填充属性项。
例如,假设缺失值对应属性为是否买房属性,包含缺失值的数据样本的其他属性值为(28,男性,已婚),频繁项集中的属性项分别为(28,买房)、(28,已婚,买房)和(28,已婚,未买房),则可以首先选取三个属性项中对应的有效属性值个数最多的属性项(28,已婚,买房)和(28,已婚,未买房),此时有效属性值个数最多的属性项为两个,则进一步计算属性项(28,已婚,买房)和(28,已婚,未买房)的支持度信息,假设计算出的属性项(28,已婚,买房)的支持度信息为0.8,属性项(28,已婚,未买房)的支持度信息为0.2,则选取支持度信息较高的属性项(28,已婚,买房)作为填充属性项。
S260、根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
本发明实施例二提供的数据处理的方法,根据缺失值对应属性的缺失率确定与缺失值对应的最小支持度阈值和最小置信度阈值,选取支持度信息大于所确定的最小支持度阈值且置信度信息大于所确定的最小置信度阈值的属性项组成与缺失值对应的频繁项集,根据频繁项集中各属性项的属性值与包含缺失值的数据样本的属性值中相同属性值的个数、包含缺失值的数据样本中各属性的初始化贡献度和/或频繁项集中各属性项的支持度信息确定用于填充缺失值的填充属性项并通过填充属性项对缺失值进行填充,可以提高根据填充属性项确定的填充值的准确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。
在上述实施例的基础上,所述从所述频繁项集中选择填充属性项,包括:如果属性项对应的属性包含缺失值对应属性的相关属性,则根据所述相关属性的初始化贡献度确定所述相关属性的权重值,所述初始化贡献度为大于1的数值;根据所述频繁项集中各属性项对应的有效属性值个数、所述相关属性的权重值以及所述频繁项集中各属性项的支持度信息中的至少一项确定与所述缺失值对应的填充属性项。示例性的,如果频繁项集中的所有属性项均不包含相关属性,则可以直接根据频繁项集中各属性项对应的有效属性值个数和/或所述频繁项集中各属性项的支持度信息确定与所述缺失值对应的填充属性项;如果某一个或几个属性项中包含缺失值对应属性的相关属性,则附加其所包含的相关属性的初始化贡献度作为权重值提升该属性项的支持度信息,并根据提升后的支持度信息确定填充属性项。
例如,假设缺失值对应属性为是否买房属性,包含缺失值的数据样本的其他属性值为(28,男性,博士,已婚),频繁项集中的属性项分别为(28,买房)、(28,已婚,买房)、(28,已婚,未买房)、(28,博士,买房)和(28,博士,未买房),则可以首先选取五个属性项中有效属性值个数最多的属性项(28,已婚,买房)、(28,已婚,未买房)、(博士,已婚,买房)和(博士,已婚,未买房),此时有效属性值最多的属性项为四个,假设(28,已婚,买房)、(28,已婚,未买房)、(博士,已婚,买房)和(博士,已婚,未买房)未考虑初始化贡献度时的支持度信息分别为0.3、0.5、0.5和0.4,年龄属性和学历属性为缺失值对应属性(是否买房)的相关属性且其初始化贡献度分别为8和6,则考虑初始化贡献度之后四个属性项(28,已婚,买房)、(28,已婚,未买房)、(博士,已婚,买房)和(博士,已婚,未买房)的支持度信息分别为2.4、4.0、3.0和2.4,此时,选取支持度信息较高的属性项(28,已婚,未买房)作为填充属性项。
实施例三
本发明实施例三提供一种数据处理的装置。该装置可以由硬件和/或软件实现,一般可集成在数据处理平台中,可通过执行数据处理的方法对数据进行处理。图3所示为本发明实施例三提供的数据处理的装置的结构框图,如图3所示,该装置包括:
数据样本获取模块310、,用于获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;
频繁项集确定模块320,用于根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;
填充属性项选择模块330,用于从所述频繁项集中选择填充属性项;
填充值确定模块340,用于根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
本发明实施例三提供的数据处理的装置,通过数据样本获取模块获取数据样本,通过频繁项集确定模块根据未包含缺失值的数据样本各属性的属性信息确定未包含缺失值的数据样本的各属性项中与包含缺失值的数据样本中的缺失值对应的频繁项集,通过填充属性项选择模块从频繁项集中选择填充属性项,通过填充值确定模块根据填充项中与缺失值对应属性的属性值确定填充值,并根据所确定的填充值对包含缺失值的数据样本进行更新。本实施例通过采用上述技术方案,根据未包含缺失值的各属性项的属性信息确定用于填充缺失值的填充属性项,综合考虑缺失值对应属性与其它各属性之间的关联关系,可以提高填充值的正确性与数据信息的有效性,提高缺失值的处理速度,减少处理缺失值所需的时间,提高后续数据处理流程的准确性与整个数据处理过程的平均速度。
进一步地,所述属性信息包括属性项的支持度信息和置信度信息,相应的,所述频繁项集确定模块320包括:选择条件确定单元,用于根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;候选频繁项集确定单元,用于从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;频繁项集确定单元,用于从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。
进一步地,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,包括:如果Rnm≥90%,则MinSup=1-Rnm;如果60%≤Rnm<90%,则MinSup=1-0.9×Rnm;如果Rnm<60%,则MinSup=Rnm;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinSup为与所述缺失值相对应的最小支持阈值。
进一步地,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,还包括:如果Rnm≥90%,则MinCon=0.92;如果80%≤Rnm<90%,则MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,则MinCon=0.95×Rnm+0.1;如果Rnm<70%,则MinCon=0.75;其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinCon为与所述缺失值相对应的最小置信阈值。
进一步地,所述填充属性项选择模块330具体用于:根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效属性值与所述包含缺失值的数据样本的属性值相同。
进一步地,所述填充属性项选择模块330包括:权重值确定单元,用于如果属性项对应的属性包含缺失值对应属性的相关属性,则根据所述相关属性的初始化贡献度确定所述相关属性的权重值,所述初始化贡献度为大于1的数值;填充属性项确定单元,用于根据所述频繁项集中各属性项对应的有效属性值个数、所述相关属性的权重值以及所述频繁项集中各属性项的支持度信息中的至少一项确定与所述缺失值对应的填充属性项。
本实施例提供的数据处理的装置可执行本发明任意实施例所提供的数据处理的方法,具备执行数据处理的方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的数据处理的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;
根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;
从所述频繁项集中选择填充属性项;
根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
2.根据权利要求1所述的方法,其特征在于,所述属性信息包括属性项的支持度信息和置信度信息,
相应的,所述根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集,包括:
根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;
从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;
从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,包括:
如果Rnm≥90%,则MinSup=1-Rnm;
如果60%≤Rnm<90%,则MinSup=1-0.9×Rnm;
如果Rnm<60%,则MinSup=Rnm;
其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinSup为与所述缺失值相对应的最小支持阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值,还包括:
如果Rnm≥90%,则MinCon=0.92;
如果80%≤Rnm<90%,则MinCon=0.9×Rnm+0.1;
如果70%≤Rnm<80%,则MinCon=0.95×Rnm+0.1;
如果Rnm<70%,则MinCon=0.75;
其中,Rnm为所述数据样本中与所述缺失值对应的属性的非缺失率,MinCon为与所述缺失值相对应的最小置信阈值。
5.根据权利要求1所述的方法,其特征在于,所述从所述频繁项集中选择填充属性项,具体为:
根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效属性值与所述包含缺失值的数据样本的属性值相同。
6.根据权利要求5所述的方法,其特征在于,所述从所述频繁项集中选择填充属性项,包括:
如果属性项对应的属性包含缺失值对应属性的相关属性,则根据所述相关属性的初始化贡献度确定所述相关属性的权重值,所述初始化贡献度为大于1的数值;
根据所述频繁项集中各属性项对应的有效属性值个数、所述相关属性的权重值以及所述频繁项集中各属性项的支持度信息中的至少一项确定与所述缺失值对应的填充属性项。
7.一种数据处理的装置,其特征在于,包括:
数据样本获取模块,用于获取数据样本,所述数据样本包括包含缺失值的数据样本和未包含缺失值的数据样本;
频繁项集确定模块,用于根据所述未包含缺失值的数据样本的各属性项的属性信息确定所述未包含缺失值的数据样本的各属性项中与所述缺失值对应的频繁项集;
填充属性项选择模块,用于从所述频繁项集中选择填充属性项;
填充值确定模块,用于根据所述填充属性项中与所述包含缺失值的数据样本中的缺失值的对应属性的属性值确定填充值,并根据所述填充值更新所述包含缺失值的数据样本。
8.根据权利要求7所述的装置,其特征在于,所述属性信息包括属性项的支持度信息和置信度信息,
相应的,所述频繁项集确定模块包括:
选择条件确定单元,用于根据所述数据样本中与所述缺失值对应的属性的非缺失率确定与所述缺失值相对应的最小支持阈值和最小置信阈值;
候选频繁项集确定单元,用于从所述未包括缺失值的数据样本中选取支持度信息大于或等于最小支持阈值的属性项组成候选频繁项集,所述属性项包含与所述缺失值对应的属性的属性值;
频繁项集确定单元,用于从所述候选频繁项集中选取置信度信息大于或等于最小置信阈值的属性项组成与所述缺失值对应的频繁项集。
9.根据权利要求7所述的装置,其特征在于,所述填充属性项选择模块具体用于:
根据所述频繁项集中各属性项的支持度信息和/或对应的有效属性值个数,确定与所述缺失值对应的填充属性项,其中,所述有效属性值与所述包含缺失值的数据样本的属性值相同。
10.根据权利要求9所述的装置,其特征在于,所述填充属性项选择模块包括:
权重值确定单元,用于如果属性项对应的属性包含缺失值对应属性的相关属性,则根据所述相关属性的初始化贡献度确定所述相关属性的权重值,所述初始化贡献度为大于1的数值;
填充属性项确定单元,用于根据所述频繁项集中各属性项对应的有效属性值个数、所述相关属性的权重值以及所述频繁项集中各属性项的支持度信息中的至少一项确定与所述缺失值对应的填充属性项。
CN201710141560.2A 2017-03-10 2017-03-10 数据处理的方法及装置 Active CN106778048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141560.2A CN106778048B (zh) 2017-03-10 2017-03-10 数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141560.2A CN106778048B (zh) 2017-03-10 2017-03-10 数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN106778048A true CN106778048A (zh) 2017-05-31
CN106778048B CN106778048B (zh) 2019-07-16

Family

ID=58962044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141560.2A Active CN106778048B (zh) 2017-03-10 2017-03-10 数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN106778048B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710628A (zh) * 2018-12-29 2019-05-03 深圳道合信息科技有限公司 信息处理方法及装置、系统、计算机及可读存储介质
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047287A (en) * 1998-05-05 2000-04-04 Justsystem Pittsburgh Research Center Iterated K-nearest neighbor method and article of manufacture for filling in missing values
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN104598618A (zh) * 2015-01-30 2015-05-06 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047287A (en) * 1998-05-05 2000-04-04 Justsystem Pittsburgh Research Center Iterated K-nearest neighbor method and article of manufacture for filling in missing values
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN104598618A (zh) * 2015-01-30 2015-05-06 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱玉全,等: "快速更新频繁项集", 《计算机研究与发展》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710628A (zh) * 2018-12-29 2019-05-03 深圳道合信息科技有限公司 信息处理方法及装置、系统、计算机及可读存储介质
CN109710628B (zh) * 2018-12-29 2023-12-26 深圳巨湾科技有限公司 信息处理方法及装置、系统、计算机及可读存储介质
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法

Also Published As

Publication number Publication date
CN106778048B (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN106844781B (zh) 数据处理的方法及装置
CN106919957B (zh) 处理数据的方法及装置
CN111340054A (zh) 数据标注方法、装置及数据处理设备
Chevalier et al. Data integration methods to account for spatial niche truncation effects in regional projections of species distribution
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN109727070B (zh) 一种潜在活跃用户的确定方法及装置
EP4075281A1 (en) Ann-based program test method and test system, and application
CN112288337B (zh) 行为推荐方法、装置、设备及介质
CN109635260A (zh) 用于生成文章模板的方法、装置、设备和存储介质
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN106919706A (zh) 数据更新的方法及装置
CN113268665A (zh) 基于随机森林的信息推荐方法、装置、设备及存储介质
CN106778048A (zh) 数据处理的方法及装置
CN114780371A (zh) 基于多曲线拟合的压测指标分析方法、装置、设备及介质
CN106776757A (zh) 用户完成网银操作的指示方法及装置
CN113742069A (zh) 基于人工智能的容量预测方法、装置及存储介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN113989287A (zh) 城市道路遥感图像分割方法、装置、电子设备和存储介质
JP2016118871A (ja) 生成装置、生成方法、及び、プログラム
CN113094444A (zh) 数据处理方法、数据处理装置、计算机设备和介质
CN115167965A (zh) 交易进度条的处理方法及装置
CN116304251A (zh) 标签处理方法、装置、计算机设备和存储介质
CN112528500B (zh) 一种场景图构造模型的评估方法及评估设备
CN113255670A (zh) 非均衡小样本目标检测方法、装置和计算机设备
CN110475198B (zh) 一种城市道路用户轨迹纠偏处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant