CN105447090A - 一种自动化数据挖掘预处理方法 - Google Patents

一种自动化数据挖掘预处理方法 Download PDF

Info

Publication number
CN105447090A
CN105447090A CN201510752372.4A CN201510752372A CN105447090A CN 105447090 A CN105447090 A CN 105447090A CN 201510752372 A CN201510752372 A CN 201510752372A CN 105447090 A CN105447090 A CN 105447090A
Authority
CN
China
Prior art keywords
data
field
preprocessing
rule
rule base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510752372.4A
Other languages
English (en)
Other versions
CN105447090B (zh
Inventor
莫益军
尹强
廖振松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201510752372.4A priority Critical patent/CN105447090B/zh
Publication of CN105447090A publication Critical patent/CN105447090A/zh
Application granted granted Critical
Publication of CN105447090B publication Critical patent/CN105447090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自动化数据挖掘预处理方法,其特征在于,包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反馈,调整字段映射函数,提高预处理的质量。

Description

一种自动化数据挖掘预处理方法
技术领域
本发明属于数据挖掘领域,更具体地,涉及一种自动化数据挖掘预处理方法。
背景技术
在数据挖掘的工程应用中,数据预处理往往占到了80%甚至更多工作。学者们已经对数据挖掘的方法已经进行了大量的研究,并取得了一定的成果,但是,数据挖掘预处理,特别是如何自动化的进行数据预处理,仍然是一个问题。目前,已有一些企业和研究机构提出了一些数据挖掘预处理的方法。
例如,中国发明CN200910236744.2中提出了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。该发明提出了一种高效的分布式数据预处理方法,但是,无法对海量数据进行自动化数据预处理。
中国发明申请CN201210337315.6公开了一种基于excel的数据挖掘方法,借助excel工具和数据挖掘外接程序以及数据库来进来数据挖掘,通过对企业多年的经营的数据或者生产的数据进行挖掘,根据数据挖掘算法发现的有用的模式,可以运用这些模式来改善经营策略,提高劳动生产率,减少成本,增加企业利润。一般要进行数据挖掘需要专业的人员和花费大量的金钱才能实现,是一般中小企业所不能承受的。该发明阐述用excel来实现数据挖掘,可以让大部分懂excel的人都可以进行数据挖掘。该发明能让数据挖掘预处理变得更易操作,但是仍然需要耗费很大的工作量,无法对海量数据进行自动化数据预处理。
专利CN102609501A提出了一种基于实时历史数据库的数据预处理方法,涉及到实时历史数据库测点的创建、过程数据的采集、实时库数据的查询、数据特性分析,最后提出了一种以阈值和倍率为参数的横向清洗算法,将不同采集周期过程数据进行了描述,最终得到了过程控制数据采集减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。该发明通过一种基于历史数据库的方法,能够在一定程度上进行自动化的数据预处理,但是缺乏反馈和参数控制,因此预处理的质量无法得到保障。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种自动化数据挖掘预处理方法,其目的在于,通过构建规则库和样本库,将新数据与已有的样本数据进行字段映射,将新数据的字段变换成已有样本库中的特征字段,并使用相应的数据预处理方法进行自动化的数据预处理;同时,通过对预处理结果进行评分和反馈,调整字段映射函数,提高预处理的质量。
为实现上述目的,按照本发明的一个方面,提供了一种自动化数据挖掘预处理方法,包括以下步骤:
(1)建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;
(2)提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则进入步骤(3),如果存在则跳转步骤(4);
(3)将数据表的关键字和所有字段添加到预处理规则库中,然后跳转到步骤(7);
(4)找到数据表中抽样后的数据的所有字段,确定这些字段对应数值的类型,根据数据表中的关键字和字段对应数值的类型是否与规则库中的关键字及类型一致来判断规则库中的字段是否符合数据表字段,如果符合则进入步骤(5),不符合则跳转到步骤(7);
(5)计算数据表中的每一字段特征向量和规则库中符合字段的特征向量,并根据两个特征向量之间的误差判断来修正误差阈值ξ,进而修正并确立数据表字段和已有规则库中字段之间的映射关系;
(6)将所有待预处理数据导入到新建数据表中,按照规则库中的数据预处理方法对该数据进行数据预处理,并对预处理结果进行评估;
(7)采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。
(8)输出步骤(6)和(7)的预处理结果,并记录预处理日志。
优选地,步骤(1)包括以下子步骤:
(1.1)建立数据库,同时建立预处理规则库;
(1.2)在数据库中新建数据表且进行标准化命名,其命名规则为A+B+C+建表时间的形式,其中A、B和C分别表示该数据表数据相关信息、代表的行业和行业的业务类型;
(1.3)将待预处理数据进行抽样并导入数据表;
(1.4)对数据表中抽样后的数据的每个字段的值进行数理统计,得到的数理统计特性用于组成该数据的特征向量。
优选地,步骤(5)包括以下子步骤:
(5.1)设置计数器k=1;
(5.2)选择抽样后的待预处理数据的第k个字段,并计算它的特征向量λ,其中1≤k≤n,n为待预处理数据所包括的字段总数;
(5.3)选择数据表中第k个字段对应的规则库字段I,并计算其特征向量λ';
(5.4)设置计数器m=1;
(5.5)判断是否有成立,如果成立则跳至步骤(5.8),不满足则进入步骤(5.6);其中ξ为误差阈值;
(5.6)使用逻辑回归算法计算该第k个字段到规则库中相应字段的映射关系fm(λ')=f(fm-1(λ')),其中f0(λ')=λ';
(5.7)判断是否有成立;如果不成立则设置m=m+1,并返回步骤(5.6),如果成立则进入步骤(5.8);
(5.8)记录并输出数据表中该第k个字段与规则库中对应字段的映射关系;
(5.9)判断k是否等于n,即抽样后的待预处理数据是否存在未处理的字段,如果不等于,则设置k=k+1,返回步骤(5.2),否则进入步骤(6)。
优选地,步骤(6)包括以下子步骤:
(6.1)将所有的待预处理数据导入到新建数据表中,根据步骤5中确立的映射关系,将待预处理的数据变换成相应映射的数据,通过规则库提取与该数据相应的数据预处理方法;
(6.2)依照规则库中的预处理方法,对所有待预处理数据进行数值缺失和数据冗余处理;
(6.3)对步骤(6.2)处理后的数据进行合并、拆分和归一化处理;
(6.4)对步骤(6.3)处理后的数据进行属性交换、属性变换和属性删除处理;
(6.5)计算预处理数据各字段的特征向量λ=(λ12...λn)和规则库字段特征向量λ'=(λ1',λ2'...λn'),并得到向量集合D={(λ11'),(λ22')...(λnn')},使用公式作为评估函数对预处理过程进行评估,并判断是否有S>ψ,ψ为预先设定的误差阈值,如果是则进入步骤(7),否则跳转步骤(8)。
优选地,输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明能够实现数据预处理工作的自动化,由于采用了步骤(1)、(4)、(5)、(6)通过构建规则库,查询待预处理数据中符合规则库中字段的字段,得到两者之间的映射关系,按照预处理规则库中的预处理方法对新数据进行自动化的预处理操作。代替了人工预处理操作,减少了投入提升了数据预处理的效率,减少了数据挖掘整个过程的周期
2、本发明由于采用了步骤(2)、(3)、(7)建立了一个依托各具体的业务系统的规则库,通过分析具体业务系统海量数据,构建自动化预处理规则库,在预处理数据的不断壮大中,规则库也被不断地更新。规则库越来越壮大对预处理数据对象的适应能力越强,自动化程度越高,预处理能力越强,预处理的质量更高,后续数据挖掘得到的信息精度更高,信息更丰富。
附图说明
图1是本发明自动化数据挖掘预处理方法的流程图。
图2是本发明方法中步骤(1)的细化流程图。
图3是本发明方法中步骤(5)的细化流程图。
图4是本发明方法中步骤(6)的细化流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明的自动化数据挖掘预处理方法包括以下步骤:
步骤1:建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计,本步骤包括以下子步骤(见图2):
步骤1.1:建立数据库,同时建立预处理规则库;
步骤1.2:在数据库中新建数据表且进行标准化命名,其命名规则为A+B+C+建表时间的形式,其中A、B和C分别表示该数据表数据相关信息、代表的行业和行业的业务类型,比如,A可以为四月份消费明细表,B表示银行业,C表示现金业务等;
步骤1.3:将待预处理数据进行抽样并导入数据表;
步骤1.4:对数据表中抽样后的数据的每个字段的值进行数理统计(包括计算众数、均值、或方差等),得到的数理统计特性用于组成该数据的特征向量。
步骤2:提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则进入步骤3,如果存在则跳转步骤4;
步骤3:将数据表的关键字和所有字段添加到预处理规则库中,然后跳转到步骤7;
步骤4:找到数据表中抽样后的数据的所有字段,确定这些字段对应数值的类型(字段值的类型一般包括文本、二元值、整形等),根据数据表中的关键字和字段对应数值的类型是否与规则库中的关键字及类型一致来判断规则库中的字段是否符合数据表字段,如果符合则进入步骤5,不符合则跳转到步骤7;
步骤5:计算数据表中的每一字段特征向量和规则库中符合字段的特征向量,并根据两个特征向量之间的误差判断来修正误差阈值ξ,进而修正并确立数据表字段和已有规则库中字段之间的映射关系。该步骤包括以下子步骤:(见图4流程)
步骤5.1:设置计数器k=1;
步骤5.2:选择抽样后的待预处理数据的第k个字段(1≤k≤n,n为待预处理数据所包括的字段总数),并计算它的特征向量λ;具体的过程和上述步骤1.4相同,在此不再赘述;
步骤5.3:选择数据表中第k个字段对应的规则库字段I,并计算其特征向量λ';
步骤5.4:设置计数器m=1;
步骤5.5:判断是否有成立,如果成立则跳至步骤5.8,不满足则进入步骤5.6;其中ξ为误差阈值,其取值是预先设定,且取值范围是0≤ξ≤1,ξ的取值越小,则本发明方法的精度越高,反之则越低;
步骤5.6:使用逻辑回归算法计算该第k个字段到规则库中相应字
段的映射关系fm(λ')=f(fm-1(λ')),其中f0(λ')=λ';
步骤5.7:判断是否有成立;如果不成立则设置m=m+1,并返回步骤5.6,如果成立则进入步骤5.8;
步骤5.8:记录并输出数据表中该第k个字段与规则库中对应字段的映射关系;
步骤5.9:判断k是否等于n,即抽样后的待预处理数据是否存在未处理的字段,如果不等于,则设置k=k+1,返回步骤5.2,否则进入步骤6;
步骤6:将所有待预处理数据导入到新建数据表中,按照规则库中的数据预处理方法对该数据进行数据预处理,并对预处理结果进行评估;该步骤进一步包括以下步骤:
步骤6.1:将所有的待预处理数据导入到新建数据表中,根据步骤5中确立的映射关系,将待预处理的数据变换成相应映射的数据,通过规则库提取与该数据相应的数据预处理方法;
步骤6.2:依照规则库中的预处理方法,对所有待预处理数据进行数值缺失和数据冗余处理;
步骤6.3:对上一步处理后的数据进行合并、拆分和归一化处理;
步骤6.4:对上一步处理后的数据进行属性交换、属性变换和属性删除处理;
步骤6.5:计算预处理数据各字段的特征向量λ=(λ12...λn)和规则库字段特征向量λ'=(λ1',λ2'...λn'),并得到向量集合D={(λ11'),(λ22')...(λnn')},使用公式)作为评估函数对预处理过程进行评估,ψ为预先设定的误差阈值,取值范围为0≤ψ≤1,如果评估S>ψ则预处理数据质量偏低,进入步骤7,否则跳转步骤8。
步骤7:采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。
步骤8:输出步骤6和7的预处理结果,并记录预处理日志。
输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则等几个主要部分。预处理时间是指执行数据预处理操作的具体时间;预处理数据是指待预处理的数据;匹配字段是指待预处理数据与规则库中匹配的字段;预处理操作指针对该数据项的预处理动作;预处理后的数据则是指执行规则后的最终数据;预处理质量评估是指预处理结果的评价;未处理字段是指未与规则库字段匹配的字段,这些字段需要进一步分析;新建规则是针对未匹配字段建立的预处理规则。日志便于日后对数据处理历史进行记录,同时也可用于数据质量分析等。
总而言之,本发明通过分析历史数据构建数据挖掘预处理自动化规则库,将新数据的字段映射到规则库中的字段,并使用规则库字段的预处理方法对新数据进行自动化的预处理。自动化数据预处理完毕后,通过预处理质量评估进行反馈,调整误差阈值和映射参数,提高数据预处理的质量。同时,在数据分析中不断迭代和更新规则库,不断提高数据挖掘预处理自动化程度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种自动化数据挖掘预处理方法,其特征在于,包括以下步骤:
(1)建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;
(2)提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则进入步骤(3),如果存在则跳转步骤(4);
(3)将数据表的关键字和所有字段添加到预处理规则库中,然后跳转到步骤(7);
(4)找到数据表中抽样后的数据的所有字段,确定这些字段对应数值的类型,根据数据表中的关键字和字段对应数值的类型是否与规则库中的关键字及类型一致来判断规则库中的字段是否符合数据表字段,如果符合则进入步骤(5),不符合则跳转到步骤(7);
(5)计算数据表中的每一字段特征向量和规则库中符合字段的特征向量,并根据两个特征向量之间的误差判断来修正误差阈值ξ,进而修正并确立数据表字段和已有规则库中字段之间的映射关系;
(6)将所有待预处理数据导入到新建数据表中,按照规则库中的数据预处理方法对该数据进行数据预处理,并对预处理结果进行评估;
(7)采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。
(8)输出步骤(6)和(7)的预处理结果,并记录预处理日志。
2.根据权利要求1所述的自动化数据挖掘预处理方法,其特征在于,步骤(1)包括以下子步骤:
(1.1)建立数据库,同时建立预处理规则库;
(1.2)在数据库中新建数据表且进行标准化命名,其命名规则为A+B+C+建表时间的形式,其中A、B和C分别表示该数据表数据相关信息、代表的行业和行业的业务类型;
(1.3)将待预处理数据进行抽样并导入数据表;
(1.4)对数据表中抽样后的数据的每个字段的值进行数理统计,得到的数理统计特性用于组成该数据的特征向量。
3.根据权利要求2所述的自动化数据挖掘预处理方法,其特征在于,步骤(5)包括以下子步骤:
(5.1)设置计数器k=1;
(5.2)选择抽样后的待预处理数据的第k个字段,并计算它的特征向量λ,其中1≤k≤n,n为待预处理数据所包括的字段总数;
(5.3)选择数据表中第k个字段对应的规则库字段I,并计算其特征向量λ';
(5.4)设置计数器m=1;
(5.5)判断是否有成立,如果成立则跳至步骤(5.8),不满足则进入步骤(5.6);其中ξ为误差阈值;
(5.6)使用逻辑回归算法计算该第k个字段到规则库中相应字段的映射关系fm(λ')=f(fm-1(λ')),其中f0(λ')=λ';
(5.7)判断是否有成立;如果不成立则设置m=m+1,并返回步骤(5.6),如果成立则进入步骤(5.8);
(5.8)记录并输出数据表中该第k个字段与规则库中对应字段的映射关系;
(5.9)判断k是否等于n,即抽样后的待预处理数据是否存在未处理的字段,如果不等于,则设置k=k+1,返回步骤(5.2),否则进入步骤(6)。
4.根据权利要求3所述的自动化数据挖掘预处理方法,其特征在于,步骤(6)包括以下子步骤:
(6.1)将所有的待预处理数据导入到新建数据表中,根据步骤5中确立的映射关系,将待预处理的数据变换成相应映射的数据,通过规则库提取与该数据相应的数据预处理方法;
(6.2)依照规则库中的预处理方法,对所有待预处理数据进行数值缺失和数据冗余处理;
(6.3)对步骤(6.2)处理后的数据进行合并、拆分和归一化处理;
(6.4)对步骤(6.3)处理后的数据进行属性交换、属性变换和属性删除处理;
(6.5)计算预处理数据各字段的特征向量λ=(λ12...λn)和规则库字段特征向量λ'=(λ1',λ2'...λn'),并得到向量集合D={(λ11'),(λ22')...(λnn')},使用公式作为评估函数对预处理过程进行评估,并判断是否有S>ψ,ψ为预先设定的误差阈值,如果是则进入步骤(7),否则跳转步骤(8)。
5.根据权利要求4所述的自动化数据挖掘预处理方法,其特征在于,输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则。
CN201510752372.4A 2015-11-05 2015-11-05 一种自动化数据挖掘预处理方法 Active CN105447090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510752372.4A CN105447090B (zh) 2015-11-05 2015-11-05 一种自动化数据挖掘预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510752372.4A CN105447090B (zh) 2015-11-05 2015-11-05 一种自动化数据挖掘预处理方法

Publications (2)

Publication Number Publication Date
CN105447090A true CN105447090A (zh) 2016-03-30
CN105447090B CN105447090B (zh) 2018-10-26

Family

ID=55557268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510752372.4A Active CN105447090B (zh) 2015-11-05 2015-11-05 一种自动化数据挖掘预处理方法

Country Status (1)

Country Link
CN (1) CN105447090B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491460A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 适配系统的数据映射方法及装置
CN107506383A (zh) * 2017-07-25 2017-12-22 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107766167A (zh) * 2017-10-23 2018-03-06 郑州云海信息技术有限公司 一种故障日志重复报错归并的方法
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN108509485A (zh) * 2018-02-07 2018-09-07 深圳壹账通智能科技有限公司 数据的预处理方法、装置、计算机设备和存储介质
CN109308296A (zh) * 2018-09-30 2019-02-05 税友软件集团股份有限公司 一种业务数据表的生成方法、装置和计算机可读存储介质
CN109816480A (zh) * 2018-12-29 2019-05-28 广州兴森快捷电路科技有限公司 一种提升提取报价参数准确率的方法及装置
CN110097137A (zh) * 2019-05-10 2019-08-06 广东中建普联科技股份有限公司 工程概算项目数据的国标定额自定义特征数据提取方法
CN110580248A (zh) * 2019-09-04 2019-12-17 北京明略软件系统有限公司 基于规则库扩充的数据治理方法及装置
CN111104442A (zh) * 2019-11-06 2020-05-05 杭州绿程网络科技有限公司 一种企业综合数据的预处理方法
CN111340636A (zh) * 2020-02-27 2020-06-26 平安医疗健康管理股份有限公司 数据有效性检测方法、装置、计算机设备和存储介质
CN112860743A (zh) * 2021-01-26 2021-05-28 恩亿科(北京)数据科技有限公司 用于数据提取的方法、装置及设备
CN113792039A (zh) * 2021-03-15 2021-12-14 北京京东振世信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN113850395A (zh) * 2021-09-24 2021-12-28 北京九章云极科技有限公司 一种数据处理方法及系统
CN116738157A (zh) * 2023-08-09 2023-09-12 柏森智慧空间科技集团有限公司 物业管理平台中数据预处理的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054001A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN102411600A (zh) * 2011-08-02 2012-04-11 暨南大学 一种基于蕴涵规则的数据质量自动检测方法
CN104156441A (zh) * 2014-08-14 2014-11-19 中国人民解放军第九八医院 一种基于数据挖掘技术的lis数据分析方法
CN104233395A (zh) * 2013-06-08 2014-12-24 无锡市锡山区鹅湖镇荡口青荡金属制品厂 一种抽油部件表面电镀钨钼镍合金镀层的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054001A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN102411600A (zh) * 2011-08-02 2012-04-11 暨南大学 一种基于蕴涵规则的数据质量自动检测方法
CN104233395A (zh) * 2013-06-08 2014-12-24 无锡市锡山区鹅湖镇荡口青荡金属制品厂 一种抽油部件表面电镀钨钼镍合金镀层的方法
CN104156441A (zh) * 2014-08-14 2014-11-19 中国人民解放军第九八医院 一种基于数据挖掘技术的lis数据分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张春生 等: "基于属性拓展的数据挖掘预处理技术研究", 《计算机技术与发展》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491460B (zh) * 2016-06-13 2021-01-22 阿里巴巴集团控股有限公司 适配系统的数据映射方法及装置
CN107491460A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 适配系统的数据映射方法及装置
CN107506383A (zh) * 2017-07-25 2017-12-22 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107506383B (zh) * 2017-07-25 2021-07-23 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107766167A (zh) * 2017-10-23 2018-03-06 郑州云海信息技术有限公司 一种故障日志重复报错归并的方法
CN108509485A (zh) * 2018-02-07 2018-09-07 深圳壹账通智能科技有限公司 数据的预处理方法、装置、计算机设备和存储介质
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN109308296A (zh) * 2018-09-30 2019-02-05 税友软件集团股份有限公司 一种业务数据表的生成方法、装置和计算机可读存储介质
CN109816480A (zh) * 2018-12-29 2019-05-28 广州兴森快捷电路科技有限公司 一种提升提取报价参数准确率的方法及装置
CN110097137A (zh) * 2019-05-10 2019-08-06 广东中建普联科技股份有限公司 工程概算项目数据的国标定额自定义特征数据提取方法
CN110097137B (zh) * 2019-05-10 2022-11-25 广东中建普联科技股份有限公司 工程概算项目数据的国标定额自定义特征数据提取方法
CN110580248A (zh) * 2019-09-04 2019-12-17 北京明略软件系统有限公司 基于规则库扩充的数据治理方法及装置
CN111104442A (zh) * 2019-11-06 2020-05-05 杭州绿程网络科技有限公司 一种企业综合数据的预处理方法
CN111340636A (zh) * 2020-02-27 2020-06-26 平安医疗健康管理股份有限公司 数据有效性检测方法、装置、计算机设备和存储介质
CN112860743A (zh) * 2021-01-26 2021-05-28 恩亿科(北京)数据科技有限公司 用于数据提取的方法、装置及设备
CN113792039A (zh) * 2021-03-15 2021-12-14 北京京东振世信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN113792039B (zh) * 2021-03-15 2024-03-01 北京京东振世信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN113850395A (zh) * 2021-09-24 2021-12-28 北京九章云极科技有限公司 一种数据处理方法及系统
CN116738157A (zh) * 2023-08-09 2023-09-12 柏森智慧空间科技集团有限公司 物业管理平台中数据预处理的方法

Also Published As

Publication number Publication date
CN105447090B (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN105447090A (zh) 一种自动化数据挖掘预处理方法
CN100568243C (zh) 一种数据挖掘和建模的方法及系统
CN110752942A (zh) 告警信息的决策方法、装置、计算机设备及存储介质
CN109840838B (zh) 风控规则模型双引擎系统、控制方法及服务器
Navale et al. Prediction of stock market using data mining and artificial intelligence
CN103412915B (zh) 一种面向金融高频交易数据的情景感知测定方法和系统
Rocha et al. Comparing DEA and principal component analysis in the multiobjective optimization of P-GMAW process
Syed et al. Multifactor productivity growth and the Australian mining sector
CN107122919B (zh) 一种基于智能运营的配网效能评估方法及系统
CN115755614A (zh) 基于碳排监测的用能优化调控方法及装置
Chen et al. Post-evaluation on financial support highway traffic project based on BP neural network algorithm
CN116975535A (zh) 一种基于土壤环境监测数据的多参数数据分析方法
CN110909975A (zh) 科研平台效益评估方法、装置
Cho et al. A robust time series prediction model using POMDP and data analysis
Valčić Relationship between different business value components within the oil and gas industry
Rybak Application of the Cobb-Douglas production function to study the results of the production process and planning under turbulent environment conditions
Kumar et al. Efficiency evaluation of select Indian banks using fuzzy extended data envelopment analysis
CN111709594A (zh) 一种经济管理数据分析系统
Chen Enhancement of stock market forecasting using a technical analysis-based approach
Ji et al. Uncertain multi-objective optimal model of oilfield development planning and its algorithm
Dokuchaev On strong causal binomial approximation for stochastic processes
Allen et al. Does C hina's demand boom curb A ustralian iron ore mining depletion?
Nie et al. Research of chinese stock market complex network structure
Dehua et al. Optimal Adjustment of Investment Estimation Index for Single Project of Barracks
Choudhury et al. Long-Short Term Memory Based Stock Market Analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant