CN106776951A - 一种清洗对比入库方法 - Google Patents

一种清洗对比入库方法 Download PDF

Info

Publication number
CN106776951A
CN106776951A CN201611097362.2A CN201611097362A CN106776951A CN 106776951 A CN106776951 A CN 106776951A CN 201611097362 A CN201611097362 A CN 201611097362A CN 106776951 A CN106776951 A CN 106776951A
Authority
CN
China
Prior art keywords
data
cleaning
data acquisition
acquisition system
storage method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611097362.2A
Other languages
English (en)
Other versions
CN106776951B (zh
Inventor
安西民
吴方才
徐凤桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Space Star Technology (beijing) Co Ltd
Original Assignee
Space Star Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Space Star Technology (beijing) Co Ltd filed Critical Space Star Technology (beijing) Co Ltd
Priority to CN201611097362.2A priority Critical patent/CN106776951B/zh
Publication of CN106776951A publication Critical patent/CN106776951A/zh
Application granted granted Critical
Publication of CN106776951B publication Critical patent/CN106776951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种清洗对比入库方法,该方法应用于大数据互联网环境中,该系统包括多数据来源,多个数据采集单元,缓存服务器,统一数据处理平台,数据仓库,上位机;该清洗对比入库方法对数据作并行采集和处理,去除明显不合理和明显矛盾的数据,进行自动数据值补全,重复数据删除等清洗处理。本发明所采用的清洗方法智能化程度高,人为参与程度较低,能够自动化的进行大数据清洗,能够针对不同的用户作个性化的数据清理,在用户进行数据获取时对上位机身份作鉴权,提高了安全性。

Description

一种清洗对比入库方法
【技术领域】
本发明属于数据清洗领域,尤其涉及清洗对比入库方法。
【背景技术】
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。
现有技术中的数据清洗方法都比较简单,仅能够进行一些常见的数据清洗,清洗后数据删除率较高,由于智能程度不高,清洗过程需要大量的人为参与,用户体验较低,此外,现有的数据清洗计数不能有效的利用现有的数据资源,数据采集和处理不是并行的,不能进行大数据清理,不能针对不同的用户作个性化的数据清理。基于上述诸多问题,现在亟需一种新的清洗对比入库方法,不依赖于用户自身的能力,可以进行自动化的、高安全性、高并行的数据清洗。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种清洗比对入库方法。
一种清洗比对入库方法,该方法目的是保证数据的质量,提高数据的价值。解决了以下问题:第一、找出相似重复的数据以便去重;第二,对不同来源的数据进行匹配;第三,使数据标准化;第四,支持全量数据清洗导入;第五,指出增量数据清洗导入;第六,支持大数据文件的清洗导入;第七,支持准确的异常数据报告功能;第八,支持自定义数据的清洗规则。
本发明采用的技术方案如下:一种清洗对比入库方法,其特征在于,该方法包括如下步骤:
(1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
(2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;
(3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
(4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
(5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
(6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;
(7)统一数据处理平台对数据集合进行缺失补全;
(8)统一数据处理平台找出相似重复的数据以便去重;
(9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
(10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取;
进一步的,为不同的数据来源设置不同的数据采集周期。
进一步的,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集。
进一步的,数据来源在满足预设条件后,进行主动的数据推送。
进一步的,预设条件是:在数据量达到预设值后进行主动的数据推送。
进一步的,预设的时间周期达到后进行主动的数据推送。
进一步的,支持全量数和增量数据清洗。
进一步的,支持大数据文件的清洗导入。
进一步的,支持自定义数据的清洗规则。
进一步的,支持并行的数据采集和处理。
本发明的有益效果包括:清洗后数据删除率明显降低,智能化程度高,人为参与程度较低,能够自动化的进行大数据清洗,数据采集和处理是并行的,大大提高了清洗效率,针对不同的用户作个性化的数据清理,在用户进行数据获取时对上位机身份作鉴权,提高了安全性。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明所应用的清洗对比入库系统结构图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,是本发明所应用的一种清洗比对入库系统,该系统包括多数据来源,多个数据采集单元,缓存服务器,统一数据处理平台,数据仓库,上位机;
基于上述系统,下面对本发明的一种清洗比对入库方法进行详细说明。
(1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
由于不同的数据来源其数据的产生都有一定的规律性,其产生的数据都有一定的特点;同一个数据采集单元并行负责多个数据来源的数据采集,不能对多个数据来源进行并行的实时采集,这样采集效率会很低,统一处理平台进行数据获取和处理的效率也会很低,需要结合不同数据来源的数据产生规律来更新针对该数据来源的数据采集策略;针对不同的数据来源其采集策略是不同的;针对数据来源的采集策略可以设置为:为不同的数据来源设置不同的数据采集周期;还可设置为,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集;还可设置为:数据来源在满足预设条件后,进行主动的数据推送,预设条件是:在数据量达到预设值后,或预设的时间周期达到后等;
(2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;缓存服务器中为每个数据采集单元分配独立的存储区域,同一数据采集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中;在数据采集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向缓存服务器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储;
优选的:当序列编码对应的数据集合过了保留时间期限后则标记为无效;
优选的:序列编号随着采集次数的增加而增加;
优选的:该临时存储区域在物理上邻接该存储区域;
(3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
优选的:统一数据处理平台中包含多个并行处理设备,多个并行处理设备可以并行的对多个采集单元采集的数据集合进行处理,也可以同时处理同一采集单元采集的数据集合;
统一数据处理平台可以一次性获取多个序列编号的数据集合,并同时对该多个序列编号的数据集合进行处理;
(4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
当数据集合处理完毕后,将该数据集合的数据签名保存到历史数据签名表中;
数据签名基于该数据集合的数据值获取,可以采用常见的签名算法,此处不再详述;
(5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
数据格式内容的不一致和输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可;但由于不同的上位机对数据格式的要求可能不同,允许上位机设置自己要求的标准化规则;
检查每条数据记录,如果一条数据记录中的某个数据值是正确的,但是其格式不正确,则根据上位机要求的标准化规则中针对数据值对应的字段的标准化要求对该字段值进行修改;例如:日期填写格式不正确,民族填写方式不符合要求等。
如果一条数据记录中的某个字段值是错误的,不能进行标准化,通过错误字段值的重填,可以最快速的做数据记录的更改,同时这种更改的可靠性也是比较高的;例如:姓名写了性别,身份证号写了手机号等等,均属这种问题;当一个数据记录中的一个字段值和其字段不符时,确定字段值是错误的,确定一条记录中的所有错误字段值,针对每个错误字段值,遍历该数据记录中的其它错误字段值对应的字段,如果该个错误字段值满足该其它错误字段值对应的字段中的一个字段要求,则将该个错误字段值填写到该一个字段中,将该一个字段中的字段值回写到该该个错误字段值对应的字段中,直到该一条数据记录中的每个错误字段值均处理完毕;
(6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;具体的:遍历所有的数据字段值,根据数据字段的取值范围确定明显不合理字段值,将该不合理字段值删除;删除后该字段的字段值设置为缺失值;对于一条数据记录中存在明显的矛盾的一对字段值,根据一个字段值对另一字段值进行修改;
优选的:根据关键字段值对另一字段值做修改;例如:根据身份证字段值对年龄字段值作修改;关键字段值可以有统一数据处理平台设置或者由用户设置;例如:设置身份证号码、手机号码、姓名字段为关键字段;
例如:有人填表时候瞎填,年龄200岁,年收入100000万,这些值都可以明确的判定为不合理值;有些字段是可以互相验证的,如:身份证号是1101031980XXXXXXXX,然后年龄填18岁,这明显是矛盾的;
(7)统一数据处理平台对数据集合进行缺失补全;具体的:统一数据处理平台对数据集合中的所有数据记录做遍历,找出其中存在字段缺失的数据记录,针对存在字段缺失的数据记录先进行计算补全,对于经过计算补全后仍然存在字段缺失的数据记录,将其保存在补全缓存中;对于补全缓存中的每条数据记录,根据当前数据记录中的关键字段值到本地缓存中进行全部数据集合的查找,根据查找到的数据记录对当前数据记录中的缺失字段进行补全,如果查找到多个匹配的数据字段,则根据时间戳的先后选择数据记录进行补全;如果在本地缓存中没有找到匹配的数据记录,则根据将该关键字段值发送到缓存服务器中,缓存服务器接收该关键数据字段值并查找匹配的数据记录,将匹配的数据记录发送给统一数据处理平台用于对当前数据记录进行补全;如果在缓存服务器中没有找到匹配的数据记录,在允许人工补全的情况下,将该数据记录发送给上位机进行人工补全;如果不允许人工补全,判断该当前数据记录中字段值的缺失率,如果缺失率大于第一缺失阈值,则将该条数据记录做删除处理,同时更新数据删除计数值,如果缺失率小于等于第一缺失阈值,则对缺失字段填充默认字段值;
例如:对于生日字段,可以通过身份证号码字段进行计算补全;还可以当前数据记录中的所有数据记录的该字段值的均值、中位数、众数等填充缺失值;
优选的:关键字段值可以为一个或者多个,关键字段值可以由平台、数据采集单元或用户来设置;
优选的:统一数据处理平台可以将关键字段值发送到一个或者多个缓存服务器中进行查找;
优选的:将所有需要进行人工补全的数据集合统一发送到上位机进行人工补全;
(8)统一数据处理平台找出相似重复的数据以便去重;具体的:统一数据处理平台计算两条数据记录之间的相似度,如果相似度S小于第一相似度阈值TS,则认为该两条数据记录是重复数据,根据该两条数据记录的置信度B选择一条数据记录进行删除;采用公式(1)计算两条数据记录之间的相似度;
其中,第一相似度阈值TS可以由不同的用户根据需求来设置;
B=w1×(当前时间-数据记录获取时间)+w2×数据来源置信度+w3*(1-字段值缺失率)公式(2)
其中,数据来源的置信度可以根据该数据来源历史清洗处理中问题数据记录比率来设置;问题数据记录比率是指同一数据来源中经过(5)~(8)中任一步骤处理的数据记录数目占总的数据记录的数目的比值;字段值缺失率是指该条数据记录中存在缺失的字段占总字段数的比率;w1~w3为权重值,由统一处理平台来预设;
优选的,删除置信度较低的一条数据记录;
(9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
异常数据报告中包括所处理的数据集合及其获取数据来源,数据采集单元的采集时间,被丢弃的数据集合及其丢弃原因,明显不合理和明显矛盾的数据记录条数,缺失补全的数据记录条数,标准化处理的数据记录条数,重复删除的数据记录条数,总的数据字段缺失率等;
(10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取;
该清洗比对入库方法还包括如下步骤:
(11)在数据处理过程中,统一处理平台支持增量数据清洗导入;具体的:在数据处理过程中,如果上位机下达增量数据清洗导入的消息,统一处理平台向数据采集单元发送增量数据获取的请求,数据采集单元将增量数据发送到统一处理平台,统一处理平台将该增量数据保存到本地缓存中最后一数据集合后,等待统一处理平台对该增量数据的处理;如果数据处理已经完成,上位机下达增量数据清洗导入的消息,统一处理平台向数据采集单元发送增量数据获取的请求,数据采集单元将增量数据发送到统一处理平台,统一处理平台将该增量数据保存到本地缓存中,针对该增量数据执行步骤(4)~(8)的一个或者多个的处理;处理完毕后将该处理后的数据集合发送到数据仓库中,并通知下达消息的上位机获取增量数据处理结果,同时将该处理后的数据集合的保存位置以及针对该增量数据集合处理的异常数据报告发送给该上位机;
(12)统一数据处理平台支持大数据文件的清洗导入;用户可以直接将大数据文件发送给统一数据处理平台,上位机也可以直接向统一数据处理平台发送大数据文件,统一数据处理平台在接收到大数据文件后,将文件内的数据记录保存到本地缓存中,执行步骤(4)~(8)的一个或者多个,并将处理结果发送给用户或者上位机;
(13)统一数据处理平台支持自定义数据的清洗规则;用户可以通过统一数据处理平台设置或修改清洗规则,还可以通过上位机下发数据清洗规则;统一处理平台按照用户设置的规则对目标数据集合进行清洗;通过清洗规则的设置不仅可以提供用户所需的标准化格式,还可以设置清洗的深度,清洗过程中的各项阈值,清洗必选或跳过的步骤,是否允许人工补全等;设置深度清洗时,清洗规则较为严格,可以设置较高的阈值要求,并完成完整的清洗步骤等;而对于宽松的清洗规则,则对应于浅度清洗,设置较低的阈值要求同时可以选择完成部分清洗步骤等;
本发明的清洗比对入库方法和系统,能够找出相似重复的数据以便去重、对不同来源的数据进行匹配、进行数据集合的去矛盾、补全和标准化、支持全量数和增量数据清洗,支持大数据文件的清洗导入、支持自定义数据的清洗规则、支持并行的数据采集和处理。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (10)

1.一种清洗对比入库方法,其特征在于,该方法包括如下步骤:
(1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
(2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;
(3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
(4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
(5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
(6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;
(7)统一数据处理平台对数据集合进行缺失补全;
(8)统一数据处理平台找出相似重复的数据以便去重;
(9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
(10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取。
2.根据权利要求1所述的清洗对比入库方法,其特征在于,为不同的数据来源设置不同的数据采集周期。
3.根据权利要求1‐2任意一项所述的清洗对比入库方法,其特征在于,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集。
4.根据权利要求1‐3任意一项所述的清洗对比入库方法,其特征在于,数据来源在满足预设条件后,进行主动的数据推送。
5.根据权利要求4所述的清洗对比入库方法,其特征在于,预设条件是:在数据量达到预设值后进行主动的数据推送。
6.根据权利要求4所述的清洗对比入库方法,其特征在于,预设的时间周期达到后进行主动的数据推送。
7.根据权利要求1所述的清洗对比入库方法,其特征在于,支持全量数和增量数据清洗。
8.根据权利要求1所述的清洗对比入库方法,其特征在于,支持大数据文件的清洗导入。
9.根据权利要求1所述的清洗对比入库方法,其特征在于,支持自定义数据的清洗规则。
10.根据权利要求1所述的清洗对比入库方法,其特征在于,支持并行的数据采集和处理。
CN201611097362.2A 2016-12-02 2016-12-02 一种清洗对比入库方法 Active CN106776951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611097362.2A CN106776951B (zh) 2016-12-02 2016-12-02 一种清洗对比入库方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611097362.2A CN106776951B (zh) 2016-12-02 2016-12-02 一种清洗对比入库方法

Publications (2)

Publication Number Publication Date
CN106776951A true CN106776951A (zh) 2017-05-31
CN106776951B CN106776951B (zh) 2019-04-26

Family

ID=58883234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611097362.2A Active CN106776951B (zh) 2016-12-02 2016-12-02 一种清洗对比入库方法

Country Status (1)

Country Link
CN (1) CN106776951B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391770A (zh) * 2017-09-13 2017-11-24 北京锐安科技有限公司 一种处理数据的方法、装置、设备以及存储介质
CN107577769A (zh) * 2017-09-06 2018-01-12 河南腾龙信息工程有限公司 一种计量专业数据的挖掘方法及系统
CN107967313A (zh) * 2017-11-21 2018-04-27 中科宇图科技股份有限公司 一种基于字段数据和坐标共性合并不同行业数据的方法
CN108255988A (zh) * 2017-12-28 2018-07-06 新智数字科技有限公司 数据的处理方法和处理系统
CN109063964A (zh) * 2018-07-02 2018-12-21 浙江百先得服饰有限公司 一种平台数据处理系统
CN109063007A (zh) * 2018-07-10 2018-12-21 阿里巴巴集团控股有限公司 一种交流介质清洗方法和装置
CN109087019A (zh) * 2018-08-18 2018-12-25 北京企信云信息科技有限公司 一种中小企业征信方法及装置
WO2019019767A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 客户身份信息处理方法、装置、存储介质和计算机设备
CN109508947A (zh) * 2018-08-18 2019-03-22 北京企信云信息科技有限公司 一种基于信用体系的电子合同运营方法及系统
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN109991888A (zh) * 2017-12-29 2019-07-09 北京金风科创风电设备有限公司 风机数据处理方法及系统、风机控制器及风机场群控制器
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110716928A (zh) * 2019-09-09 2020-01-21 上海凯京信达科技集团有限公司 一种数据处理方法、装置、设备和存储介质
CN110750685A (zh) * 2019-09-29 2020-02-04 中国联合网络通信集团有限公司 一种数据入库方法及装置
CN110850297A (zh) * 2019-09-23 2020-02-28 广东毓秀科技有限公司 一种通过大数据预测轨交锂电池soh的方法
CN110869918A (zh) * 2017-06-30 2020-03-06 费赛特实验室有限责任公司 用于管理极端数据的智能端点系统
CN111061940A (zh) * 2018-09-28 2020-04-24 北京国双科技有限公司 数据处理的方法及装置
CN111339210A (zh) * 2018-12-18 2020-06-26 杭州海康威视数字技术股份有限公司 数据聚类方法及装置
CN112202954A (zh) * 2020-09-21 2021-01-08 广西越知网络股份有限公司 一种电子名片发布方法
CN112667724A (zh) * 2020-12-31 2021-04-16 魔元术(苏州)信息科技有限公司 一种看板图表样式库自动采集扩增方法
CN113326254A (zh) * 2021-06-18 2021-08-31 立信(重庆)数据科技股份有限公司 一种调研数据清洗方法及系统
CN113568811A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 分布式安全监测数据处理方法
CN113590605A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114398456A (zh) * 2021-12-30 2022-04-26 如皋市勘测院有限公司 一种基于全量数据的地理服务发布系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915353A (zh) * 2012-09-28 2013-02-06 浙江图讯科技有限公司 一种垃圾数据的清理方法
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
US20160004742A1 (en) * 2014-06-11 2016-01-07 Ureveal, Inc. Methods and apparatus for harmonization of data stored in multiple databases using concept-based analysis
CN105787008A (zh) * 2016-02-23 2016-07-20 浪潮通用软件有限公司 一种大数据量的数据去重清洗方法
CN105912636A (zh) * 2016-04-08 2016-08-31 金蝶软件(中国)有限公司 一种基于Map/Reduce的ETL数据处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915353A (zh) * 2012-09-28 2013-02-06 浙江图讯科技有限公司 一种垃圾数据的清理方法
US20160004742A1 (en) * 2014-06-11 2016-01-07 Ureveal, Inc. Methods and apparatus for harmonization of data stored in multiple databases using concept-based analysis
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
CN105787008A (zh) * 2016-02-23 2016-07-20 浪潮通用软件有限公司 一种大数据量的数据去重清洗方法
CN105912636A (zh) * 2016-04-08 2016-08-31 金蝶软件(中国)有限公司 一种基于Map/Reduce的ETL数据处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫雪 等: "文献计量数据准备之数据采集与清洗", 《农业图书情报学刊》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110869918A (zh) * 2017-06-30 2020-03-06 费赛特实验室有限责任公司 用于管理极端数据的智能端点系统
WO2019019767A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 客户身份信息处理方法、装置、存储介质和计算机设备
CN107577769A (zh) * 2017-09-06 2018-01-12 河南腾龙信息工程有限公司 一种计量专业数据的挖掘方法及系统
CN107391770B (zh) * 2017-09-13 2020-02-07 北京锐安科技有限公司 一种处理数据的方法、装置、设备以及存储介质
CN107391770A (zh) * 2017-09-13 2017-11-24 北京锐安科技有限公司 一种处理数据的方法、装置、设备以及存储介质
CN107967313B (zh) * 2017-11-21 2022-02-01 中科宇图科技股份有限公司 一种基于字段数据和坐标共性合并不同行业数据的方法
CN107967313A (zh) * 2017-11-21 2018-04-27 中科宇图科技股份有限公司 一种基于字段数据和坐标共性合并不同行业数据的方法
CN108255988A (zh) * 2017-12-28 2018-07-06 新智数字科技有限公司 数据的处理方法和处理系统
CN109991888A (zh) * 2017-12-29 2019-07-09 北京金风科创风电设备有限公司 风机数据处理方法及系统、风机控制器及风机场群控制器
CN109063964A (zh) * 2018-07-02 2018-12-21 浙江百先得服饰有限公司 一种平台数据处理系统
CN109063007A (zh) * 2018-07-10 2018-12-21 阿里巴巴集团控股有限公司 一种交流介质清洗方法和装置
CN109508947A (zh) * 2018-08-18 2019-03-22 北京企信云信息科技有限公司 一种基于信用体系的电子合同运营方法及系统
CN109087019A (zh) * 2018-08-18 2018-12-25 北京企信云信息科技有限公司 一种中小企业征信方法及装置
CN111061940B (zh) * 2018-09-28 2023-10-27 北京国双科技有限公司 数据处理的方法及装置
CN111061940A (zh) * 2018-09-28 2020-04-24 北京国双科技有限公司 数据处理的方法及装置
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN111339210A (zh) * 2018-12-18 2020-06-26 杭州海康威视数字技术股份有限公司 数据聚类方法及装置
CN111339210B (zh) * 2018-12-18 2023-04-28 杭州海康威视数字技术股份有限公司 数据聚类方法及装置
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110716928A (zh) * 2019-09-09 2020-01-21 上海凯京信达科技集团有限公司 一种数据处理方法、装置、设备和存储介质
CN110850297A (zh) * 2019-09-23 2020-02-28 广东毓秀科技有限公司 一种通过大数据预测轨交锂电池soh的方法
CN110750685B (zh) * 2019-09-29 2022-08-26 中国联合网络通信集团有限公司 一种数据入库方法及装置
CN110750685A (zh) * 2019-09-29 2020-02-04 中国联合网络通信集团有限公司 一种数据入库方法及装置
CN112202954A (zh) * 2020-09-21 2021-01-08 广西越知网络股份有限公司 一种电子名片发布方法
CN112667724A (zh) * 2020-12-31 2021-04-16 魔元术(苏州)信息科技有限公司 一种看板图表样式库自动采集扩增方法
CN113326254A (zh) * 2021-06-18 2021-08-31 立信(重庆)数据科技股份有限公司 一种调研数据清洗方法及系统
CN113568811A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 分布式安全监测数据处理方法
CN113590605A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN113590605B (zh) * 2021-08-09 2024-01-05 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114398456A (zh) * 2021-12-30 2022-04-26 如皋市勘测院有限公司 一种基于全量数据的地理服务发布系统及方法

Also Published As

Publication number Publication date
CN106776951B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN106776951A (zh) 一种清洗对比入库方法
CN112035404B (zh) 医疗数据监控与预警方法、装置、设备及存储介质
WO2019217481A1 (en) Conflict resolution for multi-master distributed databases
US10140472B2 (en) Multi-level privacy evaluation
CN107122410A (zh) 一种缓存更新方法及装置
CN110609865B (zh) 一种信息同步方法,装置及系统
CN108153793A (zh) 一种原始数据处理方法
CN106021445A (zh) 一种加载缓存数据的方法及装置
US11329985B2 (en) Server-side persistent device identification for fraud prevention systems
CN113326165B (zh) 基于区块链的数据处理方法、设备及计算机可读存储介质
CN110245145A (zh) 关系型数据库到Hadoop数据库的结构同步方法和装置
CN109542894B (zh) 用户数据集中存储方法、装置、介质和计算机设备
US10275303B2 (en) Mechanism for running diagnostic rules across multiple nodes
CN105893150B (zh) 接口调用频度控制、接口调用请求处理方法及装置
CN110287183B (zh) 数据库表水位的处理方法、装置、计算机设备及存储介质
US20090177841A1 (en) Methods and Systems for Consistently Replicating Data
CN111523844A (zh) 仓储管理方法、装置、服务器及可读存储介质
CN109597706B (zh) 一种核对差异数据的检测方法、装置及系统
CN116643704A (zh) 存储管理方法、装置、电子设备及存储介质
CN111046240A (zh) 网关流量统计方法、装置、计算机设备和存储介质
US9378230B1 (en) Ensuring availability of data in a set being uncorrelated over time
CN113849520B (zh) 异常sql的智能识别方法、装置、电子设备及存储介质
CN113672652A (zh) 一种数据访问方法、装置、设备及存储介质
WO2022062777A1 (zh) 数据管理方法、数据管理装置及存储介质
CN110764697B (zh) 一种数据管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4)

Applicant after: Zhongke Star Map Co., Ltd.

Address before: 101399 Building 1A-4, National Geographic Information Technology Industrial Park, Guomen Business District, Shunyi District, Beijing

Applicant before: Space Star Technology (Beijing) Co., Ltd.

GR01 Patent grant
GR01 Patent grant