CN109558400B - 数据处理方法、装置、设备和存储介质 - Google Patents

数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109558400B
CN109558400B CN201811448848.5A CN201811448848A CN109558400B CN 109558400 B CN109558400 B CN 109558400B CN 201811448848 A CN201811448848 A CN 201811448848A CN 109558400 B CN109558400 B CN 109558400B
Authority
CN
China
Prior art keywords
data
cleaning
preset
format
format conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811448848.5A
Other languages
English (en)
Other versions
CN109558400A (zh
Inventor
张志远
万月亮
李佳昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811448848.5A priority Critical patent/CN109558400B/zh
Publication of CN109558400A publication Critical patent/CN109558400A/zh
Application granted granted Critical
Publication of CN109558400B publication Critical patent/CN109558400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备和存储介质,该方法包括:实时获取至少一个数据源的数据,数据中包括数据类型;根据数据的存储形式和数据类型,对数据进行格式转换;根据数据类型,对格式转换后的数据进行清洗。本发明实施例提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗。

Description

数据处理方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备和存储介质。
背景技术
对于专业分析数据的企业来说,每天都会接收到大量的数据。这些数据来源可能多种多样,不同的数据来源可能会映射到企业相同或不同的表中。这些数据要想被使用,必须先进行数据清洗工作。
数据清洗的目的是经过一系列清洗过程把来源数据存放到目的表中,并保证数据尽可能的干净,有用。大部分数据清洗是按照固定的时间间隔进行数据的清洗,这样方式会导致数据不具备实时性或实时性差(如果时间间隔很小)。在很多业务场景中,需要对数据更加精准和更加快速的进行分析、预警,这就对数据清洗的实时性要求更高。
发明内容
本发明实施例提供一种数据处理方法、装置、设备和存储介质,可以解决现有技术中实时性差的技术问题。
第一方面,本发明实施例提供了一种数据处理方法,包括:
实时获取至少一个数据源的数据,所述数据中包括数据类型;
根据所述数据的存储形式和所述数据类型,对所述数据进行格式转换;
根据所述数据类型,对格式转换后的数据进行清洗。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
获取模块,用于实时获取至少一个数据源的数据,所述数据中包括数据类型;
转换模块,用于根据所述数据的存储形式和所述数据类型,对所述数据进行格式转换;
清洗模块,用于根据所述数据类型,对格式转换后的数据进行清洗。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的数据处理方法。
本发明实施例通过实时获取至少一个数据源的数据,数据中包括数据类型,根据所述数据的存储形式和数据类型,对数据进行格式转换,并根据数据类型对格式转换后的数据进行清洗。本发明实施例的数据清洗通过Flink处理引擎实现,可以实时处理获取到的数据,提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗。
附图说明
图1为本发明实施例一中的数据处理方法的流程图;
图2为本发明实施例一中的数据处理示意图;
图3为本发明实施例二中的数据处理方法的流程图;
图4为本发明实施例三中的数据处理方法的流程图;
图5为本发明实施例四中的数据处理装置的结构示意图;
图6为本发明实施例五中的设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的数据处理方法的流程图,本实施例可适用于实现数据处理的情况,该方法可以由数据处理装置执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于设备中。
本实施例中的数据处理方法针对的来源数据复杂多样,具体参见图2,图2为本发明实施例一中的数据处理示意图,图2中数据来源包括数据源1、数据源2、数据源3等等多个数据源,通过数据处理装置获取多个数据源的数据,经过清洗处理存储进目的数据源中。数据处理装置可以配置于目的数据源中,也可以单独作为一个装置对数据进行处理。
如图1所示,该方法具体可以包括:
S110、实时获取至少一个数据源的数据,数据中包括数据类型。
其中,数据源的具体类型本实施例不作限定,例如数据源可以为不同公司。不同数据源的数据可以是多种多样的,获取的数据中包括数据的不同属性,例如包括数据类型或者数据格式等等。
在本实施例中,对于实时的至少一个数据源的数据,利用Kafka分布式消息队列提供数据缓存,并通过Flink处理引擎中的sink端获取Kafka分布式消息队列中的数据。
Flink是一个高效的基于内存计算的分布式数据处理引擎,目标是统一不同来源的数据处理。Flink的核心是一个流式数据流引擎,提供了数据流的分布式数据分布、通信和容错功能,具有高效、可靠、可扩展等特性。Kafka是一种高吞吐量的分布式消息队列,具有高可用性和数据存储能力,适用于批量流式数据的处理。
S120、根据数据的存储形式和数据类型,对数据进行格式转换。
其中,数据的存储形式包括目的数据源指定的统一标准和数据格式。目的数据源中的数据可以通过目的表的表结构进行存储,即目的表针对不同的数据类型(即不同的数据源)会设置一个统一的标准,该标准可以根据数据类型的更新进行更新。示例性的,当数据源为外卖公司时,对于获取到的外卖数据制定了一个目的表的标准,但是经过一段时间后外卖数据的表结构由于技术或业务原因有了更多的字段,则目的表中就需要给外卖数据对应的标准中新增字段。数据格式为数据源中的数据的存储格式,该数据格式的具体类型本实施例不作限定,例如为二进制数据。
具体的,根据数据类型确定对应的标准和数据格式,根据确定的标准和数据格式进行格式转换。示例性的,如果数据为性别数据以及数据格式为数字,数据内容是“男”,则可以将“男”转换为“01”,数据内容是“女”,则可以将“女”转换为“02”。
可选地,对数据进行格式转换之后,还包括:根据预先建立的映射关系存储格式转换后的数据。当数据源和目的数据源中的数据均通过表结构进行存储时,数据源的数据称为来源表,目的数据源的数据称为目的表,则可以预先建立来源表与目的表之间的映射关系,并对数据进行格式转换之后根据该映射关系将格式转换后的数据存储进目的表中。
S130、根据数据类型,对格式转换后的数据进行清洗。
其中,清洗为对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并保证数据真实性、完整性和一致性。
可选地,对格式转换后的数据进行清洗,包括:对格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据。其中全局去重和过滤这两个步骤的顺序不作限定,可以先进行全局去重再进行过滤,也可以先进行过滤再进行全局去重。清洗数据为对格式转换后的数据进行全局去重和过滤之后的数据。
对格式转换后的数据根据预设字段进行过滤,其中预设字段可以根据需要进行设置。示例性的,若数据为邮件数据,则预设字段可以为垃圾邮件的字段,根据该垃圾邮件的字段对邮件数据进行过滤。
对格式转换后的数据进行全局去重,包括:基于基数估算方法或者布隆过滤算法计算格式转换后的数据的重复率;根据重复率以及预设去重要求对格式转换后的数据进行全局去重。其中,基数估算方法是基于Flink DataStream的基数估算方法,是一种排重值算法,主要思想是将数据转化为哈希值,采用基于概率的基数估计(例如HyperLogLog)计算重复率。布隆过滤算法是一种空间效率很高的随机数据结构,可以利用位数组很简洁地表示一个数据或集合。预设去重要求为具体的去重方式或规则,预设去重要求与数据类型对应,不同的数据类型对应的预设去重要求不同,预设去重要求的具体内容可以根据需要进行设置。例如,若数据为轨迹数据,预设去重要求可以为间隔第一时间对除时间字段外相同的数据进行去重,第一时间为很短的时间,例如为0.1秒。
示例性的,若采用布隆过滤算法计算格式转换后的数据的重复率,具体过程可以为:将每条数据均利用8位的位数组进行表示,位数组中每一位的取值为0或1,若第一条数据表示为10000000,第二条数据表示为10000000,第三条数据表示为11000000,则可以得到第一条数据与第二条数据重复,第一条数据、第二条数据分别与第三条数据的重复率相同。其中位数组的位数可以根据实际条件进行设置,上述8位仅为示例,也可以为32位等,位数越大,重复率计算越精确。
需要说明的是,本实施例中的格式转换中的数据的存储形式、全局去重中的预设去重要求和过滤中的预设字段可以策略文件的形式存储在缓存数据库(例如Redis)中,采用Caffeine Cache缓存框架进行存储,可以定时更新,并通过Flink处理引擎从缓存数据库中获取该策略文件实现动态更新。
本实施例通过实时获取至少一个数据源的数据,数据中包括数据类型,根据数据的存储形式和数据类型,对数据进行格式转换,并根据数据类型对格式转换后的数据进行清洗。本实施例的数据清洗通过Flink处理引擎实现,可以实时处理获取到的数据,提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗。
实施例二
图3为本发明实施例二中的数据处理方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述数据处理方法。相应的,本实施例的方法具体包括:
S210、实时获取至少一个数据源的数据。
在本实施例中,对于实时的至少一个数据源的数据,利用Kafka分布式消息队列提供数据缓存,并通过Flink处理引擎中的sink端获取Kafka分布式消息队列中的数据。
S220、根据数据的存储形式和数据类型,对数据进行格式转换。
可选地,对数据进行格式转换之后,还包括:根据预先建立的映射关系存储格式转换后的数据。
S230、根据数据类型,对格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据。
可选地,对格式转换后的数据进行清洗,包括:对格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据。可选地,对格式转换后的数据进行全局去重,包括:基于基数估算方法或者布隆过滤算法计算格式转换后的数据的重复率;根据重复率以及预设去重要求对格式转换后的数据进行全局去重。
此外,根据数据类型,对格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据之后,还可以包括S240、S251-S252和/或S260,若包括其中的两个或三个时,具体的顺序不作限定,可以并行实施,也可以有先后顺序的实施。
S240、根据预设数据长度对清洗数据进行截断操作。
其中,预设数据长度可以根据需要进行设置。
获取到清洗数据之后,根据预设数据长度对清洗数据进行截断操作,使得清洗数据符合规定的长度。
S251、提取清洗数据中两条或两条以上关联的数据的各关键字段。
具体的,根据数据的预设关联规则判断清洗数据中是否存在关联的数据,如果两条或两条以上数据之间关联,则可以提取该两条或两条以上数据的各关键字段,每条数据的关键字段均不同。
S252、间隔预设时间间隔将各关键字段互相回填入两条或两条以上关联的数据。
具体的,间隔预设时间间隔将各关键字段互相回填入每条关联的数据中,使得每条数据中均包括其他关联的数据的关联字段,以便后期入库查询时不需要进行关联查询,提高了后续查询效率。
其中,预设时间间隔可以根据服务器的数量进行设置,可以设置在零到两分钟的范围内,本实施例中该预设时间间隔较小,例如可以设置为5秒。
此外,回填之后,还可以定时对数据的回填进行离线校验,保证回填的准确性。
S260、根据预设预警标准对清洗数据进行预警判断。
其中,预设预警标准可以根据数据类型及实际需求进行设置。示例性的,若数据为行驶数据,预设预警标准可以设置车速阈值为70Km/h,当车速超过车速阈值时,则判断结果为需要预警,否则不需要预警。
需要说明的是,本实施例中的格式转换中的数据的存储形式、全局去重中的预设去重要求、过滤中的预设字段、截断中的预设数据长度、回填中的预设关联规则和预警判断中的预设预警标准可以策略文件的形式存储在缓存数据库(例如Redis)中,采用CaffeineCache缓存框架进行存储,可以定时更新,并通过Flink处理引擎从缓存数据库中获取该策略文件实现动态更新。
本实施例通过实时获取至少一个数据源的数据,数据中包括数据类型,根据数据的存储形式和数据类型,对数据进行格式转换,并根据数据类型对格式转换后的数据进行清洗,得到清洗数据之后,对清洗数据进行截断、回填和/或预警判断。本实施例的数据清洗通过Flink处理引擎实现,可以实时处理获取到的数据,提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗;并通过增加截断、回填和/或预警判断操作,可以更高效的利用数据,及时预警,提高拓展性以及完整性。
实施例三
图4为本发明实施例三中的数据处理方法的流程图,本实施例可以上述实施例为基础,对数据处理方法的具体过程进行示例性的说明,本实施例中数据过滤、字段回填、全局去重、预警判断、预警、数据截断的顺序仅为一个示例。该方法具体可以包括:
S310、获取数据。
对于实时的至少一个数据源的数据,利用Kafka分布式消息队列提供数据缓存,并通过Flink处理引擎中的sink端获取Kafka分布式消息队列中的数据。
S320、格式转换。
对于获取的实时数据,根据数据的存储形式和数据类型,对数据进行格式转换,并据预先建立的映射关系存储格式转换后的数据。
S330、数据过滤。
对格式转换后的数据根据预设字段进行过滤。
S340、字段回填。
提取过滤之后的数据中两条或两条以上关联的数据的各关键字段,、间隔预设时间间隔将各关键字段互相回填入两条或两条以上关联的数据。
S350、全局去重。
基于基数估算方法或者布隆过滤算法计算字段回填后的数据的重复率;根据重复率以及预设去重要求对字段回填后的数据进行全局去重。
S360、预警判断。
根据预设预警标准对全局去重后的数据进行预警判断,若不满足预设预警标准,则执行S370,若满足预设预警标准则执行S380。
S370、预警。
对全局去重后的数据中需要预警的数据进行预警提示。
S380、数据截断。
对全局去重后的数据中不需要预警的数据根据预设数据长度进行截断操作
S390、离线回填。
将截断后的数据通过Hadoop分布式文件系统(Hadoop Distributed FileSystem,HDFS)进行临时存储,并且间隔预设离线时间间隔通过Flink处理引擎中的Dataset独立数据集合进行离线回填,并将离线回填后的数据存储到规定的存储位置。其中预设离线时间间隔可以根据需要进行设置,例如可以设置为24小时。
S310-S380实现实时对数据进行清洗处理,使得离线回填时更加集中于进行其他数据处理,例如数据分析等,提高了离线处理效率。
本实施例通过实时获取不同数据源的数据,并对数据进行格式转换、数据过滤、字段回填、全局去重、预警判断、数据截断和离线回填。本实施例的数据清洗通过Flink处理引擎实现,可以实时处理获取到的数据,提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗;并通过增加截断、回填和/或预警判断操作,可以更高效的利用数据,及时预警,提高拓展性以及完整性。
实施例四
图5为本发明实施例四中的数据处理装置的结构示意图,本实施例可适用于实现数据处理的情况。本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。该装置具体包括获取模块410、转换模块420和清洗模块430,其中:
获取模块410,用于实时获取至少一个数据源的数据,数据中包括数据类型;
转换模块420,用于根据数据的存储形式和数据类型,对数据进行格式转换;
清洗模块430,用于根据数据类型,对格式转换后的数据进行清洗。
本发明实施例通过实时获取至少一个数据源的数据,数据中包括数据类型,根据数据的存储形式和数据类型,对数据进行格式转换,并根据数据类型对格式转换后的数据进行清洗。本发明实施例的数据清洗通过Flink处理引擎实现,可以实时处理获取到的数据,提高了实时性,保证数据的吞吐量、完整性的基础上实现了数据的清洗。
可选地,清洗模块430包括:
第一清洗单元,用于对格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据。
可选地,第一清洗单元包括:
重复率子单元,用于基于基数估算方法或者布隆过滤算法计算格式转换后的数据的重复率;
去重子单元,用于根据重复率以及预设去重要求对格式转换后的数据进行全局去重。
可选地,清洗模块430还包括字段回填单元,该字段回填单元用于:
提取清洗数据中两条或两条以上关联的数据的各关键字段;
间隔预设时间间隔将各关键字段互相回填入两条或两条以上关联的数据。
可选地,清洗模块430还包括预警判断单元,该预警判断单元用于:
根据预设预警标准对清洗数据进行预警判断。
可选地,清洗模块430还包括截断单元,该截断单元用于:
根据预设数据长度对清洗数据进行截断操作。
可选地,转换模块420具体用于:
根据预先建立的映射关系存储格式转换后的数据。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6为本发明实施例五中的设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备512的框图。图6显示的设备512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,设备512以通用设备的形式表现。设备512的组件可以包括但不限于:一个或者多个处理器516,存储装置528,连接不同系统组件(包括存储装置528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)530和/或高速缓存存储器532。设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储装置528中,这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。
设备512也可以与一个或多个外部设备514(例如键盘、指向终端、显示器524等)通信,还可与一个或者多个使得用户能与该设备512交互的终端通信,和/或与使得该设备512能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器520通过总线518与设备512的其它模块通信。应当明白,尽管图中未示出,可以结合设备512使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在存储装置528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据处理方法,该方法包括:
实时获取至少一个数据源的数据,数据中包括数据类型;
根据数据的存储形式和数据类型,对数据进行格式转换;
根据数据类型,对格式转换后的数据进行清洗。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的数据处理方法,该方法包括:
实时获取至少一个数据源的数据,数据中包括数据类型;
根据数据的存储形式和数据类型,对数据进行格式转换;
根据数据类型,对格式转换后的数据进行清洗。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
实时获取至少一个数据源的数据,所述数据中包括数据类型;
根据所述数据的存储形式和所述数据类型,对所述数据进行格式转换;
根据所述数据类型,对格式转换后的数据进行清洗;
提取清洗数据中两条或两条以上关联的数据的各关键字段;
间隔预设时间间隔将各所述关键字段互相回填入所述两条或两条以上关联的数据。
2.根据权利要求1所述的方法,其特征在于,所述对格式转换后的数据进行清洗,包括:
对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据。
3.根据权利要求2所述的方法,其特征在于,对所述格式转换后的数据进行全局去重,包括:
基于基数估算方法或者布隆过滤算法计算所述格式转换后的数据的重复率;
根据所述重复率以及预设去重要求对所述格式转换后的数据进行全局去重。
4.根据权利要求2所述的方法,其特征在于,对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据之后,还包括:
根据预设预警标准对所述清洗数据进行预警判断。
5.根据权利要求2所述的方法,其特征在于,对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤,得到清洗数据之后,还包括:
根据预设数据长度对所述清洗数据进行截断操作。
6.根据权利要求1所述的方法,其特征在于,对所述数据进行格式转换之后,还包括:
根据预先建立的映射关系存储所述格式转换后的数据。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于实时获取至少一个数据源的数据,所述数据中包括数据类型;
转换模块,用于根据所述数据的存储形式和所述数据类型,对所述数据进行格式转换;
清洗模块,用于根据所述数据类型,对格式转换后的数据进行清洗;提取清洗数据中两条或两条以上关联的数据的各关键字段,间隔预设时间间隔将各关键字段互相回填入两条或两条以上关联的数据。
8.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据处理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理方法。
CN201811448848.5A 2018-11-28 2018-11-28 数据处理方法、装置、设备和存储介质 Active CN109558400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811448848.5A CN109558400B (zh) 2018-11-28 2018-11-28 数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811448848.5A CN109558400B (zh) 2018-11-28 2018-11-28 数据处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109558400A CN109558400A (zh) 2019-04-02
CN109558400B true CN109558400B (zh) 2021-04-27

Family

ID=65867976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811448848.5A Active CN109558400B (zh) 2018-11-28 2018-11-28 数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109558400B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413701A (zh) * 2019-08-08 2019-11-05 江苏满运软件科技有限公司 分布式数据库入库方法、系统、设备及存储介质
CN110569238B (zh) * 2019-09-12 2023-03-24 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN110781232A (zh) * 2019-09-27 2020-02-11 招联消费金融有限公司 数据处理方法、装置、计算机设备和存储介质
CN110955685A (zh) * 2019-11-29 2020-04-03 北京锐安科技有限公司 一种大数据基数估计方法、系统、服务器和存储介质
CN111158643A (zh) * 2019-11-29 2020-05-15 石化盈科信息技术有限责任公司 数据处理系统及方法
CN112905677B (zh) * 2019-12-03 2024-07-16 京东科技控股股份有限公司 数据处理方法及装置、业务处理系统和计算机设备
CN111258997B (zh) * 2020-01-16 2023-11-03 浪潮软件股份有限公司 基于NiFi的数据处理方法和装置
CN111240693A (zh) * 2020-01-17 2020-06-05 北京三快在线科技有限公司 实时数据处理方法、装置、设备及存储介质
CN111429729A (zh) * 2020-03-19 2020-07-17 浙江工业大学 一种基于flink架构的实时车速监测方法
CN112559453A (zh) * 2020-12-09 2021-03-26 恒安嘉新(北京)科技股份公司 一种数据入库方法、装置、电子设备和存储介质
CN112579605B (zh) * 2020-12-23 2024-05-10 北京锐安科技有限公司 一种数据存储方法、装置、存储介质及服务器
CN112650454A (zh) * 2020-12-31 2021-04-13 广州技象科技有限公司 基于去重规则的物联网多源数据存储方法及装置
CN113326238A (zh) * 2021-06-25 2021-08-31 深信服科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN113849549A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据加载方法、装置、设备和介质
CN114896313B (zh) * 2022-04-13 2023-03-24 北京月新时代科技股份有限公司 一种数据传输方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296498A (zh) * 2015-05-21 2017-01-04 中兴通讯股份有限公司 数据处理方法及装置
JP6582819B2 (ja) * 2015-09-29 2019-10-02 Zekko株式会社 データベース連携システムおよびデータベース連携用プログラム
CN106777933B (zh) * 2016-12-02 2019-05-10 郑州云海信息技术有限公司 一种数据采集方法、装置及系统
CN108629001A (zh) * 2018-05-03 2018-10-09 成都瀚涛天图科技有限公司 一种地理信息大数据的去重方法
CN108829731A (zh) * 2018-05-15 2018-11-16 吉贝克信息技术(北京)有限公司 数据分析方法、系统、计算机可读存储介质、及电子终端

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Flink-sink到kafka;愤怒的香蕉;《URL:https://www.cnblogs.com/niutao/p/10548616.html》;20180522;网页全文 *

Also Published As

Publication number Publication date
CN109558400A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558400B (zh) 数据处理方法、装置、设备和存储介质
US11243915B2 (en) Method and apparatus for data deduplication
US10956403B2 (en) Verifying data consistency
US8521871B2 (en) System and method for merging monitoring data streams from a server and a client of the server
US8615499B2 (en) Estimating data reduction in storage systems
CN106649828B (zh) 一种数据查询方法及系统
CN111368013B (zh) 基于多账户的统一标识方法、系统、设备和存储介质
CN112988741A (zh) 实时业务数据合并方法、装置及电子设备
US10467538B2 (en) Link de-noising in a network
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
US11204926B2 (en) Storing partial tuples from a streaming application in a database system
US10162934B2 (en) Data de-duplication system using genome formats conversion
US10310927B2 (en) Operating a trace procedure for a computer program
US10049115B1 (en) Systems and methods for performing incremental database backups
CN110727532B (zh) 一种数据修复方法、电子设备及存储介质
US9705833B2 (en) Event driven dynamic multi-purpose internet mail extensions (MIME) parser
CN115695587A (zh) 一种业务数据处理系统、方法、装置和存储介质
US8214846B1 (en) Method and system for threshold management
CN111522832A (zh) 一种大数据实时更新方法、系统、设备和存储介质
CN113572852B (zh) 一种redis信息确定方法、装置、设备及存储介质
US9916344B2 (en) Computation of composite functions in a map-reduce framework
CN110019162B (zh) 实现属性归一的方法和装置
CN109710673B (zh) 作品处理方法、装置、设备和介质
US10095655B2 (en) Mapping and reducing
US20200278954A1 (en) Techniques for processing of data in motion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant