CN112084179B - 一种数据处理的方法、装置、设备及存储介质 - Google Patents
一种数据处理的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112084179B CN112084179B CN202010910153.5A CN202010910153A CN112084179B CN 112084179 B CN112084179 B CN 112084179B CN 202010910153 A CN202010910153 A CN 202010910153A CN 112084179 B CN112084179 B CN 112084179B
- Authority
- CN
- China
- Prior art keywords
- data
- deduplication
- real
- correctness
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000013500 data storage Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理的方法、装置、设备及存储介质。一种数据处理方法,包括:接收实时流数据;根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。实现了降低数据的存储压力以及保证了数据有效性。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种数据处理的方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,互联网中的数据量呈现爆发式指数级别增长模式,数据的处理和存储面临着巨大的考验。
互联网时代,存储海量数据需要占用大量的存储空间,然而被占用的存储空间存在着空间无意义占用的现象,同时从海量数据中查找有效数据变得越来越困难,目前的处理方法是通过人工方式对数据进行处理。
面对互联网中海量数据,采用人工方式对数据进行过滤以获取有效的数据,需要花费大量时间,处理后的数据中往往混有一些无效的数据。
发明内容
本发明提供一种数据处理的方法、装置、设备及存储介质,以实现海量数据处理,完成有效数据的提取操作。
第一方面,本发明实施例提供了一种数据处理方法,包括:
接收实时流数据;
根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
数据采集模块,用于接收实时流数据;
数据去重模块,用于根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
正确性验证模块,用于根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据;
数据存储模块,用于将所述有效数据进行存储。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的数据处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如本发明任意实施例所提供的数据处理方法。
本发明通过检验数据重复性和数据属性正确性的方法,解决数据重复和数据中存在无效数据的问题,实现数据清洗,到达保证数据有效性的效果。
附图说明
图1是本发明实施例一中的一种数据处理方法的流程图;
图2是本发明实施例二中的一种数据处理方法的流程图;
图3是本发明实施例三中的一种数据处理装置的功能模块示意图;
图4是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于在海量数据中获取有效数据的情况,该方法可以由数据处理装置来执行,数据处理装置可通过软件和/或硬件方式实现,该数据处理装置可集成于诸如计算机或者服务器等的电子设备中,具体包括如下步骤:
S110、接收实时流数据。
其中,流是由一系列不可变相似类型的消息组成,例如,一个流可以是网站所有的点击事件,可以是一个特定数据库的所有更新操作,可以是一个服务产生的所有日志,也可以是其他类型的时间数据。流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流数据可以被视为一个随时间延续而无限增长的动态数据集合。实时流数据表示流数据具有时间属性,从时间戳角度可知,实时流数据可以是数据产生于某一时刻,那么这一时刻的取值可以是数据源产生的数据的时间,也可以是数据流入处理引擎所产生的流数据处理系统的时间。接收实时流数据可以是通过高吞吐、低延迟的Kafka流处理平台接收互联网中的所有动作流数据,这种动作可以是网页浏览、搜索和其他用户的行动等。
在上述技术方案的基础上,接收实时流数据可以是基于Flink流式框架接收所述实时流数据。这样设置的好处在于基于Flink流式框架高性能、处理数据速度快,还具有容错性,其容错机制会降低流处理框架的性能和吞吐量。
S120、根据数据去重规则对所述实时流数据进行去重处理,得到去重数据。
其中,数据去重规则可以采用人工的方式配置,将接收到的实时流数据通过配置数据去重规则进行数据去重操作。在一些实施例中,去重操作可以是将流数据中的各个数据分别进行比对,确定数据重复的至少两个数据,保留其中一个数据,删除其他重复数据,得到去重数据。可选的,可以是将任意两个数据中的数据内容进行逐一匹配,确定数据内容完全相同的两个数据为重复数据。可选的,去重操作还可以是通过对任意两个数据按照数据类型对数据内容进行比对,将具有相同类型的数据进行数据属性比对,选取任一具有相同数据类型且其数据属性一致的实时流数据作为重复数据。
通过对接收的流数据进行去重处理,去除流数据中的重复数据,减少重复数据对存储资源的占用。
S130、根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。
其中,正确性检测规则可以是预先配置的,例如可以是将正确性检测代码输入至正确性检测规则模板形成的,正确性检测规则可以是数据属性正确性检测规则,不同的数据属性对应不同的检测规则,通过配置不同数据属性值相对应的数据检测规则,将获取到的去重数据相对应数据属性值进行正确性检测,选取任一符合正确性检测的去重数据作为有效数据。
可选的,各数据属性的正确性检测规则可以是分别独立存储的,例如可以存储在正确性检测规则数据库中,根据流数据中包括的数据属性调用对应的正确性检测规则。当正确性检测规则数据库不存在与当前流数据的数据属性对应的正确性检测规则时,生成提示信息,以提示配置新的正确性检测规则。
通过对去重数据进行正确性验证,删除数据错误的无效数据,避免无效数据对存储空间的占用。可选的,基于无效数据生成提示信息,将所述提示信息进行显示或者发送至关联终端,以使关联终端或者操作用户对无效数据进行修正。
可选的,数据去重规则和/或正确性检测规则可以为XML文件格式。配置规则采用XML文件格式,这样设置的好处在于XML是以文本形式来描述的一件文件格式,具有良好的可读性以及面向对象。
该数据处理方法的工作原理:通过接受实时流数据,配置数据去重规则对流数据进行初步去重操作对流数据过滤获得去重数据,再次通过配置正确性检测规则对去重数据进行数据正确性性检测,在去重数据的基础上对数据进行再一次的无效数据过滤,得到有效数据,将有效数据进行数据存储,可以存储到本地数据库以及云端等。
本实施例的技术方案,将接收到的实时流数据通过数据去重的方法和数据正确性检测的方法对数据进行两次连续处理,以去除流数据中的重复数据以及错误数据,避免了无效数据对存储空间的占用,解决了数据存储压力大和无效数据的问题,达到了减轻数据存储的压力和提高数据有效性的问题的效果。
实施例二
图2是本发明实施例二中的一种数据处理方法的流程图,在上述实施例的基础上进行了细化,获取有效数据的情况,该方法具体包括如下步骤:
S210、接收实时流数据。
可选的,所述实时流数据包括数据类型标识和至少一个数据属性。具体的,在接受实时流数据之前,可以对数据的格式进行定义,将接收数据的格式定义为第一字段,令第一字段为数据类型编码,后面的字段依次为数据的属性,示例性的,数据格式可以定义为[数据类型编码]、[属性1]、[属性2]……。
当接收的实时流数据不符合上述数据格式时,可对接收的实时流数据进行预处理,例如识别接收的实时流数据的数据类型,根据识别到的数据类型的编码在实时流数据的第一字段添加数据类型编码。例如接收到某一系统登录的数据,给数据格式的第一字段定义为某一系统注册,将其设定为01,即01代表某一系统注册,该系统具有用户名、手机号、密码属性,可以表示为[01]、[用户名]、[手机号]、[密码]。
S220、根据数据去重规则对所述实时流数据进行去重处理,得到去重数据。
可选的,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各数据属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理;当所述任意两数据中至少一个数据属性不相同时,确定所述任意两数据不是重复数据,保留所述任意两数据。
具体的,通过配置数据去重规则,在实时流数据中分别对任意两个数据编码相同的数据进行两两数据属性的比对,当所述任意两数据中各个数据属性均相同时,将比对的两个数据确定为重复数据,对所述重复数据进行去重,即选择两个数据中的任意一个即可。
然而,对任意两个数据编码相同的数据进行两两数据属性的比对,当所述任意两数据中至少一个数据属性不相同时,将所述任意两数据确定为不是重复数据,并将所述任意两数据进行保留。示例性的,数据1表示为[01]、[用户名]、[手机号],数据2表示为[01]、[用户名]、[性别],数据1与数据2进行比对,其中数据1的[手机号]属性与数据2的[性别]属性不同,因此,数据1与数据2是不同的流数据。当所述任意两数据中数据属性相同时,对数据内容进行比对,将数据内容相同的数据确定为重复数据,数据内容不同则为不同流数据,示例性的,数据3表示为[01]、[用户名A]、[手机号B],数据4表示为[01]、[用户名A]、[手机号C],数据3和数据4进行比对,其中,对于手机号属性的数据内容不同,则确定数据3和数据4为不同的流数据。
可选的,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:确定各数据的去重关键属性;分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各去重关键属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理。
具体的,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,确定各个数据的去重关键属性,可以是当流数据包含多个属性时,去重关键属性可以是一个或多个,去重关键属性可根据用户需求设置更新,对比不做到限定。
示例性的,数据4表示为[04]、[用户名]、[手机号]、[性别]、[密码]、[身份证号],数据5表示为[04]、[用户名]、[手机号]、[年龄]、[身份证号],可以选择[用户名]、[手机号]和[身份证号]为关键属性。
具体的,通过采用选择至少一个关键属性对任意两数据进行一一比对的方式进行数据去重,当所述任意两数据中各去重关键属性均相同时,则将所述任意两数据确定为重复数据,对所述重复数据进行去重处理,去重处理可以是选择两个重复数据中的任意一个数据即可,示例性的,数据4表示为[04]、[用户名]、[手机号]、[性别]、[密码]、[身份证号],数据5表示为[04]、[用户名]、[手机号]、[年龄]、[身份证号],当选择[用户名]、[手机号]和[身份证号]为关键属性,对数据4与数据5进行表示为相同的流数据,选择数据4或数据5中的任意一个即可。
S230、根据所述去重数据的数据类型,调用所述数据类型对应的正确性检测规则,确定数据正确的有效数据,其中,所述正确性检测规则中包括所述数据类型对应的各数据属性的检测标准。
具体的,通过配置数据正确性检测规则标准,根据配置的正确性检测规则标准对去重数据进行正确性检测,确定数据的有效性,正确性检测规则可以是数据类型对应的各数据属性的检测,数据类型对应的各数据属性的检测可以是根据各个数据属性配置不同的数据属性正确性检测规则,数据属性正确性检测规则可以是采用正则表达式进行设定。去重数据通过数据属性正确性检测规则,得到有效数据。
示例性的,针对不同数据配置正确性检测规则,如配置某数据属性是手机号的正确性检测规则为:regex="^1[3456789]\d{9}$",即满足一共9位数字,其中第一位是1,第二位可以是3-9中任意一个数,通过此规则对某数据的手机号属性进行正确性检测,排除不满足条件的数据,选取符合正确性检测的数据,例如,当手机号为1352,对其进行正确性检测,通过检测该手机号不符合正确手机号的条件,则不获取该手机号,当手机号为134567433时,通过对其进行正确性检测,检测该手机号符合正确手机号的条件,将该手机号存储到数据库中。
本实施例的技术方案,通过对数据格式进行定义,对流数据进行接收,将接受到的流数据通过数据去重规则对数据通过属性比对进行去重,获取去重数据,配置数据不同属性相对应的正确性检测规则,将去重数据的属性通过属性正确性检测规则检验数据属性的正确性,将数据属性正确的流数据保存到数据库中。这样,通过层次性的数据处理的手段,获取有效数据,解决了数据存储压力大的问题,达到了减轻数据库存储的压力和提高数据有效性的问题的效果。
实施例三
图3是本发明实施例三中的一种数据处理装置的功能模块示意图,本发明提供了一种数据处理装置,包括:
数据采集模块310,用于接收实时流数据;
数据去重模块320,用于根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
正确性验证模块330,用于根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据;
数据存储模块340,用于将所述有效数据进行存储。
可选的,数据采集模块310,用于基于Flink流式框架接收所述实时流数据。
可选的,所述实时流数据包括数据类型标识和至少一个数据属性。
可选的,数据去重模块320,用于分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各数据属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理;
当所述任意两数据中至少一个数据属性不相同时,确定所述任意两数据不是重复数据,保留所述任意两数据。
可选的,数据去重模块320,用于确定各数据的去重关键属性;
分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各去重关键属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理。
可选的,正确性验证模块330,用于根据所述去重数据的数据类型,调用所述数据类型对应的正确性检测规则,确定数据正确的有效数据,其中,所述正确性检测规则中包括所述数据类型对应的各数据属性的检测标准。
可选的,所述数据去重规则和/或正确性检测规则为XML文件格式。
本实施例的技术方案,数据采集模块接收实时流数据,将所接收到的实时流数据首先通过数据去重模块按照去重规则对数据进行去重处理,获得去重数据,在将去重数据通过正确性检测模块按照所配置的正确性检测规则对去重数据进行正确性检测,获的有效数据,最后将有效数据通过数据存储模块完成数据存储。解决了数据存储压力大的问题,达到了减轻数据存储压力和提高数据有效性的问题。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四提供的一种电子设备的结构示意图,如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和、输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据处理对应的程序指令/模块(例如,数据处理装置中的数据采集模块310、数据去重模块320、正确性验证模块330和数据存储模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据处理方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的流数据,以及产生与设备的用户设置以及功能控制有关的数据输入。输出装置440可包括显示屏等显示设备。
实施例五
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据处理方法,该方法包括:
接收实时流数据;
根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
接收实时流数据;其中,所述实时流数据包括数据类型标识和至少一个数据属性;
根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储;
其中,所述根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,包括:
根据所述去重数据的数据类型,调用所述数据类型对应的正确性检测规则,确定数据正确的有效数据,其中,所述正确性检测规则中包括所述数据类型对应的各数据属性的检测标准。
2.根据权利要求1所述的方法,其特征在于,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:
分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各数据属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理;
当所述任意两数据中至少一个数据属性不相同时,确定所述任意两数据不是重复数据,保留所述任意两数据。
3.根据权利要求1所述的方法,其特征在于,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:
确定各数据的去重关键属性;
分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各去重关键属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理。
4.根据权利要求1所述的方法,其特征在于,所述接收实时流数据,包括:
基于Flink流式框架接收所述实时流数据。
5.根据权利要求1所述的方法,其特征在于,所述数据去重规则和/或正确性检测规则为XML文件格式。
6.一种数据处理装置,其特征在于,包括:
数据采集模块,用于接收实时流数据;其中,所述实时流数据包括数据类型标识和至少一个数据属性;
数据去重模块,用于根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
正确性验证模块,用于根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据;
数据存储模块,用于将所述有效数据进行存储;
其中,所述正确性验证模块,具体用于根据所述去重数据的数据类型,调用所述数据类型对应的正确性检测规则,确定数据正确的有效数据,其中,所述正确性检测规则中包括所述数据类型对应的各数据属性的检测标准。
7.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910153.5A CN112084179B (zh) | 2020-09-02 | 2020-09-02 | 一种数据处理的方法、装置、设备及存储介质 |
PCT/CN2021/112248 WO2022048422A1 (zh) | 2020-09-02 | 2021-08-12 | 数据处理的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910153.5A CN112084179B (zh) | 2020-09-02 | 2020-09-02 | 一种数据处理的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084179A CN112084179A (zh) | 2020-12-15 |
CN112084179B true CN112084179B (zh) | 2023-11-07 |
Family
ID=73731836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010910153.5A Active CN112084179B (zh) | 2020-09-02 | 2020-09-02 | 一种数据处理的方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112084179B (zh) |
WO (1) | WO2022048422A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084179B (zh) * | 2020-09-02 | 2023-11-07 | 北京锐安科技有限公司 | 一种数据处理的方法、装置、设备及存储介质 |
CN113064888B (zh) * | 2021-03-25 | 2021-12-07 | 珠海格力电器股份有限公司 | 数据校对方法、装置和系统、服务器、设备 |
CN113084388B (zh) * | 2021-03-29 | 2023-05-09 | 广州明珞装备股份有限公司 | 焊接质量的检测方法、系统、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599234A (zh) * | 2016-12-20 | 2017-04-26 | 深圳飓风传媒科技有限公司 | 基于多维标识的数据可视化处理方法和系统 |
CN106649676A (zh) * | 2016-12-15 | 2017-05-10 | 北京锐安科技有限公司 | 一种基于hdfs存储文件的去重方法及装置 |
CN107577769A (zh) * | 2017-09-06 | 2018-01-12 | 河南腾龙信息工程有限公司 | 一种计量专业数据的挖掘方法及系统 |
CN108628931A (zh) * | 2018-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种数据驱动业务的方法、装置以及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857728A (zh) * | 2017-11-30 | 2019-06-07 | 广州明领基因科技有限公司 | 针对图书馆的大数据清洗系统 |
CN109451006B (zh) * | 2018-10-30 | 2021-07-09 | 北京锐安科技有限公司 | 一种数据传输方法、装置、服务器及计算机存储介质 |
CN111367989B (zh) * | 2020-06-01 | 2020-08-28 | 北京江融信科技有限公司 | 一种实时数据指标计算系统和方法 |
CN112084179B (zh) * | 2020-09-02 | 2023-11-07 | 北京锐安科技有限公司 | 一种数据处理的方法、装置、设备及存储介质 |
-
2020
- 2020-09-02 CN CN202010910153.5A patent/CN112084179B/zh active Active
-
2021
- 2021-08-12 WO PCT/CN2021/112248 patent/WO2022048422A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649676A (zh) * | 2016-12-15 | 2017-05-10 | 北京锐安科技有限公司 | 一种基于hdfs存储文件的去重方法及装置 |
CN106599234A (zh) * | 2016-12-20 | 2017-04-26 | 深圳飓风传媒科技有限公司 | 基于多维标识的数据可视化处理方法和系统 |
CN107577769A (zh) * | 2017-09-06 | 2018-01-12 | 河南腾龙信息工程有限公司 | 一种计量专业数据的挖掘方法及系统 |
CN108628931A (zh) * | 2018-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种数据驱动业务的方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112084179A (zh) | 2020-12-15 |
WO2022048422A1 (zh) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084179B (zh) | 一种数据处理的方法、装置、设备及存储介质 | |
CN110008045B (zh) | 微服务的聚合方法、装置、设备及存储介质 | |
CN113760674A (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
CN114327493A (zh) | 数据处理方法及装置、电子设备、计算机可读介质 | |
CN113190517A (zh) | 数据集成方法、装置、电子设备和计算机可读介质 | |
CN113761565A (zh) | 数据脱敏方法和装置 | |
CN117093619A (zh) | 一种规则引擎处理方法、装置、电子设备及存储介质 | |
CN114840634B (zh) | 信息存储方法、装置、电子设备和计算机可读介质 | |
CN113946648B (zh) | 结构化信息生成方法、装置、电子设备和介质 | |
CN113094415B (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN113807056A (zh) | 一种文档名称序号纠错方法、装置和设备 | |
CN113760568A (zh) | 数据处理的方法和装置 | |
CN113779017A (zh) | 数据资产管理的方法和装置 | |
CN111367634A (zh) | 信息处理方法、信息处理装置及终端设备 | |
CN112579428A (zh) | 接口测试的方法、装置、电子设备和存储介质 | |
CN110750563A (zh) | 多模型数据处理方法、系统、装置、电子设备及存储介质 | |
CN112148953B (zh) | 差异数据的访问方法以及装置 | |
CN111930704B (zh) | 业务报警设备控制方法、装置、设备和计算机可读介质 | |
CN116880901B (zh) | 应用页面解析方法、装置、电子设备与计算机可读介质 | |
CN117742900B (zh) | 一种服务调用图的构造方法、装置、设备及存储介质 | |
US20240195860A1 (en) | Sample message processing method and apparatus | |
CN110134691B (zh) | 数据校验方法、装置、设备和介质 | |
CN110727654B (zh) | 分布式系统的数据提取方法、装置、服务器和存储介质 | |
CN114692050A (zh) | 页面解析方法、装置、计算机可读介质及电子设备 | |
CN113722316A (zh) | 模型处理方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |