CN113946617A - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113946617A
CN113946617A CN202111275974.7A CN202111275974A CN113946617A CN 113946617 A CN113946617 A CN 113946617A CN 202111275974 A CN202111275974 A CN 202111275974A CN 113946617 A CN113946617 A CN 113946617A
Authority
CN
China
Prior art keywords
data
identification data
original data
identification
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111275974.7A
Other languages
English (en)
Inventor
白晨旭
程强
张俊杰
毛勇岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202111275974.7A priority Critical patent/CN113946617A/zh
Publication of CN113946617A publication Critical patent/CN113946617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取数据类型为枚举类型的原始数据;根据原始数据确定第一标识数据;其中,原始数据与第一标识数据唯一关联;若确定原始数据数量与第一标识数据位数满足预设约束条件,则根据预设转换规则将原始数据转换为第二标识数据;其中原始数据与第二标识数据唯一关联,且原始数据数量与第二标识数据位数匹配。通过执行本发明实施例提供的技术方案,可以实现节省计算机的计算和存储空间,提高计算效率和检索效率。

Description

一种数据处理方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
Extract-Transform-Load(ETL)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载,是构建数据仓库和数据挖掘的很重要的一部分。
相关技术在对大数据的处理过程中,被处理的数据字段的值是枚举类型的称为枚举字段,也称作字典字段。字典字段的取值范围定义时一般包含字典编码、字典值以及相应的描述信息,其中字典编码一般被定义为数值型(十进制或者十六进制表示),字典值通常为文字表达。字典编码在定义时除了便于处理一般还考虑到了“人可读、可理解”。比如国标标准中定义的国家行政区划代码采用6位十进制数字表达,6位数字共分为三个区域,分别为:前两位代表省/自治区/直辖市,中间两位代表市,最后两位代表区/县。这样设置面临的问题是,会导致字典编码比较长,当字典编码要参与数据处理过程时,会导致占用系统过多的计算和存储资源,进而导致资源的浪费以及数据处理效率低下。
发明内容
本发明实施例提供一种数据处理方法、装置、电子设备及存储介质,可以实现节省计算机的计算和存储空间,提高计算效率和检索效率。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:获取数据类型为枚举类型的原始数据;
根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:原始数据获取模块,用于获取数据类型为枚举类型的原始数据;
第一标识数据确定模块,用于根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
数据转换模块,用于若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
第三方面,本发明实施例还提供了一种电子设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一项所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一项所述的数据处理方法。
本发明实施例提供的技术方案,获取数据类型为枚举类型的原始数据;根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。通过执行本发明实施例提供的技术方案,可以实现节省计算和存储空间,提高计算效率和检索效率。
附图说明
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例提供的另一种数据处理方法的流程图;
图3a是现有技术的数据处理系统结构示意图;
图3b是本发明实施例适用的数据处理系统结构示意图;
图4是本发明实施例提供的一种数据处理装置结构示意图;
图5是本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1是本发明实施例提供的数据处理方法的流程图,所述方法可以由数据处理装置来执行,所述装置可以由软件和/或硬件的方式实现,所述装置可以配置在用于数据处理的电子设备中。所述方法应用于对大数据的枚举字段进行数据处理的场景中。如图1所示,本发明实施例提供的技术方案具体包括:
S110:获取数据类型为枚举类型的原始数据。
其中,ETL过程是将源子系统的数据经过抽取、清洗转换之后加载到目标子系统的过程。源子系统可以是业务系统,目标子系统可以是数据仓库。原始数据来源于源子系统,即ETL过程中枚举类字段的输入。原始数据可以是枚举类字段在业务系统中的字典编码。例如,原始数据可以是国家行政区划,即某省/自治区/直辖市某市某区/县。
S120:根据所述原始数据确定第一标识数据。
其中,所述原始数据与所述第一标识数据唯一关联。
具体的,第一标识数据可以是枚举类字段在目标子系统中的字典编码,即ETL处理过程中枚举类字段的输出。第一标识数据可以是引用国标标准,如国家行政区划代码一般会引用国标。第一标识数据可以是引用行标标准。第一标识数据还可以是引用企标标准。第一标识数据可以根据实际需要进行设置。第一标识数据的数据类型可以是short类型,第一标识数据的数据类型可以是Integer类型,第一标识数据的数据类型可以是string类型,第一标识数据的数据类型可以根据实际需要进行设置。本方案如果确定了第一标识数据的引用标准后,可以根据原始数据确定第一标识数据,并且原始数据与第一标识数据一一对应。
S130:若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据。
其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
示例性的,以原始数据为国家行政区划为例,可以确定国家行政区划的数量。以第一标识数据引用国标标准为例,第一标识数据为个人身份证号码的前六位。预设约束条件可以是由第一标识数据位数确定的最大取值远远大于原始数据的数量。或者是预设约束条件也可以是第一标识数据缩减后的位数确定的最大取值大于原始数据的数量。预设转换规则以及第二标识数据可以根据预设约束条件进行确定。第二标识数据的数据类型可以是short类型,第二标识数据的数据类型也可以是Integer类型,第二标识数据的数据类型还可以是string类型,第二标识数据的数据类型可以根据实际需要进行设置。本方案中如果第一标识数据与第二标识数据为相同的进制,第二标识数据的位数少于第一标识数据的位数。如果第一标识数据与第二标识数据为不同的进制,则由第一标识数据位数确定的最大取值大于由第二标识数据位数确定的最大取值。
本方案中原始数据与第二标识数据一一对应,且第二标识数据位数由原始数据数量确定。例如国家行政区划的数量为不到4000个,而计算机中有符号短整型的最大取值为32767,因此可以将第二标识数据的数据类型设置为short型。虽然国标标准在字典编码的定义时考虑到了“人可读、可理解”,比如国标标准中定义的国家行政区划代码采用6位十进制数字表达,6位数字共分为三个区域,分别为:前两位代表省/自治区/直辖市,中间两位代表市,最后三位代表区/县,但是这种设置需要用Integer类型或者String类型来表示和存储枚举字段。而由Integer类型或者String类型的位数确定的最大取值远远超过了国家行政区划的数量,在计算过程中对Integer类型或者String类型进行数据处理,占用了过多的存储和计算资源。
本发明实施例提供的技术方案,获取数据类型为枚举类型的原始数据;根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。通过执行本发明实施例提供的技术方案,可以实现节省计算机的计算和存储空间,提高计算效率和检索效率。
图2是本发明实施例提供的数据处理方法的流程图,本实施例在上述实施例的基础上进行优化。如图2所示,本发明实施例中的数据处理方法可以包括:
S210:获取数据类型为枚举类型的原始数据。
S220:根据所述原始数据确定第一标识数据。
S230:确定所述原始数据数量,以及根据所述第一标识数据位数确定取值范围。
本方案可以确定原始数据数量以及根据第一标识数据位数确定取值范围。示例性的,以原始数据为国家行政区划为例,可以确定国家行政区划的数量,例如不到4000。以第一标识数据引用国标标准为例,第一标识数据为个人身份证号码的前六位,则第一标识数据位数确定的取值范围为1~999999。
S240:若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将所述原始数据转换为第二标识数据。
其中,以原始数据为国家行政区划为例,以第一标识数据引用国标标准为例,第一标识数据为个人身份证号码的前六位。第一标识数据位数缩减1位后的取值范围为1~99999。第一标识数据位数缩减2位后的取值范围为1~9999。可以确定原始数据数量小于99999和9999。本方案可以根据预设转换规则将原始数据转换为第二标识数据。
在一个可行的实施方式中,可选的,若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将所述原始数据转换为第二标识数据,包括:若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据所述原始数据数量确定第二数据类型;根据预设转换规则和所述第二数据类型,将原始数据转换为第二标识数据。
示例性的,以原始数据为国家行政区划为例,以第一标识数据引用国标标准为例,第一标识数据为个人身份证号码的前六位。第一标识数据位数缩减1位后的取值范围为1~99999。第一标识数据位数缩减2位后的取值范围为1~9999。可以确定原始数据数量小于99999和9999。则可以用四位十进制的数字表示和存储原始数据数量。而每位十进制又可以用4位二进制数来表示,因此可以根据原始数据数量确定第二数据类型为short类型。本方案可以根据预设转换规则和第二数据类型,将原始数据转换为short类型的第二标识数据。其中,进制之间的转换规则可以参考相关技术。
由此,通过若原始数据数量小于第一标识数据位数缩减后的取值范围,则根据原始数据数量确定第二数据类型;根据预设转换规则和第二数据类型,将原始数据转换为第二标识数据。可以实现根据原始数据数量确定合适的数据类型,并用确定的数据类型来表示和存储枚举类型的数据,可以实现节约计算机的存储资源和计算资源,进而在使用原始数据进行数据处理过程时提高数据的处理效率。
在另一个可行的实施方式中,可选的,在根据预设转换规则将所述原始数据转换为第二标识数据之后,还包括:建立并存储所述原始数据、所述第一标识数据以及所述第二标识数据之间的唯一关联关系。
其中,原始数据与第一标识数据的唯一关联关系是预先确定的,在根据预设转换规则将原始数据转换为第二标识数据之后,可以确定原始数据与第二标识数据的唯一关联关系,进而通过原始数据与第一标识数据的唯一关联关系以及原始数据与第二标识数据的唯一关联关系可以确定并建立原始数据、第一标识数据以及第二标识数据之间的唯一关联关系,并将三者之间的唯一关联关系进行存储。
由此,通过建立并存储原始数据、第一标识数据以及第二标识数据之间的唯一关联关系,可以实现在数据处理过程中高效、快捷地实现原始数据、第一标识数据以及第二标识数据之间的相互转化,可以根据实际需要获取所需数据,提高数据处理的效率。
在本实施例中,可选的,在建立并存储所述原始数据、所述第一标识数据以及所述第二标识数据之间的唯一关联关系之后,所述方法还包括:响应于第一标识数据获取请求,根据所述唯一关联关系确定第二标识数据获取请求;根据所述第二标识数据获取请求确定第二标识数据;根据所述唯一关联关系和所述第二标识数据确定第一标识数据。
其中,在完成原始数据到第二标识数据之间的转化之后,将得到的第二标识数据发送至目标子系统进行存储,以使目标子系统接收来自外部系统的第一标识数据获取请求,进而根据该第一标识数据获取请求返回第一标识数据给外部系统。其中,外部系统可以是发送第一标识数据操作请求的系统,例如第一标识数据查询请求。具体的实现过程为,本方案根据第一标识数据获取请求和原始数据、第一标识数据以及第二标识数据之间的唯一关联关系,可以将第一标识数据获取请求中的第一标识数据转化为第二标识数据,进而得到第二标识数据获取请求。根据第二标识数据获取请求在目标子系统中进行与第二标识数据获取请求匹配的数据操作,获取第二标识数据。目标子系统根据获取到的第二标识数据以及原始数据、第一标识数据以及第二标识数据之间的唯一关联关系确定与第一标识数据获取请求相匹配的第一标识数据,反馈至外部系统。
由此,通过响应于第一标识数据获取请求,根据唯一关联关系确定第二标识数据获取请求;根据第二标识数据获取请求确定第二标识数据;根据唯一关联关系和第二标识数据确定第一标识数据。可以实现在数据操作过程中高效、快捷地实现第二标识数据以及第二标识数据之间的相互转化,可以根据实际需要获取所需数据,提高数据检索和数据处理的效率。
本发明实施例提供的技术方案,获取数据类型为枚举类型的原始数据;根据原始数据确定第一标识数据;确定原始数据数量,以及根据第一标识数据位数确定取值范围;若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将原始数据转换为第二标识数据。通过执行本方案,可以实现节省计算机的计算和存储空间,提高计算效率和检索效率。
图3a是现有技术的数据处理系统结构示意图,如图3a所示,原始数据从源子系统中被抽取出来,抽取出来的数据由ETL子系统将原始数据经过转换后加载到目标子系统中,ETL的转换过程中会对字典类字段进行格式转换,将字典字段的字典编码由原始数据转换为目标子系统定义的第一标识数据。外部系统在消费目标子系统的数据时使用第一标识数据与目标子系统交互。其中原始数据与第一标识数据的映射关系由维护人员初始化进ETL子系统。
相关技术的大数据ETL处理过程中,被处理的数据字段的值是枚举类型的称为枚举字段,也称作字典字段,字典字段的取值范围定义时一般包含字典编码、字典值以及相应的描述信息,其中字典编码一般被定义为数值型(十进制或者十六进制表示),字典值通常为文字表达。字典编码在定义时除了便于处理一般还考虑到了“人可读、可理解”。比如国标标准中定义的国家行政区划代码采用6位十进制数字表达,6位数字共分为三个区域,分别为:前两位代表省/自治区/直辖市,中间两位代表市,最后三位代表区/县。例如659001代表某省某市某县,其中,659001属于字典编码,“某省某市某县”属于字典值。659001虽然是一串十进制数字,但是已经超出了Java的有符号短整型(short,占用2字节)的最大表达范围32767,需要用Integer类型或者String类型来表达,Integer类型表示占用4字节,String类型表示则需要占用6字节。
现有技术的技术方案,在由ETL子系统输出到目标子系统的第一标识数据一般都具有业务意义且具备“人可读”的特性,从而导致第一标识数据会比较长,越长的第一标识数据、越多的字典字段,就需要越多的计算和存储资源,在大数据背景下更甚。
据统计,行政区划的枚举取值范围3500余个。假如为每一个行政区划代码分配一个整型数字,则Java的有符号短整型(short,占用2字节)已经足够用,这样做相比Integer类型可以节省2字节,相比String类型可以节省4字节。
在大数据背景下,系统中每天的数据增量都是数亿条,相应的需要大量的计算处理资源和存储检索资源来支撑,假设系统的日增量为10亿条按照上述行政区划代码的例子,使用无符号短整型,相比Integer方式可以节省2GB的空间,相比String方式则可以节省4GB的空间。进一步的,系统中总的枚举字段数不止一个,总的枚举字段数越多,可以优化的空间就越大;另外,每个枚举字段的字典编码长度可能不止6位数,枚举字段的字典编码长度越长,可以优化的空间就越大。将系统中所有的枚举字段的字典编码采用占用空间更小的数据类型来存放将能有效降低需要的计算处理资源和存储检索资源。
为了更好的说明技术方案,需要定义和解释一些概念:原始数据、第一标识数据和第二标识数据。原始数据,枚举类字段在源子系统中的字典编码,即ETL子系统中枚举类字段的输入;第一标识数据,枚举类字段在目标子系统中的字典编码,一般的会引用一些标准例如国标、行标、企标等,如国家行政区划代码一般会引用上述的国标标准,即ETL子系统中枚举类字段的输出;第二标识数据,本发明实施例生成的一种相比原始数据和第一标识数据更短的数据类型,第二标识数据代替第一标识数据在目标子系统中进行计算处理和存储索引。
图3b是本发明实施例适用的数据处理系统结构示意图,为了更清楚的表述本发明的技术方案,如图3b所示,本发明实施例提供的技术方案可以包括如下子系统:
在现有技术的数据处理系统的基础上,本发明实施例增加了第二标识子系统。第二标识子系统维护原始数据、第二标识数据、第一标识数据之间的映射关系,并与ETL子系统还有目标子系统进行交互来达到节省资源的目的。其中,原始数据与第一标识数据的映射关系由维护人员初始化到第二标识子系统中,初始化过程中第二标识子系统将生成与相应原始数据、第一标识数据对应的第二标识数据。
ETL子系统在进行进一步的数据处理过程之前先把从源子系统接收到的原始数据输入到第二标识子系统中获取相应的第二标识数据,ETL子系统的后续处理过程基于第二标识数据进行。基于第二标识数据的后续处理过程将降低处理过程中需要的计算资源及存储资源,ETL子系统将处理完的包含第二标识数据的数据输出到目标子系统中。目标子系统使用第二标识数据存储和处理数据可以降低相应的资源消耗。
外部系统使用第一标识数据与目标子系统进行数据消费,目标子系统接收到第一标识数据获取请求后,将第一标识数据发送到第二标识子系统,第二标识子系统返回相应的第二标识数据给目标子系统,目标子系统使用第二标识数据进行相应的数据处理,将处理后的结果转换成第一标识数据后反馈给外部系统。整个数据消费过程第二标识数据对于外部系统来说是无感知的。
本发明实施例提供的技术方案,在同等数据规模下,可以减少字典类字段的空间占用,从而有效降低需要的计算处理资源和存储检索资源。数据生产者基于上述能力在计算处理和存储索引同样规模的数据时将使用更少的计算资源和存储资源,并在此基础上提供数据访问能力。数据消费访问数据服务不受任何影响。
图4是本发明实施例提供的一种数据处理装置结构示意图,所述装置可以配置在用于数据处理的电子设备中。如图4所示,所述装置包括:
原始数据获取模块410,用于获取数据类型为枚举类型的原始数据;
第一标识数据确定模块420,用于根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
数据转换模块430,用于若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
可选的,数据转换模块430,包括取值范围确定单元,用于确定所述原始数据数量,以及根据所述第一标识数据位数确定取值范围;数据转换单元,用于若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将所述原始数据转换为第二标识数据。
可选的,数据转换单元,包括第二数据类型确定子单元,用于若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据所述原始数据数量确定第二数据类型;数据转换子单元,用于根据预设转换规则和所述第二数据类型,将原始数据转换为第二标识数据。
可选的,所述装置还包括关联关系存储模块,用于在根据预设转换规则将所述原始数据转换为第二标识数据之后,建立并存储所述原始数据、所述第一标识数据以及所述第二标识数据之间的唯一关联关系。
可选的,所述方法还包括请求响应模块,用于响应于第一标识数据获取请求,根据所述唯一关联关系确定第二标识数据获取请求;根据所述第二标识数据获取请求确定第二标识数据;根据所述唯一关联关系和所述第二标识数据确定第一标识数据。
上述实施例所提供的装置可以执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
图5是本发明实施例提供的一种电子设备结构示意图,如图5所示,该设备包括:
一个或多个处理器510,图5中以一个处理器510为例;
存储器520;
所述设备还可以包括:输入装置530和输出装置540。
所述设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据处理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种数据处理方法,即:
获取数据类型为枚举类型的原始数据;
根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种数据处理方法,也即:
获取数据类型为枚举类型的原始数据;
根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取数据类型为枚举类型的原始数据;
根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
2.根据权利要求1所述的方法,其特征在于,若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据,包括:
确定所述原始数据数量,以及根据所述第一标识数据位数确定取值范围;
若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将所述原始数据转换为第二标识数据。
3.根据权利要求2所述的方法,其特征在于,若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据预设转换规则将所述原始数据转换为第二标识数据,包括:
若所述原始数据数量小于所述第一标识数据位数缩减后的取值范围,则根据所述原始数据数量确定第二数据类型;
根据预设转换规则和所述第二数据类型,将原始数据转换为第二标识数据。
4.根据权利要求1所述的方法,其特征在于,在根据预设转换规则将所述原始数据转换为第二标识数据之后,还包括:
建立并存储所述原始数据、所述第一标识数据以及所述第二标识数据之间的唯一关联关系。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于第一标识数据获取请求,根据所述唯一关联关系确定第二标识数据获取请求;
根据所述第二标识数据获取请求确定第二标识数据;
根据所述唯一关联关系和所述第二标识数据确定第一标识数据。
6.一种数据处理装置,其特征在于,包括:
原始数据获取模块,用于获取数据类型为枚举类型的原始数据;
第一标识数据确定模块,用于根据所述原始数据确定第一标识数据;其中,所述原始数据与所述第一标识数据唯一关联;
数据转换模块,用于若确定所述原始数据数量与所述第一标识数据位数满足预设约束条件,则根据预设转换规则将所述原始数据转换为第二标识数据;其中,所述原始数据与所述第二标识数据唯一关联,且所述原始数据数量与所述第二标识数据位数匹配。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5任一项所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的数据处理方法。
CN202111275974.7A 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质 Pending CN113946617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275974.7A CN113946617A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275974.7A CN113946617A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113946617A true CN113946617A (zh) 2022-01-18

Family

ID=79337243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275974.7A Pending CN113946617A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113946617A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579193A (zh) * 2022-03-08 2022-06-03 国泰新点软件股份有限公司 多系统加载方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579193A (zh) * 2022-03-08 2022-06-03 国泰新点软件股份有限公司 多系统加载方法、装置、设备及存储介质
CN114579193B (zh) * 2022-03-08 2024-01-12 国泰新点软件股份有限公司 多系统加载方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106407201B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111008230B (zh) 数据存储方法、装置、计算机设备及存储介质
CN104899204B (zh) 数据存储方法及装置
US10652349B2 (en) Managing distributed data by calculating co-occurrence probabilities of combinations of first identification information items for device information items and compressing the device information items using the a second identification information assigned to the first information items based on the co-occurrence probabilities
CN111949710A (zh) 数据存储方法、装置、服务器及存储介质
CN111104776A (zh) 一种浮点数处理方法、装置及电子设备
CN113946617A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114281876A (zh) 一种数据处理方法、装置、设备及存储介质
CN112464619B (zh) 大数据处理方法、装置、设备及计算机可读存储介质
CN112235409B (zh) 文件上传方法、装置、电子设备及计算机可读存储介质
CN107643906B (zh) 数据处理方法及装置
CN113190517A (zh) 数据集成方法、装置、电子设备和计算机可读介质
CN115905168B (zh) 基于数据库的自适应压缩方法和装置、设备、存储介质
CN109067649B (zh) 节点处理方法及装置、存储介质和电子设备
Kim et al. Low-overhead compressibility prediction for high-performance lossless data compression
CN112307021A (zh) 数据处理方法、装置、设备和存储介质
CN113220981A (zh) 一种优化缓存的方法和装置
CN115001628B (zh) 数据编码的方法及装置、数据解码的方法及装置和数据结构
CN110728118A (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN112804331B (zh) 一种基于消息总线的电能表数据处理方法、系统和电能表
CN110134691B (zh) 数据校验方法、装置、设备和介质
CN112328960B (zh) 数据运算的优化方法、装置、电子设备及存储介质
CN116737815A (zh) 数据提取方法、装置、电子设备及存储介质
Zhang et al. Data-Aware Adaptive Compression for Stream Processing
CN115061992A (zh) 一种日志数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination