CN115422204A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115422204A CN115422204A CN202211225279.4A CN202211225279A CN115422204A CN 115422204 A CN115422204 A CN 115422204A CN 202211225279 A CN202211225279 A CN 202211225279A CN 115422204 A CN115422204 A CN 115422204A
- Authority
- CN
- China
- Prior art keywords
- data
- data source
- source
- determining
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、装置、电子设备及存储介质,其中,该方法包括:基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,数据统计表中包括数据特征字段以及数据来源标记字段;响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对数据统计表进行更新。本发明实施例的技术方案,实现了省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率。
Description
技术领域
本发明涉及数据治理技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,互联网、云服务、物联网等各种新兴信息技术与医疗行业进行融合,其中,大数据系统的应用更是为健康医疗行业带来了前所未有的技术突破。随着大数据技术的不断发展,数据治理在医疗行业中的地位也越来越重要。其中,数据标准是数据治理的基础。
在数据治理流程中,对象识别、数据质检、数据链接、数据模型、数据存储,都离不开数据标准。数据标准的时空差异性,就催生了数据标准的版本化要求。
目前,现有的数据版本化存储方式,通常是将不同版本的数据均存储在数据库中,以在进行数据查询时,从数据库中调取。这种方式的缺点在于:可能会出现数据冗余度高、存储空间浪费严重以及查询效率低等问题。
发明内容
本发明提供了一种数据处理方法、装置、电子设备及存储介质,以实现省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率。
根据本发明的一方面,提供了一种数据处理方法,该方法包括:
基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,数据统计表中包括数据特征字段以及数据来源标记字段;
响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对所述数据统计表进行更新。
根据本发明的另一方面,提供了一种数据处理装置,该装置包括:
数据统计表创建模块,用于基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,数据统计表中包括数据特征字段以及数据来源标记字段;
数据来源标记处理模块,用于响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对所述数据统计表进行更新。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据处理方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据处理方法。
本发明实施例的技术方案,通过基于历史记录数据集,创建包含至少一种数据特征的数据统计表,进一步的,响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,以基于处理的数据来源标记对数据统计表进行更新,解决了现有技术中可能存在的数据冗余度高、存储空间浪费严重以及查询效率低等问题,实现了省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率,同时,保证了数据检索效率以及分库分表数据处理方案的实现效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据处理方法的流程图;
图2是根据本发明实施例二提供的一种数据处理方法的流程图;
图3是根据本发明实施例三提供的一种数据处理装置的结构示意图;
图4是实现本发明实施例的数据处理方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于对多数据来源的历史记录数据进行标准化管理的情况,该方法可以由数据处理装置来执行,该数据处理装置可以采用硬件和/或软件的形式实现,该数据处理装置可配置于终端和/或服务器中。如图1所示,该方法包括:
S110、基于历史记录数据集,创建包含至少一种数据特征的数据统计表。
其中,数据统计表中包括数据特征字段以及数据来源标记字段。
在本实施例中,历史记录数据集可以为在当前时刻之前预设时长内所收集的若干条记录构建的数据集。历史记录数据集可以为任意领域内的数据集,可选的,可以为医疗历史记录数据集。数据特征可以为用于对历史记录数据集中各历史记录进行整理的依据。示例性的,数据特征可以为性别特征,即将历史记录数据集中各历史记录的性别特征进行整理统计,以得到包含历史记录数据集中各历史记录所对应的性别特征的统计表,此时,可以将此表格作为数据统计表。例如,当历史记录数据集中各历史记录所对应的性别特征包括性别A、性别B以及性别C,则数据统计表中所包含的性别特征可以为性别A、性别B以及性别C。数据特征字段可以为数据统计表中用于表征数据特征的表头。数据来源标记字段可以为数据统计表中用于表征数据来源标记的表头。其中,数据来源标记可以为预先设置的,用于表征历史记录数据集中各历史记录的数据来源的标记。
在实际应用中,在得到历史记录数据集后,为了可以对历史记录数据集中各历史记录进行标准化整理,可以按照各历史记录所对应的数据特征以及数据来源进行统计分析,并创建相应的统计表,从而可以得到包含数据特征字段以及数据来源标记字段的数据统计表。示例性的,如表1所示,可以为数据特征为性别特征的数据统计表。
表1数据特征为性别特征的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 7 | 00111 |
3 | 2 | 性别C | 7 | 00111 |
需要说明的是,数据统计表中还可以包括二进制值字段,并且,二进制值字段可以与数据来源标记字段相匹配,即将数据来源标记字段用二进制表示。
可选的,基于历史记录数据集,创建包含至少一种数据特征的数据统计表,包括:获取与至少一个数据来源相关联的历史记录数据集;基于预设统计字段对历史记录数据集进行统计,得到包含至少一种数据特征的数据统计表。
在本实施例中,数据来源可以为历史记录数据集中各历史记录的来源。数据来源可以用于表征各历史记录在哪个数据库中存储。示例性的,数据来源可以包括国家、省份、城市以及区县等。预设统计字段可以为预先设置的,用于对历史记录数据集中各历史记录的特征进行统计,以构建数据统计表的字段。其中,各数据特征隶属于预设统计字段。示例性的,当要构建性别特征的数据统计表时,预设统计字段可以为性别,此时,基于预设统计字段对历史记录数据集中各历史记录进行统计,即可得到各历史记录的性别统计结果的数据统计表。
在具体实施中,首先获取与至少一个数据来源相关联的历史记录数据集,然后,基于当前数据统计表的构建需求,确定预设统计字段,并基于预设统计字段对历史记录数据集进行统计,将历史记录数据集中各历史记录按照预设统计字段进行整理,同时,确定历史记录数据集中各历史记录的数据来源所对应的数据来源标记,从而,可以得到包含数据特征字段和数据来源标记字段的数据统计表。
S120、响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对数据统计表进行更新。
在本实施例中,数据处理指令可以为一段预先编写的程序代码,该程序代码可以用于执行相应数据处理操作。数据处理指令可以为任意编程语言所编写的指令,可选的,可以为SQL语句。可选的,数据处理指令可以包括数据来源新增、数据特征删除、数据特征新增以及数据特征修改等。
在实际应用中,为了可以对数据统计表执行增、删、改、查等一系列数据处理操作,在得到数据统计表后,可以基于终端设备输入数据处理指令,当检测到数据处理指令时,可以对其进行响应解析,以得到需要进行数据处理的数据特征以及数据处理操作,进而,基于数据处理指令中所包含的数据处理操作,对与相应数据特征的数据来源标记进行处理,并根据处理后的数据来源标记对数据统计表进行更新。这样设置的好处在于:可以节约数据存储空间,减少数据处理操作时间,提高了数据处理效率。
需要说明的是,数据处理指令可以包括数据来源新增、数据特征删除、数据特征新增以及数据特征修改,下面可以基于这四种数据处理指令,对具体处理流程进行说明。
可选的,数据处理指令为数据来源新增时,响应于数据处理指令,对与相应数据特征相对应的数据来源标记字段进行处理,包括:响应于数据处理指令,确定与新增数据来源相对应的至少一个待处理数据特征;基于数据来源信息表,确定与新增数据来源相对应的目标数据来源标记,以将目标数据来源标记叠加至与各待处理数据特征相对应的数据来源标记中。
在本实施例中,新增数据来源可以理解为新建的数据库。在实际应用过程中,为了可以对历史记录数据集中的各历史记录进行分库分表管理,通常可以创建新的数据库,并将历史记录数据集中的各历史记录复制到新建的数据库中,可以将新建的数据库作为新增数据来源。数据来源信息表可以为预先构建的,用于表征数据来源与数据来源标记之间的映射关系的表格。在确定新增数据来源后,即可基于新增数据来源在数据来源信息表中进行查询,从而可以得到与新增数据来源相对应的数据来源标记,即为目标数据来源标记。
在具体实施中,当数据处理指令为数据来源新增时,当接收到数据处理指令时,可以对数据处理指令进行解析,得到数据处理指令中所包含的新增数据来源以及与新增数据来源相对应的各待处理数据特征,然后,基于新增数据来源在数据来源信息表中进行查询,即可得到与新增数据来源相对应的目标数据来源标记,进一步的,将目标数据来源标记叠加至与各待处理数据特征相对应的数据来源标记上,从而可以得到各待处理数据特征更新后的数据来源标记。这样设置的好处在于:只需在各待处理数据特征的数据来源标记中增加新增数据来源的数据来源标记,而不需要复制数据,达到了使用较少的存储空间管理多数据来源标准数据的效果,减少了操作时间,提高了数据处理效率。
示例性的,如表2所示,在表1的基础上进行数据来源新增的处理,以新增数据来源为V2为例,且其对应的目标数据来源标记为8,对表1中所有数据特征进行数据来源新增处理后,即可得到表2。
表2数据来源新增处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 15 | 01111 |
2 | 1 | 性别B | 15 | 01111 |
3 | 2 | 性别C | 15 | 01111 |
可选的,数据处理指令为数据特征删除时,响应于数据处理指令,对与相应数据特征相对应的数据来源标记字段进行处理,包括:响应于数据处理指令,确定待删除数据特征以及相应的待删除数据来源;确定待删除数据来源在继承链条中的节点位置,并基于节点位置,确定待删除来源标记;基于待删除来源标记,对待删除数据特征的数据来源标记进行处理,以将待删除数据特征所属于待删除数据来源的历史记录数据删除。
在本实施例中,当数据处理指令为数据特征删除时,可以基于数据处理指令确定要将哪些数据来源的哪些数据特征删除,即为待删除数据特征以及待删除数据来源。示例性的,若数据处理指令为要将省份A的性别B的记录删除,则待删除数据特征即为性别B,待删除数据来源即为省份A。继承链条可以为以各数据来源为基础所构建的,用于表征各数据来源的继承关系的链条。示例性的,当数据来源为国家、省份、城市以及区县时,其对应的继承链条为国家>省份>城市>区县。
需要说明的是,若待删除数据来源在继承链条中的节点位置处于中间位置时,则在进行数据特征删除时,还需要考虑继承链条中与待删除数据来源相关联的父节点,并且,在基于节点位置,确定待删除来源标记时,可以将与待删除数据来源相对应的数据来源标记以及与各父节点相对应的数据来源标记相加;若待删除数据来源在继承链条中的节点位置为首位时,即没有与待删除数据来源相关联的父节点,则在确定待删除来源标记时,可以将与待删除数据来源相对应的数据来源标记作为待删除来源标记即可。
在具体实施中,当接收到数据处理指令时,可以对数据处理指令进行解析,以确定待删除数据特征以及相应的待删除数据来源,然后,确定待删除数据来源在继承链条中的节点位置,并基于节点位置,确定待删除来源标记,进一步的,将与待删除数据特征相对应的数据来源标记与待删除来源标记进行相减处理,即可实现待删除数据特征所属于待删除数据来源的历史记录数据删除。
示例性的,如表3所示,待删除数据特征为性别B,待删除数据来源为省份,且在继承链条中,与待删除数据来源相关联的父节点包括国家,则在表1的基础上,经过数据特征删除处理后的数据统计表可以如表3所示。
表3数据特征删除处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 1 | 00001 |
3 | 2 | 性别C | 7 | 00111 |
需要说明的是,也可以选择不根据继承链条,确定待删除来源标记,即仅将与待删除数据来源相对应的数据来源标记删除,不考虑与待删除数据来源相关联的父节点。示例性的,若不考虑继承关系,待删除数据特征为性别B,待删除数据来源为省份,则在表1的基础上,经过数据特征删除处理后的数据统计表可以如表4所示。
表4不考虑继承关系时,数据特征删除处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 5 | 00101 |
3 | 2 | 性别C | 7 | 00111 |
可选的,数据处理指令为数据特征新增时,在上述各技术方案的基础上,还包括:当检测到数据处理指令为数据特征新增时,确定与新增数据特征相对应的目标数据来源,并确定目标数据来源在继承链条中的节点位置;基于节点位置,确定与新增数据特征相对应的数据来源标记,并将新增数据特征以及相应的数据来源标记更新至数据统计表中。
在本实施例中,目标数据来源可以为新增数据来源,也可以为历史数据来源。需要说明的是,若目标数据来源在继承链条中的节点位置处于中间位置时,则在确定与新增数据特征相对应的数据来源标记时,可以将与目标数据来源相对应的数据来源标记以及与目标数据来源相关联的父节点所对应的数据来源标记相加后的数据来源标记作为与新增数据特征相对应的数据来源标记;若目标数据来源在继承链条中的节点位置处于首位,即没有与目标数据来源相关联的父节点时,则可以将与目标数据来源相对应的数据来源标记作为与新增数据特征相对应的数据来源标记即可。
在具体实施中,当检测到数据处理指令为数据特征新增时,则可以对数据处理指令进行解析,以确定新增数据特征以及与新增数据特征相对应的目标数据来源,然后,确定目标数据来源在继承链条中的节点位置,以基于节点位置,确定与新增数据特征相对应的数据来源标记,进而,将新增数据特征以及相应的数据来源标记更新至数据统计表中,以实现数据特征新增操作。
示例性的,以新增数据特征为性别D,目标数据来源为省份为例,则在表1的基础上,经过新增数据特征处理后的数据统计表可以如表5所示。
表5数据特征新增处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 7 | 00111 |
3 | 2 | 性别C | 7 | 00111 |
4 | 3 | 性别D | 6 | 00110 |
需要说明的是,也可以选择不根据继承链条,确定与新增数据特征相对应的数据来源标记,即仅将与目标数据来源相对应的数据来源标记作为与新增数据特征相对应的数据来源标记。示例性的,若不考虑继承关系,新增数据特征为性别D,目标数据来源为省份为例,则在表1的基础上,经过新增数据特征处理后的数据统计表可以如表6所示。
表6不考虑继承关系时,数据特征新增处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 7 | 00111 |
3 | 2 | 性别C | 7 | 00111 |
4 | 3 | 性别D | 2 | 00010 |
可选的,数据处理指令为数据特征修改时,在上述各技术方案的基础上,还包括:当检测到数据处理指令为数据特征修改时,确定待修改数据特征以及与待修改数据特征相对应的待修改数据来源;确定待修改数据来源在继承链条中的节点位置,并基于节点位置确定与待修改数据来源相对应的至少一个父节点;基于数据处理指令对待修改特征进行修改,基于各父节点以及待修改数据来源,确定待修改数据来源标记,并更新至与待修改数据特征相对应的数据来源标记中。
在本实施例中,待修改数据特征即为数据统计表中所包含的任意数据特征。待修改数据来源可以为新增数据来源,也可以为历史数据来源。需要说明的是,若没有与待修改数据来源相对应的父节点时,则可以将与待修改数据来源相对应的数据来源标记作为待修改数据来源标记即可。
在具体实施中,当检测到数据处理指令为数据特征修改时,则可以对数据处理指令进行解析,以确定待修改数据特征以及待修改数据特征修改后的结果,同时,确定与待修改数据特征相对应的待修改数据来源,然后,确定待修改数据来源在继承链条中的节点位置,并基于节点位置确定与待修改数据来源相关联的各父节点,进一步的,确定与待修改数据来源相对应的数据来源标记,以及与各父节点相对应的数据来源标记,将各数据来源标记相加,即可得到待修改数据来源标记,基于数据处理指令对待修改数据特征进行修改,将待修改数据特征更新至修改后的结果,同时,将待修改数据来源标记更新至与待修改数据特征相对应的数据来源标记中。
示例性的,将性别B作为待修改数据特征,将省份作为待修改数据来源,则以表1为基础,经过数据特征修改后的数据统计表可以如表7所示。
表7数据特征修改处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别b | 6 | 00110 |
3 | 2 | 性别C | 7 | 00111 |
需要说明的是,也可以选择不根据继承链条,确定待修改数据来源标记,即仅将与待修改数据来源相对应的数据来源标记作为待修改数据来源标记即可。示例性的,若不考虑继承关系,将性别B作为待修改数据特征,将省份作为待修改数据来源,则以表1为基础,经过数据特征修改后的数据统计表可以如表8所示。
表8不考虑继承关系时,数据特征修改处理后的数据统计表
序号 | 编码 | 数据特征 | 数据来源标记 | 二进制值 |
1 | 0 | 性别A | 7 | 00111 |
2 | 1 | 性别B | 5 | 00101 |
3 | 2 | 性别C | 7 | 00111 |
4 | 3 | 性别b | 2 | 00010 |
本发明实施例的技术方案,通过基于历史记录数据集,创建包含至少一种数据特征的数据统计表,进一步的,响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,以基于处理的数据来源标记对数据统计表进行更新,解决了现有技术中可能存在的数据冗余度高、存储空间浪费严重以及查询效率低等问题,实现了省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率,同时,保证了数据检索效率以及分库分表数据处理方案的实现效果。
实施例二
图2是本发明实施例二提供的一种数据处理方法的流程图。在前述实施例的基础上,在构建数据统计表之前,还可以构建数据来源信息表,以基于数据来源信息表,确定各数据特征在数据统计表中的数据来源标记。其具体的实施方式可以参见本实施例技术方案。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
如图2所示,该方法具体包括如下步骤:
S210、确定与历史记录数据集相对应的至少一个数据来源,并基于各数据来源之间的继承链条,设定相应的数据来源标记。
在本实施例中,继承链条可以基于各数据来源的属性进行确定,也可以基于用户需求进行设置。需要说明的是,在设定数据来源标记时,可以基于二进制值进行设定,具体来说,在基于各数据来源之间的继承链条进行设置时,可以依次根据各数据来源在继承链条中的节点位置,确定相应二进制值中“1”的位置,进而,基于各二进制值确定相应的数据来源标记。示例性的,若某一数据来源在继承链条中的节点位置处于排列方向为从右向左的第一位时,则其对应的二进制值可以为00001,相应的数据来源标记即为1;若某一数据来源在继承链条中的节点位置处于排列方向为从右向左的第二位时,则其对应的二进制值可以为00010,相应的数据来源标记即为2;若某一数据来源在继承链条中的节点位置处于排列方向为从右向左的第三位时,则其对应的二进制值可以为00100,相应的数据来源标记即为4,以此类推,即可确定与各数据来源相对应的数据来源标记。
在实际应用中,在获取历史记录数据集后,可以对历史记录数据集中的各历史记录数据的数据来源进行分析,进一步,确定各数据来源之间的继承链条,并基于各数据来源在继承链条中的节点位置,设定相应的数据来源标记。
S220、根据各数据来源以及相应的数据来源标记之间的关联关系,构建数据来源信息表,以基于数据来源信息表,确定各数据特征在数据统计表中的数据来源标记。
在本实施例中,在确定各数据来源以及相应的数据来源标记后,则可以建立各数据来源以及与其对应的数据来源标记之间的映射关系,并构建数据来源信息表。示例性的,以数据来源为国家、身份、城市以及V2为例,其构建的数据来源信息表可以如表9所示。
表9数据来源信息表
序号 | 数据来源 | 数据来源标记 | 二进制值 | 继承链条关系 |
1 | 城市 | 1 | 00001 | 0 |
2 | 省份 | 2 | 00010 | 1 |
3 | 国家 | 4 | 00100 | 2 |
4 | V2 | 8 | 01000 | 3 |
在实际应用中,在确定各数据来源以及相应的数据来源标记后,即可构建数据来源信息表,并存储在相应的存储空间中,以便可以在构建数据统计表时,可以基于数据来源信息表确定与各数据特征相对应的数据来源标记,同时,也可以在后续对数据统计表进行处理时,调用数据来源信息表,以确定与待删除数据来源、新增数据来源以及目标数据来源相对应的数据来源标记。
S230、基于历史记录数据集,创建包含至少一种数据特征的数据统计表。
S240、响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,以基于处理的数据来源标记对所述数据统计表进行更新。
本发明实施例的技术方案,通过确定与历史记录数据集相对应的至少一个数据来源,并基于各数据来源之间的继承链条,设定相应的数据来源标记,然后,根据各数据来源以及相应的数据来源标记之间的关联关系,构建数据来源信息表,以基于数据来源信息表,确定各数据特征在数据统计表中的数据来源标记,进一步的,基于历史记录数据集,创建包含至少一种数据特征的数据统计表,响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,以基于处理的数据来源标记对所述数据统计表进行更新,实现了省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率,同时,保证了数据检索效率以及分库分表数据处理方案的实现效果。
实施例三
图3是本发明实施例三提供的一种数据处理装置的结构示意图。如图3所示,该装置包括:数据统计表创建模块310和数据来源标记处理模块320。
其中,数据统计表创建模块310,用于基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,数据统计表中包括数据特征字段以及数据来源标记字段;
数据来源标记处理模块320,用于响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对所述数据统计表进行更新。
本发明实施例的技术方案,通过基于历史记录数据集,创建包含至少一种数据特征的数据统计表,进一步的,响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,以基于处理的数据来源标记对数据统计表进行更新,解决了现有技术中可能存在的数据冗余度高、存储空间浪费严重以及查询效率低等问题,实现了省略数据复制过程、节省存储空间以及减少操作时间的效果,提高了数据处理效率,同时,保证了数据检索效率以及分库分表数据处理方案的实现效果。
可选的,所述装置还包括:数据来源确定模块和数据来源信息表构建模块。
数据来源确定模块,用于确定与历史记录数据集相对应的至少一个数据来源,并基于各所述数据来源之间的继承链条,设定相应的数据来源标记;
数据来源信息表构建模块,用于根据各所述数据来源以及相应的数据来源标记之间的关联关系,构建数据来源信息表,以基于所述数据来源信息表,确定各数据特征在所述数据统计表中的数据来源标记。
可选的,数据统计表创建模块310包括历史记录数据集获取单元和历史记录数据集统计单元。
历史记录数据集获取单元,用于获取与至少一个数据来源相关联的历史记录数据集;
历史记录数据集统计单元,用于基于预设统计字段对所述历史记录数据集进行统计,得到包含至少一种数据特征的数据统计表;其中,各所述数据特征隶属于所述预设统计字段。
可选的,所述数据处理指令包括数据来源新增,数据来源标记处理模块320包括:待处理数据特征确定单元和目标数据来源标记确定单元。
待处理数据特征确定单元,用于响应于所述数据处理指令,确定与新增数据来源相对应的至少一个待处理数据特征;
目标数据来源标记确定单元,用于基于所述数据来源信息表,确定与新增数据来源相对应的目标数据来源标记,以将所述目标数据来源标记叠加至与各所述待处理数据特征相对应的数据来源标记中。
可选的,所述数据处理指令还包括数据特征删除,数据来源标记处理模块320包括:待删除数据来源确定单元、待删除来源标记确定单元以及数据来源标记处理单元。
待删除数据来源确定单元,用于响应于所述数据处理指令,确定待删除数据特征以及相应的待删除数据来源;
待删除来源标记确定单元,用于确定所述待删除数据来源在继承链条中的节点位置,并基于所述节点位置,确定待删除来源标记;
数据来源标记处理单元,用于基于所述待删除来源标记,对所述待删除数据特征的数据来源标记进行处理,以将所述待删除数据特征所属于所述待删除数据来源的历史记录数据删除。
可选的,所述数据处理指令还包括数据特征新增,所述装置还包括:目标数据来源确定模块和数据统计表更新模块。
目标数据来源确定模块,用于当检测到所述数据处理指令为所述数据特征新增时,确定与新增数据特征相对应的目标数据来源,并确定所述目标数据来源在继承链条中的节点位置;
数据统计表更新模块,用于基于所述节点位置,确定与所述新增数据特征相对应的数据来源标记,并将所述新增数据特征以及相应的数据来源标记更新至所述数据统计表中。
可选的,所述数据处理指令包括数据特征修改,所述装置还包括:待修改数据特征确定模块、节点位置确定模块以及待修改数据来源标记确定模块。
待修改数据特征确定模块,用于当检测到所述数据处理指令为所述数据特征修改时,确定待修改数据特征以及与所述待修改数据特征相对应的待修改数据来源;
节点位置确定模块,用于确定所述待修改数据来源在继承链条中的节点位置,并基于所述节点位置确定与所述待修改数据来源相对应的至少一个父节点;
待修改数据来源标记确定模块,用于基于所述数据处理指令对所述待修改特征进行修改,基于各所述父节点以及所述待修改数据来源,确定待修改数据来源标记,并更新至与所述待修改数据特征相对应的数据来源标记中。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据处理方法。
在一些实施例中,数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,所述数据统计表中包括数据特征字段以及数据来源标记字段;
响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对所述数据统计表进行更新。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定与历史记录数据集相对应的至少一个数据来源,并基于各所述数据来源之间的继承链条,设定相应的数据来源标记;
根据各所述数据来源以及相应的数据来源标记之间的关联关系,构建数据来源信息表,以基于所述数据来源信息表,确定各数据特征在所述数据统计表中的数据来源标记。
3.根据权利要求1所述的方法,其特征在于,所述基于历史记录数据集,创建包含至少一种数据特征的数据统计表,包括:
获取与至少一个数据来源相关联的历史记录数据集;
基于预设统计字段对所述历史记录数据集进行统计,得到包含至少一种数据特征的数据统计表;
其中,各所述数据特征隶属于所述预设统计字段。
4.根据权利要求1所述的方法,其特征在于,所述数据处理指令包括数据来源新增,所述响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,包括:
响应于所述数据处理指令,确定与新增数据来源相对应的至少一个待处理数据特征;
基于所述数据来源信息表,确定与新增数据来源相对应的目标数据来源标记,以将所述目标数据来源标记叠加至与各待处理数据特征相对应的数据来源标记中。
5.根据权利要求1所述的方法,其特征在于,所述数据处理指令还包括数据特征删除,所述响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,包括:
响应于所述数据处理指令,确定待删除数据特征以及相应的待删除数据来源;
确定所述待删除数据来源在继承链条中的节点位置,并基于所述节点位置,确定待删除来源标记;
基于所述待删除来源标记,对所述待删除数据特征的数据来源标记进行处理,以将所述待删除数据特征所属于所述待删除数据来源的历史记录数据删除。
6.根据权利要求1所述的方法,其特征在于,所述数据处理指令还包括数据特征新增,所述方法,还包括:
当检测到所述数据处理指令为所述数据特征新增时,确定与新增数据特征相对应的目标数据来源,并确定所述目标数据来源在继承链条中的节点位置;
基于所述节点位置,确定与所述新增数据特征相对应的数据来源标记,并将所述新增数据特征以及相应的数据来源标记更新至所述数据统计表中。
7.根据权利要求1所述的方法,其特征在于,所述数据处理指令包括数据特征修改,所述方法,还包括:
当检测到所述数据处理指令为所述数据特征修改时,确定待修改数据特征以及与所述待修改数据特征相对应的待修改数据来源;
确定所述待修改数据来源在继承链条中的节点位置,并基于所述节点位置确定与所述待修改数据来源相对应的至少一个父节点;
基于所述数据处理指令对所述待修改特征进行修改,基于各所述父节点以及所述待修改数据来源,确定待修改数据来源标记,并更新至与所述待修改数据特征相对应的数据来源标记中。
8.一种数据处理装置,其特征在于,包括:
数据统计表创建模块,用于基于历史记录数据集,创建包含至少一种数据特征的数据统计表;其中,数据统计表中包括数据特征字段以及数据来源标记字段;
数据来源标记处理模块,用于响应于数据处理指令,对与相应数据特征相对应的数据来源标记进行处理,并基于处理的数据来源标记对所述数据统计表进行更新。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225279.4A CN115422204A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225279.4A CN115422204A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115422204A true CN115422204A (zh) | 2022-12-02 |
Family
ID=84205243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211225279.4A Pending CN115422204A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422204A (zh) |
-
2022
- 2022-10-09 CN CN202211225279.4A patent/CN115422204A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061833A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN110765773A (zh) | 地址数据获取方法以及装置 | |
CN112818013B (zh) | 时序数据库查询优化方法、装置、设备以及存储介质 | |
CN112818048A (zh) | 数据仓库的分层构建方法、装置、电子设备及存储介质 | |
CN112686418A (zh) | 一种履约时效预测方法和装置 | |
CN114021156A (zh) | 漏洞自动化聚合的整理方法、装置、设备以及存储介质 | |
CN115203435A (zh) | 基于知识图谱的实体关系生成方法及数据查询方法 | |
CN115408546A (zh) | 一种时序数据管理方法、装置、设备及存储介质 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN115048352B (zh) | 一种日志字段提取方法、装置、设备和存储介质 | |
CN116414814A (zh) | 数据检核方法、装置、设备、存储介质和程序产品 | |
CN115329150A (zh) | 生成搜索条件树的方法、装置、电子设备及存储介质 | |
CN115422204A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115454971A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN115544010A (zh) | 一种映射关系确定方法、装置、电子设备及存储介质 | |
CN112887426B (zh) | 信息流的推送方法、装置、电子设备以及存储介质 | |
CN115328917A (zh) | 一种查询方法、装置、设备及存储介质 | |
CN114676054A (zh) | 一种测试数据生成方法、装置、设备、介质及产品 | |
CN114547477A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN114443437A (zh) | 告警根因输出方法、装置、设备、介质和程序产品 | |
CN116107971A (zh) | 模型的数据处理方法、装置、电子设备以及存储介质 | |
CN112541335B (zh) | 生成解读文本的方法、装置、电子设备及存储介质 | |
CN116431698B (zh) | 一种数据提取方法、装置、设备及存储介质 | |
US20230132618A1 (en) | Method for denoising click data, electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |