CN117194907B - 数据中台的低价值数据主题识别方法 - Google Patents
数据中台的低价值数据主题识别方法 Download PDFInfo
- Publication number
- CN117194907B CN117194907B CN202311474333.3A CN202311474333A CN117194907B CN 117194907 B CN117194907 B CN 117194907B CN 202311474333 A CN202311474333 A CN 202311474333A CN 117194907 B CN117194907 B CN 117194907B
- Authority
- CN
- China
- Prior art keywords
- data
- topic
- value
- sub
- date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000036541 health Effects 0.000 claims abstract description 14
- 239000013256 coordination polymer Substances 0.000 claims description 19
- 238000005192 partition Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 238000007792 addition Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 101100400779 Mus musculus Mdfi gene Proteins 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体为数据中台的低价值数据主题识别方法,包括根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;基于所有数据主题的读写访问记录获取各数据主题的平衡指数和更迭指数,再基于数据主题中的各主题子表信息获取主题子表的陈旧指数和演化指数;再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法,即以数据的实际使用情况为基准进行价值评估,进而准确划分出数据中台中的低价值数据主题。
Description
技术领域
本发明属于数据处理技术领域,具体而言,涉及数据中台的低价值数据主题识别方法。
背景技术
数据中台通常指在企业内部所建立的一个统一的数据平台,其用于将各个部门和业务系统的数据集中管理和整合,从而实现数据的共享、流转和价值挖掘。
随着数据中台的广泛应用,数据中台之中的各类数据形态不断增加、聚集。从数据湖到数据池,再到各类数据主题,最终形成数据集市;在这一过程中,一份源数据会根据数据来源、数据格式以及数据的使用目的的不同,经过多个不同步骤的预处理和加工。当源数据经多种加工步骤成为主题型数据时,即有了更加明确的业务分析属性,从而拥有了可估量的使用价值;其中,数据主题是指在数据分析和数据挖掘中,对数据进行分类和组织的一种方式;它是根据数据的特征、属性或内容将数据划分为不同的主题;但因数据中台是一种数据存储密集型软件平台,在最终形成可用于分析场景的数据形态时,中间过程数据通常会增加5~10倍,如果不能有效的管理和处理这些数据,平台的资源消耗、运行效能都会大受影响。
对于已形成主题的数据,由于与应用层分析任务关系紧密,贸然地进行清理处理非常容易影响上层数据应用的稳定性和可用性。因此,我们需要针对已形成的数据主题,识别其中的低价值数据主题,为后续的数据管理及相关处理提供依据。
发明内容
本发明的目的在于提供数据中台的低价值数据主题识别方法,以解决现有的数据中台无法区分已形成的数据主题中的低价值数据主题,进而无法为后续的数据管理提供依据的技术问题。
本发明的实施例通过以下技术方案实现:
提供数据中台的低价值数据主题识别方法,包括:
根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;
基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数;
基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数;
基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数;
基于字段数变化以及主题子表数获取数据主题的更迭指数;
再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;
将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。
进一步的,所述主题子表的陈旧指数的获取如下式:
其中,tSAT为首次访问日期,tNAT为当前最近访问日期,tNOW为当前日期,NOB为访问数据字节数,NOL为访问数据行数;当tNAT与tNOW取值相同时,tNOW-tNAT取预设差值。
进一步的,所述数据主题的平衡指数的获取如下式:
其中,NT为数据主题下所有主题子表的数量,NOBm为该数据主题下所有主题子表的访问数据平均字节数,NOLm为该数据主题下所有主题子表的访问数据平均行数,NOBi为NT个主题子表中的第i个主题子表的访问数据字节数,NOLi为NT个主题子表中的第i个主题子表的访问数据行数。
进一步的,所述主题子表的演化指数的获取如下式:
其中,Finit、Fmdf、Fdel、Fadd分别表示在tSAT到tNOW的时间区间里,主题子表首次生成字段数、修改字段数、删除字段数、增加字段数,DM为主题子表每次修改、删除或增加后保持不变的天数,n为修改、删除和增加的总次数中的第n次;Fmdf+Fdel+Fadd表示修改、删除、增加处理的字段数之和。
进一步的,所述数据主题的更迭指数的获取如下式:
其中,Fmdfi、Fdeli、Faddi分别为第i个主题子表的修改字段数、删除字段数、增加字段数。
进一步的,所述数据主题的存储健康值的获取如下式:
其中,OImax表示数据主题中最大的主题子表陈旧指数,OImin表示数据主题中最小的主题子表陈旧指数。
进一步的,还包括对获取的低价值数据主题进行低价值范围描述;具体为,基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值;再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。
进一步的,所述基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值,包括:
获取主题子表访问数据的热度分区,再基于热度分区获取区间内各字段的热度值,具体如下式:
其中,NOB_cm和NOL_cm代表当前区间中字段的平均访问数据字节数和平均访问数据行数;NOB_cpm和NOL_cpm代表所有区间中该字段的访问数据字节数和访问数据行数。
进一步的,所述获取主题子表访问数据的热度分区,具体为:
a.设定日期游标数AD,初始值也为1,其中AD取值为1时,代表主题子表在访问记录上产生了访问数据字节数的第一天;设定RD代表划分出新热度区间的日期分割点CP之后,新热度区间的已访问天数;初始化当前最近分割点日期CD;当AD和RD都为1时,CD的日期值为同一天;并将第一天的前一天的日期,加入CP_list作为首个日期分割点CP;
b.获取划断指数CT,当划断指数CT大于0时,将日期游标数AD对应的日期作为新热度区间的日期分割点CP加入CP_list;
c.重复执行步骤b,直到CD的日期值之后的第RD天为当前系统日期,并将当前系统日期作为最后一个日期分割点CP加入CP_list;
d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。
进一步的,所述划断指数CT的获取如下式:
其中,NOBtoday代表由CD向后偏移RD-1天的日期中,主题子表的访问数据字节数;NOBlast_day代表以NOBtoday为日期基准,前一天的访问数据字节数;当AD为1时,访问数据字节数为0;和/>分别代表,从CD日期到RD天之后的时间区段中,该主题子表的访问数据字节数的平均值和中位数值。
本发明实施例的技术方案至少具有如下优点和有益效果:
通过读写访问记录得到诸如主题子表的陈旧指数、演化指数,以及得到数据主题的平衡指数、更迭指数;并基于陈旧指数、演化指数、平衡指数和更迭指数获取数据主题的存储健康值,在基于存储健康值和更迭指数判断数据主题是否属于低价值数据主题;该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法,即以数据的实际使用情况为基准进行价值评估,该价值评估较为准确,进而可协助用户对数据主题进行管理,删除低价值数据,使数据中台的存储空间得到有效利用。
附图说明
图1为本发明的数据中台的低价值数据主题识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
由于数据中台的广泛使用,数据中台之中的各类数据形态不断增加、聚集;用户对数据中台中的数据管理已然成为了一个突出的问题,由于用户无法直观的判断出低价值数据主题,因此在数据中台中的数据管理是极为困难的,尤其是在进行数据删除以保障数据存储空间时,用户不清楚哪些数据可被删除;因此我们希望提出一种数据中台的低价值数据主题识别方法,主要用于识别数据中台中的低价值数据主题。
基于以上,本申请中的数据中台的低价值数据主题识别方法,如图1所示,包括:
根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;其中,清单数据列表的格式为:数据主题名称TN、主题子表名称TB、字段集合FS、访问数据行数NOL、访问数据字节数NOB、当前最近访问日期tNAT、首次访问日期tSAT、操作类型OP,其中最近访问日期是指最接近当前日期的访问日期;操作类型包括阅读、修改、删除、增加等。
在具体实施中,该访问记录在内存中可用JSON或编程对象数组等形式保存,如:
[{TN:SalesMonthly,TB:productsInport,FS:pid|sid|amount|pType|SKU|warhouseid|……,NOL:52638,NOB:73648932,tNAT:2023-05-01,14:23:29,tSAT:2023-01-11,23:56:28},OP:READ,{TN:SalesMonthly,TB:productsMove,……}……]。
基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数;具体如下式,
其中,tSAT为首次访问日期,tNAT为当前最近访问日期,tNOW为当前日期,NOB为访问数据字节数,NOL为访问数据行数;当tNAT与tNOW取值相同时,tNOW-tNAT取预设差值。
在具体实施过程中,当tNAT与tNOW取值相同时,如都是2023-01-01,则将tNOW-tNAT取预设差值,该预设差值通常取0.1。
基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数;具体如下式:
其中,NT为数据主题下所有主题子表的数量,NOBm为该数据主题下所有主题子表的访问数据平均字节数,NOLm为该数据主题下所有主题子表的访问数据平均行数,NOBi为NT个主题子表中的第i个主题子表的访问数据字节数,NOLi为NT个主题子表中的第i个主题子表的访问数据行数。
在具体实施过程中,若该SalesMonthly数据主题中,有productsInport、productsMove、productsOrdered、productsDelivery、productsPayment、productsAfter 6个主题子表,则NT的值为6,且这6个主题子表均需要计算获取其陈旧指数,并将这6个主题子表中的最大的陈旧指数记为OImax,最小的陈旧指数记为OImin。
基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数;具体如下式:
其中,Finit、Fmdf、Fdel、Fadd分别表示在tSAT到tNOW的时间区间里,主题子表首次生成字段数、修改字段数、删除字段数、增加字段数,DM为主题子表每次修改、删除或增加后保持不变的天数,n为修改、删除和增加的总次数中的第n次;Fmdf+Fdel+Fadd表示修改、删除、增加处理的字段数之和。
在具体实施中,若productsInport首次生成时,为12个字段,在30天后修改了1个字段,再25天后,删除了1字段,再15天了增加了1个字段,接着45天后直到今天没有新的变化;则Finit+Fmdf+Fdel+Fadd为12+1+1+1=15,DM的值依次为25、15、45。
基于字段数变化以及主题子表数获取数据主题的更迭指数;具体如下式:
其中,Fmdfi、Fdeli、Faddi分别为第i个主题子表的修改字段数、删除字段数、增加字段数。
再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;具体如下式:
其中,OImax表示数据主题中最大的主题子表陈旧指数,OImin表示数据主题中最小的主题子表陈旧指数。
将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。在具体实施过程中,通常当存储健康值小于0.1,更迭指数小于2.0的数据主题划分为低价值数据主题。
当所有的数据主题均完成上述识别过程后,将识别出的多个低价值数据主题存储在低价值数据主题清单中,在具体实施时,该低价值数据主题清单中的低价值数据主题至少包括存储健康值、更迭指数和平衡指数,具体的存储格式为:
[{SalesMonthly,0.08,1.8,0.12},{SalesDaily……}……]。
上述过程中,通过读写访问记录得到诸如主题子表的陈旧指数、演化指数,以及得到数据主题的平衡指数、更迭指数;并基于陈旧指数、演化指数、平衡指数和更迭指数获取数据主题的存储健康值,在基于存储健康值和更迭指数判断数据主题是否属于低价值数据主题;该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法,即以数据的实际使用情况为基准进行价值评估,该价值评估较为准确,进而可协助用户对数据主题进行管理,删除低价值数据,使数据中台的存储空间得到有效利用。
上述基于使用痕迹评估划分出了低价值数据主题后,我们还可以对低价值数据主题进行低价值范围描述;具体如下:
基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值;其包括:
获取主题子表访问数据的热度分区,再基于热度分区获取区间内各字段的热度值,具体如下式:
其中,NOB_cm和NOL_cm代表当前区间中字段的平均访问数据字节数和平均访问数据行数;NOB_cpm和NOL_cpm代表所有区间中该字段的访问数据字节数和访问数据行数。
其中,获取主题子表访问数据的热度分区,具体为:
a.设定日期游标数AD,初始值也为1,其中AD取值为1时,代表主题子表在访问记录上产生了访问数据字节数的第一天;设定RD代表划分出新热度区间的日期分割点CP之后,新热度区间的已访问天数;初始化当前最近分割点日期CD;当AD和RD都为1时,CD的日期值为同一天,并将第一天的前一天的日期,加入CP_list作为首个日期分割点CP。
b.获取划断指数CT,当划断指数CT大于0时,将日期游标数AD对应的日期作为新热度区间的日期分割点CP加入CP_list;所述划断指数CT的获取如下式:
其中,NOBtoday代表由CD向后偏移RD-1天的日期中,主题子表的访问数据字节数;NOBlast_day代表以NOBtoday为日期基准,前一天的访问数据字节数;当AD为1时,访问数据字节数为0;和/>分别代表,从CD日期到RD天之后的时间区段中,该主题子表的访问数据字节数的平均值和中位数值。
c.重复执行步骤b,直到CD的日期值之后的第RD天为当前系统日期,并将当前系统日期作为最后一个日期分割点CP加入CP_list。基于步骤a中,当AD和RD都为1时,CD的日期值为同一天,并将第一天的前一天的日期,加入CP_list作为首个日期分割点CP,可以理解的是,CP_list中至少包括2个日期分割点CP,即只有一个热度分区。
d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。
需要说明的是,上述过程中,RD的初始值为1,每当得到一个日期分割点CP时,RD均会重置为1,而AD则不会重置,而是继续随着时间的增加而累加;并且CD的日期会变为最近的日期分割点CP的日期。
在具体实施中,若产生了访问数据字节数的第一天为2023-05-01,先将2023-05-01作为第一个日期分割点CD。此时AD和RD都为1,此时CT值计算后为0,则继续加入之后的日期2023-05-02,此时AD和RD同为2,若到第5天,CT大于0。则将2023-05-05作为第二个日期分割点CD。之后,AD继续递增,而RD将重置为1,以继续寻找下一个日期分割点CD。以此类推。若当前日期为2023-08-15,则该日期将作为最后一个日期分割点CD加入CP_list
再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。
在具体实施中,价值数据主题的低价值范围描述的数据结构格式为:{数据主题名称1,[主题子表名称1,(字段名称1,热度区间1,HDV值1),(字段名称1,热度区间2,HDV值2),(字段名称2,热度区间3,HDV值3),[主题子表名称2,……]},{数据主题名称2,……},……。
低价值数据主题的评估后,通过从数据主题到主题子表、到字段、到时间等范围的逐步缩小、细化的评估分析策略,实现对低价值数据主题进行低价值范围描述;进而可以基于低价值范围描述评估某个字段的是否可以做删除处理。如当某一字段的热度值HDV持续为0时,则该字段数据可以进行删除处理,进而节约数据中台的存储空间。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.数据中台的低价值数据主题识别方法,其特征在于,包括:
根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;
基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数;如下式:
其中,tSAT为首次访问日期,tNAT为当前最近访问日期,tNOW为当前日期,NOB为访问数据字节数,NOL为访问数据行数;当tNAT与tNOW取值相同时,tNOW-tNAT取预设差值;
基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数;如下式:
其中,NT为数据主题下所有主题子表的数量,NOBm为该数据主题下所有主题子表的访问数据平均字节数,NOLm为该数据主题下所有主题子表的访问数据平均行数,NOBi为NT个主题子表中的第i个主题子表的访问数据字节数,NOLi为NT个主题子表中的第i个主题子表的访问数据行数;
基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数;如下式:
其中,Finit、Fmdf、Fdel、Fadd分别表示在tSAT到tNOW的时间区间里,主题子表首次生成字段数、修改字段数、删除字段数、增加字段数,DM为主题子表每次修改、删除或增加后保持不变的天数,n为修改、删除和增加的总次数中的第n次;Fmdf+Fdel+Fadd表示修改、删除、增加处理的字段数之和;
基于字段数变化以及主题子表数获取数据主题的更迭指数;如下式:
其中,Fmdfi、Fdeli、Faddi分别为第i个主题子表的修改字段数、删除字段数、增加字段数;
再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;如下式:
其中,OImax表示数据主题中最大的主题子表陈旧指数,OImin表示数据主题中最小的主题子表陈旧指数;
将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。
2.如权利要求1所述的数据中台的低价值数据主题识别方法,其特征在于,还包括对获取的低价值数据主题进行低价值范围描述;具体为,基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值;再以数据主题名、主题子表名、字段名、热度区间为4级划分的HDV值表示作为低价值数据主题的低价值范围描述。
3.如权利要求2所述的数据中台的低价值数据主题识别方法,其特征在于,所述基于访问时间间隔获取低价值主题清单中所有数据主题的主题子表中的每个分段区间的各字段的热度值,包括:
获取主题子表访问数据的热度分区,再基于热度分区获取区间内各字段的热度值,具体如下式:
其中,NOB_cm和NOL_cm代表当前区间中字段的平均访问数据字节数和平均访问数据行数;NOB_cpm和NOL_cpm代表所有区间中该字段的访问数据字节数和访问数据行数。
4.如权利要求3所述的数据中台的低价值数据主题识别方法,其特征在于,所述获取主题子表访问数据的热度分区,具体为:
a.设定日期游标数AD,初始值也为1,其中AD取值为1时,代表主题子表在访问记录上产生了访问数据字节数的第一天;设定RD代表划分出新热度区间的日期分割点CP之后,新热度区间的已访问天数;初始化当前最近分割点日期CD;当AD和RD都为1时,CD的日期值为同一天;并将第一天的前一天的日期,加入CP_list作为首个日期分割点CP;
b.获取划断指数CT,当划断指数CT大于0时,将日期游标数AD对应的日期作为新热度区间的日期分割点CP加入CP_list;
c.重复执行步骤b,直到CD的日期值之后的第RD天为当前系统日期,并将当前系统日期作为最后一个日期分割点CP加入CP_list;
d.将CP_list中相邻两个日期分割点CP的区间作为热度分区。
5.如权利要求4所述的数据中台的低价值数据主题识别方法,其特征在于,所述划断指数CT的获取如下式:
其中,NOBtoday代表由CD向后偏移RD-1天的日期中,主题子表的访问数据字节数;NOBlast_day代表以NOBtoday为日期基准,前一天的访问数据字节数;当AD为1时,访问数据字节数为0;和/>分别代表,从CD日期到RD天之后的时间区段中,该主题子表的访问数据字节数的平均值和中位数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311474333.3A CN117194907B (zh) | 2023-11-08 | 2023-11-08 | 数据中台的低价值数据主题识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311474333.3A CN117194907B (zh) | 2023-11-08 | 2023-11-08 | 数据中台的低价值数据主题识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117194907A CN117194907A (zh) | 2023-12-08 |
CN117194907B true CN117194907B (zh) | 2024-02-06 |
Family
ID=88989115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311474333.3A Active CN117194907B (zh) | 2023-11-08 | 2023-11-08 | 数据中台的低价值数据主题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194907B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421308B (zh) * | 2023-12-18 | 2024-04-02 | 国能(北京)商务网络有限公司 | 一种数据中台的数据重构方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008199A (zh) * | 2019-03-25 | 2019-07-12 | 华南理工大学 | 一种基于访问热度的数据迁移部署方法 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115589419A (zh) * | 2022-09-26 | 2023-01-10 | 上海乐普云智科技股份有限公司 | 一种监测数据分析系统 |
CN116860709A (zh) * | 2023-09-01 | 2023-10-10 | 国能(北京)商务网络有限公司 | 一种交易决策数据的共享使用方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018125893A1 (en) * | 2016-12-29 | 2018-07-05 | Becton, Dickinson And Company | Digital web-based education platform for delivering targeted and individualized training on medical condition management to users |
-
2023
- 2023-11-08 CN CN202311474333.3A patent/CN117194907B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008199A (zh) * | 2019-03-25 | 2019-07-12 | 华南理工大学 | 一种基于访问热度的数据迁移部署方法 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115589419A (zh) * | 2022-09-26 | 2023-01-10 | 上海乐普云智科技股份有限公司 | 一种监测数据分析系统 |
CN116860709A (zh) * | 2023-09-01 | 2023-10-10 | 国能(北京)商务网络有限公司 | 一种交易决策数据的共享使用方法 |
Non-Patent Citations (2)
Title |
---|
IoT and Big Data Technologies for Healthy Care;Shuihua Wang等;《IoT Care 2021》;全文 * |
基于共词分析法的学科主题演化研究方法的构建;唐果媛;;图书情报工作(23);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117194907A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468103B2 (en) | Relational modeler and renderer for non-relational data | |
US9063982B2 (en) | Dynamically associating different query execution strategies with selective portions of a database table | |
CN117194907B (zh) | 数据中台的低价值数据主题识别方法 | |
EP3131021A1 (en) | Hybrid data storage system and method and program for storing hybrid data | |
CN111506559B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
TWI738721B (zh) | 任務調度方法和裝置 | |
CN104182435A (zh) | 基于数据缺失标记的信息检索系统及方法 | |
CN110825733B (zh) | 一种面向多采样流的时间序列数据管理方法及系统 | |
CN110275889B (zh) | 一种适用于机器学习的特征处理方法及装置 | |
CN110019244A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
US20060074875A1 (en) | Method and apparatus for predicting relative selectivity of database query conditions using respective cardinalities associated with different subsets of database records | |
CN105045535B (zh) | 一种自动删除过期数据的方法和系统 | |
CN113901037A (zh) | 数据管理方法、装置及存储介质 | |
US8548980B2 (en) | Accelerating queries based on exact knowledge of specific rows satisfying local conditions | |
CN116611914A (zh) | 一种基于分组统计的薪资预测方法及设备 | |
CN115470223A (zh) | 一种基于两层时间标识的数据湖数据增量消费方法 | |
CN116126235A (zh) | 基于数据热度的分布式对象存储生命周期管理系统及方法 | |
KR20190010091A (ko) | 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법 | |
CN113220992A (zh) | 一种信息流内容推荐方法、系统及介质 | |
CN117421308B (zh) | 一种数据中台的数据重构方法 | |
CN117764455B (zh) | 一种数据的通用指标管理方法及系统 | |
CN117151902B (zh) | 一种大数据分析对drg及dip医保支付风险监控和预警的方法 | |
CN107908718A (zh) | 一种数据表管理方法及装置 | |
CN117520404A (zh) | 元数据接入方法、装置、电子设备及存储介质 | |
US20060224396A1 (en) | Data-processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |