CN115577148A - 批量数据处理方法、计算机设备及存储介质 - Google Patents
批量数据处理方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115577148A CN115577148A CN202211570291.9A CN202211570291A CN115577148A CN 115577148 A CN115577148 A CN 115577148A CN 202211570291 A CN202211570291 A CN 202211570291A CN 115577148 A CN115577148 A CN 115577148A
- Authority
- CN
- China
- Prior art keywords
- dsu
- slice
- group
- groups
- slice groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 92
- 239000012634 fragment Substances 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000002955 isolation Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000013467 fragmentation Methods 0.000 description 6
- 238000006062 fragmentation reaction Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/60—Methods or arrangements for performing computations using a digital non-denominational number representation, i.e. number representation without radix; Computing devices using combinations of denominational and non-denominational quantity representations, e.g. using difunction pulse trains, STEELE computers, phase computers
- G06F7/72—Methods or arrangements for performing computations using a digital non-denominational number representation, i.e. number representation without radix; Computing devices using combinations of denominational and non-denominational quantity representations, e.g. using difunction pulse trains, STEELE computers, phase computers using residue arithmetic
Abstract
本申请公开了一种批量数据处理方法、计算机设备及存储介质,批量数据处理方法包括:通过预设算法对用户数据进行处理,将用户数据均匀收敛进对应的分片组内;将多个分片组与DSU进行映射,以得到多个分片组与DSU的映射关系;基于映射关系,将多个分片组放入对应的DSU内。本申请可实现数据风险隔离,便于控制问题影响面,降低了数据处理复杂度。同时方便扩容、成本低。
Description
技术领域
本申请涉及金融技术领域,具体是涉及一种批量数据处理方法、计算机设备及存储介质。
背景技术
相关技术中,DSU(Channel Service Unit,通道服务单元)全量分量存储的map路由策略虽然简单,但存在部署成本高,资源使用率严重不足,开发成本较高的问题。
发明内容
有鉴于此,本申请提供一种批量数据处理方法、计算机设备及存储介质,以解决现有技术中部署成本高,资源使用率严重不足,开发成本较高的问题。
为了解决上述技术问题,本申请提供的第一个技术方案为:提供一种批量数据处理方法,包括:通过预设算法对用户数据进行处理,将所述用户数据均匀收敛进对应的分片组内;将多个所述分片组与DSU进行映射,以得到多个所述分片组与所述DSU的映射关系;基于所述映射关系,将多个所述分片组放入对应的DSU内。
其中,所述通过预设算法对用户数据进行处理,将所述用户数据收敛进对应的分片组内,包括:对所述用户数据进行取模或取余处理,得到第一余数;将所述第一余数根据预设规则均匀收敛进对应的所述分片组内。
其中,所述第一余数根据预设规则均匀收敛进对应的所述分片组内,包括:所述第一余数的数量与所述分片组的数量相等;且所述第一余数收敛进对应的所述分片组的位置一一对应;基于所述映射关系,将多个所述分片组放入对应的DSU内,包括:所述分片组的数量大于或者等于所述DSU的数量。
其中,所述将多个所述分片组与DSU进行映射,以得到多个所述分片组与所述DSU的映射关系,包括:通过所述分片组对所述DSU进行取模或取余,得到第二余数;基于所述第二余数,建立所述分片组与所述DSU之间的动态映射关系。
其中,所述将多个所述分片组与DSU进行映射之后,包括:响应于所述动态映射关系未找到,则对所述分片组进行自适应调整。
其中,所述对所述分片组进行自适应调整,包括:对所述分片组进行二次取模或取余操作,包括:将所述第二余数加上预设值,以将所述分片组与所述DSU进行对应;所述将多个所述分片组与DSU进行映射,包括:将所述分片组对应的DSU的命名规则中加上预设值,以建立所述DSU与所述分片组的所述动态映射关系。
其中,所述将所述用户数据均匀收敛进对应的分片组内之后,包括:响应于某一所述分片组内的数据达到预设数据量,则在所述DSU内增设新的分片组;所述基于所述映射关系,将多个所述分片组放入对应的DSU内之后,包括:响应于某一所述DSU内的数据达到预设数据量,则对对应的所述DSU进行扩容。
其中,所述对对应的所述DSU进行扩容,包括:增设一个新的DSU;将达到预设数据量的所述DSU内的所述分片组复制到所述新的DSU内;对所述新的DSU内的冗余数据进行清洗。
其中,所述增设一个新的DSU之后,包括:在所述新的DSU内设置新的分片组;所述将达到预设数据量的所述DSU内的所述分片组复制到所述新的DSU内,包括:建立达到预设数据量的所述DSU内的部分所述分片组与所述新的DSU之间的动态映射关系;基于所述动态映射关系,将达到预设数据量的所述DSU内的部分所述分片组重新映射到所述新的DSU内。
其中,所述基于所述映射关系,将多个所述分片组放入对应的DSU内之后,还包括:通过灰度和白名单方式,验证所述DSU的散列均匀度。
为了解决上述技术问题,本申请提供的第二个技术方案为:提供一种计算机设备,包括:处理器和存储器,存储器连接所述处理器,用于存储可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
为了解决上述技术问题,本申请提供的第三个技术方案为:提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本申请的有益效果:区别于现有技术,本申请的批量数据处理方法采用两级算法,首先通过预设算法对用户数据,例如客户号进行处理,使得用户数据均匀收敛进对应的分片组内;然后进一步通过建立多个分片组与DSU之间的映射关系,将多个分片组放入对应的DSU内。通过将用户数据放入DSU之前先放入分片内,实现对用户数据的风险隔离,防止当数据库容量高的时候,一个用户数据出现问题,所有的用户数据都出现问题的情况发生。本申请的分片组影响范围小,用户数据出现问题只影响一个分片,可以便于控制问题影响面。现有的DSU全量分量存储复杂度高,本申请分隔为小的用户数据分片之后,降低了复杂度。现有的DSU全量分量存储扩展很难准确评估扩容量,扩容也不方便,不能做到物尽其用,资源使用率严重不足。本申请的DSU只需要加分片就可以扩容,扩展方便。同时,DSU内加分片标准化、成本低、成本可控,不需要评估数据阈值到底是多少,只需要加一个相对可量化的分片即可,操作简单。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请提供的批量数据处理方法的流程框图;
图2是图1提供的步骤S1的子步骤的流程框图;
图3是图1提供的步骤S2的子步骤的流程框图;
图4是图3提供的步骤S23的子步骤的流程框图;
图5是本申请提供的基于映射关系,将多个分片组放入对应的DSU内的步骤S3之后的步骤的流程框图;
图6是图5提供的步骤S4的子步骤的流程框图;
图7是图6提供的步骤S42的子步骤的流程框图;
图8是本申请提供的分片组与DSU的映射过程及数据处理过程示意图;
图9是本申请提供的计算机设备的结构示意图;
图10是本申请提供的计算机可读存储介质的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、的特征可以明示或者隐含地包括至少一个该特征。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或者请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理个人信息种类等信息。
本申请发明人发现:在金融科技的基金应用领域,现有的DSU全量分量存储的map策略虽然简单,但存在部署成本高,资源使用率严重不足的问题,同时该DSU全量分量存储的开发成本也较高,需要构建一个额外的用户映射系统才能做到数据的有效映射。
为了解决上述问题,本申请提供一种批量数据处理方法、计算机设备及存储介质。本申请提供的批量数据处理方法通过两级算法对大批量的用户数据进行处理,其中第一级算法是对用户数据和具体的分片组通过预设算法进行路由因子收敛,从而将用户数据均匀地收敛进分片组中,操作简单方便,降低数据处理复杂度。第二级算法是建立分片组和DSU单元之间的映射关系,从而将多个分片组放入DSU中进行存储。需要说明的是,本申请中的分片组可以是一个分片,也可以是多个分片,具体可以根据用户数据量进行设置。通过两级算法对大批量的用户数据进行处理,可以解决海量用户数据的变化性,同时可以保证DSU单元化水平扩容的便捷性,减少资源浪费,同时开发成本较低。
请参阅图1和图2,图1是本申请提供的批量数据处理方法的流程框图,图2是图1提供的步骤S1的子步骤的流程框图。
本申请提供的批量数据处理方法,具体可以包括:
S1:通过预设算法对用户数据进行处理,将用户数据均匀收敛进对应的分片组内。
具体的,用户数据可以为客户号、分类号,也可以为与用户办理业务相关的可以对用户进行区分的顺序号等,此处不做限制。分片组是由分片构成的用于存储用户数据的数据单元,可以是在点对点网络中分割计算能力和存储工作负载的分区。通过预设算法,例如取模或者取余的方式,对客户号进行处理,从而达到将用户数据均匀地收敛入对应的分片组内,使得用户数据可以均匀分布,防止局部数据热点过高的问题。
在一实施例中,通过预设算法对用户数据进行处理,将用户数据收敛进对应的分片组内的步骤S1,包括:
S11:对用户数据进行取模或取余处理,得到第一余数。
具体的,如上,对具体的用户数据,例如客户号进行取模或者取余操作,得到第一余数。在本实施例中,可以通过将客户号除以预设的数据,例如1024,得到的第一余数均可以处于0-1023之间。按顺序将第一余数收敛到0-1023的分片组里面,后续无论再来多少个用户,都可以放置到0-1023的分片组里,从而对数据进行收敛和规整,降低复杂度。
S12:将第一余数根据预设规则均匀收敛进对应的分片组内。
具体的,预设规则可以为将得到的第一余数,每一个分别放入不同的分片组中,也可以是将多个第一余数放入同一个分片组中。例如,可以通过设置第一余数为0-5的客户号放入第一分片组,第一余数为6-10的客户号放入第二分片组,以此类推,将用户数据分别放入对应的分片组中。
在本实施例中,第一余数根据预设规则均匀收敛进对应的分片组内可以为:第一余数的数量与分片组的数量相等。且第一余数收敛进对应的分片组的位置一一对应;将多个分片组放入对应的DSU内,可以包括:分片组的数量大于或者等于DSU的数量。也就是说,每一个第一余数均对应放入一个分片组中,那么0-1023则需要放入1024个分片组中,即第一余数的数量(1024个)和分片组的数量(1024个)是相同的,且第一余数放入的相应分片组的位置也可以是一一对应的。一般来讲,采用多个分片组放入一个DSU内,因此分片组的数量大于或者等于DSU的数量。
S2:将多个分片组与DSU进行映射,以得到多个分片组与DSU的映射关系。
具体的,通过上述步骤将用户数据放入对应的分片组之后,可以进一步将分片组放入对应的DSU内,DSU指的是用于数字传输中的一种设备,它能够把DTE设备上的物理层接口适配到T1或者E1等通信设施上。DSU也负责信号计时等功能,它通常与CSU(信道业务单元)一起提及,称作CSU/DSU。本实施例中的DSU可以理解为是一种数据中心,或者数据库。通过将多个分片组与DSU进行映射,例如第一分片组或者第一分片组到第N分片组对应到具体的DSU内,从而得到分片组与DSU两者之间的映射关系。该映射关系可以根据具体的用户数据量和具体需求进行灵活设置,本申请对此不做限制。
请参阅图3和图4,图3是图1提供的步骤S2的子步骤的流程框图,图4是图3提供的步骤S23的子步骤的流程框图。
在一实施例中,将多个分片组与DSU进行映射,以得到多个分片组与DSU的映射关系的步骤S2,包括:
S21:通过分片组对DSU进行取模或取余,得到第二余数。
具体的,在进行分片组与DSU之间的进行关系之前,首先需要对分片组进行一定的处理,具体可以为:通过分片组对DSU进行取模或者取余的操作,得到第二余数。其中,第二余数具体是分片组的数量除以DSU的数量之后的余数。
S22:基于第二余数,建立分片组与DSU之间的动态映射关系。
具体的,得到第二余数之后,就可以建立分片组与DSU之间的映射关系。在本实施例中,分片组和DSU之间的映射关系是动态映射关系,也就是说,分片组和DSU之间的映射关系是动态调整的,不是固定不变的。例如,分片组和DSU之间的初始映射关系可以是,将第一到第二分片组的第二余数对应到第一个DSU中,第三到第四分片组的第二余数对应到第二个DSU中。但是在具体的实际数据处理中,如果发生某个DSU的用户数据热点过高的情况,就需要进一步进行调整。
将多个分片组与DSU进行映射的步骤S22之后,可以包括:
S23:响应于动态映射关系未找到,则对分片组进行自适应调整。
具体的,在建立分片组与DSU之间的动态映射关系时,可能还会存在一种情况,即找不到某一分片组和DSU之间的动态映射关系。一般出现这种情况,大多是由于在通过分片组对DSU进行取模或者取余之后,第二余数的位数少于或者多于预设的DSU命名,或者是第二余数与DSU的命名规则对应不上,因此可以采取补位或者补零的操作来对分片组进行自适应调整。
在一实施例中,对分片组进行自适应调整的步骤,包括:
S230:对分片组进行二次取模或取余操作,即对分片组进行第二次取模或者取余操作。具体包括:
S231:将第二余数加上预设值,以将分片组与DSU进行对应。
具体的,在第一次对分片组取模或者取余得到第二余数的基础上,加上一个数值,这个数值可以是一个或多个0,也可以是100等,具体根据需要进行设置。例如第一次对分片组取模之后得到的第二余数是8,此时通过补零操作,将8补为008,使其达到与DSU的命名相对应。再例如,第一次得到的第二余数8,加上预设值100进行调整,得到108,那么一方面可以将位数不足的第二余数调整到需要的位数,另一方面也可以防止数值首位为0带来的问题。
在一实施例中,将多个分片组与DSU进行映射,包括:
S232:将分片组对应的DSU的命名规则中加上预设值,以建立DSU与分片组的动态映射关系。
具体的,可以理解,当对分片组的第二余数加上100之后,分片组与DSU之间的映射关系会发生一些变化。例如,初始建立映射关系的映射规则为:第n个分片组的第二余数映射到第n个DSU中,其中分片组和DSU中的n的数值是相同的,如第8分片组对应第8个DSU。而当第8分片组的第二余数8加上100之后,初始的映射规则无法对应,如果要将分片组与DSU进行对应,还需要建立新的映射关系,否则分片组和DSU之间的映射关系将找不到,但是建立新的映射关系又增加了操作步骤,较为不便。因此,为了避免分片组和DSU之间的映射关系找不到的情况,在申请或者增设DSU时,可以将“+100”作为DSU的命名规则,即对每一个DSU的名称中均加上数值100,使得每一个分片组的第二余数和对应的DSU的数值重新相等,例如第108分片组对应第108个DSU,满足初始建立的映射规则:第n个分片组的第二余数映射到第n个DSU中,既能防止对部分第二余数加上100所造成的对应不上DSU的问题,又能避免重新建立新的映射关系的步骤,操作便捷,且不影响映射的准确度。
可以理解,当分片组与DSU为一对多的映射关系时,可以设置例如第0-4分片组的第二余数映射到第1个DSU中,第5-9分片组的第二余数映射到第2个DSU中,以此类推,直到最后的5个分片组对应到第n个DSU中,其中n为DSU的数量。本申请映射规则可以灵活设置,可预设、可调整,且可以根据DSU的忙碌和热点高低进行动态调整。
S3:基于映射关系,将多个分片组放入对应的DSU内。
具体的,可以理解,将分片组和DSU之间的动态映射关系建立完成无误之后,只需要将对应的分片组放入对应的DSU内即可。
请参阅图5至图8,图5是本申请提供的基于映射关系,将多个分片组放入对应的DSU内的步骤S3之后的步骤的流程框图,图6是图5提供的步骤S4的子步骤的流程框图,图7是图6提供的步骤S42的子步骤的流程框图,图8是本申请提供的分片组与DSU的映射过程及数据处理过程示意图。
在一实施例中,基于映射关系,将多个分片组放入对应的DSU内的步骤S3之后,可以包括:
S4:响应于某一DSU内的数据达到预设数据量,则对对应的DSU进行扩容。
具体的,预设数据量可以根据需要进行设置,在实际处理数据的过程中,为了节省开发成本,同时避免对资源的浪费,通常设置多个分片组对应一个DSU,也就是说,分片组与DSU为一对多的关系。例如银行的基金用户有4000万个,设置每200个万用户收敛进一个分片组,则需要20个分片组,然后再将20个分片组按照每2个或每4个放入一个DSU,也就是说,每2-4个分片组位于同一个DSU内,例如第二余数为0-2或0-4的都归入第1个DUS内。当某一DSU内的分片组热点过高或者达到预设的用户数据量时,就可以增设新的DSU对该DSU进行扩容,以分散DSU内的数据热点,提高数据处理速度。
可以,当某一分片组内的数据量饱和或者数据热点过高时,也可以设置新的分片组。
如图6所示,对对应的DSU进行扩容的步骤S4,包括:
S41:增设一个新的DSU。
具体的,可以理解,增设新的DSU之后,需要在新的DSU内设置新的分片组,因为本申请的数据处理方法中,每一个用户数据都收敛进具体的分片组内,不是直接放在DSU内的。例如,当第一分片组对应的第1个DSU内的分片组热点过高、第1个DSU过忙时,可以增设第n+1个DSU,将第一分片组的第二余数对应到第n+1个DSU中。其中n是DSU的初始设置数量,第n+1个DSU是新增的一个DSU,建立第一分片组与新的第n+1个DSU之间的映射关系,从而将第一分片组的用户数据迁移至第n+1个DSU中,也就是将第一个DSU的用户数据分流出去一部分,通过对分片组和DSU映射关系的动态调整,降低第一个DSU的用户数据热点。
S42:将达到预设数据量的DSU内的分片组复制到新的DSU内。
具体的,可以将第一分片组的用户数据迁移至新的DSU内,例如第n+1个DSU内,可以通过将第一DSU内的第一分片组的用户数据复制到第n+1个DSU内。具体可以将第一DSU内的第一分片组的用户数据全部复制到第n+1个DSU内,再通过清洗步骤将多余的数据清洗掉,也可以通过映射关系将一部分第一分组的用户数据迁移到第n+1个DSU内,本申请对此不做限制。
在一实施例中,如图7所示,将达到预设数据量的DSU内的分片组复制到新的DSU内的步骤S42,包括:
S421:建立达到预设数据量的DSU内的部分分片组与新的DSU之间的动态映射关系。
具体的,以第一分片组所在的DSU的用户数据达到预设数据量为例进行说明,建立第一分片组与新的第n+1个DSU之间的动态映射关系的方法与建立第一分片组与第一DSU之间的动态映射关系的方法相同。重新建立第一分片组与新的第n+1个DSU之间的动态映射关系,以对第一分片组和新的第n+1个DSU进行映射。
S422:基于动态映射关系,将达到预设数据量的DSU内的部分分片组重新映射到新的DSU内。
具体的,基于重新建立的第一分片组与新的第n+1个DSU之间的动态映射关系,将第一分片组重新映射到新的第n+1个DSU内。
S43:对新的DSU内的冗余数据进行清洗。
具体的,通过预设规则或者重新设置第一分片组与第n+1个DSU的映射关系,将新的第n+1个DSU内的冗余数据进行清洗,即去除与第一分片组无关的用户数据。
在一实施例中,如图5所示,基于映射关系,将多个分片组放入对应的DSU内之后,还可以包括:
S5:通过灰度和白名单方式,验证DSU的散列均匀度。
具体的,灰度和白名单验证用于验证用户数据是否可以均匀地收敛进对应的分片组内,分片组是否可以均匀地进入DSU,是否可以平滑过渡到数据状态,验证数据切分方案是否可行,是否能够实施。例如,将白名单用户收敛到特殊的分片组里面去,找一些用户数据去验证方案的可实施性、正确性。
在完成上述大批量数据的处理步骤之后,可以对数据进行均匀性的分布测试,如通过取样、观察和验证等方法。例如,第一步2000万个用户均匀地对应放到1024个分片组里,如何保证均匀是需要解决的问题,数据均匀之后热点和负载就平均,不会发生有的DSU特别忙,有的DSU特别闲的情况。第二步就是让分片组里的用户数据均匀起来,最好是每个分片组里的用户数据达到最均匀、最平衡的状态,也就是分片组内的用户数据量差值最小。
对数据进行均匀性的分布测试过程具体包括:
后四位的散列均匀度,后五位的散列均匀度,后六位的散列均匀度,后七位的散列均匀度,后八位的散列均匀度,后十位的散列均匀度,Murmur算法的散列均匀度。
经过比较和筛选,本申请选择了后十位的散列。选择的原因为:经过归纳总结发现,位数越高,散列越均匀。
Murmur算法散列也均匀,但是因为算法比较复杂,维护成本较高和可读性较低。所以最终进行了后十位的散列选型。
本申请数据处理方法具有扩容灵活性、隔离性以及易操作性,由于本方法因为中间多了一层从分片组到DSU单元的映射步骤,因此可以任意进行DSU单元扩容。具体来讲,本申请通过将用户数据放入DSU之前先放入分片组内,实现对用户数据的风险隔离,防止数据库容量高的时候,一个用户数据出现问题,所有的用户数据都出现问题的情况发生。本申请的分片组影响范围小,用户数据出现问题只影响一个分片,可以便于控制问题影响面。现有的DSU全量分量存储复杂度高,本申请分隔为小的用户数据分片之后,降低了复杂度。现有的DSU全量分量存储扩展很难准确评估扩容量,扩容也不方便,不能做到物尽其用,资源使用率严重不足。本申请的DSU只需要加分片就可以扩容,扩展方便。同时,DSU内加分片标准化、成本低、成本可控,不需要评估数据阈值到底是多少,只需要加一个相对可量化的分片即可,操作简单。
本申请公开的批量数据处理方法包括:通过预设算法对用户数据进行处理,将用户数据均匀收敛进对应的分片组内;将多个分片组与DSU进行映射,以得到多个分片组与DSU的映射关系;基于映射关系,将多个分片组放入对应的DSU内。本申请可实现数据风险隔离,便于控制问题影响面,降低了数据处理复杂度。同时方便扩容、成本低。
请参阅图9,图9是本申请提供的计算机设备的结构示意图。
计算机设备200,具体可以包括处理器210和存储器220。存储器220耦接处理器210。
处理器210用于控制计算机设备200的操作,处理器210还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器210可能是一种集成电路芯片,具有信号的处理能力。处理器210还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器210也可以是任何常规的处理器等。
存储器220用于存储计算机程序,可以是RAM,也可以是ROM,或者其他类型的存储设备。具体的,存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器中的非暂态的计算机可读存储介质用于存储至少一条程序代码。
处理器210用于执行存储器220中存储的计算机程序以实现本申请批量数据处理方法的实施例描述的批量数据处理方法。
在一些实施方式中,计算机设备200还可以包括:外围设备接口230和至少一个外围设备。处理器210、存储器220和外围设备接口230之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口230相连。具体的,外围设备包括:射频电路240、显示屏250、音频电路260和电源270中的至少一种。
外围设备接口230可被用于将I/O(Input/output,输入/输出)相关的至少一个外围设备连接到处理器210和存储器220。在一些实施例中,处理器210、存储器220和外围设备接口230被集成在同一芯片或电路板上;在一些其他实施方式中,处理器210、存储器220和外围设备接口230中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路240用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路240通过电磁信号与通信网络以及其他通信设备进行通信,射频电路240则是计算机设备200的通信电路。射频电路240将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路240包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路240可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路240还可以包括NFC(Near FieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏250用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏250是触摸显示屏时,显示屏250还具有采集在显示屏250的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器210进行处理。此时,显示屏250还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施方式中,显示屏250可以为一个,设置在计算机设备200的前面板;在另一些实施方式中,显示屏250可以为至少两个,分别设置在计算机设备200的不同表面或呈折叠设计;在另一些实施方式中,显示屏250可以是柔性显示屏,设置在计算机设备200的弯曲表面上或折叠面上。甚至,显示屏250还可以设置成非矩形的不规则图形,也即异形屏。显示屏250可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
音频电路260可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器210进行处理,或者输入至射频电路240以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器210或射频电路240的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路260还可以包括耳机插孔。
电源270用于为计算机设备200中的各个组件进行供电。电源270可以是交流电、直流电、一次性电池或可充电电池。当电源270包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
关于本申请计算机设备200的实施例中各功能模块或者部件功能和执行过程的详细阐述,可以参照上述本申请批量数据处理方法实施例中的阐述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的计算机设备200和批量数据处理方法,可以通过其它的方式实现。例如,以上所描述的计算机设备200的各实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参阅图10,图10是本申请提供的计算机可读存储介质的结构示意框图。
参阅图10,上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质300中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令/计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等计算机设备。
关于计算机可读存储介质300中的程序数据的执行过程的阐述可以参照上述本申请批量数据处理方法的实施例中阐述,在此不再赘述。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种批量数据处理方法,其特征在于,包括:
通过预设算法对用户数据进行处理,将所述用户数据均匀收敛进对应的分片组内;
将多个所述分片组与DSU进行映射,以得到多个所述分片组与所述DSU的映射关系;
基于所述映射关系,将多个所述分片组放入对应的DSU内。
2.根据权利要求1所述的方法,其特征在于,
所述通过预设算法对用户数据进行处理,将所述用户数据收敛进对应的分片组内,包括:
对所述用户数据进行取模或取余处理,得到第一余数;
将所述第一余数根据预设规则均匀收敛进对应的所述分片组内。
3.根据权利要求2所述的方法,其特征在于,
所述第一余数根据预设规则均匀收敛进对应的所述分片组内,包括:
所述第一余数的数量与所述分片组的数量相等;且所述第一余数收敛进对应的所述分片组的位置一一对应;
基于所述映射关系,将多个所述分片组放入对应的DSU内,包括:所述分片组的数量大于或者等于所述DSU的数量。
4.根据权利要求1所述的方法,其特征在于,
所述将多个所述分片组与DSU进行映射,以得到多个所述分片组与所述DSU的映射关系,包括:
通过所述分片组对所述DSU进行取模或取余,得到第二余数;
基于所述第二余数,建立所述分片组与所述DSU之间的动态映射关系。
5.根据权利要求4所述的方法,其特征在于,
所述将多个所述分片组与DSU进行映射之后,包括:
响应于所述动态映射关系未找到,则对所述分片组进行自适应调整。
6.根据权利要求5所述的方法,其特征在于,
所述对所述分片组进行自适应调整,包括:
对所述分片组进行二次取模或取余操作,包括:
将所述第二余数加上预设值,以将所述分片组与所述DSU进行对应;
所述将多个所述分片组与DSU进行映射,包括:
将所述分片组对应的DSU的命名规则中加上预设值,以建立所述DSU与所述分片组的所述动态映射关系。
7.根据权利要求1所述的方法,其特征在于,
所述将所述用户数据均匀收敛进对应的分片组内之后,包括:
响应于某一所述分片组内的数据达到预设数据量,则在所述DSU内增设新的分片组;
所述基于所述映射关系,将多个所述分片组放入对应的DSU内之后,包括:
响应于某一所述DSU内的数据达到预设数据量,则对对应的所述DSU进行扩容。
8.根据权利要求7所述的方法,其特征在于,
所述对对应的所述DSU进行扩容,包括:
增设一个新的DSU;
将达到预设数据量的所述DSU内的所述分片组复制到所述新的DSU内;
对所述新的DSU内的冗余数据进行清洗。
9.根据权利要求8所述的方法,其特征在于,
所述增设一个新的DSU之后,包括:
在所述新的DSU内设置新的分片组;
所述将达到预设数据量的所述DSU内的所述分片组复制到所述新的DSU内,包括:
建立达到预设数据量的所述DSU内的部分所述分片组与所述新的DSU之间的动态映射关系;
基于所述动态映射关系,将达到预设数据量的所述DSU内的部分所述分片组重新映射到所述新的DSU内。
10.根据权利要求7所述的方法,其特征在于,
所述基于所述映射关系,将多个所述分片组放入对应的DSU内之后,还包括:
通过灰度和白名单方式,验证所述DSU的散列均匀度。
11.一种计算机设备,其特征在于,包括:
处理器;
存储器,连接所述处理器,用于存储可在所述处理器上运行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211570291.9A CN115577148A (zh) | 2022-12-08 | 2022-12-08 | 批量数据处理方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211570291.9A CN115577148A (zh) | 2022-12-08 | 2022-12-08 | 批量数据处理方法、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115577148A true CN115577148A (zh) | 2023-01-06 |
Family
ID=84590587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211570291.9A Pending CN115577148A (zh) | 2022-12-08 | 2022-12-08 | 批量数据处理方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577148A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050204186A1 (en) * | 2004-03-09 | 2005-09-15 | Rothman Michael A. | System and method to implement a rollback mechanism for a data storage unit |
CN108197296A (zh) * | 2018-01-23 | 2018-06-22 | 马上消费金融股份有限公司 | 基于Elasticsearch索引的数据存储方法 |
CN110019125A (zh) * | 2017-11-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 数据库管理的方法和装置 |
CN113342780A (zh) * | 2021-06-28 | 2021-09-03 | 深圳壹账通智能科技有限公司 | Dsu数据的迁移方法、装置和计算机设备 |
CN113347094A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 分片路由方法、装置、设备及存储介质 |
-
2022
- 2022-12-08 CN CN202211570291.9A patent/CN115577148A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050204186A1 (en) * | 2004-03-09 | 2005-09-15 | Rothman Michael A. | System and method to implement a rollback mechanism for a data storage unit |
CN110019125A (zh) * | 2017-11-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 数据库管理的方法和装置 |
CN108197296A (zh) * | 2018-01-23 | 2018-06-22 | 马上消费金融股份有限公司 | 基于Elasticsearch索引的数据存储方法 |
CN113347094A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 分片路由方法、装置、设备及存储介质 |
CN113342780A (zh) * | 2021-06-28 | 2021-09-03 | 深圳壹账通智能科技有限公司 | Dsu数据的迁移方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7271663B2 (ja) | 上りリンク伝送方法、ユーザ機器及びネットワーク側機器 | |
JP2021521735A (ja) | Dciの伝送方法、端末及び基地局 | |
US11800431B2 (en) | Access control method, message broadcasting method, and related devices | |
WO2018049934A1 (zh) | 一种数据迁移的方法及终端 | |
WO2021093754A1 (zh) | 上行资源确定方法、指示方法、终端和网络设备 | |
US20240147305A1 (en) | Data processing method, information configuration method, terminal, and network device | |
CN106502833B (zh) | 数据备份方法及装置 | |
CN110784844B (zh) | 信号传输方法和通信设备 | |
CN112235082A (zh) | 通信信息的传输方法、装置、设备及存储介质 | |
JP7114747B2 (ja) | ランダムアクセスリソースの選択方法及び端末装置 | |
CN111465119B (zh) | 数据发送方法、信息配置方法、终端及网络设备 | |
CN115577148A (zh) | 批量数据处理方法、计算机设备及存储介质 | |
CN112351441A (zh) | 一种数据处理方法、装置及电子设备 | |
US20220272666A1 (en) | Feedback information transmission method and apparatus, device, and medium | |
JP7379714B2 (ja) | マルチキャストサービス処理方法、マルチキャストサービス構成方法、端末及びネットワーク機器 | |
US20220053485A1 (en) | Configuration information obtaining and sending method, terminal, and network side device | |
JP7293332B2 (ja) | モニタリング結果の決定方法及び端末 | |
CN111132233B (zh) | 一种分离承载的控制方法及相关设备 | |
CN110636642B (zh) | 无线资源控制消息的生效方法、装置、设备和存储介质 | |
CN112367428A (zh) | 电量的显示方法、系统、存储介质及移动终端 | |
CN109660323B (zh) | 一种配置csi-rs的时域位置的方法、基站和用户终端 | |
CN111475141A (zh) | 榜单的生成方法、装置及电子设备 | |
CN111601383A (zh) | 一种资源分配方法、终端和网络设备 | |
CN113014998B (zh) | 音频输出方法、装置、电视机以及计算机可读存储介质 | |
CN113127557B (zh) | 基于redis性能的数据持久化方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230106 |
|
RJ01 | Rejection of invention patent application after publication |