CN116860564B - 一种云服务器数据管理方法及其数据管理装置 - Google Patents
一种云服务器数据管理方法及其数据管理装置 Download PDFInfo
- Publication number
- CN116860564B CN116860564B CN202311132457.3A CN202311132457A CN116860564B CN 116860564 B CN116860564 B CN 116860564B CN 202311132457 A CN202311132457 A CN 202311132457A CN 116860564 B CN116860564 B CN 116860564B
- Authority
- CN
- China
- Prior art keywords
- metadata
- cloud server
- storage node
- data management
- storage nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013523 data management Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 238000007726 management method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 16
- 238000004590 computer program Methods 0.000 description 7
- 230000003068 static effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及云服务器管理技术领域,为一种云服务器数据管理技术,具体涉及一种云服务器数据管理方法及其数据管理装置。通过对多个存储节点进行筛选得到目标存储节点,并基于目标存储节点对元数据进行文本特征提取以及文本特征编码映射得到对应的编码,并将编码存储至目标存储节点。通过本申请实施例提供的方法与装置能够实现对于云服务器中元数据的存储,提高了云服务系统的可用性。
Description
技术领域
本申请涉及云服务器管理技术领域,为一种云服务器数据管理技术,具体涉及一种云服务器数据管理方法及其数据管理装置。
背景技术
云计算是通过在计算机网络上的资源共享来形成一个连贯的、规模经济的实际应用,能够实现计算机网络所联系的计算资源的统一分配和共同利用。云计算在发展中便延展出一个新的概念——云存储,云存储最大的特点就是规模十分庞大,它需要强大的分布式文件系统作为底层支撑,并将集群应用技术、网格技术结合起来。云存储把大量类型不同的存储节点集合起来,通过应用软件让它们协同起来工作,对外提供数据存储的能力,共同处理业务访问请求。从本质上来说,云存储就是一个特殊的云计算系统,只不过它把数据存储和管理作为系统的核心。
云存储与普通存储系统相比,有很多明显的优势。首先,由于云存储中有大量的存储节点构成集群共同提供存储能力,所以它可以存储超大规模的数据量,这是普通存储系统所望尘莫及的。第二,云存储管理起来十分方便,因为云存储的容量可以随需求的改变而随意伸缩,理论上讲,甚至能进行无限扩展。第三,虚拟化。用户不需要知道云存储内部的结构,就可以对云存储进行便捷的访问,所以云存储系统对用户是透明的。第四,高可靠性。云存储中的数据都存有副本,并且具有很好的容错能力,系统如果出现故障,也能讯速的自动恢复,这就使云存储中的数据比本地存储具备了很高的可靠性。第五,量身订制的解决方案,云存储产品除了提供用户海量存储能力,还能满足企业针对自身系统的各种不同需求。
由于元数据在文件系统中是最主要的访问对象,所以必须研究更有效的机制,以保证系统的元数据服务具有高可用性。
发明内容
为了解决以上的技术问题,本申请提供一种云服务器数据管理方法及其数据管理装置,能够实现对于云服务器中对于元数据的存储与管理。
为了达到上述目的,本申请实施例采用的技术方案如下:
第一方面,提供一种云服务器数据管理方法,所述云服务器为分布式云系统,所述分布式云系统包括多个元数据存储节点,所述方法应用于多个所述元数据存储节点,所述方法包括:接收来自用户端的请求,在多个所述元数据存储节点筛选出主存储节点以及多个跟随存储节点,并基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;将所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;将所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
进一步的,所述主存储节点通过随机选举算法进行筛选,并且在所述主存储节点与多个所述跟随存储节点上设置有监控进程,所述监控进程用于对所述主存储节点和多个跟随存储节点的资源信息管理。
进一步的,所述基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,包括:基于所述主存储节点中的监控进程获取所述主存储节点的资源信息,将所述资源信息与所述元数据序列所对应的数据资源进行比较,当所述资源信息大于所述元数据序列所对应的数据资源时,确定所述主存储节点为目标存储节点;当所述资源信息小于所述元数据序列所对应的数据资源时,筛选多个所述跟随存储节点并通过随机选举算法进行筛选目标存储节点。
进一步的,所述将所述元数据序列进行标准化截断为多个元数据段,包括:对所述元数据序列进行标准化截断为多个元数据段,并在多个所述元数据段的段首和段尾分别插入第一标签和第二标签,得到更新后的多个待处理元数据段。
进一步的,所述对多个所述元数据段进行特征提取得到对应的文本特征,包括:将多个所述元数据段输入至特征提取模型中得到词向量矩阵,所述特征提取模型包括输入层以及Transformer层,所述输入层包括三个接收头,分别为单词嵌入头、语句索引嵌入头和位置索引嵌入头。
进一步的,所述将所述文本特征经过编码映射得到对应的编码,包括将所述词向量矩阵输入至神经网络中,通过所述神经网络中的卷积核对所述词向量矩阵进行卷积处理,获取所述元数据段的语义信息,并将所述语义信息通过编码层生成对应的编码。
进一步的,在对所述词向量矩阵进行卷积处理后得到特征矩阵,并通过所述神经网络中的多个池化层对所述特征矩阵进行缩小处理,并将多个所述池化层处理后的输出结果进行拼接得到所述元数据段的语义信息。
进一步的,所述编码层基于哈希函数构建,将所述语义信息的数值进行处理得到连续值,在通过分段函数将所述连续值进行转化为对应的离散值,所述连续值取值范围为[0,1]。
进一步的,所述卷积核的大小为(3,4,5)。
第二方面,提供一种云服务器数据管理装置,所述云服务器为分布式云系统,所述分布式云系统包括多个元数据存储节点,所述装置应用于多个所述元数据存储节点,所述装置包括:存储节点筛选模块,用于在多个存储节点中筛选出目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;特征提取模块,用于对所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;编码模块,用于对所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
第三方面,提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的方法。
本申请实施例提供的技术方案中,通过对多个存储节点进行筛选得到目标存储节点,并基于目标存储节点对元数据进行文本特征提取以及文本特征编码映射得到对应的编码,并将编码存储至目标存储节点。通过本申请实施例提供的方法与装置能够实现对于云服务器中元数据的存储,提高了云服务系统的可用性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中示例数字在附图的各个视图中代表相似的机构。
图1是本申请实施例提供的云服务器数据管理方法流程图;
图2是本申请实施例提供的云服务器数据管理装置结构图;
图3是本申请实施例提供的云服务器数据管理设备结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本申请。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本申请的方面。
本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
(1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
(2)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
本申请实施例提供的云服务器数据管理方法以及装置应用于云服务器,其中云服务器为分布式云系统,其中在分布式云系统重包括多个元数据存储节点。
在分布式云系统中,元数据管理的重要性主要有以下两点:
第一,元数据是最重要并且最经常被访问的系统数据。客户端在读写云存储系统中的文件时,首先要查询是否有对该文件的读写权限,还要访问一些文件相关属性信息,而这些信息包含在元数据中,所以必须先访问元数据后,才能访问文件数据。如果不能正确的定位元数据,就无法保证文件数据的正常访问。所以系统中元数据的可靠性和正确性必须得到保证。
第二,元数据的访问性能与整个云存储系统的性能息息相关,在云存储系统中,元数据常常被频繁访问,而元数据本身往往非常小,当客户大量访问云存储中的小文件时,就会造成系统性能瓶颈。
分布式元数据管理模型需要考虑如何合理地将元数据分布在分布式云系统上,并维持云服务器的局部性与负载能力的平衡。目前主流的分布式元数据管理方案包括基于哈希映射的映射方案、静态子树分割和动态子树分割。其中静态子树分割管理方案就开始被使用,这种静态分割文件树的元数据管理方案在早期带来了非常好的元数据局部性表现。在现有技术中提出一种支持Quadrics 的并行文件系统 PVFS2,大幅提升了元数据文件操作性能。在Ceph文件系统中采用了动态子树分割管理方案,动态对高负载服务器中的数据进行迁移,在维持数据局部性的同时大幅度提升了元数据服务器的负载能力。随着大数据时代的到来,针对基于哈希映射的管理方案的研究越来越多。在现有技术中还有针对于CalvinFS文件系统中通过一致性哈希算法简化对元数据的管理,提升了元数据操作的性能瓶颈和系统的可扩展性。在现有技术中,还通过结合一致性哈希和位置保持哈希为元数据文件构建管理方案,使元数据保持良好可靠性的同时取得不错的负载均衡能力。以及通过现将元数据树投影到线性空间中再通过局部敏感哈希映射,有效地提升了哈希映射模式下元数据的局部性。以及一种动态哈希函数将元数据散列到哈希空间中,提升了小文件元数据的处理能力。
但在以上的现有技术中元数据存储方法中,仍多使用数据无关的哈希方案,以文件路径进行映射,以此获得的哈希编码对文件本身缺乏有效的表达。
针对于以上的背景信息,本申请实施例提供一种云服务器数据管理方法,此方法应用于多个元数据存储节点,具体包括以下方法:
步骤S110.接收来自用户端的请求,在多个所述元数据存储节点筛选出主存储节点以及多个跟随存储节点,并基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理。
在本申请实施例中,针对于分布式云系统包括多个元数据存储节点,在进行数据管理过程中,需要对多个元数据存储节点中进行筛选得到一个目标存储节点,其中针对于目标存储节点的筛选通过随机选举算法进行获得。其中目标存储节点是分布式云系统中的主节点,由业务网转发的所有用户请求均由目标存储节点负责。
在本申请实施例中,针对于目标存储节点还需要维持与多个跟随存储节点的心跳,从而实时监测跟随存储节点的运作情况和向跟随存储节点通知自身的更新信息,如若目标存储节点宕机,则不会再发心跳包给跟随存储节点,此时跟随存储节点才能发现目标存储节点挂了,系统会进行新一轮的目标存储节点选举实现崩溃恢复。
并且,在本申请实施例中针对于目标存储节点筛选过程中还需要对目标存储节点中的资源信息是否满足需求进行确定,具体的过程为当所述资源信息小于所述元数据序列所对应的数据资源时,筛选多个所述跟随存储节点并通过随机选举算法进行筛选目标存储节点。
步骤S120.将所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征。
在本申请实施例中,针对于步骤S110是对目标存储节点进行确定,针对于确定后的目标存储节点需要对接收到的元数据进行存储处理,针对于存储的逻辑为先对元数据进行特征提取,提取元数据对应的文本特征。
其中,针对于接收到的元数据的形式为元数据序列,在元数据序列中包含多个元数据,因为获取到的序列长度不定但在后续处理时针对于序列长度具有上限的限制,所以在对于元数据序列进行语义提取之前需要对元数据序列进行截断处理得到多个元数据段,并且在截断后的元数据序列即元数据段的前端和尾端进行标签插入处理,其中针对于插入的标签在首端为[CLS]标签和[SEP]标签。其中,针对于元数据段的最大长度为512。并且为了考虑到本文语料长度,本文提取多个元数据段的前5句语句统一为长度为n的输入语句。
在本申请实施例中,针对于对多个元数据段进行特征提取得到对应的文本特征,具体包括将多个元数据段输入至特征提取模型中得到词向量矩阵。
其中,针对于特征提取模型包括输入层以及Transformer层,所述输入层包括三个接收头,分别为单词嵌入头、语句索引嵌入头和位置索引嵌入头。其中,针对于最后4层Transformer的输出拼接作为文本的词向量表示,得到1个长度为4×768的词向量表示。对于输入文本,最终拼接生成一个形状为(5n,3072)的特征矩阵。经过处理后的第i个句向量,其中/>表示第n个元数据,通过特征提取模型编码得到第k层词向量矩阵表示为:/>,其中/>和/>分别表示对应第i个元数据的Segment Embeddings和Position Embeddings 表示。对于总层数为n的特征提取模型,第i个句向量表示为:
,针对于获取到的句向量表示,得到最终的特征表示矩阵W为:/>,其中/>表示矩阵的拼接操作。
步骤S130.将所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
针对于步骤S120中获取到的为文本特征,针对于步骤S130主要是将获取到的文本特征输入至神经网络,通过神经网络中的卷积核对文本特征进行卷积处理获取元数据段的语义信息,并将语义信息通过编码层处理得到对应的编码。
在本申请实施例中,针对于神经网络为Text-CNN结构,Text-CNN采用了多个不同窗口大小的卷积核去提取文本中的各种信息与句子间的关系,可以得到更加丰富的文本特征信息。
其中,在Text-CNN中,使用卷积核对特征表示矩阵T进行卷积运算,获取输入文本的语义信息。针对于本申请实施例中的Text-CNN的卷积操作可以表示为:;其中,/>表示文本特征表示矩阵T中第i行到第i+m-1行特征向量,经过激活函数的第i个神经元的输出可以表示为:/>,其中f表示为激活函数,b为偏置项。
池化层缩小卷积计算后特征矩阵表示大小,获取特征矩阵中的重要信息,提高后续计算速度。本申请实施例使用最大池化层方法对卷积计算后的特征矩阵进行计算,则池化操作可以表示为:。在本申请实施例中使用了3个大小不同的卷积核,那么最终得3种不同的池化层输出,本申请实施例中将3个不同的池化层输出结果拼接作为编码层的输入,那么经过卷积网络后最终的输出表示为:/>。
在本申请实施例中,对于语义信息进行编码转换通过编码层进行编码处理,其中针对于编码层为基于哈希函数的哈希层,哈希层将特征转变成哈希编码。与局部敏感哈希相同,哈希层模拟构造一个能够使得输入的向量表示在空间变换后仍能保持相似性的哈希函数,将输入值映射为每一位都是离散值{0,1}的哈希编码。
在本申请实施例中构建的哈希层中先将输入的数值处理成连续值,其取值在[0,1]中。然后通过分段函数将处理后的值转化为对应的离散值。
针对于最大池化处理后的特征通过全连接层进行处理得到输出为维,最终生成的哈希码共q位,因此将全连接层划分为q段,每段特征有/>维。每个/>维的分段向量/>转换为一个一维的编码/>,则/>;其中,/>为第i个分段的权重矩阵。经过转换的一维编码经过sigmoid函数平滑映射到[0,1]之间,则有:/>。
本申请实施例通过分段函数将输出的值转化为对应的离散值{0,1}。由于sigmoid函数输出的连续值取值在[0,1]之间,因此本文中分段函数划分阈值为0.5,其表示如下式:。
通过以上处理,本申请实施例通过哈希层映射为二进制哈希编码,并且通过汉明距离来衡量元数据哈希编码的相似度。
参阅图2,提供一种云服务器数据管理装置200,其中装置包括:
存储节点筛选模块210,用于在多个存储节点中筛选出目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;
特征提取模块220,用于对所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;
编码模块230,用于对所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
本申请实施例通过对多个存储节点进行筛选得到目标存储节点,并基于目标存储节点对元数据进行文本特征提取以及文本特征编码映射得到对应的编码,并将编码存储至目标存储节点。通过本申请实施例提供的方法与装置能够实现对于云服务器中元数据的存储,提高了云服务系统的可用性。
参阅图3,还可以将上述方法集成于提供的云服务器数据管理设备300中,针对于设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器301和存储器302,存储器302中可以存储有一个或一个以上存储应用程序或数据。其中,存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括云服务器数据管理设备300中的一系列计算机可执行指令。更进一步地,处理器301可以设置为与存储器302通信,云服务器数据管理设备300上执行存储器302中的一系列计算机可执行指令。云服务器数据管理设备300还可以包括一个或一个以上电源303,一个或一个以上有线或无线网络接口304,一个或一个以上输入/输出接口305,一个或一个以上键盘306等。
在一个具体的实施例中,云服务器数据管理设备300包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对云服务器数据管理设备300中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
接收来自用户端的请求,在多个所述元数据存储节点筛选出主存储节点以及多个跟随存储节点,并基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;
将所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;
将所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
下面对处理器的各个构成部件进行具体的介绍:
其中,在本实施例中,处理器是特定集成电路(application specificintegrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。
可选地,处理器可以通过运行或执行存储在存储器内的软件程序,以及调用存储在存储器内的数据,执行各种功能,例如执行上述图1所示的方法。
在具体的实现中,作为一种实施例,处理器可以包括一个或多个微处理器。
其中,所述存储器用于存储执行本申请方案的软件程序,并由处理器来控制执行,具体实现方式可以参考上述方法实施例,此处不再赘述。
可选地,存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以和处理器集成在一起,也可以独立存在,并通过处理器的接口电路与处理单元进行耦合,本申请实施例对此不作具体限定。
需要说明的是,在本实施例中示出的处理器的结构并不构成对该装置的限定,实际的装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,处理器的技术效果可以参考上述方法实施例所述的方法的技术效果,此处不再赘述。
应理解,在本申请实施例中的处理器可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种云服务器数据管理方法,其特征在于,所述云服务器为分布式云系统,所述分布式云系统包括多个元数据存储节点,所述方法应用于多个所述元数据存储节点,所述方法包括:
接收来自用户端的请求,在多个所述元数据存储节点筛选出主存储节点以及多个跟随存储节点,并基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;
将所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;
将所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
2.根据权利要求1所述的云服务器数据管理方法,其特征在于,所述主存储节点通过随机选举算法进行筛选,并且在所述主存储节点与多个所述跟随存储节点上设置有监控进程,所述监控进程用于对所述主存储节点和多个跟随存储节点的资源信息管理。
3.根据权利要求2所述的云服务器数据管理方法,其特征在于,所述基于接收到的元数据序列所对应的数据资源确定主存储节点是否为目标存储节点,包括:
基于所述主存储节点中的监控进程获取所述主存储节点的资源信息,将所述资源信息与所述元数据序列所对应的数据资源进行比较,当所述资源信息大于所述元数据序列所对应的数据资源时,确定所述主存储节点为目标存储节点;
当所述资源信息小于所述元数据序列所对应的数据资源时,筛选多个所述跟随存储节点并通过随机选举算法进行筛选目标存储节点。
4.根据权利要求3所述的云服务器数据管理方法,其特征在于,所述将所述元数据序列进行标准化截断为多个元数据段,包括:对所述元数据序列进行标准化截断为多个元数据段,并在多个所述元数据段的段首和段尾分别插入第一标签和第二标签,得到更新后的多个待处理元数据段。
5.根据权利要求4所述的云服务器数据管理方法,其特征在于,所述对多个所述元数据段进行特征提取得到对应的文本特征,包括:将多个所述元数据段输入至特征提取模型中得到词向量矩阵,所述特征提取模型包括输入层以及Transformer层,所述输入层包括三个接收头,分别为单词嵌入头、语句索引嵌入头和位置索引嵌入头。
6.根据权利要求5所述的云服务器数据管理方法,其特征在于,所述将所述文本特征经过编码映射得到对应的编码,包括将所述词向量矩阵输入至神经网络中,通过所述神经网络中的卷积核对所述词向量矩阵进行卷积处理,获取所述元数据段的语义信息,并将所述语义信息通过编码层生成对应的编码。
7.根据权利要求6所述的云服务器数据管理方法,其特征在于,在对所述词向量矩阵进行卷积处理后得到特征矩阵,并通过所述神经网络中的多个池化层对所述特征矩阵进行缩小处理,并将多个所述池化层处理后的输出结果进行拼接得到所述元数据段的语义信息。
8.根据权利要求7所述的云服务器数据管理方法,其特征在于,所述编码层基于哈希函数构建,将所述语义信息的数值进行处理得到连续值,在通过分段函数将所述连续值进行转化为对应的离散值,所述连续值取值范围为 [0,1]。
9.根据权利要求6所述的云服务器数据管理方法,其特征在于,所述卷积核的大小为(3,4,5)。
10.一种云服务器数据管理装置,其特征在于,所述云服务器为分布式云系统,所述分布式云系统包括多个元数据存储节点,所述装置应用于多个所述元数据存储节点,所述装置包括:
存储节点筛选模块,用于在多个存储节点中筛选出目标存储节点,并基于所述目标存储节点对所述元数据序列进行管理;
特征提取模块,用于对所述元数据序列进行标准化截断为多个元数据段,并对多个所述元数据段进行特征提取得到对应的文本特征;
编码模块,用于对所述文本特征经过编码映射得到对应的编码,并将所述编码进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132457.3A CN116860564B (zh) | 2023-09-05 | 2023-09-05 | 一种云服务器数据管理方法及其数据管理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132457.3A CN116860564B (zh) | 2023-09-05 | 2023-09-05 | 一种云服务器数据管理方法及其数据管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860564A CN116860564A (zh) | 2023-10-10 |
CN116860564B true CN116860564B (zh) | 2023-11-21 |
Family
ID=88230838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311132457.3A Active CN116860564B (zh) | 2023-09-05 | 2023-09-05 | 一种云服务器数据管理方法及其数据管理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860564B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523258A (zh) * | 2011-11-30 | 2012-06-27 | 广东电子工业研究院有限公司 | 一种面向云操作系统的数据存储架构及其负载均衡方法 |
CN102708165A (zh) * | 2012-04-26 | 2012-10-03 | 华为软件技术有限公司 | 分布式文件系统中的文件处理方法及装置 |
CN104580439A (zh) * | 2014-12-30 | 2015-04-29 | 创新科存储技术(深圳)有限公司 | 一种云存储系统中使数据均匀分布的方法 |
CN111177107A (zh) * | 2019-12-31 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 基于区块链的文件处理方法、装置、设备和存储介质 |
CN112699094A (zh) * | 2021-03-23 | 2021-04-23 | 中国信息通信研究院 | 文件存储方法、数据检索方法、相应装置及系统 |
CN113596094A (zh) * | 2021-06-29 | 2021-11-02 | 付腾瑶 | 一种基于云集群的负载均衡方法及装置 |
CN115203194A (zh) * | 2021-04-09 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 一种元数据信息的生成方法、相关装置、设备及存储介质 |
CN115587125A (zh) * | 2022-10-19 | 2023-01-10 | 中国电信股份有限公司 | 元数据管理方法及装置 |
WO2023030314A1 (zh) * | 2021-09-03 | 2023-03-09 | 北京有竹居网络技术有限公司 | 文本处理方法、模型训练方法、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10608784B2 (en) * | 2016-03-15 | 2020-03-31 | ClineHair Commercial Endeavors | Distributed storage system data management and security |
US10834188B2 (en) * | 2016-03-23 | 2020-11-10 | International Business Machines Corporation | Distribution of data in cloud storage based on policies maintained in metadata |
US10348829B2 (en) * | 2016-08-15 | 2019-07-09 | International Business Machines Corporation | Auto indexing with customizable metadata |
US10783270B2 (en) * | 2018-08-30 | 2020-09-22 | Netskope, Inc. | Methods and systems for securing and retrieving sensitive data using indexable databases |
US11893346B2 (en) * | 2021-05-05 | 2024-02-06 | International Business Machines Corporation | Transformer-based encoding incorporating metadata |
-
2023
- 2023-09-05 CN CN202311132457.3A patent/CN116860564B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523258A (zh) * | 2011-11-30 | 2012-06-27 | 广东电子工业研究院有限公司 | 一种面向云操作系统的数据存储架构及其负载均衡方法 |
CN102708165A (zh) * | 2012-04-26 | 2012-10-03 | 华为软件技术有限公司 | 分布式文件系统中的文件处理方法及装置 |
CN104580439A (zh) * | 2014-12-30 | 2015-04-29 | 创新科存储技术(深圳)有限公司 | 一种云存储系统中使数据均匀分布的方法 |
CN111177107A (zh) * | 2019-12-31 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 基于区块链的文件处理方法、装置、设备和存储介质 |
CN112699094A (zh) * | 2021-03-23 | 2021-04-23 | 中国信息通信研究院 | 文件存储方法、数据检索方法、相应装置及系统 |
CN115203194A (zh) * | 2021-04-09 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 一种元数据信息的生成方法、相关装置、设备及存储介质 |
CN113596094A (zh) * | 2021-06-29 | 2021-11-02 | 付腾瑶 | 一种基于云集群的负载均衡方法及装置 |
WO2023030314A1 (zh) * | 2021-09-03 | 2023-03-09 | 北京有竹居网络技术有限公司 | 文本处理方法、模型训练方法、设备及存储介质 |
CN115587125A (zh) * | 2022-10-19 | 2023-01-10 | 中国电信股份有限公司 | 元数据管理方法及装置 |
Non-Patent Citations (3)
Title |
---|
A Method of Metadata’s Organization and Management in Object-based Storage;Hou Zi-feng 等;《Computer Engineering》;全文 * |
分布式存储系统中元数据系统的研究与设计;苏勇;周敬利;姜明华;刘钢;;计算机工程与应用(第20期);全文 * |
基于SSD的云存储主服务器元数据管理研究;李东阳;刘鹏;田浪军;;计算机技术与发展(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116860564A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10585913B2 (en) | Apparatus and method for distributed query processing utilizing dynamically generated in-memory term maps | |
US11586629B2 (en) | Method and device of storing data object | |
US10831747B2 (en) | Multi stage aggregation using digest order after a first stage of aggregation | |
US8229968B2 (en) | Data caching for distributed execution computing | |
WO2021258848A1 (zh) | 数据字典生成方法、数据查询方法、装置、设备及介质 | |
JP2017037648A (ja) | ハイブリッドデータを保存するためのハイブリッドデータストレージシステム、方法及びプログラム | |
TW201220197A (en) | for improving the safety and reliability of data storage in a virtual machine based on cloud calculation and distributed storage environment | |
CN105930479A (zh) | 一种数据倾斜处理方法及装置 | |
US20220027349A1 (en) | Efficient indexed data structures for persistent memory | |
US10884980B2 (en) | Cognitive file and object management for distributed storage environments | |
WO2020093501A1 (zh) | 文件存储方法、删除方法、服务器及存储介质 | |
US11144538B2 (en) | Predictive database index modification | |
US20240126465A1 (en) | Data storage methods, apparatuses, devices, and storage media | |
Merceedi et al. | A comprehensive survey for hadoop distributed file system | |
EP4209922A1 (en) | Columnar caching in tiered storage | |
CN112970011B (zh) | 记录查询优化中的谱系 | |
CN113609090B (zh) | 数据存储方法及装置、计算机可读存储介质、电子设备 | |
US20170017574A1 (en) | Efficient cache warm up based on user requests | |
US11030714B2 (en) | Wide key hash table for a graphics processing unit | |
CN108052535B (zh) | 基于多处理器平台的视觉特征并行快速匹配方法和系统 | |
CN115525793A (zh) | 由计算机实现的方法、系统及存储介质 | |
US20120078929A1 (en) | Utilizing Metadata Generated During XML Creation to Enable Parallel XML Processing | |
CN116860564B (zh) | 一种云服务器数据管理方法及其数据管理装置 | |
CN114661249B (zh) | 数据存储方法、装置、计算机设备和存储介质 | |
US10762139B1 (en) | Method and system for managing a document search index |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |