CN117010010A - 一种基于区块链的多服务器协作高安全度存储方法 - Google Patents
一种基于区块链的多服务器协作高安全度存储方法 Download PDFInfo
- Publication number
- CN117010010A CN117010010A CN202310641176.4A CN202310641176A CN117010010A CN 117010010 A CN117010010 A CN 117010010A CN 202310641176 A CN202310641176 A CN 202310641176A CN 117010010 A CN117010010 A CN 117010010A
- Authority
- CN
- China
- Prior art keywords
- segment
- block
- text
- text segment
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 97
- 239000011159 matrix material Substances 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims 1
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了一种基于区块链的多服务器协作高安全度存储方法,获取区块链中服务器的数量作为节点数,根据节点数对文本数据进行分段得到若干的文本段,根据各文本段计算得到语义协作量和区块协作量,对各文本段进行协作分割得到文段分割块,进行安全协作存储,有利于在多个服务器之间进行数据分布式存储和协作,提高了存储效率和安全性。
Description
技术领域
本发明属于分布式数据存储领域,具体涉及一种基于区块链的多服务器协作高安全度存储方法。
背景技术
数据存储技术已经发展到了一个相当成熟的阶段,但是在实现高安全度存储方面仍然存在一些挑战和不足。传统的数据存储方法通常需要依靠中心化的服务器进行管理和维护,这种方式容易受到黑客攻击、自然灾害等外部因素的影响,从而导致数据丢失或泄露,缺乏高安全度保障。区块链技术具有去中心化、不可篡改、高安全度等特点,然而区块链技术的性能仍然较低,交易速度较慢,因此无法满足大规模数据存储和传输的需求区块链技术的普及度还比较低,尚未成为主流技术,因此在实际场景中应用起来存在一定的难度。区块链的存储成本也相对较高,在某些场景下并不划算。公开号为CN111563128B的专利文献中尽管提供了一种基于区块链的医疗信息安全存储协作系统,可以在一定程度上借助上链单元将对应信息的地址值整合为地址信息,并将地址信息借助链上存储模块,对其进行上链存储,但是,对于存储的文本信息中语义上进行重要部分的识别与提取仍存在不足。
发明内容
本发明的目的在于提出一种基于区块链的多服务器协作高安全度存储方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明提供了一种基于区块链的多服务器协作高安全度存储方法,获取区块链中服务器的数量作为节点数,根据节点数对文本数据进行分段得到若干的文本段,根据各文本段计算得到语义协作量和区块协作量,对各文本段进行协作分割得到文段分割块,进行安全协作存储。
为了实现上述目的,根据本发明的一方面,提供一种基于区块链的多服务器协作高安全度存储方法,所述方法包括以下步骤:
获取区块链中服务器的数量作为节点数;
根据节点数,对文本数据进行分段,得到若干的文本段;
根据各文本段,计算得到语义协作量和区块协作量;
根据语义协作量和区块协作量,对各文本段进行协作分割,得到文段分割块;
对文段分割块,进行存储。
进一步地,所述区块链中存在多个不同的服务器,以各服务器为节点,从而获取区块链中服务器的数量作为节点数。
进一步地,根据节点数,对文本数据进行分段,得到若干的文本段的方法为:
所述文本数据为一个字符串,将所述文本数据分成与节点数相同份的文本段。
进一步地,根据各文本段,计算得到区块协作量的方法中:
进行张量区块协作处理,得到区块协作量,具体可为:
对各文本段以i为序号进行排序,记各文本段的数量为n,节点数等于各文本段的数量同为n,i属于1至n;
将每份的文本段分别与各文本段之间进行对照,并计算每份的文本段分别与各文本段之间的语义相似度,得到语义相似度矩阵,所述语义相似度矩阵为对称矩阵:所述语义相似度矩阵为n行n列的矩阵,所述语义相似度矩阵中行序号的排列也是以序号i属于1至n,语义相似度矩阵中第i行的n个维度数值对应序号为i的文本段分别与各文本段之间的语义相似度,而所述语义相似度矩阵中列序号的排列也是以序号i属于1至n,语义相似度矩阵中第i列的n个维度数值也对应了序号为i的文本段分别与各文本段之间的语义相似度,
若记所述语义相似度矩阵为Smat,则为了防止混淆,记行的序号依旧为i∈[1,n],但是对于列的序号则在i加上标以i`以示区分,i`还是属于[1,n],同时这样的好处是在标识上使得i和i`两变量之间具体数值的变化可以相互独立不影响,
计算所述语义相似度矩阵的特征向量为语义协作量,语义协作量有n个维度的数值分别对应n个文本段,其中序号为i的维度的数值对应序号为i的文本段;
所述区块协作度为两份文本段之间的语义相似度分别对于所在语义相似度矩阵中分别对于行最大值与列最大值的概率比值,Smat中第i行第i`列的数值为Smat(i,i`),可优选地,对于所述Smat(i,i`),以第i行中各数值的算术平均值为row(i)avg,以第i`列中最小的数值为col(i`)min,计算所述Smat(i,i`)的区块协作度bcon(i,i`),区块协作度的计算公式为:
其中,函数exp可为以自然常数为底的指数函数;
构建区块协作矩阵,所述区块协作矩阵与所述语义相似度矩阵的行列大小及行列序号保持一致,所述区块协作矩阵中行列位置的元素的数值为所述语义相似度矩阵中相同行列位置的元素对应的区块协作度;
计算所述区块协作矩阵的特征向量为区块协作量,语义协作量有n个维度的数值分别对应n个文本段,其中序号为i的维度的数值对应序号为i的文本段;
其中,Smat(i,i`)-row(i)avg反映了当前位置的语义相似度距离该个文本段对比其他各文本段的平均概率分布水平的距离,Smat(i,i`)-col(i`)min反映了当前位置的语义相似度距离该个文本段对比其他各文本段的最低概率分布水平即语义最不相似文本段的距离,指数化的函数有利于防止数据的丢失同时提升数据特征的提取精度,|row(i)avg-col(i`)min|反映了该个文本段对比其他各文本段的平均概率分布水平与语义最不相似文本段的距离,对其相乘可以进行数值的线性结合有效地对各文本段中构成文本的主体部分进行识别,且由于节点数等于各文本段的数量这一数量特征一致贯穿于各步骤的数值计算中,反映在语义协作矩阵与区块协作矩阵以及其特征向量的维度数目中,有利于对应后续区块链的节点对数据的分担存储;
其中,所述特征向量为单位化的特征向量,单位化的特征向量中各维度的数值处于0~1,可以当作比例使用于文本的抽取。
进一步地,根据区块协作量,对各文本段进行协作分割,得到文段分割块,具体为:
分别对各文本段进行分词,得到各文本段的分词序列;
获取语义协作量中对应各文本段的维度的数值作为该文本段的语义协作比率,
获取区块协作量中对应各文本段的维度的数值作为该文本段的区块协作比率;
从各分词序列中,抽取出语义协作比率同等比例的分词作为该分词序列的第一文段分割块,并将该分词序列中除所述第一文段分割块外的分词作为余一文段分割块;
从各分词序列中,抽取出区块协作比率同等比例的分词作为该分词序列的第二文段分割块,并将该分词序列中除所述第二文段分割块外的分词作为余二文段分割块;
其中,从各分词序列中抽取出分词的方法可为计算TF-IDF,然后根据TF-IDF排序,从中抽取出按TF-IDF排序后相应比率的分词;
所述文段分割块的种类包括各分词序列的第一文段分割块、余一文段分割块、第二文段分割块和余二文段分割块;
这是因为网络的推荐系统需要整个网络社交平台上的海量数据,存储海量的数据往往容易丢失其中某些部分,造成推荐的偏差(参考文献:[1]Susan S,Kumar A.Thebalancing trick:Optimized sampling of imbalanced datasets—A brief survey ofthe recent State of the Art[J].Engineering Reports,2020;[2]Dulhanty,Chris.Issues in Computer Vision Data Collection:Bias,Consent,and LabelTaxonomy.2020.),而由于如TF-IDF等的抽出的算法对一个分词序列进行排序的过程中,会将出现频率高于词频平均概率的常用词或语气词、或者出现频率低于词频平均概率的生僻词或专业术语等安排在排序后序列的首端或末端,但是对于排在中间部分的分词却是缺乏数据特征上的反应的(参考文献:[3]Yahav I,Shehory O,Schwartz D.Comments MiningWith TF-IDF:The Inherent Bias and Its Removal[J].IEEE Transactions onKnowledge and Data Engineering,2018,PP(99):1-1;[4]Zhang R H,Liu Q,Fan A X,etal.Minimize Exposure Bias of Seq2Seq Models in Joint Entity and RelationExtraction[J].2020.),而这些排在中间部分的分词是构成文本的主体部分,在分布式存储中很容易在同一个节点上进行丢失,例如第一文段分割块和余二文段分割块虽然是从同一个分词序列上进行文本抽取出来的,但是由于语义协作比率和区块协作比率的差异会产生重叠的部分,尽管一个节点大概率存在数据的损失,当第一文段分割块和余二文段分割块、第二文段分割块和余一文段分割块分别存储于不同的区块链服务器的节点中,通过本发明所述方法则可以有效地避免同一个节点中构成文本的主体部分数据的损失,减少了数据特征工程的偏差。
进一步地,对文段分割块,进行存储的方法中具体包括一种安全协作存储约束,所述安全协作存储约束为:一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中,且一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中;并且,当一个节点中存储了同一个分词序列的第一文段分割块与余二文段分割块,则该节点不能存储所述同一个分词序列的第二文段分割块与余一文段分割块,反之,当一个节点中存储了同一个分词序列的第二文段分割块与余一文段分割块,则该节点不能存储所述同一个分词序列的第一文段分割块与余二文段分割块。
本发明还提供了一种基于区块链的多服务器协作高安全度存储系统,所述一种基于区块链的多服务器协作高安全度存储系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于区块链的多服务器协作高安全度存储方法中的步骤,所述一种基于区块链的多服务器协作高安全度存储系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:
节点数获取单元,用于获取区块链中服务器的数量作为节点数;
文本分段单元,用于根据节点数,对文本数据进行分段,得到若干的文本段;
文本计算单元,用于根据各文本段,计算得到语义协作量和区块协作量;
文段分割单元,用于根据语义协作量和区块协作量,对各文本段进行协作分割,得到文段分割块;
安全协作存储单元,用于对文段分割块,进行存储。
本发明的有益效果为:本发明提供了一种基于区块链的多服务器协作高安全度存储方法,获取区块链中服务器的数量作为节点数,根据节点数对文本数据进行分段得到若干的文本段,根据各文本段计算得到语义协作量和区块协作量,对各文本段进行协作分割得到文段分割块,进行安全协作存储,有利于在多个服务器之间进行数据分布式存储和协作,提高了存储效率和安全性。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种基于区块链的多服务器协作高安全度存储方法的流程图;
图2所示为一种基于区块链的多服务器协作高安全度存储系统的系统结构图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
如图1所示为根据本发明的一种基于区块链的多服务器协作高安全度存储方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种基于区块链的多服务器协作高安全度存储方法及系统。
本发明提出一种基于区块链的多服务器协作高安全度存储方法,所述方法具体包括以下步骤:
获取区块链中服务器的数量作为节点数;
根据节点数,对文本数据进行分段,得到若干的文本段;
根据各文本段,计算得到语义协作量和区块协作量;
根据语义协作量和区块协作量,对各文本段进行协作分割,得到文段分割块;
对文段分割块,进行存储。
进一步地,所述区块链中存在多个不同的服务器,所述服务器可用于文本数据的分布式存储,以各服务器为节点,从而获取区块链中服务器的数量作为节点数。
进一步地,根据节点数,对文本数据进行分段,得到若干的文本段的方法为:
所述文本数据为一个字符串,例如一篇文章的文本的字符串数据,将所述文本数据分成与节点数相同份的文本段,例如一篇文章的字符串有80个token,节点数为8,按顺序每10个token作为一份的文本段,有8份文本段。
进一步地,根据各文本段,计算得到区块协作量的方法中:
在一些实施例中,可优选地,需要进行张量区块协作处理,得到区块协作量,具体可为:
对各文本段以i为序号进行排序,记各文本段的数量为n,节点数等于各文本段的数量同为n,i属于1至n;
其中,可使用词向量、句向量、预训练语言模型等的语义嵌入(embedding)通过余弦相似度来计算语义相似度;
将每份的文本段分别与各文本段之间进行对照,并计算每份的文本段分别与各文本段之间的语义相似度,得到语义相似度矩阵,所述语义相似度矩阵为对称矩阵:所述语义相似度矩阵为n行n列的矩阵,所述语义相似度矩阵中行序号的排列也是以序号i属于1至n,语义相似度矩阵中第i行的n个维度数值对应序号为i的文本段分别与各文本段之间的语义相似度,而所述语义相似度矩阵中列序号的排列也是以序号i属于1至n,语义相似度矩阵中第i列的n个维度数值也对应了序号为i的文本段分别与各文本段之间的语义相似度;
若记所述语义相似度矩阵为Smat,则为了防止混淆,记行的序号依旧为i∈[1,n],但是对于列的序号则在i加上标以i`以示区分,i`还是属于[1,n],同时这样的好处是在标识上使得i和i`两变量之间具体数值的变化可以相互独立不影响,
计算所述语义相似度矩阵的特征向量为语义协作量,语义协作量有n个维度的数值分别对应n个文本段,其中序号为i的维度的数值对应序号为i的文本段;
所述区块协作度为两份文本段之间的语义相似度分别对于所在语义相似度矩阵中分别对于行最大值与列最大值的概率比值,Smat中第i行第i`列的数值为Smat(i,i`),对于所述Smat(i,i`),在一些实施例中,以第i行中各数值的算术平均值为row(i)avg,以第i`列中最小的数值为col(i`)min,计算所述Smat(i,i`)的区块协作度bcon(i,i`),区块协作度的计算公式为:
其中,函数exp为以自然常数为底的指数函数;
由于对称矩阵行列的对称性,在一些实施例中,也可以以第i行中最小的数值为row(i)min,以第i`列中各数值的算术平均值为col(i`)avg,因为行列都是表示文本段对比其他各文本段的语义相似度,数值上具有对称性,区块协作度的计算公式也可为:
构建区块协作矩阵,所述区块协作矩阵与所述语义相似度矩阵的行列大小及行列序号保持一致,所述区块协作矩阵中行列位置的元素的数值为所述语义相似度矩阵中相同行列位置的元素对应的区块协作度;
计算所述区块协作矩阵的特征向量为区块协作量,语义协作量有n个维度的数值分别对应n个文本段,其中序号为i的维度的数值对应序号为i的文本段;
其中,Smat(i,i`)-row(i)avg反映了当前位置的语义相似度距离该个文本段对比其他各文本段的平均概率分布水平的距离,Smat(i,i`)-col(i`)min反映了当前位置的语义相似度距离该个文本段对比其他各文本段的最低概率分布水平即语义最不相似文本段的距离,指数化的函数有利于防止数据的丢失同时提升数据特征的提取精度,|row(i)avg-col(i`)min|反映了该个文本段对比其他各文本段的平均概率分布水平与语义最不相似文本段的距离,对其相乘可以进行数值的线性结合有效地对各文本段中构成文本的主体部分进行识别,该个文本段对比其他各文本段的平均概率分布水平与语义最不相似文本段的距离的前面乘以了平均概率分布水平的距离和语义最不相似文本段的距离的指数化比例会使得数值相较于原来的语义相似度数值偏小了一些,且由于节点数等于各文本段的数量这一数量特征一致贯穿于各步骤的数值计算中,反映在语义协作矩阵与区块协作矩阵以及其特征向量的维度数目中,有利于对应后续区块链的节点对数据的分担存储;
其中,所述特征向量为单位化的特征向量,单位化的特征向量中各维度的数值处于0~1,可以当作比例使用。
进一步地,根据区块协作量,对各文本段进行协作分割,得到文段分割块,具体为:
分别对各文本段进行分词,可以使用语言模型的tokennizer或者使用spaCy模块进行分词,得到各文本段的分词序列,其中所述分词序列分别包含各文本段被分词后得到的分词(token);
获取语义协作量中对应各文本段的维度的数值作为该文本段的语义协作比率,
获取区块协作量中对应各文本段的维度的数值作为该文本段的区块协作比率;
从各分词序列中,抽取出语义协作比率同等比例的分词作为该分词序列的第一文段分割块,并将该分词序列中除所述第一文段分割块外的分词作为余一文段分割块;
从各分词序列中,抽取出区块协作比率同等比例的分词作为该分词序列的第二文段分割块,并将该分词序列中除所述第二文段分割块外的分词作为余二文段分割块;
例如,在其中的一些实施例中,对于序号为2的文本段,该文本段中有10个字符或分词,每个字符或分词即一个token,token可以是一个词语、一个汉字、一个单词或一个单词的词根等的String形式的数据,语义协作量中序号为2的维度的数值是0.3,则所述序号为2的文本段抽取出语义协作比率同等比例为0.3的分词即其中30%的分词作为第一文段分割块并以其余下的分词作为余一文段分割块,对应的区块协作比率的数值约为0.13,这时如果分词序列中难以分出13%分量的分词,则可以进行向上取整或向下取整,从而获取其中10%-20%的分词即1到2个的词语作为第二文段分割块并以其余下的分词作为余二文段分割块,由此可见,数值相较于原来的语义相似度数值偏小了一些,当第一文段分割块和余二文段分割块一起存储的情况下会出现重叠的现象,这可以有利于保存构成文本的主体部分不丢失;
其中,从各分词序列中抽取出分词的方法可为计算TF-IDF,然后根据TF-IDF排序,从中抽取出按TF-IDF排序后相应比率的分词,从中抽取出TF-IDF排在例如前30%的3个分词作为文段分割块;
所述文段分割块的种类包括各分词序列的第一文段分割块、余一文段分割块、第二文段分割块和余二文段分割块;
网络的推荐系统需要整个网络社交平台上的海量数据,存储海量的数据往往容易丢失其中某些部分,造成推荐的偏差,而由于如TF-IDF等的抽出的算法对一个分词序列进行排序的过程中,会将出现频率高于词频平均概率的常用词或语气词、或者出现频率低于词频平均概率的生僻词或专业术语等安排在排序后序列的首端或末端,但是对于排在中间部分的分词却是缺乏数据特征上的反应的,而这些排在中间部分的分词是构成文本的主体部分,在分布式存储中很容易在同一个节点上进行丢失,例如第一文段分割块和余二文段分割块虽然是从同一个分词序列上进行文本抽取出来的,但是由于语义协作比率和区块协作比率的差异会产生重叠的部分,尽管一个节点大概率存在数据的损失,当第一文段分割块和余二文段分割块、第二文段分割块和余一文段分割块分别存储于不同的区块链服务器的节点中,通过本发明所述方法则可以有效地避免同一个节点中构成文本的主体部分数据的损失,减少了数据特征工程的偏差。
进一步地,对文段分割块,进行存储的方法中具体包括一种安全协作存储约束,所述安全协作存储约束为:一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中,且一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中;并且,当一个节点中存储了同一个分词序列的第一文段分割块与余二文段分割块,则该节点不能存储所述同一个分词序列的第二文段分割块与余一文段分割块,反之,当一个节点中存储了同一个分词序列的第二文段分割块与余一文段分割块,则该节点不能存储所述同一个分词序列的第一文段分割块与余二文段分割块;例如,记序号为2的文本段对应的第一文段分割块为batch1、余一文段分割块为batch1s、第二文段分割块为batch2还有余二文段分割块为batch2s,序号为1的节点为node1,序号为2的节点为node2,batch1和batch2s要一起存储于同一个节点node1,batch2和batch1s要一起存储于同一个节点node2,但batch1和batch2s不能与batch2和batch1s存储于同一个节点,这样即便两个节点node1、node2中任一出现故障造成数据丢失,也可提高保存了重叠的主体部分数据的留存的概率,从而实现了分布式的存储和共识,在多个服务器节点之间进行数据分布式存储和协作,提高了存储效率和安全性。
所述一种基于区块链的多服务器协作高安全度存储系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中,所述计算设备包括:处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于区块链的多服务器协作高安全度存储方法中的步骤,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群。
本发明的实施例提供的一种基于区块链的多服务器协作高安全度存储系统,如图2所示,该实施例的一种基于区块链的多服务器协作高安全度存储系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于区块链的多服务器协作高安全度存储方法实施例中的步骤,所述处理器执行所述计算机程序运行在以下系统的单元中:
节点数获取单元,用于获取区块链中服务器的数量作为节点数;
文本分段单元,用于根据节点数,对文本数据进行分段,得到若干的文本段;
文本计算单元,用于根据各文本段,计算得到语义协作量和区块协作量;
文段分割单元,用于根据语义协作量和区块协作量,对各文本段进行协作分割,得到文段分割块;
安全协作存储单元,用于对文段分割块,进行存储。
其中,优选地,本发明中所有未定义的变量,若未有明确定义,均可为人工设置的阈值;优选地,对于单位不同的物理量之间的数值计算,可进行无量纲化处理、归一化处理,以统一不同物理量之间的数值关系。
所述一种基于区块链的多服务器协作高安全度存储系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种基于区块链的多服务器协作高安全度存储系统包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于区块链的多服务器协作高安全度存储方法及系统的示例,并不构成对一种基于区块链的多服务器协作高安全度存储方法及系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于区块链的多服务器协作高安全度存储系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于区块链的多服务器协作高安全度存储系统的控制中心,利用各种接口和线路连接整个一种基于区块链的多服务器协作高安全度存储系统的各个分区域。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于区块链的多服务器协作高安全度存储方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明提供了一种基于区块链的多服务器协作高安全度存储方法,获取区块链中服务器的数量作为节点数,根据节点数对文本数据进行分段得到若干的文本段,根据各文本段计算得到语义协作量和区块协作量,对各文本段进行协作分割得到文段分割块,进行安全协作存储,有利于在多个服务器之间进行数据分布式存储和协作,提高了存储效率和安全性。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
Claims (6)
1.一种基于区块链的多服务器协作高安全度存储方法,其特征在于,所述方法包括以下步骤:
获取区块链中服务器的数量作为节点数;
根据节点数,对文本数据进行分段,得到若干的文本段;
根据各文本段,计算得到语义协作量和区块协作量;
根据语义协作量和区块协作量,对各文本段进行协作分割,得到文段分割块;
对文段分割块,进行存储。
2.根据权利要求1所述的一种基于区块链的多服务器协作高安全度存储方法,其特征在于,所述区块链中存在多个不同的服务器,以各服务器为节点,从而获取区块链中服务器的数量作为节点数。
3.根据权利要求2所述的一种基于区块链的多服务器协作高安全度存储方法,其特征在于,根据节点数,对文本数据进行分段,得到若干的文本段的方法为:
所述文本数据为一个字符串,将所述文本数据分成与节点数相同份的文本段。
4.根据权利要求1所述的一种基于区块链的多服务器协作高安全度存储方法,其特征在于,根据各文本段,计算得到区块协作量的方法为:
进行张量区块协作处理,得到区块协作量,具体为:
对各文本段以i为序号进行排序,记各文本段的数量为n,节点数等于各文本段的数量同为n,i属于1至n;
将每份的文本段分别与各文本段之间进行对照,并计算每份的文本段分别与各文本段之间的语义相似度,得到语义相似度矩阵,所述语义相似度矩阵为对称矩阵:所述语义相似度矩阵为n行n列的矩阵,所述语义相似度矩阵中行序号的排列也是以序号i属于1至n,语义相似度矩阵中第i行的n个维度数值对应序号为i的文本段分别与各文本段之间的语义相似度,而所述语义相似度矩阵中列序号的排列也是以序号i属于1至n,语义相似度矩阵中第i列的n个维度数值也对应了序号为i的文本段分别与各文本段之间的语义相似度,
若记所述语义相似度矩阵为Smat,则为了防止混淆,记行的序号依旧为i∈[1,n],但对于列的序号则在i加上标以i`以示区分,i`还是属于[1,n],i和i`两变量之间具体数值的变化相互独立;
计算所述语义相似度矩阵的特征向量为语义协作量;
所述区块协作度为两份文本段之间的语义相似度分别对于所在语义相似度矩阵中分别对于行最大值与列最大值的概率比值,Smat中第i行第i`列的数值为Smat(i,i`),对于所述Smat(i,i`),以第i行中各数值的算术平均值为row(i)avg,以第i`列中最小的数值为col(i`)min,计算所述Smat(i,i`)的区块协作度bcon(i,i`),区块协作度的计算公式为:
构建区块协作矩阵,所述区块协作矩阵与所述语义相似度矩阵的行列大小及行列序号保持一致,所述区块协作矩阵中行列位置的元素的数值为所述语义相似度矩阵中相同行列位置的元素对应的区块协作度;
计算所述区块协作矩阵的特征向量为区块协作量。
5.根据权利要求1所述的一种基于区块链的多服务器协作高安全度存储方法,其特征在于,根据区块协作量,对各文本段进行协作分割,得到文段分割块,具体为:
分别对各文本段进行分词,得到各文本段的分词序列;
获取语义协作量中对应各文本段的维度的数值作为该文本段的语义协作比率,
获取区块协作量中对应各文本段的维度的数值作为该文本段的区块协作比率;
从各分词序列中,抽取出语义协作比率同等比例的分词作为该分词序列的第一文段分割块,并将该分词序列中除所述第一文段分割块外的分词作为余一文段分割块;
从各分词序列中,抽取出区块协作比率同等比例的分词作为该分词序列的第二文段分割块,并将该分词序列中除所述第二文段分割块外的分词作为余二文段分割块;
所述文段分割块的种类包括各分词序列的第一文段分割块、余一文段分割块、第二文段分割块和余二文段分割块。
6.根据权利要求5所述的一种基于区块链的多服务器协作高安全度存储方法,其特征在于,对文段分割块,进行存储的方法中具体包括一种安全协作存储约束,所述安全协作存储约束为:一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中,且一个分词序列的第一文段分割块不能与同一个分词序列的余一文段分割块存储于同一个节点中;并且,当一个节点中存储了同一个分词序列的第一文段分割块与余二文段分割块,则该节点不能存储所述同一个分词序列的第二文段分割块与余一文段分割块,反之,当一个节点中存储了同一个分词序列的第二文段分割块与余一文段分割块,则该节点不能存储所述同一个分词序列的第一文段分割块与余二文段分割块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310641176.4A CN117010010B (zh) | 2023-06-01 | 2023-06-01 | 一种基于区块链的多服务器协作高安全度存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310641176.4A CN117010010B (zh) | 2023-06-01 | 2023-06-01 | 一种基于区块链的多服务器协作高安全度存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117010010A true CN117010010A (zh) | 2023-11-07 |
CN117010010B CN117010010B (zh) | 2024-02-13 |
Family
ID=88569867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310641176.4A Active CN117010010B (zh) | 2023-06-01 | 2023-06-01 | 一种基于区块链的多服务器协作高安全度存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010010B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563128A (zh) * | 2020-07-15 | 2020-08-21 | 江苏荣泽信息科技股份有限公司 | 一种基于区块链的医疗信息安全存储协作系统 |
CN111680131A (zh) * | 2020-06-22 | 2020-09-18 | 平安银行股份有限公司 | 基于语义的文档聚类方法、系统及计算机设备 |
US20200401890A1 (en) * | 2019-05-07 | 2020-12-24 | Tsinghua University | Collaborative deep learning methods and collaborative deep learning apparatuses |
US20210216722A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing sematic description of text entity, and storage medium |
WO2022133330A1 (en) * | 2020-12-18 | 2022-06-23 | Strong Force Vcn Portfolio 2019, Llc | Robot fleet management and additive manufacturing for value chain networks |
US20230152941A1 (en) * | 2021-11-15 | 2023-05-18 | Salesforce, Inc. | Place-Based Semantic Similarity Platform |
-
2023
- 2023-06-01 CN CN202310641176.4A patent/CN117010010B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200401890A1 (en) * | 2019-05-07 | 2020-12-24 | Tsinghua University | Collaborative deep learning methods and collaborative deep learning apparatuses |
US20210216722A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing sematic description of text entity, and storage medium |
CN111680131A (zh) * | 2020-06-22 | 2020-09-18 | 平安银行股份有限公司 | 基于语义的文档聚类方法、系统及计算机设备 |
CN111563128A (zh) * | 2020-07-15 | 2020-08-21 | 江苏荣泽信息科技股份有限公司 | 一种基于区块链的医疗信息安全存储协作系统 |
WO2022133330A1 (en) * | 2020-12-18 | 2022-06-23 | Strong Force Vcn Portfolio 2019, Llc | Robot fleet management and additive manufacturing for value chain networks |
US20230152941A1 (en) * | 2021-11-15 | 2023-05-18 | Salesforce, Inc. | Place-Based Semantic Similarity Platform |
Non-Patent Citations (2)
Title |
---|
SHIH-WEI LIAO 等: "DeepLinQ: Distributed Multi-Layer Ledgers for Privacy-Preserving Data Sharing", 《2018 IEEE INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND VIRTUAL REALITY (AIVR)》, 17 January 2019 (2019-01-17), pages 173 - 178 * |
朱磊 等: "基于形状语义的外观设计专利检索", 《计算机辅助设计与图形学学报》, 31 March 2013 (2013-03-31), pages 372 - 380 * |
Also Published As
Publication number | Publication date |
---|---|
CN117010010B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898360B (zh) | 基于区块链的文本相似性检测方法及装置、电子设备 | |
CN108710613A (zh) | 文本相似度的获取方法、终端设备及介质 | |
CN110019216B (zh) | 基于区块链的知识产权数据存储方法、介质及计算机设备 | |
CN108228845B (zh) | 一种手机游戏分类方法 | |
US11392620B2 (en) | Clustering log messages using probabilistic data structures | |
CN111291571A (zh) | 语义纠错方法、电子设备及存储介质 | |
CN110347782A (zh) | 文章查重方法、装置和电子设备 | |
CN111159184A (zh) | 元数据追溯方法、装置及服务器 | |
CN110162752B (zh) | 文章判重处理方法、装置及电子设备 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN112507176A (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN115795061A (zh) | 一种基于词向量和依存句法的知识图谱构建方法及系统 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN114691356A (zh) | 数据并行处理方法、装置、计算机设备及可读存储介质 | |
CN117010010B (zh) | 一种基于区块链的多服务器协作高安全度存储方法 | |
CN117312825A (zh) | 一种目标行为检测方法、装置、电子设备及存储介质 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN110457599B (zh) | 热点话题追踪方法、装置、服务器及可读存储介质 | |
CN109657060B (zh) | 安全生产事故案例推送方法及系统 | |
CN113821630A (zh) | 一种数据聚类的方法和装置 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN108304467A (zh) | 用于文本间匹配的方法 | |
CN110532388B (zh) | 文本聚类的方法、设备和存储介质 | |
CN110175220B (zh) | 一种基于关键词位置结构分布的文档相似性度量方法及系统 | |
CN112528021A (zh) | 一种模型训练方法、模型训练装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |