CN111629027B

CN111629027B - 一种基于区块链的可信文件储存处理的方法

Info

Publication number: CN111629027B
Application number: CN202010277945.3A
Authority: CN
Inventors: 毛正雄
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-06-23
Anticipated expiration: 2040-04-10
Also published as: CN111629027A

Abstract

本发明属于网络数据交换领域，具体为一种基于区块链的可信文件储存处理的方法，将敏感文件依照算法数据离线生成离线文件数据特征码，生成的文件数据特征码作为校验、拦截的特征码库；将文件特征码库存储至提供者和使用者处构建成区块链结构，然后依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对，实时校验特征码；依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对，拦截相似文本，筛选得到可信文件，最后采用专用协议交换数据，隔离内、外部网络协议，剥离出外网可信文件中的纯数据文件进行储存。该方法基于文件内容进行检测、拦截，又避免了关键词泄密风险。

Description

一种基于区块链的可信文件储存处理的方法

技术领域

本发明涉及网络数据交换领域，具体为一种基于区块链的可信文件储存处理的方法。

背景技术

根据南方电网制定的企业标准中的有关规定，内外网属于不同安全级别，网络不能直接连通。因此，需要依靠网络隔离技术将内外网数据进行隔离。

目前的网络隔离技术是由两套各自独立的系统分别连接安全和非安全的网络，两套系统之间通过网闸进行信息摆渡：当存储介质与安全的网络连通时，断开与非安全网络连接；当与非安全网络连通时，断开与安全网络的连接；通过分时地使用两套系统中的数据通路进行数据交换，以达到隔离与交换的目的。由于两个独立的系统通过网闸进行隔离，使系统间不存在通信的物理连接、逻辑连接及信息传输协议，不存在依据协议进行的信息交换，而只有以数据文件形式进行的无协议摆渡。然而，网闸技术的隔离原理在于通过文件标题、文件主题词方式检测关键词是否符合数据交换要求，当关键词作出少量修改后，检出率及拦截率明显降低，无法实现数据隔离的目标；另外，使用网闸设备时需向网闸设备上传关键词作为拦截样本，这些样本自身就属于敏感数据，存在泄密的风险。

发明内容

针对网闸技术以检测关键词的方式隔离内外网存在拦截率低及关键词泄密的问题，本发明提出一种基于区块链的可信文件储存处理的方法。

本发明的基于区块链的可信文件储存处理的方法，采用两套主机分别连接内外网，两套主机间通过私有协议连接，该方法的特征在于通过以下步骤实现：

一、区块链构件处理：将敏感文件依照算法数据离线生成离线文件数据特征码，生成的文件数据特征码作为校验、拦截的特征码库；将文件特征码库存储至提供者和使用者处构建成区块链结构，区块头包含上一个区块的哈希值、本区块的哈希值以及时间戳信息，区块体内包含文件数据局部特征码；

二、文件校验拦截：读取来自内外网的文件数据，然后依照算法获得文件数据局部特征码；依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对，实时校验特征码；依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对，拦截相似文本，筛选得到可信文件；

三、网络协议剥离数据交换：系统采用专用协议交换数据，隔离内、外部网络协议，剥离出外网可信文件中的纯数据文件进行储存。

具体的，步骤一中所述的区块链结构采用具有主从区块的双链区块结构，从链区块体内包含文件传输日志，从而具备良好的防篡改性。

具体的，步骤二中所述的用于文件比对、校验及拦截的算法采用64位海明局部敏感哈希算法，只要相似的字符串只有个别的位数是有差别变化，那这样我们可以推断两个相似的文本。采用64位海明局部敏感哈希算法相比网闸技术使用关键词的字符串比较下降1/1.844*1020，可以满足文件数据高速交换的校验、拦截要求。

更进一步的，步骤二所采用的64位海明局部敏感哈希算法，具体计算步骤包括：

1）分词：把需要判断文本分词形成特征单词。最后形成去掉噪音词的单词序列并为每个词加上行业词汇统计权重；

2)hash：通过hash算法把每个词变成hash值;

3)加权：将hash生成结果按照单词的权重形成加权数字串；

4)合并:将各个单词算出来的序列值累加，变成一个序列串；

5)降维：将序列串降维得到特征码。

更进一步的，步骤二所采用的64位海明局部敏感哈希算法的比对方法为：将包含b×r个值最小哈希签名分为 b 等份，每份 r 个，对两个文档，定义 P 为两个文档至少含有1个相同份的概率，文档间的Jaccard 相似度越高，哈希签名具有相同值的位数就越多，概率P就越大，通过P值判定两个文档的相似度。

本发明的基于区块链的可信文件交换技术终止不同网络区域间的网络连接，剥离出纯数据并基于文件数据内容进校验、拦截以及数据交换，阻断可能的网络攻击行为。

本发明的基于区块链的可信文件交换技术只记录文件的特征码，从原数据提取特征码为单向计算，不存在通过特征码反向计算原数据内容，从而避免了关键词泄密的风险，为文件数据安全交换提供了新的方法。

本发明的基于区块链的可信文件交换技术记录文件的特征码，将文件数据特征码、文件传输日志按区块链构建成主从链式结构，具备良好的防篡改性，实现数据安全交换的自证能力。

本发明的基于区块链的可信文件交换技术，依靠64位海明局部敏感哈希算法找出可以hash特征单词，相似的字符串只有个别的位数是有差别变化，使用者可以根据数据类型选择位数，位数越小越精准。

本方法设计合理，部署应用方便，提高了文件数据安全防护水平，具有较大的市场和经济社会效益的前景。

附图说明

图1为基于区块链的可信文件储存处理的系统原理图。

图2为本发明的区块链结构示意图。

具体实施方式

实施例1：基于区块链的可信文件储存处理的方法，采用两套主机分别连接内外网，两套主机间通过私有协议连接，该方法的特征在于通过以下步骤实现：

一、区块链构件处理：将敏感文件依照算法数据离线生成离线文件数据特征码，生成的文件数据特征码作为校验、拦截的特征码库；将文件特征码库存储至提供者和使用者处构建成具有主从区块的双链区块结构,主链区块体内包含文件数据局部特征码，从链区块体内包含文件传输日志；

二、文件校验拦截：读取来自内外网的文件数据，然后依照算法获得文件数据局部特征码；依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对，实时校验特征码；依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对，如果两篇文档相似，则它们的哈希值有较高的概率是相同的。具体做法是，将包含b×r个值最小哈希签名分为 b 等份，每份 r 个，对两个文档，定义 P 为两个文档至少含有1个相同份的概率，显然，文档间的Jaccard 相似度越高，哈希签名具有相同值的位数就越多，概率P就越大。计算步骤如下：

1）分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上电力行业词汇统计权重，我们假设权重分为5个级别（1~5）。比如：“ 在互联网的浪潮中，大数据技术如火如荼” ” ==>分词后为 “ 互联网（5）浪潮（1）大数据（4）技术（2）如火如荼（3） ”，括号里是代表单词在整个句子里重要程度也就是电力行业词频，数字越大越重要；

2）hash，通过hash算法把每个词变成hash值，比如“互联网”通过hash算法计算为10110,“浪潮”通过hash算法计算为 11000。这样我们的字符串就变成了一串串数字，将文档变为数字计算提高相似度计算性能；

3）加权，根据步骤2）hash生成结果，按照单词的权重形成加权数字串，比如“互联网”的hash值为“10110”，通过加权计算为“5,-5,5,5,-5”；“浪潮”的hash值为“11000”，通过加权计算为 “1,1,-1,-1,-1”；

4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “互联网”的 “5,-5,5,5,-5”，“浪潮”的 “1,1,-1,-1,-1”，把每一位进行累加，“5+1,-5+1,5-1,5-1,-5-1 ”==》 “6,-4,4,4,-6”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加；

5、降维，把4步算出来的 “6,-4,4,4,-6” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0记为 0。最后算出结果为：“10110”；

该方法方便了大规模数据比较时的消耗，不需要在计算时提取特征进行计算，hash值的可比性很强，只需要比较海明距离，方便了从海量数据中发掘相似项的实现，大大减少了相似项排重的复杂度；

Claims

1.一种基于区块链的可信文件储存处理的方法，采用两套主机分别连接内外网，两套主机间通过私有协议连接，该方法的特征在于通过以下步骤实现：

二、文件校验拦截：读取来自内外网的文件数据，然后依照算法获得文件数据局部特征码；依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对，实时校验特征码；依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对，拦截相似文本，筛选得到可信文件；用于文件比对、校验及拦截的算法采用64位海明局部敏感哈希算法，只要相似的字符串只有个别的位数是有差别变化，推断两个文本相似；采用的64位海明局部敏感哈希算法的比对方法为：将包含b×r个值最小哈希签名分为b 等份，每份 r 个，对两个文档，定义 P 为两个文档至少含有1个相同份的概率，文档间的Jaccard 相似度越高，哈希签名具有相同值的位数就越多，概率P就越大，通过P值判定两个文档的相似度；

计算步骤包括：

1）分词：把需要判断文本分词形成特征单词；

最后形成去掉噪音词的单词序列并为每个词加上行业词汇统计权重；

2) hash：通过hash算法把每个词变成hash值;

3)加权：将hash生成结果按照单词的权重形成加权数字串；

4)合并:将各个单词算出来的序列值累加，变成一个序列串；

5)降维：将序列串降维得到特征码；

2.如权利要求1所述的一种基于区块链的可信文件储存处理的方法，其特征在于步骤一中所述的区块链结构采用具有主从区块的双链区块结构，从链区块体内包含文件传输日志。