CN111629027B - 一种基于区块链的可信文件储存处理的方法 - Google Patents

一种基于区块链的可信文件储存处理的方法 Download PDF

Info

Publication number
CN111629027B
CN111629027B CN202010277945.3A CN202010277945A CN111629027B CN 111629027 B CN111629027 B CN 111629027B CN 202010277945 A CN202010277945 A CN 202010277945A CN 111629027 B CN111629027 B CN 111629027B
Authority
CN
China
Prior art keywords
file
feature codes
data
file data
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010277945.3A
Other languages
English (en)
Other versions
CN111629027A (zh
Inventor
毛正雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN202010277945.3A priority Critical patent/CN111629027B/zh
Publication of CN111629027A publication Critical patent/CN111629027A/zh
Application granted granted Critical
Publication of CN111629027B publication Critical patent/CN111629027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Storage Device Security (AREA)

Abstract

本发明属于网络数据交换领域,具体为一种基于区块链的可信文件储存处理的方法,将敏感文件依照算法数据离线生成离线文件数据特征码,生成的文件数据特征码作为校验、拦截的特征码库;将文件特征码库存储至提供者和使用者处构建成区块链结构,然后依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对,实时校验特征码;依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对,拦截相似文本,筛选得到可信文件,最后采用专用协议交换数据,隔离内、外部网络协议,剥离出外网可信文件中的纯数据文件进行储存。该方法基于文件内容进行检测、拦截,又避免了关键词泄密风险。

Description

一种基于区块链的可信文件储存处理的方法
技术领域
本发明涉及网络数据交换领域,具体为一种基于区块链的可信文件储存处理的方法。
背景技术
根据南方电网制定的企业标准中的有关规定,内外网属于不同安全级别,网络不能直接连通。因此,需要依靠网络隔离技术将内外网数据进行隔离。
目前的网络隔离技术是由两套各自独立的系统分别连接安全和非安全的网络,两套系统之间通过网闸进行信息摆渡:当存储介质与安全的网络连通时,断开与非安全网络连接;当与非安全网络连通时,断开与安全网络的连接;通过分时地使用两套系统中的数据通路进行数据交换,以达到隔离与交换的目的。由于两个独立的系统通过网闸进行隔离,使系统间不存在通信的物理连接、逻辑连接及信息传输协议,不存在依据协议进行的信息交换,而只有以数据文件形式进行的无协议摆渡。然而,网闸技术的隔离原理在于通过文件标题、文件主题词方式检测关键词是否符合数据交换要求,当关键词作出少量修改后,检出率及拦截率明显降低,无法实现数据隔离的目标;另外,使用网闸设备时需向网闸设备上传关键词作为拦截样本,这些样本自身就属于敏感数据,存在泄密的风险。
发明内容
针对网闸技术以检测关键词的方式隔离内外网存在拦截率低及关键词泄密的问题,本发明提出一种基于区块链的可信文件储存处理的方法。
本发明的基于区块链的可信文件储存处理的方法,采用两套主机分别连接内外网,两套主机间通过私有协议连接,该方法的特征在于通过以下步骤实现:
一、区块链构件处理:将敏感文件依照算法数据离线生成离线文件数据特征码,生成的文件数据特征码作为校验、拦截的特征码库;将文件特征码库存储至提供者和使用者处构建成区块链结构,区块头包含上一个区块的哈希值、本区块的哈希值以及时间戳信息,区块体内包含文件数据局部特征码;
二、文件校验拦截:读取来自内外网的文件数据,然后依照算法获得文件数据局部特征码;依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对,实时校验特征码;依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对,拦截相似文本,筛选得到可信文件;
三、网络协议剥离数据交换:系统采用专用协议交换数据,隔离内、外部网络协议,剥离出外网可信文件中的纯数据文件进行储存。
具体的,步骤一中所述的区块链结构采用具有主从区块的双链区块结构,从链区块体内包含文件传输日志,从而具备良好的防篡改性。
具体的,步骤二中所述的用于文件比对、校验及拦截的算法采用64位海明局部敏感哈希算法,只要相似的字符串只有个别的位数是有差别变化,那这样我们可以推断两个相似的文本。采用64位海明局部敏感哈希算法相比网闸技术使用关键词的字符串比较下降1/1.844*1020,可以满足文件数据高速交换的校验、拦截要求。
更进一步的,步骤二所采用的64位海明局部敏感哈希算法,具体计算步骤包括:
1)分词:把需要判断文本分词形成特征单词。最后形成去掉噪音词的单词序列并为每个词加上行业词汇统计权重;
2)hash:通过hash算法把每个词变成hash值;
3)加权:将hash生成结果按照单词的权重形成加权数字串;
4)合并:将各个单词算出来的序列值累加,变成一个序列串;
5)降维:将序列串降维得到特征码。
更进一步的,步骤二所采用的64位海明局部敏感哈希算法的比对方法为:将包含b×r个值最小哈希签名分为 b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,文档间的Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率P就越大,通过P值判定两个文档的相似度。
本发明的基于区块链的可信文件交换技术终止不同网络区域间的网络连接,剥离出纯数据并基于文件数据内容进校验、拦截以及数据交换,阻断可能的网络攻击行为。
本发明的基于区块链的可信文件交换技术只记录文件的特征码,从原数据提取特征码为单向计算,不存在通过特征码反向计算原数据内容,从而避免了关键词泄密的风险,为文件数据安全交换提供了新的方法。
本发明的基于区块链的可信文件交换技术记录文件的特征码,将文件数据特征码、文件传输日志按区块链构建成主从链式结构,具备良好的防篡改性,实现数据安全交换的自证能力。
本发明的基于区块链的可信文件交换技术,依靠64位海明局部敏感哈希算法找出可以hash特征单词,相似的字符串只有个别的位数是有差别变化,使用者可以根据数据类型选择位数,位数越小越精准。
本方法设计合理,部署应用方便,提高了文件数据安全防护水平,具有较大的市场和经济社会效益的前景。
附图说明
图1为基于区块链的可信文件储存处理的系统原理图。
图2为本发明的区块链结构示意图。
具体实施方式
实施例1:基于区块链的可信文件储存处理的方法,采用两套主机分别连接内外网,两套主机间通过私有协议连接,该方法的特征在于通过以下步骤实现:
一、区块链构件处理:将敏感文件依照算法数据离线生成离线文件数据特征码,生成的文件数据特征码作为校验、拦截的特征码库;将文件特征码库存储至提供者和使用者处构建成具有主从区块的双链区块结构,主链区块体内包含文件数据局部特征码,从链区块体内包含文件传输日志;
二、文件校验拦截:读取来自内外网的文件数据,然后依照算法获得文件数据局部特征码;依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对,实时校验特征码;依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对,如果两篇文档相似,则它们的哈希值有较高的概率是相同的。具体做法是,将包含b×r个值最小哈希签名分为 b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,显然,文档间的Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率P就越大。计算步骤如下:
1)分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上电力行业词汇统计权重,我们假设权重分为5个级别(1~5)。比如:“ 在互联网的浪潮中,大数据技术如火如荼” ” ==>分词后为 “ 互联网(5) 浪潮(1) 大数据(4) 技术(2) 如火如荼(3) ”,括号里是代表单词在整个句子里重要程度也就是电力行业词频,数字越大越重要;
2)hash,通过hash算法把每个词变成hash值,比如“互联网”通过hash算法计算为10110,“浪潮”通过hash算法计算为 11000。这样我们的字符串就变成了一串串数字,将文档变为数字计算提高相似度计算性能;
3)加权,根据步骤2)hash生成结果,按照单词的权重形成加权数字串,比如“互联网”的hash值为“10110”,通过加权计算为“5,-5,5,5,-5”;“浪潮”的hash值为“11000”,通过加权计算为 “1,1,-1,-1,-1”;
4、合并,把上面各个单词算出来的序列值累加,变成只有一个序列串。比如 “互联网”的 “5,-5,5,5,-5”,“浪潮”的 “1,1,-1,-1,-1”, 把每一位进行累加,“5+1,-5+1,5-1,5-1,-5-1 ”==》 “6,-4,4,4,-6”。这里作为示例只算了两个单词的,真实计算需要把所有单词的序列串累加;
5、降维,把4步算出来的 “6,-4,4,4,-6” 变成 0 1 串,形成我们最终的simhash签名。 如果每一位大于0 记为 1,小于0记为 0。最后算出结果为:“10110”;
该方法方便了大规模数据比较时的消耗,不需要在计算时提取特征进行计算,hash值的可比性很强,只需要比较海明距离,方便了从海量数据中发掘相似项的实现,大大减少了相似项排重的复杂度;
三、网络协议剥离数据交换:系统采用专用协议交换数据,隔离内、外部网络协议,剥离出外网可信文件中的纯数据文件进行储存。

Claims (2)

1.一种基于区块链的可信文件储存处理的方法,采用两套主机分别连接内外网,两套主机间通过私有协议连接,该方法的特征在于通过以下步骤实现:
一、区块链构件处理:将敏感文件依照算法数据离线生成离线文件数据特征码,生成的文件数据特征码作为校验、拦截的特征码库;将文件特征码库存储至提供者和使用者处构建成区块链结构,区块头包含上一个区块的哈希值、本区块的哈希值以及时间戳信息,区块体内包含文件数据局部特征码;
二、文件校验拦截:读取来自内外网的文件数据,然后依照算法获得文件数据局部特征码;依照内网获得的文件数据局部特征码对区块链中的离线文件数据特征码进行比对,实时校验特征码;依照区块链中的离线文件数据特征码对外网获得的文件数据局部特征码进行比对,拦截相似文本,筛选得到可信文件;用于文件比对、校验及拦截的算法采用64位海明局部敏感哈希算法,只要相似的字符串只有个别的位数是有差别变化,推断两个文本相似;采用的64位海明局部敏感哈希算法的比对方法为:将包含b×r个值最小哈希签名分为b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,文档间的Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率P就越大,通过P值判定两个文档的相似度;
计算步骤包括:
1)分词:把需要判断文本分词形成特征单词;
最后形成去掉噪音词的单词序列并为每个词加上行业词汇统计权重;
2) hash:通过hash算法把每个词变成hash值;
3)加权:将hash生成结果按照单词的权重形成加权数字串;
4)合并:将各个单词算出来的序列值累加,变成一个序列串;
5)降维:将序列串降维得到特征码;
三、网络协议剥离数据交换:系统采用专用协议交换数据,隔离内、外部网络协议,剥离出外网可信文件中的纯数据文件进行储存。
2.如权利要求1所述的一种基于区块链的可信文件储存处理的方法,其特征在于步骤一中所述的区块链结构采用具有主从区块的双链区块结构,从链区块体内包含文件传输日志。
CN202010277945.3A 2020-04-10 2020-04-10 一种基于区块链的可信文件储存处理的方法 Active CN111629027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277945.3A CN111629027B (zh) 2020-04-10 2020-04-10 一种基于区块链的可信文件储存处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277945.3A CN111629027B (zh) 2020-04-10 2020-04-10 一种基于区块链的可信文件储存处理的方法

Publications (2)

Publication Number Publication Date
CN111629027A CN111629027A (zh) 2020-09-04
CN111629027B true CN111629027B (zh) 2023-06-23

Family

ID=72259629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277945.3A Active CN111629027B (zh) 2020-04-10 2020-04-10 一种基于区块链的可信文件储存处理的方法

Country Status (1)

Country Link
CN (1) CN111629027B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417501A (zh) * 2020-11-18 2021-02-26 中国电子科技集团公司第三十研究所 基于区块链的外网涉密文件检测方法
CN115239339B (zh) * 2022-08-03 2023-02-14 浙江省金融综合服务平台管理有限公司 一种基于区块链的账户交易信息核验方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737336A (zh) * 2017-04-18 2018-11-02 中国移动通信有限公司研究院 基于区块链的威胁行为处理方法及装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8925087B1 (en) * 2009-06-19 2014-12-30 Trend Micro Incorporated Apparatus and methods for in-the-cloud identification of spam and/or malware
CN103051617B (zh) * 2012-12-18 2015-09-02 北京奇虎科技有限公司 识别程序的网络行为的方法、装置及系统
CN104506545B (zh) * 2014-12-30 2017-12-22 北京奇安信科技有限公司 数据泄露防护方法及装置
CN106411816B (zh) * 2015-07-29 2021-02-05 研祥智能科技股份有限公司 一种工业控制系统、安全互联系统及其处理方法
CN105893859B (zh) * 2016-04-15 2019-05-03 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和系统
CN105844118B (zh) * 2016-04-15 2020-02-21 量子创新(北京)信息技术有限公司 用于数据泄露防护的方法和系统
US10162967B1 (en) * 2016-08-17 2018-12-25 Trend Micro Incorporated Methods and systems for identifying legitimate computer files
CN107800713A (zh) * 2017-11-10 2018-03-13 北京明朝万达科技股份有限公司 一种网间数据的安全交换方法及系统
CN108449324B (zh) * 2018-02-14 2021-05-14 北京明朝万达科技股份有限公司 一种网间数据的安全交换方法及系统
CN109766525A (zh) * 2019-01-14 2019-05-17 湖南大学 一种数据驱动的敏感信息泄露检测框架

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737336A (zh) * 2017-04-18 2018-11-02 中国移动通信有限公司研究院 基于区块链的威胁行为处理方法及装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IoT-KEEPER: Securing IoT Communications in Edge Networks;Ibbad Hafeez等;arXiv preprint arXiv:1810.08415;全文 *
基于RS485串口与数据过滤技术相结合的内外网数据交换模式的研究;刘万里;万方数据库;全文 *
电力信息物理融合系统数据区块链生成算法;杨挺;赵俊杰;张卫欣;赵英杰;盆海波;;电力自动化设备(10);全文 *

Also Published As

Publication number Publication date
CN111629027A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
US9692762B2 (en) Systems and methods for efficient detection of fingerprinted data and information
Xiang et al. Linguistic steganalysis using the features derived from synonym frequency
AU2010202627B2 (en) Automated forensic document signatures
CN105447113B (zh) 一种基于大数据的信息分析方法
CN111629027B (zh) 一种基于区块链的可信文件储存处理的方法
EP3614645B1 (en) Embedded dga representations for botnet analysis
US20020147707A1 (en) System and method for the identification of latent relationships amongst data elements in large databases
Naik et al. A ransomware detection method using fuzzy hashing for mitigating the risk of occlusion of information systems
CN110034921B (zh) 基于带权模糊hash的webshell检测方法
WO2021108258A1 (en) Optimizations for verification of interactions system and method using probability density functions
US20220004621A1 (en) Data recovery through reversal of hash values using probabilistic data structures
CN112507336A (zh) 基于代码特征和流量行为的服务端恶意程序检测方法
Li et al. Dart: Detecting unseen malware variants using adaptation regularization transfer learning
Rasheed et al. Adversarial attacks on featureless deep learning malicious URLs detection
Patil et al. Learning to Detect Phishing Web Pages Using Lexical and String Complexity Analysis
Zheng et al. An efficient multikeyword fuzzy ciphertext retrieval scheme based on distributed transmission for Internet of Things
Han et al. Distributed malware detection based on binary file features in cloud computing environment
Li et al. One factor cancellable fingerprint scheme based on novel minimum hash signature and secure extended feature vector
Ajmera et al. A survey report on identifying different machine learning algorithms in detecting domain generation algorithms within enterprise network
Guan et al. A novel coverless text steganographic algorithm based on polynomial encryption
Huang et al. Research on Malicious URL Identification and Analysis for Network Security
CN114553811B (zh) 基于时间戳调制和载体选择的高容量行为隐写方法
Cohen Attribution of messages to sources in digital forensics cases
KR20090065317A (ko) 문자열의 유사성과 포함성을 바탕으로 하는 시그니처스트링 생성방법
TWI742808B (zh) 隱匿通道偵測方法及裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant