CN111539028B - 档案存储方法、装置、存储介质及电子设备 - Google Patents

档案存储方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111539028B
CN111539028B CN202010329818.3A CN202010329818A CN111539028B CN 111539028 B CN111539028 B CN 111539028B CN 202010329818 A CN202010329818 A CN 202010329818A CN 111539028 B CN111539028 B CN 111539028B
Authority
CN
China
Prior art keywords
word
stored
file
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010329818.3A
Other languages
English (en)
Other versions
CN111539028A (zh
Inventor
钱仲文
李雪维
杨新益
郑思佳
周婷
袁奕文
林亚男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Materials Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Materials Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Materials Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical Materials Branch of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202010329818.3A priority Critical patent/CN111539028B/zh
Publication of CN111539028A publication Critical patent/CN111539028A/zh
Application granted granted Critical
Publication of CN111539028B publication Critical patent/CN111539028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种档案存储方法、装置、存储介质及电子设备,方法包括:确定出待存储档案的词节点,其中,词节点包含待存储档案中本文内容的词语特征;根据待存储档案的词节点和已存储档案的词节点,确定出待存储档案的词节点对应的节点特征;根据节点特征,确定出待存储档案的档案特征,并将待存储档案与档案特征关联后存储,其中,档案特征用于检验待存储档案是否被篡改。在存储的档案面临篡改时,由于档案特征中不仅包括被篡改档案的特征,还包括其他已存储档案的特征,因此,可以在篡改发生后,迅速发现档案被篡改,从而提高了对已存储档案的篡改难度,增加了档案存储的安全性。

Description

档案存储方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种档案存储方法、装置、存储介质及电子设备。
背景技术
科技的发展使得人们的工作和生活逐渐智能化,而资料(例如个人档案、工作资料)等与我们的生活息息相关。过去的资料保存方式,通常是采用的纸质资料保存方式,但这样的方式一是不方便(例如需要占用空间,查找起来更是费时费力),而是容易遗失和损坏。电子资料的保存,有其独特的优势(例如存储方便、使用方便,且不易遗失、不易损坏等),但电子资料的保存,却面临着严重的安全性问题,容易被他人篡改或被删除,从而带来麻烦和损失。
发明内容
本申请实施例的目的在于提供一种档案存储方法、装置、存储介质及电子设备,以提高档案存储的安全性。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种档案存储方法,包括:确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中本文内容的词语特征;根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征;根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改。
在本申请实施例中,通过根据待存储档案的词节点与已存储档案的词节点确定出待存储档案的词节点对应的词节点特征,进一步确定出这个待存储档案的档案特征。在对待存储档案的存储中,将档案特征与对应的待存储档案关联后进行存储。在存储的档案被篡改时,由于档案特征中不仅包括被篡改档案的特征,还包括其他已存储档案的特征,因此,可以在篡改发生后,迅速发现档案被篡改,从而提高了对已存储档案的篡改难度,增加了档案存储的安全性。
结合第一方面,在第一方面的第一种可能的实现方式中,所述确定出待存储档案的词节点,包括:对所述待存储档案进行分词以得到多个词;计算每个词的信息量大小;根据每个词的信息量大小,从所述多个词中确定出目标词,并基于所述目标词确定出所述待存储档案的词节点。
在该实现方式中,通过对档案进行分词,从多个词中确定出目标词,以确定出待存储档案的词节点,可以使得档案特征可以反映档案的文本内容中的词语,从而可以检测出对档案的细微改动,进一步增加篡改难度,提升档案存储的安全性。
结合第一方面,在第一方面的第二种可能的实现方式中,所述根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征,包括:根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络;从所述词节点网络中确定出与所述待存储档案的词节点具有关联关系的邻近节点;根据所述待存储档案的词节点和该节点的所述邻近节点,确定出所述待存储档案的词节点对应的节点特征。
在该实现方式中,通过不同档案的词节点构建词节点网络,从而建立起不同档案之间的关系网,可以使得存储的档案之间具有更高的联系性,对某一个档案篡改后,可以基于与之具有联系的档案,发现被篡改的档案,从而提升对存储的档案的篡改难度。而基于档案的词节点和该节点的邻近节点确定词节点对应的节点特征,可以通过一小部分的节点实现对篡改行为的监督,可以尽可能在保证档案存储的安全性的同时,尽可能节约资源,以提高方法的运行效率。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络,包括:根据所述待存储档案的词节点和所述已存储档案的词节点,确定出每个词节点各自对应的段落;提取每个词节点各自对应的段落的特征,以确定出每个词节点各自对应的段落向量;根据不同档案的词节点对应的段落向量之间建立的连接关系,构建所述词节点网络,其中,建立连接关系的两个段落向量所对应的两个词节点之间具有关联关系。
在该实现方式中,通过词节点确定出对应的段落向量,建立不同档案的词节点对应的段落向量之间的连接关系,以构建词节点网络(词节点网络中具有关联关系的两个词节点来自于不同档案),从而可以建立起稳定而有效的词节点网络。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述待存储档案的词节点和该节点的所述邻近节点,确定出所述待存储档案的词节点对应的节点特征,包括:以所述待存储档案的词节点对应的段落向量为初始特征,确定出该词节点的邻近节点对应的段落向量;将所述邻近节点对应的段落向量与所述初始特征进行聚合,确定出所述待存储档案的词节点对应的节点特征。
在该实现方式中,通过将词节点对应的段落向量作为初始特征,将该词节点的邻近节点对应的段落向量结合初始特征确定该词节点的对应的节点特征,从而,节点特征可以反映待存储档案的段落特征,也可以反映与之建立关联关系的已存储文档的段落特征,从而可以提升建立关联关系的文档之间的可靠性。
结合第一方面的第二种可能的实现方式,在第一方面的第五种可能的实现方式中,所述根据所述待存储档案的词节点对应的节点特征,确定出所述待存储档案的档案特征,包括:根据所述待存储档案的词节点对应的节点特征,对所述词节点的词节点向量进行更新;根据更新后的词节点向量,确定出所述待存储档案的档案特征。
在该实现方式中,通过节点特征对词节点的词节点向量进行更新,并进一步根据更新的词节点向量,确定出待存储档案的档案特征,使得档案特征可以准确地反映不同词节点(一个词节点和它的一个或多个邻近节点)对应的段落向量的特征,从而使得档案特征可以反映其他档案的特征,从而增加篡改难度。
结合第一方面,或者结合第一方面的第一种至第五种中任一可能的实现方式,在第一方面的第六种可能的实现方式中,所述方法应用于区块链中的任一区块链节点,在未接收到所述区块链上其他区块链节点基于所述待存储档案广播的消息,且确定出所述待存储档案的档案特征后,所述方法还包括:对确定出的所述档案特征进行验证;将验证后的所述档案特征以及本区块链节点的数字签名广播给所述其他区块链节点;将经过所述其他区块链节点验证,且本区块链节点确认验证结果准确的档案特征确定为所述待存储档案的档案特征;对应的,将所述待存储档案与所述档案特征关联后存储,包括:将所述档案特征和对应的所述待存储档案关联后打包保存在所述区块链上,以实现对所述待存储档案的存储。
在该实现方式中,通过区块链的方式对档案进行存储,由于区块链技术的特点,可以提高已存储档案的防篡改能力,且能够尽可能防止他人对已存储档案的恶意删除,从而进一步提升档案存储的安全性。
第二方面,本申请实施例提供一种档案存储装置,包括:词节点确定模块,用于确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中本文内容的词语特征;节点特征确定模块,用于根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征;档案特征确定模块,用于根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如第一方面或第一方面的可能的实现方式中任一项所述的档案存储方法。
第四方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现第一方面或第一方面的可能的实现方式中任一项所述的档案存储方法。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构框图。
图2为本申请实施例提供的一种档案存储方法的流程图。
图3为本申请实施例提供的一种档案存储装置的结构框图。
图标:10-电子设备;11-存储器;12-通信模块;13-总线;14-处理器;20-档案存储装置;21-词节点确定模块;22-节点特征确定模块;23-档案特征确定模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在对本申请实施例提供的档案存储方法进行详细的介绍之前,此处先对方法的运行环境进行介绍,以便于对本方案的理解。
在本实施例中,档案存储方法可以运行于电子设备(例如终端或者服务器)中,其中,电子设备可以为终端(例如个人电脑、智能手机、个人数字助理等),电子设备也可以为服务器(例如网络服务器、云服务器、服务器集群等)。通过电子设备对档案存储方法的运行,可以提高档案存储的安全性。
请参阅图1,图1为本申请实施例提供的一种电子设备10的结构框图。
示例性的,电子设备10可以包括:通过网络与外界连接的通信模块12、用于执行程序指令的一个或多个处理器14、总线13、不同形式的存储器11,例如,磁盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器),或其任意组合。其中,存储器11、通信模块12和处理器14之间通过总线13连接。
示例性的,存储器11中存储有程序。处理器14可以从存储器11调用并运行这些程序,从而便可以通过运行程序而执行档案存储方法,以实现对档案的安全存储。
另外,由于区块链技术的特点(分布式、防篡改能力强等),档案存储方法可以基于区块链技术运行,实现对档案的存储,以进一步提升存储的档案的安全性。本实施例中,将以基于区块链技术运行档案存储方法为例进行说明(在其他一些可实现的方式中,档案存储方法可以不基于区块链技术运行),但不应视为对本申请的限定。其中,区块链可以包括多个节点,每个节点中包括可以运行档案存储方法的电子设备10。
在本实施例中,针对档案的重要性、档案的修改权限等因素,可以建立私有链或同盟链(当然,也可以通过公有链实现档案存储,此处不作限定),以提升数据的安全性。
示例性的,当档案为个人档案(即公民的个人档案)时,其修改权限把控较为严格(例如相关部门可对个人档案进行更正,而公民自己无权随意更改),且重要性很高。另外,考虑到各个地区的相关部门,为了档案的统一存储,可以采用建立联盟链的方式进行档案存储。
示例性的,当档案为工作资料(例如商业资料,技术资料等)时,为了使得更多用户可以使用档案存储方法对档案进行存储,可以采用建立公有链的方式,实现档案存储。
采用区块链技术运行档案存储方法,可以进一步增加篡改档案的难度,从而提升存储档案的安全性;以及,由于区块链技术的分布式特点,在区块链中的一些节点因意外而使得存储的档案丢失时,还可以通过区块链上其他节点存储的区块对档案进行找回,从而可以防止因发生误删档案或恶意损毁档案等情况而造成的损失,也能够进一步提升档案存储的安全性。
以下,将以电子设备为执行主体对档案存储方法进行详细介绍。此处,电子设备可以是区块链中的节点,也可以不是区块链中的节点,此处不作限定,在后文中,若电子设备为区块链中的节点,将会明确指出。
请参阅图2,图2为本申请实施例提供的一种档案存储方法的流程图。档案存储方法可以包括:步骤S10、步骤S20和步骤S30。
在本实施例中,电子设备可以获得用户要存储的待存储档案。获得待存储档案之后,电子设备可以运行步骤S10。
步骤S10:确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中本文内容的词语特征。
在本实施例中,电子设备可以对待存储档案进行分词操作,以得到多个词。以及,电子设备可以计算每个词的信息量大小,以根据每个词的信息量大小,从多个词中确定出目标词,从而基于目标词确定出待存储档案的词节点。
示例性的,电子设备将待存储档案分词后,可以统计大量档案(已存储档案)的信息,得到所有词的词频信息,此处记词i的词频为fii。以及,电子设备可以确定出对待存储档案分词而得到的词的信息量大小,词i的信息量大小可以通过以下方式计算:
Ii=θexp(-μfi),·············(1)
其中,Ii表示词i的信息量,θ表示预设参数(可自行更新),μ表示预设参数(可自行更新)。
另外,电子设备可以基于确定出的词i,进一步确定出词i对应的段落Sj,而段落Sj的信息量可以定义为:
Figure BDA0002464228070000081
其中,I(Sj)表示段落Sj的信息量,SET(j)为段落Sj的词的集合。
而后,电子设备可以从待存储档案的多个词中随机选取x(可以根据需要设定,例如,档案的文档内容越长,x取值越大)个词作为待存储档案的目标词,并基于这些目标词确定出对应的词节点。
具体的,可以通过以下方式选取确定词节点的目标词:
Figure BDA0002464228070000082
其中,pi表示词i被确定为目标词(即确定为词节点)的概率,
Figure BDA0002464228070000091
为预设参数(可自动更新),SET(a)表示档案的文档内容a中的词的集合。
在确定出目标词后,即可基于目标词确定对应的词节点,可以理解为,将目标词作为待存储档案的词节点。
通过这样的方式(即确定出待存储档案的词节点的方式),可以使得确定出的词节点能够反映待存储档案的文本内容中的词语,从而有利于检测出对档案的细微改动,以进一步增加篡改难度,提升档案存储的安全性。
确定出待存储档案的词节点后,电子设备可以执行步骤S20。
步骤S20:根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征。
在本实施例中,电子设备可以基于待存储档案的词节点和已存储档案的词节点确定出待存储档案的词节点对应的节点特征,以使待存储档案的词节点对应的节点特征中不仅包括其自身的文档内容的特征,还可以包括已存储档案的文档内容的特征,从而进一步增加篡改难度,提升档案存储的安全性。
示例性的,电子设备可以根据待存储档案的词节点和已存储档案的词节点,构建词节点网络,并从词节点网络中确定出与待存储档案的词节点具有关联关系的邻近节点,从而根据待存储档案的词节点和该节点的邻近节点,确定出待存储档案的词节点对应的节点特征。
通过不同档案的词节点构建词节点网络,从而建立起不同档案之间的关系网,可以使得存储的档案之间具有更高的联系性,对某一个档案篡改后,可以基于与之具有联系的档案,发现被篡改的档案,从而提升对存储的档案的篡改难度。而基于档案的词节点和该节点的邻近节点确定词节点对应的节点特征,可以通过一小部分的节点实现对篡改行为的监督,可以尽可能在保证档案存储的安全性的同时,尽可能节约资源,以提高方法的运行效率。
具体的,电子设备可以通过待存储档案的词节点和已存储档案的词节点,确定出每个词节点各自对应的段落;提取每个词节点各自对应的段落的特征,以确定出每个词节点各自对应的段落向量;根据不同档案的词节点对应的段落向量之间建立的连接关系,构建所述词节点网络,其中,建立连接关系的两个段落向量所对应的两个词节点之间具有关联关系。
例如,每个档案(包括待存储档案,以及部分或全部已存储档案)中对应有x个词节点。基于每个词节点,可以确定出各自对应的段落。示例性的,电子设备基于词节点确定出预设信息量大小(即预设长度)的段落为该词节点对应的段落,例如,确定词节点(对应的词)所在的文档内容中前100字和后100字的内容为该词节点对应的段落。需要说明的是,此处的确定词节点对应的段落的方式只是示例性的,不应视为对本申请的限定。
确定出每个词节点各自对应的段落后,电子设备可以提取每个词节点各自对应的段落的特征,以确定出每个词节点各自对应的段落向量(例如将段落经特征抽取模型进行特征抽取,以获取段落对应的特征向量,此特征向量即可视为词节点对应的段落向量)。
确定出每个词节点各自对应的段落向量后,电子设备可以根据不同档案(例如待存储档案与已存储档案)的词节点对应的段落向量之间建立的连接关系,构建所述词节点网络。示例性的,电子设备可以将不同档案的词节点对应的段落向量进行连接(此处的连接并非是指两个向量的首尾连接,而可以理解为一种抽象的关联关系),以建立不同档案的词节点之间的关联关系。
例如,电子设备可以通过以下方式确定建立连接关系的段落向量:
预设有一个参数作为段落向量连接的概率p(例如p=0.5)。电子设备计算不同档案的词节点对应的段落向量之间的余弦相似度c,而后可以判断c与p的大小,在c>p时,可以将两个段落向量连接。电子设备可以通过这种方法遍历所有不同档案的词节点,也可以确定出其中一部分档案的词节点,以提高方法运行的效率,此处不作限定。
通过这种方式,电子设备可以根据不同档案的词节点对应的段落向量之间建立的连接关系,构建出词节点网络(词节点网络也同样是不同档案之间建立的网络)。当然,此处的词节点网络的建立,可以是在已存储档案之间建立好的词节点网络上的更新,即,有待存储档案需要存储时,电子设备可以在原有的(通过以上方式构建起来的)词节点网络的基础上,根据待存储档案对词节点网络进行更新(例如,通过建立待存储档案的词节点对应的段落向量与词节点网络中词节点对应的段落向量的连接关系,从而建立待存储档案的词节点与词节点网络中词节点的关联关系,以更新词节点网络)。
根据待存储档案和已存储档案建立词节点网络后,电子设备可以从建立的(也可以理解为更新的)词节点网络中确定出与待存储档案的词节点具有关联关系的邻近节点。此处,邻近节点可以理解为与一个词节点有关联关系的词节点(即与该词节点对应的段落向量连接的段落向量所对应的词节点)。
确定出邻近节点后,电子设备可以确定出待存储档案的词节点对应的节点特征。示例性的,电子设备可以以待存储档案的词节点对应的段落向量为初始特征,并确定出该词节点的邻近节点对应的段落向量,进一步将邻近节点对应的段落向量与初始特征进行聚合,以确定出待存储档案的词节点对应的节点特征。
示例性的,为了提升提取的词节点的节点特征更加高效和准确,可以通过特征提取模型(可以以聚合的方式提取,也可以采用其他的方式提取,但输出的节点特征中应当包含该词节点和其邻近节点的特征,此处不作限定)实现对节点特征的提取。
例如,可以将词节点的初始特征(即待存储档案的词节点对应的段落向量)输入到特征提取模型中,特征提取模型可以提取向量特征。
其中,特征提取模型的计算公式可以包括:
it=σ(∑Wxixt+∑Whixt-1+∑Wcixt-1+bi),··············(4)
ft=σ(∑Wxfxt+∑Whfxt-1+∑Wcfxt-1+bf),···········(5)
ct=ftct-1+ittanh(∑Wxcxt+∑Whcxt-1+bc),·············(6)
ot=σ(∑Wxoxt+∑Whoxt-1+∑Wcoxt-1+bo),·············(7)
ht=ottanh(ct),······················(8)
其中,ht表示特征提取模型的最终输出,b为偏置项,W为权重矩阵,σ表示sigmoid激活函数,xt表示t时刻的输入,xt-1表示t-1时刻的输入,it、ft、ct和ot均为计算过程中产生的中间值。
另外,为了提升模型的精度,可以计算模型的损失函数:
Figure BDA0002464228070000121
其中,xi、yi表示初始向量,h(xi)、h(yi)表示xi、yi输入模型后输出的向量,而n表示维度。
通过以上方式,可以确定出待存储档案的词节点对应的节点特征。通过将词节点对应的段落向量作为初始特征,将该词节点的邻近节点对应的段落向量结合初始特征确定该词节点的对应的节点特征,从而,节点特征可以反映待存储档案的段落特征,也可以反映与之建立关联关系的已存储文档的段落特征,从而可以提升建立关联关系的文档之间的可靠性。
另外,电子设备在确定出待存储档案的词节点对应的节点特征后,可以更新邻近节点的节点特征,使得邻近节点的节点特征中也包括待存储档案的词节点的特征,从而可以反映待存储档案的文档内容的特征。即使篡改者在修改档案的同时修改了对应的节点特征,但未修改其关联档案(即邻近节点对应的档案)中的邻近节点的节点特征时,仍然可以轻易发现篡改行为,从而大大地增加了篡改难度,进一步提升存储档案的安全性。
确定出待存储档案的词节点对应的节点特征后,电子设备可以执行步骤S30。
步骤S30:根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改。
在本实施例中,电子设备可以根据待存储档案的词节点对应的节点特征,对词节点的词节点向量进行更新,以及,根据更新后的词节点向量,确定出待存储档案的档案特征。通过节点特征对词节点的词节点向量进行更新,并进一步根据更新的词节点向量,确定出待存储档案的档案特征,使得档案特征可以准确地反映不同词节点(一个词节点和它的一个或多个邻近节点)对应的段落向量的特征,从而使得档案特征可以反映其他档案的特征,从而增加篡改难度。
示例性的,电子设备可以通过以下方式对词节点向量进行更新:
首先,电子设备可以将词节点的节点特征和该词节点的邻近节点的节点特征进行聚合,聚合的方式如下:
Figure BDA0002464228070000131
其中,k表示聚合的层数,v表示待存储档案的词节点(即中心节点),u表示邻近节点;hv表示对中心节点自身embedding(可以理解为向量化),hu表示对邻近节点embedding;N(v)表示对邻近节点采样后,邻近节点embedding和中心节点自身embedding通过非线性变换以更新中心节点自身embedding;MLP表示多层感知机。
将词节点的节点特征和该词节点的邻近节点的节点特征聚合后,电子设备可以确定出另一词节点(此处的词节点可以为邻近节点中的一个)的词语对应的词向量(将该词语进行向量化,例如采用word2vec对词语进行向量化,以得到词向量),并根据确定出的词向量和聚合后的节点特征共同对待存储档案的词节点的词节点向量进行更新。当然,在其他一些可能的实现方式中,也可以根据该词节点的所有或者部分邻近节点的词向量,结合聚合后的节点特征,对该词节点的词节点向量机型更新,此处不作限定。
示例性的,电子设备可以将聚合后的节点特征共同输入到特征提取模型(可以为前文介绍的特征提取模型,也可以为其他的模型,此处不作限定)中,以对词节点的词节点向量进行更新。
对词节点的节点向量进行更新后,电子设备可以根据更新后的词节点向量,确定出待存储档案的档案特征。
示例性的,电子设备可以将更新后的词节点向量与该词节点的词向量,一同输入到前文中给出的特征提取模型中,以确定出待存储档案的档案特征(当然,对于待存储档案的多个词节点,可以分别确定出多个子特征,将每个子特征进行聚合,以得到待存储档案的档案特征,此处不作限定)。
通过这样的方式,确定出的档案特征,既包括待存储档案的文档内容(词语、段落等)的特征,也包括部分已存储档案的文档内容(例如词语、段落等)的特征(例如节点特征、词向量、段落向量等),即使篡改者在修改档案的同时修改了对应的档案特征,但未修改其关联档案(即邻近节点对应的档案)的档案特征,仍然可以轻易发现篡改行为,从而大大地增加了篡改难度,进一步提升存储档案的安全性。
在电子设备为区块链上的一个区块链节点时,该电子设备确定出待存储档案的档案特征后,可以对确定出的档案特征进行验证;将验证后的档案特征以及本区块链节点的数字签名广播给其他区块链节点;将经过其他区块链节点验证,且本区块链节点确认验证结果准确的档案特征确定为待存储档案的档案特征;将档案特征和对应的待存储档案关联后打包保存在区块链上,以实现对待存储档案的存储。
示例性的,可以通过区块链POW(Proof Of Work,工作量证明)共识算法确定主节点(最先计算出POW的节点,此处以确定出待存储档案的档案特征的该电子设备为主节点),区块链上的其余区块链节点则为从节点。其中,记录节点可以向其余所有节点发送档案特征(也可以发送其中的词节点向量,以降低验证的工作量)。而主节点对确定出的档案特征(或者词节点向量)进行验证,在验证通过后,可以将验证后的档案特征(或者词节点向量)附上主节点的数字签名,而后广播给其他区块链节点。而从节点可以接收广播,在验证数字签名合法性及正确性后,可以将验证结果及该从节点自身的数字签名广播给其他从节点。而通过这样的方式,各从节点汇聚其他节点验证结果后,可以与自身的验证结果进行对比,将对比结果发回主节点。而主节点可以汇总各从节点的回复,若全部节点(或者达到预设比例、数量的从节点)认可当前数据块(包括待存储档案及其对应的档案特征)的合法性与正确性,则可以将其并入区块链进行保存。
通过区块链的方式对档案进行存储,由于区块链技术的特点,可以提高已存储档案的防篡改能力,且能够尽可能防止他人对已存储档案的恶意删除,从而进一步提升档案存储的安全性。
请参阅图3,基于同一发明构思,本申请实施例中还提供一种档案存储装置20,包括:
词节点确定模块21,用于确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中本文内容的词语特征。
节点特征确定模块22,用于根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征。
档案特征确定模块23,用于根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改。
在本实施例中,所述词节点确定模块21,还用于对所述待存储档案进行分词以得到多个词;计算每个词的信息量大小;根据每个词的信息量大小,从所述多个词中确定出目标词,并基于所述目标词确定出所述待存储档案的词节点。
在本实施例中,所述节点特征确定模块22,还用于根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络;从所述词节点网络中确定出与所述待存储档案的词节点具有关联关系的邻近节点;根据所述待存储档案的词节点和该节点的所述邻近节点,确定出所述待存储档案的词节点对应的节点特征。
在本实施例中,所述节点特征确定模块22,还用于根据所述待存储档案的词节点和所述已存储档案的词节点,确定出每个词节点各自对应的段落;提取每个词节点各自对应的段落的特征,以确定出每个词节点各自对应的段落向量;根据不同档案的词节点对应的段落向量之间建立的连接关系,构建所述词节点网络,其中,建立连接关系的两个段落向量所对应的两个词节点之间具有关联关系。
在本实施例中,所述节点特征确定模块22,还用于以所述待存储档案的词节点对应的段落向量为初始特征,确定出该词节点的邻近节点对应的段落向量;将所述邻近节点对应的段落向量与所述初始特征进行聚合,确定出所述待存储档案的词节点对应的节点特征。
在本实施例中,所述档案特征确定模块23,还用于根据所述待存储档案的词节点对应的节点特征,对所述词节点的词节点向量进行更新;根据更新后的词节点向量,确定出所述待存储档案的档案特征。
在本实施例中,所述装置应用于区块链中的任一区块链节点,在未接收到所述区块链上其他区块链节点基于所述待存储档案广播的消息,所述装置还包括档案存储模块,用于在所述档案特征确定模块23确定出所述待存储档案的档案特征后,对确定出的所述档案特征进行验证;将验证后的所述档案特征以及本区块链节点的数字签名广播给所述其他区块链节点;将经过所述其他区块链节点验证,且本区块链节点确认验证结果准确的档案特征确定为所述待存储档案的档案特征;将所述档案特征和对应的所述待存储档案关联后打包保存在所述区块链上,以实现对所述待存储档案的存储。
本申请实施例还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如本申请实施例中所述的档案存储方法。
综上所述,本申请实施例提供一种档案存储方法、装置、存储介质及电子设备,通过根据待存储档案的词节点与已存储档案的词节点确定出待存储档案的词节点对应的词节点特征,进一步确定出这个待存储档案的档案特征。在对待存储档案的存储中,将档案特征与对应的待存储档案关联后进行存储。在存储的档案面临篡改时,由于档案特征中不仅包括被篡改档案的特征,还包括其他已存储档案的特征(对应的,在其他已存储档案中的一些也包括被篡改档案的特征),因此,可以在篡改发生后,迅速发现档案被篡改,从而提高了对已存储档案的篡改难度,增加了档案存储的安全性。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种档案存储方法,其特征在于,包括:
确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中文本内容的词语特征;
根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征;
根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改;
所述根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征,包括:
根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络;
从所述词节点网络中确定出与所述待存储档案的词节点具有关联关系的邻近节点;
根据所述待存储档案的词节点和该节点的所述邻近节点,确定出所述待存储档案的词节点对应的节点特征,包括:
以所述待存储档案的词节点对应的段落向量为初始特征,确定出该词节点的邻近节点对应的段落向量;
根据所述邻近节点对应的段落向量与所述初始特征,确定出所述待存储档案的词节点对应的节点特征。
2.根据权利要求1所述的档案存储方法,其特征在于,所述确定出待存储档案的词节点,包括:
对所述待存储档案进行分词以得到多个词;
计算每个词的信息量大小;
根据每个词的信息量大小,从所述多个词中确定出目标词,并基于所述目标词确定出所述待存储档案的词节点。
3.根据权利要求1所述的档案存储方法,其特征在于,所述根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络,包括:
根据所述待存储档案的词节点和所述已存储档案的词节点,确定出每个词节点各自对应的段落;
提取每个词节点各自对应的段落的特征,以确定出每个词节点各自对应的段落向量;
根据不同档案的词节点对应的段落向量之间建立的连接关系,构建所述词节点网络,其中,建立连接关系的两个段落向量所对应的两个词节点之间具有关联关系。
4.根据权利要求1所述的档案存储方法,其特征在于,所述根据所述邻近节点对应的段落向量与所述初始特征,确定出所述待存储档案的词节点对应的节点特征,包括:
将所述邻近节点对应的段落向量与所述初始特征进行聚合,确定出所述待存储档案的词节点对应的节点特征。
5.根据权利要求1所述的档案存储方法,其特征在于,所述根据所述待存储档案的词节点对应的节点特征,确定出所述待存储档案的档案特征,包括:
根据所述待存储档案的词节点对应的节点特征,对所述词节点的词节点向量进行更新;
根据更新后的词节点向量,确定出所述待存储档案的档案特征;
所述根据所述待存储档案的词节点对应的节点特征,对所述词节点的词节点向量进行更新,包括:
将所述词节点的节点特征和该词节点的邻近节点的节点特征进行聚合;确定出所述邻近节点的词语对应的词向量;根据确定出的词向量和聚合后的节点特征得到更新后的所述待存储档案的词节点的词节点向量;
所述根据更新后的词节点向量,确定出所述待存储档案的档案特征,包括:
根据所述更新后的词节点向量与该词节点的词向量确定出所述待存储档案的档案特征。
6.根据权利要求1至5中任一项所述的档案存储方法,其特征在于,所述方法应用于区块链中的任一区块链节点,在未接收到所述区块链上其他区块链节点基于所述待存储档案广播的消息,且确定出所述待存储档案的档案特征后,所述方法还包括:
对确定出的所述档案特征进行验证;
将验证后的所述档案特征以及本区块链节点的数字签名广播给所述其他区块链节点;
将经过所述其他区块链节点验证,且本区块链节点确认验证结果准确的档案特征确定为所述待存储档案的档案特征;
对应的,将所述待存储档案与所述档案特征关联后存储,包括:
将所述档案特征和所述待存储档案关联后打包保存在所述区块链上,以实现对所述待存储档案的存储。
7.一种档案存储装置,其特征在于,包括:
词节点确定模块,用于确定出待存储档案的词节点,其中,所述词节点包含所述待存储档案中本文内容的词语特征;
节点特征确定模块,用于根据所述待存储档案的词节点和已存储档案的词节点,确定出所述待存储档案的词节点对应的节点特征;
档案特征确定模块,用于根据所述节点特征,确定出所述待存储档案的档案特征,并将所述待存储档案与所述档案特征关联后存储,其中,所述档案特征用于检验所述待存储档案是否被篡改;
所述节点特征确定模块,具体用于根据所述待存储档案的词节点和所述已存储档案的词节点,构建词节点网络;从所述词节点网络中确定出与所述待存储档案的词节点具有关联关系的邻近节点;以所述待存储档案的词节点对应的段落向量为初始特征,确定出该词节点的邻近节点对应的段落向量;根据所述邻近节点对应的段落向量与所述初始特征,确定出所述待存储档案的词节点对应的节点特征。
8.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的档案存储方法。
9.一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至6中任一项所述的档案存储方法。
CN202010329818.3A 2020-04-23 2020-04-23 档案存储方法、装置、存储介质及电子设备 Active CN111539028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329818.3A CN111539028B (zh) 2020-04-23 2020-04-23 档案存储方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329818.3A CN111539028B (zh) 2020-04-23 2020-04-23 档案存储方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111539028A CN111539028A (zh) 2020-08-14
CN111539028B true CN111539028B (zh) 2023-05-12

Family

ID=71979030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329818.3A Active CN111539028B (zh) 2020-04-23 2020-04-23 档案存储方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111539028B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113703863B (zh) * 2021-07-30 2023-12-22 济南浪潮数据技术有限公司 一种集群信息归档方法、系统、存储介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091237A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 電子文書システム
JP2005210464A (ja) * 2004-01-23 2005-08-04 Ricoh Co Ltd 改ざん検証用文書作成装置、文書改ざん検証装置、改ざん検証用文書作成方法、文書改ざん検証方法、改ざん検証用文書作成プログラム、文書改ざん検証プログラム、改ざん検証用文書作成プログラムを格納した記録媒体および文書改ざん検証プログラムを格納した記録媒体
JP2011039747A (ja) * 2009-08-10 2011-02-24 Fuji Xerox Co Ltd 文書規定管理プログラム、装置及びシステム
CN104239753A (zh) * 2014-07-03 2014-12-24 东华大学 云存储环境下文本文档的篡改检测方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108038101A (zh) * 2017-12-07 2018-05-15 杭州迪普科技股份有限公司 一种篡改文本的识别方法及装置
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN109165529A (zh) * 2018-08-14 2019-01-08 杭州安恒信息技术股份有限公司 一种暗链篡改检测方法、装置和计算机可读存储介质
CN110417918A (zh) * 2019-08-29 2019-11-05 腾讯科技(深圳)有限公司 一种档案信息的分布式存储方法、装置及电子设备和介质
CN110851826A (zh) * 2018-08-01 2020-02-28 深信服科技股份有限公司 一种篡改页面的检测方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9864906B2 (en) * 2015-08-05 2018-01-09 Xerox Corporation Method and system for creating a validation document for security

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091237A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 電子文書システム
JP2005210464A (ja) * 2004-01-23 2005-08-04 Ricoh Co Ltd 改ざん検証用文書作成装置、文書改ざん検証装置、改ざん検証用文書作成方法、文書改ざん検証方法、改ざん検証用文書作成プログラム、文書改ざん検証プログラム、改ざん検証用文書作成プログラムを格納した記録媒体および文書改ざん検証プログラムを格納した記録媒体
JP2011039747A (ja) * 2009-08-10 2011-02-24 Fuji Xerox Co Ltd 文書規定管理プログラム、装置及びシステム
CN104239753A (zh) * 2014-07-03 2014-12-24 东华大学 云存储环境下文本文档的篡改检测方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108038101A (zh) * 2017-12-07 2018-05-15 杭州迪普科技股份有限公司 一种篡改文本的识别方法及装置
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN110851826A (zh) * 2018-08-01 2020-02-28 深信服科技股份有限公司 一种篡改页面的检测方法、装置、设备及可读存储介质
CN109165529A (zh) * 2018-08-14 2019-01-08 杭州安恒信息技术股份有限公司 一种暗链篡改检测方法、装置和计算机可读存储介质
CN110417918A (zh) * 2019-08-29 2019-11-05 腾讯科技(深圳)有限公司 一种档案信息的分布式存储方法、装置及电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
巩玉玺 ; 张春海 ; 韩彦稳 ; .邮件过滤中基于关联分析的潜在特征词挖掘.青岛理工大学学报.(第02期),全文. *

Also Published As

Publication number Publication date
CN111539028A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
EP3370188B1 (en) Facial verification method, device, and computer storage medium
CN107341401B (zh) 一种基于机器学习的恶意应用监测方法和设备
EP3734489B1 (en) Evidence collection method and system based on blockchain evidence storage
US8650218B2 (en) Dynamic self configuring overlays
CN110266872B (zh) 通讯录数据的管控方法、装置及云通讯录系统、计算机设备、计算机可读存储介质
CN104680064A (zh) 利用文件指纹来优化文件的病毒扫描的方法和系统
CN112261038B (zh) 大数据采集方法、系统、计算机设备及其存储介质
CN111259282A (zh) Url去重方法、装置、电子设备及计算机可读存储介质
CA2916896C (en) Method and apparatus for automating network data analysis of user's activities
CN111598711A (zh) 目标用户账号识别方法、计算机设备及存储介质
CN111539028B (zh) 档案存储方法、装置、存储介质及电子设备
CN112364022B (zh) 信息推导管理方法、装置、计算机设备及可读存储介质
CN113572721B (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN112099870B (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
CN110781410A (zh) 一种社群检测方法及装置
CN115438325A (zh) 一种电子合同的签约方法、装置、设备及存储介质
CN111860655B (zh) 用户的处理方法、装置和设备
CN114722398A (zh) 智能合约异常检测方法、区块链网络、设备及存储介质
CN113674083A (zh) 互联网金融平台信用风险监测方法、装置及计算机系统
CN114143308A (zh) 文件上传信息处理方法、装置、计算机设备及存储介质
CN110879835A (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质
CN112417259A (zh) 媒体资源的处理方法、装置、设备及存储介质
WO2020047736A1 (zh) 网站后台图片资源完整性的验证方法和系统
US11455391B2 (en) Data leakage and misuse detection
CN115378713B (zh) 区块链应用预警防御方法、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201214

Address after: 310000 5-6 / F, no.378 Fengqi Road, Xiacheng District, Hangzhou City, Zhejiang Province

Applicant after: MATERIAL BRANCH, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Address before: Unit 1104, Gongshu District, Hangzhou, Zhejiang Province

Applicant before: Zhou Ting

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant