CN116566974B - 一种数据去重管理装置、系统、方法及存储介质 - Google Patents
一种数据去重管理装置、系统、方法及存储介质 Download PDFInfo
- Publication number
- CN116566974B CN116566974B CN202310826800.8A CN202310826800A CN116566974B CN 116566974 B CN116566974 B CN 116566974B CN 202310826800 A CN202310826800 A CN 202310826800A CN 116566974 B CN116566974 B CN 116566974B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- uploading
- cloud server
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007726 management method Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/30—Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
- H04L9/3066—Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy involving algebraic varieties, e.g. elliptic or hyper-elliptic curves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3247—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving digital signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据去重管理装置,数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;预测模块,用于接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据;去重操作模块,用于根据三元组数据生成操作序列信息,对云服务器进程进行调度和进行去重操作,提高重复数据删除操作的执行效率,大幅降低了服务器的性能开销。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据去重管理装置、系统、方法及存储介质。
背景技术
目前,用户将文件上传到云服务器中,云服务器根据预定的检测方法查询此文件是否已存在于云端,若为重复上传文件,则进行重复数据删除操作。此时,云服务器可能正在进行其他的IO操作,导致重复数据删除操作不得不暂时挂起,等到计算机处于空档期时,再对计算机进行调度,指导云服务器进行重复数据删除操作。大量的计算机调度冲突严重制约了重复数据删除操作的执行效率,等待时间过长也使得整个去重过程效率低下。
发明内容
有鉴于此,本发明提供了一种数据去重管理装置、系统、方法及存储介质,解决了在去重操作过程中的调度冲突的问题,提高了重复数据删除操作的执行效率,大幅降低了服务器的性能开销,具体采用以下技术方案来实现。
第一方面,本发明提供了一种数据去重管理装置,包括:
数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
预测模块,用于接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;
去重操作模块,用于根据三元组数据生成操作序列信息,对云服务器进程进行调度和进行去重操作。
作为上述技术方案的进一步改进,预测模块包括预测生成单元和序列生成单元;
数据检测模块,用于根据加密文件C生成文件规模标识AMO,并获取云服务器的操作的调度情况D(OS);根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据,并将二元组数据/>发送至预测生成单元;
预测生成单元,用于接收所述二元组数据和预先训练生成的网络TW,并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,并将三元组数据/>发送至序列生成单元;
序列生成单元,用于根据三元组数据提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,将低于所述平均值的时刻进行输出,以生成操作序列信息;其中,操作序列信息包含0和1组成的字符串,0表示进行去重操作的调度,1表示服务器被占用无法进行去重操作的调度。
第二方面,本发明提供了一种数据去重管理系统,包括数据上传端、数据访问端、云服务器和上述的数据去重管理装置;
数据上传端,将各上传用户的加密文件C上传至云服务器;
云服务器,通过所述数据去重管理装置对所述加密文件C进行数据重复检测,以及,计算各上传用户之间的属性距离,根据所述属性距离确定各上传用户的用户属性,以及,根据所述用户属性对预设的流行度阈值进行调整;
数据访问端,向云服务器提交访问请求,接收所述云服务器基于所述访问请求反馈的所述加密文件C的访问链接。
作为上述技术方案的进一步改进,所述用户属性包括个人用户和集团用户。
作为上述技术方案的进一步改进,所述云服务器,用于对上传用户进行聚类,得到多个上传用户群组;当一个上传用户群组中的上传用户的数量超过密度阈值时,则将所述上传用户群组确定为集团;其中,将聚类中产生的噪点对应的上传用户作为个人用户。
作为上述技术方案的进一步改进,所述云服务器,用于判断新上传用户的用户属性时,计算所述新上传用户的数值集团核心点的距离;
当数值集团核心点的距离处于集团领域r内,则判断所述新上传用户为个人用户;其中,r为云服务器中当前所有上传用户之间的距离的平均值;
若所述新上传用户为个人用户且形成一个新上传用户的数量大于密度阈值的群组,则建立新集团;其中,所述新上传用户为新集团中的集团用户。
作为上述技术方案的进一步改进,所述云服务器,用于将云服务器中的上传用户划分为不同的集团后,得到集团核心点的属性信息;
云服务器,判断新上传用户的用户属性时,将新上传用户的属性信息与集团核心点的属性信息进行相似度计算,通过相似度计算结果判别所述新上传用户是否为集团用户,或,所述新上传用户属于哪个集团;
云服务器,用于在新上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,用于在新上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。
作为上述技术方案的进一步改进,所述云服务器,用于在新上传用户为个人用户
时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度
阈值,则进行去重操作;以及,用于在新上传用户为集团用户时,更新文件规模标识;当更新后的文件规模标识AMO大于流行度阈值,则对所述流行度
阈值进行调整;其中,AMO为文件规模标识,T为流行度阈值,n1,b为校正系数。
第三方面,本发明还提供了一种数据去重管理方法,包括以下步骤:
获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据/>发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;
根据三元组数据生成操作序列信息,对云服务器进程进行调度和进行去重操作。
第四方面,本发明还提供了一种计算机可读程序存储介质,其存储有计算机程序指令,但计算机程序指令被计算机执行时,使计算机执行上述的数据去重管理方法。
本发明提供了一种数据去重管理装置、系统、方法及存储介质,数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据/>发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;预测模块,用于接收预先训练生成的网络TW和二元组数据/>并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;去重操作模块,用于根据三元组数据/>生成操作序列信息,对云服务器进程进行调度和进行去重操作,提高重复数据删除操作的执行效率,大幅降低了服务器的性能开销。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的数据去重管理装置的结构框图;
图2为本发明实施例提供的数据去重管理系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接在”另一元件“上”时,不存在中间元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
参阅图1,本发明提供了一种数据去重管理装置,包括:
数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
预测模块,用于接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;
去重操作模块,用于根据三元组数据生成操作序列信息,对云服务器进程进行调度和进行去重操作。
本实施例中,预测模块包括预测生成单元和序列生成单元;
数据检测模块,用于根据加密文件C生成文件规模标识AMO,并获取云服务器的操作的调度情况D(OS);根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据,并将二元组数据/>发送至预测生成单元;
预测生成单元,用于接收所述二元组数据和预先训练生成的网络TW,并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,并将三元组数据/>发送至序列生成单元;
序列生成单元,用于根据三元组数据提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,将低于所述平均值的时刻进行输出,以生成操作序列信息;其中,操作序列信息包含0和1组成的字符串,0表示进行去重操作的调度,1表示服务器被占用无法进行去重操作的调度。
本实施例中,数据检测模块、预测生成单元和序列生成单元均可由云服务器执行。
其中,可以根据加密文件C或加密文件C相关信息得到文件规模标识AMO和云服务器的操作的调度情况D(OS)。
其中,可以根据加密文件C的数据量,设定文件规模标识AMO,文件规模标识AMO包括大规模数据、中规模数据和小规模数据。获取云服务器当前操作的调度情况,并赋值给D(OS)。根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据,并将二元组数据/>发送至预测生成单元。
预测生成单元由预测器P执行,输入二元组数据和预先训练生成的网络TW,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,并将三元组数据/>发送至序列生成单元。
其中,当前服务器繁忙等级M包括High等级和Low等级。理想操作状态N包括True状态和False状态。
其中,将预先训练生成的网络TW输入到预测器P中,对预设时间内的云服务器的操作的调度情况进行预测。
需要说明的是,预测器P是采用长短记忆网络训练得到。对用户的数据文件进行加密生成加密文件C,并将加密文件C上传至云服务器,或者,将用户的数据文件上传至云服务器,云服务器对数据文件进行加密生成加密文件C。数据去重管理装置对加密文件C进行数据重复检测,若检测到加密文件C为重复数据(也可以称之为冗余数据),则进行重复数据删除准备,向预测器P发送调度请求,预测器P根据云服务器的操作的调度情况(如,当前操作的一些反馈数据),预测出在未来一段时间云服务器的服务器繁忙等级M,根据调度策略S、当前服务器繁忙等级M和理想操作状态N组成三元组数据,并将三元组数据发送至序列生成单元。序列生成单元根据三元组数据/>提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,将低于所述平均值的时刻进行输出,以生成操作序列信息;其中,操作序列信息包含0和1组成的字符串,0表示进行去重操作的调度,1表示服务器被占用无法进行去重操作的调度。可以解决去重操作与服务器其他数据操作的调度冲突问题。
其中,删除重复数据之前需要预先对加密文件C进行预处理(如解密处理),如,在区分流行度的加密数据去重时,需要将非流行数据转化为流行数据,并采用收敛加密进行数据处理,这些操作与云服务器正常的数据操作之间的调度变化,能显著提升数据去重的执行效率。
参阅图2,本发明提供了一种数据去重管理系统,包括数据上传端、数据访问端、云服务器和上述的数据去重管理装置;
数据上传端,将各上传用户的加密文件C上传至云服务器;
云服务器,通过所述数据去重管理装置对所述加密文件C进行数据重复检测,以及,计算各上传用户之间的属性距离,根据所述属性距离确定各上传用户的用户属性,以及,根据所述用户属性对预设的流行度阈值进行调整;
数据访问端,向云服务器提交访问请求,接收所述云服务器基于所述访问请求反馈的所述加密文件C的访问链接。
其中,数据访问端向云服务器提交访问请求后,云服务器判断数据访问端是否属于集团用户,若属于集团用户,则返回给其加密文件C的访问链接。
进一步的,所述用户属性包括个人用户和集团用户。
进一步的,所述云服务器,用于对上传用户进行聚类,得到多个上传用户群组;当一个上传用户群组中的上传用户的数量超过密度阈值时,则将所述上传用户群组确定为集团;其中,将聚类中产生的噪点对应的上传用户作为个人用户。
进一步的,所述云服务器,用于判断新上传用户的用户属性时,计算所述新上传用户的数值集团核心点的距离;
当数值集团核心点的距离处于集团领域r内,则判断所述新上传用户为个人用户;其中,r为云服务器中当前所有上传用户之间的距离的平均值;可选的,r可通过三维空间内的欧式距离计算所得,s为点/>与点之间的欧式距离;
若所述新上传用户为个人用户且形成一个新上传用户的数量大于密度阈值的群组,则建立新集团;其中,所述新上传用户为新集团中的集团用户。
本实施例中,当数值集团核心点的距离处于集团领域r内,则判定新上传用户为离散点,即噪点,判断新上传用户为个人用户。若新上传用户的到来经判别不属于任何一个集团,且形成一个新上传用户的数量大于密度阈值的群组,则设定建立新集团。
进一步的,所述云服务器,用于将云服务器中的上传用户划分为不同的集团后,得到集团核心点的属性信息;
云服务器,判断新上传用户的用户属性时,将新上传用户的属性信息与集团核心点的属性信息进行相似度计算,通过相似度计算结果判别所述新上传用户是否为集团用户,或,所述新上传用户属于哪个集团;
云服务器,用于在新上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,用于在新上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。可选的,确保当前的文件规模标识AMO低于流行度阈值。
进一步的,所述云服务器,用于在新上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在新上传用户为集团用户时,更新文件规模标识;当更新后的文件规模标识AMO大于流行度阈值,则对所述流行度阈值进行调整;其中,AMO为文件规模标识,T为流行度阈值,n≥1,b为校正系数。
其中,上传用户将加密文件C与数据查询标签上传至云服务器,云服务器进行重复数据检测,若检测结果为重复数据,则进行上传用户之间的属性相似度计算,判定上传用户/>为集团用户或个人用户;
当上传用户为个人用户时,记为1,/>,当时,进行重复数据删除操作,其中,T为流行度阈值;
当上传用户为集团用户时,更新文件规模标识,此时若/>,表示上传用户/>对应的上传文件已超过流行度阈值,进行动态计数更新,并调整流行度阈值。
其中,通过云服务器中确定的已持有数据的上传用户与集团当前的上传文件的上传用户/>的属性信息,进行相似度计算,便可以得知当前上传用户/>是否为集团用户。经过分类算法计算,认定为个人用户时,计数为1,采取/>的计算方式,当/>时,进行重复数据删除操作。若经过判断,当前上传用户/>是集团用户,则计算方式不能记为1,为了对判别结果中属于集团的上传用户实现动态更新计数,采用生长曲线模型,确保新的集团用户的加入不会影响当前文件的流行度状态,其表达式为,其中,n为正整数,n≥1,b为校正系数,要求/>的值会无限接近于流行度阈值T,但不超过T值,T为预设的流行度阈值,有效提高了对加密文件的去重操作的执行效率和大幅降低了云服务器的性能开销。
本实施例中,数据上传端将需要上传的加密文件C和数据标签上传至云服务器中,云服务器通过数据去重管理装置检测该加密文件C是否为重复数据,以及,上传当前加密文件C的上传用户是集团用户还是个人用户。在上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,在上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。具体地:在上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在上传用户为集团用户时,更新文件规模标识AMO,;当更新后的文件规模标识AMO大于流行度阈值,则对流行度阈值进行调整。
本实施例中,根据上传用户之间的属性距离确定不同的上传用户的用户属性,和/或,确定不同的上传用户是否属于同一集团,具体包括:
由于属性信息的形式各不相同,无法用统一的标准进行划分,需要将用户的各种属性信息进行数值化,便于后续进行计算和集团划分。如性别、爱好等语义化的属性信息,年龄等数字型的属性信息,优秀、良好等评价性的区间类的属性信息,对上述属性信息进行数值化,之后根据数值化后的属性信息进行属性距离的计算,以提高用户分类的准确率。具体地:
将上传用户的各种属性信息进行数值化。语义型的属性信息采用汉字编码,将汉字内码第一字节和第二字节分别用x和y表示,将汉字数值化成D,,其中x、y为整数,且/>,K为正整数,/>;数字型的属性信息通过数值转化后用具体的数字来表示,评价性区间类的属性信息通过平均值向上取整的方式来确定最终的数值。
其中,可以通过费雷器计算上传用户之间的属性距离,通过属性距离判断不同的上传用户是否属于同一集团,判断上传用户是集团用户还是个人用户。
本实施例中,将汉字数值化运用到重复数据删除中,给出了合理的数值化运算过程,并将数值化后的属性信息传递给分类算法进行是否为集团用户的判别分析,运用该分类算法实现了用户的属性信息的相似度检测,提高了去重过程的安全性和效率。
本实施例中,通过分类算法实现集团用户的判别和分类,并根据判别和分结果指导云服务提供者调整集团用户的计数方式,保证集团数据的流行度不会因为新上传用户上传的文件(也可称之为数据)发生改变,从而有效解决在对公司、企业等集团的内部数据进行去重操作时,可能将该公司的数据泄露出去的问题。
需要说明的是,当出现新上传用户的加入,在判别所属集团时,可能出现划分不明确引起的判断上的不确定性,如对新上传用户作所属集团的判别时,通过新上传用户与各集团核心点的属性距离计算得出同时处于各个集团的集团领域r内,此时无法对新上传用户的归属集团做出判断,会出现划分不明确所引起的判断上的不确定性。因此,可以计算新上传用户与各个集团之间的指数,进一步对新上传用户属于哪个集团进行判别,解决了用户分类不清的问题。其中,将每个集团的集团核心点和每个用户属于哪个集团进行实时记录,当用户丢失集团数据时,可以通过记录查询该用户属于某个集团或个人,通过身份验证可以将该集团的数据反问链接发送给用户,将集团数据的访问使用权限授权给该用户,帮助其进行数据恢复,更好地解决了集团内由于个人造成的数据丢失问题。
可选的一个实施例,当上传用户向云服务器中上传文件时,云服务器采用椭圆曲线函数来生成该文件的查询标签,用于检测当前上传文件是否已经存储在云服务器中;
本实施例中,云服务器采用椭圆曲线函数来生成该文件的查询标签,包括:获取数据去重管理系统中的密钥生成中心的参数并在系统初始化时发布参数列表,上传用户对收集到的数据内容进行签名,生成完整的数据包发送至网络TW的路由器,路由器用于验证传输过程中的数据包、批量认证、转发、缓存或接收验证成功的数据包。
本发明还提供了一种数据去重管理方法,包括以下步骤:
获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据/>发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;
根据三元组数据生成操作序列信息,对云服务器进程进行调度和进行去重操作。
上述数据去重管理方法的相关内容的描述具体参见数据去重管理装置和数据去重管理系统的相关描述,此处不加以赘述。
现有技术中,企业或公司内部存储有大量的重要数据,攻击者可以通过尝试删除操作的返回结果来判断数据是否存在从而推断数据内容,使得公司内部的数据有很大概率被泄露。此外,大量的计算机调度冲突严重制约了重复数据删除操作的执行效率,等待时间过长也使得整个去重过程效率低下,同时也影响了数据管理的安全性。
本实施例中,通过在数据去重管理装置中设置数据检测模块、预测模块和去重操作模块,预测模块接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>;去重操作模块根据三元组数据/>生成操作序列信息,对云服务器进程进行调度和进行去重操作,解决了在去重操作过程中的存储访问调度冲突的问题。
本实施例中,若确定新上传用户为集团用户且属于某个集团,对某个集团内部数据采用动态技术的方式,确保新上传用户的加入不会改变该集团内部数据的当前的流行度状态,从而避免集团内部数据的泄露,此外,可以在集团用户数据发生丢失时帮助其进行数据恢复,提高用户的工作效率,保护内部信息不被泄露,即提高信息的安全性。
本发明还提供了一种计算机可读程序存储介质,其存储有计算机程序指令,但计算机程序指令被计算机执行时,使计算机执行上述的数据去重管理方法。
本实施例中,各个方面还可以时限为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“数据去重管理方法”部分中描述的根据本发明各种示例性实施方式的步骤。
需要说明的是,程序产品可以采用一个或多个可读介质的任意组合,可读介质可以是可读信号介质或者可读存储介质,可读存储介质如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
以上可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种数据去重管理装置,其特征在于,包括:
数据检测模块,用于获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
预测模块,用于接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,以及,根据所述三元组数据/>生成操作序列信息;
去重操作模块,用于根据所述操作序列信息,对云服务器进程进行调度和进行去重操作;
其中,所述预测模块包括预测生成单元和序列生成单元;
预测生成单元,用于接收所述二元组数据和预先训练生成的网络TW,并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,并将三元组数据/>发送至序列生成单元;
序列生成单元,用于根据三元组数据提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,将低于所述平均值的时刻进行输出,以生成操作序列信息;其中,操作序列信息包含0和1组成的字符串,0表示进行去重操作的调度,1表示服务器被占用无法进行去重操作的调度。
2.根据权利要求1所述的数据去重管理装置,其特征在于,所述数据检测模块,用于根据加密文件C生成文件规模标识AMO,并获取云服务器的操作的调度情况D(OS);根据文件规模标识AMO和云服务器的操作的调度情况D(OS),组成二元组数据,并将二元组数据/>发送至预测生成单元。
3.一种数据去重管理系统,其特征在于,包括数据上传端、数据访问端、云服务器和如权利要求1-2任一项所述的数据去重管理装置;
数据上传端,将各上传用户的加密文件C上传至云服务器;
云服务器,通过所述数据去重管理装置对所述加密文件C进行数据重复检测,以及,计算各上传用户之间的属性距离,根据所述属性距离确定各上传用户的用户属性,以及,根据所述用户属性对预设的流行度阈值进行调整;
数据访问端,向云服务器提交访问请求,接收所述云服务器基于所述访问请求反馈的所述加密文件C的访问链接。
4.根据权利要求3所述的数据去重管理系统,其特征在于,所述用户属性包括个人用户和集团用户。
5.根据权利要求4所述的数据去重管理系统,其特征在于,所述云服务器,用于对上传用户进行聚类,得到多个上传用户群组;当一个上传用户群组中的上传用户的数量超过密度阈值时,则将所述上传用户群组确定为集团;其中,将聚类中产生的噪点对应的上传用户作为个人用户。
6.根据权利要求5所述的数据去重管理系统,其特征在于,所述云服务器,用于判断新上传用户的用户属性时,计算所述新上传用户的数值集团核心点的距离;
当数值集团核心点的距离处于集团领域r内,则判断所述新上传用户为个人用户;其中,r为云服务器中当前所有上传用户之间的距离的平均值;
若所述新上传用户为个人用户且形成一个新上传用户的数量大于密度阈值的群组,则建立新集团;其中,所述新上传用户为新集团中的集团用户。
7.根据权利要求6所述的数据去重管理系统,其特征在于,所述云服务器,用于将云服务器中的上传用户划分为不同的集团后,得到集团核心点的属性信息;
云服务器,判断新上传用户的用户属性时,将新上传用户的属性信息与集团核心点的属性信息进行相似度计算,通过相似度计算结果判别所述新上传用户是否为集团用户,或,所述新上传用户属于哪个集团;
云服务器,用于在新上传用户为个人用户时,根据当前的文件规模标识AMO和预设的流行度阈值,进行去重操作,以及,用于在新上传用户为集团用户时,根据当前的文件规模标识AMO和预设的流行度阈值,对预设的流行度阈值进行调整。
8.根据权利要求7所述的数据去重管理系统,其特征在于,所述云服务器,用于在新上传用户为个人用户时,更新文件规模标识AMO=文件规模标识AMO+1;当更新后的文件规模标识AMO大于流行度阈值,则进行去重操作;以及,用于在新上传用户为集团用户时,更新文件规模标识;当更新后的文件规模标识AMO大于流行度阈值,则对所述流行度阈值进行调整;其中,AMO为文件规模标识,T为流行度阈值,/>,b为校正系数。
9.一种数据去重管理方法,其特征在于,包括以下步骤:
获取加密文件C,对加密文件C进行数据重复检测,当检测到数据重复时,根据加密文件C相关数据生成二元组数据,并将二元组数据/>发送至预测模块;其中,AMO表示文件规模标识,D(OS)表示云服务器当前操作的调度情况;
接收预先训练生成的网络TW和二元组数据并输入至预测器P中,输出预测器P生成的调度策略S、当前服务器繁忙等级M和理想操作状态N,并组成三元组数据/>,以及,根据所述三元组数据/>生成操作序列信息;
根据所述操作序列信息,对云服务器进程进行调度和进行去重操作;
其中,根据所述三元组数据生成操作序列信息,包括:
根据三元组数据提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,将低于所述平均值的时刻进行输出,以生成操作序列信息;其中,操作序列信息包含0和1组成的字符串,0表示进行去重操作的调度,1表示服务器被占用无法进行去重操作的调度。
10.一种计算机可读程序存储介质,其特征在于,其存储有计算机程序指令,但计算机程序指令被计算机执行时,使计算机执行根据权利要求9所述的数据去重管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826800.8A CN116566974B (zh) | 2023-07-07 | 2023-07-07 | 一种数据去重管理装置、系统、方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826800.8A CN116566974B (zh) | 2023-07-07 | 2023-07-07 | 一种数据去重管理装置、系统、方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116566974A CN116566974A (zh) | 2023-08-08 |
CN116566974B true CN116566974B (zh) | 2023-09-15 |
Family
ID=87498591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310826800.8A Active CN116566974B (zh) | 2023-07-07 | 2023-07-07 | 一种数据去重管理装置、系统、方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116566974B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612320A (zh) * | 2016-06-14 | 2017-05-03 | 四川用联信息技术有限公司 | 云存储中一种加密数据的去重方法 |
CN108377237A (zh) * | 2018-02-05 | 2018-08-07 | 江苏大学 | 用于云端密文存储的具有所有权管理的数据去重系统及其数据去重方法 |
CN108776758A (zh) * | 2018-04-13 | 2018-11-09 | 西安电子科技大学 | 一种雾存储中支持动态所有权管理的块级数据去重方法 |
US11070620B1 (en) * | 2020-03-26 | 2021-07-20 | EMC IP Holding Company LLC | Efficient transfer to and from a deduplicated cloud storage system |
-
2023
- 2023-07-07 CN CN202310826800.8A patent/CN116566974B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612320A (zh) * | 2016-06-14 | 2017-05-03 | 四川用联信息技术有限公司 | 云存储中一种加密数据的去重方法 |
CN108377237A (zh) * | 2018-02-05 | 2018-08-07 | 江苏大学 | 用于云端密文存储的具有所有权管理的数据去重系统及其数据去重方法 |
CN108776758A (zh) * | 2018-04-13 | 2018-11-09 | 西安电子科技大学 | 一种雾存储中支持动态所有权管理的块级数据去重方法 |
US11070620B1 (en) * | 2020-03-26 | 2021-07-20 | EMC IP Holding Company LLC | Efficient transfer to and from a deduplicated cloud storage system |
Also Published As
Publication number | Publication date |
---|---|
CN116566974A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11516223B2 (en) | Secure personalized trust-based messages classification system and method | |
CN111770017B (zh) | 基于可信区块链的配电物联网分簇管理系统及方法 | |
WO2022021696A1 (zh) | 一种基于多信息来源的全流程区块链系统 | |
CN105354251B (zh) | 电力系统中基于Hadoop的电力云数据管理索引方法 | |
CN109766707B (zh) | 基于区块链的数据处理方法、装置、设备和介质 | |
US20220201008A1 (en) | Multimodal modelling for systems using distance metric learning | |
CN111629052B (zh) | 基于mec的内容缓存方法、节点、设备及存储介质 | |
Bringer et al. | Embedding edit distance to enable private keyword search | |
CN112367338A (zh) | 恶意请求检测方法及装置 | |
CN113779355B (zh) | 基于区块链的网络谣言溯源取证方法及系统 | |
CN109754322A (zh) | 一种数据服务系统 | |
CN115884110B (zh) | 短信验证码的判断方法及系统 | |
CN112153221A (zh) | 一种基于社交网络图计算的通信行为识别方法 | |
Wu et al. | Smartphone malware detection model based on artificial immune system | |
CN111865895A (zh) | 一种基于云平台的数据保密传输方法及系统 | |
CN113360501A (zh) | 一种基于区块链的分布式数据存储方法及系统 | |
CN115062323A (zh) | 增强隐私保护的多中心联邦学习方法及计算机设备 | |
CN116566974B (zh) | 一种数据去重管理装置、系统、方法及存储介质 | |
CN108566382B (zh) | 基于规则生命周期检测的防火墙自适应能力提升方法 | |
CN114567464A (zh) | 一种数据共享方法 | |
CN117527580A (zh) | 一种增强远程通信技术连接能力的方法 | |
CN117294497A (zh) | 一种网络流量异常检测方法、装置、电子设备及存储介质 | |
CN117119535A (zh) | 一种移动端集群热点共享的数据分流方法和系统 | |
CN113973003B (zh) | 基于区块链的云集群调度存储信息的验证方法 | |
CN114726634B (zh) | 一种基于知识图谱的黑客攻击场景构建方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |