CN114817230A - 一种数据流过滤方法及系统 - Google Patents

一种数据流过滤方法及系统 Download PDF

Info

Publication number
CN114817230A
CN114817230A CN202210747465.8A CN202210747465A CN114817230A CN 114817230 A CN114817230 A CN 114817230A CN 202210747465 A CN202210747465 A CN 202210747465A CN 114817230 A CN114817230 A CN 114817230A
Authority
CN
China
Prior art keywords
data
stored
binary codes
binary
redundant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210747465.8A
Other languages
English (en)
Inventor
熊应
王卫波
黄耀曦
胡广
何瑞斌
曹迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Leyi Network Co ltd
Original Assignee
Shenzhen Leyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Leyi Network Co ltd filed Critical Shenzhen Leyi Network Co ltd
Priority to CN202210747465.8A priority Critical patent/CN114817230A/zh
Publication of CN114817230A publication Critical patent/CN114817230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据过滤技术领域,提供了一种数据流过滤方法及系统,所述方法包括以下步骤:接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;当待存储数据不存在冗余重叠信息,直接对待存储数据进行存储。本发明通过对冗余重叠信息进行优化过滤生成可存储数据,可存储数据相比待存储数据能够大幅度节省存储空间,能够有效减轻集中存储服务器的存储压力,降低服务器的存储空间需求。

Description

一种数据流过滤方法及系统
技术领域
本发明涉及数据过滤技术领域,具体是涉及一种数据流过滤方法及系统。
背景技术
随着现代化办公的不断发展,大型企业每天都会产生大量数据流,存储设备需要对这些数据流进行存储,对存储空间的要求较高,另外,随着云桌面的不断应用和推广,云桌面具有集中存储、集中运算的优势,基于VDI系统架构的云桌面系统是把所有的客户机数据运算都集中在服务器端管理和存储,客户桌面接收的只是操作系统环境,整个企业的员工数据全部存储在服务器中,目前基本没有对员工数据进行过滤优化直接存储,这对存储空间的要求更高,投资成本较大,因此,需要提供一种数据流过滤方法及系统,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种数据流过滤方法及系统,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种数据流过滤方法,所述方法包括以下步骤:
接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;
当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
作为本发明进一步的方案:所述对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息的步骤,具体包括:
将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
作为本发明进一步的方案:所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤,具体包括:
将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
作为本发明进一步的方案:所述对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储的步骤,具体包括:
调取冗余重叠信息对应的链接代码;
根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;
对可存储数据的二进制代码进行存储。
作为本发明进一步的方案:所述方法还包括对存储的二进制代码进行删除,当被删除的二进制代码包含链接代码时,同步对链接代码和链接标记进行删除。
作为本发明进一步的方案:所述方法还包括对特征数据库中的特征数据进行更改编辑时,自动保留被链接标记的二进制代码重叠部分的信息。
本发明的另一目的在于提供一种数据流过滤系统,所述系统包括:
存储指令接收模块,用于接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
特征检测模块,用于对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
优化过滤模块,当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;以及
直接存储模块,当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
作为本发明进一步的方案:所述特征检测模块包括:
相似度计算单元,用于将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
冗余重叠信息判定单元,用于将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
作为本发明进一步的方案:所述相似度计算单元包括:
依次计算子单元,用于将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
链接生成子单元,用于取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
作为本发明进一步的方案:所述优化过滤模块包括:
链接代码调取单元,用于调取冗余重叠信息对应的链接代码;
可存储数据生成单元,用于根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;以及
优化存储单元,用于对可存储数据的二进制代码进行存储。
与现有技术相比,本发明的有益效果是:
本发明通过对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息,当待存储数据存在冗余重叠信息,自动对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储,可存储数据相比待存储数据能够大幅度节省存储空间,能够有效减轻集中存储服务器的存储压力,降低服务器的存储空间需求。
附图说明
图1为一种数据流过滤方法的流程图。
图2为一种数据流过滤方法中对待存储数据进行特征检测的流程图。
图3为一种数据流过滤方法中将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的流程图。
图4为一种数据流过滤方法中对冗余重叠信息进行优化过滤生成可存储数据的流程图。
图5为一种数据流过滤系统的结构示意图。
图6为一种数据流过滤系统中特征检测模块的结构示意图。
图7为一种数据流过滤系统中相似度计算单元的结构示意图。
图8为一种数据流过滤系统中优化过滤模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种数据流过滤方法,所述方法包括以下步骤:
S100,接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
S200,对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
S300,当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;
S400,当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
需要说明的是,随着现代化办公的不断发展,大型企业每天都会产生大量数据流,存储设备需要对这些数据流进行存储,对存储空间的要求较高,另外,随着云桌面的不断应用和推广,云桌面具有集中存储、集中运算的优势,基于VDI系统架构的云桌面系统是把所有的客户机数据运算都集中在服务器端管理和存储,客户桌面接收的只是操作系统环境,整个企业的员工数据全部存储在服务器中,目前基本没有对员工数据进行过滤优化直接存储,这对存储空间的要求更高,投资成本较大,本发明实施例旨在解决上述问题。
本发明实施例中,当公司员工用户桌面需要存储数据至服务器时,发送数据存储指令,本发明实施例自动对待存储数据进行安全检测,以避免含有病毒的数据存储至服务器后对服务器造成损害,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,接着对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息,需要说明的是,同一公司中的员工产生的很多数据具有高度的相似性甚至是完全相同,相似度高的文件会被反复存储在服务器中,这部分相似度高的内容就是冗余重叠信息,例如报表模板、公司公文文件等等,会被很多员工下载并存储,当待存储数据存在冗余重叠信息,自动对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储,可存储数据相比待存储数据能够大幅度节省存储空间,本发明实施例应用在大型企业的云桌面系统中,能够有效减轻集中存储服务器的存储压力。
如图2所示,作为本发明一个优选的实施例,所述对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息的步骤,具体包括:
S201,将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
S202,将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
本发明实施例中,为了确定待存储数据是否存在冗余重叠信息的步骤,需要将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,可以理解,所有计算机数据的最终存储形式为二进制代码,所述特征数据库是事先建立完成的,特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据,具体实施时,可以将企业内部网站、工作群等与特征数据库进行绑定,当企业内部网站发布公司文件数据时,公司文件数据自动同步至特征数据库;当工作群中上传工作模板数据时,工作模板数据自动同步至特征数据库,当然管理员也可手动添加特征数据到特征数据库中;相似度计算后,将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息,所述预设值为提前设定的定值,预设值可以是一个较大的值,这样能够保证待存储数据是特征数据,或者是基于特征数据进行较小的编辑改动,如此能够保证冗余重叠信息的量相对较大,数据过滤优化效果更好。
如图3所示,作为本发明一个优选的实施例,所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤,具体包括:
S2011,将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
S2012,取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
本发明实施例中,进行相似度计算时,需要将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据中二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数,位数表示二进制代码的长度和字节量,遍历计算完成后,取相似度最高的结果为相似度计算结果,将对应的二进制代码重叠部分进行链接标记,随机生成链接信息,每次生成的链接信息都是独一无二的,链接信息比较精简,能够替代字节量较大的二进制代码重叠部分,并得到链接信息所对应的二进制代码(链接代码),由链接代码能够自动调取二进制代码重叠部分。
如图4所示,作为本发明一个优选的实施例,所述对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储的步骤,具体包括:
S301,调取冗余重叠信息对应的链接代码;
S302,根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;
S303,对可存储数据的二进制代码进行存储。
本发明实施例中,为了优化过滤生成可存储数据,需要调取冗余重叠信息所对应的链接代码,将链接代码和待存储数据的二进制代码的非重叠部分进行结合生成可存储数据的二进制代码,然后对可存储数据的二进制代码进行存储即可,这样既保证了存储信息的完整性,又大幅度压缩了存储量。
作为本发明一个优选的实施例,所述方法还包括:对存储的二进制代码进行删除,当员工用户需要删除之前存储的二进制代码时,会对其自动进行检测,当被删除的二进制代码包含链接代码时,同步对链接代码和链接标记进行删除。
作为本发明一个优选的实施例,所述方法还包括:对特征数据库中的特征数据进行更改编辑时,自动保留被链接标记的二进制代码重叠部分的信息,以保证被存储数据的完整性。
如图5所示,本发明实施例还提供了一种数据流过滤系统,所述系统包括:
存储指令接收模块100,用于接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
特征检测模块200,用于对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
优化过滤模块300,当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;以及
直接存储模块400,当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
本发明实施例中,当公司员工用户桌面需要存储数据至服务器时,发送数据存储指令,本发明实施例自动对待存储数据进行安全检测,以避免含有病毒的数据存储至服务器后对服务器造成损害,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,接着对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息,需要说明的是,同一公司中的员工产生的很多数据具有高度的相似性甚至是完全相同,相似度高的文件会被反复存储在服务器中,这部分相似度高的内容就是冗余重叠信息,例如报表模板、公司公文文件等等,会被很多员工下载并存储,当待存储数据存在冗余重叠信息,自动对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储,可存储数据相比待存储数据能够大幅度节省存储空间,本发明实施例应用在大型企业的云桌面系统中,能够有效减轻集中存储服务器的存储压力。
如图6所示,作为本发明一个优选的实施例,所述特征检测模块200包括:
相似度计算单元201,用于将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
冗余重叠信息判定单元202,用于将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
本发明实施例中,为了确定待存储数据是否存在冗余重叠信息的步骤,需要将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,可以理解,所有计算机数据的最终存储形式为二进制代码,所述特征数据库是事先建立完成的,特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据,具体实施时,可以将企业内部网站、工作群等与特征数据库进行绑定,当企业内部网站发布公司文件数据时,公司文件数据自动同步至特征数据库;当工作群中上传工作模板数据时,工作模板数据自动同步至特征数据库,当然管理员也可手动添加特征数据到特征数据库中;相似度计算后,将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息,所述预设值为提前设定的定值,预设值可以是一个较大的值,这样能够保证待存储数据是特征数据,或者是基于特征数据进行较小的编辑改动,如此能够保证冗余重叠信息的量相对较大,数据过滤优化效果更好。
如图7所示,作为本发明一个优选的实施例,所述相似度计算单元201包括:
依次计算子单元2011,用于将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
链接生成子单元2012,用于取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
本发明实施例中,进行相似度计算时,需要将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据中二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数,位数表示二进制代码的长度和字节量,遍历计算完成后,取相似度最高的结果为相似度计算结果,将对应的二进制代码重叠部分进行链接标记,随机生成链接信息,每次生成的链接信息都是独一无二的,链接信息比较精简,能够替代字节量较大的二进制代码重叠部分,并得到链接信息所对应的二进制代码(链接代码),由链接代码能够自动调取二进制代码重叠部分。
如图8所示,作为本发明一个优选的实施例,所述优化过滤模块300包括:
链接代码调取单元301,用于调取冗余重叠信息对应的链接代码;
可存储数据生成单元302,用于根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;以及
优化存储单元303,用于对可存储数据的二进制代码进行存储。
本发明实施例中,为了优化过滤生成可存储数据,需要调取冗余重叠信息所对应的链接代码,将链接代码和待存储数据的二进制代码的非重叠部分进行结合生成可存储数据的二进制代码,然后对可存储数据的二进制代码进行存储即可,这样既保证了存储信息的完整性,又大幅度压缩了存储量。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种数据流过滤方法,其特征在于,所述方法包括以下步骤:
接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;
当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
2.根据权利要求1所述一种数据流过滤方法,其特征在于,所述对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息的步骤,具体包括:
将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
3.根据权利要求2所述一种数据流过滤方法,其特征在于,所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤,具体包括:
将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
4.根据权利要求3所述一种数据流过滤方法,其特征在于,所述对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储的步骤,具体包括:
调取冗余重叠信息对应的链接代码;
根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;
对可存储数据的二进制代码进行存储。
5.根据权利要求4所述一种数据流过滤方法,其特征在于,所述方法还包括对存储的二进制代码进行删除,当被删除的二进制代码包含链接代码时,同步对链接代码和链接标记进行删除。
6.根据权利要求3所述一种数据流过滤方法,其特征在于,所述方法还包括对特征数据库中的特征数据进行更改编辑时,自动保留被链接标记的二进制代码重叠部分的信息。
7.一种数据流过滤系统,其特征在于,所述系统包括:
存储指令接收模块,用于接收数据存储指令,对待存储数据进行安全检测,当安全检测不通过,对待存储数据进行删除过滤;当安全检测通过,进行下一步骤;
特征检测模块,用于对待存储数据进行特征检测,判定待存储数据是否存在冗余重叠信息;
优化过滤模块,当待存储数据存在冗余重叠信息,对冗余重叠信息进行优化过滤生成可存储数据,对可存储数据进行存储;以及
直接存储模块,当待存储数据不存在冗余重叠信息,直接对待存储数据的二进制代码进行存储。
8.根据权利要求7所述一种数据流过滤系统,其特征在于,所述特征检测模块包括:
相似度计算单元,用于将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算,所述特征数据库中包含特征数据和对应的二进制代码,所述特征数据包括公司模板数据和公司文件数据;
冗余重叠信息判定单元,用于将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息;否则,判定为不存在冗余重叠信息。
9.根据权利要求8所述一种数据流过滤系统,其特征在于,所述相似度计算单元包括:
依次计算子单元,用于将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算,每次计算时,首先确定待存储数据与特征数据的二进制代码重叠部分,二进制代码重叠部分即为冗余重叠信息,相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数;
链接生成子单元,用于取相似度最高的结果为相似度计算结果,将特征数据库中对应的二进制代码重叠部分进行链接标记,生成链接代码,由链接代码能够自动调取二进制代码重叠部分。
10.根据权利要求9所述一种数据流过滤系统,其特征在于,所述优化过滤模块包括:
链接代码调取单元,用于调取冗余重叠信息对应的链接代码;
可存储数据生成单元,用于根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码;以及
优化存储单元,用于对可存储数据的二进制代码进行存储。
CN202210747465.8A 2022-06-29 2022-06-29 一种数据流过滤方法及系统 Pending CN114817230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210747465.8A CN114817230A (zh) 2022-06-29 2022-06-29 一种数据流过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210747465.8A CN114817230A (zh) 2022-06-29 2022-06-29 一种数据流过滤方法及系统

Publications (1)

Publication Number Publication Date
CN114817230A true CN114817230A (zh) 2022-07-29

Family

ID=82522528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210747465.8A Pending CN114817230A (zh) 2022-06-29 2022-06-29 一种数据流过滤方法及系统

Country Status (1)

Country Link
CN (1) CN114817230A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203193A (zh) * 2022-09-19 2022-10-18 南京薄幕软件科技有限公司 一种物联网终端设备冗余数据处理方法及系统
CN115292438A (zh) * 2022-10-10 2022-11-04 日照蓝鸥信息科技有限公司 一种电子文档的存储方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103189867A (zh) * 2012-10-30 2013-07-03 华为技术有限公司 重复数据检索方法及设备
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储系统的自适应数据存储与重构方法
CN105843702A (zh) * 2015-01-14 2016-08-10 阿里巴巴集团控股有限公司 一种用于数据备份的方法以及装置
CN109241023A (zh) * 2018-09-21 2019-01-18 郑州云海信息技术有限公司 分布式存储系统数据存储方法、装置、系统及存储介质
CN111277572A (zh) * 2020-01-13 2020-06-12 深圳市赛为智能股份有限公司 云存储安全去重方法、装置、计算机设备及存储介质
CN112651221A (zh) * 2019-10-10 2021-04-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113743239A (zh) * 2021-08-12 2021-12-03 青岛图灵科技有限公司 行人重识别方法、装置及电子设备
CN114637870A (zh) * 2022-03-14 2022-06-17 重庆大学 一种图像数据处理方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103189867A (zh) * 2012-10-30 2013-07-03 华为技术有限公司 重复数据检索方法及设备
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储系统的自适应数据存储与重构方法
CN105843702A (zh) * 2015-01-14 2016-08-10 阿里巴巴集团控股有限公司 一种用于数据备份的方法以及装置
CN109241023A (zh) * 2018-09-21 2019-01-18 郑州云海信息技术有限公司 分布式存储系统数据存储方法、装置、系统及存储介质
CN112651221A (zh) * 2019-10-10 2021-04-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111277572A (zh) * 2020-01-13 2020-06-12 深圳市赛为智能股份有限公司 云存储安全去重方法、装置、计算机设备及存储介质
CN113743239A (zh) * 2021-08-12 2021-12-03 青岛图灵科技有限公司 行人重识别方法、装置及电子设备
CN114637870A (zh) * 2022-03-14 2022-06-17 重庆大学 一种图像数据处理方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203193A (zh) * 2022-09-19 2022-10-18 南京薄幕软件科技有限公司 一种物联网终端设备冗余数据处理方法及系统
CN115203193B (zh) * 2022-09-19 2023-01-06 南京薄幕软件科技有限公司 一种物联网终端设备冗余数据处理方法及系统
CN115292438A (zh) * 2022-10-10 2022-11-04 日照蓝鸥信息科技有限公司 一种电子文档的存储方法和系统

Similar Documents

Publication Publication Date Title
CN114817230A (zh) 一种数据流过滤方法及系统
US11314701B2 (en) Resharding method and system for a distributed storage system
CN111241062B (zh) 一种数据库备份元数据的迁移方法及装置
EP3917115A1 (en) Data processing method and apparatus, computer device, and storage medium
CN108491367B (zh) 报告文档生成的方法、装置、计算机设备和存储介质
CN106844307B (zh) 一种基于标记实现Excel转Word的系统及方法
CN105357307A (zh) 一种文件在线编辑方法、装置及系统
JP4477531B2 (ja) データインポート方法およびデータインポート装置
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN110019169B (zh) 一种数据处理的方法及装置
CN107577809A (zh) 离线小文件处理方法及装置
CN110990427A (zh) 一种应用程序所属区域统计方法、系统及存储介质
CN115455266A (zh) 一种电子档案自动采集归档方法及系统
US11604805B2 (en) Terminal, storage medium, and database synchronization method thereof
CN114546995A (zh) 一种基于图数据库的动态数据迁移方法和系统
CN114328497A (zh) 一种冗余数据处理方法、系统、计算机设备和存储介质
CN106897465B (zh) 一种文件审计方法及系统
CN114218234B (zh) 一种原生图数据存储方法
CN116132431B (zh) 一种数据传输方法及系统
CN117591531B (zh) 一种数据库的远程数据同步方法及系统
CN113626514B (zh) 一种自动化的数据加载方法及装置
CN108959486A (zh) 审计字段信息获取方法、装置、计算机设备和存储介质
CN115146003B (zh) 非侵入式实现数据库增量数据实时同步处理的方法和系统
CN115374218B (zh) 一种异构数据库的数据同步方法、装置、设备及介质
CN113778754A (zh) 数据备份方法及数据还原方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220729

RJ01 Rejection of invention patent application after publication