CN114817230A

CN114817230A - 一种数据流过滤方法及系统

Info

Publication number: CN114817230A
Application number: CN202210747465.8A
Authority: CN
Inventors: 熊应; 王卫波; 黄耀曦; 胡广; 何瑞斌; 曹迪
Original assignee: Shenzhen Leyi Network Co ltd
Current assignee: Shenzhen Leyi Network Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-07-29

Abstract

本发明适用于数据过滤技术领域，提供了一种数据流过滤方法及系统，所述方法包括以下步骤：接收数据存储指令，对待存储数据进行安全检测，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，进行下一步骤；对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息；当待存储数据存在冗余重叠信息，对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储；当待存储数据不存在冗余重叠信息，直接对待存储数据进行存储。本发明通过对冗余重叠信息进行优化过滤生成可存储数据，可存储数据相比待存储数据能够大幅度节省存储空间，能够有效减轻集中存储服务器的存储压力，降低服务器的存储空间需求。

Description

一种数据流过滤方法及系统

技术领域

本发明涉及数据过滤技术领域，具体是涉及一种数据流过滤方法及系统。

背景技术

随着现代化办公的不断发展，大型企业每天都会产生大量数据流，存储设备需要对这些数据流进行存储，对存储空间的要求较高，另外，随着云桌面的不断应用和推广，云桌面具有集中存储、集中运算的优势，基于VDI系统架构的云桌面系统是把所有的客户机数据运算都集中在服务器端管理和存储，客户桌面接收的只是操作系统环境，整个企业的员工数据全部存储在服务器中，目前基本没有对员工数据进行过滤优化直接存储，这对存储空间的要求更高，投资成本较大，因此，需要提供一种数据流过滤方法及系统，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种数据流过滤方法及系统，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种数据流过滤方法，所述方法包括以下步骤：

接收数据存储指令，对待存储数据进行安全检测，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，进行下一步骤；

对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息；

当待存储数据存在冗余重叠信息，对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储；

当待存储数据不存在冗余重叠信息，直接对待存储数据的二进制代码进行存储。

作为本发明进一步的方案：所述对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息的步骤，具体包括：

将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算，所述特征数据库中包含特征数据和对应的二进制代码，所述特征数据包括公司模板数据和公司文件数据；

将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息；否则，判定为不存在冗余重叠信息。

作为本发明进一步的方案：所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤，具体包括：

将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算，每次计算时，首先确定待存储数据与特征数据的二进制代码重叠部分，二进制代码重叠部分即为冗余重叠信息，相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数；

取相似度最高的结果为相似度计算结果，将特征数据库中对应的二进制代码重叠部分进行链接标记，生成链接代码，由链接代码能够自动调取二进制代码重叠部分。

作为本发明进一步的方案：所述对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储的步骤，具体包括：

调取冗余重叠信息对应的链接代码；

根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码；

对可存储数据的二进制代码进行存储。

作为本发明进一步的方案：所述方法还包括对存储的二进制代码进行删除，当被删除的二进制代码包含链接代码时，同步对链接代码和链接标记进行删除。

作为本发明进一步的方案：所述方法还包括对特征数据库中的特征数据进行更改编辑时，自动保留被链接标记的二进制代码重叠部分的信息。

本发明的另一目的在于提供一种数据流过滤系统，所述系统包括：

存储指令接收模块，用于接收数据存储指令，对待存储数据进行安全检测，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，进行下一步骤；

特征检测模块，用于对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息；

优化过滤模块，当待存储数据存在冗余重叠信息，对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储；以及

直接存储模块，当待存储数据不存在冗余重叠信息，直接对待存储数据的二进制代码进行存储。

作为本发明进一步的方案：所述特征检测模块包括：

相似度计算单元，用于将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算，所述特征数据库中包含特征数据和对应的二进制代码，所述特征数据包括公司模板数据和公司文件数据；

冗余重叠信息判定单元，用于将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息；否则，判定为不存在冗余重叠信息。

作为本发明进一步的方案：所述相似度计算单元包括：

依次计算子单元，用于将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算，每次计算时，首先确定待存储数据与特征数据的二进制代码重叠部分，二进制代码重叠部分即为冗余重叠信息，相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数；

链接生成子单元，用于取相似度最高的结果为相似度计算结果，将特征数据库中对应的二进制代码重叠部分进行链接标记，生成链接代码，由链接代码能够自动调取二进制代码重叠部分。

作为本发明进一步的方案：所述优化过滤模块包括：

链接代码调取单元，用于调取冗余重叠信息对应的链接代码；

可存储数据生成单元，用于根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码；以及

优化存储单元，用于对可存储数据的二进制代码进行存储。

与现有技术相比，本发明的有益效果是：

本发明通过对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息，当待存储数据存在冗余重叠信息，自动对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储，可存储数据相比待存储数据能够大幅度节省存储空间，能够有效减轻集中存储服务器的存储压力，降低服务器的存储空间需求。

附图说明

图1为一种数据流过滤方法的流程图。

图2为一种数据流过滤方法中对待存储数据进行特征检测的流程图。

图3为一种数据流过滤方法中将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的流程图。

图4为一种数据流过滤方法中对冗余重叠信息进行优化过滤生成可存储数据的流程图。

图5为一种数据流过滤系统的结构示意图。

图6为一种数据流过滤系统中特征检测模块的结构示意图。

图7为一种数据流过滤系统中相似度计算单元的结构示意图。

图8为一种数据流过滤系统中优化过滤模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种数据流过滤方法，所述方法包括以下步骤：

S100，接收数据存储指令，对待存储数据进行安全检测，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，进行下一步骤；

S200，对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息；

S300，当待存储数据存在冗余重叠信息，对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储；

S400，当待存储数据不存在冗余重叠信息，直接对待存储数据的二进制代码进行存储。

需要说明的是，随着现代化办公的不断发展，大型企业每天都会产生大量数据流，存储设备需要对这些数据流进行存储，对存储空间的要求较高，另外，随着云桌面的不断应用和推广，云桌面具有集中存储、集中运算的优势，基于VDI系统架构的云桌面系统是把所有的客户机数据运算都集中在服务器端管理和存储，客户桌面接收的只是操作系统环境，整个企业的员工数据全部存储在服务器中，目前基本没有对员工数据进行过滤优化直接存储，这对存储空间的要求更高，投资成本较大，本发明实施例旨在解决上述问题。

本发明实施例中，当公司员工用户桌面需要存储数据至服务器时，发送数据存储指令，本发明实施例自动对待存储数据进行安全检测，以避免含有病毒的数据存储至服务器后对服务器造成损害，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，接着对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息，需要说明的是，同一公司中的员工产生的很多数据具有高度的相似性甚至是完全相同，相似度高的文件会被反复存储在服务器中，这部分相似度高的内容就是冗余重叠信息，例如报表模板、公司公文文件等等，会被很多员工下载并存储，当待存储数据存在冗余重叠信息，自动对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储，可存储数据相比待存储数据能够大幅度节省存储空间，本发明实施例应用在大型企业的云桌面系统中，能够有效减轻集中存储服务器的存储压力。

如图2所示，作为本发明一个优选的实施例，所述对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息的步骤，具体包括：

S201，将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算，所述特征数据库中包含特征数据和对应的二进制代码，所述特征数据包括公司模板数据和公司文件数据；

S202，将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息；否则，判定为不存在冗余重叠信息。

本发明实施例中，为了确定待存储数据是否存在冗余重叠信息的步骤，需要将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算，可以理解，所有计算机数据的最终存储形式为二进制代码，所述特征数据库是事先建立完成的，特征数据库中包含特征数据和对应的二进制代码，所述特征数据包括公司模板数据和公司文件数据，具体实施时，可以将企业内部网站、工作群等与特征数据库进行绑定，当企业内部网站发布公司文件数据时，公司文件数据自动同步至特征数据库；当工作群中上传工作模板数据时，工作模板数据自动同步至特征数据库，当然管理员也可手动添加特征数据到特征数据库中；相似度计算后，将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息，所述预设值为提前设定的定值，预设值可以是一个较大的值，这样能够保证待存储数据是特征数据，或者是基于特征数据进行较小的编辑改动，如此能够保证冗余重叠信息的量相对较大，数据过滤优化效果更好。

如图3所示，作为本发明一个优选的实施例，所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤，具体包括：

S2011，将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算，每次计算时，首先确定待存储数据与特征数据的二进制代码重叠部分，相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数；

S2012，取相似度最高的结果为相似度计算结果，将特征数据库中对应的二进制代码重叠部分进行链接标记，生成链接代码，由链接代码能够自动调取二进制代码重叠部分。

本发明实施例中，进行相似度计算时，需要将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算，每次计算时，首先确定待存储数据与特征数据中二进制代码重叠部分，二进制代码重叠部分即为冗余重叠信息，相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数，位数表示二进制代码的长度和字节量，遍历计算完成后，取相似度最高的结果为相似度计算结果，将对应的二进制代码重叠部分进行链接标记，随机生成链接信息，每次生成的链接信息都是独一无二的，链接信息比较精简，能够替代字节量较大的二进制代码重叠部分，并得到链接信息所对应的二进制代码（链接代码），由链接代码能够自动调取二进制代码重叠部分。

如图4所示，作为本发明一个优选的实施例，所述对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储的步骤，具体包括：

S301，调取冗余重叠信息对应的链接代码；

S302，根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码；

S303，对可存储数据的二进制代码进行存储。

本发明实施例中，为了优化过滤生成可存储数据，需要调取冗余重叠信息所对应的链接代码，将链接代码和待存储数据的二进制代码的非重叠部分进行结合生成可存储数据的二进制代码，然后对可存储数据的二进制代码进行存储即可，这样既保证了存储信息的完整性，又大幅度压缩了存储量。

作为本发明一个优选的实施例，所述方法还包括：对存储的二进制代码进行删除，当员工用户需要删除之前存储的二进制代码时，会对其自动进行检测，当被删除的二进制代码包含链接代码时，同步对链接代码和链接标记进行删除。

作为本发明一个优选的实施例，所述方法还包括：对特征数据库中的特征数据进行更改编辑时，自动保留被链接标记的二进制代码重叠部分的信息，以保证被存储数据的完整性。

如图5所示，本发明实施例还提供了一种数据流过滤系统，所述系统包括：

存储指令接收模块100，用于接收数据存储指令，对待存储数据进行安全检测，当安全检测不通过，对待存储数据进行删除过滤；当安全检测通过，进行下一步骤；

特征检测模块200，用于对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息；

优化过滤模块300，当待存储数据存在冗余重叠信息，对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储；以及

直接存储模块400，当待存储数据不存在冗余重叠信息，直接对待存储数据的二进制代码进行存储。

如图6所示，作为本发明一个优选的实施例，所述特征检测模块200包括：

相似度计算单元201，用于将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算，所述特征数据库中包含特征数据和对应的二进制代码，所述特征数据包括公司模板数据和公司文件数据；

冗余重叠信息判定单元202，用于将相似度计算结果大于预设值的待存储数据判定为存在冗余重叠信息；否则，判定为不存在冗余重叠信息。

如图7所示，作为本发明一个优选的实施例，所述相似度计算单元201包括：

依次计算子单元2011，用于将待存储数据的二进制代码与特征数据库中所有的二进制代码依次进行相似度计算，每次计算时，首先确定待存储数据与特征数据的二进制代码重叠部分，二进制代码重叠部分即为冗余重叠信息，相似度=二进制代码重叠部分的位数/特征数据库中对应的二进制代码的位数；

链接生成子单元2012，用于取相似度最高的结果为相似度计算结果，将特征数据库中对应的二进制代码重叠部分进行链接标记，生成链接代码，由链接代码能够自动调取二进制代码重叠部分。

如图8所示，作为本发明一个优选的实施例，所述优化过滤模块300包括：

链接代码调取单元301，用于调取冗余重叠信息对应的链接代码；

可存储数据生成单元302，用于根据链接代码和待存储数据的二进制代码的非重叠部分生成可存储数据的二进制代码；以及

优化存储单元303，用于对可存储数据的二进制代码进行存储。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据流过滤方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述一种数据流过滤方法，其特征在于，所述对待存储数据进行特征检测，判定待存储数据是否存在冗余重叠信息的步骤，具体包括：

3.根据权利要求2所述一种数据流过滤方法，其特征在于，所述将待存储数据的二进制代码与特征数据库中的二进制代码进行相似度计算的步骤，具体包括：

4.根据权利要求3所述一种数据流过滤方法，其特征在于，所述对冗余重叠信息进行优化过滤生成可存储数据，对可存储数据进行存储的步骤，具体包括：

调取冗余重叠信息对应的链接代码；

对可存储数据的二进制代码进行存储。

5.根据权利要求4所述一种数据流过滤方法，其特征在于，所述方法还包括对存储的二进制代码进行删除，当被删除的二进制代码包含链接代码时，同步对链接代码和链接标记进行删除。

6.根据权利要求3所述一种数据流过滤方法，其特征在于，所述方法还包括对特征数据库中的特征数据进行更改编辑时，自动保留被链接标记的二进制代码重叠部分的信息。

7.一种数据流过滤系统，其特征在于，所述系统包括：

8.根据权利要求7所述一种数据流过滤系统，其特征在于，所述特征检测模块包括：

9.根据权利要求8所述一种数据流过滤系统，其特征在于，所述相似度计算单元包括：

10.根据权利要求9所述一种数据流过滤系统，其特征在于，所述优化过滤模块包括：

优化存储单元，用于对可存储数据的二进制代码进行存储。