CN107301353A - 一种流式密集型数据脱敏方法及其数据脱敏设备 - Google Patents

一种流式密集型数据脱敏方法及其数据脱敏设备 Download PDF

Info

Publication number
CN107301353A
CN107301353A CN201710499385.4A CN201710499385A CN107301353A CN 107301353 A CN107301353 A CN 107301353A CN 201710499385 A CN201710499385 A CN 201710499385A CN 107301353 A CN107301353 A CN 107301353A
Authority
CN
China
Prior art keywords
data
metadata
desensitization
processing device
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710499385.4A
Other languages
English (en)
Other versions
CN107301353B (zh
Inventor
徐萍
徐茂
邵国安
王砚方
石进中
徐旻
徐昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710499385.4A priority Critical patent/CN107301353B/zh
Publication of CN107301353A publication Critical patent/CN107301353A/zh
Application granted granted Critical
Publication of CN107301353B publication Critical patent/CN107301353B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种流式密集型数据脱敏方法及其数据脱敏设备,设备包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDR SDRAM,多核网络处理器、可扩展连接背板;方法的是:以在线采集、实时过滤、离线关联网络通信应用中的元数据流为目标,有针对性地分类、聚合、关联并依据规范化的数据共享等级规则和策略配置以及定制化白名单,创建有界的数据泛化应用模型和技术以及创新流式密集型数据脱敏的模式和设备。本发明优点是能够大大提高网络流通大数据的共享程度及范围,进行并行异步的数据泛化计算、同步的策略匹配以及线性决策边界扩展,提供定制化可编程的能力,并能够高速、即时地按规则和策略进行非涉密数据的脱敏。

Description

一种流式密集型数据脱敏方法及其数据脱敏设备
技术领域
本发明涉及一种流式密集型数据脱敏方法及其数据脱敏设备,属于信息通信技术领域。本发明应用于互联网络非涉密大数据的按需等级化共享领域,用于解决对网络流通大数据的分析和数据挖掘以及网络安全威胁态势感知的技术问题。
背景技术
目前,互联网络通信及其应用催生并承载着大数据时代。大数据不仅是网络传输的应用数据流通量大、速度高、类型多,更重要的是由于个性化行为的涌现,使得互联网成为既是一个开放的复杂巨系统,而且其动态地承载着复杂和未知的问题,包括网络安全威胁和风险。
互联网的涌现Emerging指的是在同一时期内突然、大量的出现规律性群体行为,所具备的特点是:整体才有而个体不具备的非还原性非加和性;个体之间仅遵循简单的相互作用、相互补充、相互制约的规则;从而产生规模和结构性效应。所表现出的统计特性是:大量遵从简单规律的元素形成复杂的宏观运动,且往往是小概率事件触发一次相变,从而可能导致整个系统的状态变化。
因此,对于互联网大数据,《还原论》Reductionism已不再是范式,在系统复杂性领域的研究也显现出力不从心。以数据为基础的数学模型所表述的复杂系统展现出新的前景,并正迅速发展为一门新的学科—网络科学。
事实证明,不论是加强网络安全防御措施,还是提升态势感知能力;无论是促进社会和产业发展,或是对于科学研究的探索,其必要条件之一是共享数据,尤其是,当且仅当大数据被共享,其价值和作用才能得以挖掘及体现。但是,目前共享数据面临着挑战,包括:敏感数据的泄漏,个人隐私的曝光,甚至某些开放的数据被彼方作为开源情报OSINT收集。另一方面。值得关注的一个普遍现象是:一端是云建设的数据大迁徙后数据不得出门,而另一端却是在缺少真实、完整数据的环境下做着大数据分析工作或经验使然的千人一面解决方案。其中,大数据与大数据共享及分析之间存在一个亟待解决的瓶颈及刚需,即数据脱敏Desensitization。
确保数据隐私权已成为许多受监管行业的法规之一,数据脱敏是生产系统强制执行数据保护工作的手段之一,依据既定的敏感信息使用规则屏蔽业务系统中数据的敏感信息,保障生产数据在非生产环境中安全使用,防止敏感信息泄露。例如,电话号码87652129能被屏蔽为****2129。
然而,生产系统的综合数据不同于网络通信应用的流式Streaming数据。不失一般性,大数据能分为生产性即外延型及格式化存储和流通性即密集型及非格式化交换,其差别包括:
由于分析及处置必须区分数据基本类型,数据脱敏的方法和所采用的技术手段也不尽相同。目前,对流式密集型数据的脱敏还处在相对薄弱或模糊阶段,并由此衬托出大数据挑战的实质:将海量的数据流转换为信息,以发现关键未知和支持及时决策。
从大数据的视角,网络通信应用所产生的是典型的流式密集型数据StreamingData-Intensive。在数据采集和存储的领域,网络通信应用数据流的集合有时被称为全数据。对于如此高速、多变且持续增长的海量数据,完整、可用地处理全数据几乎不可能实现,往往不得不采用传统的采样技术而导致数据不可恢复地丢失及信息不可避免地失真。
鉴于数据脱敏的主要目的是为了信息共享及数据分析,因此根据流式密集型数据的基本属性,本发明把全数据分为元数据和原数据:
参考都柏林核心元数据Dublin Core的规范和应用,元数据的基本作用由两个部分所组成:a.必要性-元数据定义的规范化,既与业务和应用相关、简单明了,又能够成为一般或特殊分析需要的线索点或异常发现的索引;b.重要性-元数据的采集和分析,把大数据分解为小数据,为线索点提供扩展和关联信息以及知识发现。基于元数据的全景采集和全息分类,本发明针对流式密集型数据的脱敏是有规则、有策略、有训练和学习的有界泛化计算。
对流式密集型数据中元数据的全景采集和全息分类是现有技术。
由于流式密集型数据的脱敏综合了通信密集型任务的重复性和计算密集型任务的学习性的特点,依靠纯软件或软件架构的系统难以实现对流式密集型数据脱敏处理。对于通用CPU,元数据流脱敏的有界泛化计算灵活多变的任务越多,花费在任务切换的时间就越多,CPU执行任务的效率就越低。此外,CPU需要通过网卡接收和发送数据,对流式数据的调度、等待、处理以及输入和输出,简称为IO,的开销也不可避免地增加了资源的浪费和操作延时的不确定性。
发明内容
本发明针对大数据的特点以及基本类型和属性,克服通用CPU的技术和应用缺陷,提出一种流式密集型数据脱敏方法及其数据脱敏设备。所述流式密集型数据脱敏方法即Streaming Data-Intensive Desensitization,以下简称SDID。
本发明的流式密集型数据脱敏方法的核心技术构思是:以在线采集、实时过滤、离线关联网络通信应用中的元数据流为目标,有针对性地分类、聚合、关联并依据规范化的数据共享等级规则和策略配置以及定制化白名单,创建有界的数据泛化应用模型和技术以及创新流式密集型数据脱敏的模式和设备。
本发明的流式密集型数据脱敏方法及其数据脱敏设备能够及时、动态地按规则和策略对流式密集型数据脱敏,以可控的数据失真度,支持了网络通信流通大数据的按需等级化共享和相应的数据分析。
在ISO/IEC 27002:2005信息安全标准中定义了数据资产的三个安全属性:保密性、完整性和可用性。尤其是对于国家关键信息基础设施,信息安全需要数据分析,数据分析必须数据共享,数据共享涉及数据资产,而三个安全属性对于不同的应用场景和受众有不同的现实内涵,例如:国家安全National Security与公共安全Public Safety。
从网络运营类型的构成,互联网络划分为包括国内和国际的公共互联网络和包括政府和行业专属局域网络,专属局域网络接入公共互联网络的连接部即为网络边界Perimeter,在本发明中称之为网际,并与云际同义。从专属局域网络的角度来看,互联网业务和应用数据与公共互联网络的交互通过网际流通,而且是网络数据传输的唯一路径,在本发明中称之为第一公里。
从应用安全管理的需求,只有在网际所述第一公里所实时监测和分类采集的流式密集型数据能够具备全景和全息,其中元数据的集合被作为是大数据治理和支配的鸟瞰视图Birds-Eye-View以适应对网络流通大数据分析的完整性和可用性。
从元数据预处理的实现在实际应用中得到改进和完善,但是尚需要建立流式密集型数据脱敏方法的规则和技术手段以保障数据共享和数据分析的脱敏即保密性。
本发明所述流式密集型数据脱敏方法的原理如下:数据脱敏的主要目的为了数据分析的数据共享,因此泛化计算不仅使数据脱敏,而且需要保留数据类与类之间的继承关系,即泛化计算误差最小。通常,在偏差Bias和方差Variance之间有这样一种规律:如果应用模型过于简单,其具有大的偏差;而如果应用模型过于复杂,其就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。为此,针对具体的应用目标,本发明的数据泛化计算简化为二分类问题,即定义输入元数据的类标签V{0,1},其中0标记不需要脱敏的数据,1标记需要脱敏的数据。相应地,定义第一级对于输入元数据流所分割的数据域所包含m个字段域的有序集合F={f1,f2,…,fm},定义第二级对应于F的m个脱敏字段域的有穷集合H={h1,h2,…,hm},其中H是由映射函数G构成。进一步,定义第三级的映射函数G(r,s,q),其中:r是共享规则;s是定制策略;q是分析需求。对应于每一个脱敏字段域,映射函数G(r,s,q)被调用执行泛化计算产生n个字段域,n作为线性决策范围边界,被量化为m×n的矩阵,并且G的匹配算法弹性地修正,使训练误差和泛化误差的接近程度小于一个常数c的概率有下界,保证泛化计算误差在有界范围内趋于一致收敛。SDID包括了数据脱敏的训练和学习,在所述的有穷集合和有界匹配的维度上对标记元数据的泛化计算。所涉及的模型包括:策略和规则的量化,误差训练和学习,映射及匹配。SDID的基本工作流程是,通过规则仲裁,提取需要脱敏的字段域,并在完成所述的泛化计算后,对输出元数据流进行分片签名以防篡改。SDID的基本工作流程通过管道Pipeline并行异步操作,SDID的基本工作流程包括对非脱敏字段域的同步处理以及对元数据流输入和输出的调度。
本发明的数据脱敏设备包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDR SDRAM,多核网络处理器、可扩展连接背板;所述FPGA通过数据链路和数据通道连接元数据前端预处理设备,所述多核网络处理器通过数据链路输出脱敏数据流,所述FPGA和所述TCAM通过数据通道连接所述DDR SDRAM,所述多核网络处理器通过数据通道连接可扩展背板。所述双倍速率同步动态随机存储器DDR SDRAM分别与现场可编程门阵列FPGA、三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA与三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA、多核网络处理器、可扩展背板依次连接。
本发明所述流式密集型数据脱敏方法包括以下步骤:
1、当元数据前端预处理设备传输的网络元数据流到达SDID设备时,FPGA依据FPGA中内置的规则仲裁和调度软件提取所述元数据前端预处理设备传输的网络元数据流中的相应字段及域段;执行所述规则仲裁,并将所述元数据前端预处理设备传输的网络元数据流中无需脱敏的其它字段有序传递给多核网络处理器;
2、所述FPGA通过查询TCAM执行对所述元数据前端预处理设备传输的网络元数据流中的相应字段脱敏策略的边界学习,完成数据脱敏泛化计算并传递给多核网络处理器;
3、所述TCAM为数据脱敏的泛化计算提供量化策略的精确和模糊匹配,所述DDRSDRAM提供定制化的计算边界及执行状态的可视化;
4、所述多核网络处理器对接收到的所述元数据前端预处理设备传输的网络元数据流进行分片防篡改签名,并定向地转发输出;
5、所述FPGA检测所述多核网络处理器的数据转发延时状态,将检测信息反馈给所述前端元数据预处理设备,动态地调度所述元数据前端预处理设备传输的网络元数据流的输入和输出速率以避免拥塞;
6、所述FPGA对当前接收到所述元数据前端预处理设备传输的网络元数据流执行所述规则仲裁,所述TCAM访问所述DDR SDRAM,更新量化的规则和策略;
7、所述FPGA采取多级流水线管道,以所述前端元数据预处理设备的传输网络元数据流的协议特征和物理特点、逻辑属性以及关系特征的组合为目标,实施并行异步的可编程操作;
8、所述DDR SDRAM提供可视化的接口及可视化的图形呈现并按需调整规则和策略配置;
9、所述FPGA记忆同一类型网络通信业务应用的所述元数据前端预处理设备传输的网络元数据流中数据字段的段点和域点、数据类型、数据内涵以及数据格式,且FPGA的无指令、无需共享内存的体系结构具备重复性计算的高效和延时的稳定以及可编程的灵活性和适用性;
10、所述元数据前端预处理设备是一个级联系统,所述元数据前端预处理设备能够对所述元数据前端预处理设备传输的网络元数据流的目标定义和规范实现以及对所述元数据前端预处理设备传输的网络元数据传输流速率控制调度反馈信号的响应。
11、所述数据脱敏设备即SDID设备实现数据脱敏泛化计算功能、所述元数据前端预处理设备传输的网络元数据流输入和输出同步的调度功能、脱敏数据输出防篡改签名功能以及脱敏数据定向和重定向转发输出功能。
所述SDID设备的电路板设置有高速背板接口,通过高速背板接口,一块连接背板能将多个SDID设备连接在一起并扩展成为更高性能的刀片式Blade高集成度的系统。
本发明流式密集型数据脱敏方法及其数据脱敏设备的优点是能够大大地提高网络流通大数据的共享程度及范围,改进数据分析所必须的基本条件和环境,从而加强对互联网络所涌现个性行为和未知风险的发现、威慑及深度监管,为态势感知和决策支持提供完整、可用的定量参考依据。本发明的流式密集型数据脱敏方法及其数据脱敏设备能够及时、动态地按规则和策略对流式密集型数据脱敏,以可控的数据失真度支持了网络通信流通大数据的按需等级化共享和相应的数据分析。本发明流式密集型数据脱敏方法及其数据脱敏设备的优点是能够进行并行异步的数据泛化计算、同步的策略匹配以及线性决策边界扩展,提供定制化可编程的能力,满足了对流式密集型数据脱敏的应用需求,支持了网络通信应用大数据的共享以及相应数据分析和数据应用的发展刚需,并能够高速、即时地按规则和策略进行非涉密数据的脱敏。
附图说明
图1是本发明所述方法的元数据采集和预处理及元数据脱敏的应用场景示意图;
图2是本发明所述方法的元数据的基本集合和来源及其关联关系示意图;
图3是本发明所述方法的数据共享规则红绿灯协议TLP示意图;
图4是本发明所述方法的流式密集型数据脱敏泛化计算的三维边界示意图;
图5是本发明所述方法的流式密集型数据脱敏泛化计算的映射与量化矩阵关系示意图;
图6是本发明所述方法的流式密集型数据脱敏泛化计算的流程示意图;
图7是本发明所述方法的流式密集型数据脱敏泛化计算的并行异步处理示意图;
图8是本发明所述流式密集型数据脱敏设备的结构示意图;
图9是本发明所述方法的流程示意图;
图10是本发明所述方法的流式密集型数据流的二分类(0,1)及域和段标识仲裁示意图;
附图8-10标记说明如下:
1-搭载SDID设备的数据脱敏泛化计算模块的FPGA现场可编程门阵列,2-搭载SDID设备的量化策略匹配软件模块的TCAM三态内容寻址存储器,3-搭载SDID设备的所执行定制化规则和策略的DDRSDRAM双倍速率同步动态随机存储器,4-搭载SDID设备的输出数据防篡改签名以及脱敏数据定向转发软件模块的多核网络处理器,5-可扩展连接背板系统,11-数据输入链路GE或10GE,12-数据高速传输通道PCI-e,13-信号传输通道,14-数据输出链路GE,15-系统通信数据通道接口,20-元数据流输入的时间戳,21-元数据输入的流速F1,30-数据脱敏模块泛化计算的时间戳,31-数据脱敏模块传递数据的速率,40-脱敏数据输出模块操作的时间戳,41-元数据输出的流速F2,50-元数据流输入和输出的延时补偿T。60-输入的元数据流,61-域点即记录之间的划分和62-段点即字段之间的分隔以及0-1分类的仲裁标识。
具体实施方式
下面结合附图1-10,详细说明本发明的具体实施方式。
如图8所示,本发明的数据脱敏设备包括:现场可编程门阵列FPGA1,三态内容寻址存储器TCAM2,双倍速率同步动态随机存储器DDR SDRAM3,多核网络处理器4、可扩展连接背板5;所述FPGA1通过数据链路11和数据通道13连接元数据前端预处理设备,所述多核网络处理器4通过数据链路14输出脱敏数据流,所述FPGA1和所述TCAM2通过数据通道12连接所述DDR SDRAM3,所述多核网络处理器4通过数据通道15连接可扩展背板5。所述双倍速率同步动态随机存储器DDR SDRAM3分别与现场可编程门阵列FPGA1、三态内容寻址存储器TCAM2连接;所述现场可编程门阵列FPGA1与三态内容寻址存储器TCAM2连接;所述现场可编程门阵列FPGA1、多核网络处理器4、可扩展背板5依次连接。
本发明所述流式密集型数据脱敏方法包括以下步骤:
1、当元数据前端预处理设备传输的网络元数据流到达SDID设备时,FPGA1依据FPGA1中内置的规则仲裁和调度软件提取所述元数据前端预处理设备传输的网络元数据流中的相应字段及域段;执行所述规则仲裁,并将所述元数据前端预处理设备传输的网络元数据流中无需脱敏的其它字段有序传递给多核网络处理器4;
2、所述FPGA1通过查询TCAM2执行对所述元数据前端预处理设备传输的网络元数据流中的相应字段脱敏策略的边界学习,完成数据脱敏泛化计算并传递给多核网络处理器4;
3、所述TCAM2为数据脱敏的泛化计算提供量化策略的精确和模糊匹配,所述DDRSDRAM3提供定制化的计算边界及执行状态的可视化;
4、所述多核网络处理器4对接收到的所述元数据前端预处理设备传输的网络元数据流进行分片防篡改签名,并定向地转发输出;
5、所述FPGA1检测所述多核网络处理器4的数据转发延时状态,将检测信息反馈给所述前端元数据预处理设备,动态地调度所述元数据前端预处理设备传输的网络元数据流的输入和输出速率以避免拥塞;
6、所述FPGA1对当前接收到所述元数据前端预处理设备传输的网络元数据流执行所述规则仲裁,所述TCAM2访问所述DDR SDRAM3,更新量化的规则和策略;
7、所述FPGA1采取多级流水线管道,以所述前端元数据预处理设备的传输网络元数据流的协议特征和物理特点、逻辑属性以及关系特征的组合为目标,实施并行异步的可编程操作;
8、所述DDR SDRAM3提供可视化的接口及可视化的图形呈现并按需调整规则和策略配置;
9、所述FPGA1记忆同一类型网络通信业务应用的所述元数据前端预处理设备传输的网络元数据流中数据字段的段点和域点、数据类型、数据内涵以及数据格式,且FPGA1的无指令、无需共享内存的体系结构具备重复性计算的高效和延时的稳定以及可编程的灵活性和适用性;
10、所述元数据前端预处理设备是一个级联系统,所述元数据前端预处理设备能够对所述元数据前端预处理设备传输的网络元数据流的目标定义和规范实现以及对所述元数据前端预处理设备传输的网络元数据传输流速率控制调度反馈信号的响应。
11、所述数据脱敏设备即SDID设备实现数据脱敏泛化计算功能、所述元数据前端预处理设备传输的网络元数据流输入和输出同步的调度功能、脱敏数据输出防篡改签名功能以及脱敏数据定向和重定向转发输出功能。
所述SDID设备的电路板设置有高速背板接口,通过高速背板接口,一块连接背板能将多个SDID设备连接在一起并扩展成为更高性能的刀片式Blade高集成度的系统。
互联网络的拓扑结构是一个复杂系统,其表现为无界的互联互通以及多种技术和多类应用的融合;在互联网络中传输和流通的应用数据是一个复杂问题,其表现为突现的或新加的涌现行为以及对其复合体行为特征和属性的未知。
因此,互联网络的流通大数据所面临的问题是:将海量的数据流转换为信息,以发现关键未知和支持及时决策;而所须应对的是:复杂系统的复杂问题,并且是整体大于部分之和,即无法以孤立部分或加和还原的特征来解释。
对互联网络大数据深度分析和有效利用的必要条件之一是完整及可用的数据源,在网际采集互联网络流通大数据如图1所示,不仅在第一公里具有全景和全息,而且有明确的应用场景和受众以及针对性和目标性。另一方面,互联网络流通大数据的数据量并不等于信息量,从网络传输的全数据中过滤元数据的协议特征,并在实时监测中附加观察元数据的物理特点;在预处理中分析关联元数据的逻辑属性;在深度解析中发现衍生元数据的关系特征,构成多源互补的元数据集Metadata Sets,如图2所示。其中,对网络流通的应用元数据的分类包括但不限于:通过检测数据交互的协议特征采集元数据;通过标识数据传输的物理特点监测元数据;通过扩展数据关系的逻辑属性关联元数据;通过对过滤数据的行为分析衍生可追溯元数据。
对互联网络大数据深度分析和有效利用的充分条件之一是数据共享,包括网络安全威胁信息共享,为此对非涉密的数据共享的规则已被规范化,本发明中所述TLP是以图3所示的“红绿灯协议”Traffic Light Protocol为共享数据的分类基础,用四种颜色:红色1、黄色2、绿色3、白色4,直观地定义并标识共享数据的范围等级,不仅灵活、直观地适用于不同的应用场景,而且能够按需对共享数据做出适时的数据等级定义或数据等级调整。
本发明所述的流式密集型数据脱敏泛化计算不同于对静态存储数据的一般性加密/解密、屏蔽、替换、置空、轮换的操作,而是基于如图4所示有界的三个维度所建立学习模型、训练算法以及误差评估及弹性修正模式。其中,数据共享等级规则r是基于TLP;量化的定制策略s是应用于元数据流中具体字段域的泛化计算参数集合;数据训练及分析需求q是调整和修正泛化计算的参数集合,映射函数G所包含学习和训练算法在(r,s,q)三个维度的空间进行泛化计算。
本发明所述的量化包括,数字化、结构化、非结构化以及自定义的数据格式和定制化白名单,通过如图4所示的映射函数G(r,s,q)计算表达为m×n的矩阵。如图5所示,F={f1,f2,…,fm},即输入元数据流的m个划分字段域,通过映射函数G(r,s,q)转换为H={h1,h2,…,hm},即输出元数据流的m个脱敏字段域,其中,每个脱敏字段域对应于一个有穷类泛化集合fi∈{aij},1≤i≤m,1≤j≤n,通过弹性调整误差在集合{aij}线性决策并赋值fi
本发明的元数据泛化计算简化为针对二分类(0-1)问题,即按既定规则仲裁元数据流中需要脱敏的数据字段域与不需要脱敏的数据字段域,如图6所示描述元数据流的数据脱敏基本工作流程。
为应对元数据流输入的实时和有序,本发明以管道Pipeline模式流水处理所述的流式密集型数据及重复性任务的方法如下:
由现场可编程门阵列完成所述数据脱敏泛化计算;三态内容寻址存储器提供量化策略的有界匹配;多核网络处理器完成所述的防篡改数据的签名计算,图7给出并行异步计算以及同步输入输出过程的示意,其中的现场可编程门阵列FPGA无指令、无需共享内存的体系结构提供强大的计算能力和足够的灵活性;三态内容寻址存储器TCAM的匹配速度不受表项空间数据大小影响,每个时钟周期完成一次查找。如图7所示,形成管道流水处理的现场可编程门阵列FPGA是级联方式或嵌入模式以满足所述的计算功能以及必需性能;与TCAM和DDR SDRAM异步完成调度、提取、学习、计算的操作;与多核网络处理器并行输出脱敏数据流,包括对元数据流输入/输出的控制反馈。
如图10所示,由于输入的元数据流已做过分类预处理,数据流脱敏能对同类元数据流的数据域和字段域段执行同结构、同规则、同计算的可记忆操作。其中,对于所输入的元数据流,数据域是由一个数据包或报文中承载的所有元数据所组成,以所述域点分隔;字段域是该数据域中的一个元数据,以所述段点划分。
如图8所示,当经过预处理的元数据流通过数据链路11到达所述SDID设备时,所述搭载SDID设备的数据脱敏泛化计算模块的FPGA1(以下简称模块FPGA1)进行如下并行异步的操作:依据规则仲裁字段或字域,提取需要脱敏的字段,通过数据通道12与所述搭载SDID设备的量化策略匹配软件模块的TCAM2(以下简称模块TCAM2)交互完成训练和学习,包括泛化计算,并通过数据通道12向所述搭载SDID设备的输出数据防篡改签名以及脱敏数据定向转发软件模块的多核网络处理器4(以下简称模块多核网络处理器4)传递数据,包括不需要脱敏的数据;同步地,作为搭载SDID设备的所执行定制化规则和策略的DDR SDRAM3(以下简称模块DDR SDRAM3)通过可视化图形呈现定义规则和表述策略;所述模块FPGA1和所述模块TCAM2通过数据通道12接受所述模块DDR SDRAM3的信息更新;所述模块多核网络处理器4对已脱敏数据分片签名防篡改以及通过数据通道14有序输出,并将数据输出状态通过数据通道12传递给所述模块FPGA1;所述模块FPGA1通过数据通道13完成对输入元数据流的流量控制。所述模块和数据通道均在一块高速电路板PCB上布局布线,包括内嵌的系统通信数据通道接口15,与可扩展的连接背板系统5构成更大处理能力的数据脱敏系统。借助于现场可编程门阵列FPGA和三态内容寻址存储器TCAM以及多核网络处理器Multicore NP的硬件特点及能力,利用软件定义的算法及编程,所述脱敏设备以稳定的延时和吞吐量,实现对流式密集型数据脱敏的泛化计算及重复性多任务。
如图9所示,从元数据流输入时间戳20到元数据流输入时间戳40的延时是Δ=t4-t0,其中所述数据脱敏泛化计算所需要的时间是δ1=t2-t1;所述脱敏数据签名计算所需要的时间是δ2=t4-t3;延时Δ=δ1+δ2,并且是线性常数c,因此所述脱敏设备的泛化计算算法及数据处理延时的时间复杂性是O(c)。利用这个特性,能确定所述元数据流输入F1和输出F2的延时补偿T50,进而作为流量控制反馈信号的驱动,以保障所述管道Pipeline的数据流水处理有序,且不会出现拥塞。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。

Claims (9)

1.一种数据脱敏设备,其特征在于,包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDR SDRAM,多核网络处理器、可扩展连接背板;所述FPGA通过数据链路和数据通道连接元数据前端预处理设备,所述多核网络处理器通过数据链路输出脱敏数据流,所述FPGA和所述TCAM通过数据通道连接所述DDR SDRAM,所述多核网络处理器通过数据通道连接可扩展背板;所述双倍速率同步动态随机存储器DDR SDRAM分别与现场可编程门阵列FPGA、三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA与三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA、多核网络处理器、可扩展背板依次连接。
2.一种流式密集型数据脱敏方法,其特征在于,包括以下步骤:
(1)、当元数据前端预处理设备传输的网络元数据流到达SDID设备时,FPGA依据FPGA中内置的规则仲裁和调度软件提取所述元数据前端预处理设备传输的网络元数据流中的相应字段及域段;执行所述规则仲裁;
(2)、所述FPGA通过查询TCAM执行对所述元数据前端预处理设备传输的网络元数据流中的相应字段脱敏策略的边界学习;
(3)、所述TCAM为数据脱敏的泛化计算提供量化策略的精确和模糊匹配,所述DDRSDRAM提供定制化的计算边界及执行状态的可视化;
(4)、所述多核网络处理器对接收到的所述元数据前端预处理设备传输的网络元数据流进行分片防篡改签名,并定向地转发输出;
(5)、所述FPGA检测所述多核网络处理器的数据转发延时状态,将检测信息反馈给所述前端元数据预处理设备,动态地调度所述元数据前端预处理设备传输的网络元数据流的输入和输出速率以避免拥塞;
(6)、所述FPGA对当前接收到所述元数据前端预处理设备传输的网络元数据流执行所述规则仲裁,所述TCAM访问所述DDR SDRAM,更新量化的规则和策略;
(7)、所述FPGA采取多级流水线管道,以所述前端元数据预处理设备的传输网络元数据流的协议特征和物理特点、逻辑属性以及关系特征的组合为目标,实施并行异步的可编程操作;
(8)、所述DDR SDRAM提供可视化的接口及可视化的图形呈现并按需调整规则和策略配置;
(9)、所述FPGA记忆同一类型网络通信业务应用的所述元数据前端预处理设备传输的网络元数据流中数据字段的段点和域点、数据类型、数据内涵以及数据格式。
3.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述步骤(1)中,将所述元数据前端预处理设备传输的网络元数据流中无需脱敏的其它字段有序传递给多核网络处理器。
4.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述步骤(2)中,完成数据脱敏泛化计算并传递给多核网络处理器。
5.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述步骤(9)中,FPGA的无指令、无需共享内存的体系结构能够重复性计算。
6.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述步骤(10)中,所述元数据前端预处理设备能够对所述元数据前端预处理设备传输的网络元数据流的目标定义和规范实现以及对所述元数据前端预处理设备传输的网络元数据传输流速率控制调度反馈信号的响应。
7.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,数据脱敏设备即SDID设备实现数据脱敏泛化计算功能。
8.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述元数据前端预处理设备传输的网络元数据流输入和输出同步的调度功能、脱敏数据输出防篡改签名功能以及脱敏数据定向和重定向转发输出功能。
9.根据权利要求2所述的一种流式密集型数据脱敏方法,其特征在于,所述元数据前端预处理设备是一个级联系统。
CN201710499385.4A 2017-06-27 2017-06-27 一种流式密集型数据脱敏方法及其数据脱敏设备 Expired - Fee Related CN107301353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710499385.4A CN107301353B (zh) 2017-06-27 2017-06-27 一种流式密集型数据脱敏方法及其数据脱敏设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710499385.4A CN107301353B (zh) 2017-06-27 2017-06-27 一种流式密集型数据脱敏方法及其数据脱敏设备

Publications (2)

Publication Number Publication Date
CN107301353A true CN107301353A (zh) 2017-10-27
CN107301353B CN107301353B (zh) 2020-06-09

Family

ID=60135589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710499385.4A Expired - Fee Related CN107301353B (zh) 2017-06-27 2017-06-27 一种流式密集型数据脱敏方法及其数据脱敏设备

Country Status (1)

Country Link
CN (1) CN107301353B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413087A (zh) * 2018-11-16 2019-03-01 京东城市(南京)科技有限公司 数据共享方法、装置、数字网关及计算机可读存储介质
CN109740363A (zh) * 2019-01-04 2019-05-10 贵州大学 文档分级脱敏加密方法
CN110781519A (zh) * 2019-10-31 2020-02-11 东华大学 一种语音数据发布的安全脱敏方法
CN112631982A (zh) * 2020-12-25 2021-04-09 清华大学 基于众核架构的数据交换方法及装置
CN113544683A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据一般化装置、数据一般化方法、程序
CN115225575A (zh) * 2022-06-08 2022-10-21 香港理工大学深圳研究院 一种基于元数据辅助和联邦学习的未知网络流量分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986271A (zh) * 2010-10-29 2011-03-16 中兴通讯股份有限公司 调度tcam查询和刷新消息的方法和装置
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN103281158A (zh) * 2013-05-13 2013-09-04 昊优明镝(天津)科技有限公司 深度网络通信粒度检测方法及其检测设备
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106599322A (zh) * 2017-01-03 2017-04-26 北京网智天元科技股份有限公司 数据脱敏的方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986271A (zh) * 2010-10-29 2011-03-16 中兴通讯股份有限公司 调度tcam查询和刷新消息的方法和装置
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN103281158A (zh) * 2013-05-13 2013-09-04 昊优明镝(天津)科技有限公司 深度网络通信粒度检测方法及其检测设备
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106599322A (zh) * 2017-01-03 2017-04-26 北京网智天元科技股份有限公司 数据脱敏的方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
D.E.BAKKEN ET AL.: "Data obfuscation:anonymity and desensitization of usable data sets", 《IEEE SECURITY & PRIVACY》 *
佚名: "数据脱敏介绍", 《HTTPS://WWW.CNBLOGS.COM/YANGZAILU/P/6755440.HTML》 *
崔敏龙: "商业秘密保护中数据脱敏技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
陈天莹,陈剑锋: "大数据环境下的智能数据脱敏系统", 《CNKI期刊》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413087A (zh) * 2018-11-16 2019-03-01 京东城市(南京)科技有限公司 数据共享方法、装置、数字网关及计算机可读存储介质
CN109740363A (zh) * 2019-01-04 2019-05-10 贵州大学 文档分级脱敏加密方法
CN109740363B (zh) * 2019-01-04 2023-03-14 贵州大学 文档分级脱敏加密方法
CN113544683A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据一般化装置、数据一般化方法、程序
CN113544683B (zh) * 2019-03-11 2023-09-29 日本电信电话株式会社 数据一般化装置、数据一般化方法、程序
CN110781519A (zh) * 2019-10-31 2020-02-11 东华大学 一种语音数据发布的安全脱敏方法
CN112631982A (zh) * 2020-12-25 2021-04-09 清华大学 基于众核架构的数据交换方法及装置
CN115225575A (zh) * 2022-06-08 2022-10-21 香港理工大学深圳研究院 一种基于元数据辅助和联邦学习的未知网络流量分类方法
CN115225575B (zh) * 2022-06-08 2023-11-24 香港理工大学深圳研究院 一种基于元数据辅助和联邦学习的未知网络流量分类方法

Also Published As

Publication number Publication date
CN107301353B (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN107301353A (zh) 一种流式密集型数据脱敏方法及其数据脱敏设备
Ramu et al. Federated learning enabled digital twins for smart cities: Concepts, recent advances, and future directions
Rajput et al. Identifying Industry 4.0 IoT enablers by integrated PCA-ISM-DEMATEL approach
Park et al. A study on smart factory-based ambient intelligence context-aware intrusion detection system using machine learning
Raj et al. The digital twin paradigm for smarter systems and environments: The industry use cases
Zhao et al. Lightweight deep learning based intelligent edge surveillance techniques
Zhong et al. A systematic survey of data mining and big data analysis in internet of things
Souza et al. An outlier detect algorithm using big data processing and internet of things architecture
US20180276508A1 (en) Automated visual information context and meaning comprehension system
Qu et al. Statistics-enhanced direct batch growth self-organizing mapping for efficient DoS attack detection
Peng et al. A broad learning-driven network traffic analysis system based on fog computing paradigm
Barbareschi et al. Malicious traffic analysis on mobile devices: a hardware solution
Marosi et al. Toward reference architectures: A cloud-agnostic data analytics platform empowering autonomous systems
Borelli et al. Architectural software patterns for the development of IoT smart applications
Čisar et al. Machine Learning Aspects of Internet Firewall Data
Dai Analysis of data interaction process based on data mining and neural Network topology visualization
Zhang et al. Research on lightweight blockchain technology based on edge computing
Aceto et al. AI-powered Internet Traffic Classification: Past, Present, and Future
Vasoya et al. Potentials of machine learning for data analysis in IoT: A detailed survey
Prakash et al. A comprehensive survey of trending tools and techniques in deep learning
Narang Mentor's Musings on Security Standardization Challenges and Imperatives for Artificial Intelligence of Things
Zhao et al. Deep Learning Anomaly Detection Based on Hierarchical Status-Connection Features in Networked Control Systems.
Goswami et al. Taxonomy and Implications of Machine Learning for Internet of Things: Qualities, Uses and Algorithms
Xu et al. Integration of Mixture of Experts and Multimodal Generative AI in Internet of Vehicles: A Survey
Akinsola et al. Application of Artificial Intelligence for DDoS Attack Detection and Prevention on Cyber Physical Systems Using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200609