CN113452674A - 一种基于伽罗瓦域的流量日志多视图匿名方法 - Google Patents

一种基于伽罗瓦域的流量日志多视图匿名方法 Download PDF

Info

Publication number
CN113452674A
CN113452674A CN202110556556.9A CN202110556556A CN113452674A CN 113452674 A CN113452674 A CN 113452674A CN 202110556556 A CN202110556556 A CN 202110556556A CN 113452674 A CN113452674 A CN 113452674A
Authority
CN
China
Prior art keywords
log
address
seed
galois field
polynomial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110556556.9A
Other languages
English (en)
Other versions
CN113452674B (zh
Inventor
董恺
周俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Original Assignee
Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd filed Critical Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority to CN202110556556.9A priority Critical patent/CN113452674B/zh
Publication of CN113452674A publication Critical patent/CN113452674A/zh
Application granted granted Critical
Publication of CN113452674B publication Critical patent/CN113452674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer

Abstract

本发明公开了一种基于伽罗瓦域的流量日志多视图匿名方法,包括如下步骤:(1)生成种子日志的算子选取方案;(2)获取基于伽罗瓦域的分布式种子日志;(3)生成多视图算子选取方案;(4)企业和第三方进行通信。本发明能实现取消对于企业指定的密钥有限制;伽罗瓦域不仅能够准确表示IP地址空间的结构特征,而且是从单个流量包的层面对IP地址进行映射,所以对于所有流量日志都适用;求逆运算可以在不受时空影响地情况下确定性地将一个原始IP地址映射成一个匿名IP地址,所以种子日志能在分布式环境下生成;降低企业与第三方的通讯成本。

Description

一种基于伽罗瓦域的流量日志多视图匿名方法
技术领域
本发明涉及流量日志多视图匿名方法,尤其涉及一种基于伽罗瓦域的流量日志多视图匿名方法。
背景技术
收集到真实有效的流量数据并外包给专业机构进行分析,有助于促进企业的网络系统研究。将先进的流量分析技术应用到企业妥善收集和保存的流量数据上,对于企业而言有着重要的技术价值和商业价值,包括优化服务器部署、挖掘用户商业行为、审查网络安全等等。同时,随着企业网络流量的规模越来越大,对于流量数据的分析往往需要外包给专业的分析者。
然而企业面临着发布流量日志和保护隐私的困境。一个最主要的原因就是流量数据真实保存了很多敏感信息,特别是服务器IP地址,用户IP地址等等,这些敏感信息代表了企业和用户的隐私,而将未经处理的流量数据文件转交给第三方会有很大的可能导致隐私信息泄露。因此企业在将日志外包给专业的分析者时由于担心隐私被泄露而迟疑不决。流量日志中包含的真实数据特征代表了日志的有效性,暴露的真实信息反映了日志的隐私性,业界公认有效性和隐私性之间存在一种权衡,正是这种权衡给企业造成了困境。为了解决这一困境,匿名手段被广泛研究并且应用在流量日志中的IP地址字段。TCPdpriv采用随机映射的方式进行匿名。该方法随机的将IP地址一对一映射到一个32位的整数,经过这个方法匿名后的IP地址与匿名前的地址没有关联特征,很大程度上保护了隐私性;然而随机的映射使得分布式收集的IP地址无法进行统一的汇总,因此有效性随之大幅度降低。CryptoPAn使用前缀保留方案在分布式环境中替换原始IP。该方法不仅可以实现共享前缀的IP地址匿名后依然共享前缀,而且可以被部署在分布式环境中获取流量日志,这就意味着企业在不同流量节点获取的日志可以合并分析,因此一经提出就被广泛的采用;然而保留了前缀的日志也被实验证明在抵御指纹攻击和注入攻击时表现很脆弱,也就意味着牺牲了一部分的隐私性。
多视图方案提供了一种范式,将有效性和隐私性的权衡转移到有效性隐私性和计算开销的权衡。在匿名阶段,企业根据原始的流量日志生成多个流量日志,其中只有一个是真实的;在外包的阶段,企业同时将多个流量日志发布给分析机构进行分析。在这种情况下,保证有效性和隐私性是通过增加计算开销实现的。
为了拥有较小的通信开销,多视图方案根据流量日志生成一个种子日志以及多个参数作为沟通成本。其中每个参数可以跟种子日志进行运算生成新的日志,这样企业在与第三方通信的时候就不需要发布多个日志本身,仅需要发布种子日志和参数。
然而现有基于伪随机数的多视图方案有很多局限性,包括:
(1)对于企业指定的密钥有限制,否则不能保证有效性;
(2)对于流量日志本身的IP地址数据特征有很高的要求,否则不能保证隐私性;
(3)这种方案也不能实现分布式环境下的流量匿名;
(4)企业与第三方的沟通成本会随着日志中流量的增多而增加。
发明内容
发明目的:本发明的目的是提供一种在保证有效性和隐私性的情况下,取消企业使用密钥的限制,对所有流量日志都适用,能够实现分布式环境下的流量日志匿名,以更小的沟通成本实现企业与第三方的基于伽罗瓦域的流量日志多视图匿名方法。
技术方案:本发明的流量日志多视图匿名方法,包括如下步骤:
(1)确定生成种子日志的算子选取方案;
(2)获取基于伽罗瓦域的分布式种子日志;
(3)确定生成多视图算子选取方案;
(4)企业将种子日志和多视图算子外包给分析机构。
进一步,步骤(1)中,所述生成种子日志的算子的步骤为:
(11)在部署前,企业需要选择伽罗瓦域中的求逆运算作为算子的一部分,将原始IP地址以符合双射标准的形式映射到匿名IP地址;
(12)通过伽罗瓦域中的求逆运算和不可约多项式实现IP地址的匿名转化。
进一步,步骤(2)中,种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤(1)得出的不可约多项式和相应求逆算法;部署后,进行分布式的流量日志获取同时匿名,包括步骤如下:
(21)获取经过流量节点的每个流量包;
(22)对每个流量包中的信息进行解析;
(23)将需要保存到种子日志中的具体信息进行提取;
(24)将提取的信息中的原始IP地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f-1(x);再接着将多项式f-1(x)构造为匿名IP地址;
(25)最后使用匿名IP地址替换提取的信息中的原始IP地址,并将提取出来的信息组织成企业指定的格式写入种子日志。
进一步,步骤(3)中,所述生成多视图算子是基于伽罗瓦域的多项式求逆运算,包括步骤:
(31)首先企业选取多个不可约多项式组V,作为求逆运算的参数,求逆运算能保证不同的不可约多项式组得到与种子日志形成双射的不同日志;
(32)其次企业需要将步骤(1)中部署的不可约多项式组插入选取的不可约多项式组V中。
本发明与现有技术相比,其显著效果如下:1、求逆运算可以在不受时空影响地情况下确定性地将一个原始IP地址映射成一个匿名IP地址,所以种子日志能在分布式环境下生成;2、不可约多项式组vL用于将种子日志映射为真实日志,因而真实的分析报告能够生成;3、步骤(3)中的匿名vL和V中的其他不可约多项式组不可区分,即真实日志和伪日志不可区分,所以企业的隐私得以保护;4、伽罗瓦域不仅能够准确表示IP地址空间的结构特征,而且是从单个流量包的层面对IP地址进行映射,所以对于所有流量日志都适用;5、步骤(2)中使用伽罗瓦域可以根据任意不可约多项式实现原始IP地址到匿名IP地址的确定性映射,所以企业能够任意指定不可约多项式,取消了对企业使用密钥的限制;6、通信成本的多视图算子M大小固定,且不会随着真实日志中地流量数增加而增加,所以企业和第三方分析机构的通信成本降低。
附图说明
图1为本发明的总流程示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
本发明的总流程图如图1所示,以对流量日志中的IP地址进行匿名为例,包括如下步骤:
(1)确定生成种子日志的算子选取方案;
(2)获取基于伽罗瓦域的分布式种子日志;
(3)确定生成多视图的算子选取方案;
(4)企业和第三方进行通信,企业将种子日志和多视图算子外包给分析机构。
分别对真实日志、种子日志、伪日志和流量日志定义如下:
真实日志:指的是包含原始IP的日志。
种子日志:指的是包含匿名IP的日志,可用于生成真实日志和伪日志。
伪日志:指的是包含匿名IP的日志;在多视图中,伪日志与种子日志的区别是:种子日志只有一个,而伪日志的数量由企业随意指定。
流量日志:是真实日志、种子日志、伪日志的统称。
详细实现过程如下:
步骤1,生成种子日志的算子选取方案。
在伽罗瓦域中,每一个元素都存在一个逆,并且元素跟逆是两两匹配,这种映射方式是一种双射。本发明的多视图算子采用基于伽罗瓦域的求逆运算,将原始IP以符合双射的方式映射到匿名IP;此外,多视图算子在进行求逆运算时需要伽罗瓦域的一个不可约多项式的参与,因此要求企业为IP地址空间所代表的伽罗瓦域随机选择一个不可约多项式,以生成种子日志。实现步骤如下:
(11)在部署前,企业需要选择一个转换规则作为匿名算子,它的作用是将原始IP映射到一个匿名IP,且这种映射方式应该符合双射的标准。
(12)IP地址的匿名转化。
IP地址的匿名转化,意味着将原始IP映射到IP地址空间中的另一个IP作为匿名IP,而且这个映射符合双射的特点。本发明通过伽罗瓦域中的求逆运算和一个不可约多项式实现匿名转化过程。
伽罗瓦域表示一个有限元素集合以及元素间的运算法则,定义为GF(pm),其中p代表一个素数,m代表一个整数;当m>1时,伽罗瓦域GF(pm)中的任意元素都可以表示为多项式,形式为:
e(x)=am-1xm-1+am-2xm-2+…+a1x1+a0 (1)
式(1)中系数ai的取值范围为[0,p-1];对应到二进制,有限域为GF(2m),其中元素的系数的取值范围为[0,1];对应到IP地址空间,系数ai(i=m-1,m-2,…,0)代表从右往左数第n-1位的数字。
不可约多项式表示该多项式在GF(pm)中不能找到两个元素e1(x)和e2(x)使得P(x)=e1(x)·e2(x)。设系数取值范围为[0,p-1]的所有多项式集合为Q,对于任意一个域GF(pm),都能找到一个不可约多项式P(x),使得:①Q中的任意元素mod P(x)的结果在域中;②域中的任一元素e(x),都能在Q中能找到一个元素q(x),使得q(x)mod P(x)=e(x)。不可约多项式的形式为:
P(x)=kmxm+km-1xm-1+…+k1x1+k0 (2)
式(2)中,kj(j=m,m-1,…,0)取值范围为[0,p-1]。
由式(2)可知,该不可约多项式的最高次项次数为m,即阶为m,因为只有这种形式才能保证GF(2m)中元素的逆与GF(2m)的元素是双射关系。对于给定的GF(2m),借助Cantor-Zassenhaus算法计算不可约多项式。
在本发明中,由于将IP地址看作是4个多项式,所以生成种子日志的算子中不可约多项式是一个包含4个不可约多项式的不可约多项式组,用vL=[P1L,P2L,P3L,P4L]表示,其中,PnL(n=1,2,3,4)表示生成种子日志的不可约多项式组中第n个不可约多项式。
对于GF(2m)中一个给定的多项式元素和对应的一个不可约多项式P(x),域中的任意非零元素A(x)的逆定义为:
A-1(x)·A(x)≡1mod P(x) (3)
步骤2,获取基于伽罗瓦域的分布式种子日志。
种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤1得出的不可约多项式和相应求逆算法;部署后即可以进行分布式的流量日志获取同时匿名,实现步骤为:
(21)首先获取经过流量节点的每个流量包;
(22)然后对每个流量包中的信息进行解析;
(23)接着将需要保存到种子日志中的具体信息进行提取;
(24)其次将提取的信息中的原始IP地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f-1(x);再接着将多项式f-1(x)转化为匿名IP地址;
(25)最后使用匿名IP地址替换提取的信息中的原始IP地址,并将提取出来的信息组织成种子日志的格式写入种子日志。
在生成种子日志之前,企业需要在路由器、服务器等收集流量日志的所有节点均部署步骤1得出的不可约多项式vL和相应的求逆算法。部署后,进行获取分布式的种子日志。
其中涉及到伽罗瓦域的匿名:将IP地址转化为多项式f(x)→,选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算I,得到新的f-1(x)多项式→,将多项式f-1(x)转化为匿名IP地址。详细步骤如下:
(s21)将原始IP地址构造为多项式;地址空间可以表示为[b1.b2.b3.b4],其中bj(j=1,2,3,4)是一个字节,包含8个bit位,每个bit位的取值为0/1,因此bj构造为一个GF(2m)上的多项式,表示为a7x7+a6x6+…+a1x1+a0,其中ai(i=0,1,2,3,4,5,6,7)取值分别对应bj中的第j-1个bit位。
(s22)分别对每个bj采用拓展欧几里得算法,求关于步骤1部署的不可约多项式的逆,计算后的匿名IP可以表示为[b1 -1.b2 -1.b3 -1.b4 -1]。
种子日志在不断地分布式写入,企业在外包流量日志(此处不变)进行分析时,指定节点与时间段即可汇总得到经过统一匿名的种子日志作为实际外包内容。
步骤3,生成多视图算子的选取方案。
在多视图范式中,真实日志和伪日志并不由企业进行生成,而是由一些参数表示,并且在第三方通过参数和种子日志生成,因此需要企业指定参数和多视图算子(此处不变)。多视图算子依然采取基于伽罗瓦域的的多项式求逆运算,步骤如下:
(31)企业选取多个不可约多项式形成不可约多项式组,作为求逆运算的参数,求逆运算能保证不同的不可约多项式得到与种子日志形成双射的不同伪日志;
(32)企业需要将步骤1中部署的不可约多项式插入新选取的不可约多项式组中,具体位置只有企业了解,通过这一步就能保证第三方生成的流量日志中包含真实日志。
假定企业指定第三方需要分析日志数量为N,那么首先企业需要选取4*(N-1)个不可约多项式形成N-1个不可约多项式组V:
V=[v1,v2,…vN-1] (4)
式(4)中,vk=[P1,P2,P3,P4],k=1,2,3…,N-1; (5)
式(5)中,Pn(n=1,2,3,4)为一个不可约多项式;
其次企业需要将步骤1中部署的不可约多项式组vL插入新选取的不可约多项式组V中的任意位置r,通过这一步就能保证第三方生成的流量日志(包括真实日志和伪日志)中的第r个为真实日志,也即第r个分析报告为真实的分析报告,但是具体的r只有企业了解。
步骤4,企业和第三方通信方案。
企业将种子日志(不改变)和多视图算子(不可约多项式组V和求逆算法)外包给分析机构。通过这种方式,在此后的外包过程中,仅需要将种子日志和不可约多项式组V进行发布。不管真实日志中包含多少条流量记录,真实日志和伪日志仅由一个不可约多项式组表示,所以每次外包的参数成本都是相同且简短的,不会受到真实日志中包含流量条数的影响。

Claims (4)

1.一种基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,包括如下步骤:
(1)确定生成种子日志的算子选取方案;
(2)获取基于伽罗瓦域的分布式种子日志;
(3)确定生成多视图算子选取方案;
(4)企业将种子日志和多视图算子外包给分析机构。
2.根据权利要求1所述的基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,步骤(1)中,所述生成种子日志的算子的步骤为:
(11)在部署前,企业需要选择伽罗瓦域中的求逆运算作为算子的一部分,将原始IP地址以符合双射标准的形式映射到匿名IP地址;
(12)通过伽罗瓦域中的求逆运算和不可约多项式实现IP地址的匿名转化。
3.根据权利要求2所述的基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,步骤(2)中,种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤(1)得出的不可约多项式和相应求逆算法;部署后,进行分布式的流量日志获取同时匿名,包括步骤如下:
(21)获取经过流量节点的每个流量包;
(22)对每个流量包中的信息进行解析;
(23)将需要保存到种子日志中的具体信息进行提取;
(24)将提取的信息中的原始IP地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f-1(x);再接着将多项式f-1(x)构造为匿名IP地址;
(25)最后使用匿名IP地址替换提取的信息中的原始IP地址,并将提取出来的信息组织成企业指定的格式写入种子日志。
4.根据权利要求1所述的基于伽罗瓦域的流量日志多视图匿名方法,其特征在于,步骤(3)中,所述生成多视图算子是基于伽罗瓦域的多项式求逆运算,包括步骤:
(31)首先企业选取多个不可约多项式组V,作为求逆运算的参数,求逆运算能保证不同的不可约多项式组得到与种子日志形成双射的不同日志;
(32)其次企业需要将步骤(1)中部署的不可约多项式组插入选取的不可约多项式组V中。
CN202110556556.9A 2021-05-21 2021-05-21 一种基于伽罗瓦域的流量日志多视图匿名方法 Active CN113452674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110556556.9A CN113452674B (zh) 2021-05-21 2021-05-21 一种基于伽罗瓦域的流量日志多视图匿名方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556556.9A CN113452674B (zh) 2021-05-21 2021-05-21 一种基于伽罗瓦域的流量日志多视图匿名方法

Publications (2)

Publication Number Publication Date
CN113452674A true CN113452674A (zh) 2021-09-28
CN113452674B CN113452674B (zh) 2024-05-07

Family

ID=77809995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110556556.9A Active CN113452674B (zh) 2021-05-21 2021-05-21 一种基于伽罗瓦域的流量日志多视图匿名方法

Country Status (1)

Country Link
CN (1) CN113452674B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020097291A (ko) * 2001-06-20 2002-12-31 (주)엔토시스 무선 인터넷 로그 분석 방법
CN104219080A (zh) * 2013-06-05 2014-12-17 北京齐尔布莱特科技有限公司 一种网站错误页日志记录方法
US20150242262A1 (en) * 2014-02-26 2015-08-27 Microsoft Corporation Service metric analysis from structured logging schema of usage data
CN105721627A (zh) * 2016-02-25 2016-06-29 中国科学院信息工程研究所 一种ip网络流数据在线匿名化方法
US9497205B1 (en) * 2008-05-19 2016-11-15 Emc Corporation Global commonality and network logging
CN108351946A (zh) * 2015-11-20 2018-07-31 赛门铁克公司 用于匿名化日志条目的系统和方法
CN110457258A (zh) * 2019-08-06 2019-11-15 北京字节跳动网络技术有限公司 一种日志管理方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020097291A (ko) * 2001-06-20 2002-12-31 (주)엔토시스 무선 인터넷 로그 분석 방법
US9497205B1 (en) * 2008-05-19 2016-11-15 Emc Corporation Global commonality and network logging
CN104219080A (zh) * 2013-06-05 2014-12-17 北京齐尔布莱特科技有限公司 一种网站错误页日志记录方法
US20150242262A1 (en) * 2014-02-26 2015-08-27 Microsoft Corporation Service metric analysis from structured logging schema of usage data
CN108351946A (zh) * 2015-11-20 2018-07-31 赛门铁克公司 用于匿名化日志条目的系统和方法
CN105721627A (zh) * 2016-02-25 2016-06-29 中国科学院信息工程研究所 一种ip网络流数据在线匿名化方法
CN110457258A (zh) * 2019-08-06 2019-11-15 北京字节跳动网络技术有限公司 一种日志管理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113452674B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN114175568B (zh) 安全的多方到达率和频率估算
JP6105068B2 (ja) コンテンツ隠蔽ブルームフィルタを用いたセキュアプライベートデータベースクエリ
Soofi et al. A review on data security in cloud computing
Moataz et al. Constant communication ORAM with small blocksize
US8291237B2 (en) Method for private keyword search on streaming data
Mohammady et al. Preserving both privacy and utility in network trace anonymization
WO2013097886A1 (en) Dynamic pseudonymization method for user data profiling networks and user data profiling network implementing the method
CA3171992A1 (en) Method and system for confidential string-matching and deep packet inspection
Persiano et al. Lower bounds for differentially private RAMs
EP3590244B1 (en) Partition-based prefix preserving anonymization approach for network traces containing ip addresses
CN114327261B (zh) 数据文件的存储方法及数据安全代理
CN113157778B (zh) 分布式数据仓库的可代理查询方法、系统、设备及介质
Abadi et al. Feather: Lightweight multi-party updatable delegated private set intersection
Grivet Sébert et al. SPEED: secure, PrivatE, and efficient deep learning
CN116488814A (zh) 一种基于fpga的数据加密的安全计算方法
Sethi et al. Group security using ECC
Saxena et al. Data integrity verification: a novel approach for cloud computing
CN113452674A (zh) 一种基于伽罗瓦域的流量日志多视图匿名方法
Mohammady et al. A multi-view approach to preserve privacy and utility in network trace anonymization
Bishop et al. Some problems in sanitizing network data
Banerjee et al. Cellular automata based cryptography model for reliable encryption using state transition in wireless network optimizing data security
Mohammady Novel approaches to preserving utility in privacy enhancing technologies
Joshi et al. A Survey on Assured Data Deletion in Cloud Storage
Lindqvist Privacy preserving audit proofs
MOHAMMADY et al. A Multi-view Approach to Preserve Both Privacy and Utility in Network Trace Anonymization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant