CN113326485B - 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 - Google Patents
基于动态网络表示学习的抗近邻合谋数字指纹生成方法 Download PDFInfo
- Publication number
- CN113326485B CN113326485B CN202110494761.7A CN202110494761A CN113326485B CN 113326485 B CN113326485 B CN 113326485B CN 202110494761 A CN202110494761 A CN 202110494761A CN 113326485 B CN113326485 B CN 113326485B
- Authority
- CN
- China
- Prior art keywords
- node
- user
- code
- collusion
- neighbor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000005295 random walk Methods 0.000 claims description 14
- 238000005315 distribution function Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Technology Law (AREA)
- Multimedia (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明公开了一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,首先,用动态社交网络构造连续时间网络,利用连续时间网络的邻居结构的影响概率进行有偏向的随机游走以获得节点采样序列。然后通过Skip‑gram模型训练节点采样序列,使得网络结构上邻近的用户具有相似的用户特征向量码,依据用户特征向量码构造数字指纹可追踪到近邻的合谋用户。最后,针对单独的抗合谋码的辨识性会减弱的问题,结合上述用户特征向量码和CFF码共同构造数字指纹,可在合谋人数增多时准确追踪到合谋用户。在高交互的社交网络中合谋泄密者的关系随时间演化,本发明使用邻居结构的影响概率保留了用户之间的近邻关系,可在动态的社交网络环境下追踪到近邻合谋泄密者。
Description
技术领域
本发明涉及数字指纹技术领域,特别是一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法。
背景技术
数字产品在网络传播成为主流,数字产品经拷贝分发泄露给未授权的用户,可能会给分发商带来极大的损失。数字指纹技术将指纹编码嵌入相关数字产品中,当发现非法泄露、散播的数字产品的时候,可依据该数字产品中嵌入的指纹编码信息追查到非法用户。当非法用户明确知道数字内容存在数字指纹时,企图联合其近邻用户破坏数字指纹,动态社交网络具有复杂的用户关系,依据传统的数字指纹将难以追查到近邻合谋用户。传统指纹生成编码技术存在一些缺陷:生成指纹码的数量存在限制,如果数量生成过多,指纹码的长度就会过长;分组是静态的,不易扩展,而且很可能出现用户跨组合谋生成新的盗版产品,降低分组指纹系统的抗合谋攻击性能;合谋者的追踪没有考虑社交网络的影响,因为关系密切的用户极有可能合谋;合谋者的判别没有考虑时间因素的影响,随着时间的演变,合谋关系也会发生变化。此外,在社交网络中,泄密者更容易与近距离社区中的邻居用户勾结,非法散播数字产品。有鉴于此,确有必要设计利用社交网络关系的、具有扩展性且抗近邻合谋的数字指纹码。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,采用基于邻居结构影响的有偏随机游走策略获取采样序列,用Skip-gram模型训练用户特征向量码,并结合抗合谋编码CFF码构造用户指纹码,保留了用户之间的邻居结构,可以快速的追踪到近邻合谋者。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,包括以下步骤:
步骤(1)、选取带有时间戳的动态社交网络数据集构造连续时间网络;
步骤(2)、根据步骤(1)构造的连续时间网络的邻居结构的影响构造概率分布函数,依据概率分布函数在连续时间网络中进行有偏向的随机游走采样,得到节点采样序列的集合;将节点采样序列的集合输入到Skip-gram模型中,训练得到用户特征向量码;
步骤(3)、根据连续时间网络的节点密度生成CFF码,联合用户特征向量码和CFF码生成用户数字指纹。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(1)具体如下:
步骤(1.1)、选择用户所在的动态社交网络数据集,对动态社交网络数据集进行信息提取,提取的信息包括动态社交网络中的节点、两个节点之间的边的时间戳;
步骤(1.2)、根据步骤1.1提取出的节点、带有时间戳的边构建连续时间网络。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(2)具体包括:
步骤(2.1)、置节点采样序列L为空,在步骤(1)得到的连续时间网络中随机选择一条游走的初始边,并将初始边两端的节点加入节点采样序列L中;
步骤(2.2)、置待选节点集合S为空,设定tc为当前时间戳,Δt为采样的时间间隔;在连续时间网络中找出节点采样序列L的最后一个节点的邻居节点,判断该邻居节点与节点采样序列L的最后一个节点构成的边的时间戳是否小于tc+Δt,将边的时间戳小于tc+Δt的边的对应节点加入待选节点集合S中;
步骤(2.3)、步骤(2.2)中得到的待选节点集合S中的节点与节点采样序列L中的邻居节点构成多种不同的邻居结构,使用不同的邻居结构的影响构造概率分布函数P;
步骤(2.4)、将步骤(2.2)的待选节点集合S和步骤(2.3)的概率分布函数P作为别名采样法的抽样参数,使用别名采样法从S中选择节点,选中的节点加入到节点采样序列L中,并更新当前的时间戳tc;
步骤(2.5)、令Ls是所有节点采样序列的集合,设定采样的节点序列长度阈值l,n为随机游走次数,tM为采样的最大边界时间;当节点采样序列L的长度大于节点序列长度阈值l或当前时间戳tc大于tM时,停止游走并将节点采样序列L加入到节点采样序列的集合Ls中,完成一次随机游走;否则返回步骤(2.2);
步骤(2.6)、重复步骤(2.1)-步骤(2.5),当随机游走次数为n时,完成节点采样序列的集合Ls的生成;
步骤(2.7)、将步骤(2.6)获得的节点采样序列的集合Ls输入到Skip-gram模型中,Skip-gram模型最大化连续时间网络中所有节点的邻居节点的共现概率,训练得到用户特征向量码。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(3)具体包括:
步骤(3.1)、根据连续时间网络设定抗合谋的人数x、抗合谋码的元素集F,其中F中的元素个数为y;首先初始化矩阵cFlag,使cFlag的对角线元素为0,其他元素为1;然后将元素集F以每x+1个元素拆分为若干个区组,将这若干个区组与区组{(1,y/(x+1)+1,…,(x×y)/(x+1)+1),(2,y/(x+1)+2,…,(x×y)/(x+1)+2),…,(y/(x+1),2y/(x+1),…,y)}的并集作为基础区组;遍历基础区组的每个元素对,i,j均为元素,如果元素对(i,j)在基础区组中,置矩阵cFlag的第i行第j列为0;
步骤(3.2)、对抗合谋码的元素集F的元素进行x+1阶全排列生成若干个区组,首先去除不符合CFF码构造条件的区组,保留符合CFF码构造条件的区组,然后遍历符合CFF码构造条件的区组的每个元素对,如果元素对(i,j)没有在基础区组中出现过,则置矩阵cFlag的第i行第j列为0;最后将cFlag取反,得到CFF码;
步骤(3.3)、根据级联编码方法联合步骤(2)得到的用户特征向量码与步骤(3.2)得到的CFF码,形成用户数字指纹的矩阵U,将U的每一行作为每一位用户唯一的用户数字指纹。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(3.3)后还包括再将用户数字指纹嵌入到数字产品中分发给用户。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(3)之后还包括步骤(4),具体如下:
步骤(4)、检测用户数字指纹;
将用户数字指纹嵌入数字产品中,当发现非法泄漏的数字产品时,提取数字产品中的用户数字指纹并拆分为用户特征向量码和CFF码,首先将CFF码和指纹库中的用户数字指纹进行汉明距离检测,检测出部分合谋泄密者,然后根据已检测出的部分合谋泄密者在连续时间网络中的邻居关系缩小匹配范围,使用用户特征向量码与指纹库中的用户数字指纹进行汉明距离检测,检测出剩余的近邻合谋泄密者。
作为本发明所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法进一步优化方案,步骤(4)具体包括:
步骤(4.1)、当发现非法泄漏的数字产品时,提取数字产品中的用户数字指纹并拆分为用户特征向量码和CFF码;
步骤(4.2)、逐行对比计算矩阵U的CFF码部分与步骤(4.1)拆分出的CFF码的汉明距离,汉明距离大于给定的CFF码汉明距离的阈值的矩阵U的用户数字指纹被认定为合谋泄密者的用户数字指纹,拥有该用户数字指纹的用户为合谋泄密者;
步骤(4.3)、在连续时间网络中,步骤(4.2)认定的合谋泄密者具有邻居节点;首先提取出矩阵U中的合谋泄密者的邻居节点的用户数字指纹的特征向量码,然后逐个对比步骤(4.1)拆分出的用户特征向量码和合谋泄密者的邻居节点的特征向量码之间的汉明距离,如果汉明距离大于给定的用户特征码汉明距离的阈值,则合谋泄密者的邻居节点的用户数字指纹被认定为近邻合谋泄密者指纹,拥有该用户数字指纹的用户被认定为近邻合谋泄密者。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)抗近邻合谋能力:现存的社交网络指纹编码利用近邻特性来提高检测效率,没有考虑近邻用户更容易合谋的问题;因此,新型指纹码不仅要保留用户近邻特征,还要能抵抗多用户近邻合谋攻击;为解决近邻用户之间的合谋的问题,使用改进的动态网络表示学习算法保留用户近邻关系的特征码,同时引入抗合谋编码CFF码,当发生泄密事件时进行指纹追踪,可以实现叛徒的不可抵赖性以及不陷害合法用户的功能,识别出至少一个叛徒;
(2)快速溯源到社交关系动态变化的合谋泄密者:目前社交网络指纹码的研究是基于静态网络的,但社交网络中用户之间的联系是动态变化的,用户之间的合谋关系也会发生变化,因此根据静态网络生成的指纹码具有较低的可信度;借助动态网络表示学习等技术表示用户节点向量可保留社交网络的动态特征,使用户关系的描述更加准确,更容易发现共谋者;无偏随机游走,下一个节点的访问是随机进行的,与已加入序列中的节点联系并不紧密,改进动态网络表示学习算法的游走策略,对节点序列进行有偏的游走,使得局部信息的构造更加准确,再使用Skip-gram模型学习节点用户特征向量,以此构造指纹码,邻近用户的指纹是相似的,使数字指纹的溯源效果得到提升,利于合谋的检测;
(3)提高数字指纹的鲁棒性:单独的抗合谋码鲁棒性不强,用户之间容易制造伪指纹码。结合动态网络表示学习生成的用户特征码和可抗多个用户合谋的编码,可以提高指纹的鲁棒性。
附图说明
图1为基于动态网络表示学习的抗近邻共谋数字指纹生成流程。
图2为基于动态网络表示学习的抗近邻共谋数字指纹的合谋检测流程。
图3为连续时间网络的构造过程。
图4为不同邻居结构对待选节点的影响概率示例。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提供了一种基于动态网络表示学习的抗近邻合谋数字指纹码生成方法,主要用于解决更易发生合谋的邻居用户泄密数据的问题。包括四个步骤:构造连续时间网络步骤;根据连续时间网络的邻居结构的影响构造概率分布函数进行有偏向的节点采样并训练用户特征向量步骤;结合用户特征码与CFF码步骤;检测指纹码步骤。
步骤1:所述步骤1选取社交网络数据集,构造连续时间网络的具体步骤为:步骤(1.1):静态网络不考虑网络随时间发生演变,网络节点和节点之间的边始终保持不变,而实际情况中,网络的动态特征明显,其节点与节点之间的边均可能随时间发生变化。为使研究贴近实际情况,在静态网络的基础上充分考虑时间要素,需要保留边每条边发生的时间。以network repository.com的动态网络数据集中的小型人际关系网络数据集为例,包含445个用户节点和1426条边,每条边都具有相应的时间戳,时间间隔为1。
步骤(1.2)动态网络表示为G=(V,ET,T),T表示时间的集合,V={v0,...,vi,...,vI},表示连续时间网络的节点集合,ET表示网络中的时序边的集合。边et=(v,t)∈ET被赋予特定的时间戳t∈T。在最小时间粒度的情况下,每条边可能具有互不相同的时间戳值。
融合各时间戳的社交网络图G1,G2,...,Gu为连续时间的社交网络数据集G=(V,ET,T),构造原理如图3所示。将步骤(1.1)所述的社交网络数据集按照上述过程构造带有时间属性的连续时间网络,并根据边的出度筛选可用于网络表示学习的边。连续时间动态网络在传统静态网络的基础上充分考虑了动态网络中边的时序信息,更细致记录网络在演化过程中的所有变化,克服了以网络快照形式表示动态网络过程中信息损失的问题。
所述步骤2根据连续时间网络的邻居的结构影响构造概率分布函数,在有偏随机游走策略下采样节点序列并训练用户特征向量码的具体步骤为:
步骤(2.1):初始边的选择为无偏抽样,对每一条带有时刻标记的连边都分配同样被抽中的概率,初始化节点采样序列L为空,设定每趟采样的节点序列长度l为80,每趟采样的待选节点集合S为空,tc为当前时间戳,Δt为采样的时间间隔,随机游走次数n设定为10000,Ls是所有节点采样序列的集合,tM为采样的最大边界时间22。在步骤(1.2)得到的连续时间网络中随机选择一条边为游走的初始边e0=(350,352),并将e0的两端节点加入节点采样序列L中,L={350,352},更新当前时间戳tc为e0的时间戳,tc=16。
步骤(2.2):游走策略制定的关键在于处理好融合时间的序列,游走过程中,边发生变化的时间顺序必须是递增的。访问节点采样序列L中的新加入节点的邻居节点,将符合时间递增变化的边对应的节点加入待选节点集合S,再根据有偏游走策略在待选节点集合S中选择下一个节点。因此,判断序列中新加入节点的邻边的时间戳是否小于tc+Δt,将边的时间戳小于tc+Δt的边的对应节点加入待选节点集合S中。
节点集为<v1,v2,…,vi,…,vI>,其中(vi,vi+1,t)∈ET。T(vi,vi+1)为vi,vi+1之间边变化时间,T(vi,vi+1)≤T(vi+1,vi+2)说明节点vi,vi+1之间边变化的时间早于节点vi+1,vi+2之间边变化的时间,消息传播路径为vi,vi+1,vi+2。对于网络中的任意两个节点v1,vi,如果存在从v1到vi的时间元路径,则称v1在时间上与vi连通,元路径上的边变化时间是递增的。边的选取应符合时间元路径,因此选择时间戳小于tc+Δt的边对应的节点加入待选节点集合S中,步骤(2.2)中新加入的节点为“352”,符合条件的待选节点集合S={351,353,356,329,355}。
步骤(2.3):构造概率分布函数P,步骤(2.2)中得到的待选节点集合S中的节点与节点采样序列L中的相邻的节点构成多种不同的邻居结构,使用不同邻居结构的影响概率构造概率分布函数P,根据P进行有偏抽样,可控制节点序列的游走过程,联系密切的节点有更高的概率在采样序列中相邻,以此生成用户特征向量码也是相邻的。
无偏随机游走是从当前节点的邻居节点中随机均匀的选取下一节点,重要与非重要节点被按照相同的概率访问,联系不密切的节点会被构造到同一序列中,局部信息的构造不够准确。且节点序列中只有前后相邻的两个节点具有较强的联系,在这种情况下,因具有相似上下文而学习到的相似表示则不具有较高的可信度,相似的结论是不可信的。因此,为获得更加准确的网络结构局部信息,根据不同结构的影响概率进行有偏的随机游走。待选节点集合S中的每个节点sj与sj在节点采样序列L中的邻居节点组成不同的结构,不同结构产生不同的邻居结构影响概率,设定下一个节点的选择遵循如下概率分布:
其中,Pqv,c是邻居结构的影响概率,qv,c是影响目标节点的结构的数量,C是不同邻居结构的集合。
由于节点采样序列L中的序列是严格按照边的时间戳递增的序列,并且只考虑三跳以内的时间元路径,因此只考虑12种不同的邻居结构,C={C0,C1,…,C11}。12种不同的邻居结构可使用待选节点集合S中的待选节点sj的邻居节点的入度和出度表示:{结构:[入度,出度]}。其中,待选节点sj与1个在节点采样序列L中的邻居组成的结构有3种,为
{C0:[0,1];C1:[1,1],[0,1];C2:[2,1],[0,1],[0,1]}
,待选节点sj与2个在节点采样序列L中的邻居组成的结构有4种,为
{C3:[0,1],[0,1];C4:[1,1],[0,2];C5:[1,1],[1,2],[0,1];C6:[1,1],[1,1],[0,2]}
,待选节点sj与3个在L中的邻居组成的结构有5种,为
{C7:[1,1],[0,1],[0,2];C8:[1,1],[1,2][0,2],C9:[2,1],[0,2],[0,2];C10:[2,1],[1,2],[0,3];C11:[0,1],[0,1],[0,1]}。
获取12种结构{C0,C1,…,C11}对应的结构影响概率。A{(u,h,th)}表示动作日志,A中包含的元组表示用户节点u在时刻th转发了事件h。获取选定数据集的同一事件中每一个节点周围的活跃、不活跃的影响结构,然后根据公式统计各结构的影响概率。
其中d+表示对当前活跃节点有影响的结构Cm的实例数,d-表示对当前不活跃节点有影响的结构Cm的实例数,根据以上算法对步骤(1)的动态社交网络进行概率统计,其中,12种结构{C0,C1,…,C11}对应的结构影响概率如图4所示,黑色代表待选集合S中的节点,白色代表节点采样序列L中的节点。
获取每个待选节点集合S中的节点sj与三跳以内的节点采样序列L构成的邻居结构的集合,再根据上述公式进行计算。节点“351”、“356”、“329”、“355”在L中的邻居节点只有“352”,符合结构C0,节点“353”在L中的邻居节点有“350”、“352”,符合结构C4。因此,根据公式计算得到候选节点集合的每个节点的抽样概率为S={353:0.296,351:0.176,356:0.176,329:0.176,355:0.176}。
步骤(2.4):根据步骤(2.3)的采样概率分布函数P,使用别名采样法对S中的节点进行有偏抽样,能让采样过程在Ο(1)的时间复杂度完成。使用别名采样法选择节点时,待选节点集合S、概率函数P为抽样参数,其中,所述别名采样法为:
vi+1=AliasSample(S,P)
使用别名采样法采样得到待选节点集合S中的待选节点“353”,将“353”加入到序列L,L={350,352,353},更新当前时间戳tc为选中的边的时间戳,tc=17。
步骤(2.5):重复步骤(2.2)-步骤(2.4),若节点采样序列L的长度大于节点序列长度阈值80或当前时间戳tc大于采样的最大边界时间22,停止游走并将节点采样序列L加入节点采样序列集合Ls。
步骤(2.6):重复步骤(2.1)-步骤(2.5)n次,完成节点序列集合Ls的生成。
步骤(2.7):从步骤(2.6)得到的节点序列集合中截取每条节点采样序列的子序列作为Skip-gram模型输入,截取考察范围w设定为10,该参数表示在截取节点序列的子序列时,针对节点vi,包含vi的上下文节点的子序列为oi={vi-w,vi-w+1,...,vi+w},l为序列长度,则对于每一个目标节点vi,Skip-gram的目标函数为:
Skip-Gram模型通过层次soft-max加速计算,进行概率建模,最大化随机游走的似然概率。采用随机梯度下降和反向传播算法对节点表示向量进行优化,获得隐层的特征向量,即为每个节点的用户特征向量码。
其中,使用节点“350”、“352”、“353”对步骤(3)和步骤(4)进行说明,经学习后得到的用户特征向量为:
{350:[11.516118,3.90868],352:[16.516539,3.7911081],353:[9.279067,3.2866771]}
所述步骤3生成CFF码并结合步骤(2)得到的用户特征向量码生成用户数字指纹的具体步骤为:
步骤(3.1):根据步骤(1.2)的连续时间网络,网络密度为0.02,节点数量为445,因此设定抗邻居合谋的人数x为2,F的元素个数为12,抗合谋码的元素集F={1,2,3,4,5,6,7,8,9,10,11,12},b为满足CFF区组定义的区组数,构造x-CFF(y,b)抗合谋编码。初始化布尔矩阵cFlag[y][y],cFlag初始时对角线元素值为0,其余元素值为1,约定y和x满足条件y≤z(x+1),z应取满足条件的最小正整数。根据元素集F构造基础区组并修改cFlag[y][y]矩阵对应位置的值。
步骤(3.2):对元素集F的元素进行x+1阶全排列,去除不符合CFF码构造条件的区组,保留符合CFF码构造条件的区组,并再次修改cFlag[y][y]矩阵对应位置的值。
根据组合数学{(1,…,x+1),(x+2,…,2x+2),…,(y-x,…,y)}和{(1,y/(x+1)+1,…,(x×y)/(x+1)+1),(2,y/(x+1)+2,…,(x×y)/(x+1)+2),…,(y/(x+1),2y/(x+1),…,y)}的并集为CFF基础集,以此为初始结果集,同时修改cFlag对应值。遍历每个全排列构成的所有区组,判断某个区组的元素对是否已在cFlag中均未出现过(cFlag对应值为1),则加入该区组到结果集中,同时修改cFlag对应值,最终得到的结果集为
{(1,2,3),(4,5,6),(7,8,9),(10,11,12),(1,5,9),(2,6,10),(3,7,11),(4,8,12),(1,4,7),(1,6,8),(2,4,9),(2,5,7),(2,8,11),(3,4,10),(3,5,8),(3,6,9),(6,7,12)}。根据结果集修改cFlag[y][y]矩阵对应位置的值,cFlag[y][y]矩阵的每行代表一个抗合谋码分配给用户,最多可抵抗x个用户的多种类型攻击。
步骤(3.3):联合步骤(2)动态网络表示学习得到的用户特征向量码与步骤(3.2)得到的CFF码,得到码字矩阵U,每一行作为用户的指纹码分发给用户。其中,步骤(2.7)得到的用户特征向量码按照字典形式存储:{vi:float,float},其中节点对应的特征向量是浮点型数据,将其转换为二进制数据,并按照节点的大小顺序排序,节点“350”、“352”、“353”的二进制用户特征向量码为:
{350:(1000001001110000100001000000100011000000011110100010011111010000)}{352:(1000001100001000010000111011110011000000011100101010000110000100)}{353:(1000001000101000111011100001110011000000010100100101100011101011)}分配给节点“350”、“352”、“353”的二进制CFF码为:
{350:(100010111000)},{352:(100111001000)},{353:(111010001000)}
联合用节点的二进制特征向量码和CFF码,得到用户“350”、“352”、“353”数字指纹。
100000100111000010000100000010001100000001111010001001111101000010001011100010000011000010000100001110111100110000000111001010100001100001001001110010001000001000101000111011100001110011000000010100100101100011101011111010001000
具体算法如流程图1所示。
所述步骤4数字指纹的检测具体步骤为:
步骤(4.1):当发现非法泄漏的数字产品时,提取数字产品中的用户数字指纹并拆分为用户特征向量码和CFF码。步骤(3.2)生成的CFF码的长度为12位,指纹码的总长度为76,统计所提取出的合谋指纹的末尾的12位,即为CFF码的所在位置;
步骤(4.2)、任意不大于2个用户合谋产生的向量都是唯一的,通过对比步骤(4.1)拆分出的CFF码与指纹库中的用户数字指纹的汉明距离,指纹库中不小于给定的CFF码汉明距离阈值的的用户数字指纹,认定为合谋泄密者指纹,拥有该指纹的用户为合谋泄密者;
步骤(4.3)、在连续时间网络中,步骤(4.2)认定的合谋泄密者具有邻居节点,对比步骤(4.1)拆分出的用户特征向量码和合谋泄密者邻居节点的特征向量码之间的汉明距离,合谋泄密者邻居节点的用户数字指纹中不小于给定的用户特征码汉明距离阈值的数字指纹,认定为近邻合谋泄密者指纹,拥有该指纹的用户为近邻合谋泄密者,具体算法如流程图2所示。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (4)
1.一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,其特征在于,包括以下步骤:
步骤(1)、选取带有时间戳的动态社交网络数据集构造连续时间网络;
步骤(2)、根据步骤(1)构造的连续时间网络的邻居结构的影响构造概率分布函数,依据概率分布函数在连续时间网络中进行有偏向的随机游走采样,得到节点采样序列的集合;将节点采样序列的集合输入到Skip-gram模型中,训练得到用户特征向量码;
步骤(3)、根据连续时间网络的节点密度生成CFF码,联合用户特征向量码和CFF码生成用户数字指纹;
步骤(1)具体如下:
步骤(1.1)、选择用户所在的动态社交网络数据集,对动态社交网络数据集进行信息提取,提取的信息包括动态社交网络中的节点、两个节点之间的边的时间戳;
步骤(1.2)、根据步骤(1.1)提取出的节点、带有时间戳的边构建连续时间网络;
步骤(2)具体包括:
步骤(2.1)、置节点采样序列L为空,在步骤(1)得到的连续时间网络中随机选择一条游走的初始边,并将初始边两端的节点加入节点采样序列L中;
步骤(2.2)、置待选节点集合S为空,设定tc为当前时间戳,Δt为采样的时间间隔;在连续时间网络中找出节点采样序列L的最后一个节点的邻居节点,判断该邻居节点与节点采样序列L的最后一个节点构成的边的时间戳是否小于tc+Δt,将边的时间戳小于tc+Δt的边的对应节点加入待选节点集合S中;
步骤(2.3)、步骤(2.2)中得到的待选节点集合S中的节点与节点采样序列L中的邻居节点构成多种不同的邻居结构,使用不同的邻居结构的影响构造概率分布函数P;
步骤(2.4)、将步骤(2.2)的待选节点集合S和步骤(2.3)的概率分布函数P作为别名采样法的抽样参数,使用别名采样法从S中选择节点,选中的节点加入到节点采样序列L中,并更新当前的时间戳tc;
步骤(2.5)、令Ls是所有节点采样序列的集合,设定采样的节点序列长度阈值l,n为随机游走次数,tM为采样的最大边界时间;当节点采样序列L的长度大于节点序列长度阈值l或当前时间戳tc大于tM时,停止游走并将节点采样序列L加入到节点采样序列的集合Ls中,完成一次随机游走;否则返回步骤(2.2);
步骤(2.6)、重复步骤(2.1)-步骤(2.5),当随机游走次数为n时,完成节点采样序列的集合Ls的生成;
步骤(2.7)、将步骤(2.6)获得的节点采样序列的集合Ls输入到Skip-gram模型中,Skip-gram模型最大化连续时间网络中所有节点的邻居节点的共现概率,训练得到用户特征向量码;
步骤(3)具体包括:
步骤(3.1)、根据连续时间网络设定抗合谋的人数x、抗合谋码的元素集F,其中F中的元素个数为y;首先初始化矩阵cFlag,使cFlag的对角线元素为0,其他元素为1;然后将元素集F以每x+1个元素拆分为若干个区组,将这若干个区组与区组{(1,y/(x+1)+1,…,(x×y)/(x+1)+1),(2,y/(x+1)+2,…,(x×y)/(x+1)+2),…,(y/(x+1),2y/(x+1),…,y)}的并集作为基础区组;遍历基础区组的每个元素对,i,j均为元素,如果元素对(i,j)在基础区组中,置矩阵cFlag的第i行第j列为0;
步骤(3.2)、对抗合谋码的元素集F的元素进行x+1阶全排列生成若干个区组,首先去除不符合CFF码构造条件的区组,保留符合CFF码构造条件的区组,然后遍历符合CFF码构造条件的区组的每个元素对,如果元素对(i,j)没有在基础区组中出现过,则置矩阵cFlag的第i行第j列为0;最后将cFlag取反,得到CFF码;
步骤(3.3)、根据级联编码方法联合步骤(2)得到的用户特征向量码与步骤(3.2)得到的CFF码,形成用户数字指纹的矩阵U,将U的每一行作为每一位用户唯一的用户数字指纹。
2.根据权利要求1所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,其特征在于,步骤(3.3)后还包括再将用户数字指纹嵌入到数字产品中分发给用户。
3.根据权利要求2所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,其特征在于,步骤(3)之后还包括步骤(4),具体如下:
步骤(4)、检测用户数字指纹;
将用户数字指纹嵌入数字产品中,当发现非法泄漏的数字产品时,提取数字产品中的用户数字指纹并拆分为用户特征向量码和CFF码,首先将CFF码和指纹库中的用户数字指纹进行汉明距离检测,检测出部分合谋泄密者,然后根据已检测出的部分合谋泄密者在连续时间网络中的邻居关系缩小匹配范围,使用用户特征向量码与指纹库中的用户数字指纹进行汉明距离检测,检测出剩余的近邻合谋泄密者。
4.根据权利要求3所述的一种基于动态网络表示学习的抗近邻合谋数字指纹生成方法,其特征在于,步骤(4)具体包括:
步骤(4.1)、当发现非法泄漏的数字产品时,提取数字产品中的用户数字指纹并拆分为用户特征向量码和CFF码;
步骤(4.2)、逐行对比计算矩阵U的CFF码部分与步骤(4.1)拆分出的CFF码的汉明距离,汉明距离大于给定的CFF码汉明距离的阈值的矩阵U的用户数字指纹被认定为合谋泄密者的用户数字指纹,拥有该用户数字指纹的用户为合谋泄密者;
步骤(4.3)、在连续时间网络中,步骤(4.2)认定的合谋泄密者具有邻居节点;首先提取出矩阵U中的合谋泄密者的邻居节点的用户数字指纹的特征向量码,然后逐个对比步骤(4.1)拆分出的用户特征向量码和合谋泄密者的邻居节点的特征向量码之间的汉明距离,如果汉明距离大于给定的用户特征码汉明距离的阈值,则合谋泄密者的邻居节点的用户数字指纹被认定为近邻合谋泄密者指纹,拥有该用户数字指纹的用户被认定为近邻合谋泄密者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494761.7A CN113326485B (zh) | 2021-05-07 | 2021-05-07 | 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494761.7A CN113326485B (zh) | 2021-05-07 | 2021-05-07 | 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326485A CN113326485A (zh) | 2021-08-31 |
CN113326485B true CN113326485B (zh) | 2022-09-09 |
Family
ID=77414296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110494761.7A Active CN113326485B (zh) | 2021-05-07 | 2021-05-07 | 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326485B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225198A (zh) * | 2015-11-15 | 2016-01-06 | 李启南 | 基于i码和cff码的抗合谋指纹编码方法 |
CN107358072A (zh) * | 2017-07-17 | 2017-11-17 | 兰州交通大学 | 基于i码和cff码的矢量地图数字指纹版权保护方法 |
CN110958232A (zh) * | 2019-11-22 | 2020-04-03 | 南京邮电大学 | 基于cff码和rs码的抗合谋电力数据指纹编码方法 |
CN112507247A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
-
2021
- 2021-05-07 CN CN202110494761.7A patent/CN113326485B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225198A (zh) * | 2015-11-15 | 2016-01-06 | 李启南 | 基于i码和cff码的抗合谋指纹编码方法 |
CN107358072A (zh) * | 2017-07-17 | 2017-11-17 | 兰州交通大学 | 基于i码和cff码的矢量地图数字指纹版权保护方法 |
CN110958232A (zh) * | 2019-11-22 | 2020-04-03 | 南京邮电大学 | 基于cff码和rs码的抗合谋电力数据指纹编码方法 |
CN112507247A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326485A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Data fusion approach for collaborative anomaly intrusion detection in blockchain-based systems | |
Long et al. | Understanding membership inferences on well-generalized learning models | |
Yoo et al. | A joinless approach for mining spatial colocation patterns | |
Laishram et al. | Measuring and improving the core resilience of networks | |
CN111125750B (zh) | 一种基于双层椭圆模型的数据库水印嵌入、检测方法及系统 | |
CN110290110B (zh) | 一种基于冗余检测架构的加密恶意流量识别方法及系统 | |
Liu et al. | Your model trains on my data? Protecting intellectual property of training data via membership fingerprint authentication | |
CN113268770B (zh) | 基于用户活跃度的轨迹k匿名隐私保护方法 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN108173876B (zh) | 基于最大频繁模式的动态规则库构建方法 | |
Ravipati et al. | A survey on different machine learning algorithms and weak classifiers based on KDD and NSL-KDD datasets | |
CN113326485B (zh) | 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 | |
CN111612531B (zh) | 一种点击欺诈的检测方法及系统 | |
Bui et al. | The Computational Complexity of Hierarchical Clustering Algorithms for Community Detection: A Review. | |
Janeja et al. | Random walks to identify anomalous free-form spatial scan windows | |
CN110290101B (zh) | 智能电网环境中基于深度信任网络的关联攻击行为识别方法 | |
Ruotsalainen et al. | Gais: A method for detecting interleaved sequential patterns from imperfect data | |
Wu | Data association rules mining method based on improved apriori algorithm | |
CN114124564B (zh) | 一种仿冒网站检测方法、装置、电子设备及存储介质 | |
Wu et al. | Mining geographic episode association patterns of abnormal events in global earth science data | |
Elbatta et al. | A vibration method for discovering density varied clusters | |
Sun et al. | Efficient online stream clustering based on fast peeling of boundary micro-cluster | |
CN113887577A (zh) | 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法 | |
Huang et al. | Research on Malicious URL Identification and Analysis for Network Security | |
Walia et al. | Finding the influential overlap nodes in communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |