CN105096101B - 基于lda模型及中心度算法的邮件网络取证分析方法 - Google Patents
基于lda模型及中心度算法的邮件网络取证分析方法 Download PDFInfo
- Publication number
- CN105096101B CN105096101B CN201510390803.7A CN201510390803A CN105096101B CN 105096101 B CN105096101 B CN 105096101B CN 201510390803 A CN201510390803 A CN 201510390803A CN 105096101 B CN105096101 B CN 105096101B
- Authority
- CN
- China
- Prior art keywords
- node
- value
- top1
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 16
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 claims description 9
- 101150041570 TOP1 gene Proteins 0.000 claims description 9
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 7
- 238000003012 network analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于LDA模型及中心度算法的邮件网络取证分析方法,包括以下步骤:读取邮件数据,对邮件数据进行基于一犯罪主题的查询,得到查询结果;根据查询结果,构造以邮件用户为节点,以用户通信关系为边的邮件网络图;对查询结果中的每一封邮件,基于LDA模型计算其主题分布;计算查询结果中的每一封邮件基于犯罪主题的关联值;计算每条边基于犯罪主题的关联值;根据邮件网络图中每条边的关联值,计算每个节点的中心值;根据上一步得到的所有节点的中心值求节点的影响因子,影响因子大于设定阈值的即为基于所述犯罪主题的可疑对象。本发明协助调查取证人员查找可疑人群及分析核心成员角色,为计算机犯罪案件取证提供辅助和支持。
Description
技术领域
本发明涉及一种基于LDA模型及中心度算法的邮件网络取证分析方法。
背景技术
如今,电子邮件的应用已遍及社会各行各业,它使得人们之间的沟通变得更加方便快捷,但同时也为犯罪分子提供了犯罪的新途径。一些违法犯罪分子利用电子邮件组织并策划一系列犯罪活动,甚至是利用电子邮件的形式进行走私货物的贩卖。电子邮件犯罪已经对人们的财产安全造成严重的影响,作为数字取证的一个重要分支,电子邮件取证的技术应用问题已成为当前研究和讨论的热点。电子邮件数据不但记录了通讯双方的联系,还包含了通信的时间、频率和内容等信息,这些为数字取证调查提供了重要的数据来源。
目前,关于邮件网络结构的分析,一些学者从社交网络角度对邮件网络开展了广泛的研究,如社团划分、重要节点的发现、社会关系与地位的推断等.但是大部分社交网络层面的研究工作重点在于构建社交网络层面的普适性算法,考虑的因素较少,挖掘的结果比较宏观.
如Zhang Lixiao等采用基于多级贪婪策略的重叠社区发现算法MSG-OCD来检测初始社区结构,并分析重叠社区结构。胡天天等将社会网络分析方法应用于邮件网络分析,提出了基于CN-M(CoreNode-Module)的邮件网络核心社团挖掘算法。Henderson等提出了结构角色的概念,用于对复杂网络的节点进行划分及节点行为的分析预测。随后,Rossir等通过考察节点结构角色的变化构建了一种分析网络及节点结构变化模式的方法。
综上,关于电子邮件的网络结构分析研究已经出现了较完善的技术和方法,但这些方法大多只考虑了网络的逻辑结构,并没有进一步考虑邮件的特有属性。邮件网络除去社交网络中共有的结构特征之外,还有许多特有的属性,如时间、抄送关系、主题内容等,这些特征在邮件通信网络的分析中同样具有重要的价值。
本发明基于LDA模型和中心度算法,提出了一种基于邮件内容的邮件网络取证分析方法。在邮件内容相似度计算中,文中采用LDA模型对每条通信边上邮件基于某一犯罪主题的内容关联性进行计算。再结合中心度算法,对邮件通信网络进行基于内容和结构的综合分析,从而协助取证人员查找可疑人群,为计算机犯罪案件取证提供一定辅助和支持。
发明内容
本发明的目的在于提供一种基于LDA模型及中心度算法的邮件网络取证分析方法,协助调查取证人员查找可疑人群及分析核心成员角色,为计算机犯罪案件取证提供辅助和支持。
为实现上述目的,本发明采用如下技术方案:一种基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于包括以下步骤:
步骤S1:读取邮件数据,利用Lucene全文检索技术,通过一查询语句Q对所述邮件数据进行基于一犯罪主题的查询,得到查询结果;
步骤S2:根据所述查询结果,构造以邮件用户为节点,以用户通信关系为边的邮件网络图;
步骤S3:对所述查询结果中的每一封邮件,基于LDA模型计算其主题分布;
步骤S4:根据所述查询结果,计算所述查询结果中的每一封邮件基于所述犯罪主题的关联值;
步骤S5:根据所述邮件网络图,计算每条边基于所述犯罪主题的关联值;
步骤S6:根据所述邮件网络图中每条边的关联值,计算每个节点的中心值;
步骤S7:根据步骤S6得到的所有节点的中心值求节点的影响因子,所述影响因子大于一阈值a的即为基于所述犯罪主题的可疑对象。
进一步的,所述步骤S3的具体内容如下:
步骤S31:对邮件m的正文内容进行分词,得到邮件m对应的词集合{w1,w2,…,wi,…,wn},其中,词wi属于第k个主题的概率计算如下:
其中,变量zi表示词wi的主题,K表示主题的个数,Zm,-i表示在邮件m中除了词wi的主题外的其他所有词的主题集合;n(m,k)表示邮件m中属于第k个主题的词的数量;变量αk表示邮件m中主题k先验分布的参数,表示第k个主题中词wi的分布概率;
步骤S32:归一化所述步骤S31中所述的词wi属于第k个主题的概率,得到wtk,wtk为词wi的主题分布WTi中的分量:
WTi=(wt1,wt2,…,wtK)
步骤S33:词wi的主题从WTi中抽样得到,从而得出邮件m中属于第k个主题的词的数量n(m,k),则邮件m的主题分布计算如下:
进一步的,所述步骤S4的具体内容如下:
步骤S41:给定一主题概率阈值pT,将邮件m中的主题分布概率大于等于pT的所有主题筛选出作为邮件m的高概率主题;
步骤S42:给定一词概率阈值pW,将所述犯罪主题中词概率大于等于pW的所有词作为所述犯罪主题的高频词;
步骤S43:将所述邮件m中的所有高概率主题中的高频词的集合作为所述邮件m的特征关键词集Keym;
步骤S44:根据所述查询语句Q和邮件m的特征关键词集Keym,计算所述邮件m基于Q的关联值:
其中,表示对所述查询语句Q进行分词后的词集合,集合长度为nq,n(Q∩Keym)为集合Q和集合Keym的交集的元素个数。
进一步的,所述步骤S5的具体内容如下:
其中,eAB表示邮件用户A到邮件用户B的一条有向通信边,通信方向指向用户B,nAB表示查询结果中用户A发送给用户B的所有邮件的个数。
进一步的,所述步骤S6的具体内容如下:
步骤S61:根据所述邮件网络图中每条边的关联值,计算每个节点的亲近值:
其中,Vj表示邮件网络图中节点Vi的可达节点,g表示邮件网络图中节点Vi的可达节点个数,d(Vi,Vj)表示节点Vi到节点Vj的距离,Am(m+1)表示节点Vm到节点Vm+1的有向边上基于所述犯罪主题的关联值,节点Vm和节点Vm+1表示节点Vi到节点Vj的最短路径上的两个相邻节点;
步骤S62:根据所述邮件网络图中每条边的关联值,计算每个节点的中介值:
其中,njk表示节点j到节点k的最短路径个数,njk(Vi)表示节点j到节点k的最短路径上经过节点Vi的个数,计算上述节点j到节点k之间的最短路径时,采用d(Vj,Vk)作为它们之间的距离;
步骤S63:根据所述邮件网络图中每条边的关联值,计算每个节点的程度值:
其中,Aij表示节点Vi到节点Vj的有向边上基于所述犯罪主题的关联值。
进一步的,所述步骤S7的具体内容如下:
步骤S711:找出所述邮件网络图的所有节点中亲近值最大的节点Vtop1和亲近值第二大的节点Vtop2;
步骤S712:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的亲近值;
步骤S713:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S714:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信关系最密切子网的核心用户。
进一步的,所述步骤S7的具体内容如下:
步骤S721:找出所述邮件网络图的所有节点中中介值最大的节点Vtop1和中介值第二大的节点Vtop2;
步骤S722:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的中介值;
步骤S723:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S724:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题具备通信中介的角色。
进一步的,所述步骤S7的具体内容如下:
步骤S731:找出所述邮件网络图的所有节点中程度值最大的节点Vtop1和程度值第二大的节点Vtop2;
步骤S732:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的程度值;
步骤S733:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S734:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信最频繁的用户。
本发明与现有技术相比具有以下有益效果:本发明在邮件内容相似度计算中,文中采用LDA模型对每条通信边上邮件基于某一犯罪主题的内容关联性进行计算,再结合中心度算法,对邮件通信网络进行基于内容和结构的综合分析,从而协助取证人员查找可疑人群,为计算机犯罪案件取证提供一定辅助和支持。
附图说明
图1是本发明的方法实现流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于包括以下步骤:
步骤S1:读取邮件数据,利用Lucene全文检索技术,通过一查询语句Q对所述邮件数据进行基于一犯罪主题的查询,得到查询结果;
步骤S2:根据所述查询结果,构造以邮件用户为节点,以用户通信关系为边的邮件网络图;
步骤S3:对所述查询结果中的每一封邮件,基于LDA模型计算其主题分布,具体内容如下:
步骤S31:对邮件m的正文内容进行分词,得到邮件m对应的词集合{w1,w2,…,wi,…,wn},其中,词wi属于第k个主题的概率计算如下:
其中,变量zi表示词wi的主题,K表示主题的个数,Zm,-i表示在邮件m中除了词wi的主题外的其他所有词的主题集合;n(m,k)表示邮件m中属于第k个主题的词的数量;变量αk表示邮件m中主题k先验分布的参数,表示第k个主题中词wi的分布概率;
步骤S32:归一化所述步骤S31中所述的词wi属于第k个主题的概率,得到wtk,wtk为词wi的主题分布WTi中的分量:
WTi=(wt1,wt2,…,wtK)
步骤S33:词wi的主题从WTi中抽样得到,从而得出邮件m中属于第k个主题的词的数量n(m,k),则邮件m的主题分布计算如下:
步骤S4:根据所述查询结果,计算所述查询结果中的每一封邮件基于所述犯罪主题的关联值,具体内容如下:
步骤S41:给定一主题概率阈值pT,将邮件m中的主题分布概率大于等于pT的所有主题筛选出作为邮件m的高概率主题;
步骤S42:给定一词概率阈值pW,将所述犯罪主题中词概率大于等于pW的所有词作为所述犯罪主题的高频词;
步骤S43:将所述邮件m中的所有高概率主题中的高频词的集合作为所述邮件m的特征关键词集Keym;
步骤S44:根据所述查询语句Q和邮件m的特征关键词集Keym,计算所述邮件m基于Q的关联值:
其中,表示对所述查询语句Q进行分词后的词集合,集合长度为nq,n(Q∩Keym)为集合Q和集合Keym的交集的元素个数。
步骤S5:根据所述邮件网络图,计算每条边基于所述犯罪主题的关联值,具体内容如下:
其中,eAB表示邮件用户A到邮件用户B的一条有向通信边,通信方向指向用户B,nAB表示查询结果中用户A发送给用户B的所有邮件的个数。
步骤S6:根据所述邮件网络图中每条边的关联值,计算每个节点的中心值,具体内容如下:
步骤S61:根据所述邮件网络图中每条边的关联值,计算每个节点的亲近值:
其中,Vj表示邮件网络图中节点Vi的可达节点,g表示邮件网络图中节点Vi的可达节点个数,d(Vi,Vj)表示节点Vi到节点Vj的距离,Am(m+1)表示节点Vm到节点Vm+1的有向边上基于所述犯罪主题的关联值,节点Vm和节点Vm+1表示节点Vi到节点Vj的最短路径上的两个相邻节点;
步骤S62:根据所述邮件网络图中每条边的关联值,计算每个节点的中介值:
其中,njk表示节点j到节点k的最短路径个数,njk(Vi)表示节点j到节点k的最短路径上经过节点Vi的个数,计算上述节点j到节点k之间的最短路径时,采用d(Vj,Vk)作为它们之间的距离;
步骤S63:根据所述邮件网络图中每条边的关联值,计算每个节点的程度值:
其中,Aij表示节点Vi到节点Vj的有向边上基于所述犯罪主题的关联值。
步骤S7:根据步骤S6得到的所有节点的中心值求节点的影响因子,所述中心值包括步骤S6中求得的亲近值、中介值和程度值,该三个值各自求得一影响因子,所述影响因子大于一阈值a的即为基于所述犯罪主题的重要可疑对象,其中三个值各自对应的阈值a可不同,具体内容如下:
一、根据亲近值求基于所述犯罪主题通信关系最密切子网的核心用户:
步骤S711:找出所述邮件网络图的所有节点中亲近值最大的节点Vtop1和亲近值第二大的节点Vtop2;
步骤S712:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的亲近值;
步骤S713:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S714:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信关系最密切子网的核心用户。
二、根据中介值求基于所述犯罪主题具备通信中介的角色:
步骤S721:找出所述邮件网络图的所有节点中中介值最大的节点Vtop1和中介值第二大的节点Vtop2;
步骤S722:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的中介值;
步骤S723:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S724:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题具备通信中介的角色。
三、根据程度值求基于所述犯罪主题通信最频繁的用户:
步骤S731:找出所述邮件网络图的所有节点中程度值最大的节点Vtop1和程度值第二大的节点Vtop2;
步骤S732:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的程度值;
步骤S733:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S734:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信最频繁的用户。
为了让一般技术人员更好的理解本发明的技术方案,以下结合本发明所述的方法对应的系统个模块功能进行进一步说明。
所述系统包括邮件的采集模块、邮件数据预处理模块、建立索引模块、邮件检索模块、邮件网络图的构造模块和邮件网络分析模块:
所述邮件的采集模块,用于从各邮件客户端的邮件存储文件中提取邮件信息;
所述邮件数据预处理模块,用于提取并解析邮件的关键要素,如收发账户地址、发送时间、主题、邮件内容等信息,并过滤干扰邮件;
所述建立索引模块,用于对预处理后的邮件数据进行分词,并建立相应的索引表;
所述邮件检索模块,用于对邮件进行基于关键要素及关键词的查询,得到与某一犯罪主题相关的邮件;
所述邮件网络图的构造模块,用于构造以邮件网络用户为节点、用户关系为边的邮件网络图;
所述邮件网络分析模块,用于对邮件网络进行分析,基于LDA模型及中心度算法,计算邮件网络各边的关联值,并依次输出网络影响因子大的节点,得到节点序列,即邮件网络基于某一犯罪主题的可疑对象。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于包括以下步骤:
步骤S1:读取邮件数据,利用Lucene全文检索技术,通过一查询语句Q对所述邮件数据进行基于一犯罪主题的查询,得到查询结果;
步骤S2:根据所述查询结果,构造以邮件用户为节点,以用户通信关系为边的邮件网络图;
步骤S3:对所述查询结果中的每一封邮件,基于LDA模型计算其主题分布;
步骤S4:根据所述查询结果,计算所述查询结果中的每一封邮件基于所述犯罪主题的关联值;
步骤S5:根据所述邮件网络图,计算每条边基于所述犯罪主题的关联值;
步骤S6:根据所述邮件网络图中每条边的关联值,计算每个节点的中心值;
步骤S7:根据步骤S6得到的所有节点的中心值求节点的影响因子,所述影响因子大于一阈值a的即为基于所述犯罪主题的可疑对象。
2.根据权利要求1所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S3的具体内容如下:
步骤S31:对邮件m的正文内容进行分词,得到邮件m对应的词集合{w1,w2,…,wi,…,wn},其中,词wi属于第k个主题的概率计算如下:
其中,变量zi表示词wi的主题,K表示主题的个数,表示在邮件m中除了词wi的主题外的其他所有词的主题集合;n(m,k)表示邮件m中属于第k个主题的词的数量;变量αk表示邮件m中主题k先验分布的参数,表示第k个主题中词wi的分布概率;
步骤S32:归一化所述步骤S31中所述的词wi属于第k个主题的概率,得到wtk,wtk为词wi的主题分布WTi中的分量:
WTi=(wt1,wt2,…,wtK)
步骤S33:词wi的主题从WTi中抽样得到,从而得出邮件m中属于第k个主题的词的数量n(m,k),则邮件m的主题分布计算如下:
其中为邮件m中属于第k个主题的概率,所述邮件m的主题分布为
3.根据权利要求2所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S4的具体内容如下:
步骤S41:给定一主题概率阈值pT,将邮件m中的主题分布概率大于等于pT的所有主题筛选出作为邮件m的高概率主题;
步骤S42:给定一词概率阈值pW,将所述犯罪主题中词概率大于等于pW的所有词作为所述犯罪主题的高频词;
步骤S43:将所述邮件m中的所有高概率主题中的高频词的集合作为所述邮件m的特征关键词集Keym;
步骤S44:根据所述查询语句Q和邮件m的特征关键词集Keym,计算所述邮件m基于Q的关联值:
其中,表示对所述查询语句Q进行分词后的词集合,集合长度为nq,n(Q∩Keym)为集合Q和集合Keym的交集的元素个数。
4.根据权利要求3所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S5的具体内容如下:
其中,eAB表示邮件用户A到邮件用户B的一条有向通信边,通信方向指向用户B,nAB表示查询结果中用户A发送给用户B的所有邮件的个数。
5.根据权利要求4所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S6的具体内容如下:
步骤S61:根据所述邮件网络图中每条边的关联值,计算每个节点的亲近值:
其中,Vj表示邮件网络图中节点Vi的可达节点,g表示邮件网络图中节点Vi的可达节点个数,d(Vi,Vj)表示节点Vi到节点Vj的距离,Am(m+1)表示节点Vm到节点Vm+1的有向边上基于所述犯罪主题的关联值,节点Vm和节点Vm+1表示节点Vi到节点Vj的最短路径上的两个相邻节点;
步骤S62:根据所述邮件网络图中每条边的关联值,计算每个节点的中介值:
其中,njk表示节点j到节点k的最短路径个数,njk(Vi)表示节点j到节点k的最短路径上经过节点Vi的个数,计算上述节点j到节点k之间的最短路径时,采用d(Vj,Vk)作为它们之间的距离;
步骤S63:根据所述邮件网络图中每条边的关联值,计算每个节点的程度值:
其中,Aij表示节点Vi到节点Vj的有向边上基于所述犯罪主题的关联值。
6.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S7的具体内容如下:
步骤S711:找出所述邮件网络图的所有节点中亲近值最大的节点Vtop1和亲近值第二大的节点Vtop2;
步骤S712:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的亲近值;
步骤S713:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S714:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信关系最密切子网的核心用户。
7.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S7的具体内容如下:
步骤S721:找出所述邮件网络图的所有节点中中介值最大的节点Vtop1和中介值第二大的节点Vtop2;
步骤S722:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的中介值;
步骤S723:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S724:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题具备通信中介的角色。
8.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法,其特征在于:所述步骤S7的具体内容如下:
步骤S731:找出所述邮件网络图的所有节点中程度值最大的节点Vtop1和程度值第二大的节点Vtop2;
步骤S732:计算节点Vtop1的影响因子I(Vtop1):
其中,Valuetop1、Valuetop2分别表示节点Vtop1和Vtop2对应的程度值;
步骤S733:对于一给定的影响因子阈值a,若I(Vtop1)>a,则将节点Vtop1输出并删除,更新邮件网络图,并返回步骤S71;否则进行步骤S74;
步骤S734:将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信最频繁的用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390803.7A CN105096101B (zh) | 2015-07-06 | 2015-07-06 | 基于lda模型及中心度算法的邮件网络取证分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390803.7A CN105096101B (zh) | 2015-07-06 | 2015-07-06 | 基于lda模型及中心度算法的邮件网络取证分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105096101A CN105096101A (zh) | 2015-11-25 |
CN105096101B true CN105096101B (zh) | 2018-08-17 |
Family
ID=54576468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510390803.7A Expired - Fee Related CN105096101B (zh) | 2015-07-06 | 2015-07-06 | 基于lda模型及中心度算法的邮件网络取证分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105096101B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488029A (zh) * | 2015-11-30 | 2016-04-13 | 西安闻泰电子科技有限公司 | 基于knn的智能手机即时通讯工具取证方法 |
CN106970957B (zh) * | 2017-03-17 | 2020-01-14 | 福州大学 | 一种数字证据链综合分析系统及方法 |
CN107729465B (zh) * | 2017-10-12 | 2018-08-17 | 杭州中奥科技有限公司 | 人物危险度的评估方法、装置及电子设备 |
CN108133426B (zh) * | 2017-12-25 | 2022-02-25 | 北京理工大学 | 一种社交网络链路推荐方法 |
CN110138723B (zh) * | 2019-03-25 | 2020-05-12 | 中国科学院信息工程研究所 | 一种邮件网络中恶意社区的确定方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364955A (zh) * | 2008-09-28 | 2009-02-11 | 杭州电子科技大学 | 一种分析和提取电子邮件客户端证据的方法 |
CN102130973A (zh) * | 2011-04-28 | 2011-07-20 | 沈阳工程学院 | 对电子邮件实施自动批量网络取证的系统和方法 |
CN102842078A (zh) * | 2012-07-18 | 2012-12-26 | 南京邮电大学 | 一种基于社群特征分析的电子邮件取证分析方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
-
2015
- 2015-07-06 CN CN201510390803.7A patent/CN105096101B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364955A (zh) * | 2008-09-28 | 2009-02-11 | 杭州电子科技大学 | 一种分析和提取电子邮件客户端证据的方法 |
CN102130973A (zh) * | 2011-04-28 | 2011-07-20 | 沈阳工程学院 | 对电子邮件实施自动批量网络取证的系统和方法 |
CN102842078A (zh) * | 2012-07-18 | 2012-12-26 | 南京邮电大学 | 一种基于社群特征分析的电子邮件取证分析方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
Non-Patent Citations (2)
Title |
---|
中文垃圾邮件多层次过滤技术的应用研究;刘延华等;《计算机工程与应用》;20091231;第94-98页 * |
基于LDA模型的主机异常检测方法;贺喜等;《计算机应用与软件》;20120831;第29卷(第8期);第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105096101A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al et al. | STL-HDL: A new hybrid network intrusion detection system for imbalanced dataset on big data environment | |
Yan et al. | Learning URL embedding for malicious website detection | |
Wei et al. | Twitter bot detection using bidirectional long short-term memory neural networks and word embeddings | |
CN105096101B (zh) | 基于lda模型及中心度算法的邮件网络取证分析方法 | |
Mei et al. | Sgnn: A graph neural network based federated learning approach by hiding structure | |
Wang | The applications of deep learning on traffic identification | |
Basavaraju et al. | A novel method of spam mail detection using text based clustering approach | |
Singh et al. | Ensemble based spam detection in social IoT using probabilistic data structures | |
CN110321424B (zh) | 一种基于深度学习的艾滋病人员行为分析方法 | |
US9646245B2 (en) | System and method for identifying contacts of a target user in a social network | |
CN106817390B (zh) | 一种用户数据共享的方法和设备 | |
Bhattacharya et al. | Multi-measure multi-weight ranking approach for the identification of the network features for the detection of DoS and Probe attacks | |
Nagwani et al. | An object oriented email clustering model using weighted similarities between emails attributes | |
Dener et al. | STLGBM-DDS: an efficient data balanced DoS detection system for wireless sensor networks on big data environment | |
Wang et al. | Exploring all-author tripartite citation networks: A case study of gene editing | |
Li et al. | Street-Level Landmarks Acquisition Based on SVM Classifiers. | |
Sheikhan et al. | A security mechanism for detecting intrusions in internet of things using selected features based on mi-bgsa | |
Elezaj et al. | Criminal network community detection in social media forensics | |
Alnusair et al. | Context-aware multimodal recommendations of multimedia data in cyber situational awareness | |
CN112765313A (zh) | 一种基于原文和评论信息分析算法的虚假信息检测方法 | |
Kim et al. | A graph embedding-based identity inference attack on blockchain systems | |
Sharma et al. | Comparative analysis of different algorithms in link prediction on social networks | |
El Hajla et al. | Enhancing iot network defense: advanced intrusion detection via ensemble learning techniques | |
Nampoothiri et al. | Email forensic analysis based on k-means clustering | |
CN103793440B (zh) | 信息显示方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180817 Termination date: 20210706 |