CN106951510A

CN106951510A - 基于bide算法与最长公共子序列的序列型数据同一鉴定系统及方法

Info

Publication number: CN106951510A
Application number: CN201710159967.8A
Authority: CN
Inventors: 刘延华; 郭文忠; 陈国龙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-07-14

Abstract

本发明涉及一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法，包括以下步骤：建立基于用户行为模式的数字证据同一鉴定模型；采用BIDE算法实现用户频繁行为模式的快速挖掘；设计基于最长公共子序列的用户行为模式综合相似度的计算方法。该方法可有效地对序列型用户数据进行同一鉴定，在数字取证中，确认匿名数据是否归属某一特定用户，可应用于对嫌疑人及其数据进行侦查和取证领域。即具备同一性的证据数据所包含的用户行为特征信息与特定犯罪嫌疑人的用户行为特征信息是相同的或相吻合的。

Description

基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法

技术领域

本发明涉及数据分析领域，特别是涉及一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法。

背景技术

2012年我国新修订的刑事诉讼法将数字证据增列为一种新的法定证据，由此数字证据在犯罪调查中扮演了越来越重要的角色。但依据目前司法相关规定，计算机犯罪调查获取的源数据不能直接作为数字证据被采用，必须要先通过证据认定，确认与案件相关的数据才能够成为法定的证据。同时，现有的很多计算机及网络应用服务多以匿名服务方式运行，由此所产生的大量用户数据没有包含特定的用户身份识别信息，这些匿名数据都需要通过同一鉴定来确认应用数据的身份同一性，即匿名数据是否与案件、涉案人员或涉案实体具备同一性或相关性，为数字证据的认定提供科学依据。可见，数字证据的鉴定是数字取证中的关键技术，具备重要的实际应用意义。

在数字取证领域中，匿名数据的身份归属鉴定即称为证据的同一鉴定，也称为同一取证，具体指利用一定的技术方法来判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统。由于具备司法认定资格的司法人员对于计算机技术、网络技术等技术基础可能存在一定的不足，因而同一鉴定成为数字证据认定的重要依据和前提技术支撑。

基于用户身份的数据同一鉴定通常使用用户行为模式的比对来实现，即具备同一性的证据数据所包含的用户行为特征信息与特定犯罪嫌疑人的用户行为特征信息是相同的或相吻合的。

用户行为模式可分为序列行为模式和非序列行为模式两种。序列行为模式指的是用户行为模式中的特征属性项具有先后次序性，不能任意更换它们的先后顺序；非序列行为模式则指表征用户行为模式的特征属性项具有集合特性，特征属性项之间没有固定的次序性要求。用户的序列行为模式包括Web浏览模式、系统操作模式等，而用户的非序列行为模式则包括文本书写模式、商品购买模式、社交模式等

目前，在Email的作者身份鉴定方面，通常采用Email内容的主题特征模式和文本书写特征模式来研究匿名通信文本的归属问题，已在垃圾邮件判定等应用研究中获得了一定效果。采用SVM模型分析Email的书写风格和结构特点，并进一步深入研究了Email作者的归属问题，发现当训练集减小、作者数目增加或Email文本长度减小时，基于SVM的分类精度会出现明显的下降，且当特征词增加到一定数目后，SVM算法的性能也会变差，表明SVM方法不太适用于短文本的身份识别。为此，利用频繁模式挖掘算法设计Email等文本的作者识别方法，由获得的频繁项集来生成用户书写特征模式，并采用频繁项挖掘算法的支持度来计算相似性得分，实现书写模式的比对，实验表明对于Email等文本的身份鉴定具有较好可用性。同时，融合书写特征和内容特征等多个属性，提出一种基于聚类的CEAI模型，该模型在Enron邮件数据集的作者鉴定中获得了一定的成功。

综上可见，用户频繁行为模式在非序列型数据的身份同一鉴定方面获得了良好计算效果。基于此，借鉴以上研究思路，研究基于BIDE频繁闭序列模式挖掘算法和基于最长公共子序列的数据同一鉴定方法，探索用户频繁行为模式在序列型数据同一鉴定中的可行性，以验证用户频繁行为模式在数字证据同一鉴定中的普适性。

发明内容

有鉴于此，本发明的目的是提供一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法，该方法能通过同一鉴定确认匿名数据的身份同一性，在一定程度上提高挖掘犯罪网络中可疑对象的准确性。

本发明采用以下方案实现：一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统，该系统包括用户行为模式的数据挖掘模块、基于BIDE算法的频繁序列行为模式挖掘模块、数字证据的同一鉴定模块、基于最长公共子序列的模式相似度计算模块；其中，所述用户行为模式的数据挖掘模块，用以利用数据挖掘技术建立用户频繁行为模式库；所述基于BIDE算法的频繁序列行为模式挖掘模块，用以利用BIDE频繁闭序列挖掘算法来进行用户频繁行为模式的挖掘，获得与完整频繁序列模式信息等同的精简频繁闭合序列模式，为数据鉴定提供用户频繁序列行为模式库；所述数字证据的同一鉴定模块，用以采用同一鉴定的技术方法判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统；所述基于最长公共子序列的模式相似度计算模块，用于计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。

本发明还采用以下方法实现：一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，包括以下步骤：

步骤S1：利用数据挖掘技术建立用户频繁行为模式库，建立基于用户行为模式的数字证据同一鉴定模型；

步骤S2：采用BIDE频繁闭序列挖掘算法进行用户频繁行为模式的快速挖掘；获得与完整频繁序列模式信息等同的精简频繁闭合序列模式；

步骤S3：采用基于最长公共子序列的用户行为模式综合相似度计算方法，进行数据鉴定分析。

进一步地，所述步骤S1中，利用数据挖掘技术建立用户频繁行为模式库时，用户行为模式挖掘模型基本处理过程包括如下步骤：

步骤S11：利用取证工具与数据采集Agent从用户主机、网络服务器和网络设备等获取原始的用户使用数据，存储为用户原始数据集；

步骤S12：根据取证要求，对原始数据进行预处理操作，并按用户ID、用户IP、主机名或MAC地址进行分类，存储为用户数据集；

步骤S13：从用户数据库中抽取个人数据集，根据应用需求，按会话、时间段或服务单元为单位对用户数据进行划分，构造用户数据的事务集；

步骤S14：调用给定的频繁行为模式挖掘算法，对用户数据事务集进行模式挖掘，得到表征用户行为模式的频繁序列集，生成该用户的频繁行为模式；

步骤S15：返回步骤S1，重复上述步骤，生成所有用户的频繁行为模式，生成频繁行为模式数据库。

进一步地，所述频繁行为模式挖掘算法包括序列模式挖掘算法与非序列模式挖掘算法。

进一步地，所述步骤S3中，用户行为模式综合相似度计算方法包括主基于全序列的比较法与基于LCS的相关函数比较法，通过计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。

相较于现有技术，本发明具有以下有益效果：本发明基于数字取证中匿名用户数据的同一鉴定问题，提出了基于用户频繁序列行为模式的数据同一鉴定模型，设计了基于BIDE的用户频繁闭合序列模式快速挖掘算法，然后给出了基于最长公共子序列的模式综合相似度计算方法，并以Web浏览数据和Unix操作命令行数据集为例进行了数据鉴定实验分析。所提出的同一鉴定方法在两种数据集的实验中均具有较好的有效性和稳定性，能够为序列型数字证据的鉴定提供有力技术支撑。同时，本发明的研究也验证了用户频繁行为模式在序列型和非序列型数字证据的身份同一鉴定中具有较好的普适性，为进一步开展相关研究提供了有价值的参考数据。从而协助取证人员查找可疑人群，为计算机犯罪案件取证提供一定辅助和支持。

附图说明

图1是本发明匿名数据的同一鉴定模块结构示意图。

图2是本发明用户频繁行为模式挖掘模型方法的实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统，如图1所示，该系统包括用户行为模式的数据挖掘模块、基于BIDE算法的频繁序列行为模式挖掘模块、数字证据的同一鉴定模块、基于最长公共子序列的模式相似度计算模块；其中，所述用户行为模式的数据挖掘模块，用以利用数据挖掘技术建立用户频繁行为模式库；所述基于BIDE算法的频繁序列行为模式挖掘模块，用以利用BIDE频繁闭序列挖掘算法来进行用户频繁行为模式的挖掘，获得与完整频繁序列模式信息等同的精简频繁闭合序列模式，为数据鉴定提供用户频繁序列行为模式库；所述数字证据的同一鉴定模块，用以采用同一鉴定的技术方法判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统；所述基于最长公共子序列的模式相似度计算模块，用于计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。

在本实施例中，如图2所示，一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，包括以下步骤：

步骤S1：为了实现匿名用户数据的同一鉴定，首先需要利用数据挖掘技术建立用户频繁行为模式库，建立基于用户行为模式的数字证据同一鉴定模型；

在本实施例中，所述步骤S1中，利用数据挖掘技术建立用户频繁行为模式库时，用户行为模式挖掘模型基本处理过程包括如下步骤：

其中，所述频繁行为模式挖掘算法包括序列模式挖掘算法与非序列模式挖掘算法，该模型具有较好的适用性。

在本实施例中，所述步骤S2中，为解决完整频繁序列带来的较大冗余性的问题，利用BIDE频繁闭序列挖掘算法来进行用户频繁行为模式的挖掘，能够获得与完整频繁序列模式信息等同的精简频繁闭合序列模式，为数据鉴定提供了高质量的用户频繁序列行为模式库。

其中，BIDE算法及其子算法的描述如下：

算法BIDE(SDB,min_sup,FCS)

输入:序列数据库SDB，最小支持度阈值min_sup；

输出:频繁闭合序列的全局集合FCS；

算法bide(S_p_SDB,S_p,min_sup,BEI,FCS)

输入:投影数据库S_p_SDB,前缀序列S_p,最小支持度min_sup,后向扩展序列的个数；

输出:频繁闭合序列的当前集合FCS；

由算法产生频繁闭合序列的过程可看出，BIDE算法输出的频繁闭合序列集合FCS与完整的频繁序列全集具有模式的等价性，即不会造成用户行为模式信息的丢失。可见，本发明采用BIDE挖掘算法来研究基于用户序列行为模式的证据鉴定具备良好的可行性和高效性。

为降低上述因素带来的影响，同一鉴定时既不能采用单一频繁序列或最长频繁序列的相似度来判定数据的同一性，也不能使用两个频繁序列模式共有的相同频繁序列的数目来简单代表数据的同一性。基于此，在本实施例中，所述步骤S3采用最长公共子序列(Longest Common Subsequence,LCS)算法来计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。

其中，用户行为模式综合相似度计算方法包括主要两个部分，即基于全序列的比较法和基于LCS的相关函数比较法。

对于给定的两个模式，A＝{a₁,a₂,...,a_m}和B＝{b₁,b₂,...,b_n}，a_i、b_j表示模式中的频繁序列，sup_ai和sup_bj表示对应频繁序列的支持度，l_ai和l_bj表示对应频繁序列的长度，sim_ij表示a_i与b_j的序列相似度。

模式相似度的计算函数PSIM及子算法定义如下：

算法PSIM(A,B,SIM)：

输入：两个频繁序列模式A和B；

输出：综合相似度SIM；

子算法lcs(sa,sb,l)：//lcs函数计算sa和sb中最长公共子序列的长度l

输入：两个频繁序列串sa和sb；

输出：最长公共子序列的长度长度l；

可见，在本实施例中，频繁序列模式相似度算法充分考虑了用户行为模式之间所有频繁闭合序列的相似度比较，相比Jaccard系数等经典相似度计算方法，该算法得出的模式综合相似度更全面地描述了用户数据之间的吻合程度，在数字证据的同一鉴定中具有更好的合理性与适用性。

由于用户频繁行为模式是相对稳定的，当匿名数据所包含的频繁序列模式与已有用户频繁行为模式相同或相似度很高时，即认定该匿名数据来自于该特定用户。基于上述分析，证据数据的同一鉴定问题就转化为用户频繁行为模式的相似度计算问题。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统，其特征在于：该系统包括用户行为模式的数据挖掘模块、基于BIDE算法的频繁序列行为模式挖掘模块、数字证据的同一鉴定模块、基于最长公共子序列的模式相似度计算模块；其中，所述用户行为模式的数据挖掘模块，用以利用数据挖掘技术建立用户频繁行为模式库；所述基于BIDE算法的频繁序列行为模式挖掘模块，用以利用BIDE频繁闭序列挖掘算法来进行用户频繁行为模式的挖掘，获得与完整频繁序列模式信息等同的精简频繁闭合序列模式，为数据鉴定提供用户频繁序列行为模式库；所述数字证据的同一鉴定模块，用以采用同一鉴定的技术方法判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统；所述基于最长公共子序列的模式相似度计算模块，用于计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。

2.一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，其特征在于：包括以下步骤：

3.根据权利要求2所述的一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，其特征在于：所述步骤S1中，利用数据挖掘技术建立用户频繁行为模式库时，用户行为模式挖掘模型基本处理过程包括如下步骤：

4.根据权利要求3所述的一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，其特征在于：所述频繁行为模式挖掘算法包括序列模式挖掘算法与非序列模式挖掘算法。

5.根据权利要求2所述的一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法，其特征在于：所述步骤S3中，用户行为模式综合相似度计算方法包括基于全序列的比较法与基于LCS的相关函数比较法，通过计算两个行为模式中所有两两频繁序列之间的LCS，并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。