CN116028988A - 一种电子数据固证方法、终端及系统 - Google Patents
一种电子数据固证方法、终端及系统 Download PDFInfo
- Publication number
- CN116028988A CN116028988A CN202310175676.3A CN202310175676A CN116028988A CN 116028988 A CN116028988 A CN 116028988A CN 202310175676 A CN202310175676 A CN 202310175676A CN 116028988 A CN116028988 A CN 116028988A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- log
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电子数据固证方法,包括步骤:S1:确定机器的工作状态;S2:获取机器存储信息数据、操作日志数据;S3:采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;S4:根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;S5:计算相似距离;S6:将步骤S5中相似距离大于设定阈值的计算结果进行提取保存。该电子数据固证方法通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R,使得距离计算更为准确。
Description
技术领域
本发明涉及电子通信技术领域,具体涉及一种电子数据固证方法、终端及系统。
背景技术
现有技术出现了一些电子数据的互联网保全固证,但该类固证方法比较简单。对于具有较高证据价值的证据链条的固定,目前的电子数据固证系统往往不能很好的满足要求。现阶段提取的证据往往不准确,但如果提取所有数据存在较多冗余,不能够提取出关键信息,且现有的提取算法较为简单,不能够根据文件的特点进行精准性的提取。
发明内容
针对现有技术中提到的上述问题,为解决上述技术问题,本发明提供了一种电子数据固证方法、终端及系统,包括步骤:
S1:确定机器的工作状态,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
S2:获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
S3:采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
S4:根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
S5:计算相似距离,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
S6:将步骤S5中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
优选地,步骤S2中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
优选地,步骤S2中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证 ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
优选地,步骤S1中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
优选地,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
优选地,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
本发明还提供了一种电子数据固证系统,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
优选地,获取信息模块中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
优选地,获取信息模块中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证 ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
优选地,机器工作状态确定模块中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
优选地,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
优选地,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
本发明还提供了一种电子数据固证终端,其特征在于,包括:CPU、存储器、屏幕,所述CPU存储有以下模块以执行方法,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
本发明提供了一种电子数据固证方法、终端及系统,所能实现的有益技术效果如下:
根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量。
通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R,计算过程中加入了为原数据向量长度权重值、为特征向量Z2的长度权重值,使得距离计算更为准确。
采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,该提取方式针对文件特征进行适应性的提取关键信息,大大提高了信息准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的电子数据固证方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对于具有较高证据价值的证据链条的固定,现有的电子数据固证系统往往不能很好的满足要求。现阶段若两个或者多个节点的电子数据存在关联关系,但又不是必须将其固证在一起,则须要经过多次固证操作方能证明关联关系。且对于两个或者多个节点的电子数据之间关联关系的固证也存在在电子数据传输、流转过程中或在固证平台上被修改的可能。
实施例1:
相比于传统的互联网保全中心,本发明实施例提供了一种电子数据固证方法,如图1所示,包括步骤:
S1:确定机器的工作状态,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
S2:获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
S3:采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
S4:根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
S5:计算相似距离,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
S6:将步骤S5中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
在一些实施例中,步骤S2中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
在一些实施例中,步骤S2中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
在一些实施例中,步骤S1中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
在一些实施例中,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
在一些实施例中,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
实施例2:
本发明还提供了一种电子数据固证系统,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
在一些实施例中,获取信息模块中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
在一些实施例中,获取信息模块中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
在一些实施例中,机器工作状态确定模块中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
在一些实施例中,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
在一些实施例中,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
实施例3:
本发明还提供了一种电子数据固证终端,其特征在于,包括:CPU、存储器、屏幕,所述CPU存储有以下模块以执行方法,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
1、在本发明中根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量。
2、通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R,计算过程中加入了为原数据向量长度权重值、为特征向量Z2的长度权重值,使得距离计算更为准确。
3、采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,该提取方式针对文件特征进行适应性的提取关键信息,大大提高了信息准确度。
以上对一种电子数据固证关联方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想和方法,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种电子数据固证方法,其特征在于,包括步骤:
S1:确定机器的工作状态,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
S2:获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
S3:采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
S4:根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
S5:计算相似距离,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
S6:将步骤S5中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
2.如权利要求1所述的一种电子数据固证方法,其特征在于,步骤S2中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
3.如权利要求2所述的一种电子数据固证方法,其特征在于,步骤S2中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证 ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
4.如权利要求1所述的一种电子数据固证方法,其特征在于,步骤S1中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
5.如权利要求1所述的一种电子数据固证方法,其特征在于,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
6.如权利要求1所述的一种电子数据固证方法,其特征在于,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
7.一种电子数据固证系统,其特征在于,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
8.如权利要求7所述的一种电子数据固证系统,其特征在于,获取信息模块中的获取机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录中的操作日志数据包括事务日志、错误日志和代理日志,操作系统日志包括应用程序日志、安全日志、系统日志、IIS日志,日志进行分析可以定位感兴趣行为。
9.如权利要求7所述的一种电子数据固证系统,其特征在于,获取信息模块中的获取机器存储信息数据包括名称、文件类型、文件大小、作者、创建时间、访问时间、最新修改时间,还包括补充存储信息数据包括案件名称、文件摘要、取证时间、取证位置、取证 ID、见证人指纹、公证人ID、相关操作的标志位,相关操作的标志位包括数据是否被改动、是否有备份。
10.如权利要求7所述的一种电子数据固证系统,其特征在于,机器工作状态确定模块中确定机器的工作状态还包括:检查系统账户和数据库账户的状态包括是否有新的账户加入、现有账户是否被提高权限、配合跟踪系统日志和数据库日志来确定账户被加入或者提权的时间。
11.如权利要求7所述的一种电子数据固证系统,其特征在于,根据相似距离分析判断提取特征的价值及特征准确性,从而判断剔除还是保留记录,语义距离越小,原数据对电子证据的描述就越贴切。
12.如权利要求7所述的一种电子数据固证系统,其特征在于,所述采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取,包括提取机器存储信息数据和/或操作日志数据和/或删除残余数据文件数据集包含个文件数据点,其中,每个文件数据点的维数为,即;为文件数据集建立一个表:文件数据集即为初始文件数据集;比较初始文件数据集中所有文件数据点对应的每一维的最大值与最小值之差,记为该维的长度,最长维记为;沿着最长维将初始文件数据集分为两部分,生成两个子文件数据集;选择密度最大的文件数据点作为第一中心,;然后,选择与第一中心点相距大于L,密度第二大点为第二中心点;;其中,,为密度,而是中心与待选择的文件数据点的距离,选择与已选的所有初始化中心距离大于L且密度第三大待选数据点为第三类心点,;其中,为待选文件数据点与所有选中的初始化中心的最小距离;当已经选择了t个初始化中心点时,第t+1中心点,,其中为待选择的文件数据点;当个中心点被选中后,算法停止,提取出特征信息。
13.一种电子数据固证终端,其特征在于,包括:CPU、存储器、屏幕,所述CPU存储有以下模块以执行权利要求1所述的方法,包括:
机器工作状态确定模块,包括系统是否能够正常运行、使用的登录口令、网盘登录是否正常、操作日志访问是否正常、数据库访问是否正常、系统配置参数;
获取信息模块,包括获取机器存储信息数据、操作日志数据、操作系统日志、删除残余数据、网盘信息、浏览器浏览记录;
特征信息提取模块,包括采用聚类算法对获取的机器存储信息数据、操作日志数据、删除残余数据、网盘信息、浏览器浏览记录进行特征信息提取;特征信息提取后以特征表的形式存储在特征数据库;特征信息包含配置信息、用户账户和操作数据;通过查看特征数据库或特征表,可以确定机器数据是否被删除或篡改;
特征向量构建模块,根据原存储信息数据建立原数据向量Z1;根据提取的特征信息和特征字,建立特征向量Z2;特征向量Z2中每个维度值等于此维度对应词在整体提取的特征信息及特征字中出现的相对频率,同理构造出原存储信息数据的向量;
相似距离计算模块,通过距离测算函数计算特征向量Z2与原数据向量Z1之间的相似距离R:
其中,为原数据向量长度权重值、为特征向量Z2的长度权重值;n为两个文本中不相同的词总数,和分别为电子证据和原数据中第b个词出现的相对频次;
结束模块,将相似距离计算模块中相似距离大于设定阈值的计算结果进行提取保存,若不满足则将原存储信息数据按数据格式分类进行保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175676.3A CN116028988B (zh) | 2023-02-28 | 2023-02-28 | 一种电子数据固证方法、终端及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175676.3A CN116028988B (zh) | 2023-02-28 | 2023-02-28 | 一种电子数据固证方法、终端及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116028988A true CN116028988A (zh) | 2023-04-28 |
CN116028988B CN116028988B (zh) | 2023-06-20 |
Family
ID=86079762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310175676.3A Active CN116028988B (zh) | 2023-02-28 | 2023-02-28 | 一种电子数据固证方法、终端及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028988B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149583A1 (en) * | 2012-11-26 | 2014-05-29 | Electronics And Telecommunications Research Institute | Social network forensic apparatus and method for analyzing sns data using the apparatus |
CN106650799A (zh) * | 2016-12-08 | 2017-05-10 | 重庆邮电大学 | 一种电子证据分类提取方法及系统 |
CN107395359A (zh) * | 2017-07-17 | 2017-11-24 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证方法、终端及系统 |
CN108521332A (zh) * | 2018-04-09 | 2018-09-11 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证关联方法 |
CN108875050A (zh) * | 2018-06-27 | 2018-11-23 | 北京工业大学 | 面向文本的数字取证分析方法、装置和计算机可读介质 |
CN114140674A (zh) * | 2021-10-20 | 2022-03-04 | 郑州信大先进技术研究院 | 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法 |
CN114240315A (zh) * | 2021-11-04 | 2022-03-25 | 深圳市大恒数据安全科技有限责任公司 | 一种基于云上稽查执法取证的方法及装置 |
-
2023
- 2023-02-28 CN CN202310175676.3A patent/CN116028988B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149583A1 (en) * | 2012-11-26 | 2014-05-29 | Electronics And Telecommunications Research Institute | Social network forensic apparatus and method for analyzing sns data using the apparatus |
CN106650799A (zh) * | 2016-12-08 | 2017-05-10 | 重庆邮电大学 | 一种电子证据分类提取方法及系统 |
CN107395359A (zh) * | 2017-07-17 | 2017-11-24 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证方法、终端及系统 |
CN108521332A (zh) * | 2018-04-09 | 2018-09-11 | 深圳市大恒数据安全科技有限责任公司 | 一种电子数据固证关联方法 |
CN108875050A (zh) * | 2018-06-27 | 2018-11-23 | 北京工业大学 | 面向文本的数字取证分析方法、装置和计算机可读介质 |
CN114140674A (zh) * | 2021-10-20 | 2022-03-04 | 郑州信大先进技术研究院 | 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法 |
CN114240315A (zh) * | 2021-11-04 | 2022-03-25 | 深圳市大恒数据安全科技有限责任公司 | 一种基于云上稽查执法取证的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116028988B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN110909160A (zh) | 正则表达式生成方法、服务器及计算机可读存储介质 | |
WO2012079836A1 (en) | Method and system for creating and processing a data rule, data processing program, and computer program product | |
CN113032001B (zh) | 一种智能合约分类方法及装置 | |
CN110532529A (zh) | 一种文件类型的识别方法及装置 | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
CN113377740A (zh) | 铁路元数据管理方法、应用方法及装置 | |
CN109359481B (zh) | 一种基于bk树的反碰撞搜索约减方法 | |
CN115883111A (zh) | 一种钓鱼网站识别方法、装置、电子设备及存储介质 | |
US8639707B2 (en) | Retrieval device, retrieval system, retrieval method, and computer program for retrieving a document file stored in a storage device | |
CN113836261A (zh) | 一种专利文本新颖性/创造性预测方法及装置 | |
CN117081801A (zh) | 网站的内容管理系统的指纹识别方法、装置及介质 | |
CN113312258A (zh) | 一种接口测试方法、装置、设备及存储介质 | |
CN116028988B (zh) | 一种电子数据固证方法、终端及系统 | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN113821630A (zh) | 一种数据聚类的方法和装置 | |
CN114491184B (zh) | 一种数据处理方法及装置、存储介质及电子设备 | |
CN112685389B (zh) | 数据管理方法、数据管理装置、电子设备及存储介质 | |
CN114944016A (zh) | 一种电子签名的获取方法及装置 | |
KR102255600B1 (ko) | Gan을 이용한 문서형 악성코드 탐지 장치 및 방법 | |
US8788483B2 (en) | Method and apparatus for searching in a memory-efficient manner for at least one query data element | |
CN112214534B (zh) | 对有缺失的数据进行近似查询的方法、系统及存储介质 | |
CN117520549B (zh) | 一种文档切分方法、装置、设备及可读存储介质 | |
CN115859380B (zh) | 一种电子数据固证关联方法 | |
CN117725555B (zh) | 多源知识树的关联融合方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231207 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Patentee after: Shenzhen Henghe Shuxin Technology Co.,Ltd. Address before: 518000 Shenzhen Hong Kong University Research Base, No. 015, Gaoxin South 7th Road, Gaoxin Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong Province W703A Patentee before: SHENZHEN DAHENG DATA SECURITY TECHNOLOGY CO.,LTD. |