CN113011503A

CN113011503A - 一种电子设备的数据取证方法、存储介质及终端

Info

Publication number: CN113011503A
Application number: CN202110304911.3A
Authority: CN
Inventors: 彭黎文
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-22
Anticipated expiration: 2041-03-17
Also published as: CN113011503B

Abstract

本发明公开了一种电子设备的数据取证方法、存储介质及终端，属于数据分类技术领域，采集电子设备的目标数据信息；计算目标数据信息的特征向量，构建训练集；对训练集进行聚类处理，得到多个聚类子样本集；基于不同的聚类样本集构建多个对应的分类模型，并通过训练集对分类模型进行训练，获得不同分类模型的分类性能；将分类性能排名靠前的多个分类模型构成的分类器组合进行差异度计算，选择差异度最大的一组分类器构成集成学习模型；对训练集成学习模型进行训练，并将完成训练的集成学习模型用作对目标数据信息的分类，模型分类精度高，泛化能力强，适用范围广。

Description

一种电子设备的数据取证方法、存储介质及终端

技术领域

本发明涉及数据分类技术领域，尤其涉及一种电子设备的数据取证方法、存储介质及终端。

背景技术

随着手机软硬件技术的不断发展，手机的内存存储量不断增大，手机中的短信息存储量也是越来越大，案件中往往会涉及到众多人员，因此需要同时分析很多部手机，使得分析的数据量非常巨大。为了解决该问题，出现了一些基于数据挖掘、机器学习技术的取证分析方法，通过直接对收集到的所有数据信息进行自动分类，从而智能的帮助排查电子证据。上述分类方法在取证分析过程中，存在短信息数据样本不平衡、数据集噪声大的问题，且传统单一自动分类方法泛化误差较高，对于分布不平衡数据分类性能不理想，无法有效的辅助对电子证据进行分析与排查。

发明内容

本发明的目的在于针对现有取证实际中，短信息数据样本不平衡，数据集噪声大，单一分类方法泛化误差较高，且处理分布不平衡数据达不到较好性能等问题，提出了一种智能手机数据取证方法、存储介质及终端。

本发明的目的是通过以下技术方案来实现的：一种电子设备的数据取证方法，所述方法包括：

采集电子设备的目标数据信息；

计算目标数据信息的特征向量，构建训练集；

对训练集进行聚类处理，得到多个聚类子样本集；

基于不同的聚类样本集构建多个对应的分类模型，并通过训练集对分类模型进行训练，获得不同分类模型的分类性能；

将分类性能排名靠前的多个分类模型构成的分类器组合进行差异度计算，选择差异度最大的一组分类器构成集成学习模型；

对训练集成学习模型进行训练，并将完成训练的集成学习模型用作对目标数据信息的分类。

作为一选项，所述方法还包括预处理步骤：将采集电子设备的目标数据信息进行分词处理，去除停用词。

作为一选项，所述计算目标数据信息的特征向量步骤后还包括：计算目标数据信息的特征权重，进行特征选择更新训练集。

作为一选项，所述计算目标数据信息的特征权重W_i的计算公式为：

W_i＝W_T×W_I

其中，W_T为某一特征项在文本中的频率，W_I表示特征项的逆向频率；

进行特征选择的计算公式为：

g(D，t)＝H(D)-H(D|t)

其中，D表示目标数据信息的整个数据集，t表示特征，H(D)指特征集合中不包含t时系统的信息量，H(D|t)表示特征集合中包含t时系统的信息量。

作为一选项，所述进行特征选择步骤前还包括对特征向量进行归一化处理，具体计算公式为：

其中，W_T为某一特征项在文本中的频率c_t，W_I表示特征项的逆向频率，n目标数据信息的总数，d_t表示特征项t在目标数据信息集中的频率。

作为一选项，所述差异度ρ_av计算公式为：

其中，L为参与集成的分类器个数，ρ_i，j为分类器间的相关系数。

作为一选项，所述分类器间的相关系数的计算公式具体为：

其中，N¹¹表示分类器A与分类器B都预测正确，N¹⁰表示分类器A正确B 错误，N⁰¹表示分类器B正确A错误，N⁰⁰表示A和B都预测错误。

作为一选项，所述对训练集成学习模型进行训练步骤后还包括对集成学习模型的分类性能进行判定，集成学习模型的样本预测值H(x)的计算公式为：

其中，

表示样本x在第i个分类器上的类别为j；{c₁，c₂，...，c_N}表示分类器对于样本x的类别标签集合；样本x被分类器h_i进行分类预测后的输出表示为：

需要进一步说明的是，上述方法各选项对应的技术特征可以相互组合或替换构成新的技术方案。

本发明还包括一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行如上所述电子设备的数据取证方法的步骤。

本发明还包括一种存储介质，一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行如上所述电子设备的数据取证方法的步骤。

与现有技术相比，本发明有益效果是：

(1)本发明基于不同的聚类样本集构建多个对应的分类模型，并将将分类性能排名靠前的多个分类模型构成的分类器组合进行差异度计算，选择差异度最大的一组分类器构成集成学习模型，能够提高模型的泛化能力，且有效提高了模型的分类精度，适用范围广。

(2)本发明采用加权的属性权重对特征进行选择，能够有效减小数据样本不均衡、数据集噪声大影响模型分类性能的问题，并提高了数据的聚类性能。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明实施例1的方法流程图；

图2为本发明实施例1的集成分类模型框架示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明主要用于解决现有电子数据取证过程中，短信息数据样本不平衡，数据集噪声大，单一分类方法泛化误差较高，且处理分布不平衡数据达不到较好性能等问题，提出了一种电子设备的数据取证方法、存储介质及终端，在本发明具体实施方式中，以对手机中的短信文本进行取证为例说明本申请的发明构思。

实施例1

如图1所示，在实施例1中，一种电子设备的数据取证方法，具体包括以下步骤：

S01：采集电子设备的目标数据信息；具体地，本实施例中，具体采集的是手机中的短信文本(目标数据信息)，将用户手机中的短信文本上传至计算机数据库系统，并按照用户id以及该id对应的短信文本进行存储，为后续的数据处理提供支撑。

S02：计算目标数据信息的特征向量，构建训练集；

S03：对训练集进行聚类处理，得到多个聚类子样本集；

S04：基于不同的聚类样本集构建多个对应的分类模型，并通过训练集对分类模型进行训练，获得不同分类模型的分类性能；

S05：将分类性能排名靠前的多个分类模型构成的分类器组合进行差异度计算，选择差异度最大的一组分类器构成集成学习模型；

S06：对训练集成学习模型进行训练，并将完成训练的集成学习模型用作对目标数据信息的分类。

本发明基于不同的聚类样本集构建多个对应的分类模型，并将将分类性能排名靠前的多个分类模型构成的分类器组合进行差异度计算，去除了分类性能较差的冗余分类器，从而减少集成分类性能更高的分类器所需的分类器数目，进而减少集成分类器的存储空间，从而进一步降低了分类学习的运算负载，降低模型构建的时间成本；再选择差异度最大的一组分类器构成集成学习模型，使集成学习模型能够适应不同的分类场景，提高了模型的泛化能力，且能够有效提高模型的分类精度，适用范围广的同时分类精度高，解决了大数据背景下的数据取证性能低下问题，为进行智能手机数据取证提供了有力的技术支撑，让智能手机数据取证变得更加具有针对性和高效性。

进一步地，步骤S01后还包括预处理步骤：

将采集电子设备的目标数据信息进行分词处理，去除停用词。具体地，采用Jieba分词器对短信息文本数据进行分词处理，并去除停用词，即在进行文本分词以后，就需要去除停用词操作，停用词主要是属于本身没有任何意义的词汇，忽略或者是去除该类词汇能提高分类的效率并节省存储空间。为了有效的去除停用词，且对于文本分类没有很大的负面影响，为有效去除停用词，通过参考文献资料，收集采用了2000多个常见停用词，主要包括词汇、少量数字和一些符号。在使用jieba分词工具对短信息进行分词以后，在分词后的文本中筛除停用词，能够大大减小整个数据处理过程的计算量并节约时间开销。

进一步地，步骤S02中计算目标数据信息的特征向量步骤后还包括：

计算目标数据信息的特征权重，进行特征选择更新训练集，对加权的属性权重对特征进行选择，能够有效减小数据样本不均衡、数据集噪声大影响模型分类性能的问题，并提高了数据的聚类性能。

具体地，对于所有的短信息文本集D，设定包含n条信息，每条信息d具有m个相互独立的特征(T₁，T₂，...，T_m)。为对短信息文本进行学习，需要对短信息文本进行编码，采用向量间的距离关系来进行语义相似性度量，本实施例中采用w_k表示特征T_k对信息d的重要程度，(w₁，w₂，...，w_m)表示各个特征的不同权重，则整个短信息文本集D的特征向量如下所示：

通过对不同特征设置合适的权值，能够表示特征向量V_d中不同特征对于短信息分类的重要性。进一步地，短信文本的特征权重W_i的计算公式为：

W_i＝W_T×W_I

其中，W_T为某一特征项在文本中的频率c_t，该指标表示特征项对该文本的重要程度，其计算公式为：

W_i＝W_T×W_I

其中，W_I表示特征项的逆向频率，该指标表示特征项在整体文本集中的区分能力。用n表示文本总数，d_t表示特征项t在文本集中的频率，其计算公式具体为：

更进一步地，为解决向量高维度的问题，需要进行特征选择，筛选对于分类具有重要意义的特征，对训练集进行更新，特征选择的计算公式为：

g(D，t)＝H(D)-H(D|t)

其中，D表示目标数据信息的整个数据集，t表示特征，H(D)表示特征集合中不包含t时系统的信息量，H(D|t)表示特征集合中包含t时系统的信息量。

进一步地，进行特征选择步骤前还包括对特征向量进行归一化处理，能够消除文本长度因素对向量表示的影响，归一化处理具体计算公式为：

进一步地，步骤S03对训练集进行聚类处理即基于步骤S02中计算所得特征词权重，使用加权的聚类算法对训练集进行聚类；设定加权的聚类算法样本间相似度函数dis_w(x，y)为：

其中，x，y分别为图像的像素点坐标。进一步地，依据相似度函数dis_w计算样本与k个随机聚类中心之间的相似度，依据最大相似度将样本归类于不同的质心，类别划分依据公式为：

C_i＝{x_n:dis_w(x，c_i)＜dis_w(x，c_j)，1≤j≤k}

其中c_i，c_j则表示两个不同的质心。进一步地，计算同一类别中对象的均值，然后基于样本点的平均值不断迭代更新聚类质心Center_k，直到达到了设定的最大运行次数或者中心点位置不再变化，迭代停止，得到最终的聚类结果，即多个不同的聚类子样本集。

进一步地，步骤S04中基于不同的聚类样本集构建多个对应的分类模型具体包括卷积神经网络模型、长短时记忆网络模型等不同深度神经网络分类模型。分类模型建立完成后，进一步采用训练集对分类模型进行训练，具体包括利用误差反向传播算法对分类模型进行训练，以此提高分类模型的分类精准度，在此基础上，对比每个深度神经网络分类模型对训练集中样本的分类性能，性能评测指标AC依据下面的公式：

其中，TP为被正确划分为正例的个数，FP为错误划分为正例的个数，FN 为错误划分为负例的个数，TN为正确划分为负例的个数。

进一步地，在步骤S05中，将分类性能排名前三的多个分类模型构成的分类器组合进行差异度计算，即分别计算两两分类器之间的差异度，并选择差异度最大的一组分类器构成集成学习模型，以此提升集成学习模型的泛化能力。具体地，差异度ρ_av计算公式为：

其中，L为参与集成的分类器个数，ρ_i，j为分类器间的相关系数，分类器间的相关系数的计算公式具体为：

其中，N¹¹表示分类器A与分类器B都预测正确，N¹⁰表示分类器A正确B错误，N⁰¹表示分类器B正确A错误，N⁰⁰表示A和B都预测错误。

进一步地，对训练集成学习模型进行训练步骤后还包括对集成学习模型的分类性能进行判定，具体根据集成学习模型的样本预测值判定集成学习模型的分类性能，集成学习模型的样本预测值H(x)的计算公式为：

其中，

更为具体地，将短信息文本或者其他需要进行分类的目标数据信息输入至集成学习模型中，即可实现精准的数据分类，在分类后的电子数据上进行取证分析，能为取证提供有力的数据支撑和参考，能让取证人员专注于重要的信息，从而有效提高取证效率，节约资源消耗。

本发明集成学习模型基于不同的聚类样本集构建多个对应的分类模型，然后选择分类性能排名前三的分类模型进行差异度计算，将性能较差的分类器剔除，只将分类性能优异且具有差异性的分类器进行集成，结果上不仅可以提升集成精度和泛化能力，还可以有效提高算法的效率。

实施例2

本实施例提供了一种存储介质，与实施例1具有相同的发明构思，其上存储有计算机指令，计算机指令运行时执行实施例1中电子设备的数据取证方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例3

本实施例还提供一种终端，与实施例1具有相同的发明构思，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行实施例1中电子设备的数据取证方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。