CN115688101A - 一种基于深度学习的文件分类方法及装置 - Google Patents

一种基于深度学习的文件分类方法及装置 Download PDF

Info

Publication number
CN115688101A
CN115688101A CN202211410584.0A CN202211410584A CN115688101A CN 115688101 A CN115688101 A CN 115688101A CN 202211410584 A CN202211410584 A CN 202211410584A CN 115688101 A CN115688101 A CN 115688101A
Authority
CN
China
Prior art keywords
file
data
training
model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211410584.0A
Other languages
English (en)
Inventor
李辰雨
张建军
范玉进
董悦
颜凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Optical Electrical Communication Technology Co Ltd
Original Assignee
Tianjin Optical Electrical Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Optical Electrical Communication Technology Co Ltd filed Critical Tianjin Optical Electrical Communication Technology Co Ltd
Priority to CN202211410584.0A priority Critical patent/CN115688101A/zh
Publication of CN115688101A publication Critical patent/CN115688101A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习的文件分类方法及装置,方法包括文件训练过程和文件测试过程;文件训练过程包括:读取文件,加载历史数据;按照设定的百分比,随机分配训练集数据和测试集数据;构建神经网络结构,初始化结构模型参数;建立循环,确定迭代过程的参数;根据训练的参数进行模型训练;训练结束,保存模型到本地;文件测试过程包括:输入测试数据集的特征数据;将数据加载好的模型文件加载到内存中;用训练好的模型来预测新数据;对预测结果进行可视化显示。使用本发明的方法能够快速和准确地识别文件类型,也既有利于文件的分类管理,也给搜索文件带来了保障,减少了办公人员误操作的机会,帮助办公人员迅速定位到所要找的文件类型。

Description

一种基于深度学习的文件分类方法及装置
技术领域
本发明属于计算机和人工智能技术领域,尤其是涉及一种基于深度学习的文件分类方法及装置。
背景技术
随着信息时代的飞速发展,文件已经占有越来越重要的地位,尤其是在日常办公中,文件,文件可谓是复杂工作沟通的媒介。文件类型作为文件名称的一部分,已经不再陌生,文件名分为两部分,即名称和扩展,因此操作系统和用户仅从文件名称就能辨别出文件的类型。文件类型是文件创建时所赋予的一种属性,无论是在Window系统还是Linux系统。当设计文件系统(甚至整个操作系统),总是需要考虑操作系统是否应该识别和支持文件类型,如果操作系统识别文件的类型,则他就能按照合理方式来操作文件。
文件的后缀名称对用户完全是透明的,可以随意更改,因此经常遇到文件名被恶意篡改或者不经意的误改。当文件后缀缺失,而导致无法被操作系统自动识别的情况,另一个区分文件的机制是文件特征标识,即魔数(Magic Number),由于文件特征信息位于文件数据内部,不容易被篡改,在被定义时需要具有唯一性,可作为文件类型识别与匹配的依据。
一旦发生恶意篡改文件类型和属性情况,用户在不知情的情况下,病毒会欺骗诱导用户访问该文件以达到目的;当使用防病毒软件对文件进行检测时,病毒由于更改文件属性,很容易发生回避检测、隐藏数据等现象。
发明内容
有鉴于此,本发明提供一种基于深度学习的文件分类方法及装置,解决上述背景技术中提出的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于深度学习的文件分类方法,包括文件训练过程和文件测试过程;
所述文件训练过程具体包括:
读取文件,加载历史数据;
按照设定的百分比,随机分配训练集数据和测试集数据;
构建神经网络结构,初始化结构模型参数,确定输入层、隐藏层和输出层的大小;
建立循环,确定迭代过程的参数;
根据训练的参数进行模型训练;
训练结束,保存模型到本地;
所述文件测试过程具体包括:
输入测试数据集的特征数据;
将数据加载好的模型文件加载到内存中;
用训练好的模型来预测新数据;
对预测结果进行可视化显示。
进一步的,所述方法还包括在文件训练过程之前进行文件特征预处理。
进一步的,所述文件特征预处理的过程具体包括:
接收外部的磁盘或者文件夹路径信息,遍历路径信息下所有的文件夹,将所有的文件信息作为样本数据汇总到数据集中;
根据样本数据,通过矩阵运算提取特征数据集;
根据样本数据,通过矩阵运算提取目标数据集;
将特征数据集和目标数据集进行文件落盘,并保存成Excel文件。
进一步的,从整个数据集中按照设定的百分比随机分出20%的测试集数据和80%的训练集数据。
进一步的,构建神经网络结构,包括步骤:
初始化两层神经网络和L层神经网络的参数;
执行正向传播模块;
计算损失函数;
计算执行反向传播模块;
更新参数。
本发明还提供一种基于深度学习的文件分类装置,包括文件模型训练单元和文件类型判别单元;
所述文件模型训练单元包括:
数据读取单元,用于读取文件,将保存的历史数据加载进来;
数据分选单元,用于按照设定的百分比,随机分配训练集数据和测试集数据;
模型创建单元,用于构建神经网络结构,初始化结构模型参数,确定输入层、隐藏层和输出层的大小;
参数调优单元,用于建立循环,确定迭代过程的参数;
模型训练单元,用于根据训练的参数进行模型训练
模型生成单元,用于训练结束,保存模型到本地;
所述文件类型判别单元包括:
特征输入单元,用于输入测试数据集的特征数据;
模型加载单元,用于将数据加载好的模型文件加载到内存中;
结果判定单元,用于用训练好的模型来预测新数据;
可视化展示单元,用于对预测结果进行可视化显示。
进一步的,所述装置还包括文件特征预处理单元。
进一步的,所述文件特征预处理单元包括:
信息提取单元,接收外部的磁盘或者文件夹路径信息,遍历路径信息下所有的文件夹,将所有的文件信息作为样本数据汇总到数据集中;
特征提取单元,用于根据样本数据,通过矩阵运算提取特征数据集;
格式提取单元,用于根据样本数据,通过矩阵运算提取目标数据集;
数据输出单元,用于将特征数据集和目标数据集进行文件落盘,并保存成Excel文件。
相对于现有技术,本发明所述的一种基于深度学习的文件分类方法及装置具有以下优势:
1、安全性:通过对一些文件类型快速识别和阻断,可以有效避免互联网上木马和病毒的传播,还可以避免保密文件的泄露,保证了安全性。
2、多样性:通过神经网络模型识别,增加了文件识别的种类,对于陌生和木马文件也具有很好的检测效果。
3、精确性:使用深度学习神经模型的判断,提高了文件类型识别的精准度,有助于文件内容还原和文件敏感信息检测模型的选择。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的文件分类方法流程示意图;
图2为本发明的文件特征预处理单元的示意图;
图3为本发明的文件模型训练单元的示意图;
图4为本发明的文件类型判别单元的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明提供一种基于深度学习的文件分类方法,该分类方法包括三部分,分别是文件特征预处理过程、文件训练过程和文件测试过程,
具体的,文件特征预处理过程包括:
从本地或者URL读取数据,并完成预处理操作(数据校验或格式转化等),保证可作为神经模型的输入数据;
样本数据以矩阵形式表示,特征向量的维度是M*N,目标变量的维度是N*1,其中M代表采集样本的个数,N代表每个样本的特征个数;
将数据集分为特征数据集和目标数据集,数据集特征和目标数据集是可变的;
特征数据集的变量进行0-1编码(One-hot Encoding),即热编码,对所有的字节先进行热编码;由于文件类型特征值的范围是0~255,满足网络节点输入值正则化的标准,只需将网络节点输入值正则化(batch normalization)。由于我们学习的是输入的特征分布,而不是它的绝对值,故可以对每一个mini-batch数据内部进行标准化,使他们规范化到[0,1]内。目标数据集的个数随着样本数据集合一直在变
具体的,文件训练过程包括:
从整个数据集中按照百分比随机分出20%的测试集数据和80%的训练集数据;
根据特征数据的相似程度,初步设定字节特征提取个数为a,特征提取个数可设置;
构建神经网络模型,需要以下几个关键步骤:
(1)初始化两层神经网络和L层神经网络的参数;
(2)执行正向传播模块;
(3)计算损失函数;
(4)计算执行反向传播模块;
(5)更新参数;
本发明采用DNN深度网络模型,输入和输出层的节点数是固定的,不论是回归还是分类任务,选择合适的层数以及隐藏层节点数,在很大程度上都会影响神经网络的性能问题,设计如下:
(1)输入层节点数(神经元数)n取决于样本的属性个数,由于字节特征个数初步设置为a,因此输入层节点数为a;
(2)输出层节点数l取决于定义的标签编码规则,或者预测的节点数,文本分类的个数,即目标集特征个数;
(3)经过文件数据预处理后,输入空间和输出空间都是有限的,可以拟合任何连续映射的函数,因此选择隐藏层数为1,隐藏层节点数m取决于经验公式:
Figure BDA0003938379670000081
神经元激活函数为ReLU函数;
由于此项目是多分类项目,激活函数选择分类函数softmax,损失函数为交叉熵(cross entropy);
迭代的优化器(optimizer)选择Adam,最初各个层的连接权重(weights)和偏重(biases)是随机生成即可;
训练模型的目的是使得目标函数达到极小值。对于一个深度神经网络,它的参数数目比较庞大,因此目标函数通常是一个包含很多参量的非线性函数。对于这个非线性函数,采用的是随机梯度下降算法来对参数进行更新。具体步骤如下:
(1)对网络参数进行初始化,一般情况下,权重初始化为均值是0,方差为0.01的高斯分布随机值,而偏置统一初始化为0;
(2)将参数代入网络计算前馈输出值,从而可以根据已有的目标标签得出目标函数值;
(3)根据目标函数值以及各参数与目标函数所构成的树结构,运用后向传播算法计算出每个参数的梯度;
(4)设置学习率大小(随着迭代的步骤增多,学习率通常要逐渐减小,这样可以有效避免训练中出现误差震荡情况),进行参数更新,最一般的更新方式是新参数=旧参数-学习率×梯度;
(5)重复进行第2~4步,直到网络收敛为止。
对于模型训练,一个Epoch就是将所有训练样本训练一次的过程。整个训练样本分成若干个Batch,每批样本的大小Batch_Size,Batch_Size的设置范围在0~32之间,如果选择服务器GPU内存不大,则Batch Size数值最好设置小点;
当Batch Size=0时,梯度准确,只适用于小样本数据库;
当Batch Size=1时,梯度变来变不准确,网络结果很难收敛,导致训练学习效率较低,对文件类型记忆较慢;
随Batch Size增大,梯度变准确;
当Batch Size增大到一定数值,梯度已经接近准确;
因此,模型训练的核心是选择合适Batch Size的SGD算法,mini-batch利用噪声梯度,一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了,学习率要加大。
在模型训练过程中出现训练中断情况,可从该轮模型参数继续往后进行训练,无须重新开始训练;
网络模型训练完毕后需要保存起来,保存模型的方法需要一个参数—文件路径,以便在可直接对文件分类使用;
网络模型保存的内容有:网络结构、权重、偏置,使用的损失函数等;
验证测试数据在模型上的准确率,如果准确率不高的话,则对已有的模型进行微调。
具体的,文件测试过程包括:
输入测试数据集的特征数据;
将数据加载好的模型文件加载到内存中;
用训练好的模型来预测新数据;
对预测结果进行可视化显示。
与传统文件分类识别方法相比,本发明的方法在样本文件数量比较大的情况下,通过对大量文件样本的识别学习,支持文件的多分类,不局限于某些指定类别文件的识别,能够比较容易地增加文件识别的种类;能够对大量的文件样本整理成特征数据集,不仅有利于样本特征数据的保存,而且有利于下一次文件识别训练的实用;支持多种文件识别模型的在线训练、评估和淘汰,更加灵活地建立文件识别类型,增加模型与应用系统的匹配度;具备分类功能的模型对新类别也具备鉴别能力,提高了分类的健壮性和适应性;能够对人为修改或者病毒破坏文件具有准确地识别能力;能够任意指定文件特征的个数,通过增加文件特征的个数建立更深层次的网络模型,从而提高文件识别分类的准确度;通过减少文件特征的个数建立快速收敛的网络模型,从而提高文件识别分类的速度;该方法有较强的实用性和适应性。
本发明还提供一种基于深度学习的文件分类装置,包括文件特征预处理单元、文件模型训练单元以及文件模型判别单元;
具体的,文件特征预处理单元包括:
信息提取单元,接收外部的磁盘或者文件夹路径信息,路径信息由手动选择或者输入来完成,信息提取单元遍历路径信息下所有的文件夹,将所有的文件信息作为样本数据汇总到数据集中;
特征提取单元,将样本数据信息作为单元的输入,通过矩阵运算将特征数据集整理出来;
格式提取单元,将样本数据信息作为单元的输入,通过矩阵运算将目标数据集整理出来;
数据输出单元,将特征数据集和目标数据集进行文件落盘,并保存成Excel文件。
具体的,文件模型训练单元包括:
数据读取单元,读取生成的Excel文件,将保存的历史数据加载进来;
数据分选单元,按照设定的百分比,随机分配训练集数据和测试集数据;
模型创建单元,根据功能定义合适的构建神经网络结构,初始化结构模型参数,确定输入层、隐藏层和输出层的大小;
参数调优单元,建立循环,确定迭代次数等参数;
模型训练单元,根据训练的参数进行模型训练
模型生成单元,当训练结束后,将文件的路径作为单元的输入,评估结果会以日志文件保存到本地,同时训练模型会以JSON或者YML格式保存到本地。
具体的,文件类型判别单元包括:
特征输入单元,将测试数据集的特征数据,或者从数据集以外获取的特征数据作为输入数据,此时特征数据只有一组;
模型加载单元,将数据加载好的模型文件加载到内存中;
结果判定单元,用训练好的模型来预测新数据;
可视化展示单元,对评估的结果能够以表格形式展示,对预测结果能够以文字的形式展示。
本发明的装置通过各个模块的协同合作,以及内部单元的作用,共同实现了文件分类识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的文件分类方法,其特征在于:包括文件训练过程和文件测试过程;
所述文件训练过程具体包括:
读取文件,加载历史数据;
按照设定的百分比,随机分配训练集数据和测试集数据;
构建神经网络结构,初始化结构模型参数,确定输入层、隐藏层和输出层的大小;
建立循环,确定迭代过程的参数;
根据训练的参数进行模型训练;
训练结束,保存模型到本地;
所述文件测试过程具体包括:
输入测试数据集的特征数据;
将数据加载好的模型文件加载到内存中;
用训练好的模型来预测新数据;
对预测结果进行可视化显示。
2.根据权利要求1所述的一种基于深度学习的文件分类方法,其特征在于:所述方法还包括在文件训练过程之前进行文件特征预处理。
3.根据权利要求2所述的一种基于深度学习的文件分类方法,其特征在于:
所述文件特征预处理的过程具体包括:
接收外部的磁盘或者文件夹路径信息,遍历路径信息下所有的文件夹,将所有的文件信息作为样本数据汇总到数据集中;
根据样本数据,通过矩阵运算提取特征数据集;
根据样本数据,通过矩阵运算提取目标数据集;
将特征数据集和目标数据集进行文件落盘,并保存成Excel文件。
4.根据权利要求1所述的一种基于深度学习的文件分类方法,其特征在于:从整个数据集中按照设定的百分比随机分出20%的测试集数据和80%的训练集数据。
5.根据权利要求1所述的一种基于深度学习的文件分类方法,其特征在于:构建神经网络结构,包括步骤:
初始化两层神经网络和L层神经网络的参数;
执行正向传播模块;
计算损失函数;
计算执行反向传播模块;
更新参数。
6.一种基于深度学习的文件分类装置,其特征在于:包括文件模型训练单元和文件类型判别单元;
所述文件模型训练单元包括:
数据读取单元,用于读取文件,将保存的历史数据加载进来;
数据分选单元,用于按照设定的百分比,随机分配训练集数据和测试集数据;
模型创建单元,用于构建神经网络结构,初始化结构模型参数,确定输入层、隐藏层和输出层的大小;
参数调优单元,用于建立循环,确定迭代过程的参数;
模型训练单元,用于根据训练的参数进行模型训练
模型生成单元,用于训练结束,保存模型到本地;
所述文件类型判别单元包括:
特征输入单元,用于输入测试数据集的特征数据;
模型加载单元,用于将数据加载好的模型文件加载到内存中;
结果判定单元,用于用训练好的模型来预测新数据;
可视化展示单元,用于对预测结果进行可视化显示。
7.根据权利要求6所述的一种基于深度学习的文件分类装置,其特征在于:所述装置还包括文件特征预处理单元。
8.根据权利要求7所述的一种基于深度学习的文件分类装置,其特征在于:所述文件特征预处理单元包括:
信息提取单元,接收外部的磁盘或者文件夹路径信息,遍历路径信息下所有的文件夹,将所有的文件信息作为样本数据汇总到数据集中;
特征提取单元,用于根据样本数据,通过矩阵运算提取特征数据集;
格式提取单元,用于根据样本数据,通过矩阵运算提取目标数据集;
数据输出单元,用于将特征数据集和目标数据集进行文件落盘,并保存成Excel文件。
CN202211410584.0A 2022-11-11 2022-11-11 一种基于深度学习的文件分类方法及装置 Pending CN115688101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211410584.0A CN115688101A (zh) 2022-11-11 2022-11-11 一种基于深度学习的文件分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211410584.0A CN115688101A (zh) 2022-11-11 2022-11-11 一种基于深度学习的文件分类方法及装置

Publications (1)

Publication Number Publication Date
CN115688101A true CN115688101A (zh) 2023-02-03

Family

ID=85052445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211410584.0A Pending CN115688101A (zh) 2022-11-11 2022-11-11 一种基于深度学习的文件分类方法及装置

Country Status (1)

Country Link
CN (1) CN115688101A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701303A (zh) * 2023-07-06 2023-09-05 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质
CN118394574A (zh) * 2024-04-26 2024-07-26 广州锦高信息科技有限公司 一种病毒入侵的系统恢复方法及系统
CN118470655A (zh) * 2024-07-11 2024-08-09 西安理工大学 一种基于深度学习的飞机结冰场景识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701303A (zh) * 2023-07-06 2023-09-05 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质
CN116701303B (zh) * 2023-07-06 2024-03-12 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质
CN118394574A (zh) * 2024-04-26 2024-07-26 广州锦高信息科技有限公司 一种病毒入侵的系统恢复方法及系统
CN118470655A (zh) * 2024-07-11 2024-08-09 西安理工大学 一种基于深度学习的飞机结冰场景识别方法及系统
CN118470655B (zh) * 2024-07-11 2024-09-24 西安理工大学 一种基于深度学习的飞机结冰场景识别方法及系统

Similar Documents

Publication Publication Date Title
CN108520343B (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
US20200081899A1 (en) Automated database schema matching
US11416867B2 (en) Machine learning system for transaction reconciliation
US10482174B1 (en) Systems and methods for identifying form fields
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
US20210097343A1 (en) Method and apparatus for managing artificial intelligence systems
CN115688101A (zh) 一种基于深度学习的文件分类方法及装置
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
US11748448B2 (en) Systems and techniques to monitor text data quality
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
WO2021189769A1 (zh) 低负载信息预测方法、装置、计算机系统及可读存储介质
CN112767106B (zh) 自动化审计方法、系统、计算机可读存储介质及审计设备
CN112437053B (zh) 入侵检测方法及装置
CN111612038A (zh) 异常用户检测方法及装置、存储介质、电子设备
CN114595689B (zh) 数据处理方法、装置、存储介质和计算机设备
CN110298024A (zh) 涉密文档的检测方法、装置及存储介质
CN117236334A (zh) 一种项目数据安全信息分级处理方法
CN115473726A (zh) 一种识别域名的方法及装置
CN118250169A (zh) 一种网络资产类别推荐方法、设备及储存介质
US20240362535A1 (en) Systems and methods for data structure generation based on outlier clustering
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN117009596A (zh) 一种电网敏感数据的识别方法及装置
Walkowiak et al. Algorithm based on modified angle‐based outlier factor for open‐set classification of text documents
Sun et al. Analysis of English writing text features based on random forest and Logistic regression classification algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination