CN116701303B

CN116701303B - 基于深度学习的电子文件分类方法、系统及可读存储介质

Info

Publication number: CN116701303B
Application number: CN202310822533.7A
Authority: CN
Inventors: 袁锋平; 王飞; 胡园; 王丽芳
Original assignee: Zhejiang Archives Information Technology Co ltd
Current assignee: Zhejiang Archives Information Technology Co ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2024-03-12
Anticipated expiration: 2043-07-06
Also published as: CN116701303A

Abstract

本发明公开了基于深度学习的电子文件分类方法、系统及可读存储介质，属于文件管理技术领域。为解决对文件进行处理时仅依靠临时与否进行分类容易造成文件误删漏删的问题，通过文件特征提取可以对各种不同类型的文件具体内容进行特征提取，可以丰富了对待处理的电子文件的分类种类，提高对电子文件处理的准确性，通过分类模型训练可以让文件分类模型学习到输入数据本身的结构，从而可以得到比输入数据更具有表现能力的特征，继而使得在电子文件分类时可以对文件进行更加深层的特征分析分类，从而提高对文件的分类效果和准确度，可以根据对不同内容的文件的需求进行不同的操作，提高对文件整体的处理效果，保证处理需求实现的稳定性和准确性。

Description

基于深度学习的电子文件分类方法、系统及可读存储介质

技术领域

本发明涉及文件管理技术领域，特别涉及基于深度学习的电子文件分类方法、系统及可读存储介质。

背景技术

随着台式机或笔记本电脑长时间的使用，用户基本都会面临以下问题：电脑运转逐渐卡顿，由于存储文件的长期积累，内存或硬盘存储的文件量逐渐增加，应用系统在运行时，会越来越卡顿。

在对电子文件进行处理时，往往根据其不同的类别有不同的处理需求，已有相关专利，比如公开号CN115981553A公开了一种文件分类管理系统、方法及可读介质。该专利提供的方案，使得对临时文件的处理更为精细化，且能够同步有效的管理临时文件和非临时文件，提高了用户对电脑文件的管理效能。

上述专利其实在实际的操作中还存在以下问题：

1、在对文件进行删除或其他处理时，往往仅根据文件的类型或者文件是否为临时文件作为标准进行操作，分类标准单一，可能存在对重要文件错删漏删的问题。

2、在对文件进行分类处理时，往往难以根据文件的内容对不同类型的文件进行相同内容主题下的整理分类，从而影响对电子文件的处理。

发明内容

本发明的目的在于提供基于深度学习的电子文件分类方法、系统及可读存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于深度学习的电子文件分类方法，包括以下步骤：

电子文件获取，采集获取待分类处理的电子文件并对电子文件进行基础类型分类，基于分类结果分别创建文档、图像和视频基础分类文件集；

文件特征提取，提取文档型文件集中文件的文本信息进行处理并得到关键词集合，提取图像型文件集中图片文件的文字信息及图片特征并归集生成特征集合，分帧化处理视频型文件集中的视频文件并对各帧图像进行内容识别得到内容集合；

分类模型训练，搭建文件分类模型并对模型进行深度学习训练；

电子文件分类，将电子文件中所提取出的关键词集合、特征集合以及内容集合投入文件分类模型内部进行分类处理，得到处理结果后依据处理结果对电子文件进行分类；

分类结果输出，输出电子文件分类结果；

其中，分类模型训练包括以下步骤：

搭建网络分层结构，其中；

搭建包括输入层、训练层及输出层的训练网络结构；

训练层设置有多层，各训练层仅与相邻的训练层之间连接，各训练层之间无法跨层连接，同一训练层内部的各节点之间相互独立无连接，各训练层均视为一个逻辑回归模型；

网络训练逐层调优，其中；

采用无标签数据由训练层的底层开始逐层向最高层分别训练各层参数；

将无标签数据投入第一层进行训练，并基于训练结果得到第一层参数；

基于参数对输入的无标签数据进行数据表现力特征获取，同时对各训练层逐层进行训练，得到各层训练参数；

监督学习网络微调，其中；

基于训练参数采用有标签的数据学习训练，基于原数据与输出的数据进行比对并进行比对误差收集；

基于误差对训练网络结构进行微调。

进一步的，提取图像型文件集中图片文件的文字信息，包括：

分别对每一图片文件进行边缘检测，查找每一图片文件对应的文字矩形区域；

利用公式(1)、(2)获取文字矩形区域中每一文字对应的文字特征；

其中，w_i表示文字矩形区域中第i个文字对应的书写特征，k表示文字矩形区域中文字的总数量，X表示文字矩形区域的最大宽度，Y表示文字矩形区域的长度，x表示文字矩形区域的单位宽度，y表示文字矩形区域的单位长度，α表示第一查找参数，其取值为0.1，β表示第二查找参数，其取值为0.01，h_ix表示第i个文字在文字矩形区域中的文字宽度，h_iy表示表示第i个文字在文字矩形区域中的文字长度；

K_i表示文字矩形区域中第i个文字对应的文字特征，m表示文字的单位书写面积，δ表示数字文字对应的第一书写面积权重，当w_i≤a时表示文字矩形区域中第i个文字对应的书写特征为数字特征，γ表示字母文字对应的第二书写面积权重，当a<w_i≤b时表示文字矩形区域中第i个文字对应的书写特征为字母特征，θ表示汉子文字对应的第三书写面积权重，当w_i≤c时表示文字矩形区域中第i个文字对应的书写特征为汉字特征；

根据公式(1)、(2)的计算结果，在文字矩形区域中标记每一文字对应的文字特征；

根据文字特征获取对应的文字识别方式进行文字识别，生成每一图片文件对应的文字信息。

进一步的，基于误差对训练网络结构进行微调，包括：

基于原数据与输出的数据的误差，确定误差的数值绝对值，以及误差方向向量；

根据训练集中是否包括所述原数据，将所述原数据划分为熟悉数据和陌生数据；

根据熟悉数据的数值绝对值与预设绝对值的差异，判断所述训练网络结构是否存在过拟合；

若是，基于误差方向向量对训练停止标准进行放宽调整，得到最新训练停止标准，基于数值绝对值与预设绝对值的差异大小，确定训练层的权重衰减系数，并利用权重衰减系数对训练层进行调整，得到目标训练层；

否则，根据陌生数据的数值绝对值与预设绝对值的差异，判断所述训练网络结构是否存在欠拟合；若是，基于误差方向向量对训练停止标准进行约束调整，得到最新训练停止标准，基于数值绝对值与预设绝对值的差异大小，确定训练层的权重调整系数，并利用权重调整系数对训练层进行调整，得到目标训练层；

基于最新训练停止标准和目标训练层对训练网络结构进行微调，得到目标训练网络结构；

当判断所述训练网络结构不存在过拟合，也不存在欠拟合时，基于数值绝对值和误差方向向量确定层节点个数微调系数，对训练层的节点个数进行微调，得到目标训练网络结构。

本申请实施例还提供基于深度学习的电子文件分类系统，包括：

文件获取单元，用于：

采集获取待分类处理的电子文件并按照文档、图像和视频的基础类型对电子文件进行基础类型分类，基于分类结果创建基础分类文件集；

特征提取单元，用于：

对文档型文件集中文件的文本信息进行处理并得到关键词集合，对图像型文件集中的图片文件进行处理并得到特征集合，对视频型文件集中的视频文件进行处理并得到内容集合；

模型训练单元，用于：

搭建并训练深度学习文件分类模型；

文件分类单元，用于：

通过文件分类模型对关键词集合、特征集合以及内容集合进行处理，并基于处理结果对各集合相对应的电子文件进行全局分类；

结果输出单元，用于：

基于文件分类单元的处理结果输出分类结果。

进一步的，所述文件获取单元包括：

文件采集模块，用于：

对需要进行分类处理的电子文件进行采集获取；

基础分类模块，用于：

基于文件类型对文件采集模块所采集的电子文件进行基础文件类型分类并创建基础分类文件集，所述基础分类文件集包括文档型文件集、图像型文件集和视频型文件集。

进一步的，所述特征提取单元包括：

文本特征提取模块，用于：

对文档型文件集中文件的文本信息进行文本读取，对所读取出的文本数据进行数据分割并得到文本数据中的若干个关键词语，根据词性统计特征对提取词语进行清洗，得到关键词集合；

图像特征提取模块，用于：

对图像型文件集中的图片文件进行文字信息及图片特征提取，基于每一个不同的图片文件生成不同的特征集合，每个图片文件相对应的特征集合有且仅有一个，获取每个图片文件相对应的特征集合，每个图片文件相对应的特征集为全局唯一特征集合，将每个图片文件中所提取出的文字信息及图片特征分别归集至相对应的特征集合中；

视频特征提取模块，用于：

对视频型文件集中的视频文件进行视频关键段截取，对视频关键段进行分帧处理，得到若干视频关键帧，确定每个视频关键帧画面中的关键图像内容，基于每一个不同的视频文件生成不同的内容集合，获取每个视频文件相对应的内容集合，将每个视频文件中所提取出的关键图像内容分别归集至相对应的内容集合中。

进一步的，所述模型训练单元包括：

模型构建模块，用于：

搭建训练网络结构；

模型训练模块，用于：

基于训练网络结构带入无标签数据进行网络各层参数训练获取，基于各层参数带入有标签数据进行学习，并对输入及输出数据进行对比，基于对比结果对训练网络结构进行微调并生成深度学习文件分类模型。

进一步的，所述文件分类单元包括：

特征分类模块，用于：

将关键词集合、特征集合以及内容集合投入深度学习文件分类模型中，对关键词集合、特征集合以及内容集合中的各项文件特征进行分类处理，并基于特征分类处理结果输出文件分类目录；

文件分类模块，用于：

基于文件分类目录对各电子文件依照目录结果进行分类处理，对个电子文件生成相对应的分类戳，并输出文件分类结果。

进一步的，文件分类结果中包括各电子文件目录、各电子文件基础文件类型以及与目录相匹配各电子文件分类戳。

进一步的，所述结果输出单元包括：

分类存储模块，用于：

基于文件分类单元的分类戳及文件分类结果，创建分类存储目录，对各电子文件进行分类存储；

文件导出模块，用于：

对各分类存储目录内的电子文件进行分类导出。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度学习的电子文件分类系统。

与现有技术相比，本发明的有益效果是：

1.现有技术下，在对文件进行删除或其他处理时，往往仅根据文件的类型或者文件是否为临时文件作为标准进行操作，分类标准单一，可能存在对重要文件错删漏删的问题，而本发明的特征提取单元对各种不同类型的文件具体内容进行特征提取，相对于仅对文件是否为临时文件进行分类而言，可以更加准确的对各个文件的具体内容进行概括性的检索采集，从而可以通过后续的深度学习文件分类模型针对电子文件的具体内容进行分类，丰富了对待处理的电子文件的分类种类，从而避免出现对重要文件误删的情况发生，也可以防止对一些无用的文件漏删，提高对电子文件处理的准确性。

2.现有技术下，在对文件进行分类处理时，往往难以根据文件的内容对不同类型的文件进行相同内容主题下的整理分类，从而影响对电子文件的处理，而本发明的模型训练单元和文件分类单元搭建并训练深度学习文件分类模型对电子文件进行内容分类，通过对文件分类模型进行逐层深度学习，可以让文件分类模型学习到输入数据本身的结构，从而可以得到比输入数据更具有表现能力的特征，继而使得再通过文件分类模型对文件进行分类时可以对文件进行更加深层的特征分析分类，从而提高对文件的分类效果和准确度，从而使得在对电子文件进行分类处理时，可以全自动进行文件分类处理，从而可以根据对不同内容的文件的需求进行不同的操作，提高对文件整体的处理效果，避免出现文件处理错误的问题，保证处理需求实现的稳定性和准确性。

附图说明

图1为本发明基于深度学习的电子文件分类方法的流程示意图；

图2为本发明基于深度学习的电子文件分类系统的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：

基于深度学习的电子文件分类方法，包括以下步骤：

分类结果输出，输出电子文件分类结果；

其中，分类模型训练包括以下步骤：

搭建网络分层结构，其中；

搭建包括输入层、训练层及输出层的训练网络结构；

网络训练逐层调优，其中；

监督学习网络微调，其中；

基于误差对训练网络结构进行微调。

具体的，通过文件特征提取可以对各种不同类型的文件具体内容进行特征提取，相对于仅对文件是否为临时文件进行分类而言，可以丰富了对待处理的电子文件的分类种类，提高对电子文件处理的准确性，通过分类模型训练可以让文件分类模型学习到输入数据本身的结构，从而可以得到比输入数据更具有表现能力的特征，继而使得在电子文件分类时可以对文件进行更加深层的特征分析分类，从而提高对文件的分类效果和准确度，可以根据对不同内容的文件的需求进行不同的操作，提高对文件整体的处理效果，保证处理需求实现的稳定性和准确性。

基于深度学习的电子文件分类方法，还包括以下步骤：

该实例中，文字矩形区域表示图片文件中包含文字的区域，然后将该区域用矩形进行覆盖后得到的；

该实例中，图片文字上的文字区域中可以包含汉字、字母和数字；

该实例中，为了避免不同形式的文字混淆，所以根据文字的特征采用不同的文字识别方式进行识别，例如：数字1和字母i的书写形式类似，为了避免混淆，利用数字识别方式来识别数字1，利用字母识别方式来识别字母i。

上述技术方案的工作原理：首先通过对图片文件进行边缘检测来得到图片文件中的文字矩形区域，然后利用两个公式通过配合的方式来计算文字矩形区域中每一文字对应的文字特征，然后根据其文字特征选取对应的文字识别方式来进行文字识别，从而得到每一图片文件对应的文字信息。

上述技术方案的有益效果：文字识别的结果是进行文件分类的依据，为了提高文字识别的准确率，利用边缘检测的方式确定文字区域的位置，然后对其进行文字特征的提取，进而根据不同的文字特征选取不同的文字识别方式，可以有效避免外观类似的文字产生混淆，有效的识别了不同格式的文字，提高了文字识别结果的有效性，同时提高了后续工作的准确性。

基于深度学习的电子文件分类方法，还包括以下步骤：

基于误差对训练网络结构进行微调，包括：

在该实施例中，熟悉数据为训练集使用过的数据，陌生数据为训练集为使用过的数据。

在该实施例中，陌生数据的数值绝对值与预设绝对值的差异大于预设差异，表示存在欠拟合。

在该实施例中，熟悉数据的数值绝对值与预设绝对值的差异大于预设差异，表示存在过拟合。

在该实施例中，数值绝对值与预设绝对值的差异大小，确定训练层的权重衰减系数越大。

在该实施例中，误差方向向量用来表示差异的方向以及在每个方向上的长度，误差方向向量的方向特征和长度特征来对训练停止标准进行调整放宽调整表示对训练停止标准进行放宽，即在第一条件下之前不可以训练停止，在最新训练停止标准下训练停止，约束调整则相反，即在第二条件下之前可以训练停止，在最新训练停止标准下不可以训练停止。

在该实施例中，利用权重衰减系数对训练层进行调整，得到目标训练层为对每个训练层的结构权重进行衰减调整。

在该实施例中，利用权重调整系数对训练层进行调整，得到目标训练层为对每个训练层的结构权重进行加权调整。

在该实施例中，基于数值绝对值和误差方向向量确定层节点个数微调系数为根据节点个数微调系数对训练的节点个数进行少量加减。

上述设计方案的有益效果是：通过根据原数据与输出数据的误差，以及原数据与训练集的关系，来判断训练网络结构是否存在过拟合或欠拟合的情况，并根据原数据与输出的数据的误差，确定误差的数值绝对值，以及误差方向向量来确定对训练网络结构的具体调整参数，保证得到的目标训练网络结构的准确性，从而提高对文件的分类效果和准确度。

请参阅图2，本发明提供以下技术方案：

基于深度学习的电子文件分类系统，包括：

文件获取单元，用于：

特征提取单元，用于：

模型训练单元，用于：

搭建并训练深度学习文件分类模型；

文件分类单元，用于：

结果输出单元，用于：

基于文件分类单元的处理结果输出分类结果。

具体的，在系统进行工作时，采集获取待分类处理的电子文件并对电子文件进行基础类型分类，基于分类结果分别创建文档、图像和视频基础分类文件集，对各文件集中的电子文件进行处理并分别得到关键词集合、特征集合和内容集合，搭建文件分类模型并对模型进行深度学习训练，将电子文件中所提取出的关键词集合、特征集合以及内容集合投入文件分类模型内部进行分类处理，得到处理结果后依据处理结果对电子文件进行分类并输出。

文件获取单元包括：

文件采集模块，用于：

对需要进行分类处理的电子文件进行采集获取；

基础分类模块，用于：

特征提取单元包括：

文本特征提取模块，用于：

图像特征提取模块，用于：

视频特征提取模块，用于：

具体的，通过特征提取单元可以对各种不同类型的文件具体内容进行特征提取，相对于仅对文件是否为临时文件进行分类而言，可以更加准确的对各个文件的具体内容进行概括性的检索采集，从而可以通过后续的深度学习文件分类模型针对电子文件的具体内容进行分类，丰富了对待处理的电子文件的分类种类，从而避免出现对重要文件误删的情况发生，也可以防止对一些无用的文件漏删，提高对电子文件处理的准确性。

模型训练单元包括：

模型构建模块，用于：

搭建训练网络结构；

模型训练模块，用于：

文件分类单元包括：

特征分类模块，用于：

文件分类模块，用于：

基于文件分类目录对各电子文件依照目录结果进行分类处理，对个电子文件生成相对应的分类戳，并输出文件分类结果，文件分类结果中包括各电子文件目录、各电子文件基础文件类型以及与目录相匹配各电子文件分类戳。

结果输出单元包括：

分类存储模块，用于：

文件导出模块，用于：

对各分类存储目录内的电子文件进行分类导出。

具体的，通过对文件分类模型进行逐层深度学习，可以让文件分类模型学习到输入数据本身的结构，从而可以得到比输入数据更具有表现能力的特征，继而使得再通过文件分类模型对文件进行分类时可以对文件进行更加深层的特征分析分类，从而提高对文件的分类效果和准确度，从而使得在对电子文件进行分类处理时，可以全自动进行文件分类处理，从而可以根据对不同内容的文件的需求进行不同的操作，提高对文件整体的处理效果，避免出现文件处理错误的问题，保证处理需求实现的稳定性和准确性。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度学习的电子文件分类系统。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于深度学习的电子文件分类系统，应用在基于深度学习的电子文件分类方法中，其特征在于，包括：

文件获取单元，用于：

特征提取单元，用于：

模型训练单元，用于：

搭建并训练深度学习文件分类模型；

文件分类单元，用于：

结果输出单元，用于：

基于文件分类单元的处理结果输出分类结果；

所述基于深度学习的电子文件分类方法，包括以下步骤：

分类结果输出，输出电子文件分类结果；

其中，分类模型训练包括以下步骤：

搭建网络分层结构，其中；

搭建包括输入层、训练层及输出层的训练网络结构；

网络训练逐层调优，其中；

监督学习网络微调，其中；

基于误差对训练网络结构进行微调，包括：

基于原数据与输出的数据的误差，确定误差的数值绝对值，以及误差方向向量；误差方向向量用来表示差异的方向以及在每个方向上的长度，基于误差方向向量的方向特征和长度特征来对训练停止标准进行调整；

根据训练集中是否包括所述原数据，将所述原数据划分为熟悉数据和陌生数据；熟悉数据为训练集使用过的数据，陌生数据为训练集未使用过的数据；

根据熟悉数据的数值绝对值与预设绝对值的差异，判断所述训练网络结构是否存在过拟合；若是，基于误差方向向量对训练停止标准进行放宽调整，得到最新训练停止标准，基于数值绝对值与预设绝对值的差异大小，确定训练层的权重衰减系数，并利用权重衰减系数对训练层进行调整，得到目标训练层；

当判断所述训练网络结构不存在过拟合，也不存在欠拟合时，基于数值绝对值和误差方向向量确定层节点个数微调系数，对训练层的节点个数进行微调，得到目标训练网络结构；

所述提取图像型文件集中图片文件的文字信息的方法，包括以下步骤：

其中，w_i表示文字矩形区域中第i个文字对应的书写特征，k表示文字矩形区域中文字的总数量，X表示文字矩形区域的最大宽度，Y表示文字矩形区域的长度，x表示文字矩形区域的单位宽度，y表示文字矩形区域的单位长度，α表示第一查找参数，其取值为0.1，β表示第二查找参数，其取值为0.01，h_ix表示第i个文字在文字矩形区域中的文字宽度，h_iy表示第i个文字在文字矩形区域中的文字长度；

K_i表示文字矩形区域中第i个文字对应的文字特征，m表示文字的单位书写面积，δ表示数字文字对应的第一书写面积权重，当w_i≤a时表示文字矩形区域中第i个文字对应的书写特征为数字特征，γ表示字母文字对应的第二书写面积权重，当a<w_i≤b时表示文字矩形区域中第i个文字对应的书写特征为字母特征，θ表示汉字文字对应的第三书写面积权重，当w_i≤c时表示文字矩形区域中第i个文字对应的书写特征为汉字特征；

2.如权利要求1所述的基于深度学习的电子文件分类系统，其特征在于：所述文件获取单元包括：

文件采集模块，用于：

对需要进行分类处理的电子文件进行采集获取；

基础分类模块，用于：

3.如权利要求1所述的基于深度学习的电子文件分类系统，其特征在于：所述特征提取单元包括：

文本特征提取模块，用于：

对文档型文件集中文件的文本信息进行文本读取，对所读取出的文本数据进行数据分割并得到文本数据中的若干个关键词语，根据词性统计特征对提取词语进行清洗，得到关键词集合；图像特征提取模块，用于：

视频特征提取模块，用于：

4.如权利要求3所述的基于深度学习的电子文件分类系统，其特征在于：所述模型训练单元包括：

模型构建模块，用于：

搭建训练网络结构；

模型训练模块，用于：

5.如权利要求1所述的基于深度学习的电子文件分类系统，其特征在于：所述文件分类单元包括：

特征分类模块，用于：

将关键词集合、特征集合以及内容集合投入深度学习文件分类模型中，对关键词集合、特征集合以及内容集合中的各项文件特征进行分类处理，并基于特征分类处理结果输出文件分类目录；文件分类模块，用于：

基于文件分类目录对各电子文件依照目录结果进行分类处理，对各电子文件生成相对应的分类戳，并输出文件分类结果，文件分类结果中包括各电子文件目录、各电子文件基础文件类型以及与目录相匹配各电子文件分类戳。

6.如权利要求1所述的基于深度学习的电子文件分类系统，其特征在于：所述结果输出单元包括：

分类存储模块，用于：

文件导出模块，用于：

对各分类存储目录内的电子文件进行分类导出。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于深度学习的电子文件分类系统。