CN113987587B

CN113987587B - 一种便捷式数据分级分类的处理方法

Info

Publication number: CN113987587B
Application number: CN202111450012.0A
Authority: CN
Inventors: 张建强
Original assignee: Chongqing Beite Computer System Engineering Co ltd
Current assignee: Chongqing Beite Computer System Engineering Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-10-28
Anticipated expiration: 2041-11-30
Also published as: CN113987587A

Abstract

本发明提出了一种便捷式数据分级分类的处理方法，包括启动模块的数据输出端与合法性模块的数据输入端相连，合法性模块的数据输出端与清单模块的数据输入端相连，清单模块的数据输出端与进程模块的数据输入端相连，进程模块的数据输出端与分类模块的数据输入端相连，分类模块的数据输出端与报告模块的数据输入端相连。本发明基于U盘开展终端留存数据的分类分级，与当前基于服务端－客户端模式，客户端以爬虫方式进行数据采集、再由服务器进行分类分级，可填补一些不能安装客户端的场景，比如不受控终端、离网终端等，并对从图片中提取的内容实现对图片分类，防止敏感图片数据泄露。

Description

一种便捷式数据分级分类的处理方法

技术领域

本发明涉及一种数据分类技术领域，特别是涉及一种便捷式数据分级分类的处理方法。

背景技术

随着信息安全技术的不断发展，安全防护逐渐由被动响应向主动防御转变，由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲，传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式，已经逐渐演进为在敏感数据泄露事件发生前，及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用，从源头上降低敏感数据泄露机会的主动防御模式。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种便捷式数据分级分类的处理方法。

为了实现本发明的上述目的，本发明提供了一种便捷式数据分级分类的处理系统，包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块；

启动模块的数据输出端与合法性模块的数据输入端相连，合法性模块的数据输出端与清单模块的数据输入端相连，清单模块的数据输出端与进程模块的数据输入端相连，进程模块的数据输出端与分类模块的数据输入端相连，分类模块的数据输出端与报告模块的数据输入端相连；

启动模块用于主程序启动；

合法性模块用于检测程序执行，判断运行环境合法性；

清单模块用于检测程序启动多进程读取待检测文件清单；

进程模块用于检测进程读取硬件能力信息，动态确定检测进程数量；

分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理；

报告模块用于生成检测报告。

在本发明的一种优选实施方式中，在启动模块中包括：在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息，待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合，启动检测，启动检测后将主界面中的输入框灰化，启动日志读取进程，启动日志记录线程并生成日志文件；

日志读取进程用于负责循环读取日志文件记录写入主界面，每次读取时先判断日志文件中是否有检测结束标识符，如果无结束标识符，提取日志中新写入内容插入主界面日志框，读完后进程休眠1s；如有结束标识符，则将主界面中灰化的输入框恢复正常，停止循环。

在本发明的一种优选实施方式中，在进程模块中包括：

读取当前终端硬件的CPU核数、内存G数，计算内存G数与CPU核数的比例，记为T；

表格类文件处理进程数或文本类处理进程数为M，如果CPU核数小于9并且T>1，则M＝CPU核数×2，其他情况M＝CPU核数；

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例。

在本发明的一种优选实施方式中，在分类模块对表格类文件内容读取及分类处理包括：

从待检测文件清单中筛选出待检测表格类文件，过滤待检测文件清单，得到表格类文件清单；

启动M个进程，将待检测表格类文件中的文件按照索引号分成M份，分别传给进程；

依次处理每个文件，读取表格sheet名，分别读取每个sheet表格内容；

每个表格内容逐列比对，每列记录依次与预设数据信息比对，预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，找到满足条件的内容则对该文件该列标记内容标签并计入标签列表，同时中断进入下一个列比对；如果全部遍历均没找到，则直接进入下一列比对；

单个文件处理完后，继续处理下一个文件；

或/和对文本类文件内容读取及分类处理包括：

从待检测文件清单中筛选出待检测文本类文件，过滤待检测文件清单，得到文本类文件清单；

启动M个进程，将待检测文本类文件中的文件按照索引号分成M份，分别传给进程；

依次读取每个文本内容，依次与预设数据信息比对，预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本；

或/和对图片类文件内容读取及分类处理包括：

从待检测文件清单中筛选出待检测图片类文件，过滤待检测文件清单，得到图片类文件清单；

启动N个进程，将待检测图片类文件中的文件按照索引号分成N份，分别传给进程；

启动图片文本内容检测程序，依次读取每个图片的文字内容，形成文本内容列表；

对文本内容列表总的每个文本内容，依次与预设数据信息比对，预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本。

本发明还公开了一种便捷式数据分级分类的处理方法，包括以下步骤：

S1，主程序启动；

S2，检测程序执行，判断运行环境合法性；

S3，检测程序启动多进程读取待检测文件清单；

S4，检测进程读取硬件能力信息，动态确定检测进程数量；

S5，对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理；

S6，生成检测报告。

在本发明的一种优选实施方式中，在步骤S1中包括：在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息，待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合，启动检测，启动检测后将主界面中的输入框灰化，启动日志读取进程，启动日志记录线程并生成日志文件；

日志读取进程用于负责循环读取日志文件记录写入主界面，每次读取时先判断日志文件中是否有检测结束标识符，如果无结束标识符，提取日志中新写入内容插入主界面日志框，读完后进程休眠1s；如有结束标识符，则将主界面中灰化的输入框恢复正常，停止循环；

或/和在步骤S2中包括：

获取程序运行路径、运行U盘的硬件编码信息，比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期之一或者任意组合，如果不符合则检测程序退出运行；

或/和在步骤S3中包括：

启动遍历进程，如果检测整个硬盘则按照盘符启动多个进程，每个进程负责一个盘符的为文件遍历，如果只是具体某个目录则只启动一个进程进行文件遍历；

遍历待检测目录路径，对文件后缀名属于待检测文件类型的文件列入待检测文件清单。

在本发明的一种优选实施方式中，在步骤S4中包括：

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例。

在本发明的一种优选实施方式中，在步骤S5中对表格类文件内容读取及分类处理包括：

每个表格内容逐列比对，每列记录依次与预设敏感数据信息比对，预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，找到满足条件的内容则对该文件该列标记内容标签并计入标签列表，同时中断进入下一个列比对；如果全部遍历均没找到，则直接进入下一列比对；

单个文件处理完后，继续处理下一个文件；

或/和对文本类文件内容读取及分类处理包括：

依次读取每个文本内容，依次与预设敏感数据信息比对，预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本；

或/和对图片类文件内容读取及分类处理包括：

对文本内容列表总的每个文本内容，依次与预设敏感数据信息比对，预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本。

在本发明的一种优选实施方式中，在步骤S6中包括：

读取当前终端CPUID、硬盘ID信息、终端IP地址、对应互联网出口IP地址之一或者任意组合，结合主界面输入内容，生成终端内容检测报告。

在本发明的一种优选实施方式中，在步骤S5中包括：表格类文件包括csv文件、xlsx文件、xls文件、et文件之一或者任意组合；

文本类文件包括txt文件、log文件、docx文件、doc文件、wps文件、pdf文件之一或者任意组合；

图片类文件包括jpg文件、jpeg文件、JPG文件、bmp文件、png文件之一或者任意组合。

综上所述，由于采用了上述技术方案，本发明基于U盘开展终端留存数据的分类分级，与当前基于服务端－客户端模式，客户端以爬虫方式进行数据采集、再由服务器进行分类分级，可填补一些不能安装客户端的场景，比如不受控终端、离网终端等，并对从图片中提取的内容实现对图片分类，防止敏感图片数据泄露。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明流程示意框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种便捷式数据分级分类的处理系统，包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块；

启动模块用于主程序启动；

合法性模块用于检测程序执行，判断运行环境合法性；

清单模块用于检测程序启动多进程读取待检测文件清单；

报告模块用于生成检测报告。

在本发明的一种优选实施方式中，在进程模块中包括：

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例。

单个文件处理完后，继续处理下一个文件；

或/和对文本类文件内容读取及分类处理包括：

或/和对图片类文件内容读取及分类处理包括：

本发明还提供了一种便捷式数据分级分类的处理方法，如图1所示，包括以下步骤：

步骤一：主程序启动(主程序基于U盘中的exe程序启动，不依赖于当前windows环境的其他组件)，在界面上输入待检测目录路径、待检测文件类型等参数信息，启动检测，将主界面中输入框灰化，启动一个检测进程，启动一个日志读取进程，启动日志记录线程并生成日志文件；将本方法加载在便携式移动终端(例如U盘，移动硬盘)上实现方便携带，即插即用。

(1)待检测文件类型分为表格类文件，文本类文件，图片类文件

表格类文件：.csv文件、.xlsx文件，.xls文件，.et文件

文本类文件：.txt文件，.log文件，.docx文件，.doc文件，.wps文件

图片类文件：.jpg文件，.jpeg文件，.JPG文件，.bmp文件，.png文件等

(2)日志读取进程

负责循环读取日志文件记录写入主界面，每次读取时先判断日志文件中是否有检测结束标识符，如果无结束标识符，提取日志中新写入内容插入主界面日志框，读完后进程休眠1s；如有结束标识符，则将主界面中灰化的输入框恢复正常，停止循环。

步骤二：检测程序执行，判断运行环境合法性。

(1)获取程序运行路径、运行U盘的硬件编码信息，比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期等，如果不符合的情况则检测程序退出运行，起到防止恶意使用。

步骤三：检测程序启动多进程读取待检测文件清单。

文件列表合并。将多个进程运行返回的文件列表进行合并，并返回。

步骤四：检测进程读取当前终端(待检测设备)硬件能力信息，动态确定检测进程数量。

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例。

步骤五：检测进程，表格类文件内容读取及分类处理。

从待检测文件清单中筛选出待检测表格类文件。按照文件后缀名(.csv文件、.xlsx文件，.xls文件，.et文件)，过滤待检测文件清单，得到表格类文件清单。

启动M个进程，将待检测表格类文件中的文件按照索引号分成M份，分别传给进程。

表格文件处理进程：

依次处理每个文件，读取表格sheet名，分别读取每个sheet表格内容，其中csv文件直接读取内容(读取会因为中文编码格式问题导致失败，因此需要针对GB18030、utf-8、utf-8-sig等多种中文编码格式依次尝试，直至成功读取，或全部失败丢弃该文件进入下一个文件读取)，读取时抽样表格的部分列；

每个表格内容逐列比对，每列记录依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息，找到满足条件的内容则对该文件该列标记内容标签并计入标签列表，同时中断进入下一个列比对；如果全部遍历均没找到，则直接进入下一列比对。

单个文件处理完后，继续处理下一个文件。

返回标签列表

合并M个进程返回的标签列表。

步骤六：检测进程，文本类文件内容读取及分类处理。

从待检测文件清单中筛选出待检测文本类文件。按照文件后缀名(.txt文件，.log文件，.docx文件，.doc文件，.wps文件)，过滤待检测文件清单，得到文本类文件清单。

启动M个进程，将待检测文本类文件中的文件按照索引号分成M份，分别传给进程。

表格文件处理进程：

依次读取每个文本内容(读取会因为中文编码格式问题导致失败，因此需要针对GB18030、utf-8、utf-8-sig等多种中文编码格式依次尝试，直至成功读取，或全部失败丢弃该文件进入下一个文件读取)；

每个文本内容，依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本。

返回标签列表

合并M个进程返回的标签列表。

步骤七：检测进程，图片类文件内容读取及分类处理。

从待检测文件清单中筛选出待检测图片类文件。按照文件后缀名(.jpg文件，.jpeg文件，.JPG文件，.bmp文件，.png文件等)，过滤待检测文件清单，得到图片类文件清单。

启动N个进程，将待检测图片类文件中的文件按照索引号分成N份，分别传给进程。

图片文件处理进程：

启动图片文本内容检测程序，依次读取每个图片的文字内容，形成文本内容列表；在本实施方式中，启动图片文本内容检测程序，读取得到图片上的文字内容的方法包括以下步骤：

S51，获取待分类图片数据，对待分类图片数据进行图片数据读取；

S52，对图片中的文字目标进行检测，提取图片中的文字目标；

S53，对文字目标方向识别及旋转调整；

S54，对文字内容识别，形成检测文本。

在本发明的一种优选实施方式中，在步骤S52中对图片中的文字目标是基于深度学习目标检测方法进行检测，实现对图片中的文字目标提取。

在本发明的一种优选实施方式中，在步骤S54中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。

在本发明的一种优选实施方式中，在步骤S51中包括以下步骤：

S511，统计获取的待分类图片数据的总张数，记作Q；分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片，Q为大于或者等于1的正整数；令q＝1；

S512，计算第q待分类图片的分类顺序码，其第q待分类图片的分类顺序码的计算方法为：

其中，

表示第q待分类图片的分类顺序码；

Classification Number Algorithm[]表示分类顺序码函数；优选采用哈希MD5算法，通过采用哈希MD5算法该分类顺序码为16位16进制的字符串，也可以将16位16进制的字符串转换为10进制的字符串。

I_q表示第q待分类图片；

S513，判断q与Q间的大小关系：

若q≥Q，则执行步骤S514；

若q＜Q，则q＝q+1，返回步骤S512；

S514，判断分类顺序码集合

中是否存在相同的分类顺序码：

若分类顺序码集合

中存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

表示第Q待分类图片的分类顺序码，则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片；将分类顺序码集合

中剩余的分类顺序码作为所对应的待分类图片的图片名称；

若分类顺序码集合

中不存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

表示第Q待分类图片的分类顺序码，则将分类顺序码集合

中的分类顺序码作为所对应的待分类图片的图片名称；

S515，将待分类图片以图片名称按照数字大小从小到大排列，提取最小的数字和最大的数字，分别记作η_min和η_max；

S516，读取图片数据时以图片名称按照数字大小顺序读取，当其读取到图片名称为η_min和η_max时停止读取，表明待分类图片数据读取完毕。

在本发明的一种优选实施方式中，在步骤S53中包括以下步骤：

S531，获取文字目标的旋转参数，旋转参数包括旋转角度α，α∈[-π,π]，|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|，||表示取绝对值，α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|，α＜0表示沿垂直于旋转点逆时针旋转角度|α|；

S532，取图片平面内的任一坐标点(x₀,y₀)作为基准坐标点，

表示图片平面内所有坐标点集合，

(x_m,y_n)表示文字目标图片中第m列第n行的坐标点，m＝1,2,3,…,M，n＝1,2,3,…,N，M表示文字目标图片的横向像素点个数，N表示文字目标图片的竖向像素点个数，M＝wid×res，wid表示文字目标图片的宽度值，res表示文字目标图片的分辨率，N＝hig×res，hig表示文字目标图片的高度值，res表示文字目标图片的分辨率，(x₁,y₁)表示文字目标图片中第m行第n列的坐标点；(x₁,y₁)表示文字目标图片中第1列第1行的坐标点，(x₂,y₁)表示文字目标图片中第2列第n行的坐标点，(x₃,y₁)表示文字目标图片中第3列第1行的坐标点，(x_M,y₁)表示文字目标图片中第M列第1行的坐标点；(x₁,y₂)表示文字目标图片中第1列第2行的坐标点，(x₂,y₂)表示文字目标图片中第2列第2行的坐标点，(x₃,y₂)表示文字目标图片中第3列第2行的坐标点，(x_M,y₂)表示文字目标图片中第M列第2行的坐标点；(x₁,y₃)表示文字目标图片中第1列第3行的坐标点，(x₂,y₃)表示文字目标图片中第2列第3行的坐标点，(x₃,y₃)表示文字目标图片中第3列第3行的坐标点，(x_M,y₃)表示文字目标图片中第M列第3行的坐标点；(x₁,y_N)表示文字目标图片中第1列第N行的坐标点，(x₂,y_N)表示文字目标图片中第2列第N行的坐标点，(x₃,y_N)表示文字目标图片中第3列第N行的坐标点，(x_M,y_N)表示文字目标图片中第M列第N行的坐标点；

S533，判断M和N间的大小关系：

若M≥N，则建立M×M的方形像素框；

若M<N，则建立N×N的方形像素框；

以方形像素框的中心为原点，以左为X轴的正方向，以上为Y轴的正方向，建立方形像素坐标系；

S534，将文字目标图片中坐标点(x_m,y_n)所对应RGB像素值放置在方形像素坐标系中的坐标点(x_m′,y_n′)处。

在本发明的一种优选实施方式中，在步骤S534中坐标点(x_m′,y_n′)的计算方法包括以下步骤：

S5341，根据坐标点(x₀,y₀)得到坐标点(x_m,y_n)的坐标点角度值，其坐标点角度值的计算方法为：

若y_n-y₀≥0,x_m-x₀＞0，则

若y_n-y₀＞0,x_m-x₀≤0，则

若y_n-y₀＜0,x_m-x₀≥0，则

若y_n-y₀≤0,x_m-x₀＜0，则

S5342，判断α与0的关系：

若α＜0，则

若α≥0，则

对文本内容列表总的每个文本内容，依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本。

返回标签列表

合并N个进程返回的标签列表。

步骤八：生成检测报告，读取当前终端CPUID、硬盘ID等信息，结合主界面输入内容，生成终端内容检测报告。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种便捷式数据分级分类的处理系统，其特征在于，包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块；

启动模块用于主程序启动；

合法性模块用于检测程序执行，判断运行环境合法性；

清单模块用于检测程序启动多进程读取待检测文件清单；

进程模块用于检测进程读取硬件能力信息，动态确定检测进程数量；进程数量确定方法包括：

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

报告模块用于生成检测报告。

2.根据权利要求1所述的便捷式数据分级分类的处理系统，其特征在于，在启动模块中包括：在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息，待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合，启动检测，启动检测后将主界面中的输入框灰化，启动日志读取进程，启动日志记录线程并生成日志文件；

3.根据权利要求1所述的便捷式数据分级分类的处理系统，其特征在于，在分类模块对表格类文件内容读取及分类处理包括：

每个表格内容逐列比对，每列记录依次与预设数据信息比对，预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，找到满足条件的内容则对文件中的列标记内容标签并计入标签列表，同时中断进入下一个列比对；如果全部遍历均没找到，则直接进入下一列比对；

单个文件处理完后，继续处理下一个文件。

4.根据权利要求1所述的便捷式数据分级分类的处理系统，其特征在于，对文本类文件内容读取及分类处理包括：

依次读取每个文本内容，依次与预设数据信息比对，预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息，满足条件则对该内容增加一个标签并计入标签列表，全部比对完结束后开始读取下一文本。

5.根据权利要求1所述的便捷式数据分级分类的处理系统，其特征在于，对图片类文件内容读取及分类处理包括：

6.一种便捷式数据分级分类的处理方法，其特征在于，包括以下步骤：

S1，主程序启动；

S2，检测程序执行，判断运行环境合法性；

S3，检测程序启动多进程读取待检测文件清单；

S4，检测进程读取硬件能力信息，动态确定检测进程数量；进程数量确定方法包括：

图片文件处理进程数为N，如果CPU核数小于9并且T>1，

则

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

其他情况，

其中，INT()表示取整函数；

if表示逻辑条件如果；

Q_CPU表示CPU核数；

T表示内存G数与CPU核数的比例；

S6，生成检测报告。

7.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S1中包括：在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息，待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合，启动检测，启动检测后将主界面中的输入框灰化，启动日志读取进程，启动日志记录线程并生成日志文件；

8.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S2中包括：

获取程序运行路径、运行U盘的硬件编码信息，比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期之一或者任意组合，如果不符合则检测程序退出运行。

9.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S3中包括：

10.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S5中对表格类文件内容读取及分类处理包括：

单个文件处理完后，继续处理下一个文件。

11.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，对文本类文件内容读取及分类处理包括：

12.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，对图片类文件内容读取及分类处理包括：

13.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S6中包括：

14.根据权利要求6所述的便捷式数据分级分类的处理方法，其特征在于，在步骤S5中包括：表格类文件包括csv文件、xlsx文件、xls文件、et文件之一或者任意组合；