CN113987587B - 一种便捷式数据分级分类的处理方法 - Google Patents
一种便捷式数据分级分类的处理方法 Download PDFInfo
- Publication number
- CN113987587B CN113987587B CN202111450012.0A CN202111450012A CN113987587B CN 113987587 B CN113987587 B CN 113987587B CN 202111450012 A CN202111450012 A CN 202111450012A CN 113987587 B CN113987587 B CN 113987587B
- Authority
- CN
- China
- Prior art keywords
- file
- files
- detected
- list
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims description 134
- 230000008569 process Effects 0.000 claims description 107
- 238000001514 detection method Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 38
- 238000012216 screening Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000004380 ashing Methods 0.000 claims description 7
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000000717 retained effect Effects 0.000 abstract description 3
- 230000007123 defense Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种便捷式数据分级分类的处理方法,包括启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连。本发明基于U盘开展终端留存数据的分类分级,与当前基于服务端-客户端模式,客户端以爬虫方式进行数据采集、再由服务器进行分类分级,可填补一些不能安装客户端的场景,比如不受控终端、离网终端等,并对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。
Description
技术领域
本发明涉及一种数据分类技术领域,特别是涉及一种便捷式数据分级分类的处理方法。
背景技术
随着信息安全技术的不断发展,安全防护逐渐由被动响应向主动防御转变,由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲,传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式,已经逐渐演进为在敏感数据泄露事件发生前,及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用,从源头上降低敏感数据泄露机会的主动防御模式。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种便捷式数据分级分类的处理方法。
为了实现本发明的上述目的,本发明提供了一种便捷式数据分级分类的处理系统,包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块;
启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连;
启动模块用于主程序启动;
合法性模块用于检测程序执行,判断运行环境合法性;
清单模块用于检测程序启动多进程读取待检测文件清单;
进程模块用于检测进程读取硬件能力信息,动态确定检测进程数量;
分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
报告模块用于生成检测报告。
在本发明的一种优选实施方式中,在启动模块中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
在本发明的一种优选实施方式中,在进程模块中包括:
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例。
在本发明的一种优选实施方式中,在分类模块对表格类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
单个文件处理完后,继续处理下一个文件;
或/和对文本类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本;
或/和对图片类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
本发明还公开了一种便捷式数据分级分类的处理方法,包括以下步骤:
S1,主程序启动;
S2,检测程序执行,判断运行环境合法性;
S3,检测程序启动多进程读取待检测文件清单;
S4,检测进程读取硬件能力信息,动态确定检测进程数量;
S5,对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
S6,生成检测报告。
在本发明的一种优选实施方式中,在步骤S1中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环;
或/和在步骤S2中包括:
获取程序运行路径、运行U盘的硬件编码信息,比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期之一或者任意组合,如果不符合则检测程序退出运行;
或/和在步骤S3中包括:
启动遍历进程,如果检测整个硬盘则按照盘符启动多个进程,每个进程负责一个盘符的为文件遍历,如果只是具体某个目录则只启动一个进程进行文件遍历;
遍历待检测目录路径,对文件后缀名属于待检测文件类型的文件列入待检测文件清单。
在本发明的一种优选实施方式中,在步骤S4中包括:
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例。
在本发明的一种优选实施方式中,在步骤S5中对表格类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
每个表格内容逐列比对,每列记录依次与预设敏感数据信息比对,预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
单个文件处理完后,继续处理下一个文件;
或/和对文本类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
依次读取每个文本内容,依次与预设敏感数据信息比对,预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本;
或/和对图片类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
对文本内容列表总的每个文本内容,依次与预设敏感数据信息比对,预设敏感数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
在本发明的一种优选实施方式中,在步骤S6中包括:
读取当前终端CPUID、硬盘ID信息、终端IP地址、对应互联网出口IP地址之一或者任意组合,结合主界面输入内容,生成终端内容检测报告。
在本发明的一种优选实施方式中,在步骤S5中包括:表格类文件包括csv文件、xlsx文件、xls文件、et文件之一或者任意组合;
文本类文件包括txt文件、log文件、docx文件、doc文件、wps文件、pdf文件之一或者任意组合;
图片类文件包括jpg文件、jpeg文件、JPG文件、bmp文件、png文件之一或者任意组合。
综上所述,由于采用了上述技术方案,本发明基于U盘开展终端留存数据的分类分级,与当前基于服务端-客户端模式,客户端以爬虫方式进行数据采集、再由服务器进行分类分级,可填补一些不能安装客户端的场景,比如不受控终端、离网终端等,并对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流程示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种便捷式数据分级分类的处理系统,包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块;
启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连;
启动模块用于主程序启动;
合法性模块用于检测程序执行,判断运行环境合法性;
清单模块用于检测程序启动多进程读取待检测文件清单;
进程模块用于检测进程读取硬件能力信息,动态确定检测进程数量;
分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
报告模块用于生成检测报告。
在本发明的一种优选实施方式中,在启动模块中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
在本发明的一种优选实施方式中,在进程模块中包括:
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例。
在本发明的一种优选实施方式中,在分类模块对表格类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
单个文件处理完后,继续处理下一个文件;
或/和对文本类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本;
或/和对图片类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
本发明还提供了一种便捷式数据分级分类的处理方法,如图1所示,包括以下步骤:
步骤一:主程序启动(主程序基于U盘中的exe程序启动,不依赖于当前windows环境的其他组件),在界面上输入待检测目录路径、待检测文件类型等参数信息,启动检测,将主界面中输入框灰化,启动一个检测进程,启动一个日志读取进程,启动日志记录线程并生成日志文件;将本方法加载在便携式移动终端(例如U盘,移动硬盘)上实现方便携带,即插即用。
(1)待检测文件类型分为表格类文件,文本类文件,图片类文件
表格类文件:.csv文件、.xlsx文件,.xls文件,.et文件
文本类文件:.txt文件,.log文件,.docx文件,.doc文件,.wps文件
图片类文件:.jpg文件,.jpeg文件,.JPG文件,.bmp文件,.png文件等
(2)日志读取进程
负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
步骤二:检测程序执行,判断运行环境合法性。
(1)获取程序运行路径、运行U盘的硬件编码信息,比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期等,如果不符合的情况则检测程序退出运行,起到防止恶意使用。
步骤三:检测程序启动多进程读取待检测文件清单。
启动遍历进程,如果检测整个硬盘则按照盘符启动多个进程,每个进程负责一个盘符的为文件遍历,如果只是具体某个目录则只启动一个进程进行文件遍历;
遍历待检测目录路径,对文件后缀名属于待检测文件类型的文件列入待检测文件清单。
文件列表合并。将多个进程运行返回的文件列表进行合并,并返回。
步骤四:检测进程读取当前终端(待检测设备)硬件能力信息,动态确定检测进程数量。
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例。
步骤五:检测进程,表格类文件内容读取及分类处理。
从待检测文件清单中筛选出待检测表格类文件。按照文件后缀名(.csv文件、.xlsx文件,.xls文件,.et文件),过滤待检测文件清单,得到表格类文件清单。
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程。
表格文件处理进程:
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容,其中csv文件直接读取内容(读取会因为中文编码格式问题导致失败,因此需要针对GB18030、utf-8、utf-8-sig等多种中文编码格式依次尝试,直至成功读取,或全部失败丢弃该文件进入下一个文件读取),读取时抽样表格的部分列;
每个表格内容逐列比对,每列记录依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息,找到满足条件的内容则对该文件该列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对。
单个文件处理完后,继续处理下一个文件。
返回标签列表
合并M个进程返回的标签列表。
步骤六:检测进程,文本类文件内容读取及分类处理。
从待检测文件清单中筛选出待检测文本类文件。按照文件后缀名(.txt文件,.log文件,.docx文件,.doc文件,.wps文件),过滤待检测文件清单,得到文本类文件清单。
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程。
表格文件处理进程:
依次读取每个文本内容(读取会因为中文编码格式问题导致失败,因此需要针对GB18030、utf-8、utf-8-sig等多种中文编码格式依次尝试,直至成功读取,或全部失败丢弃该文件进入下一个文件读取);
每个文本内容,依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
返回标签列表
合并M个进程返回的标签列表。
步骤七:检测进程,图片类文件内容读取及分类处理。
从待检测文件清单中筛选出待检测图片类文件。按照文件后缀名(.jpg文件,.jpeg文件,.JPG文件,.bmp文件,.png文件等),过滤待检测文件清单,得到图片类文件清单。
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程。
图片文件处理进程:
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;在本实施方式中,启动图片文本内容检测程序,读取得到图片上的文字内容的方法包括以下步骤:
S51,获取待分类图片数据,对待分类图片数据进行图片数据读取;
S52,对图片中的文字目标进行检测,提取图片中的文字目标;
S53,对文字目标方向识别及旋转调整;
S54,对文字内容识别,形成检测文本。
在本发明的一种优选实施方式中,在步骤S52中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在步骤S54中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
在本发明的一种优选实施方式中,在步骤S51中包括以下步骤:
S511,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S512,计算第q待分类图片的分类顺序码,其第q待分类图片的分类顺序码的计算方法为:
Classification Number Algorithm[]表示分类顺序码函数;优选采用哈希MD5算法,通过采用哈希MD5算法该分类顺序码为16位16进制的字符串,也可以将16位16进制的字符串转换为10进制的字符串。
Iq表示第q待分类图片;
S513,判断q与Q间的大小关系:
若q≥Q,则执行步骤S514;
若q<Q,则q=q+1,返回步骤S512;
若分类顺序码集合中存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合中不存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则将分类顺序码集合中的分类顺序码作为所对应的待分类图片的图片名称;
S515,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax;
S516,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕。
在本发明的一种优选实施方式中,在步骤S53中包括以下步骤:
S531,获取文字目标的旋转参数,旋转参数包括旋转角度α,α∈[-π,π],|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|,||表示取绝对值,α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|,α<0表示沿垂直于旋转点逆时针旋转角度|α|;
S532,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S533,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S534,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处。
在本发明的一种优选实施方式中,在步骤S534中坐标点(xm′,yn′)的计算方法包括以下步骤:
S5341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
S5342,判断α与0的关系:
对文本内容列表总的每个文本内容,依次比对自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信等信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
返回标签列表
合并N个进程返回的标签列表。
步骤八:生成检测报告,读取当前终端CPUID、硬盘ID等信息,结合主界面输入内容,生成终端内容检测报告。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (14)
1.一种便捷式数据分级分类的处理系统,其特征在于,包括启动模块、合法性模块、清单模块、进程模块、分类模块和报告模块;
启动模块的数据输出端与合法性模块的数据输入端相连,合法性模块的数据输出端与清单模块的数据输入端相连,清单模块的数据输出端与进程模块的数据输入端相连,进程模块的数据输出端与分类模块的数据输入端相连,分类模块的数据输出端与报告模块的数据输入端相连;
启动模块用于主程序启动;
合法性模块用于检测程序执行,判断运行环境合法性;
清单模块用于检测程序启动多进程读取待检测文件清单;
进程模块用于检测进程读取硬件能力信息,动态确定检测进程数量;进程数量确定方法包括:
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
分类模块用于对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
报告模块用于生成检测报告。
2.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,在启动模块中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
3.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,在分类模块对表格类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对文件中的列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
单个文件处理完后,继续处理下一个文件。
4.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,对文本类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
5.根据权利要求1所述的便捷式数据分级分类的处理系统,其特征在于,对图片类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
6.一种便捷式数据分级分类的处理方法,其特征在于,包括以下步骤:
S1,主程序启动;
S2,检测程序执行,判断运行环境合法性;
S3,检测程序启动多进程读取待检测文件清单;
S4,检测进程读取硬件能力信息,动态确定检测进程数量;进程数量确定方法包括:
读取当前终端硬件的CPU核数、内存G数,计算内存G数与CPU核数的比例,记为T;
表格类文件处理进程数或文本类处理进程数为M,如果CPU核数小于9并且T>1,则M=CPU核数×2,其他情况M=CPU核数;
图片文件处理进程数为N,如果CPU核数小于9并且T>1,
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
其中,INT()表示取整函数;
if表示逻辑条件如果;
QCPU表示CPU核数;
T表示内存G数与CPU核数的比例;
S5,对表格类文件、文本类文件、图片类文件之一或者任意组合内容读取及分类处理;
S6,生成检测报告。
7.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S1中包括:在主界面上的输入框中输入待检测文件目录路径、待检测文件类型参数信息,待检测文件类型包括表格类文件、文本类文件、图片类文件之一或者任意组合,启动检测,启动检测后将主界面中的输入框灰化,启动日志读取进程,启动日志记录线程并生成日志文件;
日志读取进程用于负责循环读取日志文件记录写入主界面,每次读取时先判断日志文件中是否有检测结束标识符,如果无结束标识符,提取日志中新写入内容插入主界面日志框,读完后进程休眠1s;如有结束标识符,则将主界面中灰化的输入框恢复正常,停止循环。
8.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S2中包括:
获取程序运行路径、运行U盘的硬件编码信息,比对是否基于U盘运行、是否是在允许运行的U盘上运行、是否到期之一或者任意组合,如果不符合则检测程序退出运行。
9.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S3中包括:
启动遍历进程,如果检测整个硬盘则按照盘符启动多个进程,每个进程负责一个盘符的为文件遍历,如果只是具体某个目录则只启动一个进程进行文件遍历;
遍历待检测目录路径,对文件后缀名属于待检测文件类型的文件列入待检测文件清单。
10.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S5中对表格类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测表格类文件,过滤待检测文件清单,得到表格类文件清单;
启动M个进程,将待检测表格类文件中的文件按照索引号分成M份,分别传给进程;
依次处理每个文件,读取表格sheet名,分别读取每个sheet表格内容;
每个表格内容逐列比对,每列记录依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,找到满足条件的内容则对文件中的列标记内容标签并计入标签列表,同时中断进入下一个列比对;如果全部遍历均没找到,则直接进入下一列比对;
单个文件处理完后,继续处理下一个文件。
11.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,对文本类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测文本类文件,过滤待检测文件清单,得到文本类文件清单;
启动M个进程,将待检测文本类文件中的文件按照索引号分成M份,分别传给进程;
依次读取每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
12.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,对图片类文件内容读取及分类处理包括:
从待检测文件清单中筛选出待检测图片类文件,过滤待检测文件清单,得到图片类文件清单;
启动N个进程,将待检测图片类文件中的文件按照索引号分成N份,分别传给进程;
启动图片文本内容检测程序,依次读取每个图片的文字内容,形成文本内容列表;
对文本内容列表总的每个文本内容,依次与预设数据信息比对,预设数据信息包括自定义关键词、地址、姓名、性别、身份证号、银行卡号、电话号码、电子邮箱、IP地址、日期、时间、qq号、微信之一或者任意组合信息,满足条件则对该内容增加一个标签并计入标签列表,全部比对完结束后开始读取下一文本。
13.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S6中包括:
读取当前终端CPUID、硬盘ID信息、终端IP地址、对应互联网出口IP地址之一或者任意组合,结合主界面输入内容,生成终端内容检测报告。
14.根据权利要求6所述的便捷式数据分级分类的处理方法,其特征在于,在步骤S5中包括:表格类文件包括csv文件、xlsx文件、xls文件、et文件之一或者任意组合;
文本类文件包括txt文件、log文件、docx文件、doc文件、wps文件、pdf文件之一或者任意组合;
图片类文件包括jpg文件、jpeg文件、JPG文件、bmp文件、png文件之一或者任意组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111450012.0A CN113987587B (zh) | 2021-11-30 | 2021-11-30 | 一种便捷式数据分级分类的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111450012.0A CN113987587B (zh) | 2021-11-30 | 2021-11-30 | 一种便捷式数据分级分类的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987587A CN113987587A (zh) | 2022-01-28 |
CN113987587B true CN113987587B (zh) | 2022-10-28 |
Family
ID=79732825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111450012.0A Active CN113987587B (zh) | 2021-11-30 | 2021-11-30 | 一种便捷式数据分级分类的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987587B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261066A (zh) * | 2015-10-20 | 2016-01-20 | 华中师范大学 | 一种三维地理信息系统实时绘制多线程分配与控制方法 |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN109582861A (zh) * | 2018-10-29 | 2019-04-05 | 复旦大学 | 一种数据隐私信息检测系统 |
CN113190515A (zh) * | 2021-05-14 | 2021-07-30 | 重庆市勘测院 | 基于异构并行计算的城市级海量点云坐标转换方法 |
CN113221181A (zh) * | 2021-06-09 | 2021-08-06 | 上海交通大学 | 具有隐私保护的表格类信息抽取系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2006235845A1 (en) * | 2006-10-13 | 2008-05-01 | Titus Inc | Method of and system for message classification of web email |
-
2021
- 2021-11-30 CN CN202111450012.0A patent/CN113987587B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261066A (zh) * | 2015-10-20 | 2016-01-20 | 华中师范大学 | 一种三维地理信息系统实时绘制多线程分配与控制方法 |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN109582861A (zh) * | 2018-10-29 | 2019-04-05 | 复旦大学 | 一种数据隐私信息检测系统 |
CN113190515A (zh) * | 2021-05-14 | 2021-07-30 | 重庆市勘测院 | 基于异构并行计算的城市级海量点云坐标转换方法 |
CN113221181A (zh) * | 2021-06-09 | 2021-08-06 | 上海交通大学 | 具有隐私保护的表格类信息抽取系统及方法 |
Non-Patent Citations (2)
Title |
---|
利用多线程技术改造Snort系统;林国庆等;《西安电子科技大学学报》;20071215(第06期);第887页-第894页 * |
基于弹性并发的文件校验模型;阮晓龙等;《计算机系统应用》;20200115(第01期);第235页-第239页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113987587A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111917740B (zh) | 一种异常流量告警日志检测方法、装置、设备及介质 | |
Poisel et al. | Advanced file carving approaches for multimedia files. | |
Walls et al. | Forensic Triage for Mobile Phones with {DEC0DE} | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN111177795A (zh) | 一种利用区块链识别视频篡改的方法、装置和计算机存储介质 | |
KR101803066B1 (ko) | 불법 복제된 서적의 통합 식별 시스템 및 방법 | |
CN114785606A (zh) | 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质 | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN113810375B (zh) | webshell检测方法、装置、设备及可读存储介质 | |
CN114372267B (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN110008701B (zh) | 基于elf文件特征的静态检测规则提取方法及检测方法 | |
Abdullah et al. | Carving thumbnail/s and embedded JPEG files using image pattern matching | |
CN112990142B (zh) | 一种基于ocr的视频导图生成方法、装置、设备及存储介质 | |
CN107688744B (zh) | 基于图像特征匹配的恶意文件分类方法及装置 | |
CN113987587B (zh) | 一种便捷式数据分级分类的处理方法 | |
CN116955522A (zh) | 敏感词检测方法、装置、设备及存储介质 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111414621A (zh) | 一种恶意网页文件识别方法及装置 | |
CN108038124B (zh) | 一种基于大数据的pdf文档采集处理方法、系统及装置 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
Darnowski et al. | Selected methods of file carving and analysis of digital storage media in computer forensics | |
CN113888760A (zh) | 基于软件应用的违规信息监控方法、装置、设备及介质 | |
CN115883111A (zh) | 一种钓鱼网站识别方法、装置、电子设备及存储介质 | |
CN114117533B (zh) | 一种图片数据分类的方法和系统 | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |