CN114117533B - 一种图片数据分类的方法和系统 - Google Patents
一种图片数据分类的方法和系统 Download PDFInfo
- Publication number
- CN114117533B CN114117533B CN202111446737.2A CN202111446737A CN114117533B CN 114117533 B CN114117533 B CN 114117533B CN 202111446737 A CN202111446737 A CN 202111446737A CN 114117533 B CN114117533 B CN 114117533B
- Authority
- CN
- China
- Prior art keywords
- picture
- classified
- coordinate point
- representing
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明提出了一种图片数据分类的方法和系统,该系统包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连。本发明能够针对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。
Description
技术领域
本发明涉及一种数据分类技术领域,特别是涉及一种图片数据分类的方法和系统。
背景技术
随着信息安全技术的不断发展,安全防护逐渐由被动响应向主动防御转变,由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲,传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式,已经逐渐演进为在敏感数据泄露事件发生前,及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用,从源头上降低敏感数据泄露机会的主动防御模式。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种图片数据分类的方法和系统。
为了实现本发明的上述目的,本发明提供了一种图片数据分类系统,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
本发明还公开了一种图片数据分类方法,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
在本发明的一种优选实施方式中,在步骤S1中包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码,其第q待分类图片的分类顺序码的计算方法为:
Classification Number Algorithm[]表示分类顺序码函数;
Iq表示第q待分类图片;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
若分类顺序码集合中存在相同的分类顺序码,/>表示第1待分类图片的分类顺序码,/>表示第2待分类图片的分类顺序码,/>表示第3待分类图片的分类顺序码,/>表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合/>中剩余的分类顺序码作为所对应的待分类图片的图片名称;/>
若分类顺序码集合中不存在相同的分类顺序码,/>表示第1待分类图片的分类顺序码,/>表示第2待分类图片的分类顺序码,/>表示第3待分类图片的分类顺序码,/>表示第Q待分类图片的分类顺序码,则将分类顺序码集合中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax;
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕。
在本发明的一种优选实施方式中,在步骤S3中包括以下步骤:
S31,获取文字目标的旋转参数,旋转参数包括旋转角度α,α∈[-π,π],|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|,||表示取绝对值,α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|,α<0表示沿垂直于旋转点逆时针旋转角度|α|;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处。
在本发明的一种优选实施方式中,在步骤S34中坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
S342,判断α与0的关系
综上所述,由于采用了上述技术方案,本发明能够针对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流程示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种图片数据分类系统,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
本发明还公开了一种图片数据分类方法,如图1所示,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级。通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比,如果吻合,则判断为敏感图片数据,如果不吻合,则为非敏感图片数据。对敏感图片数据进行加密,防止泄露。
在本发明的一种优选实施方式中,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
在本发明的一种优选实施方式中,在步骤S1中包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码,其第q待分类图片的分类顺序码的计算方法为:
Classification Number Algorithm[]表示分类顺序码函数;优选采用哈希MD5算法,通过采用哈希MD5算法该分类顺序码为16位16进制的字符串,也可以将16位16进制的字符串转换为10进制的字符串。
Iq表示第q待分类图片;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
若分类顺序码集合中存在相同的分类顺序码,/>表示第1待分类图片的分类顺序码,/>表示第2待分类图片的分类顺序码,/>表示第3待分类图片的分类顺序码,/>表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合/>中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合中不存在相同的分类顺序码,/>表示第1待分类图片的分类顺序码,/>表示第2待分类图片的分类顺序码,/>表示第3待分类图片的分类顺序码,/>表示第Q待分类图片的分类顺序码,则将分类顺序码集合中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax;
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕。
在本发明的一种优选实施方式中,在步骤S3中包括以下步骤:
S31,获取文字目标的旋转参数,旋转参数包括旋转角度α,α∈[-π,π],|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|,||表示取绝对值,α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|,α<0表示沿垂直于旋转点逆时针旋转角度|α|;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处。
在本发明的一种优选实施方式中,在步骤S34中坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
S342,判断α与0的关系:
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种图片数据分类系统,其特征在于,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;对待分类图片数据进行图片数据读取的方法包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
若分类顺序码集合中存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合中不存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则将分类顺序码集合中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax;
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;对文字目标方向识别及旋转调整的方法包括以下步骤:
S31,获取文字目标的旋转参数;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处;其坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
S342,判断α与0的关系:
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级;对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比:
如果吻合,则判断为敏感图片数据;
如果不吻合,则为非敏感图片数据;
对敏感图片数据进行加密,防止泄露。
2.根据权利要求1所述的图片数据分类系统,其特征在于,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
3.根据权利要求1所述的图片数据分类系统,其特征在于,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
4.根据权利要求1所述的图片数据分类系统,其特征在于,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
5.一种图片数据分类方法,其特征在于,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;对待分类图片数据进行图片数据读取的方法包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
若分类顺序码集合中存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合中不存在相同的分类顺序码,表示第1待分类图片的分类顺序码,表示第2待分类图片的分类顺序码,表示第3待分类图片的分类顺序码,表示第Q待分类图片的分类顺序码,则将分类顺序码集合中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax;
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;对文字目标方向识别及旋转调整的方法包括以下步骤:
S31,获取文字目标的旋转参数;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处;其坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
S342,判断α与0的关系:
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级;对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比:
如果吻合,则判断为敏感图片数据;
如果不吻合,则为非敏感图片数据;
对敏感图片数据进行加密,防止泄露。
6.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
7.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
8.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111446737.2A CN114117533B (zh) | 2021-11-30 | 2021-11-30 | 一种图片数据分类的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111446737.2A CN114117533B (zh) | 2021-11-30 | 2021-11-30 | 一种图片数据分类的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117533A CN114117533A (zh) | 2022-03-01 |
CN114117533B true CN114117533B (zh) | 2023-03-24 |
Family
ID=80368859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111446737.2A Active CN114117533B (zh) | 2021-11-30 | 2021-11-30 | 一种图片数据分类的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117533B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI322970B (en) * | 2006-06-16 | 2010-04-01 | Sonix Technology Co Ltd | System and method for rotating 2d image |
CN111460247B (zh) * | 2019-01-21 | 2022-07-01 | 重庆邮电大学 | 网络图片敏感文字自动检测方法 |
CN111522951A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种基于图像识别的敏感数据识别与分类的技术方法 |
CN113221890A (zh) * | 2021-05-25 | 2021-08-06 | 深圳市瑞驰信息技术有限公司 | 一种基于ocr的云手机文字内容监管方法和系统和系统 |
CN113221906A (zh) * | 2021-05-27 | 2021-08-06 | 江苏奥易克斯汽车电子科技股份有限公司 | 基于深度学习的图片敏感文字检测方法及装置 |
-
2021
- 2021-11-30 CN CN202111446737.2A patent/CN114117533B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114117533A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alkawaz et al. | Detection of copy-move image forgery based on discrete cosine transform | |
CN106951832B (zh) | 一种基于手写字符识别的验证方法及装置 | |
US7961937B2 (en) | Pre-normalization data classification | |
CN108491866B (zh) | 色情图片鉴定方法、电子装置及可读存储介质 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN111079816A (zh) | 图像的审核方法、装置和服务器 | |
CN109446345A (zh) | 核电文件校验处理方法以及系统 | |
Fu et al. | Robust GAN-face detection based on dual-channel CNN network | |
CN112948897B (zh) | 一种基于drae与svm相结合的网页防篡改检测方法 | |
CN107895117A (zh) | 恶意代码标注方法和装置 | |
CN112232336A (zh) | 一种证件识别方法、装置、设备及存储介质 | |
CN110889341A (zh) | 基于ai的表单图像识别方法、装置、计算机设备和存储介质 | |
CN104899551B (zh) | 一种表单图像分类方法 | |
CN114117533B (zh) | 一种图片数据分类的方法和系统 | |
CN112949653A (zh) | 文本识别方法以及电子设备、存储装置 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN110674678A (zh) | 视频中敏感标志的识别方法及装置 | |
CN115759964A (zh) | 一种投标文件通用资格验证的方法、系统及设备 | |
US11823521B2 (en) | Image processing method for an identity document | |
CN112818150B (zh) | 一种图片内容审核方法、装置、设备和介质 | |
CN111353294B (zh) | 不良户外广告标语的检测与过滤方法与户外广告播放系统 | |
CN113807256A (zh) | 票据数据处理方法、装置、电子设备和存储介质 | |
Banerjee et al. | Quote examiner: verifying quoted images using web-based text similarity | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
Girinath et al. | Automatic Number Plate Detection using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |