CN114117533B

CN114117533B - 一种图片数据分类的方法和系统

Info

Publication number: CN114117533B
Application number: CN202111446737.2A
Authority: CN
Inventors: 陆艳军; 张麾军; 张建强; 崔贯勋
Original assignee: Chongqing Beite Computer System Engineering Co ltd; China Mobile Group Chongqing Co Ltd; Chongqing University of Technology
Current assignee: Chongqing Beite Computer System Engineering Co ltd; China Mobile Group Chongqing Co Ltd; Chongqing University of Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-03-24
Anticipated expiration: 2041-11-30
Also published as: CN114117533A

Abstract

本发明提出了一种图片数据分类的方法和系统，该系统包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块；获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连，文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连，旋转调整模块的数据输出端与文字内容模块的数据输入端相连，文字内容模块的数据输出端与特征信息模块的数据输入端相连，特征信息模块的数据输出端与分类分级模块的数据输入端相连。本发明能够针对从图片中提取的内容实现对图片分类，防止敏感图片数据泄露。

Description

一种图片数据分类的方法和系统

技术领域

本发明涉及一种数据分类技术领域，特别是涉及一种图片数据分类的方法和系统。

背景技术

随着信息安全技术的不断发展，安全防护逐渐由被动响应向主动防御转变，由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲，传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式，已经逐渐演进为在敏感数据泄露事件发生前，及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用，从源头上降低敏感数据泄露机会的主动防御模式。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种图片数据分类的方法和系统。

为了实现本发明的上述目的，本发明提供了一种图片数据分类系统，包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块；

获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连，文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连，旋转调整模块的数据输出端与文字内容模块的数据输入端相连，文字内容模块的数据输出端与特征信息模块的数据输入端相连，特征信息模块的数据输出端与分类分级模块的数据输入端相连；

获取读取模块用于获取待分类图片数据，对待分类图片数据进行图片数据读取；

文字目标检测提取模块用于对图片中的文字目标进行检测，提取图片中的文字目标；

旋转调整模块用于对文字目标方向识别及旋转调整；

文字内容模块用于对文字内容识别，形成检测文本；

特征信息模块用于基于正则式或关键词提取文本的特征信息；

分类分级模块用于基于特征信息，对图片进行分类分级。

在本发明的一种优选实施方式中，在特征信息模块中正则式包括：基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。

在本发明的一种优选实施方式中，在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测，实现对图片中的文字目标提取。

在本发明的一种优选实施方式中，在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。

本发明还公开了一种图片数据分类方法，包括以下步骤：

S1，获取待分类图片数据，对待分类图片数据进行图片数据读取；

S2，对图片中的文字目标进行检测，提取图片中的文字目标；

S3，对文字目标方向识别及旋转调整；

S4，对文字内容识别，形成检测文本；

S5，基于正则式或关键词提取文本的特征信息；

S6，基于特征信息，对图片进行分类分级。

在本发明的一种优选实施方式中，在步骤S5中正则式包括：基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。

在本发明的一种优选实施方式中，在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测，实现对图片中的文字目标提取。

在本发明的一种优选实施方式中，在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。

在本发明的一种优选实施方式中，在步骤S1中包括以下步骤：

S11，统计获取的待分类图片数据的总张数，记作Q；分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片，Q为大于或者等于1的正整数；令q＝1；

S12，计算第q待分类图片的分类顺序码，其第q待分类图片的分类顺序码的计算方法为：

其中，

表示第q待分类图片的分类顺序码；

Classification Number Algorithm[]表示分类顺序码函数；

I_q表示第q待分类图片；

S13，判断q与Q间的大小关系：

若q≥Q，则执行步骤S14；

若q＜Q，则q＝q+1，返回步骤S12；

S14，判断分类顺序码集合

中是否存在相同的分类顺序码：

若分类顺序码集合

中存在相同的分类顺序码，/>

表示第1待分类图片的分类顺序码，/>

表示第2待分类图片的分类顺序码，/>

表示第3待分类图片的分类顺序码，/>

表示第Q待分类图片的分类顺序码，则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片；将分类顺序码集合/>

中剩余的分类顺序码作为所对应的待分类图片的图片名称；/>

若分类顺序码集合

中不存在相同的分类顺序码，/>

表示第1待分类图片的分类顺序码，/>

表示第2待分类图片的分类顺序码，/>

表示第3待分类图片的分类顺序码，/>

表示第Q待分类图片的分类顺序码，则将分类顺序码集合

中的分类顺序码作为所对应的待分类图片的图片名称；

S15，将待分类图片以图片名称按照数字大小从小到大排列，提取最小的数字和最大的数字，分别记作η_min和η_max；

S16，读取图片数据时以图片名称按照数字大小顺序读取，当其读取到图片名称为η_min和η_max时停止读取，表明待分类图片数据读取完毕。

在本发明的一种优选实施方式中，在步骤S3中包括以下步骤：

S31，获取文字目标的旋转参数，旋转参数包括旋转角度α，α∈[-π,π]，|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|，||表示取绝对值，α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|，α＜0表示沿垂直于旋转点逆时针旋转角度|α|；

S32，取图片平面内的任一坐标点(x₀,y₀)作为基准坐标点，

表示图片平面内所有坐标点集合，(x_m,y_n)表示文字目标图片中第m列第n行的坐标点，m＝1,2,3,…,M，n＝1,2,3,…,N，M表示文字目标图片的横向像素点个数，N表示文字目标图片的竖向像素点个数，M＝wid×res，wid表示文字目标图片的宽度值，res表示文字目标图片的分辨率，N＝hig×res，hig表示文字目标图片的高度值，res表示文字目标图片的分辨率，(x₁,y₁)表示文字目标图片中第m行第n列的坐标点；(x₁,y₁)表示文字目标图片中第1列第1行的坐标点，(x₂,y₁)表示文字目标图片中第2列第n行的坐标点，(x₃,y₁)表示文字目标图片中第3列第1行的坐标点，(x_M,y₁)表示文字目标图片中第M列第1行的坐标点；(x₁,y₂)表示文字目标图片中第1列第2行的坐标点，(x₂,y₂)表示文字目标图片中第2列第2行的坐标点，(x₃,y₂)表示文字目标图片中第3列第2行的坐标点，(x_M,y₂)表示文字目标图片中第M列第2行的坐标点；(x₁,y₃)表示文字目标图片中第1列第3行的坐标点，(x₂,y₃)表示文字目标图片中第2列第3行的坐标点，(x₃,y₃)表示文字目标图片中第3列第3行的坐标点，(x_M,y₃)表示文字目标图片中第M列第3行的坐标点；(x₁,y_N)表示文字目标图片中第1列第N行的坐标点，(x₂,y_N)表示文字目标图片中第2列第N行的坐标点，(x₃,y_N)表示文字目标图片中第3列第N行的坐标点，(x_M,y_N)表示文字目标图片中第M列第N行的坐标点；

S33，判断M和N间的大小关系：

若M≥N，则建立M×M的方形像素框；

若M<N，则建立N×N的方形像素框；

以方形像素框的中心为原点，以左为X轴的正方向，以上为Y轴的正方向，建立方形像素坐标系；

S34，将文字目标图片中坐标点(x_m,y_n)所对应RGB像素值放置在方形像素坐标系中的坐标点(x_m′,y_n′)处。

在本发明的一种优选实施方式中，在步骤S34中坐标点(x_m′,y_n′)的计算方法包括以下步骤：

S341，根据坐标点(x₀,y₀)得到坐标点(x_m,y_n)的坐标点角度值，其坐标点角度值的计算方法为：

若y_n-y₀≥0,x_m-x₀＞0，则

若y_n-y₀＞0,x_m-x₀≤0，则

若y_n-y₀＜0,x_m-x₀≥0，则

若y_n-y₀≤0,x_m-x₀＜0，则

S342，判断α与0的关系

若α＜0，则

若α≥0，则

综上所述，由于采用了上述技术方案，本发明能够针对从图片中提取的内容实现对图片分类，防止敏感图片数据泄露。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明流程示意框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种图片数据分类系统，包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块；

旋转调整模块用于对文字目标方向识别及旋转调整；

文字内容模块用于对文字内容识别，形成检测文本；

分类分级模块用于基于特征信息，对图片进行分类分级。

本发明还公开了一种图片数据分类方法，如图1所示，包括以下步骤：

S3，对文字目标方向识别及旋转调整；

S4，对文字内容识别，形成检测文本；

S5，基于正则式或关键词提取文本的特征信息；

S6，基于特征信息，对图片进行分类分级。通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比，如果吻合，则判断为敏感图片数据，如果不吻合，则为非敏感图片数据。对敏感图片数据进行加密，防止泄露。

其中，

表示第q待分类图片的分类顺序码；

Classification Number Algorithm[]表示分类顺序码函数；优选采用哈希MD5算法，通过采用哈希MD5算法该分类顺序码为16位16进制的字符串，也可以将16位16进制的字符串转换为10进制的字符串。

I_q表示第q待分类图片；

S13，判断q与Q间的大小关系：

若q≥Q，则执行步骤S14；

若q＜Q，则q＝q+1，返回步骤S12；

S14，判断分类顺序码集合

中是否存在相同的分类顺序码：

若分类顺序码集合

中存在相同的分类顺序码，/>

表示第1待分类图片的分类顺序码，/>

表示第2待分类图片的分类顺序码，/>

表示第3待分类图片的分类顺序码，/>

中剩余的分类顺序码作为所对应的待分类图片的图片名称；

若分类顺序码集合

中不存在相同的分类顺序码，/>

表示第1待分类图片的分类顺序码，/>

表示第2待分类图片的分类顺序码，/>

表示第3待分类图片的分类顺序码，/>

表示第Q待分类图片的分类顺序码，则将分类顺序码集合

中的分类顺序码作为所对应的待分类图片的图片名称；

S32，取图片平面内的任一坐标点(x₀,y₀)作为基准坐标点，

S33，判断M和N间的大小关系：

若M≥N，则建立M×M的方形像素框；

若M<N，则建立N×N的方形像素框；

若y_n-y₀≥0,x_m-x₀＞0，则

若y_n-y₀＞0,x_m-x₀≤0，则

若y_n-y₀＜0,x_m-x₀≥0，则

若y_n-y₀≤0,x_m-x₀＜0，则

S342，判断α与0的关系：

若α＜0，则

若α≥0，则

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种图片数据分类系统，其特征在于，包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块；

获取读取模块用于获取待分类图片数据，对待分类图片数据进行图片数据读取；对待分类图片数据进行图片数据读取的方法包括以下步骤：

S12，计算第q待分类图片的分类顺序码；

S13，判断q与Q间的大小关系：

若q≥Q，则执行步骤S14；

若q＜Q，则q＝q+1，返回步骤S12；

S14，判断分类顺序码集合

中是否存在相同的分类顺序码：

若分类顺序码集合

中存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

表示第Q待分类图片的分类顺序码，则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片；将分类顺序码集合

中剩余的分类顺序码作为所对应的待分类图片的图片名称；

若分类顺序码集合

中不存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

表示第Q待分类图片的分类顺序码，则将分类顺序码集合

中的分类顺序码作为所对应的待分类图片的图片名称；

S16，读取图片数据时以图片名称按照数字大小顺序读取，当其读取到图片名称为η_min和η_max时停止读取，表明待分类图片数据读取完毕；

旋转调整模块用于对文字目标方向识别及旋转调整；对文字目标方向识别及旋转调整的方法包括以下步骤：

S31，获取文字目标的旋转参数；

S32，取图片平面内的任一坐标点(x₀,y₀)作为基准坐标点，

S33，判断M和N间的大小关系：

若M≥N，则建立M×M的方形像素框；

若M<N，则建立N×N的方形像素框；

S34，将文字目标图片中坐标点(x_m,y_n)所对应RGB像素值放置在方形像素坐标系中的坐标点(x_m′,y_n′)处；其坐标点(x_m′,y_n′)的计算方法包括以下步骤：

若y_n-y₀≥0,x_m-x₀＞0，则

若y_n-y₀＞0,x_m-x₀≤0，则

若y_n-y₀＜0,x_m-x₀≥0，则

若y_n-y₀≤0,x_m-x₀＜0，则

S342，判断α与0的关系：

若α＜0，则

若α≥0，则

文字内容模块用于对文字内容识别，形成检测文本；

分类分级模块用于基于特征信息，对图片进行分类分级；对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比：

如果吻合，则判断为敏感图片数据；

如果不吻合，则为非敏感图片数据；

对敏感图片数据进行加密，防止泄露。

2.根据权利要求1所述的图片数据分类系统，其特征在于，在特征信息模块中正则式包括：基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。

3.根据权利要求1所述的图片数据分类系统，其特征在于，在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测，实现对图片中的文字目标提取。

4.根据权利要求1所述的图片数据分类系统，其特征在于，在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。

5.一种图片数据分类方法，其特征在于，包括以下步骤：

S1，获取待分类图片数据，对待分类图片数据进行图片数据读取；对待分类图片数据进行图片数据读取的方法包括以下步骤：

S12，计算第q待分类图片的分类顺序码；

S13，判断q与Q间的大小关系：

若q≥Q，则执行步骤S14；

若q＜Q，则q＝q+1，返回步骤S12；

S14，判断分类顺序码集合

中是否存在相同的分类顺序码：

若分类顺序码集合

中存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

中剩余的分类顺序码作为所对应的待分类图片的图片名称；

若分类顺序码集合

中不存在相同的分类顺序码，

表示第1待分类图片的分类顺序码，

表示第2待分类图片的分类顺序码，

表示第3待分类图片的分类顺序码，

表示第Q待分类图片的分类顺序码，则将分类顺序码集合

中的分类顺序码作为所对应的待分类图片的图片名称；

S3，对文字目标方向识别及旋转调整；对文字目标方向识别及旋转调整的方法包括以下步骤：

S31，获取文字目标的旋转参数；

S32，取图片平面内的任一坐标点(x₀,y₀)作为基准坐标点，

S33，判断M和N间的大小关系：

若M≥N，则建立M×M的方形像素框；

若M<N，则建立N×N的方形像素框；

若y_n-y₀≥0,x_m-x₀＞0，则

若y_n-y₀＞0,x_m-x₀≤0，则

若y_n-y₀＜0,x_m-x₀≥0，则

若y_n-y₀≤0,x_m-x₀＜0，则

S342，判断α与0的关系：

若α＜0，则

若α≥0，则

S4，对文字内容识别，形成检测文本；

S5，基于正则式或关键词提取文本的特征信息；

S6，基于特征信息，对图片进行分类分级；对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比：

如果吻合，则判断为敏感图片数据；

如果不吻合，则为非敏感图片数据；

对敏感图片数据进行加密，防止泄露。

6.根据权利要求5所述的图片数据分类方法，其特征在于，在步骤S5中正则式包括：基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。

7.根据权利要求5所述的图片数据分类方法，其特征在于，在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测，实现对图片中的文字目标提取。

8.根据权利要求5所述的图片数据分类方法，其特征在于，在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。