CN114117533B - 一种图片数据分类的方法和系统 - Google Patents

一种图片数据分类的方法和系统 Download PDF

Info

Publication number
CN114117533B
CN114117533B CN202111446737.2A CN202111446737A CN114117533B CN 114117533 B CN114117533 B CN 114117533B CN 202111446737 A CN202111446737 A CN 202111446737A CN 114117533 B CN114117533 B CN 114117533B
Authority
CN
China
Prior art keywords
picture
classified
coordinate point
representing
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111446737.2A
Other languages
English (en)
Other versions
CN114117533A (zh
Inventor
陆艳军
张麾军
张建强
崔贯勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Beite Computer System Engineering Co ltd
China Mobile Group Chongqing Co Ltd
Chongqing University of Technology
Original Assignee
Chongqing Beite Computer System Engineering Co ltd
China Mobile Group Chongqing Co Ltd
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Beite Computer System Engineering Co ltd, China Mobile Group Chongqing Co Ltd, Chongqing University of Technology filed Critical Chongqing Beite Computer System Engineering Co ltd
Priority to CN202111446737.2A priority Critical patent/CN114117533B/zh
Publication of CN114117533A publication Critical patent/CN114117533A/zh
Application granted granted Critical
Publication of CN114117533B publication Critical patent/CN114117533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本发明提出了一种图片数据分类的方法和系统,该系统包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连。本发明能够针对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。

Description

一种图片数据分类的方法和系统
技术领域
本发明涉及一种数据分类技术领域,特别是涉及一种图片数据分类的方法和系统。
背景技术
随着信息安全技术的不断发展,安全防护逐渐由被动响应向主动防御转变,由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲,传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式,已经逐渐演进为在敏感数据泄露事件发生前,及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用,从源头上降低敏感数据泄露机会的主动防御模式。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种图片数据分类的方法和系统。
为了实现本发明的上述目的,本发明提供了一种图片数据分类系统,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
本发明还公开了一种图片数据分类方法,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
在本发明的一种优选实施方式中,在步骤S1中包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码,其第q待分类图片的分类顺序码的计算方法为:
Figure BDA0003385013330000031
其中,
Figure BDA0003385013330000032
表示第q待分类图片的分类顺序码;
Classification Number Algorithm[]表示分类顺序码函数;
Iq表示第q待分类图片;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
S14,判断分类顺序码集合
Figure BDA0003385013330000033
中是否存在相同的分类顺序码:
若分类顺序码集合
Figure BDA0003385013330000034
中存在相同的分类顺序码,/>
Figure BDA0003385013330000035
表示第1待分类图片的分类顺序码,/>
Figure BDA0003385013330000036
表示第2待分类图片的分类顺序码,/>
Figure BDA0003385013330000037
表示第3待分类图片的分类顺序码,/>
Figure BDA0003385013330000038
表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合/>
Figure BDA0003385013330000041
中剩余的分类顺序码作为所对应的待分类图片的图片名称;/>
若分类顺序码集合
Figure BDA0003385013330000042
中不存在相同的分类顺序码,/>
Figure BDA0003385013330000043
表示第1待分类图片的分类顺序码,/>
Figure BDA0003385013330000044
表示第2待分类图片的分类顺序码,/>
Figure BDA0003385013330000045
表示第3待分类图片的分类顺序码,/>
Figure BDA0003385013330000046
表示第Q待分类图片的分类顺序码,则将分类顺序码集合
Figure BDA0003385013330000047
中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕。
在本发明的一种优选实施方式中,在步骤S3中包括以下步骤:
S31,获取文字目标的旋转参数,旋转参数包括旋转角度α,α∈[-π,π],|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|,||表示取绝对值,α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|,α<0表示沿垂直于旋转点逆时针旋转角度|α|;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
Figure BDA0003385013330000048
Figure BDA0003385013330000049
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处。
在本发明的一种优选实施方式中,在步骤S34中坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
Figure BDA0003385013330000061
若yn-y0≥0,xm-x0>0,则
Figure BDA0003385013330000062
若yn-y0>0,xm-x0≤0,则
Figure BDA0003385013330000063
若yn-y0<0,xm-x0≥0,则
Figure BDA0003385013330000064
若yn-y0≤0,xm-x0<0,则
Figure BDA0003385013330000065
S342,判断α与0的关系
若α<0,则
Figure BDA0003385013330000066
若α≥0,则
Figure BDA0003385013330000067
综上所述,由于采用了上述技术方案,本发明能够针对从图片中提取的内容实现对图片分类,防止敏感图片数据泄露。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流程示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种图片数据分类系统,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级。
在本发明的一种优选实施方式中,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
本发明还公开了一种图片数据分类方法,如图1所示,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级。通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比,如果吻合,则判断为敏感图片数据,如果不吻合,则为非敏感图片数据。对敏感图片数据进行加密,防止泄露。
在本发明的一种优选实施方式中,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
在本发明的一种优选实施方式中,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
在本发明的一种优选实施方式中,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
在本发明的一种优选实施方式中,在步骤S1中包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码,其第q待分类图片的分类顺序码的计算方法为:
Figure BDA0003385013330000081
其中,
Figure BDA0003385013330000091
表示第q待分类图片的分类顺序码;
Classification Number Algorithm[]表示分类顺序码函数;优选采用哈希MD5算法,通过采用哈希MD5算法该分类顺序码为16位16进制的字符串,也可以将16位16进制的字符串转换为10进制的字符串。
Iq表示第q待分类图片;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
S14,判断分类顺序码集合
Figure BDA0003385013330000092
中是否存在相同的分类顺序码:
若分类顺序码集合
Figure BDA0003385013330000093
中存在相同的分类顺序码,/>
Figure BDA0003385013330000094
表示第1待分类图片的分类顺序码,/>
Figure BDA0003385013330000095
表示第2待分类图片的分类顺序码,/>
Figure BDA0003385013330000096
表示第3待分类图片的分类顺序码,/>
Figure BDA0003385013330000097
表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合/>
Figure BDA0003385013330000098
中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合
Figure BDA0003385013330000099
中不存在相同的分类顺序码,/>
Figure BDA00033850133300000910
表示第1待分类图片的分类顺序码,/>
Figure BDA00033850133300000911
表示第2待分类图片的分类顺序码,/>
Figure BDA00033850133300000912
表示第3待分类图片的分类顺序码,/>
Figure BDA00033850133300000913
表示第Q待分类图片的分类顺序码,则将分类顺序码集合
Figure BDA00033850133300000914
中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕。
在本发明的一种优选实施方式中,在步骤S3中包括以下步骤:
S31,获取文字目标的旋转参数,旋转参数包括旋转角度α,α∈[-π,π],|α|表示在图片平面上沿垂直于旋转点所在平面旋转|α|,||表示取绝对值,α≥0表示沿垂直于旋转点所在平面顺时针旋转角度|α|,α<0表示沿垂直于旋转点逆时针旋转角度|α|;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
Figure BDA0003385013330000101
Figure BDA0003385013330000102
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处。
在本发明的一种优选实施方式中,在步骤S34中坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
Figure BDA0003385013330000111
若yn-y0≥0,xm-x0>0,则
Figure BDA0003385013330000112
若yn-y0>0,xm-x0≤0,则
Figure BDA0003385013330000113
若yn-y0<0,xm-x0≥0,则
Figure BDA0003385013330000114
若yn-y0≤0,xm-x0<0,则
Figure BDA0003385013330000115
S342,判断α与0的关系:
若α<0,则
Figure BDA0003385013330000116
若α≥0,则
Figure BDA0003385013330000117
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种图片数据分类系统,其特征在于,包括获取读取模块、文字目标检测提取模块、旋转调整模块、文字内容模块、特征信息模块和分类分级模块;
获取读取模块的数据输出端与文字目标检测提取模块的数据输入端相连,文字目标检测提取模块的数据输出端与旋转调整模块的数据输入端相连,旋转调整模块的数据输出端与文字内容模块的数据输入端相连,文字内容模块的数据输出端与特征信息模块的数据输入端相连,特征信息模块的数据输出端与分类分级模块的数据输入端相连;
获取读取模块用于获取待分类图片数据,对待分类图片数据进行图片数据读取;对待分类图片数据进行图片数据读取的方法包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
S14,判断分类顺序码集合
Figure FDF0000020295220000011
中是否存在相同的分类顺序码:
若分类顺序码集合
Figure FDF0000020295220000012
中存在相同的分类顺序码,
Figure FDF0000020295220000013
表示第1待分类图片的分类顺序码,
Figure FDF0000020295220000014
表示第2待分类图片的分类顺序码,
Figure FDF0000020295220000015
表示第3待分类图片的分类顺序码,
Figure FDF0000020295220000016
表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合
Figure FDF0000020295220000017
中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合
Figure FDF0000020295220000018
中不存在相同的分类顺序码,
Figure FDF0000020295220000019
表示第1待分类图片的分类顺序码,
Figure FDF0000020295220000021
表示第2待分类图片的分类顺序码,
Figure FDF0000020295220000022
表示第3待分类图片的分类顺序码,
Figure FDF0000020295220000023
表示第Q待分类图片的分类顺序码,则将分类顺序码集合
Figure FDF0000020295220000024
中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕;
文字目标检测提取模块用于对图片中的文字目标进行检测,提取图片中的文字目标;
旋转调整模块用于对文字目标方向识别及旋转调整;对文字目标方向识别及旋转调整的方法包括以下步骤:
S31,获取文字目标的旋转参数;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
Figure FDF0000020295220000025
Figure FDF0000020295220000026
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处;其坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
Figure FDF0000020295220000031
若yn-y0≥0,xm-x0>0,则
Figure FDF0000020295220000032
若yn-y0>0,xm-x0≤0,则
Figure FDF0000020295220000033
若yn-y0<0,xm-x0≥0,则
Figure FDF0000020295220000041
若yn-y0≤0,xm-x0<0,则
Figure FDF0000020295220000042
S342,判断α与0的关系:
若α<0,则
Figure FDF0000020295220000043
若α≥0,则
Figure FDF0000020295220000044
文字内容模块用于对文字内容识别,形成检测文本;
特征信息模块用于基于正则式或关键词提取文本的特征信息;
分类分级模块用于基于特征信息,对图片进行分类分级;对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比:
如果吻合,则判断为敏感图片数据;
如果不吻合,则为非敏感图片数据;
对敏感图片数据进行加密,防止泄露。
2.根据权利要求1所述的图片数据分类系统,其特征在于,在特征信息模块中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
3.根据权利要求1所述的图片数据分类系统,其特征在于,在文字目标检测提取模块中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
4.根据权利要求1所述的图片数据分类系统,其特征在于,在文字内容模块中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
5.一种图片数据分类方法,其特征在于,包括以下步骤:
S1,获取待分类图片数据,对待分类图片数据进行图片数据读取;对待分类图片数据进行图片数据读取的方法包括以下步骤:
S11,统计获取的待分类图片数据的总张数,记作Q;分别为第1待分类图片、第2待分类图片、第3待分类图片、……、第Q待分类图片,Q为大于或者等于1的正整数;令q=1;
S12,计算第q待分类图片的分类顺序码;
S13,判断q与Q间的大小关系:
若q≥Q,则执行步骤S14;
若q<Q,则q=q+1,返回步骤S12;
S14,判断分类顺序码集合
Figure FDF0000020295220000051
中是否存在相同的分类顺序码:
若分类顺序码集合
Figure FDF0000020295220000052
中存在相同的分类顺序码,
Figure FDF0000020295220000053
表示第1待分类图片的分类顺序码,
Figure FDF0000020295220000054
表示第2待分类图片的分类顺序码,
Figure FDF0000020295220000055
表示第3待分类图片的分类顺序码,
Figure FDF0000020295220000056
表示第Q待分类图片的分类顺序码,则筛除多余的分类顺序码以及筛除多余的分类顺序码所对应的待分类图片;将分类顺序码集合
Figure FDF0000020295220000057
中剩余的分类顺序码作为所对应的待分类图片的图片名称;
若分类顺序码集合
Figure FDF0000020295220000058
中不存在相同的分类顺序码,
Figure FDF0000020295220000059
表示第1待分类图片的分类顺序码,
Figure FDF00000202952200000510
表示第2待分类图片的分类顺序码,
Figure FDF00000202952200000511
表示第3待分类图片的分类顺序码,
Figure FDF00000202952200000512
表示第Q待分类图片的分类顺序码,则将分类顺序码集合
Figure FDF00000202952200000513
中的分类顺序码作为所对应的待分类图片的图片名称;
S15,将待分类图片以图片名称按照数字大小从小到大排列,提取最小的数字和最大的数字,分别记作ηmin和ηmax
S16,读取图片数据时以图片名称按照数字大小顺序读取,当其读取到图片名称为ηmin和ηmax时停止读取,表明待分类图片数据读取完毕;
S2,对图片中的文字目标进行检测,提取图片中的文字目标;
S3,对文字目标方向识别及旋转调整;对文字目标方向识别及旋转调整的方法包括以下步骤:
S31,获取文字目标的旋转参数;
S32,取图片平面内的任一坐标点(x0,y0)作为基准坐标点,
Figure FDF0000020295220000061
Figure FDF0000020295220000062
表示图片平面内所有坐标点集合,(xm,yn)表示文字目标图片中第m列第n行的坐标点,m=1,2,3,…,M,n=1,2,3,…,N,M表示文字目标图片的横向像素点个数,N表示文字目标图片的竖向像素点个数,M=wid×res,wid表示文字目标图片的宽度值,res表示文字目标图片的分辨率,N=hig×res,hig表示文字目标图片的高度值,res表示文字目标图片的分辨率,(x1,y1)表示文字目标图片中第m行第n列的坐标点;(x1,y1)表示文字目标图片中第1列第1行的坐标点,(x2,y1)表示文字目标图片中第2列第n行的坐标点,(x3,y1)表示文字目标图片中第3列第1行的坐标点,(xM,y1)表示文字目标图片中第M列第1行的坐标点;(x1,y2)表示文字目标图片中第1列第2行的坐标点,(x2,y2)表示文字目标图片中第2列第2行的坐标点,(x3,y2)表示文字目标图片中第3列第2行的坐标点,(xM,y2)表示文字目标图片中第M列第2行的坐标点;(x1,y3)表示文字目标图片中第1列第3行的坐标点,(x2,y3)表示文字目标图片中第2列第3行的坐标点,(x3,y3)表示文字目标图片中第3列第3行的坐标点,(xM,y3)表示文字目标图片中第M列第3行的坐标点;(x1,yN)表示文字目标图片中第1列第N行的坐标点,(x2,yN)表示文字目标图片中第2列第N行的坐标点,(x3,yN)表示文字目标图片中第3列第N行的坐标点,(xM,yN)表示文字目标图片中第M列第N行的坐标点;
S33,判断M和N间的大小关系:
若M≥N,则建立M×M的方形像素框;
若M<N,则建立N×N的方形像素框;
以方形像素框的中心为原点,以左为X轴的正方向,以上为Y轴的正方向,建立方形像素坐标系;
S34,将文字目标图片中坐标点(xm,yn)所对应RGB像素值放置在方形像素坐标系中的坐标点(xm′,yn′)处;其坐标点(xm′,yn′)的计算方法包括以下步骤:
S341,根据坐标点(x0,y0)得到坐标点(xm,yn)的坐标点角度值,其坐标点角度值的计算方法为:
Figure FDF0000020295220000071
若yn-y0≥0,xm-x0>0,则
Figure FDF0000020295220000072
若yn-y0>0,xm-x0≤0,则
Figure FDF0000020295220000073
若yn-y0<0,xm-x0≥0,则
Figure FDF0000020295220000074
若yn-y0≤0,xm-x0<0,则
Figure FDF0000020295220000075
S342,判断α与0的关系:
若α<0,则
Figure FDF0000020295220000076
若α≥0,则
Figure FDF0000020295220000077
S4,对文字内容识别,形成检测文本;
S5,基于正则式或关键词提取文本的特征信息;
S6,基于特征信息,对图片进行分类分级;对图片进行分类分级的方法为通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比:
如果吻合,则判断为敏感图片数据;
如果不吻合,则为非敏感图片数据;
对敏感图片数据进行加密,防止泄露。
6.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S5中正则式包括:基于自定义关键词的正则式、地址正则式、姓名正则式、性别正则式、身份证号正则式、银行卡号正则式、电话号码正则式、电子邮箱正则式、IP地址正则式、日期正则式、时间正则式、qq号正则式之一或者任意组合。
7.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S2中对图片中的文字目标是基于深度学习目标检测方法进行检测,实现对图片中的文字目标提取。
8.根据权利要求5所述的图片数据分类方法,其特征在于,在步骤S4中对文字内容识别是基于文件识别模型开展的文字识别方法形成检测文本。
CN202111446737.2A 2021-11-30 2021-11-30 一种图片数据分类的方法和系统 Active CN114117533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111446737.2A CN114117533B (zh) 2021-11-30 2021-11-30 一种图片数据分类的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446737.2A CN114117533B (zh) 2021-11-30 2021-11-30 一种图片数据分类的方法和系统

Publications (2)

Publication Number Publication Date
CN114117533A CN114117533A (zh) 2022-03-01
CN114117533B true CN114117533B (zh) 2023-03-24

Family

ID=80368859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446737.2A Active CN114117533B (zh) 2021-11-30 2021-11-30 一种图片数据分类的方法和系统

Country Status (1)

Country Link
CN (1) CN114117533B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI322970B (en) * 2006-06-16 2010-04-01 Sonix Technology Co Ltd System and method for rotating 2d image
CN111460247B (zh) * 2019-01-21 2022-07-01 重庆邮电大学 网络图片敏感文字自动检测方法
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统
CN113221906A (zh) * 2021-05-27 2021-08-06 江苏奥易克斯汽车电子科技股份有限公司 基于深度学习的图片敏感文字检测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质

Also Published As

Publication number Publication date
CN114117533A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Alkawaz et al. Detection of copy-move image forgery based on discrete cosine transform
CN106951832B (zh) 一种基于手写字符识别的验证方法及装置
US7961937B2 (en) Pre-normalization data classification
CN108491866B (zh) 色情图片鉴定方法、电子装置及可读存储介质
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN111079816A (zh) 图像的审核方法、装置和服务器
CN109446345A (zh) 核电文件校验处理方法以及系统
Fu et al. Robust GAN-face detection based on dual-channel CNN network
CN112948897B (zh) 一种基于drae与svm相结合的网页防篡改检测方法
CN107895117A (zh) 恶意代码标注方法和装置
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN104899551B (zh) 一种表单图像分类方法
CN114117533B (zh) 一种图片数据分类的方法和系统
CN112949653A (zh) 文本识别方法以及电子设备、存储装置
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN110674678A (zh) 视频中敏感标志的识别方法及装置
CN115759964A (zh) 一种投标文件通用资格验证的方法、系统及设备
US11823521B2 (en) Image processing method for an identity document
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
CN111353294B (zh) 不良户外广告标语的检测与过滤方法与户外广告播放系统
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
CN111414889A (zh) 基于文字识别的财务报表识别方法及装置
Girinath et al. Automatic Number Plate Detection using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant