CN111339995B - 一种基于神经网络的敏感图像识别方法 - Google Patents

一种基于神经网络的敏感图像识别方法 Download PDF

Info

Publication number
CN111339995B
CN111339995B CN202010180833.6A CN202010180833A CN111339995B CN 111339995 B CN111339995 B CN 111339995B CN 202010180833 A CN202010180833 A CN 202010180833A CN 111339995 B CN111339995 B CN 111339995B
Authority
CN
China
Prior art keywords
sensitive
neural network
image
circle
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010180833.6A
Other languages
English (en)
Other versions
CN111339995A (zh
Inventor
张黎
陈广辉
詹金凯
谢委员
骆春山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Shenjie Information Technology Co ltd
Original Assignee
Hefei Shenjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Shenjie Information Technology Co ltd filed Critical Hefei Shenjie Information Technology Co ltd
Priority to CN202010180833.6A priority Critical patent/CN111339995B/zh
Publication of CN111339995A publication Critical patent/CN111339995A/zh
Application granted granted Critical
Publication of CN111339995B publication Critical patent/CN111339995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种基于神经网络的敏感图像识别方法,涉及信息识别技术领域,包括以下步骤:S1:对获取的图片进行预处理;S2:判断图像中是否存在圆环形目标,若是则执行步骤S3;反之则图像中未检测到敏感目标;S3:定位圆环内文字的内外半径和文字的始末角度;S4:将圆环内文字拉直,获取圆环内文字数据并输出;S5:判断圆环内文字与敏感文字匹配度是否不低于预定阈值,若是则检测到敏感目标;反之则未检测到敏感目标。本发明一种基于神经网络的敏感图像识别方法执行简单,识别准确,符合现实运用,有效识别图像中的敏感目标,及时处理增强机密保护,可以结合传统DLP的算法,来增强DLP的功能,防止机密泄露。

Description

一种基于神经网络的敏感图像识别方法
技术领域
本发明涉及信息识别技术领域,
尤其是,本发明涉及一种识别带圆环区域文字的图像敏感对象的基于神经网络的敏感图像识别方法。
背景技术
带圆环区域文字的图形非常常见,例如公章就是我国特有的历史产物,是一种权威性的象征,能够使用到公章的地方,几乎都会含有一些敏感信息,所以能够对图章进行检测,能够更好的保护企业内部敏感信息的流出。
在已有的数据防泄漏产品中,都只是对数据的文本进行保护,忽略了图像在国内企业敏感数据中占有的重要位置。传统的DLP,都是使用关键字和正则等算法,对各类文本数据进行搜索,但是仅仅根据一些敏感词还是很难准确出敏感信息,很容易遗漏或者误检出机密信息。
如果能对网络中上传的图片是否含有敏感的图章进行自动识别,能够大大的减少上述行为造成的恶劣影响,再结合传统DLP所使用的算法,能极大地增强DLP的检测机密信息的准确性,从而进行及时的处理。
因此为了解决上述问题,设计一种合理的敏感图像识别方法对我们来说是很有必要的。
发明内容
本发明的目的在于提供一种执行简单,识别准确,符合现实运用,有效识别图像中的带圆环区域文字的敏感目标,及时处理增强机密保护,可以结合传统DLP的算法,来增强DLP的功能,防止机密泄露的基于神经网络的图像识别方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于神经网络的敏感图像识别方法,包括以下步骤:
S1:对获取的图片进行预处理;
S2:判断图像中是否存在圆环形目标,若是则执行步骤S3;反之则图像中未检测到敏感目标;
S3:定位圆环内文字的内外半径和文字的始末角度;
S4:将圆环内文字拉直,获取圆环内文字数据并输出;
S5:判断圆环内文字与敏感文字匹配度是否不低于预定阈值,若是则检测到敏感目标;反之则未检测到敏感目标。
作为本发明的优选,执行步骤S1时,对图像的大小和颜色进行处理。
作为本发明的优选,执行步骤S2时,具体包括:
S21:判断图像中是否存在圆;若是则执行步骤S22;反之则图像中未检测到敏感目标;
S22:判断圆是否有圆环形目标;若是则执行步骤S3;反之则图像中未检测到敏感目标。
作为本发明的优选,执行步骤S21时,对图像使用hough变换算法检测圆,然后对检测出的结果加一层过滤条件,重复检测至少一次,获取所有圆。
作为本发明的优选,执行步骤S22时,获取对比目标样本进行训练得到神经网络训练模型,将步骤S21中检测的所有圆,依次输入神经网络训练模型,判断是否有敏感目标。
作为本发明的优选,执行步骤S22之前,提前进行神经网络模型训练。
作为本发明的优选,执行步骤S3时,以圆环的圆心为基准点,获取圆环内文字所处区域的内外径和始末角度。
作为本发明的优选,执行步骤S4时,获取步骤S3中获取的文字区域,使用坐标系变换和双线性插值,把圆环内的文字整体拉成横排,进行OCR识别,获取圆环内文字数据,将结果输出。
作为本发明的优选,执行步骤S5时,实时更新敏感文字并存储,并将获取的圆环内文字一一与敏感文字进行匹配,获取匹配度。
作为本发明的优选,执行步骤S5之前,提前设置预定阈值。
本发明一种基于神经网络的敏感图像识别方法有益效果在于:执行简单,识别准确,符合现实运用,有效识别图像中的敏感目标,及时处理增强机密保护,可以结合传统DLP的算法,来增强DLP的功能,防止机密泄露。
附图说明
图1为本发明一种基于神经网络的敏感图像识别方法的流程示意图;
图2为本发明一种基于神经网络的敏感图像识别方法的圆环目标的文字处理结果示意图;
图3为本发明一种基于神经网络的敏感图像识别方法的文字拉直后的效果示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
实施例:如图1至 3所示,仅仅为本发明的其中一个的实施例,一种基于神经网络的敏感图像识别方法,识别图像中的公章对象,包括以下步骤:
S1:对获取的图片进行预处理;
执行步骤S1时,对图像的大小和颜色进行处理。
预处理主要包括对图像的大小,颜色等进行处理,考虑到产品的性能,过滤了非常小的图片,因为有理由相信,非常小的图片不可能是圆环目标,并且缩小大图片,减少了算法所需要的时间。
S2:判断图像中是否有圆环目标,若是则执行步骤S3;反之则图像中没有目标;
实际上,执行步骤S2时,具体包括以下两步:
S21:判断图像中是否存在圆;若是则执行步骤S22;反之则图像中未检测到敏感目标;
S22:判断是否含有圆环目标;若是则执行步骤S3;反之则图像中未检测到敏感目标。
也就是说,先判断图像内是否存在圆环,然后判断圆环中是否为圆环目标的图章样式,只有两次判断均为是,则说明有圆环目标且需要对圆环目标进行识别;反之,说明图像中无圆环,无需识别。
执行步骤S21时,对图像使用hough变换算法检测圆,然后对检测出的结果加一层过滤条件,对圆周上的红色像素点所占的比例进行判断,重复检测至少一次,获取所有圆。
使用了霍夫变换检测圆,但对其进行了优化。针对真实的应用场景,灵活的使用了hough变化算法。
具体细节如下:
首先,对灰度图使用hough变换算法检测圆,然后对检测出的结果加一层过滤条件,对圆周上的红色像素点所占的比例进行判断。这个判断条件来源于,一般的圆环目标都是红色的这一特点,再加上是对灰度图进行hough变换检测圆,所以即使是彩色图像进行了灰度化,也能根据这一条件判断。
然后,通过不同的参数多次重复检测,对几次调用检测出的圆取并集,这一操作是为了确保真正的圆能够被检测出来,可以误检,不能漏检,因为误检了可以根据其他条件进行筛选,而漏检目前没有较好的方法替换。
需要注意的是,根据检测出的每个圆的圆心和半径,过滤掉相交的圆,这是根据现实场景中,文件中的圆环目标不会相交的特点,选定的判定条件。
还有,执行步骤S22时,获取对比圆环目标样本进行训练得到神经网络训练模型,将步骤S21中检测的所有圆,依次输入神经网络训练模型,判断是否有圆环。对一批圆环目标样本进行神经网络训练,训练时使用正负样本约400:200,提取出圆环目标的特征,作为预测是否是圆环目标的模型。
另外,考虑到该训练过程需要耗费一定的时间,为了不影响产品性能,所以在执行步骤S22之前,提前进行神经网络模型训练,提前训练好该预测模型。
S3:定位圆环内文字的内外半径和文字的始末角度;
执行步骤S3时,以圆的圆心为基准点,获取圆环内文字所处区域的内外径和始末角度。如图2所示。
S4:将圆环内文字拉直,获取圆环内文字数据并输出;
执行步骤S4时,获取步骤S3中获取的文字区域,使用坐标系变换和双线性插值,把圆环目标内的文字整体拉成横排,进行OCR识别,获取圆环内文字数据,将结果输出。
因为圆环目标上的文字都是环绕在圆环目标上的,所以想要对文字进行识别,还需要对文字进行处理,使文字能够水平排版。步骤S3中获取处理后的文字区域,使用坐标系变换(扇环变换到矩形)和双线性插值,把圆环目标内的文字整体拉成横排。如图3所示。
S5:判断圆环内文字与敏感文字匹配度是否不低于预定阈值,若是则检测到敏感目标;反之则未检测到敏感目标。
执行步骤S5时,实时更新敏感文字并存储,并将获取的圆环内文字一一与敏感文字进行匹配,获取匹配度。对处理拉直以后的文字,进行文字识别,识别出圆环目标上的具体文字,用来判断是否为用户想要保护的圆环目标。
当然,执行步骤S5之前,提前设置预定阈值,在实际运用中,由于需要保护的目标样式不仅仅为一个,且每个目标的安全程度不同,所以看可以根据每个需要保护的目标,以及其保护安全等级来针对每一个目标设置不同的预定(安全)阈值。
本发明一种基于神经网络的敏感图像识别方法执行简单,识别准确,符合现实运用,有效识别图像中的敏感目标,及时处理增强机密保护,可以结合传统DLP的算法,来增强DLP的功能,防止机密泄露。
本发明不局限于上述具体的实施方式,本发明可以有各种更改和变化。例如也可以识别其他带圆环区域文字的敏感图像目标,如圆形的机械零件、圆形的旗帜等等。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (7)

1.一种基于神经网络的敏感图像识别方法,其特征在于,包括以下步骤:
S1:对获取的图片进行预处理;
S2:判断图像中是否存在圆环形目标,若是则执行步骤S3;反之则图像中未检测到敏感目标;
S3:定位圆环内文字的内外半径和文字的始末角度;
S4:将圆环内文字拉直,获取圆环内文字数据并输出;
S5:判断圆环内文字与敏感文字匹配度是否不低于预定阈值,若是则检测到敏感目标;反之则未检测到敏感目标;
其中,执行步骤S2时,具体包括:
S21:判断图像中是否存在圆;若是则执行步骤S22;反之则图像中未检测到敏感目标;
S22:判断圆是否有圆环形目标;若是则执行步骤S3;反之则图像中未检测到敏感目标;
执行步骤S21时,对灰度图像使用hough变换算法检测圆,然后对检测出的结果加一层过滤条件,对圆周上的红色像素点所占的比例进行判断,通过不同的参数多次重复检测,对几次调用检测出的圆取并集,确保所有的圆能够被检测出来并获取,根据检测出的每个圆的圆心和半径,过滤掉相交的圆;
执行步骤S22时,获取对比目标样本进行训练得到神经网络训练模型,将步骤S21中检测的所有圆,依次输入神经网络训练模型,判断是否有敏感目标。
2.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S1时,对图像的大小和颜色进行处理。
3.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S22之前,提前进行神经网络模型训练。
4.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S3时,以圆的圆心为基准点,获取圆环内文字所处区域的内外径和始末角度。
5.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S4时,获取步骤S3中获取的文字区域,使用坐标系变换和双线性插值,把圆环内的文字整体拉成横排,进行OCR识别,获取圆环内文字数据,将结果输出。
6.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S5时,实时更新敏感文字并存储,并将获取的圆环内文字一一与敏感文字进行匹配,获取匹配度。
7.根据权利要求1所述的一种基于神经网络的敏感图像识别方法,其特征在于:
执行步骤S5之前,提前设置预定阈值。
CN202010180833.6A 2020-03-16 2020-03-16 一种基于神经网络的敏感图像识别方法 Active CN111339995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180833.6A CN111339995B (zh) 2020-03-16 2020-03-16 一种基于神经网络的敏感图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180833.6A CN111339995B (zh) 2020-03-16 2020-03-16 一种基于神经网络的敏感图像识别方法

Publications (2)

Publication Number Publication Date
CN111339995A CN111339995A (zh) 2020-06-26
CN111339995B true CN111339995B (zh) 2024-02-20

Family

ID=71187345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180833.6A Active CN111339995B (zh) 2020-03-16 2020-03-16 一种基于神经网络的敏感图像识别方法

Country Status (1)

Country Link
CN (1) CN111339995B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218391B (zh) * 2021-12-30 2024-06-28 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504738A (zh) * 2014-12-20 2015-04-08 乐清咔咔网络科技有限公司 一种信息印章及其印文图像信息处理方法
CN105631447A (zh) * 2015-12-18 2016-06-01 杭州仁盈科技股份有限公司 一种识别圆形公章中文字的方法
CN105741226A (zh) * 2016-02-01 2016-07-06 江苏实达迪美数据处理有限公司 基于电子图章的可见数字图像水印的嵌入与检测方法
CN107274378A (zh) * 2017-07-25 2017-10-20 江西理工大学 一种融合记忆cnn的图像模糊类型识别及参数整定方法
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109726721A (zh) * 2018-12-06 2019-05-07 五邑大学 一种基于卷积神经网络模型的象棋识别方法
CN110852315A (zh) * 2019-09-27 2020-02-28 武汉大学 环形文字快速识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504738A (zh) * 2014-12-20 2015-04-08 乐清咔咔网络科技有限公司 一种信息印章及其印文图像信息处理方法
CN105631447A (zh) * 2015-12-18 2016-06-01 杭州仁盈科技股份有限公司 一种识别圆形公章中文字的方法
CN105741226A (zh) * 2016-02-01 2016-07-06 江苏实达迪美数据处理有限公司 基于电子图章的可见数字图像水印的嵌入与检测方法
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107274378A (zh) * 2017-07-25 2017-10-20 江西理工大学 一种融合记忆cnn的图像模糊类型识别及参数整定方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109726721A (zh) * 2018-12-06 2019-05-07 五邑大学 一种基于卷积神经网络模型的象棋识别方法
CN110852315A (zh) * 2019-09-27 2020-02-28 武汉大学 环形文字快速识别方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Partha Pratim Roy 等.Seal Detection and Recognition: An Approach for Document Indexing.2009 10th International Conference on Document Analysis and Recognition.2009,101-105. *
张栗.特定背景下的公章识别技术研究.中国优秀硕士学位论文全文数据库 信息科技辑.2008,2008(11),第一-四章. *
林金朝 ; 蔡元奇 ; 庞宇 ; 杨鹏 ; 张焱杰 ; .基于空间变换密集卷积网络的图片敏感文字识别.计算机系统应用.2020,29(01),137-143. *
田华 等.基于不变矩特征及BP神经网络的图像模式识别.河北大学学报(自然科学版).2008,第28卷(2),摘要,第1-4节. *
黄剑航.基于HALCON的圆环区域字符识别实现.现代计算机.2010,58-60,71. *

Also Published As

Publication number Publication date
CN111339995A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
JP5657788B2 (ja) 交通標識認識方法
CN108268867B (zh) 一种车牌定位方法及装置
CN109344820B (zh) 基于计算机视觉和深度学习的数字式电表读数识别方法
CN112767369A (zh) 小五金的缺陷识别检测方法、装置及计算机可读存储介质
CN110047083B (zh) 图像噪点识别方法、服务器及存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN107871137B (zh) 一种基于图像识别的物料匹配方法
US20190354791A1 (en) Character recognition method
US10885326B2 (en) Character recognition method
CN110502977B (zh) 一种建筑物变化分类检测方法、系统、装置及存储介质
CN103699876B (zh) 一种基于线阵ccd图像识别车号的方法及装置
CN111339995B (zh) 一种基于神经网络的敏感图像识别方法
CN108460388B (zh) 定位标志的检测方法、装置及计算机可读存储介质
CN114648771A (zh) 文字识别方法、电子设备和计算机可读存储介质
CN113435219B (zh) 防伪检测方法、装置、电子设备及存储介质
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
JP2004280334A (ja) 画像読み取り装置
CN111611866A (zh) 基于YCrCb和LAB颜色空间的火焰检测识别方法及系统
Chong et al. Deep learning and optical character recognition for digitization of meter reading
CN108875467B (zh) 活体检测的方法、装置及计算机存储介质
CN113936133B (zh) 一种面向目标检测的自适应数据增强方法
CN114998614A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN109871910B (zh) 一种手写字符识别方法及装置
CN111062309B (zh) 一种雨天交通标志检测方法、存储介质及系统
CN113743360A (zh) 智能化印章解析的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant