CN111191695B - 一种基于深度学习的网站图片篡改检测方法 - Google Patents

一种基于深度学习的网站图片篡改检测方法 Download PDF

Info

Publication number
CN111191695B
CN111191695B CN201911318110.1A CN201911318110A CN111191695B CN 111191695 B CN111191695 B CN 111191695B CN 201911318110 A CN201911318110 A CN 201911318110A CN 111191695 B CN111191695 B CN 111191695B
Authority
CN
China
Prior art keywords
picture
text
website
pictures
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911318110.1A
Other languages
English (en)
Other versions
CN111191695A (zh
Inventor
范如
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911318110.1A priority Critical patent/CN111191695B/zh
Publication of CN111191695A publication Critical patent/CN111191695A/zh
Application granted granted Critical
Publication of CN111191695B publication Critical patent/CN111191695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的网站图片篡改检测方法,收集带有文本的样本图片,预处理后建立训练集,训练对应的网络模型,进一步训练语义相近度检测模型并构建敏感词库,爬取到待测网站图片并预处理后,通过网络模型得到网站图片中的文本内容结果,分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度,基于相似度进行敏感内容及网站图片被篡改的判定。本发明提高文本块识别精度,文本提取准确,模型小,收敛速度快,性能好,对图片中的文本进行语义识别,能准确地检测网页图片中的敏感言论,快速高效地识别网站是否被黑客入侵,并及时告警,对于维护网站安全起到重要作用,对于不良非法信息的传播能及时地阻断。

Description

一种基于深度学习的网站图片篡改检测方法
技术领域
本发明涉及一般的图像数据处理或产生的技术领域,特别涉及一种基于深度学习的网站图片篡改检测方法。
背景技术
随着网络的加速发展,对于网络生态的监测、监管的重要性日益上升。黑客们无时无刻不在寻找机会攻入特定的网站、对其进行系列操作以达到其犯罪目的;更有甚者,专门寻找重要的政府企业的网站漏洞,采用植入后门等手段,控制网站服务器,入侵之后篡改页面、通过在图片上增加文本内容的方式发布各种非法言论,基于其活动存在周期性,每周都要攻击两至三个网站,网页被篡改后,如果没有及时检测发现,会对政府企业网站造成不良影响,被监管部门封杀,更重要的是会使不良信息肆意传播,不利于舆情管理。
基于图片中植入文字,现有技术中主要采用单字符提取和文本行提取的方式进行检测。单字符提取是基于字符的识别方法,是一种碎片式识别方法,依赖于以图片分割技术对图片中的文本进行分割,计算字符候选区域,进而以字符训练分类器,并利用算法将字符组合成文字,从而完成识别;文本行提取是指从图片中尽可能地找出文字所在的区域,通过目标检测器,如SSD,YOLO、DenseBox等预测候选的边界框,以语义分割为基础、分割映射,处理提取成最终的文本。
对于单字符提取的检测方式来说,其最小操作单位是字符,通过分割或给候选区域评分的方法分离出单个字符,然后以训练好的模型对字符进行分类,然而,在更多的场景下,字符在图片上的排列是繁琐而复杂的,对字符进行分割异常困难,并且强制分割会破坏其物理结构,此外字符的分割没有考虑其前后其他字符,在进行字符识别时的识别精度大打折扣。
对于文本行提取的检测方式来说,相较于常规物体,文本行的长宽比例变化范围很大且整体存在方向,常规物体边框BBox的四元组描述方式提取的信息并不充足,比如部分艺术字采用了弯曲的文本行,再比如还有更多种变化方式的手写字体,这些特征使得直接通过文本行提取文字的效果并不理想。
发明内容
本发明解决了现有技术中存在的问题,提供了一种优化的基于深度学习的网站图片篡改检测方法。
本发明所采用的技术方案是,一种基于深度学习的网站图片篡改检测方法,所述方法包括以下步骤:
步骤1:收集样本图片,所述样本图样中包括文本;
步骤2:对样本图片进行预处理,建立训练集,并将训练集输入对应的网络模型进行模型训练;
步骤3:训练语义相近度检测模型;构建敏感词库;
步骤4:爬取待测网站图片,以与步骤2同样的方式预处理待测网站图片,输入步骤2训练后的网络模型,输出网站图片中的文本内容结果;
步骤5:对所述文本内容结果进行分词,输入步骤3训练的语义相近度检测模型,计算文本内容结果与敏感词库间的语义相似度;
步骤6:若相似度高于阈值,则存在敏感内容,网站图片被篡改。
优选地,所述步骤2中,网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。
优选地,对应图片文本区域检测网络的训练集建立包括以下步骤:
步骤A.1:对所有的样本图片进行归一化处理,处理至统一尺寸;
步骤A.2:对所有的样本图片进行数据增强;
步骤A.3:对数据增强后所有的图片中的文本区域标注标识;
步骤A.4:将标识转换为锚点标签,得到图片数据集标签;
步骤A.5:得到训练集。
优选地,所述步骤A.5中,将所有的图片转换至lmdb格式,得到训练集。
优选地,所述步骤2中,图片文本区域检测网络的模型训练包括以下步骤:
步骤2.1.1:将训练集中的图片输入VGG16网络,提取底层特征,得到W×H×C的特征映射,W和H对应图片的长和宽,C为图片通道数;
步骤2.1.2:将得到的特征映射进行卷积操作,获取图片的特征向量,输入循环神经网络;
步骤2.1.3:将循环神经网络输出的特征向量输入全连接层,输出对应文本的锚点的垂直坐标、评分和边缘细化结果;
步骤2.1.4:将输出的锚点的垂直坐标进行去重,以文本线构造算法对属于同一文本区域的锚点进行拼接,形成1个或多个完整的文本框;
步骤2.1.5:基于输出结果完成图片文本区域检测网络的模型训练或修改参数,返回步骤2.1.1。
优选地,对应图片文本字符提取检测网络的训练集建立包括以下步骤:
步骤B.1:对所有的样本图片进行数据增强;
步骤B.2:对数据增强后的图片处理至统一分辨率;
步骤B.3:对所有的图片中的文本进行标注标签,并保存至txt文本,txt文本的文件名与图片的文件名一致;
步骤B.4:得到训练集。
优选地,所述步骤B.4中,将所有的图片转换至lmdb格式,得到训练集。
优选地,所述步骤2中,图片文本字符提取检测网络的模型训练包括以下步骤:
步骤2.2.1:将训练集中的图片输入卷积神经网络,提取图片特征;
步骤2.2.2:将得到的图片特征输入循环神经网络,在卷积特征的基础上提取文字序列特征;
步骤2.2.3:将循环神经网络输出的文字序列特征输入CTC网络模型进行整合,得到字符结果;
步骤2.2.4:基于输出结果完成图片文本字符提取检测网络的模型训练或修改参数,返回步骤2.2.1。
优选地,所述步骤4中,预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。
优选地,所述步骤3包括以下步骤:
步骤3.1:收集敏感语句样本,作为语义相近度检测模型的训练集;
步骤3.2:以Word2Vec算法对敏感语句样本进行训练,得到语义相近度检测模型。
本发明涉及一种优化的基于深度学习的网站图片篡改检测方法,通过收集带有文本的样本图片,预处理后建立训练集,训练对应的网络模型,进一步训练语义相近度检测模型并构建敏感词库;,爬取到待测网站图片并预处理后,通过网络模型得到网站图片中的文本内容结果,分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度,基于相似度进行敏感内容及网站图片被篡改的判定。
本发明通过CTPN检测模型,提取字符所在的图片上下文特征,针对不同方向的文本行进行准确识别,提高了文本块的识别精度,随后通过CRNN模型识别文本,提取文本的深度特征同时也提取了文本的序列特征,在文本的提取上相比字符切割提取和文本行提取更准确,模型较小,收敛速度快,性能好,最后通过自然语言模型对图片中的文本进行语义识别来判断网站是否被黑客入侵并对图片进行了篡改。
本发明能准确地检测网页图片中的敏感言论,快速高效地识别网站是否被黑客入侵,并及时告警,对于维护网站安全起到重要作用,对于不良非法信息的传播能及时地阻断。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种基于深度学习的网站图片篡改检测方法,检测网站中的图片是否被黑客篡改、及时发现网站是否被黑客入侵。
所述方法包括以下步骤。
步骤1:收集样本图片,所述样本图样中包括文本。
步骤2:对样本图片进行预处理,建立训练集,并将训练集输入对应的网络模型进行模型训练。
所述步骤2中,网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。
本发明中,图片文本区域检测网络可以检测水平和微斜的文本行,在模型中文本行可以被看作一个序列,而不是一般物体检测中单个独立的目标,同一个文本行上各个字符图像可以互为上下文,通过学习图片中这种上下文统计规律,可以提升文本块的预测准确率。
本发明中,图片文本字符提取检测网络主要用于解决基于图像的序列识别问题,对于序列化图像可以不用对字符进行切割,能够检测任意长度的文本序列。
对应图片文本区域检测网络的训练集建立包括以下步骤:
步骤A.1:对所有的样本图片进行归一化处理,处理至统一尺寸;
步骤A.2:对所有的样本图片进行数据增强;
步骤A.3:对数据增强后所有的图片中的文本区域标注标识;
步骤A.4:将标识转换为锚点标签,得到图片数据集标签;
步骤A.5:得到训练集。
所述步骤A.5中,将所有的图片转换至lmdb格式,得到训练集。
所述步骤2中,图片文本区域检测网络的模型训练包括以下步骤:
步骤2.1.1:将训练集中的图片输入VGG16网络,提取底层特征,得到W×H×C的特征映射,W和H对应图片的长和宽,C为图片通道数;
步骤2.1.2:将得到的特征映射进行卷积操作,获取图片的特征向量,输入循环神经网络;
步骤2.1.3:将循环神经网络输出的特征向量输入全连接层,输出对应文本的锚点的垂直坐标、评分和边缘细化结果;
步骤2.1.4:将输出的锚点的垂直坐标进行去重,以文本线构造算法对属于同一文本区域的锚点进行拼接,形成1个或多个完整的文本框;
步骤2.1.5:基于输出结果完成图片文本区域检测网络的模型训练或修改参数,返回步骤2.1.1。
本发明中,对应步骤A.1的样本图片可以为黑客已经篡改的网站图片样本集。
本发明中,步骤A.2中通过裁剪、图片的拉伸、翻转等实现图片数据集增强,丰富训练集样本,此为本领域技术人员容易理解的内容,本领域技术人员可以依据需求自行设置。
本发明中,步骤A.3中对图片中的文本区域标注标识在文本区域的左上、右上、左下、右下四个坐标点处进行打标,共形成八个值[x1,y1,x2,y2,x3,y3,x4,y4],分别对应四个角点的横坐标和纵坐标,然后将坐标标签转化为锚点标签,完成图片数据集标签的生成。
本发明中,lmdb格式的图片的读取速度比jpeg格式提升10%左右。
本发明中,VGG16模型输出的是W×H×C的特征映射,再对图片的特征映射以3×3的滑窗进行卷积操作获取图片的特征向量;此处的循环神经网络为双向LSTM模型,输入256维的特征向量,输出512维的向量至全连接层;全连接层的输出层包含三个输出,包括2k个垂直坐标、2k个评分、k个边缘细化,其中,k表示锚点的尺寸个数。
本发明中,将输出的×锚点信息使用标准的非极大值抑制算法将重叠程度大的锚点个体进行合并,并以文本线构造算法把距离接近、高度相仿、中心点垂直位置相近的锚点拼接至一个文本行,再根据文本行的所有锚点形成一个完整的文本框,从而实现图片中文本框位置的检测;其中,关于文本线构造算法中对于“距离接近、高度相仿、中心点垂直位置相近”的具体阈值可以由本领域技术人员基于需求自行设置。
对应图片文本字符提取检测网络的训练集建立包括以下步骤:
步骤B.1:对所有的样本图片进行数据增强;
步骤B.2:对数据增强后的图片处理至统一分辨率;
步骤B.3:对所有的图片中的文本进行标注标签,并保存至txt文本,txt文本的文件名与图片的文件名一致;
步骤B.4:得到训练集。
所述步骤B.4中,将所有的图片转换至lmdb格式,得到训练集。
所述步骤2中,图片文本字符提取检测网络的模型训练包括以下步骤:
步骤2.2.1:将训练集中的图片输入卷积神经网络,提取图片特征;
步骤2.2.2:将得到的图片特征输入循环神经网络,在卷积特征的基础上提取文字序列特征;
步骤2.2.3:将循环神经网络输出的文字序列特征输入CTC网络模型进行整合,得到字符结果;
步骤2.2.4:基于输出结果完成图片文本字符提取检测网络的模型训练或修改参数,返回步骤2.2.1。
本发明中,对应步骤B.1的样本图片可以是自行制作的、带有文字的数据集图片,也可以从互联网上下载一些开源的文本图片样本集作为数据集。
本发明中,步骤B.1的数据增强包括改变图片中文字的字体及大小、及调整图片的灰度、拉升图片等变化随机生成数据集。
步骤3:训练语义相近度检测模型;构建敏感词库。
所述步骤3包括以下步骤:
步骤3.1:收集敏感语句样本,作为语义相近度检测模型的训练集;
步骤3.2:以Word2Vec算法对敏感语句样本进行训练,得到语义相近度检测模型。
本发明中,可以从互联网上收集黑客的违法言论作为Word2Vec模型的训练集。
本发明中,敏感词库可以从文本集中提取,也可以从互联网上进行搜集,并保持持续更新。
步骤4:爬取待测网站图片,以与步骤2同样的方式预处理待测网站图片,输入步骤2训练后的网络模型,输出网站图片中的文本内容结果。
所述步骤4中,预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。
步骤5:对所述文本内容结果进行分词,输入步骤3训练的语义相近度检测模型,计算文本内容结果与敏感词库间的语义相似度。
步骤6:若相似度高于阈值,则存在敏感内容,网站图片被篡改。
本发明中,一般来说,相似度大于等于0.8则认为存在敏感内容,网站图片被篡改。
本发明中,步骤6后返回步骤4,持续爬取待测网站图片,并对被篡改的网站图片进行处理。
本发明通过收集带有文本的样本图片,预处理后建立训练集,训练对应的网络模型,进一步训练语义相近度检测模型并构建敏感词库;,爬取到待测网站图片并预处理后,通过网络模型得到网站图片中的文本内容结果,分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度,基于相似度进行敏感内容及网站图片被篡改的判定。
本发明通过CTPN检测模型,提取字符所在的图片上下文特征,针对不同方向的文本行进行准确识别,提高了文本块的识别精度,随后通过CRNN模型识别文本,提取文本的深度特征同时也提取了文本的序列特征,在文本的提取上相比字符切割提取和文本行提取更准确,模型较小,收敛速度快,性能好,最后通过自然语言模型对图片中的文本进行语义识别来判断网站是否被黑客入侵并对图片进行了篡改。
本发明能准确地检测网页图片中的敏感言论,快速高效地识别网站是否被黑客入侵,并及时告警,对于维护网站安全起到重要作用,对于不良非法信息的传播能及时地阻断。

Claims (8)

1.一种基于深度学习的网站图片篡改检测方法,其特征在于:所述方法包括以下步骤:
步骤1:收集样本图片,所述样本图样中包括文本;
步骤2:对样本图片进行预处理,建立训练集,并将训练集输入对应的网络模型进行模型训练;
图片文本区域检测网络的模型训练包括以下步骤:
步骤2.1.1:将训练集中的图片输入VGG16网络,提取底层特征,得到W×H×C的特征映射,W和H对应图片的长和宽,C为图片通道数;
步骤2.1.2:将得到的特征映射进行卷积操作,获取图片的特征向量,输入循环神经网络;
步骤2.1.3:将循环神经网络输出的特征向量输入全连接层,输出对应文本的锚点的垂直坐标、评分和边缘细化结果;
步骤2.1.4:将输出的锚点的垂直坐标进行去重,以文本线构造算法对属于同一文本区域的锚点进行拼接,形成1个或多个完整的文本框;
步骤2.1.5:基于输出结果完成图片文本区域检测网络的模型训练或修改参数,返回步骤2.1.1;
图片文本字符提取检测网络的模型训练包括以下步骤:
步骤2.2.1:将训练集中的图片输入卷积神经网络,提取图片特征;
步骤2.2.2:将得到的图片特征输入循环神经网络,在卷积特征的基础上提取文字序列特征;
步骤2.2.3:将循环神经网络输出的文字序列特征输入CTC网络模型进行整合,得到字符结果;
步骤2.2.4:基于输出结果完成图片文本字符提取检测网络的模型训练或修改参数,返回步骤2.2.1;
步骤3:训练语义相近度检测模型;构建敏感词库;
步骤4:爬取待测网站图片,以与步骤2同样的方式预处理待测网站图片,输入步骤2训练后的网络模型,输出网站图片中的文本内容结果;
步骤5:对所述文本内容结果进行分词,输入步骤3训练的语义相近度检测模型,计算文本内容结果与敏感词库间的语义相似度;
步骤6:若相似度高于阈值,则存在敏感内容,网站图片被篡改。
2.根据权利要求1所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:所述步骤2中,网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。
3.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:对应图片文本区域检测网络的训练集建立包括以下步骤:
步骤A.1:对所有的样本图片进行归一化处理,处理至统一尺寸;
步骤A.2:对所有的样本图片进行数据增强;
步骤A.3:对数据增强后所有的图片中的文本区域标注标识;
步骤A.4:将标识转换为锚点标签,得到图片数据集标签;
步骤A.5:得到训练集。
4.根据权利要求3所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:所述步骤A.5中,将所有的图片转换至lmdb格式,得到训练集。
5.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:对应图片文本字符提取检测网络的训练集建立包括以下步骤:
步骤B.1:对所有的样本图片进行数据增强;
步骤B.2:对数据增强后的图片处理至统一分辨率;
步骤B.3:对所有的图片中的文本进行标注标签,并保存至txt文本,txt文本的文件名与图片的文件名一致;
步骤B.4:得到训练集。
6.根据权利要求5所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:所述步骤B.4中,将所有的图片转换至lmdb格式,得到训练集。
7.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:所述步骤4中,预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。
8.根据权利要求1所述的一种基于深度学习的网站图片篡改检测方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:收集敏感语句样本,作为语义相近度检测模型的训练集;
步骤3.2:以Word2Vec算法对敏感语句样本进行训练,得到语义相近度检测模型。
CN201911318110.1A 2019-12-19 2019-12-19 一种基于深度学习的网站图片篡改检测方法 Active CN111191695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911318110.1A CN111191695B (zh) 2019-12-19 2019-12-19 一种基于深度学习的网站图片篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911318110.1A CN111191695B (zh) 2019-12-19 2019-12-19 一种基于深度学习的网站图片篡改检测方法

Publications (2)

Publication Number Publication Date
CN111191695A CN111191695A (zh) 2020-05-22
CN111191695B true CN111191695B (zh) 2023-05-23

Family

ID=70711039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911318110.1A Active CN111191695B (zh) 2019-12-19 2019-12-19 一种基于深度学习的网站图片篡改检测方法

Country Status (1)

Country Link
CN (1) CN111191695B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832443B (zh) * 2020-06-28 2022-04-12 华中科技大学 一种施工违规行为检测模型的构建方法及其应用
CN111767493A (zh) * 2020-07-07 2020-10-13 杭州安恒信息技术股份有限公司 一种网站的内容数据的展示方法、装置、设备及存储介质
CN111967391A (zh) * 2020-08-18 2020-11-20 清华大学 医学化验单的文本识别方法和计算机可读存储介质
CN111967063B (zh) * 2020-09-02 2021-04-09 开普云信息科技股份有限公司 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质
CN112132262B (zh) * 2020-09-08 2022-05-20 西安交通大学 基于可解释模型的循环神经网络后门攻击检测方法
CN112232305B (zh) * 2020-11-19 2024-06-14 中国银联股份有限公司 图像检测方法、装置、电子设备及介质
CN112733140B (zh) * 2020-12-28 2023-12-22 上海观安信息技术股份有限公司 一种针对模型倾斜攻击的检测方法及系统
CN113111869B (zh) * 2021-04-06 2022-12-09 上海交通大学 提取文字图片及其描述的方法和系统
CN113221906A (zh) * 2021-05-27 2021-08-06 江苏奥易克斯汽车电子科技股份有限公司 基于深度学习的图片敏感文字检测方法及装置
JP7357825B2 (ja) * 2021-06-18 2023-10-06 三菱電機株式会社 セキュリティ監視装置、セキュリティ監視方法、及び、セキュリティ監視プログラム
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质
CN114021150B (zh) * 2021-11-17 2022-11-04 山东云天安全技术有限公司 基于N-gram预测工控网漏洞的系统
CN114005004B (zh) * 2021-12-30 2022-04-01 成都无糖信息技术有限公司 一种基于图片实例级特征的诈骗网站识别方法及系统
CN114661934B (zh) * 2022-03-21 2024-03-01 重庆市规划和自然资源信息中心 基于数据挖掘分析技术多维度监控政务新媒体舆情预警的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN110210542A (zh) * 2019-05-24 2019-09-06 厦门美柚信息科技有限公司 图片文字识别模型训练方法、装置及文字识别系统
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110287952A (zh) * 2019-07-01 2019-09-27 中科软科技股份有限公司 一种维语图片字符的识别方法及系统
CN110569839A (zh) * 2019-08-09 2019-12-13 河海大学常州校区 一种基于ctpn和crnn的银行卡号识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110210542A (zh) * 2019-05-24 2019-09-06 厦门美柚信息科技有限公司 图片文字识别模型训练方法、装置及文字识别系统
CN110287952A (zh) * 2019-07-01 2019-09-27 中科软科技股份有限公司 一种维语图片字符的识别方法及系统
CN110569839A (zh) * 2019-08-09 2019-12-13 河海大学常州校区 一种基于ctpn和crnn的银行卡号识别方法

Also Published As

Publication number Publication date
CN111191695A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191695B (zh) 一种基于深度学习的网站图片篡改检测方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN107093172B (zh) 文字检测方法及系统
US8811656B2 (en) Selecting representative images for establishments
US10643094B2 (en) Method for line and word segmentation for handwritten text images
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN112733140B (zh) 一种针对模型倾斜攻击的检测方法及系统
CN110175851A (zh) 一种作弊行为检测方法及装置
CN109685061A (zh) 适用于结构化的数学公式的识别方法
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN104899551B (zh) 一种表单图像分类方法
KR102043693B1 (ko) 기계 학습 기반의 문서 관리 시스템
CN111538893A (zh) 一种从非结构化数据中提取网络安全新词的方法
CN110674678A (zh) 视频中敏感标志的识别方法及装置
CN115294578A (zh) 基于人工智能的文本信息提取方法、装置、设备及介质
CN114511018A (zh) 一种基于类内调整余弦相似度的对抗样本检测方法和装置
CN113011132A (zh) 竖排文字识别方法、装置、计算机设备和存储介质
JP2012008979A (ja) 文字列探索方法、文字列探索装置、記録媒体
Tingre et al. An approach for segmentation of characters in CAPTCHA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant