CN109409362A - 基于tesseract引擎的图片敏感词检测和定位方法和装置 - Google Patents

基于tesseract引擎的图片敏感词检测和定位方法和装置 Download PDF

Info

Publication number
CN109409362A
CN109409362A CN201811184732.5A CN201811184732A CN109409362A CN 109409362 A CN109409362 A CN 109409362A CN 201811184732 A CN201811184732 A CN 201811184732A CN 109409362 A CN109409362 A CN 109409362A
Authority
CN
China
Prior art keywords
character
data
sensitive word
picture
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811184732.5A
Other languages
English (en)
Inventor
张帅哲
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201811184732.5A priority Critical patent/CN109409362A/zh
Publication of CN109409362A publication Critical patent/CN109409362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种基于tesseract引擎的图片敏感词检测和定位方法和装置,涉及计算机的技术领域,包括获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;在敏感词检测结果页面中定位所述图片敏感词,本发明缓解了现有技术无法检测出图片形式的敏感词的技术问题。

Description

基于tesseract引擎的图片敏感词检测和定位方法和装置
技术领域
本发明涉及计算机的技术领域,尤其是涉及一种基于tesseract引擎的图片敏感词检测和定位方法和装置。
背景技术
随着互联网技术的快速发展,前端技术的不断更新换代,越来越多的网站在新建下属网页中会出现一些敏感词。目前虽然已经存在敏感词扫描,并且能够检测和定位出符合敏感词库的敏感词,但是当前敏感词扫描只能检测出文本形式的敏感词,无法检测出图片形式的敏感词,导致可能存在敏感词网站的漏扫的情况。
发明内容
有鉴于此,本发明的目的在于提供一种基于tesseract引擎的图片敏感词检测和定位方法和装置,以缓解现有技术无法检测出图片形式的敏感词的技术问题。
第一方面,本发明实施例提供了一种基于tesseract引擎的图片敏感词检测和定位方法,包括:获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;在所述敏感词检测结果页面中定位所述图片敏感词。
进一步地,对所述原始图片数据进行处理,得到目标图片数据包括:将所述原始图片数据写入第一String对象;通过预设正则表达式获取所述第一String对象中img标签的src属性所对应的属性值,并将所述属性值写入第二String对象;若所述img标签中的数值是http形式的目标URL,则将所述img标签中的数值写入所述第二String对象,得到第三String对象;若所述img标签是base64编码数据,则将所述base64编码数据转换为图片数据;结合所述第三String对象和所述图片数据确定所述目标数据。
进一步地,结合所述第三String对象和所述图片数据确定所述目标数据包括:基于所述第三String对象中的URL下载图片;将下载得到的图片和所述图片数据确定为所述目标数据。
进一步地,利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据包括:利用所述tesseract引擎对所述目标图片数据进行区分,得到所述目标图片数据中的文本数据;利用字符之间的间隔对所述目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,所述第一组字符中不包含黏连字符,所述第二组字符中包含黏连字符;对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据。
进一步地,对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据包括:将所述第一组字符和所述第二组字符与字符数据库进行匹配,以从所述第一组字符和所述第二组字符中识别到与所述字符数据库相匹配的目标字符;对所述第一组字符和所述第二组字符进行分割处理,得到分割处理之后的目标字符;将所述目标字符与敏感字符库进行匹配,从而得到所述图片敏感词的文本数据。
进一步地,在敏感词检测结果页面中定位所述图片敏感词包括:通过目标算法定义所述图片敏感词和所述第一String对象中的原始图片数据,其中,所述目标算法为在敏感词检测结果页面中定位所述图片敏感词的位置;将通过所述目标算法定义之后的所述图片敏感词和通过所述目标算法定义之后的所述第一String对象和合并数据替换为所述述第一String对象中的数据,得到第四String对象;对所述第四String对象中的文本数据进行分词处理,得到分词结果;将所述分词结果和敏感字符库进行匹配,得到相匹配的数据;在所述目标网页中确定所述相匹配的数据所处的图片;若所述所处的图片未被标记过,则通过所述相匹配的数据对所述所处的图片进行标记。
第一方面,本发明实施例提供了一种基于tesseract引擎的图片敏感词检测和定位装置,包括:获取和处理单元,用于获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;匹配单元,用于利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;定位单元,用于在敏感词检测结果页面中定位所述图片敏感词。
进一步地,获取和处理单元,包括:第一写入模块,用于将所述原始图片数据写入第一String对象;获取模块,用于通过预设正则表达式获取所述第一String对象中img标签的src属性所对应的属性值,并将所述属性值写入第二String对象;第二写入模块,用于若所述img标签中的数值是http形式的目标URL,则将所述img标签中的数值写入所述第二String对象,得到第三String对象;转换模块,用于若所述img标签是base64编码数据,则将所述base64编码数据转换为图片数据;确定模块,用于结合所述第三String对象和所述图片数据确定所述目标数据。
进一步地,所述确定模块用于:基于所述第三String对象中的URL下载图片;将下载得到的图片和所述图片数据确定为所述目标数据。
进一步地,所述匹配单元用于:利用所述tesseract引擎对所述目标图片数据进行区分,得到所述目标图片数据中的文本数据;利用字符之间的间隔对所述目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,所述第一组字符中不包含黏连字符,所述第二组字符中包含黏连字符;对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据。
在本发明实施例中,首先获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标图片数据;之后,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据,最后,在敏感词检测结果页面中定位图片敏感词。通过上述处理方式,解决了图片形式的敏感词无法检测的技术问题,并且图片形式敏感词还可以和已存在的文本形式敏感词扫描进行结合;最后能够在结果中把文字形式和图片形式的敏感词标红显示出来。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于tesseract引擎的图片敏感词检测和定位方法的流程图;
图2是根据本发明实施例的第一种可选地基于tesseract引擎的图片敏感词检测和定位方法的流程图;
图3是根据本发明实施例的第二种可选地基于tesseract引擎的图片敏感词检测和定位方法的流程图;
图4是根据本发明实施例的第三种可选地基于tesseract引擎的图片敏感词检测和定位方法的流程图;
图5是根据本发明实施例的一种基于tesseract引擎的图片敏感词检测和定位装置的示意图;
图6是根据本发明实施例的一种计算机的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种基于tesseract引擎的图片敏感词检测和定位方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种基于tesseract引擎的图片敏感词检测和定位方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标图片数据;
步骤S104,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据;
步骤S106,在敏感词检测结果页面中定位图片敏感词。
在本发明实施例中,首先获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标图片数据;之后,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据,最后,在敏感词检测结果页面中定位图片敏感词。通过上述处理方式,解决了图片形式的敏感词无法检测的技术问题,并且图片形式敏感词还可以和已存在的文本形式敏感词扫描进行结合;最后能够在结果中把文字形式和图片形式的敏感词标红显示出来。
通过上述描述可知,在本实施例中,首先,获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标数据。
在一个可选的实施方式中,如图2所示,获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标数据包括:
步骤S201,获取目标网页的原始图片数据;与步骤S102相同;
步骤S202,将原始图片数据写入第一String对象;
步骤S203,通过预设正则表达式获取第一String对象中img标签的src属性所对应的属性值,并将属性值写入第二String对象;
步骤S2041,若img标签中的数值是http形式的目标URL,则将img标签中的数值写入第二String对象,得到第三String对象;
步骤S205,若img标签是base64编码数据,则将base64编码数据转换为图片数据;
步骤S206,结合第三String对象和图片数据确定目标数据。
具体地,可以使用爬虫开始爬取目标页面(也即,指定URL)的html的原始图片数据,并将爬取到的原始图片数据放到一个string对象里面,这里假设命名为stringA(即,第一String对象)。
之后,利用预设正则表达式获取stringA中<img>标签src属性的数值,并将该数值写入stringB中(即,第二String对象)。由于<img>标签中的数值会存在两种情况,一种是直接http形式的URL,另一种是base64编码。
基于此,在本实施例中,首先要判断<img>标签中的数值是否为base64编码。如果不是base64编码的数值,就把这个数值重新写回stringB中(即,第二String对象),去代替上面那个原始stringB的数值,从而得到第三String对象。若是base64编码的数值,则将该是base64编码的数值转换为图片数据之后,存储在临时文件夹中。最后,就可以结合第三String对象和图片数据确定目标图片数据。
在另一个可选的实施方式中,如图3所示,步骤S206,结合第三String对象和图片数据确定目标数据包括如下步骤:
步骤S301,基于第三String对象中的URL下载图片;
步骤S302,将下载得到的图片和图片数据确定为目标图片数据;
步骤S303,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据;步骤S303与步骤S104相同;
步骤S304,将图片敏感词的文本数据写入StringC对象中。
具体地,在本实施例中,从stringB数值中的URL下载图片,然后将下载得到的图片和临时文件夹中的图片数据作为目标图片数据。之后,就可以利用tesseract引擎在目标图片数据中匹配图片敏感词。Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition,光学字符识别)引擎。OCR(Optical CharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
最后,在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据。
在另一个可选的实施方式中,如图4所示,步骤S106,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据包括如下步骤:
步骤S401,利用tesseract引擎对目标图片数据进行区分,得到目标图片数据中的文本数据;
步骤S402,利用字符之间的间隔对目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,第一组字符中不包含黏连字符,第二组字符中包含黏连字符;
步骤S403,对第一组字符和第二组字符进行图片敏感词匹配,得到图片敏感词的文本数据。
可选地,步骤S403,对第一组字符和第二组字符进行图片敏感词匹配,得到图片敏感词的文本数据包括:
步骤S4031,将第一组字符和第二组字符与字符数据库进行匹配,以从第一组字符和第二组字符中识别到与字符数据库相匹配的目标字符;
步骤S4032,对第一组字符和第二组字符进行分割处理,得到分割处理之后的目标字符;
步骤S4033,将目标字符与敏感字符库进行匹配,从而得到图片敏感词的文本数据。
具体地,在本实施例中,利用Tesseract引擎对目标图片数据中的内容都进行了区分,分成了表格数据、文本数据、图片数据等。然后,利用字符之间的间隔对目标图片数据进行粗略的分割,得到了第一组字符和第二组字符,其中,第一组字符又可以称为大部分的字符,第二组字符又可以称为黏连字符和错误分割字符。然后通过字符区域类型判别,将得到的字符(即,第一组字符和第二组字符)和字符数据库进行匹配,以从第一组字符和第二组字符中识别到与字符数据库相匹配的目标字符。在识别得到目标字符之后,就可以对第一组字符和第二组字符再次进行粘连字符的分割,同一时间内把错误分割的字符合并,完成字符的精细切割。然后,将第二次分割结果和字符数据库进行比较得出识别出来的字符,然后把匹配到的图片敏感词以文本的形式输出。
在另一个可选的实施方式中,步骤S106,在目标网页中标注图片敏感词包括:
步骤S1061,通过目标算法定义图片敏感词和第一String对象中的原始图片数据,其中,目标算法为在敏感词检测结果页面中定位图片敏感词的位置;
步骤S1062,将通过目标算法定义之后的图片敏感词和通过目标算法定义之后的第一String对象和合并数据替换为述第一String对象中的数据,得到第四String对象;
步骤S1063,对第四String对象中的文本数据进行分词处理,得到分词结果;
步骤S1064,将分词结果和敏感字符库进行匹配,得到相匹配的数据;
步骤S1065,在目标网页中确定相匹配的数据所处的图片;
步骤S1066,若所处的图片未被标记过,则通过相匹配的数据对所处的图片进行标记。
具体地,在本实施例中,自定义一种stringC=“{$xxxxxxxx$}”的算法,即目标算法。其中,“xxxx”就是通过Tesseract匹配出来的图片敏感词。
首先,通过目标算法定义图片敏感词和stringA中的原始图片数据。得到{$xxxxxxxx$}的数据。之后,重新对stringA赋值,使得stringA=stringA+stringC。最终得到的数据为以下形式的数据:stringA={$xxx$}+{$xxxxxxxx$}。其中,stringA={$xxx$}+{$xxxxxxxx$}中的stringA即为上述第四String对象。之后,对stringA中的文本数据使用分词器先进行分词,把分词出来的文本和敏感字符库作比较,取得他们的交集(即,相匹配的数据)。然后,把交集的文字在敏感词检测结果页面中标红定位出来。其中,{$$}算法是用来定位图片敏感词位置的。
在标注相匹配的数据时,需要先在敏感词检测结果页面中确定相匹配的数据所处的图片,若该图片未被标记过,则通过相匹配的数据对该图片进行标记。具体地,可以通过判断{$$}中status的数值来判读该图片是被已经被定位过。其中,1代表该图片已经被标红,0代表该图片还没有被定位或者不存在敏感词。
通过上述描述可知,在本实施例中,通过上述处理方式,解决了图片形式的敏感词无法检测的技术问题,并且图片形式敏感词还可以和已存在的文本形式敏感词扫描进行结合;最后能够在结果中把文字形式和图片形式的敏感词标红显示出来。
本发明所提供的方法具有以下优点:
1、图片形式敏感词检测和定位的方法可以在现有的检测业务上进行开发,减少了开发的成本。
2、避免了产品只能检测单一文本形式敏感词的情况,我们的业务还能增加对图片形式敏感词的定位,能够增加我们产品的竞争能力。
3、可以减少我们产品对网站敏感词的漏扫、误扫的概率。
实施例二:
本发明实施例还提供了一种基于tesseract引擎的图片敏感词检测和定位装置,该基于tesseract引擎的图片敏感词检测和定位装置主要用于执行本发明实施例上述内容所提供的基于tesseract引擎的图片敏感词检测和定位方法,以下对本发明实施例提供的基于tesseract引擎的图片敏感词检测和定位装置做具体介绍。
图5是根据本发明实施例的一种基于tesseract引擎的图片敏感词检测和定位装置的示意图,如图5所示,该基于tesseract引擎的图片敏感词检测和定位装置主要包括获取和处理单元10,匹配单元20和定位单元30,其中:
获取和处理单元10,用于获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;
匹配单元20,用于利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;
定位单元30,用于在所述敏感词检测结果页面中定位所述图片敏感词。
在本发明实施例中,首先获取目标网页的原始图片数据,并对原始图片数据进行处理,得到目标图片数据;之后,利用tesseract引擎在目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含图片敏感词的文本数据,最后,在敏感词检测结果页面中定位图片敏感词。通过上述处理方式,解决了图片形式的敏感词无法检测的技术问题,并且图片形式敏感词还可以和已存在的文本形式敏感词扫描进行结合;最后能够在结果中把文字形式和图片形式的敏感词标红显示出来。
可选地,获取和处理单元,包括:第一写入模块,用于将所述原始图片数据写入第一String对象;获取模块,用于通过预设正则表达式获取所述第一String对象中img标签的src属性所对应的属性值,并将所述属性值写入第二String对象;第二写入模块,用于若所述img标签中的数值是http形式的目标URL,则将所述img标签中的数值写入所述第二String对象,得到第三String对象;转换模块,用于若所述img标签是base64编码数据,则将所述base64编码数据转换为图片数据;确定模块,用于结合所述第三String对象和所述图片数据确定所述目标数据。
可选地,所述确定模块用于:基于所述第三String对象中的URL下载图片;将下载得到的图片和所述图片数据确定为所述目标数据。
可选地,所述匹配单元用于:利用所述tesseract引擎对所述目标图片数据进行区分,得到所述目标图片数据中的文本数据;利用字符之间的间隔对所述目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,所述第一组字符中不包含黏连字符,所述第二组字符中包含黏连字符;对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据。
可选地,匹配单元还用于:将所述第一组字符和所述第二组字符与字符数据库进行匹配,以从所述第一组字符和所述第二组字符中识别到与所述字符数据库相匹配的目标字符;对所述第一组字符和所述第二组字符进行分割处理,得到分割处理之后的目标字符;将所述目标字符与敏感字符库进行匹配,从而得到所述图片敏感词的文本数据。
可选地,定位单元用于:通过目标算法定义所述图片敏感词和所述第一String对象中的原始图片数据,其中,所述目标算法为在敏感词检测结果页面中定位所述图片敏感词的位置;将通过所述目标算法定义之后的所述图片敏感词和通过所述目标算法定义之后的所述第一String对象和合并数据替换为所述述第一String对象中的数据,得到第四String对象;对所述第四String对象中的文本数据进行分词处理,得到分词结果;将所述分词结果和敏感字符库进行匹配,得到相匹配的数据;在所述敏感词检测结果页面中确定所述相匹配的数据所处的图片;若所述所处的图片未被标记过,则通过所述相匹配的数据对所述所处的图片进行标记。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
参见图6,本发明实施例还提供一种计算机100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序601,所述处理器60在接收到执行指令后,执行所述程序601,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于tesseract引擎的图片敏感词检测和定位方法,其特征在于,包括:
获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;
利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;
在敏感词检测结果页面中定位所述图片敏感词。
2.根据权利要求1所述的方法,其特征在于,对所述原始图片数据进行处理,得到目标图片数据包括:
将所述原始图片数据写入第一String对象;
通过预设正则表达式获取所述第一String对象中img标签的src属性所对应的属性值,并将所述属性值写入第二String对象;
若所述img标签中的数值是http形式的目标URL,则将所述img标签中的数值写入所述第二String对象,得到第三String对象;
若所述img标签是base64编码数据,则将所述base64编码数据转换为图片数据;
结合所述第三String对象和所述图片数据确定所述目标图片数据。
3.根据权利要求2所述的方法,其特征在于,结合所述第三String对象和所述图片数据确定所述目标数据包括:
基于所述第三String对象中的URL下载图片;
将下载得到的图片和所述图片数据确定为所述目标数据。
4.根据权利要求1所述的方法,其特征在于,利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据包括:
利用所述tesseract引擎对所述目标图片数据进行区分,得到所述目标图片数据中的文本数据;
利用字符之间的间隔对所述目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,所述第一组字符中不包含黏连字符,所述第二组字符中包含黏连字符;
对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据。
5.根据权利要求4所述的方法,其特征在于,对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据包括:
将所述第一组字符和所述第二组字符与字符数据库进行匹配,以从所述第一组字符和所述第二组字符中识别到与所述字符数据库相匹配的目标字符;
对所述第一组字符和所述第二组字符进行分割处理,得到分割处理之后的目标字符;
将所述目标字符与敏感字符库进行匹配,从而得到所述图片敏感词的文本数据。
6.根据权利要求2所述的方法,其特征在于,在敏感词检测结果页面中定位所述图片敏感词包括:
通过目标算法定义所述图片敏感词和所述第一String对象中的原始图片数据,其中,所述目标算法为在敏感词检测结果页面中定位所述图片敏感词的位置;
将通过所述目标算法定义之后的所述图片敏感词和通过所述目标算法定义之后的所述第一String对象和合并数据替换为所述述第一String对象中的数据,得到第四String对象;
对所述第四String对象中的文本数据进行分词处理,得到分词结果;
将所述分词结果和敏感字符库进行匹配,得到相匹配的数据;
在所述目标网页中确定所述相匹配的数据所处的图片;
若所述所处的图片未被标记过,则通过所述相匹配的数据对所述所处的图片进行标记。
7.一种基于tesseract引擎的图片敏感词检测和定位装置,其特征在于,包括:
获取和处理单元,用于获取目标网页的原始图片数据,并对所述原始图片数据进行处理,得到目标图片数据;
匹配单元,用于利用tesseract引擎在所述目标图片数据中匹配图片敏感词,并在匹配到图片敏感词的情况下,输出包含所述图片敏感词的文本数据;
定位单元,用于在敏感词检测结果页面中定位所述图片敏感词。
8.根据权利要求7所述的装置,其特征在于,获取和处理单元,包括:
第一写入模块,用于将所述原始图片数据写入第一String对象;
获取模块,用于通过预设正则表达式获取所述第一String对象中img标签的src属性所对应的属性值,并将所述属性值写入第二String对象;
第二写入模块,用于若所述img标签中的数值是http形式的目标URL,则将所述img标签中的数值写入所述第二String对象,得到第三String对象;
转换模块,用于若所述img标签是base64编码数据,则将所述base64编码数据转换为图片数据;
确定模块,用于结合所述第三String对象和所述图片数据确定所述目标数据。
9.根据权利要求8所述的装置,其特征在于,所述确定模块用于:
基于所述第三String对象中的URL下载图片;
将下载得到的图片和所述图片数据确定为所述目标数据。
10.根据权利要求7所述的装置,其特征在于,所述匹配单元用于:
利用所述tesseract引擎对所述目标图片数据进行区分,得到所述目标图片数据中的文本数据;
利用字符之间的间隔对所述目标图片数据中的文本数据进行分割,得到第一组字符和第二组字符,其中,所述第一组字符中不包含黏连字符,所述第二组字符中包含黏连字符;
对所述第一组字符和所述第二组字符进行图片敏感词匹配,得到所述图片敏感词的文本数据。
CN201811184732.5A 2018-10-11 2018-10-11 基于tesseract引擎的图片敏感词检测和定位方法和装置 Pending CN109409362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811184732.5A CN109409362A (zh) 2018-10-11 2018-10-11 基于tesseract引擎的图片敏感词检测和定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811184732.5A CN109409362A (zh) 2018-10-11 2018-10-11 基于tesseract引擎的图片敏感词检测和定位方法和装置

Publications (1)

Publication Number Publication Date
CN109409362A true CN109409362A (zh) 2019-03-01

Family

ID=65467619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811184732.5A Pending CN109409362A (zh) 2018-10-11 2018-10-11 基于tesseract引擎的图片敏感词检测和定位方法和装置

Country Status (1)

Country Link
CN (1) CN109409362A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120898A (zh) * 2019-04-23 2019-08-13 杭州安恒信息技术股份有限公司 远程网页资源变更监测及有害性检测识别方法
CN110188649A (zh) * 2019-05-23 2019-08-30 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN106127202A (zh) * 2016-06-21 2016-11-16 福建富士通信息软件有限公司 一种图片中字符识别的方法以及装置
CN107862312A (zh) * 2017-11-22 2018-03-30 朱秋华 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质
CN108269116A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全监测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN106127202A (zh) * 2016-06-21 2016-11-16 福建富士通信息软件有限公司 一种图片中字符识别的方法以及装置
CN108269116A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全监测方法和装置
CN107862312A (zh) * 2017-11-22 2018-03-30 朱秋华 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KNXW0001: "html img Src base64 图片显示", 《HTTPS://BLOG.CSDN.NET/KNXW0001/ARTICLE/DETAILS/10983605》 *
张扬: "基于Tesseract光学字符辨识应用的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120898A (zh) * 2019-04-23 2019-08-13 杭州安恒信息技术股份有限公司 远程网页资源变更监测及有害性检测识别方法
CN110188649A (zh) * 2019-05-23 2019-08-30 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法
CN110188649B (zh) * 2019-05-23 2021-11-23 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法

Similar Documents

Publication Publication Date Title
US11886799B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
JP6244892B2 (ja) 文書内の文字の局所的な拡大縮小、回転および表示位置に対して不変である光学的文字認識のためのワード検出
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US10296552B1 (en) System and method for automated identification of internet advertising and creating rules for blocking of internet advertising
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
US20140321751A1 (en) Character input apparatus and method
CN107391675A (zh) 用于生成结构化信息的方法和装置
EP2884425B1 (en) Method and system of extracting structured data from a document
CN111985202A (zh) 基于模板生成pdf电子签章的方法、设备及存储介质
US20230084845A1 (en) Entry detection and recognition for custom forms
RU2605078C2 (ru) Сегментация изображения для верификации данных
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
JP2021043775A (ja) 情報処理装置及びプログラム
CN111562911B (zh) 一种网页编辑方法、装置及存储介质
CN109409362A (zh) 基于tesseract引擎的图片敏感词检测和定位方法和装置
CN114241501A (zh) 影像文档处理方法、装置及电子设备
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN110245308B (zh) 图像提取方法、装置及终端设备
CN112230989A (zh) 网页频道导航栏提取方法、系统、电子设备及存储介质
CN112418681B (zh) 产业发展的分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301