CN112784192A - 一种清洗页面正文内容中被植入广告的方法 - Google Patents

一种清洗页面正文内容中被植入广告的方法 Download PDF

Info

Publication number
CN112784192A
CN112784192A CN202110086938.XA CN202110086938A CN112784192A CN 112784192 A CN112784192 A CN 112784192A CN 202110086938 A CN202110086938 A CN 202110086938A CN 112784192 A CN112784192 A CN 112784192A
Authority
CN
China
Prior art keywords
text
advertisement
picture
current
white list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110086938.XA
Other languages
English (en)
Other versions
CN112784192B (zh
Inventor
朱海峰
颜小君
蒋伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wande Information Technology Co ltd
Original Assignee
Nanjing Wande Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wande Information Technology Co ltd filed Critical Nanjing Wande Information Technology Co ltd
Priority to CN202110086938.XA priority Critical patent/CN112784192B/zh
Publication of CN112784192A publication Critical patent/CN112784192A/zh
Application granted granted Critical
Publication of CN112784192B publication Critical patent/CN112784192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种清洗页面正文内容中被植入广告的方法。本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗,能够广泛适用不同页面、复杂背景的广告图片清洗。本发明提出的基于OCR与NLP的技术方案具备较高的普适性与准确率,具有如下优点:随着人工智能技术的不断发展,目前基于深度学习的通用印刷体识别准确率可达99%以上,能够较为准确的提取图片的文字信息;通过实体识别与预设白名单,能够保留在白名单中的广告,实现广告定制化。

Description

一种清洗页面正文内容中被植入广告的方法
技术领域
本发明涉及一种清洗页面正文内容广告的方法,属于互联网技术领域。
背景技术
随着信息技术与互联网技术的发展,互联网取代传统的纸质传媒成为人们获取信息的主要媒介。互联网信息传播带来便利的同时,带来了两大问题:1)网络中的信息组织类型多样且杂乱,无法满足人们高效的获取信息的需求;2)内容正文往往充斥着各类广告,极大影响用户的阅读体验,并且一些虚假广告、诈骗广告给用户带来经济损失。
目前去除页面广告主要有以下几个方法:
1)基于url规则列表。通过判断请求的url是否在规则列表中,来进行广告屏蔽。该方法需要不断维护规则列表,否则漏报情况较大,人力人本大,并且该方法对于不含url的广告图片不具备过滤效果。
2)诸如公开为CN 108614849 A、名称为《一种基于动态插桩和静态多脚本页特征提取的网页广告检测方法》发明专利申请之类的技术方案,对JavaScript脚本文件、CSS等进行抽取特征,随后基于训练的广告代码检测模型来进行判别。该方法涉及到多JavaScript脚本文件多层次的特征抽取效率较低。并且其分类精度受到检测模型训练样本量级,效果有待提升。
3)诸如公开为CN 110489636 A、名称为《一种基于代码分析与图像处理的网页广告屏蔽方法》发明专利申请之类的技术方案,结合网页分析技术与图像处理技术对页面广告进行清洗。该方法对经过canny算法处理后的二值化图片进行HOG特征的提取,随后采用SVM进行分类。通过对图像中是否存在广告标识,来决定是否对图像进行屏蔽。该方法涉及规则较多,且对背景复杂的广告图片屏蔽效果较差,普适性不高。
发明内容
本发明要解决的技术问题是:现有页面广告清洗方法普适性低、维护成本高。
为了解决上述技术问题,本发明的技术方案是提供了一种清洗页面正文内容中被植入广告的方法,其特征在于,包括以下步骤:
步骤1:抓取当前网页所显示的所有图片,采用训练好的DBNet文本检测模型对每张图片中的文本位置进行定位,获得每张图片所包含的所有文本框及每个文本框在当前图片上的坐标信息;
步骤2:采用训练好的CRNN文字识别模型获得当前网页所显示的每张图片所对应的文本;
对于任意一张图片而言,采用训练好的CRNN文字识别模型识别当前图片中每个文本框的文本信息,依据步骤1获得的每个文本框对应的坐标信息将识别得到的所有文本框的文本信息合并为一条文本,该条文本即为当前图片所对应的文本;
步骤3:利用广告词典对每张图片所对应的文本进行基于规则的初筛,广告词典由预先挑选出的高频广告词构成,包括以下内容:
采用全模式对步骤2获得的任意一张图片所对应的文本进行分词处理,若得到的所有词中存在大于等于两个词在广告词典中,则将当前文本判别为广告,否则将当前文本判别为非广告;
若当前文本被判别为广告,且预先设置了广告白名单,则进入步骤5;若当前文本被判别为广告,但未预先设置广告白名单,则进入步骤6;
若当前文本判别为非广告,进入步骤4,进行基于模型的广告判别;
步骤4:文本分类,具体包括以下步骤:
步骤401:从预设token-map字典中找到组成当前文本所有字对应的索引,通过该操作将一句含有n个字的句子转变为长度为n的文本向量,完成字符到数值的转变;
步骤402:设置最长字符数,将步骤401获得的文本向量扩展至N维,N为最长字符数:对于维度小于N的文本向量做补零处理;对于维度大于N的文本向量,进行截断处理;
步骤403:将步骤402处理得到的文本向量带入到已经训练完成的二分类模型中进行分类;若得到的分类结果不为广告,则保留当前图片;若得到的分类结果为广告且未设置广告白名单,则进入步骤6;若得到的分类结果为广告且预先设置了广告白名单,则进入步骤5;
步骤5:实体识别,具体包括以下步骤:
步骤501:通过token-map字典将步骤2得到的文本转变为N维的文本信息向量;
步骤502:将文本信息向量送入到训练好的实体分类模型中进行识别,从而获得文本中每一个字的标签,标签有三类:第一类为表示实体开始的标签、第二类为表示实体中间的标签、第三类为表示实体结尾的标签;
步骤503:对得到的标签进行解码,获得文本中的所有实体;
若识别出的实体存在于广告白名单中,则保留当前图片;若广告白名单中没有识别出的实体,则进入步骤6;
步骤6:对当前图片进行屏蔽处理。
优选地,所述步骤1包括以下步骤:
步骤101:将抓取的图片转换为统一格式;
步骤102:在不改变宽高比的条件下,调节格式转换后的图片大小;
步骤103:对步骤102得到的图片进行归一化处理,获得图片矩阵;
步骤104:将图片矩阵送入到训练好的DBNet文本检测模型中获得所有文本位置的概率图;
步骤105:对概率图进行二值化处理,随后找出二值图中的连通域,并求该连通域的最小外接矩形,每个最小外接矩形对应一个文本框,进而获得当前图片的所有文本框及每个文本框在当前图片上的坐标信息。
优选地,所述步骤2中,识别当前图片中任意文本框的文本信息具体包括以下步骤:
步骤201:在不改变宽高比的情况下调整文本框的尺寸;
步骤202:对步骤201得到的文本框进行归一处理,得到文本框矩阵;
步骤203:将文本框矩阵送入到训练好的CRNN文字识别模型中进行识别,获取当前文本框的文本信息。
优选地,所述步骤103中,进行归一化处理时,将步骤102得到的图片各通道的像素除以255.0,以完成归一化处理;
所述步骤202中,进行归一化处理时,将步骤201得到的文本框各通道的像素除以255.0,以完成归一化处理。
本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗,能够广泛适用不同页面、复杂背景的广告图片清洗。
传统基于url规则过滤的广告过滤手段受限于url的频繁更新,需要实时维护url库。基于JavaScript脚本与css多层次抽取特征结合机器学习算法(SVM)的方案受限于训练数据的获取、特征工程的繁杂。基于网页分析与图像处理的方案受限于页面的简洁与存在广告水印。相较之下,本发明提出的基于OCR与NLP的技术方案具备较高的普适性与准确率,具有如下优点:
1)随着人工智能技术的不断发展,目前基于深度学习的通用印刷体识别准确率可达99%以上,能够较为准确的提取图片的文字信息。
2)通过基于深度学习的NLP技术,将页面是否存在广告转变为对文字信息的二分类问题。根据实践,在104量级的训练语料,准确率与召回率已达95%。
3)通过实体识别与预设白名单,能够保留在白名单中的广告,实现广告定制化。
4)广告字典的初筛方案能够有效的提高广告清洗的效率,在实践中,仅OCR+基于广告字典的初筛方案就能过滤70%的情况。
附图说明
图1为本发明技术方案流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,本发明提供的清洗页面正文内容中被植入广告的方法具体包括以下步骤:
步骤1:抓取当前网页所显示的所有图片,对每张图片中的文本位置进行定位,获得每张图片所包含的所有文本框。具体包括以下步骤:
步骤101:将抓取的图片转换为统一格式。本实施例中,将抓取的图片转换为RGB格式。
步骤102:在不改变宽高比的条件下,调节格式转换后的图片大小。本实施例中,将图片的短边尺寸固定调节为768mm,其短边尺寸按照原图片的宽高比调节至相应尺寸。
步骤103:对步骤102得到的图片进行归一化处理,获得图片矩阵。本实施例中,采用以下步骤进行归一化处理:将步骤102得到的图片各通道的像素除以255.0,以完成归一化处理。
步骤104:将图片矩阵送入到训练好的DBNet文本检测模型中获得所有文本位置的概率图。
步骤105:对概率图进行二值化处理,二值化阈值设定为0.3,随后找出二值图中的连通域,并求该连通域的最小外接矩形,每个最小外接矩形对应一个文本框,进而获得当前图片的所有文本框及每个文本框在当前图片上的坐标信息。
步骤2:获得当前网页所显示的每张图片所对应的文本。对于任意一张图片而言,识别当前图片中每个文本框的文本信息,依据步骤1获得的每个文本框对应的坐标信息将识别得到的所有文本框的文本信息合并为一条文本,该条文本即为当前图片所对应的文本。
其中,识别当前图片中任意文本框的文本信息具体包括以下步骤:
步骤201:在不改变宽高比的情况下调整文本框的尺寸。本实施例中,将文本框的高度拓展或缩小到32个像素,其宽度按照原文本框的宽高比调节至相应尺寸。
步骤202:对步骤201得到的文本框进行归一处理,得到文本框矩阵。本实施例中,采用以下步骤进行归一化处理:将步骤201得到的文本框各通道的像素除以255.0,以完成归一化处理。
步骤203:将文本框矩阵送入到训练好的CRNN文字识别模型中进行识别,获取当前文本框的文本信息。
步骤3:利用广告词典对每张图片所对应的文本进行基于规则的初筛。本实施例中,广告词典由预先挑选出的高频广告词构成,如“广告”、“立即体验”、“注册送”、“邀请好友送”、“注册领”等。广告词典基于广告词条的词频统计结合人工筛选进行构建。
采用全模式对步骤2获得的任意一张图片所对应的文本进行分词处理,若得到的所有词中存在大于等于两个词在广告词典中,则将当前文本判别为广告。进一步地,若当前文本被判别为广告,且预先设置了广告白名单,则进入步骤5;若当前文本被判别为广告,但未预先设置广告白名单,则进入步骤6。
采用全模式对步骤2得到的文本进行分词处理后,若得到的所有词中与广告词典中高频广告词相匹配的词的个数小于两个,则将当前文本判别为非广告,进入步骤4,进行基于模型的广告判别。
步骤4:文本分类,具体包括以下步骤:
步骤401:从预设token-map字典中找到组成当前文本所有字对应的索引,通过该操作将一句含有n个字的句子转变为长度为n的文本向量,完成字符到数值的转变。
步骤402:基于预先的统计,图片中广告文本基本不会超过128个字,因此将最长字符数设置为128。将步骤401获得的文本向量扩展至128维:对于维度小于128的文本向量做补零处理;对于维度大于128的文本向量,进行截断处理。
步骤403:将步骤402处理得到的文本向量带入到已经训练完成的二分类模型中进行分类。若得到的分类结果不为广告,则保留当前图片;若得到的分类结果为广告且未设置广告白名单,则进入步骤6,若得到的分类结果为广告且预先设置了广告白名单,则进入步骤5。
步骤5:实体识别,具体包括以下步骤:
步骤501:通过token-map字典将步骤2得到的文本转变为128维的文本信息向量。
步骤502:将文本信息向量送入到训练好的实体分类模型中进行识别,从而获得文本中每一个字的标签,标签有三类:第一类——实体的开始、第二类——实体的中间、第三类——实体的结尾。
步骤503:对得到的标签进行解码,获得文本中的所有实体。若识别出的实体存在于广告白名单中,则保留当前图片;若广告白名单中没有识别出的实体,则进入步骤6。
步骤6:对当前图片进行屏蔽处理。

Claims (4)

1.一种清洗页面正文内容中被植入广告的方法,其特征在于,包括以下步骤:
步骤1:抓取当前网页所显示的所有图片,采用训练好的DBNet文本检测模型对每张图片中的文本位置进行定位,获得每张图片所包含的所有文本框及每个文本框在当前图片上的坐标信息;
步骤2:采用训练好的CRNN文字识别模型获得当前网页所显示的每张图片所对应的文本;
对于任意一张图片而言,采用训练好的CRNN文字识别模型识别当前图片中每个文本框的文本信息,依据步骤1获得的每个文本框对应的坐标信息将识别得到的所有文本框的文本信息合并为一条文本,该条文本即为当前图片所对应的文本;
步骤3:利用广告词典对每张图片所对应的文本进行基于规则的初筛,广告词典由预先挑选出的高频广告词构成,包括以下内容:
采用全模式对步骤2获得的任意一张图片所对应的文本进行分词处理,若得到的所有词中存在大于等于两个词在广告词典中,则将当前文本判别为广告,否则将当前文本判别为非广告;
若当前文本被判别为广告,且预先设置了广告白名单,则进入步骤5;若当前文本被判别为广告,但未预先设置广告白名单,则进入步骤6;
若当前文本判别为非广告,进入步骤4,进行基于模型的广告判别;
步骤4:文本分类,具体包括以下步骤:
步骤401:从预设token-map字典中找到组成当前文本所有字对应的索引,通过该操作将一句含有n个字的句子转变为长度为n的文本向量,完成字符到数值的转变;
步骤402:设置最长字符数,将步骤401获得的文本向量扩展至N维,N为最长字符数:对于维度小于N的文本向量做补零处理;对于维度大于N的文本向量,进行截断处理;
步骤403:将步骤402处理得到的文本向量带入到已经训练完成的二分类模型中进行分类;若得到的分类结果不为广告,则保留当前图片;若得到的分类结果为广告且未设置广告白名单,则进入步骤6;若得到的分类结果为广告且预先设置了广告白名单,则进入步骤5;
步骤5:实体识别,具体包括以下步骤:
步骤501:通过token-map字典将步骤2得到的文本转变为N维的文本信息向量;
步骤502:将文本信息向量送入到训练好的实体分类模型中进行识别,从而获得文本中每一个字的标签,标签有三类:第一类为表示实体开始的标签、第二类为表示实体中间的标签、第三类为表示实体结尾的标签;
步骤503:对得到的标签进行解码,获得文本中的所有实体;
若识别出的实体存在于广告白名单中,则保留当前图片;若广告白名单中没有识别出的实体,则进入步骤6;
步骤6:对当前图片进行屏蔽处理。
2.如权利要求1所述的一种清洗页面正文内容中被植入广告的方法,其特征在于,所述步骤1包括以下步骤:
步骤101:将抓取的图片转换为统一格式;
步骤102:在不改变宽高比的条件下,调节格式转换后的图片大小;
步骤103:对步骤102得到的图片进行归一化处理,获得图片矩阵;
步骤104:将图片矩阵送入到训练好的DBNet文本检测模型中获得所有文本位置的概率图;
步骤105:对概率图进行二值化处理,随后找出二值图中的连通域,并求该连通域的最小外接矩形,每个最小外接矩形对应一个文本框,进而获得当前图片的所有文本框及每个文本框在当前图片上的坐标信息。
3.如权利要求2所述的一种清洗页面正文内容中被植入广告的方法,其特征在于,所述步骤2中,识别当前图片中任意文本框的文本信息具体包括以下步骤:
步骤201:在不改变宽高比的情况下调整文本框的尺寸;
步骤202:对步骤201得到的文本框进行归一处理,得到文本框矩阵;
步骤203:将文本框矩阵送入到训练好的CRNN文字识别模型中进行识别,获取当前文本框的文本信息。
4.如权利要求3所述的一种清洗页面正文内容中被植入广告的方法,其特征在于,所述步骤103中,进行归一化处理时,将步骤102得到的图片各通道的像素除以255.0,以完成归一化处理;
所述步骤202中,进行归一化处理时,将步骤201得到的文本框各通道的像素除以255.0,以完成归一化处理。
CN202110086938.XA 2021-01-22 2021-01-22 一种清洗页面正文内容中被植入广告的方法 Active CN112784192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086938.XA CN112784192B (zh) 2021-01-22 2021-01-22 一种清洗页面正文内容中被植入广告的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086938.XA CN112784192B (zh) 2021-01-22 2021-01-22 一种清洗页面正文内容中被植入广告的方法

Publications (2)

Publication Number Publication Date
CN112784192A true CN112784192A (zh) 2021-05-11
CN112784192B CN112784192B (zh) 2022-08-23

Family

ID=75758515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086938.XA Active CN112784192B (zh) 2021-01-22 2021-01-22 一种清洗页面正文内容中被植入广告的方法

Country Status (1)

Country Link
CN (1) CN112784192B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统
CN113705576A (zh) * 2021-11-01 2021-11-26 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备
CN114758216A (zh) * 2022-05-05 2022-07-15 北京容联易通信息技术有限公司 一种基于机器视觉的非法广告检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN112036406A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种图像文档的文本抽取方法、装置及电子设备
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN112036406A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种图像文档的文本抽取方法、装置及电子设备
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统
CN113705576A (zh) * 2021-11-01 2021-11-26 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备
CN114758216A (zh) * 2022-05-05 2022-07-15 北京容联易通信息技术有限公司 一种基于机器视觉的非法广告检测方法及系统
CN114758216B (zh) * 2022-05-05 2023-01-13 北京容联易通信息技术有限公司 一种基于机器视觉的非法广告检测方法及系统

Also Published As

Publication number Publication date
CN112784192B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN112784192B (zh) 一种清洗页面正文内容中被植入广告的方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
Gllavata et al. A robust algorithm for text detection in images
TWI631514B (zh) Method and system for marking recognition based on mobile terminal
Meier et al. Fully convolutional neural networks for newspaper article segmentation
Jo et al. Handwritten text segmentation via end-to-end learning of convolutional neural networks
CN113537227B (zh) 一种结构化文本识别方法及系统
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN112818951A (zh) 一种票证识别的方法
US20240161449A1 (en) Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks
Sahu et al. An efficient handwritten Devnagari character recognition system using neural network
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Kaundilya et al. Automated text extraction from images using OCR system
Kesiman et al. ICFHR 2018 competition on document image analysis tasks for southeast asian palm leaf manuscripts
CN112686263A (zh) 文字识别方法、装置、电子设备及存储介质
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Kavati et al. Signboard text translator: a guide to tourist
Kumar et al. Line based robust script identification for indianlanguages
CN115731550A (zh) 一种基于深度学习的药品说明书自动识别方法、系统及存储介质
CN113657279B (zh) 一种票据类图像版面解析方法及装置
CN114219514A (zh) 违法广告识别方法、装置和电子设备
Wu et al. An automatic video text detection method based on BP-adaboost
Bagadkar et al. Review on extraction techniques for images, textlines and keywords from document image
Nazemi et al. Mathematical information retrieval (MIR) from scanned pdf documents and MathML conversion
Ali et al. Urdu text in natural scene images: a new dataset and preliminary text detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant