CN112784192A

CN112784192A - 一种清洗页面正文内容中被植入广告的方法

Info

Publication number: CN112784192A
Application number: CN202110086938.XA
Authority: CN
Inventors: 朱海峰; 颜小君; 蒋伟伟
Original assignee: Nanjing Wande Information Technology Co ltd
Current assignee: Nanjing Wande Information Technology Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-11
Anticipated expiration: 2041-01-22
Also published as: CN112784192B

Abstract

本发明提供了一种清洗页面正文内容中被植入广告的方法。本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗，能够广泛适用不同页面、复杂背景的广告图片清洗。本发明提出的基于OCR与NLP的技术方案具备较高的普适性与准确率，具有如下优点：随着人工智能技术的不断发展，目前基于深度学习的通用印刷体识别准确率可达99％以上，能够较为准确的提取图片的文字信息；通过实体识别与预设白名单，能够保留在白名单中的广告，实现广告定制化。

Description

一种清洗页面正文内容中被植入广告的方法

技术领域

本发明涉及一种清洗页面正文内容广告的方法，属于互联网技术领域。

背景技术

随着信息技术与互联网技术的发展，互联网取代传统的纸质传媒成为人们获取信息的主要媒介。互联网信息传播带来便利的同时，带来了两大问题：1)网络中的信息组织类型多样且杂乱，无法满足人们高效的获取信息的需求；2)内容正文往往充斥着各类广告，极大影响用户的阅读体验，并且一些虚假广告、诈骗广告给用户带来经济损失。

目前去除页面广告主要有以下几个方法：

1)基于url规则列表。通过判断请求的url是否在规则列表中，来进行广告屏蔽。该方法需要不断维护规则列表，否则漏报情况较大，人力人本大，并且该方法对于不含url的广告图片不具备过滤效果。

2)诸如公开为CN 108614849 A、名称为《一种基于动态插桩和静态多脚本页特征提取的网页广告检测方法》发明专利申请之类的技术方案，对JavaScript脚本文件、CSS等进行抽取特征，随后基于训练的广告代码检测模型来进行判别。该方法涉及到多JavaScript脚本文件多层次的特征抽取效率较低。并且其分类精度受到检测模型训练样本量级，效果有待提升。

3)诸如公开为CN 110489636 A、名称为《一种基于代码分析与图像处理的网页广告屏蔽方法》发明专利申请之类的技术方案，结合网页分析技术与图像处理技术对页面广告进行清洗。该方法对经过canny算法处理后的二值化图片进行HOG特征的提取，随后采用SVM进行分类。通过对图像中是否存在广告标识，来决定是否对图像进行屏蔽。该方法涉及规则较多，且对背景复杂的广告图片屏蔽效果较差，普适性不高。

发明内容

本发明要解决的技术问题是：现有页面广告清洗方法普适性低、维护成本高。

为了解决上述技术问题，本发明的技术方案是提供了一种清洗页面正文内容中被植入广告的方法，其特征在于，包括以下步骤：

步骤1：抓取当前网页所显示的所有图片，采用训练好的DBNet文本检测模型对每张图片中的文本位置进行定位，获得每张图片所包含的所有文本框及每个文本框在当前图片上的坐标信息；

步骤2：采用训练好的CRNN文字识别模型获得当前网页所显示的每张图片所对应的文本；

对于任意一张图片而言，采用训练好的CRNN文字识别模型识别当前图片中每个文本框的文本信息，依据步骤1获得的每个文本框对应的坐标信息将识别得到的所有文本框的文本信息合并为一条文本，该条文本即为当前图片所对应的文本；

步骤3：利用广告词典对每张图片所对应的文本进行基于规则的初筛，广告词典由预先挑选出的高频广告词构成，包括以下内容：

采用全模式对步骤2获得的任意一张图片所对应的文本进行分词处理，若得到的所有词中存在大于等于两个词在广告词典中，则将当前文本判别为广告，否则将当前文本判别为非广告；

若当前文本被判别为广告，且预先设置了广告白名单，则进入步骤5；若当前文本被判别为广告，但未预先设置广告白名单，则进入步骤6；

若当前文本判别为非广告，进入步骤4，进行基于模型的广告判别；

步骤4：文本分类，具体包括以下步骤：

步骤401：从预设token-map字典中找到组成当前文本所有字对应的索引，通过该操作将一句含有n个字的句子转变为长度为n的文本向量，完成字符到数值的转变；

步骤402：设置最长字符数，将步骤401获得的文本向量扩展至N维，N为最长字符数：对于维度小于N的文本向量做补零处理；对于维度大于N的文本向量，进行截断处理；

步骤403：将步骤402处理得到的文本向量带入到已经训练完成的二分类模型中进行分类；若得到的分类结果不为广告，则保留当前图片；若得到的分类结果为广告且未设置广告白名单，则进入步骤6；若得到的分类结果为广告且预先设置了广告白名单，则进入步骤5；

步骤5：实体识别，具体包括以下步骤：

步骤501：通过token-map字典将步骤2得到的文本转变为N维的文本信息向量；

步骤502：将文本信息向量送入到训练好的实体分类模型中进行识别，从而获得文本中每一个字的标签，标签有三类：第一类为表示实体开始的标签、第二类为表示实体中间的标签、第三类为表示实体结尾的标签；

步骤503：对得到的标签进行解码，获得文本中的所有实体；

若识别出的实体存在于广告白名单中，则保留当前图片；若广告白名单中没有识别出的实体，则进入步骤6；

步骤6：对当前图片进行屏蔽处理。

优选地，所述步骤1包括以下步骤：

步骤101：将抓取的图片转换为统一格式；

步骤102：在不改变宽高比的条件下，调节格式转换后的图片大小；

步骤103：对步骤102得到的图片进行归一化处理，获得图片矩阵；

步骤104：将图片矩阵送入到训练好的DBNet文本检测模型中获得所有文本位置的概率图；

步骤105：对概率图进行二值化处理，随后找出二值图中的连通域，并求该连通域的最小外接矩形，每个最小外接矩形对应一个文本框，进而获得当前图片的所有文本框及每个文本框在当前图片上的坐标信息。

优选地，所述步骤2中，识别当前图片中任意文本框的文本信息具体包括以下步骤：

步骤201：在不改变宽高比的情况下调整文本框的尺寸；

步骤202：对步骤201得到的文本框进行归一处理，得到文本框矩阵；

步骤203：将文本框矩阵送入到训练好的CRNN文字识别模型中进行识别，获取当前文本框的文本信息。

优选地，所述步骤103中，进行归一化处理时，将步骤102得到的图片各通道的像素除以255.0，以完成归一化处理；

所述步骤202中，进行归一化处理时，将步骤201得到的文本框各通道的像素除以255.0，以完成归一化处理。

本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗，能够广泛适用不同页面、复杂背景的广告图片清洗。

传统基于url规则过滤的广告过滤手段受限于url的频繁更新，需要实时维护url库。基于JavaScript脚本与css多层次抽取特征结合机器学习算法(SVM)的方案受限于训练数据的获取、特征工程的繁杂。基于网页分析与图像处理的方案受限于页面的简洁与存在广告水印。相较之下，本发明提出的基于OCR与NLP的技术方案具备较高的普适性与准确率，具有如下优点：

1)随着人工智能技术的不断发展，目前基于深度学习的通用印刷体识别准确率可达99％以上，能够较为准确的提取图片的文字信息。

2)通过基于深度学习的NLP技术，将页面是否存在广告转变为对文字信息的二分类问题。根据实践，在10⁴量级的训练语料，准确率与召回率已达95％。

3)通过实体识别与预设白名单，能够保留在白名单中的广告，实现广告定制化。

4)广告字典的初筛方案能够有效的提高广告清洗的效率，在实践中，仅OCR+基于广告字典的初筛方案就能过滤70％的情况。

附图说明

图1为本发明技术方案流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，本发明提供的清洗页面正文内容中被植入广告的方法具体包括以下步骤：

步骤1：抓取当前网页所显示的所有图片，对每张图片中的文本位置进行定位，获得每张图片所包含的所有文本框。具体包括以下步骤：

步骤101：将抓取的图片转换为统一格式。本实施例中，将抓取的图片转换为RGB格式。

步骤102：在不改变宽高比的条件下，调节格式转换后的图片大小。本实施例中，将图片的短边尺寸固定调节为768mm，其短边尺寸按照原图片的宽高比调节至相应尺寸。

步骤103：对步骤102得到的图片进行归一化处理，获得图片矩阵。本实施例中，采用以下步骤进行归一化处理：将步骤102得到的图片各通道的像素除以255.0，以完成归一化处理。

步骤104：将图片矩阵送入到训练好的DBNet文本检测模型中获得所有文本位置的概率图。

步骤105：对概率图进行二值化处理，二值化阈值设定为0.3，随后找出二值图中的连通域，并求该连通域的最小外接矩形，每个最小外接矩形对应一个文本框，进而获得当前图片的所有文本框及每个文本框在当前图片上的坐标信息。

步骤2：获得当前网页所显示的每张图片所对应的文本。对于任意一张图片而言，识别当前图片中每个文本框的文本信息，依据步骤1获得的每个文本框对应的坐标信息将识别得到的所有文本框的文本信息合并为一条文本，该条文本即为当前图片所对应的文本。

其中，识别当前图片中任意文本框的文本信息具体包括以下步骤：

步骤201：在不改变宽高比的情况下调整文本框的尺寸。本实施例中，将文本框的高度拓展或缩小到32个像素，其宽度按照原文本框的宽高比调节至相应尺寸。

步骤202：对步骤201得到的文本框进行归一处理，得到文本框矩阵。本实施例中，采用以下步骤进行归一化处理：将步骤201得到的文本框各通道的像素除以255.0，以完成归一化处理。

步骤3：利用广告词典对每张图片所对应的文本进行基于规则的初筛。本实施例中，广告词典由预先挑选出的高频广告词构成，如“广告”、“立即体验”、“注册送”、“邀请好友送”、“注册领”等。广告词典基于广告词条的词频统计结合人工筛选进行构建。

采用全模式对步骤2获得的任意一张图片所对应的文本进行分词处理，若得到的所有词中存在大于等于两个词在广告词典中，则将当前文本判别为广告。进一步地，若当前文本被判别为广告，且预先设置了广告白名单，则进入步骤5；若当前文本被判别为广告，但未预先设置广告白名单，则进入步骤6。

采用全模式对步骤2得到的文本进行分词处理后，若得到的所有词中与广告词典中高频广告词相匹配的词的个数小于两个，则将当前文本判别为非广告，进入步骤4，进行基于模型的广告判别。

步骤4：文本分类，具体包括以下步骤：

步骤401：从预设token-map字典中找到组成当前文本所有字对应的索引，通过该操作将一句含有n个字的句子转变为长度为n的文本向量，完成字符到数值的转变。

步骤402：基于预先的统计，图片中广告文本基本不会超过128个字，因此将最长字符数设置为128。将步骤401获得的文本向量扩展至128维：对于维度小于128的文本向量做补零处理；对于维度大于128的文本向量，进行截断处理。

步骤403：将步骤402处理得到的文本向量带入到已经训练完成的二分类模型中进行分类。若得到的分类结果不为广告，则保留当前图片；若得到的分类结果为广告且未设置广告白名单，则进入步骤6，若得到的分类结果为广告且预先设置了广告白名单，则进入步骤5。

步骤5：实体识别，具体包括以下步骤：

步骤501：通过token-map字典将步骤2得到的文本转变为128维的文本信息向量。

步骤502：将文本信息向量送入到训练好的实体分类模型中进行识别，从而获得文本中每一个字的标签，标签有三类：第一类——实体的开始、第二类——实体的中间、第三类——实体的结尾。

步骤503：对得到的标签进行解码，获得文本中的所有实体。若识别出的实体存在于广告白名单中，则保留当前图片；若广告白名单中没有识别出的实体，则进入步骤6。

步骤6：对当前图片进行屏蔽处理。

Claims

1.一种清洗页面正文内容中被植入广告的方法，其特征在于，包括以下步骤：

步骤4：文本分类，具体包括以下步骤：

步骤5：实体识别，具体包括以下步骤：

步骤503：对得到的标签进行解码，获得文本中的所有实体；

步骤6：对当前图片进行屏蔽处理。

2.如权利要求1所述的一种清洗页面正文内容中被植入广告的方法，其特征在于，所述步骤1包括以下步骤：

步骤101：将抓取的图片转换为统一格式；

3.如权利要求2所述的一种清洗页面正文内容中被植入广告的方法，其特征在于，所述步骤2中，识别当前图片中任意文本框的文本信息具体包括以下步骤：

步骤201：在不改变宽高比的情况下调整文本框的尺寸；

4.如权利要求3所述的一种清洗页面正文内容中被植入广告的方法，其特征在于，所述步骤103中，进行归一化处理时，将步骤102得到的图片各通道的像素除以255.0，以完成归一化处理；