CN112258254A

CN112258254A - 基于大数据架构的互联网广告风险监测方法及系统

Info

Publication number: CN112258254A
Application number: CN202011513239.0A
Authority: CN
Inventors: 马涛; 杨星; 朱东涛; 王振; 周先东; 王勇; 马春来; 王磊; 孟彦; 章文友
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-01-22
Anticipated expiration: 2040-12-21
Also published as: CN112258254B

Abstract

本发明的基于大数据架构的互联网广告风险监测方法及系统，包括：周期性地从互联网上采集数据；实时接入所采集数据，并对数据进行校验清洗以及图片识别；将接入的数据进行存储入库；结合预设的违法行为特征库，分析提取存储数据中涉嫌违法的数据；基于分析提取的数据，开展涉嫌违法数据的查询服务以及业务应用。本发明充分利用智慧化监管方式，丰富监管手段、优化监管模式、提升监管成效、健全长效机制，加快推进互联网广告的良性发展，大力提升监管水平。

Description

基于大数据架构的互联网广告风险监测方法及系统

技术领域

本发明属计算机网络及大数据应用技术领域，特别涉及一种基于大数据架构的互联网广告风险监测方法及系统。

背景技术

随着信息化的迅猛发展，许多商家的广告投放已由传统广告（电视广告、广播电台广告、报刊广告等）转向互联网广告投放。企业网站、微博、论坛、新闻媒体、第三方平台、微信公众号等已成广告的发源地。目前依靠人工对企业网站、微博、论坛、新闻媒体、微信公众号等投放的广告进行一一核查，大大降低了工作效率。

互联网广告具有范围覆盖广、更新频率快，通过人工核对会出现覆盖平台少、工作效率低、不能及时发现违法广告等。因此当前背景下，充分利用智慧化监管方式，丰富监管手段、优化监管模式、提升监管成效、健全长效机制，加快推进互联网广告的良性发展，大力提升监管水平。

目前依靠人工对企业网站、微博、论坛、新闻媒体、第三方平台、微信公众号等投放的广告进行一一核查，大大降低了工作效率。互联网广告具有范围覆盖广、更新频率快，通过人工核对会出现覆盖平台少、工作效率低、不能及时发现违法广告等。

因此，目前迫切需要本领域技术人员解决的一个技术问题就是：如何能够创新的提出一种有效的基于大数据架构的互联网广告风险监测方法，克服现有技术的缺陷，满足实际应用中的更多需求。

发明内容

本申请实施例的目的是提出一种基于大数据架构的互联网广告风险监测方法及系统，充分利用智慧化监管方式，丰富监管手段、优化监管模式、提升监管成效、健全长效机制，加快推进互联网广告的良性发展，大力提升监管水平。

为解决上述技术问题，本申请实施例是这样实现的：

根据本申请实施例的第一方面，提出了一种基于大数据架构的互联网广告风险监测方法，所述方法包括：

一种基于大数据架构的互联网广告风险监测方法，所述方法包括：

周期性地从互联网上采集数据；

实时接入所采集数据，并对数据进行校验清洗以及图片初步识别；

将接入的数据进行存储入库；

将经过初步识别的图片输入第一级卷积神经网络，第一级卷积神经网络用于识别图像中的全局特征，将图像中的特征分为识别为文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果；将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果；其中第三级神经网络采用同时具有两种模型的并行输入方式，该第三级神经网络中的每一通道分别包括卷积层，池化层和输出层；第一种模型为Skip-gram 模型，其用来接收采集数据中直接得到的文字数据；第二种模型为CBOW模型，用于接收文字区域中识别的结果；将通道对应的输入文本向量作为对应通道中卷积层的输入，所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵，将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵；

将所述第二特征矩阵作为池化层的输入，所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵；

将所述第三特征矩阵作为输出层的输入，所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果；

基于分析提取的文字识别结果和图像识别结果，开展涉嫌违法数据的查询服务以及业务应用。基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中，所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。

基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中，所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。

基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中，所述周期性地从互联网上采集数据包括：

建立一组分布式爬虫作为信息提供者，递归地采集网页网址信息；

建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接；

采用定向或非定向的方式从互联网上采集数据。

第三级神经网络中通过分词处理实现神经网络的训练，具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。

本发明还提出了一种基于大数据架构的互联网广告风险监测系统，所述系统包括：数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层，其中，所述数据采集层，用于周期性地从互联网上采集数据；所述数据汇聚层，用于实时接入所采集数据，并对数据进行校验清洗以及图片初步识别；所述数据存储层，用于将接入的数据进行存储入库；所述数据分析层，用于结将经过初步识别的图片输入第一级卷积神经网络，第一级卷积神经网络用于识别图像中的全局特征，将图像中的特征分为识别为文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果；将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果；其中第三级神经网络采用同时具有两种模型的并行输入方式，该第三级神经网络中的每一通道分别包括卷积层，池化层和输出层；第一种模型为Skip-gram 模型，其用来接收采集数据中直接得到的文字数据；第二种模型为CBOW模型，用于接收文字区域中识别的结果；将通道对应的输入文本向量作为对应通道中卷积层的输入，所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵，将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵；

所述数据应用层，用于基于分析提取的数据，开展涉嫌违法数据的查询服务以及业务应用。本申请实施例的另

基于本发明的基于大数据架构的互联网广告风险监测系统的另一个实施例中，所述数据采集层采用定向或非定向的方式从互联网上采集数据。

基于本发明的基于大数据架构的互联网广告风险监测系统的另一个实施例中，所述数据采集层包括：第一建立模块，用于建立一组分布式爬虫作为信息提供者，递归地采集网页网址信息；第二建立模块，用于建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接；采集模块，用于采用定向或非定向的方式从互联网上采集数据。

基于本发明实施例的另一个方面，公开一种基于大数据架构的互联网广告风险监测系统，其中，所涉及第三级神经网络中通过分词处理实现神经网络的训练，具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。

本申请提出的基于大数据架构的互联网广告风险监测方法及系统，丰富监管手段、优化监管模式、提升监管成效、健全长效机制，加快推进互联网广告的良性发展，大力提升监管水平。

附图说明

图1示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测方法的流程示意图；

图2示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测系统另一实施例的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式作出详细说明。

图1示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测方法的示意图，结合图1对基于大数据架构的互联网广告风险监测方法进行详细介绍，所述方法包括：

S1,周期性地从互联网上采集数据；

S2,实时接入所采集数据，并对数据进行校验清洗以及图片初步识别；

S3,将接入的数据进行存储入库；

S4, 将经过初步识别的图片输入第一级卷积神经网络，第一级神经网络用于识别图像中的全局特征，将图像中的特征分为识别为文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果；将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果；在不同的应用场景中，可以按照预设的与该应用场景相应的方式进行图像识别，比如在识别色情图像的场景中，可以通过对特征图中人物的姿态、裸露皮肤的比例进行识别，从而确定人物识别结果为正常图像或色情图像，或者，确定人物识别结果包括待识别图像分别正常图像的概率和非正常图像的概率。根据文字识别结果和图像识别结果，结合预设的违法行为特征库，分析提取存储数据中涉嫌违法的数据；

S5,基于分析提取的数据，开展涉嫌违法数据的查询服务及业务应用。

具体的，所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。更为具体的，所述周期性地从互联网上采集数据包括：建立一组分布式爬虫作为信息提供者，递归地采集网页网址信息；建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接；采用定向或非定向的方式从互联网上采集数据。

进一步的，所述实时接入所采集数据，并对数据进行校验清洗以及图片识别包括：接入从互联网采集的数据，对所采集的数据对不符合规范的数据进行校验清洗，对采集的互联网图片进行内容识别。

步骤S4中，将经过初步识别的图片输入第一级卷积神经网络，第一级神经网络用于识别图像中的全局特征，将图像中的特征分为识别为文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果；将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果；可以以图像识别区域具体为识别人物为例，从图像中确定人物位置和大小，并对该人物所具有的特征进行识别分类的卷积神经网络。由前述中卷积神经网络的优点可知，为了提高识别的效率和准确率，可以通过人物目标定位网络对特征图进行人物识别。

卷积神经网络能够直接对图像中的像素进行卷积，从而从图像中提取图像特征，该处理方式更接近人类大脑视觉系统的处理结果，从而能够提高识别的准确率，且卷积神经网络包括更少的参数，训练过程简单，能够提高识别的效率，因此，可以通过卷积神经网络，从待识别图像中提取得到该特征图。

第一层神经卷积网络中通过按照预设尺寸的卷积核一次在特征图中进行滑动，每滑动一次，识别该特征图当前处于该滑窗中的区域是否包括文字或图像，从而得到文字区域及图像区域。

第二级神经网络在进行图像区域的识别时，具体可使用在不同的应用场景中，可以按照预设的与该应用场景相应的方式进行识别，比如在识别色情图像的场景中，可以通过对特征图中人物的姿态、裸露皮肤的比例进行识别，从而确定人物识别结果为正常图像或色情图像，或者，确定人物识别结果包括待识别图像分别正常图像的概率和非正常图像的概率。类似的，第二级神经网络也可以实现对图像中的文字进行识别，得到文字数据。

第三级神经网络中神经网络识别模型是利用神经网络经过多次学习训练后得到的，待输入数据输入到该神经网络识别模型后，神经网络识别模型能够模拟人体大脑的神经元对待输入数据进行分析，并判断该待输入数据对应的待检测广告词是否为敏感词汇。其中第三级神经网络采用同时具有两种模型的并行输入方式，该第三级神经网络中的每一通道分别包括卷积层，池化层和输出层；第一种模型为Skip-gram 模型，其用来接收采集数据中直接得到的文字数据；第二种模型为CBOW模型，用于接收文字区域中识别的结果；通过选择不同的模型可以有效提高识别广告的准确性。将通道对应的输入文本向量作为对应通道中卷积层的输入，所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵，将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵；

将所述第二特征矩阵作为池化层的输入，所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵；具体地，其中首先，将与每个通道对应的输入文本向量作为卷积层的输入，卷积层对输入文本向量进行卷积运算得到第一特征矩阵，卷积运算是指利用卷积核进行乘积的运算。经过卷积核卷积可以降低特征维度，并且表达出文本中上下文联系的局部特征，不同的卷积窗口具有不同的表达能力。其中，一个卷积核对应一个输出，比如，如果卷积层中有64个卷积核，经过64个卷积核的作用将会得到64个输出，即得到64维的第一特征矩阵。将第一特征矩阵加上相应的偏置矩阵作为激活函数的输入，激活函数可以采用Relu函数，Relu函数具有非线性表达能力。第一特征矩阵经过激活函数进行非线性运算得到第二特征矩阵，将第二特征矩阵作为池化层的输入。

将所述第三特征矩阵作为输出层的输入，所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果。例如可以通过上述方式可以将广告分为不同的品类，如正常的广告类如服装，食品，体育，电影，还可能为违禁的广告如色情，赌博，毒品等等。

当训练广告为多个时，先对每个训练广告进行特征标记，然后再进行分词处理，分词处理可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。分词处理之后得到的训练分词与相应的特征标记进行对应，避免多个训练广告出现混淆的情况。其中，训练该神经网络识别模型用到的神经网络优选为卷积神经网络。另外，神经网络识别模型在对待检测广告词进行识别的同时，还可以利用待检测广告词进行学习训练，不断的提高神经网络识别模型识别广告的准确性。

图2示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测系统的结构示意图，结合图2对示例实施例中的基于大数据架构的互联网广告风险监测系统进行详细的说明。基于大数据架构的互联网广告风险监测系统包括：数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层，其中，所述数据采集层，用于周期性地从互联网上采集数据；所述数据汇聚层，用于实时接入所采集数据，并对数据进行校验清洗以及图片识别；所述数据存储层，用于将接入的数据进行存储入库；所述数据分析层，用于结合预设的违法行为特征库，分析提取存储数据中涉嫌违法的数据；所述数据应用层，用于基于分析提取的数据，开展涉嫌违法数据的查询服务以及业务应用。

具体的，所述数据采集层采用定向或非定向的方式从互联网上采集数据。

进一步的，所述数据采集层包括：第一建立模块，用于建立一组分布式爬虫作为信息提供者，递归地采集网页网址信息；第二建立模块，用于建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接；采集模块，用于采用定向或非定向的方式从互联网上采集数据。

具体的，所述数据数据汇聚层包括：数据接入模块，用于接入从互联网采集的数据；预处理模块，用于对所采集的数据对不符合规范的数据进行校验清洗；图片识别模块，用于对采集的互联网图片进行内容识别。

在实际应用中，基于大数据的互联网广告风险监测系统采用五层体系结构，即数据采集层、数据汇聚层、数据存储层、数据分析层、数据应用层，其中：（1）数据采集层，建立数据采集服务集群，建立一组分布式爬虫作为信息提供者，递归地采集待采集网页网址信息存入分布式队列系统（如redis），建立另一组分布式爬虫作为信息消费者，从分布式队列系统中周期性地消费网页网址信息，从而在互联网中定向或非定向采集平台广告的图片链接以及文字内容等信息（用标记区分文字内容和图片链接），采集的数据实时上报数据汇聚层。

（2）数据汇聚层，建立一种高吞吐量的分布式消息系统（如kafka）实时接入数据采集层上报的广告图片链接以及文字内容等信息。建立一种数据预处理服务，对不符合规范的数据进行校验清洗，对正常可用数据和不可用数据（如网页文字内容或图片链接是空）打上是否可用标记进而归类。清洗归类后的文字内容数据以及不可用的图片数据实时上报数据存储层。清洗归类后的可用图片数据作为初步识别结果发送到分布式消息系统（如建立kafka的图片识别服务topic）由数据分析层进行处理。

（3）数据存储层，建立一种基于分布式文件系统（如HDFS）的分布式数据库（如hbase）, 建立一个广告内容信息库以及广告内容采集记录库存储数据汇聚层上报的文字内容以及图片数据。建立一种关系型数据库（如mysql）建立违法行为特征库。

（4）数据分析层，将初步识别结果中的图片输入第一级卷积神经网络，第一级神经网络用于识别图像中的全局特征，将图像中的特征分为识别为文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果；将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果；

可以以图像识别区域具体为识别人物为例，从图像中确定人物位置和大小，并对该人物所具有的特征进行识别分类的卷积神经网络。由前述中卷积神经网络的优点可知，为了提高识别的效率和准确率，可以通过人物目标定位网络对特征图进行人物识别。

建立分布式计算引擎（如spark），结合违法行为特征库周期性（如每天分析一次）地分析图片内容和文字内容的特征词（如广告极限用语），提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务（如elasticsearch），提供实时查询服务（如使用hbase的协处理器结合kafka实时建立索引）。

（5）数据应用层，基于数据分析层分析的数据，实现涉嫌违法广告的高效查询服务以及业务应用，主动推送涉嫌违法互联网广告案源线索。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于大数据架构的互联网广告风险监测方法，其特征在于，所述方法包括：

周期性地从互联网上采集数据，所述数据包括：文字数据和图片数据；

将接入的数据进行存储入库；

其中，将经过初步识别的图片输入第一级卷积神经网络，通过第一级卷积神经网络识别图片中的文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果，所述图像区域识别结果包括识别图像是否为正常图像，或者识别图像为正常图像或非正常图像的概率；将文字区域的识别结果与所述采集数据中直接得到的文字数据转化为文本向量一起输入第三级神经网络得到文字识别结果；

其中第三级神经网络同时通过两种模型的通道接收并行输入，该第三级神经网络中的每一通道分别包括卷积层，池化层和输出层；第一种模型为Skip-gram 模型，其用来接收采集数据中直接得到的文字数据；第二种模型为CBOW模型，用于接收文字区域中识别的结果；

将通道对应的输入文本向量作为对应通道中卷积层的输入，所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵，将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵；

将所述第三特征矩阵作为输出层的输入，所述输出层用于根据所述第三特征矩阵的输出结果为文字的识别结果；

基于分析提取的文字识别结果和图像识别结果，结合违法行为特征库，提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务，提供实时查询服务。

2.根据权利要求1所述的基于大数据架构的互联网广告风险监测方法，其特征在于，所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。

3.根据权利要求2所述的基于大数据架构的互联网广告风险监测方法，其特征在于，所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。

4.根据权利要求3所述的基于大数据架构的互联网广告风险监测方法，其特征在于，所述周期性地从互联网上采集数据包括：

建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接。

5.根据权利要求1所述的基于大数据架构的互联网广告风险监测方法，其特征在于，所述第三级神经网络中通过分词处理实现神经网络的训练，具体可以利用CRF算法进行分词处理；或者利用最大匹配分词算法进行分词处理；或者利用最小切分算法进行分词处理。

6.一种基于大数据架构的互联网广告风险监测系统，其特征在于，所述系统包括：数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层；

所述数据采集层，用于周期性地从互联网上采集数据，所述数据包括：文字数据和图片数据；

所述数据汇聚层，用于实时接入所采集数据，并对数据进行校验清洗以及图片初步识别；

所述数据存储层，用于将接入的数据进行存储入库；

所述数据分析层，用于将经过初步识别的图片输入第一级卷积神经网络，第一级卷积神经网络用于识别图片中的文字区域和图像区域；将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果，所述图像区域识别结果包括识别图像是否为正常图像，或者识别图像为正常图像或非正常图像的概率；

将文字区域的识别结果与所述采集数据中直接得到的文字数据转化为文本向量一起输入第三级神经网络得到文字识别结果；

其中第三级神经网络同时通过两种模型的通道接收并行输入，该第三级神经网络中的每一通道分别包括卷积层，池化层和输出层；第一种模型为Skip-gram 模型，其用来接收采集数据中直接得到的文字数据；第二种模型为CBOW模型，用于接收文字区域中识别的结果；将通道对应的输入文本向量作为对应通道中卷积层的输入，所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵，将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵；

所述数据应用层，基于分析提取的文字识别结果和图像识别结果，结合违法行为特征库，提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务，提供实时查询服务。

7.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统，其特征在于，所述数据采集层采用定向或非定向的方式从互联网上采集数据。

8.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统，其特征在于，所述数据采集层包括：

第一建立模块，用于建立一组分布式爬虫作为信息提供者，递归地采集网页网址信息；

第二建立模块，用于建立另一组分布式爬虫作为信息消费者，根据网页网址实时采集网页文字内容和图片链接。

9.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统，其特征在于，所述第三级神经网络中通过分词处理实现神经网络的训练，具体可以利用CRF算法进行分词处理；或者利用最大匹配分词算法进行分词处理；或者利用最小切分算法进行分词处理。