CN112258254A - 基于大数据架构的互联网广告风险监测方法及系统 - Google Patents
基于大数据架构的互联网广告风险监测方法及系统 Download PDFInfo
- Publication number
- CN112258254A CN112258254A CN202011513239.0A CN202011513239A CN112258254A CN 112258254 A CN112258254 A CN 112258254A CN 202011513239 A CN202011513239 A CN 202011513239A CN 112258254 A CN112258254 A CN 112258254A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- neural network
- image
- feature matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的基于大数据架构的互联网广告风险监测方法及系统,包括:周期性地从互联网上采集数据;实时接入所采集数据,并对数据进行校验清洗以及图片识别;将接入的数据进行存储入库;结合预设的违法行为特征库,分析提取存储数据中涉嫌违法的数据;基于分析提取的数据,开展涉嫌违法数据的查询服务以及业务应用。本发明充分利用智慧化监管方式,丰富监管手段、优化监管模式、提升监管成效、健全长效机制,加快推进互联网广告的良性发展,大力提升监管水平。
Description
技术领域
本发明属计算机网络及大数据应用技术领域,特别涉及一种基于大数据架构的互联网广告风险监测方法及系统。
背景技术
随着信息化的迅猛发展,许多商家的广告投放已由传统广告(电视广告、广播电台广告、报刊广告等)转向互联网广告投放。企业网站、微博、论坛、新闻媒体、第三方平台、微信公众号等已成广告的发源地。目前依靠人工对企业网站、微博、论坛、新闻媒体、微信公众号等投放的广告进行一一核查,大大降低了工作效率。
互联网广告具有范围覆盖广、更新频率快,通过人工核对会出现覆盖平台少、工作效率低、不能及时发现违法广告等。因此当前背景下,充分利用智慧化监管方式,丰富监管手段、优化监管模式、提升监管成效、健全长效机制,加快推进互联网广告的良性发展,大力提升监管水平。
目前依靠人工对企业网站、微博、论坛、新闻媒体、第三方平台、微信公众号等投放的广告进行一一核查,大大降低了工作效率。互联网广告具有范围覆盖广、更新频率快,通过人工核对会出现覆盖平台少、工作效率低、不能及时发现违法广告等。
因此,目前迫切需要本领域技术人员解决的一个技术问题就是:如何能够创新的提出一种有效的基于大数据架构的互联网广告风险监测方法,克服现有技术的缺陷,满足实际应用中的更多需求。
发明内容
本申请实施例的目的是提出一种基于大数据架构的互联网广告风险监测方法及系统,充分利用智慧化监管方式,丰富监管手段、优化监管模式、提升监管成效、健全长效机制,加快推进互联网广告的良性发展,大力提升监管水平。
为解决上述技术问题,本申请实施例是这样实现的:
根据本申请实施例的第一方面,提出了一种基于大数据架构的互联网广告风险监测方法,所述方法包括:
一种基于大数据架构的互联网广告风险监测方法,所述方法包括:
周期性地从互联网上采集数据;
实时接入所采集数据,并对数据进行校验清洗以及图片初步识别;
将接入的数据进行存储入库;
将经过初步识别的图片输入第一级卷积神经网络,第一级卷积神经网络用于识别图像中的全局特征,将图像中的特征分为识别为文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果;将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果;其中第三级神经网络采用同时具有两种模型的并行输入方式,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果;
基于分析提取的文字识别结果和图像识别结果,开展涉嫌违法数据的查询服务以及业务应用。基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中,所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。
基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中,所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。
基于本发明的基于大数据架构的互联网广告风险监测方法的另一个实施例中,所述周期性地从互联网上采集数据包括:
建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;
建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接;
采用定向或非定向的方式从互联网上采集数据。
第三级神经网络中通过分词处理实现神经网络的训练,具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。
本发明还提出了一种基于大数据架构的互联网广告风险监测系统,所述系统包括:数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层,其中,所述数据采集层,用于周期性地从互联网上采集数据;所述数据汇聚层,用于实时接入所采集数据,并对数据进行校验清洗以及图片初步识别;所述数据存储层,用于将接入的数据进行存储入库;所述数据分析层,用于结将经过初步识别的图片输入第一级卷积神经网络,第一级卷积神经网络用于识别图像中的全局特征,将图像中的特征分为识别为文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果;将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果;其中第三级神经网络采用同时具有两种模型的并行输入方式,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果;
所述数据应用层,用于基于分析提取的数据,开展涉嫌违法数据的查询服务以及业务应用。本申请实施例的另
基于本发明的基于大数据架构的互联网广告风险监测系统的另一个实施例中,所述数据采集层采用定向或非定向的方式从互联网上采集数据。
基于本发明的基于大数据架构的互联网广告风险监测系统的另一个实施例中,所述数据采集层包括:第一建立模块,用于建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;第二建立模块,用于建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接;采集模块,用于采用定向或非定向的方式从互联网上采集数据。
基于本发明实施例的另一个方面,公开一种基于大数据架构的互联网广告风险监测系统,其中,所涉及第三级神经网络中通过分词处理实现神经网络的训练,具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。
本申请提出的基于大数据架构的互联网广告风险监测方法及系统,丰富监管手段、优化监管模式、提升监管成效、健全长效机制,加快推进互联网广告的良性发展,大力提升监管水平。
附图说明
图1示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测方法的流程示意图;
图2示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测系统另一实施例的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式作出详细说明。
图1示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测方法的示意图,结合图1对基于大数据架构的互联网广告风险监测方法进行详细介绍,所述方法包括:
S1,周期性地从互联网上采集数据;
S2,实时接入所采集数据,并对数据进行校验清洗以及图片初步识别;
S3,将接入的数据进行存储入库;
S4, 将经过初步识别的图片输入第一级卷积神经网络,第一级神经网络用于识别图像中的全局特征,将图像中的特征分为识别为文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果;将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果;在不同的应用场景中,可以按照预设的与该应用场景相应的方式进行图像识别,比如在识别色情图像的场景中,可以通过对特征图中人物的姿态、裸露皮肤的比例进行识别,从而确定人物识别结果为正常图像或色情图像,或者,确定人物识别结果包括待识别图像分别正常图像的概率和非正常图像的概率。根据文字识别结果和图像识别结果,结合预设的违法行为特征库,分析提取存储数据中涉嫌违法的数据;
S5,基于分析提取的数据,开展涉嫌违法数据的查询服务及业务应用。
具体的,所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。更为具体的,所述周期性地从互联网上采集数据包括:建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接;采用定向或非定向的方式从互联网上采集数据。
进一步的,所述实时接入所采集数据,并对数据进行校验清洗以及图片识别包括:接入从互联网采集的数据,对所采集的数据对不符合规范的数据进行校验清洗,对采集的互联网图片进行内容识别。
步骤S4中,将经过初步识别的图片输入第一级卷积神经网络,第一级神经网络用于识别图像中的全局特征,将图像中的特征分为识别为文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果;将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果;可以以图像识别区域具体为识别人物为例,从图像中确定人物位置和大小,并对该人物所具有的特征进行识别分类的卷积神经网络。由前述中卷积神经网络的优点可知,为了提高识别的效率和准确率,可以通过人物目标定位网络对特征图进行人物识别。
卷积神经网络能够直接对图像中的像素进行卷积,从而从图像中提取图像特征,该处理方式更接近人类大脑视觉系统的处理结果,从而能够提高识别的准确率,且卷积神经网络包括更少的参数,训练过程简单,能够提高识别的效率,因此,可以通过卷积神经网络,从待识别图像中提取得到该特征图。
第一层神经卷积网络中通过按照预设尺寸的卷积核一次在特征图中进行滑动,每滑动一次,识别该特征图当前处于该滑窗中的区域是否包括文字或图像,从而得到文字区域及图像区域。
第二级神经网络在进行图像区域的识别时,具体可使用在不同的应用场景中,可以按照预设的与该应用场景相应的方式进行识别,比如在识别色情图像的场景中,可以通过对特征图中人物的姿态、裸露皮肤的比例进行识别,从而确定人物识别结果为正常图像或色情图像,或者,确定人物识别结果包括待识别图像分别正常图像的概率和非正常图像的概率。类似的,第二级神经网络也可以实现对图像中的文字进行识别,得到文字数据。
第三级神经网络中神经网络识别模型是利用神经网络经过多次学习训练后得到的,待输入数据输入到该神经网络识别模型后,神经网络识别模型能够模拟人体大脑的神经元对待输入数据进行分析,并判断该待输入数据对应的待检测广告词是否为敏感词汇。其中第三级神经网络采用同时具有两种模型的并行输入方式,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;通过选择不同的模型可以有效提高识别广告的准确性。将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;具体地,其中首先,将与每个通道对应的输入文本向量作为卷积层的输入,卷积层对输入文本向量进行卷积运算得到第一特征矩阵,卷积运算是指利用卷积核进行乘积的运算。经过卷积核卷积可以降低特征维度,并且表达出文本中上下文联系的局部特征,不同的卷积窗口具有不同的表达能力。其中,一个卷积核对应一个输出,比如,如果卷积层中有64个卷积核,经过64个卷积核的作用将会得到64个输出,即得到64维的第一特征矩阵。将第一特征矩阵加上相应的偏置矩阵作为激活函数的输入,激活函数可以采用Relu函数,Relu函数具有非线性表达能力。第一特征矩阵经过激活函数进行非线性运算得到第二特征矩阵,将第二特征矩阵作为池化层的输入。
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果。例如可以通过上述方式可以将广告分为不同的品类,如正常的广告类如服装,食品,体育,电影,还可能为违禁的广告如色情,赌博,毒品等等。
当训练广告为多个时,先对每个训练广告进行特征标记,然后再进行分词处理,分词处理可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。分词处理之后得到的训练分词与相应的特征标记进行对应,避免多个训练广告出现混淆的情况。其中,训练该神经网络识别模型用到的神经网络优选为卷积神经网络。另外,神经网络识别模型在对待检测广告词进行识别的同时,还可以利用待检测广告词进行学习训练,不断的提高神经网络识别模型识别广告的准确性。
图2示出了根据本申请的一些实施例提供的基于大数据架构的互联网广告风险监测系统的结构示意图,结合图2对示例实施例中的基于大数据架构的互联网广告风险监测系统进行详细的说明。基于大数据架构的互联网广告风险监测系统包括:数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层,其中,所述数据采集层,用于周期性地从互联网上采集数据;所述数据汇聚层,用于实时接入所采集数据,并对数据进行校验清洗以及图片识别;所述数据存储层,用于将接入的数据进行存储入库;所述数据分析层,用于结合预设的违法行为特征库,分析提取存储数据中涉嫌违法的数据;所述数据应用层,用于基于分析提取的数据,开展涉嫌违法数据的查询服务以及业务应用。
具体的,所述数据采集层采用定向或非定向的方式从互联网上采集数据。
进一步的,所述数据采集层包括:第一建立模块,用于建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;第二建立模块,用于建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接;采集模块,用于采用定向或非定向的方式从互联网上采集数据。
具体的,所述数据数据汇聚层包括:数据接入模块,用于接入从互联网采集的数据;预处理模块,用于对所采集的数据对不符合规范的数据进行校验清洗;图片识别模块,用于对采集的互联网图片进行内容识别。
在实际应用中,基于大数据的互联网广告风险监测系统采用五层体系结构,即数据采集层、数据汇聚层、数据存储层、数据分析层、数据应用层,其中:(1)数据采集层,建立数据采集服务集群,建立一组分布式爬虫作为信息提供者,递归地采集待采集网页网址信息存入分布式队列系统(如redis),建立另一组分布式爬虫作为信息消费者,从分布式队列系统中周期性地消费网页网址信息,从而在互联网中定向或非定向采集平台广告的图片链接以及文字内容等信息(用标记区分文字内容和图片链接),采集的数据实时上报数据汇聚层。
(2)数据汇聚层,建立一种高吞吐量的分布式消息系统(如kafka)实时接入数据采集层上报的广告图片链接以及文字内容等信息。建立一种数据预处理服务,对不符合规范的数据进行校验清洗,对正常可用数据和不可用数据(如网页文字内容或图片链接是空)打上是否可用标记进而归类。清洗归类后的文字内容数据以及不可用的图片数据实时上报数据存储层。清洗归类后的可用图片数据作为初步识别结果发送到分布式消息系统(如建立kafka的图片识别服务topic)由数据分析层进行处理。
(3)数据存储层,建立一种基于分布式文件系统(如HDFS)的分布式数据库(如hbase), 建立一个广告内容信息库以及广告内容采集记录库存储数据汇聚层上报的文字内容以及图片数据。建立一种关系型数据库(如mysql)建立违法行为特征库。
(4)数据分析层,将初步识别结果中的图片输入第一级卷积神经网络,第一级神经网络用于识别图像中的全局特征,将图像中的特征分为识别为文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果;将文字区域的识别结果与所述采集数据中直接得到的文字数据一起输入第三级神经网络得到文字识别结果;
可以以图像识别区域具体为识别人物为例,从图像中确定人物位置和大小,并对该人物所具有的特征进行识别分类的卷积神经网络。由前述中卷积神经网络的优点可知,为了提高识别的效率和准确率,可以通过人物目标定位网络对特征图进行人物识别。
卷积神经网络能够直接对图像中的像素进行卷积,从而从图像中提取图像特征,该处理方式更接近人类大脑视觉系统的处理结果,从而能够提高识别的准确率,且卷积神经网络包括更少的参数,训练过程简单,能够提高识别的效率,因此,可以通过卷积神经网络,从待识别图像中提取得到该特征图。
第一层神经卷积网络中通过按照预设尺寸的卷积核一次在特征图中进行滑动,每滑动一次,识别该特征图当前处于该滑窗中的区域是否包括文字或图像,从而得到文字区域及图像区域。
第二级神经网络在进行图像区域的识别时,具体可使用在不同的应用场景中,可以按照预设的与该应用场景相应的方式进行识别,比如在识别色情图像的场景中,可以通过对特征图中人物的姿态、裸露皮肤的比例进行识别,从而确定人物识别结果为正常图像或色情图像,或者,确定人物识别结果包括待识别图像分别正常图像的概率和非正常图像的概率。类似的,第二级神经网络也可以实现对图像中的文字进行识别,得到文字数据。
第三级神经网络中神经网络识别模型是利用神经网络经过多次学习训练后得到的,待输入数据输入到该神经网络识别模型后,神经网络识别模型能够模拟人体大脑的神经元对待输入数据进行分析,并判断该待输入数据对应的待检测广告词是否为敏感词汇。其中第三级神经网络采用同时具有两种模型的并行输入方式,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;通过选择不同的模型可以有效提高识别广告的准确性。将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;具体地,其中首先,将与每个通道对应的输入文本向量作为卷积层的输入,卷积层对输入文本向量进行卷积运算得到第一特征矩阵,卷积运算是指利用卷积核进行乘积的运算。经过卷积核卷积可以降低特征维度,并且表达出文本中上下文联系的局部特征,不同的卷积窗口具有不同的表达能力。其中,一个卷积核对应一个输出,比如,如果卷积层中有64个卷积核,经过64个卷积核的作用将会得到64个输出,即得到64维的第一特征矩阵。将第一特征矩阵加上相应的偏置矩阵作为激活函数的输入,激活函数可以采用Relu函数,Relu函数具有非线性表达能力。第一特征矩阵经过激活函数进行非线性运算得到第二特征矩阵,将第二特征矩阵作为池化层的输入。
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果。例如可以通过上述方式可以将广告分为不同的品类,如正常的广告类如服装,食品,体育,电影,还可能为违禁的广告如色情,赌博,毒品等等。
当训练广告为多个时,先对每个训练广告进行特征标记,然后再进行分词处理,分词处理可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。分词处理之后得到的训练分词与相应的特征标记进行对应,避免多个训练广告出现混淆的情况。其中,训练该神经网络识别模型用到的神经网络优选为卷积神经网络。另外,神经网络识别模型在对待检测广告词进行识别的同时,还可以利用待检测广告词进行学习训练,不断的提高神经网络识别模型识别广告的准确性。
建立分布式计算引擎(如spark),结合违法行为特征库周期性(如每天分析一次)地分析图片内容和文字内容的特征词(如广告极限用语),提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务(如elasticsearch),提供实时查询服务(如使用hbase的协处理器结合kafka实时建立索引)。
(5)数据应用层,基于数据分析层分析的数据,实现涉嫌违法广告的高效查询服务以及业务应用,主动推送涉嫌违法互联网广告案源线索。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。
Claims (9)
1.一种基于大数据架构的互联网广告风险监测方法,其特征在于,所述方法包括:
周期性地从互联网上采集数据,所述数据包括:文字数据和图片数据;
实时接入所采集数据,并对数据进行校验清洗以及图片初步识别;
将接入的数据进行存储入库;
其中,将经过初步识别的图片输入第一级卷积神经网络,通过第一级卷积神经网络识别图片中的文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果,所述图像区域识别结果包括识别图像是否为正常图像,或者识别图像为正常图像或非正常图像的概率;将文字区域的识别结果与所述采集数据中直接得到的文字数据转化为文本向量一起输入第三级神经网络得到文字识别结果;
其中第三级神经网络同时通过两种模型的通道接收并行输入,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;
将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文字的识别结果;
基于分析提取的文字识别结果和图像识别结果,结合违法行为特征库,提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务,提供实时查询服务。
2.根据权利要求1所述的基于大数据架构的互联网广告风险监测方法,其特征在于,所述周期性地从互联网上采集数据包括平台广告的图片链接和文字内容信息。
3.根据权利要求2所述的基于大数据架构的互联网广告风险监测方法,其特征在于,所述周期性地从互联网上采集数据具体采用定向或非定向的方式完成。
4.根据权利要求3所述的基于大数据架构的互联网广告风险监测方法,其特征在于,所述周期性地从互联网上采集数据包括:
建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;
建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接。
5.根据权利要求1所述的基于大数据架构的互联网广告风险监测方法,其特征在于,所述第三级神经网络中通过分词处理实现神经网络的训练,具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。
6.一种基于大数据架构的互联网广告风险监测系统,其特征在于,所述系统包括:数据采集层、数据汇聚层、数据存储层、数据分析层和数据应用层;
所述数据采集层,用于周期性地从互联网上采集数据,所述数据包括:文字数据和图片数据;
所述数据汇聚层,用于实时接入所采集数据,并对数据进行校验清洗以及图片初步识别;
所述数据存储层,用于将接入的数据进行存储入库;
所述数据分析层,用于将经过初步识别的图片输入第一级卷积神经网络,第一级卷积神经网络用于识别图片中的文字区域和图像区域;将识别出的图像区域和文字区域分别输入第二级神经网络得到图像区域识别结果和文字区域识别结果,所述图像区域识别结果包括识别图像是否为正常图像,或者识别图像为正常图像或非正常图像的概率;
将文字区域的识别结果与所述采集数据中直接得到的文字数据转化为文本向量一起输入第三级神经网络得到文字识别结果;
其中第三级神经网络同时通过两种模型的通道接收并行输入,该第三级神经网络中的每一通道分别包括卷积层,池化层和输出层;第一种模型为Skip-gram 模型,其用来接收采集数据中直接得到的文字数据;第二种模型为CBOW模型,用于接收文字区域中识别的结果;将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵的输出结果为文本的识别结果;
所述数据应用层,基于分析提取的文字识别结果和图像识别结果,结合违法行为特征库,提取出涉嫌违法的广告并建立涉嫌违法广告的分布式索引服务,提供实时查询服务。
7.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统,其特征在于,所述数据采集层采用定向或非定向的方式从互联网上采集数据。
8.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统,其特征在于,所述数据采集层包括:
第一建立模块,用于建立一组分布式爬虫作为信息提供者,递归地采集网页网址信息;
第二建立模块,用于建立另一组分布式爬虫作为信息消费者,根据网页网址实时采集网页文字内容和图片链接。
9.根据权利要求6所述的基于大数据架构的互联网广告风险监测系统,其特征在于,所述第三级神经网络中通过分词处理实现神经网络的训练,具体可以利用CRF算法进行分词处理;或者利用最大匹配分词算法进行分词处理;或者利用最小切分算法进行分词处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513239.0A CN112258254B (zh) | 2020-12-21 | 2020-12-21 | 基于大数据架构的互联网广告风险监测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011513239.0A CN112258254B (zh) | 2020-12-21 | 2020-12-21 | 基于大数据架构的互联网广告风险监测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112258254A true CN112258254A (zh) | 2021-01-22 |
CN112258254B CN112258254B (zh) | 2021-03-09 |
Family
ID=74224994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011513239.0A Active CN112258254B (zh) | 2020-12-21 | 2020-12-21 | 基于大数据架构的互联网广告风险监测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112258254B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379444A (zh) * | 2021-05-13 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
CN113761318A (zh) * | 2021-04-30 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种网页风险发现的方法 |
CN113971592A (zh) * | 2021-12-23 | 2022-01-25 | 成都易播科技有限公司 | 一种推广信息发布主体的监管评定方法、系统以及装置 |
CN114004645A (zh) * | 2021-10-29 | 2022-02-01 | 浙江省民营经济发展中心(浙江省广告监测中心) | 融媒体广告智慧监测平台和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US8799297B2 (en) * | 2011-03-21 | 2014-08-05 | Aol Inc. | Evaluating supply of electronic content relating to keywords |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108628923A (zh) * | 2017-11-28 | 2018-10-09 | 南京莱斯信息技术股份有限公司 | 一种基于互联网大数据的网络违法视频广告识别方法及系统 |
CN108733764A (zh) * | 2018-04-16 | 2018-11-02 | 优视科技有限公司 | 基于机器学习的广告过滤规则生成方法和广告过滤系统 |
CN109191191A (zh) * | 2018-08-20 | 2019-01-11 | 南京工业大学 | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 |
CN110019882A (zh) * | 2019-03-18 | 2019-07-16 | 星潮闪耀移动网络科技(中国)有限公司 | 一种广告创意分类方法及系统 |
JP6623186B2 (ja) * | 2017-02-28 | 2019-12-18 | 株式会社エヌ・ティ・ティ・データ | コンテンツ評価予測システム及びコンテンツ評価予測方法 |
CN110598075A (zh) * | 2019-08-21 | 2019-12-20 | 成都信息工程大学 | 一种基于人工智能的互联网媒体内容安全监测系统及方法 |
-
2020
- 2020-12-21 CN CN202011513239.0A patent/CN112258254B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US8799297B2 (en) * | 2011-03-21 | 2014-08-05 | Aol Inc. | Evaluating supply of electronic content relating to keywords |
JP6623186B2 (ja) * | 2017-02-28 | 2019-12-18 | 株式会社エヌ・ティ・ティ・データ | コンテンツ評価予測システム及びコンテンツ評価予測方法 |
CN108628923A (zh) * | 2017-11-28 | 2018-10-09 | 南京莱斯信息技术股份有限公司 | 一种基于互联网大数据的网络违法视频广告识别方法及系统 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108733764A (zh) * | 2018-04-16 | 2018-11-02 | 优视科技有限公司 | 基于机器学习的广告过滤规则生成方法和广告过滤系统 |
CN109191191A (zh) * | 2018-08-20 | 2019-01-11 | 南京工业大学 | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 |
CN110019882A (zh) * | 2019-03-18 | 2019-07-16 | 星潮闪耀移动网络科技(中国)有限公司 | 一种广告创意分类方法及系统 |
CN110598075A (zh) * | 2019-08-21 | 2019-12-20 | 成都信息工程大学 | 一种基于人工智能的互联网媒体内容安全监测系统及方法 |
Non-Patent Citations (1)
Title |
---|
AN TIEN VO ET AL.: "Advertisement Image Classification Using Convolutional Neural Network", 《2017 9TH INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SYSTEMS ENGINEERING(KSE)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761318A (zh) * | 2021-04-30 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种网页风险发现的方法 |
CN113379444A (zh) * | 2021-05-13 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
CN114004645A (zh) * | 2021-10-29 | 2022-02-01 | 浙江省民营经济发展中心(浙江省广告监测中心) | 融媒体广告智慧监测平台和电子设备 |
CN113971592A (zh) * | 2021-12-23 | 2022-01-25 | 成都易播科技有限公司 | 一种推广信息发布主体的监管评定方法、系统以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112258254B (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
Alam et al. | Processing social media images by combining human and machine computing during crises | |
Nguyen et al. | Automatic image filtering on social networks using deep learning and perceptual hashing during crises | |
CN110472090B (zh) | 基于语义标签的图像检索方法以及相关装置、存储介质 | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN108734184B (zh) | 一种对敏感图像进行分析的方法及装置 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN110059212A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN110457992A (zh) | 基于贝叶斯优化技术的行人重识别方法、装置和系统 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
US20130191368A1 (en) | System and method for using multimedia content as search queries | |
CN114371946B (zh) | 基于云计算和大数据的信息推送方法及信息推送服务器 | |
CN113537206B (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN115131065A (zh) | 一种基于计算机视觉的短视频沉浸式广告推广方法及系统 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
Dick et al. | Gas prices of america: The machine-augmented crowd-sourcing era | |
Sathianarayanan et al. | Extracting disaster location identification from social media images using deep learning | |
CN113627542A (zh) | 一种事件信息处理方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |