CN106354836A - 一种广告页面的预测方法和装置 - Google Patents
一种广告页面的预测方法和装置 Download PDFInfo
- Publication number
- CN106354836A CN106354836A CN201610788487.3A CN201610788487A CN106354836A CN 106354836 A CN106354836 A CN 106354836A CN 201610788487 A CN201610788487 A CN 201610788487A CN 106354836 A CN106354836 A CN 106354836A
- Authority
- CN
- China
- Prior art keywords
- page
- network model
- neural network
- output
- advertisement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种广告页面的预测方法和装置。本发明提供的广告页面的预测方法中,基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种广告页面的预测方法和装置。
背景技术
近年来,随着互联网的发展,电子政务、无纸化办公的实现,单位上网数据审计、上网行为管控产品得到了广泛应用。这些产品中都面临着正确区分正常网页和网页上附带的大量广告页面的问题,具体的,广告页面可以包括:广告、弹窗、推送页面。广告页面的问题已经成为制约产品可用性的关键。现有技术中,通常使用企业防火墙来拦截可疑页面,通常建立域名数据库和统一资源定位符(Uniform Resource Locator,URL)数据库的方式来控制白名单页面的访问,但是这种方式无法满足对广告页面的有效识别,仍无法阻止广告页面对用户的干扰。
发明内容
本发明的目的在于提供一种广告页面的预测方法和装置,用于对网页是否为广告页面进行预测。
为了达到上述目的,本发明采用这样的如下技术方案:
一方面,本发明提供一种广告页面的预测方法,包括:
获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;
使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一 化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;
将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。
另一方面,本发明提供一种广告页面的预测装置,包括:
样本页面获取模块,用于获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;
输入输出层构建模块,用于使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
模型构造模块,用于根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
训练数据配置模块,用于对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP 神经网络模型的期望输出层向量;
模型训练模块,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
页面预测模块,用于使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。
采用上述技术方案后,本发明提供的技术方案将有如下优点:
本发明的方法能够更准确出待测页面是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有的自学习和自适应能力,使得预测的结果相对准确。本发明基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。
附图说明
图1为本发明实施例提供一种广告页面的预测方法的算法流程示意图;
图2-a为本发明实施例提供的训练集的数据选择示意图;
图2-b为本发明实施例提供的错误集的数据选择示意图;
图2-c为本发明实施例提供的识别正确率的结果示意图;
图3为本发明实施例提供的广告页面的预测装置的组成结构示意图。
具体实施方式
本发明实施例提供了一种广告页面的预测方法和装置,用于对网页是否为广告页面进行预测。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。随着大数据处理技术的快速发展,机器学习、人工智能等技术得到了广泛应用。本发明实施例中,BP神经网络模型作为一种可以解决分类问题的机器学习算法在解决广告页面识别这个问题上,从而解决目前在广告页面识别上存在的极大难题。
本发明实施例可以采用神经网络作为广告页面的预测模型,其中,神经网络具体为本发明实施例描述的BP神经网络。首先建立用于广告页面预测的BP神经网络模型,在初始化时对BP神经网络模型进行参数设置,采集计算过程中使用的训练数据和测试数据,通过网络学习训练得到BP神经网络模型,训练完成后的BP神经网络模型可以用于对网页是否为广告页面的预测,
首先本发明实施例提供的一种广告页面的预测方法,具体可以包括如下步骤:
步骤(1)、获取页面数据集,页面数据集包括:多个正常页面和多个广告页面,正常页面包括:非广告页面。
其中,页面数据集是已知的页面集合,可以从网页历史数据库中提取出用于训练模型和测试模型的样本数据,其中,页面数据集中包括有大量的正常页面和大量的广告页面,其中,正常页面也称为正常网页,为非广告页面,正常网页指上网时浏览的主页面。广告页面指的是用户看到的主页面中嵌入 的一些“弹出窗口广告”、“页面上的浮动窗口”,还有页面中嵌入的如“百度推荐、淘宝推荐”等子页面,从在技术上,广告页面也作为一个独立的网页请求。
步骤(2)、使用页面解析器从页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,输入层神经元的个数和提取到的页面特征的个数相同。
在本发明实施例中,页面解析器也称为网页解析器,也可以称为“网页特征分析器”,它通过对网页代码内容的处理,获取如:页面总长度、页面中JS代码的长度、页面中包含图片数、页面中包含链接数等页面特征信息。需要说明的是,在实际应用中页面特征包括的维度和类型是多种多样的,具体可以结合应用场景来判断,例如页面是否包括标题(title)也可以是通过页面解析器从页面源代码中解析出的页面特征。
在本发明的一些实施例中,该页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。不限定的,页面特征可以只包括上述几种特征中的一些特征而不需要使用全部的特征,另外还可以结合场景来选择其它的特征。
步骤(3)、根据输入层神经元和输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定BP神经网络模型的期望误差、学习率和最大步长参数,BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元。
在本发明实施例中,BP神经网络模型在初始化时,还可以预先配置连接权值和阈值,其中,初始连接权值可以为权重为[-1,1]之间的较小的接近于0的随机值,设置BP神经网络模型的学习速率、期望误差、最大步数参数,其他参数根据计算精度和速度的需要进行设置。学习率决定着权重阈值的调整量,学习率选取过小,则每次权值的调整量就小,网络收敛速度慢。学习率选取过大,则每次权值的调整量就大,在实际应用中,学习率可以设置为0.1。
其中,BP神经网络模型的拓扑结构具体可以为输入层、隐藏层和输出层的前馈型神经网络结构,层与层之间采用全互连方式连接,同一层结点之间 无连接,隐藏层的神经元个数可以根据计算的需要确定,在实际应用中,用于计算待测页面为广告页面的预测值的BP神经网络模型具有自动网络学习训练能力,通过网络学习训练得出可用的BP神经网络模型来对页面进行预测。
在本发明的一些实施例中,BP神经网络模型中神经元的激活函数包括:S型函数sigmod()。
在本发明的一些实施例中,根据输入层神经元和输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,包括:
根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;
根据BP神经网络模型的输出层向量的维数确定BP神经网络模型的输出层神经元的个数为1;
根据输入层神经元的个数和输出层神经元的个数确定BP神经网络模型的隐藏层神经元的个数。
其中,从页面源代码中提取到的页面特征的个数为8个,BP神经网络模型的输入层神经元的个数为8个,如图1所示,该页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。本发明实施例输出层神经元的个数为1,即通过BP神经网络模型对待测页面进行计算后输出待测页面是为广告页面的预测值,因此只需要输出层神经元为1个,其中预测值可以为0到1的一个值,若该值取值越大则为广告页面的可能性越大。
在本发明的上述实施例中,根据输入层和输出层的神经元个数确定BP神经网络模型的隐藏层神经元个数,根据BP神经网络模型的应用经验,将隐藏神经元的数量设置为3至15个,隐藏神经元的具体数量需要根据实际的预测过程来确定,例如可以根据非线性函数的不同复杂程度和不同的预测精度,可以通过反复试验法和经验来确定中间神经元的数量,增加中间层神经元数量可以提高预测精度,但会使训练时间变长。
在本发明的一些实施例中,具体的,根据输入层神经元的个数和输出层神经元的个数确定BP神经网络模型的隐藏层神经元的个数,包括:
通过如下计算公式确定隐藏层神经元的个数:
其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的个数,n是取值大于或等于1的调整参数。
在本发明的上述实施例中,n是取值大于或等于1的调整参数,例如n是取值为大于1且小于15的常数,以待测页面为广告页面的预测为示例,隐藏层神经元的个数可以取9。另外,隐藏层神经元的传递函数可以采用S型正切函数,根据输出元素个数确定输出神经元数量,这里输出元素有1个预测值,输出
步骤(4)、对页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从页面数据归一化样本中选择包括页面特征的页面数据作为BP神经网络模型的输入层向量,将从页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为BP神经网络模型的期望输出层向量。
其中,归一化处理是将页面特征数据的值转换到从0至1的区间内,得到页面数据归一化样本,从页面数据归一化样本中选择包括页面特征的页面数据作为BP神经网络模型的输入层向量,将从页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为BP神经网络模型的期望输出层向量。
在本发明的一些实施例中,对页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,包括:
通过如下计算公式对页面数据集中的每个页面进行归一化处理,将每个页面的页面特征映射到从0至1的区间,该计算公式包括:
其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际值,f(x)表示网页特征的归一化值。
步骤(5)、将输入层向量输入到BP神经网络模型中进行网络学习训练,得到BP神经网络模型输出的实际输出向量,计算实际输出向量和期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将误差作为误差反向传播算法的输入数据对BP神经网络模型进行循环往复训练,直至 实际输出预测值与期望输出值之间的误差小于期望误差时,输出训练完成后的BP神经网络模型。
在本发明实施例中,BP神经网络模型以输入层变量为训练样本进行网络学习训练,网络学习训练由正向传播和反向传播两部分组成,其中,首先对正向传播进行说明,首先由输入层神经元传到隐含层神经元,经隐含层神经元处理后再传送到输出层,最后由输出层神经元处理并产生一个输出模式的值,作为本发明的输出变量集合。如果在输出层得不到期望的输出,则转入反向传播。接下来对反向传播进行说明,将误差信号沿原来的连接通路返回,更新连接权重及各层神经元的权重,从而减小误差信号。通过网络训练,使预测值和期望输出值的误差不断减小,直至小于期望误差。即可得到用于计算待测页面是否为广告页面的BP神经网络模型。
步骤(6)、使用页面解析器对待测页面的页面源代码进行解析,得到待测页面的网页特征,将待测页面的网页特征作为输入层向量输入到训练完成后的BP神经网络模型,通过训练完成后的BP神经网络模型输出对待测页面为广告页面的实际预测值。
本发明实施例中,利用BP神经网络模型良好的非线性逼近能力,实现对待测页面是否为广告页面的精确预测,应用本发明所述的方法能够提高广告页面的识别准确度。
通过前述实施例对本发明的举例说明可知,本发明的方法能够更准确出待测页面是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有的自学习和自适应能力,使得预测的结果相对准确。本发明基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应 用场景来进行具体说明。广告页面都是独立的嵌入在正常网页中的独立子页面,而这些广告页面与正常网页相比,在网页正文的结构、内容、特征上有着非统一但相对明显的区别。本发明依据这个特点,使用大量广告页面和正常页面作为BP神经网络模型的训练数据集,进行神经网络训练,在应用环境中,对每一个网页使用BP神经网络进行广告页面、正常网页的识别。
在模型训练阶段,首先获取大量的正常网页和广告页面,对每一个页面通过网页解析器进行特征获取,网页解析器,也可以成为网页特征分析器,它通过对网页代码内容的处理,获取如:页面总长度、页面中JS代码长度、页面中包含图片数、页面中包含链接数等页面特征信息,又如:网页title长度、title中包含的“推广、广告、推荐、合作、弹窗”等关键词的个数、网页数据长度、网页中js脚本长度、网页中图片数、网页中链接数等,将已知的页面作为单独的训练数据,并进行归一化处理归一化,也可以叫标准化,因为网页有不同特征,如网页文档的总字符长度、网页中是否包含某个关键词这些特征的取值,属于不同的参考系。在这里归一化可以实现不同的值统一到[0,1]之间的值,例如采用线性归一化函数f(x)=x-min/max–min,最终获得训练数据集。其次,BP神经网络模型的输入层神经元数由网页特征数确定,输出层神经元数为1个,隐藏层数和每层隐藏层神经元个数,可以采用多次学习,选择最优的方式来确定,因为神经网络中隐藏层中的神经元个数,对于不同的隐藏层数、神经元个数,确实会对网络最终的识别成功率有不小的影响。可以多尝试不同的值,找出最终识别成功率最高的作为最终网络结构的参数。输出层、隐藏层神经元都附加包含一个权值为1的偏置值。向前传播时,激活函数使用S型函数sigmod()。反向传播时,先计算出输出层神经元的误差,再计算其他隐藏层神经元的误差,权值修正时使用值为0.1的学习率。网络开始训练前,初始化所有权重为[-1,1]之间的较小的接近于0的随机值,利用训练数据集,使用每一条训练数据对网络进行前向传播、反向传播训练。直到网络的错误输出率达到可以接受的范围。在应用阶段,对每一个要识别的页面进行特征获取、归一化处理,然后作为BP神经网络的输入进行计算,网络的输出确定此页面是否为广告页面。
本发明实施例采用BP神经网络模型能够达到良好的广告页面识别效果, 为广告页面的识别提供了新途径;极大减轻开发人员维护“域名、URL”数据库的工作。整体上达到良好的识别效果。请参阅图2-a所示,是训练集网页数,包括正常网页1760个,广告页面1800个。正常网页指上网时浏览的主页面。广告页面指的是用户看到的主页面中嵌入的一些“弹出窗口广告”、“页面上的浮动窗口”,还有页面中嵌入的如“百度推荐、淘宝推荐”等子页面。图2-b所示是错误集,训练完毕后正常网页识别的错误数和广告页面识别的错误数,经过实测表明,本发明实施例训练完成后输出的BP神经网络模型对正常网页识别的错误数为32,对广告页面识别的错误数为46,如图2-c所示,是正常网页正确识别率和广告页面正确识别率,经过实测表明,本发明实施例训练完成后输出的BP神经网络模型对正常网页正确识别率为98.2%,本发明实施例训练完成后输出的BP神经网络模型对广告页面正确识别率为97.4%
在本发明实施例中,首先要获取一组网页并获取每个网页的页面特征,形成训练集,然后建立BP神经网络模型,对该网络模型进行训练,达到一个可以接受的误差率。应用到产品中时,对页面获取特征,作为网络的输入,网络的输出就是识别结果。基于BP神经网络作为机器学习算法,针对网页源码特征进行模式识别,可有效识别广告页面、“弹窗”等非主动请求的垃圾页面数据。
前述实施例介绍了本发明实施例提供的一种广告页面的识别方法,接下来介绍该广告页面的识别方法对应的广告页面的预测装置,如图3所示,广告页面的预测装置包括:
样本页面获取模块,用于获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;
输入输出层构建模块,用于使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
模型构造模块,用于根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经 网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
训练数据配置模块,用于对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;
模型训练模块,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
页面预测模块,用于使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。
在本发明的一些实施例中,所述模型构造模块,具体用于根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个数为1;根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。
在本发明的一些实施例中,从页面源代码中提取到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;
所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。
在本发明的一些实施例中,所述模型构造模块,具体用于通过如下计算公式确定所述隐藏层神经元的个数:
其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出 层神经元的个数,n是取值大于或等于1的调整参数。
在本发明的一些实施例中,所述训练数据配置模块,具体用于通过如下计算公式对所述页面数据集中的每个页面进行归一化处理,将每个页面的页面特征映射到从0至1的区间,该计算公式包括:
其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际值,f(x)表示网页特征的归一化值。
通过前述实施例对本发明的举例说明可知,本发明的方法能够更准确出待测页面是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有的自学习和自适应能力,使得预测的结果相对准确。本发明基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而 且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种广告页面的预测方法,其特征在于,包括:
获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;
使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;
将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。
2.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,包括:
根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;
根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个数为1;
根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。
3.根据权利要求2所述的一种广告页面的预测方法,其特征在于,从页面源代码中提取到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;
所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。
4.根据权利要求2所述的一种广告页面的预测方法,其特征在于,所述根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数,包括:
通过如下计算公式确定所述隐藏层神经元的个数:
其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的个数,n是取值大于或等于1的调整参数。
5.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述BP神经网络模型中神经元的激活函数包括:S型函数sigmod()。
6.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,包括:
通过如下计算公式对所述页面数据集中的每个页面进行归一化处理,将每个页面的页面特征映射到从0至1的区间,该计算公式包括:
其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际值,f(x)表示网页特征的归一化值。
7.一种广告页面的预测装置,其特征在于,包括:
样本页面获取模块,用于获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;
输入输出层构建模块,用于使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
模型构造模块,用于根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
训练数据配置模块,用于对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;
模型训练模块,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
页面预测模块,用于使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。
8.根据权利要求7所述的一种广告页面的预测装置,其特征在于,所述模型构造模块,具体用于根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个数为1;根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。
9.根据权利要求8所述的一种广告页面的预测装置,其特征在于,从页面源代码中提取到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;
所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。
10.根据权利要求7所述的一种广告页面的预测装置,其特征在于,所述训练数据配置模块,具体用于通过如下计算公式对所述页面数据集中的每个页面进行归一化处理,将每个页面的页面特征映射到从0至1的区间,该计算公式包括:
其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际值,f(x)表示网页特征的归一化值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610788487.3A CN106354836A (zh) | 2016-08-31 | 2016-08-31 | 一种广告页面的预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610788487.3A CN106354836A (zh) | 2016-08-31 | 2016-08-31 | 一种广告页面的预测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354836A true CN106354836A (zh) | 2017-01-25 |
Family
ID=57857586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610788487.3A Pending CN106354836A (zh) | 2016-08-31 | 2016-08-31 | 一种广告页面的预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354836A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885544A (zh) * | 2017-10-31 | 2018-04-06 | 广东欧珀移动通信有限公司 | 应用程序管控方法、装置、介质及电子设备 |
WO2018171189A1 (zh) * | 2017-03-21 | 2018-09-27 | 中兴通讯股份有限公司 | 一种浏览器广告拦截方法、装置及终端 |
CN108804469A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页识别方法以及电子设备 |
CN111919199A (zh) * | 2018-03-07 | 2020-11-10 | 艾玛迪斯简易股份公司 | 用于应用导航的神经网络系统和方法 |
CN112075068A (zh) * | 2018-05-03 | 2020-12-11 | 三星电子株式会社 | 电子设备及其操作方法 |
CN113837814A (zh) * | 2021-11-01 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 投放资源数量预测的方法、装置、可读介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108227A1 (en) * | 1997-10-01 | 2005-05-19 | Microsoft Corporation | Method for scanning, analyzing and handling various kinds of digital information content |
CN102138151A (zh) * | 2007-06-13 | 2011-07-27 | 微软公司 | 将图像分类为广告图像或非广告图像 |
CN103530367A (zh) * | 2013-10-12 | 2014-01-22 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
-
2016
- 2016-08-31 CN CN201610788487.3A patent/CN106354836A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108227A1 (en) * | 1997-10-01 | 2005-05-19 | Microsoft Corporation | Method for scanning, analyzing and handling various kinds of digital information content |
CN102138151A (zh) * | 2007-06-13 | 2011-07-27 | 微软公司 | 将图像分类为广告图像或非广告图像 |
CN103530367A (zh) * | 2013-10-12 | 2014-01-22 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
Non-Patent Citations (2)
Title |
---|
LINGXIALI_2007: "BP神经网络隐藏层节点数如何确定", 《WWW.ILOVEMATLAB.CN/THREAD-209458-1-1.HTML》 * |
邢进良: "BP神经网络模型及其应用", 《沙洋师范高等专科学校学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018171189A1 (zh) * | 2017-03-21 | 2018-09-27 | 中兴通讯股份有限公司 | 一种浏览器广告拦截方法、装置及终端 |
CN108628888A (zh) * | 2017-03-21 | 2018-10-09 | 中兴通讯股份有限公司 | 一种浏览器广告拦截方法、装置及终端 |
CN108804469A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页识别方法以及电子设备 |
CN108804469B (zh) * | 2017-05-04 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种网页识别方法以及电子设备 |
CN107885544A (zh) * | 2017-10-31 | 2018-04-06 | 广东欧珀移动通信有限公司 | 应用程序管控方法、装置、介质及电子设备 |
CN111919199A (zh) * | 2018-03-07 | 2020-11-10 | 艾玛迪斯简易股份公司 | 用于应用导航的神经网络系统和方法 |
CN111919199B (zh) * | 2018-03-07 | 2024-06-04 | 艾玛迪斯简易股份公司 | 用于应用导航的神经网络系统和方法 |
CN112075068A (zh) * | 2018-05-03 | 2020-12-11 | 三星电子株式会社 | 电子设备及其操作方法 |
US11893063B2 (en) | 2018-05-03 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
CN113837814A (zh) * | 2021-11-01 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 投放资源数量预测的方法、装置、可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106354836A (zh) | 一种广告页面的预测方法和装置 | |
CN109408731A (zh) | 一种多目标推荐方法、多目标推荐模型生成方法以及装置 | |
CN114265979B (zh) | 确定融合参数的方法、信息推荐方法和模型训练方法 | |
CN106909990A (zh) | 一种基于历史数据的预测方法及装置 | |
CN111861569A (zh) | 产品信息推荐方法及装置 | |
CA2436352A1 (en) | Process and system for developing a predictive model | |
CN111416797B (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
CN104992347A (zh) | 一种视频匹配广告的方法及装置 | |
CN112785005B (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN110009486A (zh) | 一种欺诈检测的方法、系统、设备及计算机可读存储介质 | |
US11836590B2 (en) | User intent classification using a multi-agent reinforcement learning framework | |
CN111311324B (zh) | 基于稳定神经协同过滤的用户-商品偏好预测系统和方法 | |
CN112819024A (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN114117203B (zh) | 一种短视频推荐方法、系统及设备 | |
CN115186192A (zh) | 信息处理方法、装置、存储介质及设备 | |
CN113791909B (zh) | 服务器容量调整方法、装置、计算机设备及存储介质 | |
CN116975686A (zh) | 训练学生模型的方法、行为预测方法和装置 | |
Kajiura et al. | Solving large scale puzzles with neural networks | |
CN110544124A (zh) | 一种基于模糊神经网络的废旧手机定价方法 | |
CN115018627A (zh) | 一种信用风险评价方法及装置、存储介质及电子设备 | |
CN115858926A (zh) | 基于用户的复杂多模式兴趣提取与建模的序列推荐方法 | |
KR20230033071A (ko) | Gru 기반 구조물 시계열 응답 예측 방법 | |
CN113344071A (zh) | 一种基于深度策略梯度的入侵检测算法 | |
CN111179070A (zh) | 一种基于lstm的借贷风险时效性预测系统及方法 | |
CN111563767A (zh) | 股票价格预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |