CN109241437A - 一种广告识别模型的生成方法、广告识别方法及系统 - Google Patents
一种广告识别模型的生成方法、广告识别方法及系统 Download PDFInfo
- Publication number
- CN109241437A CN109241437A CN201811094530.1A CN201811094530A CN109241437A CN 109241437 A CN109241437 A CN 109241437A CN 201811094530 A CN201811094530 A CN 201811094530A CN 109241437 A CN109241437 A CN 109241437A
- Authority
- CN
- China
- Prior art keywords
- elements
- advertisement
- webpage
- probability
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种广告识别模型的生成方法、广告识别方法、计算设备、移动终端及广告识别系统,广告识别模型的生成方法包括:接收各移动终端上报的用户访问行为和网页页面信息,用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,网页页面信息包括网页中各元素关联的元素标识和第二元素信息;对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源;若是,将该元素标识所关联的元素标记为图片元素,计算该图片元素的处理频率信息;结合各图片元素的处理频率信息和第二元素信息,生成用于对各图片元素进行广告元素概率计算的广告识别模型。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种广告识别模型的生成方法、广告识别方法、计算设备、移动终端及广告识别系统。
背景技术
当用户使用浏览器访问网页时,网页中经常会出现形式各样的广告,这无疑对用户的浏览体验造成了不好的影响。因此,在用户访问网页时,需要先对网页中的广告进行识别,以便后续对识别出的广告进行相应处理来提升用户体验。
目前,浏览器中广告识别多是采用第三方或者自身平台收集完善的广告规则库,进而对广告的URL(Uniform Resource Locator,统一资源定位符)链接进行相应地规则匹配,以实现广告的识别功能。然而,如今的互联网日新月异,各种网页广告形式各样,规则万千,即使对广告规则库进行不断地更新补充也只能识别出一些主流形式的广告,而且还耗费了额外的资源。因此,需要提供一种新的广告识别方法以优化上述处理过程。
发明内容
为此,本发明提供一种广告识别模型的生成方案,并基于该方案提出了一种广告识别方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种广告识别模型的生成方法,适于在网络服务器中执行,网络服务器与多个移动终端通信连接,该方法包括如下步骤:首先,接收各移动终端上报的用户访问行为和网页页面信息,用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,网页页面信息包括网页中各元素关联的元素标识和第二元素信息;对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源;若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息;结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。
可选地,在根据本发明的广告识别模型的生成方法中,处理频率信息包括元素的点击频率和关闭频率,生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤包括:对每一个图片元素,计算该图片元素的点击频率与关闭频率的比值,将该比值作为该图片元素的第一分值;基于预设的评分规则,获取与该图片元素的位置信息对应的分值作为其第二分值,获取与该图片元素的滚动标记对应的分值作为其第三分值;根据预设的分值计算规则,将该图片元素的第一分值、第二分值和第三分值进行加权处理,以生成该图片元素的初始分值;以各图片元素的处理频率信息和第二元素信息为输入数据、初始分值为输出数据,拟合生成用于计算各图片元素的广告元素概率的广告识别模型。
可选地,在根据本发明的广告识别模型的生成方法中,还包括:对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取广告识别模型的输出作为该图片元素的广告元素概率;将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于网络服务器中。
可选地,在根据本发明的广告识别模型的生成方法中,还包括:接收各移动终端上报的待识别元素的元素标识;对接收到的每一个元素标识,从广告元素概率分值表中查找该元素标识对应的广告元素概率;关联该元素标识与其对应的广告元素概率以形成识别结果,将该识别结果下发至对应的移动终端。
可选地,在根据本发明的广告识别模型的生成方法中,在生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤之后,还包括:接收各移动终端上报的用户访问行为和/或网页页面信息;定期根据接收到的用户访问行为和/或网页页面信息对广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的广告识别模型的生成方法的指令。
根据本发明的又一个方面,提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的广告识别模型的生成方法。
根据本发明的又一个方面,提供一种广告识别方法,适于在移动终端中执行,该移动终端与网络服务器通信连接,网络服务器中存储有广告元素概率分值表,广告元素概率分值表中关联存储有网页中图片元素的元素标识与对应的广告元素概率,该方法包括如下步骤:首先,获取用户输入的当前URL链接对应网页中的各元素;将对应于图片资源的元素标记为待识别元素;将各待识别元素的元素标识上传至网络服务器,以指示网络服务器通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至移动终端;根据从网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合;根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素。
可选地,在根据本发明的广告识别方法中,移动终端中还存储有广告规则集合,广告规则集合包括一条或多条广告匹配规则,每条广告匹配规则适于确定网页中的相应元素是否为广告元素,在将对应于图片资源的元素标记为待识别元素的步骤前,该方法还包括:对每一个元素,根据广告规则集合中的各广告匹配规则,对该元素进行匹配处理;若匹配结果指示该元素为广告元素,则将该元素添加至预设的第二广告元素集合。
可选地,在根据本发明的广告识别方法中,每条广告匹配规则具有对应的规则类型,根据广告规则集合中的各广告匹配规则,对该元素进行匹配处理的步骤包括:获取该元素所包含的跳转链接;对跳转链接进行分类处理,以确定其对应的规则类型;将跳转链接对应的规则类型所关联的各广告匹配规则依次与该跳转链接进行匹配。
可选地,在根据本发明的广告识别方法中,网络服务器通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率的步骤包括:对接收到的每一个元素标识,从广告元素概率分值表中查找该元素标识对应的广告元素概率;关联该元素标识与其对应的广告元素概率以形成识别结果。
可选地,在根据本发明的广告识别方法中,根据从网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合的步骤包括:对每一个待识别元素,判断该待识别元素在识别结果中对应的广告元素概率是否大于预设的分值阈值;集合各广告元素概率不大于分值阈值的待识别元素,以形成第一广告元素集合。
可选地,在根据本发明的广告识别方法中,在根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素的步骤之前,还包括:对第一广告元素集合中每一个元素,获取该元素所包含的跳转链接,对该跳转链接进行后台预加载以获取实际访问网页的URL链接;判断该实际访问网页的URL链接中的域名与当前URL链接中的域名是否一致;若一致,则将元素从第一广告元素集合中移除。
可选地,在根据本发明的广告识别方法中,还包括指示网络服务器预先生成广告元素概率分值表,网络服务器与多个移动终端通信连接,预先生成广告元素概率分值表的步骤包括预先生成用于对各图片元素进行广告元素概率计算的广告识别模型,预先生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤包括:接收各移动终端上报的用户访问行为和网页页面信息,用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,网页页面信息包括网页中各元素关联的元素标识和第二元素信息;对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源;若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息;结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。
可选地,在根据本发明的广告识别方法中,预先生成广告元素概率分值表的步骤包括:对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取广告识别模型的输出作为该图片元素的广告元素概率;将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于网络服务器中。
可选地,在根据本发明的广告识别方法中,还包括:在当前URL链接对应网页加载完毕后,收集用户对该网页的用户访问行为;将用户访问行为和/或网页页面信息发送至网络服务器,以指示网络服务器定期根据接收到的用户访问行为和/或网页页面信息,对广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。
根据本发明的又一个方面,提供一种移动终端,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的广告识别方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由移动终端执行时,使得移动终端执行根据本发明的广告识别方法。
根据本发明的又一个方面,还提供一种广告识别系统,该系统包括网络服务器和与网络服务器通信连接的一个或多个移动终端,网络服务器中存储有广告元素概率分值表,广告元素概率分值表中关联存储有网页中图片元素的元素标识与对应的广告元素概率。其中,移动终端适于获取用户输入的当前URL链接对应网页中的各元素,将对应于图片资源的元素标记为待识别元素,将各待识别元素的元素标识上传至网络服务器,以指示网络服务器通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率并形成相应的识别结果下发,根据从网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合,根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素;网络服务器,适于对每一个移动终端,接收该移动终端上传的待识别元素的元素标识,通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至该移动终端。
根据本发明的广告识别模型的生成方案,先接收各移动终端上报的相关信息,根据相关信息中与元素标识关联的元素信息,确定各图片元素的处理频率信息,再基于预设的评分规则生成用于对图片元素进行广告元素概率计算的广告识别模型。在上述方案中,在生成广告识别模型时,对每一个图片元素,计算该图片元素的点击频率与关闭频率的比值作为第一分值,从评分规则中分别获取与该图片元素的位置信息、滚动标记对应的分值作为第二分值、第三分值,对第一分值、第二分值和第三分值加权处理后生成该图片元素的初始分值,以各图片元素的处理频率信息、位置信息和滚动标记为输入数据、初始分值为输出数据,拟合生成广告识别模型。进一步的,利用该广告识别模型计算各图片元素的广告元素概率,与相应元素标识关联后形成广告元素概率分值表,在保证识别准确性的前提下,方便接收到移动终端的请求后进行概率分值查询,无需重复计算概率,提高了效率。
进而,根据本发明的广告识别方法,将用户输入的当前URL链接对应网页中的、对应于图片资源的元素标记为待识别元素,将各待识别元素的元素标识上传至网络服务器,以指示网络服务器通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发,根据接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合,进而确定当前URL链接对应网页中的各元素是否为广告元素。在上述方案中,为提高广告识别的成功率,在将对应于图片资源的元素标记为待识别元素之前,对每一个元素,根据广告规则集合中的各广告匹配规则,对该元素进行匹配处理,若匹配结果指示该元素为广告元素,则将该元素添加至预设的第二广告元素集合,最后结合第一广告元素集合和第二广告元素集合,确定对当前URL链接对应网页中的各元素是否为广告元素,通过多维度广告识别可以对目前广告规则库拦截的方式进行补充扩展,采用与识别模型相结合的方式,实现了基于用户行为及页面信息对广告进行较为完善精准的识别。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的广告识别系统100的示意图;
图2示出了根据本发明的一个实施例的计算设备200的结构框图;
图3示出了根据本发明一个实施例的广告识别模型的生成方法300的流程图;
图4示出了根据本发明的一个实施例的移动终端400的示意图;以及
图5示出了根据本发明的一个实施例的广告识别方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的广告识别系统100的示意图。应当指出,图1中的广告识别系统100仅是示例性的,在具体的实践情况中,广告识别系统100可以有不同数量的网络服务器和移动终端,本发明对广告识别系统100中所包括的网络服务器和移动终端的数量不做限制。如图1所示,网络服务器800分别与移动终端400、600和700通信连接,移动终端400、600和700可以是智能手机、平板电脑等,但不限于此。网络服务器800中存储有广告元素概率分值表,该广告元素概率分值表中关联存储有网页中图片元素的元素标识与对应的广告元素概率。以下将以移动终端400为例进行广告识别技术方案的说明。
具体来说,移动终端400获取用户输入的当前URL链接对应网页中的各元素,将对应于图片资源的元素标记为待识别元素,将各待识别元素的元素标识上传至网络服务器800,以指示网络服务器800通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率并形成相应的识别结果下发。网络服务器800接收移动终端400上传的待识别元素的元素标识,通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至移动终端400。移动终端400根据从网络服务器800接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合,根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素。其中,广告元素概率分值表是通过网络服务器800基于广告识别模型计算得出的,而广告识别模型需要预先生成,为便于理解,下面先对网络服务器800中生成广告识别模型的过程进行说明。
图2示出了根据本发明一个实施例的计算设备200的结构框图。在基本配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据226。在一些实施方式中,程序222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置102经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备200可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备200实现为网络服务器800,并被配置为执行根据本发明的广告识别模型的生成方法300。其中,计算设备200的一个或多个程序222包括用于执行根据本发明的广告识别模型的生成方法300的指令。
图3示出了根据本发明一个实施例的广告识别模型的生成方法300的流程图。如图3所示,方法300始于步骤S310,在步骤S310中,接收各移动终端上报的用户访问行为和网页页面信息,用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,网页页面信息包括网页中各元素关联的元素标识和第二元素信息。其中,第一元素信息包括元素的点击次数和关闭次数,第二元素信息包括元素的位置信息和滚动标记。
在该实施方式中,点击次数为用户对当前元素点击的次数,关闭次数为用户点击元素后页面不跳转当前元素被隐藏的次数,位置信息为元素在当前页面中的大体位置,如页面顶部、中间或底部等,滚动标记则是指元素是否跟随页面滚动。
根据本发明的一个实施例,网络服务器800接收移动终端400、600和700上报的用户访问行为和网页页面信息,以移动终端400为例,其所上报的用户行为包括元素A1关联的元素标识ID1、第一元素信息B1、资源属性C1以及展示次数D1,网页页面信息包括元素A1关联的元素标识ID1和第二元素信息E1。其中,第一元素信息B1包括元素A1的点击次数F1和关闭次数G1,第二元素信息E1包括元素A1的位置信息H1和滚动标记I1。
表1示出了根据本发明的一个实施例的网络服务器800接收到的用户访问行为和网页页面信息的示例,具体如下所示:
表1
从表1可知,移动终端400上报了元素A1的相关信息,移动终端600上报了元素A2的相关信息,移动终端700上报了元素A1和A2的相关信息。
随后,进入步骤S320,对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源。根据本发明的一个实施例,以元素标识ID1为例,对该元素标识来说,其所关联的元素A1的资源属性是C1,为图片资源,则执行步骤S330,若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息。其中,处理频率信息包括元素的点击频率和关闭频率。点击频率为元素的总点击次数相比于其所在网页对用户的总展示次数,关闭频率为元素的总关闭次数相比于其所在网页对用户的总展示次数。在该实施方式中,元素标识ID1所关联的元素A1标记为图片元素,则根据图片元素A1的点击次数F1、F3和关闭次数G1、G3,计算出其点击频率为(F1+F3)/(D1+D3),关闭频率为(G1+G3)/(D1+D3)。
最后,在步骤S340中,结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。根据本发明的一个实施例,评分规则主要是针对第二元素信息所包括的位置信息和滚动标记而预先设置的。根据一个元素处于页面的位置不同,会设定相应的分值来表明该位置对元素为广告元素在概率上的影响,通常当位置信息为顶部或底部时,其对应的分值设置为0.8,表明用户对该位置处的元素厌恶程度较低,是广告的概率较小,而当位置信息为中部等其他位置时,其对应的分值设置为0.2,表明用户对该位置处的元素厌恶程度较高,是广告的概率较大。对滚动标记而言,会基于一个元素是否随页面滚动,再结合元素的位置信息来设定相应的分值,以表明随页面滚动与否对是否为广告元素在概率上所产生的影响。当滚动标记反映元素随页面滚动时,若该元素的位置信息为顶部或底部,则将其对应的分值设置为0.5,反之设置为0.5,当滚动标记反映元素不随页面滚动时,若该元素的位置信息为顶部或底部,则将其对应的分值设置为0.7,反之设置为0.3。关于评分规则的预先设置,可根据实际应用场景、网页类型、系统配置和性能要求等进行适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
在该实施方式中,可通过如下方式生成用于对各图片元素进行广告元素概率计算的广告识别模型。首先,对每一个图片元素,计算该图片元素的点击频率与关闭频率的比值,将该比值作为该图片元素的第一分值,再基于预设的评分规则,获取与该图片元素的位置信息对应的分值作为其第二分值,获取与该图片元素的滚动标记对应的分值作为其第三分值,根据预设的分值计算规则,将该图片元素的第一分值、第二分值和第三分值进行加权处理,以生成该图片元素的初始分值,以各图片元素的处理频率信息和第二元素信息为输入数据、初始分值为输出数据,拟合生成用于计算各图片元素的广告元素概率的广告识别模型。需要说明的是,上述加权处理及拟合生成模型的具体方法,可参考如曲线拟合的现有成熟技术,此处不再赘述。
在生成了广告识别模型之后,根据本发明的又一个实施例,对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取广告识别模型的输出作为该图片元素的广告元素概率,并将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于网络服务器800中。表2示出了根据本发明的一个实施例的广告元素概率分值表,具体如下所示:
元素标识 | 广告元素概率 |
ID1 | 0.32 |
ID2 | 0.95 |
ID3 | 0.85 |
…… | …… |
ID99 | 1.61 |
ID100 | 0.77 |
表2
在生成广告元素概率分值表之后,网络服务器800会接收各移动终端上报的待识别元素的元素标识,对接收到的每一个元素标识,从广告元素概率分值表中查找该元素标识对应的广告元素概率,关联该元素标识与其对应的广告元素概率以形成识别结果,将该识别结果下发至对应的移动终端。根据本发明的一个实施例,当移动终端400上报的待识别元素的元素标识为ID1时,网络服务器800从广告元素概率分值表中查找元素标识ID1对应的广告元素概率为0.32,关联元素标识ID1与其对应的广告元素概率0.32以形成识别结果并下发至移动终端400。
此外,考虑到用户每次访问网页时,相应的用户访问行为会有所不同,对网页中元素是否为广告元素也会产生一定影响,因此需要定期更新广告识别模型,并基于新的广告识别模型来计算出新的广告元素概率分值表。根据本发明的又一个实施例,在生成用于对各图片元素进行广告元素概率计算的广告识别模型后,接收各移动终端上报的用户访问行为和/或网页页面信息,定期根据接收到的用户访问行为和/或网页页面信息对所述广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。
图4示出了根据本发明一个实施例的移动终端400的结构框图。移动终端400可以包括存储器接口402、一个或多个数据处理器、图像处理器和/或中央处理单元404、显示屏幕(图4中未示出),以及外围接口406。
存储器接口402、一个或多个处理器404和/或外围接口406既可以是分立元件,也可以集成在一个或多个集成电路中。在移动终端400中,各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口406,以便帮助实现多种功能。
例如,运动传感器410、光线传感器412和距离传感器414可以耦合到外围接口406,以方便定向、照明和测距等功能。其他传感器416同样可以与外围接口406相连,例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备,由此可以帮助实施相关的功能。
相机子系统420和光学传感器422可以用于方便诸如记录照片和视频剪辑的相机功能的实现,其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(厘米OS)光学传感器。可以通过一个或多个无线通信子系统424来帮助实现通信功能,其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统424的特定设计和实施方式可以取决于移动终端400所支持的一个或多个通信网络。例如,移动终端400可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及BlueboothTM网络的通信子系统424。
音频子系统426可以与扬声器428以及麦克风430相耦合,以便帮助实施启用语音的功能,例如语音识别、语音复制、数字记录和电话功能。I/O子系统440可以包括触摸屏控制器442和/或一个或多个其他输入控制器444。触摸屏控制器442可以耦合到触摸屏446。举例来说,该触摸屏446和触摸屏控制器442可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停,其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器444可以耦合到其他输入/控制设备448,例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器428和/或麦克风430音量的向上/向下按钮。
存储器接口402可以与存储器450相耦合。该存储器450可以包括高速随机存取存储器和/或非易失性存储器,例如一个或多个磁盘存储设备,一个或多个光学存储设备,和/或闪存存储器(例如NAND,NOR)。存储器450可以存储操作系统472,例如Android、iOS或是Windows Phone之类的操作系统。该操作系统472可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器450还可以存储一个或多个程序474。在移动设备运行时,会从存储器450中加载操作系统472,并且由处理器404执行。程序474在运行时,也会从存储器450中加载,并由处理器404执行。程序474运行在操作系统之上,利用操作系统以及底层硬件提供的接口实现各种用户期望的功能,如即时通信、网页浏览、图片管理等。程序474可以是独立于操作系统提供的,也可以是操作系统自带的。另外,程序474被安装到移动终端400中时,也可以向操作系统添加驱动模块。程序474可以布置为在操作系统上由一个或多个处理器404执行相关的指令。在一些实施例中,移动终端400被配置为执行根据本发明的广告识别方法500。其中,移动终端400的一个或多个程序474包括用于执行根据本发明的广告识别方法500的指令。
图5示出了根据本发明的一个实施例的广告识别方法500的流程图。如图5所示,方法500始于步骤S510。在步骤S510中,获取用户输入的当前URL链接对应网页中的各元素。根据本发明的一个实施例,用户输入的当前URL链接为https://www.iplaysoft.com/windows7-msdn-iso.html,则先获取该URL链接对应网页中的各元素。这里的元素,可以理解为组成网页对应DOM(Document Object Mode,文档对象模型)树的节点。
随后,进入步骤S520,将对应于图片资源的元素标记为待识别元素。根据本发明的一个实施例,对应于图片资源的元素为资源属性为图片资源的元素,则将资源属性为图片资源的元素A1和A2均标记为待识别元素。
接下来,在步骤S530中,将各待识别元素的元素标识上传至网络服务器800,以指示网络服务器800通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至移动终端400。根据本发明的一个实施例,网络服务器800可如下方式获取接收到的各元素标识关联的广告元素概率。首先,对接收到的每一个元素标识,从广告元素概率分值表中查找该元素标识对应的广告元素概率,再关联该元素标识与其对应的广告元素概率以形成识别结果。
在该实施方式中,移动终端400将待识别元素A1和A2的元素标识ID1和ID2均上传至网络服务器800,以指示网络服务器800通过广告元素概率分值表,获取元素标识ID1和ID2关联的广告元素概率。网络服务器800从广告元素概率分值表中查找到元素标识ID1和ID2对应的广告元素概率分别是0.32和0.95,关联元素标识ID1与其对应的广告元素概率0.32,关联元素标识ID2与其对应的广告元素概率0.95,以形成识别结果下发至移动终端400。
在步骤S540中,根据从网络服务器800接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合。根据本发明的一个实施例,可通过如下方式来生成第一广告元素集合。首先,对每一个待识别元素,判断该待识别元素在识别结果中对应的广告元素概率是否大于预设的分值阈值,然后集合各广告元素概率不大于分值阈值的待识别元素,以形成第一广告元素集合。其中,分值阈值预设为1。在该实施方式中,对待识别元素A1来说,其在识别结果中对应的广告元素概率为元素标识ID1所关联的概率值0.32,小于分值阈值1,而待识别元素A2在识别结果中对应的广告元素概率为元素标识ID2所关联的概率值0.95,也小于分值阈值1,则集合待识别元素A1和A2以形成第一广告元素集合。
最后,执行步骤S550,根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素。根据本发明的一个实施例,第一广告元素集合包括待识别元素A1和A2,对应的元素标识分别是ID1和ID2,则可确定当前URL链接对应网页中元素标识为ID1和ID2的元素为广告元素。
由于上述分值阈值通常是一个经验值,若一个元素的广告元素概率与分数阈值非常接近,则可能会出现误判,为了避免这一情况的出现,考虑通过元素所包含的跳转链接对第一广告元素集合中的元素进行二次判断,以确保第一广告元素集合只包括广告元素。根据本发明的又一个实施例,在根据第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素之前,对第一广告元素集合中每一个元素,获取该元素所包含的跳转链接,对该跳转链接进行后台预加载以获取实际访问网页的URL链接,判断该实际访问网页的URL链接中的域名与当前URL链接中的域名是否一致,若一致,则将元素从第一广告元素集合中移除。
在该实施方式中,第一广告元素集合中包括元素A1和A2,对元素A1所包含的跳转链接进行后台预加载后,所获取到的实际访问网页的URL链接中的域名为cpro.baidustatic.com,与当前URL链接中的域名iplaysoft.com不一致,则将元素A1保留在第一广告元素集合中,而对元素A2所包含的跳转链接进行后台预加载后,所获取到的实际访问网页的URL链接中的域名为iplaysoft.com,与当前URL链接中的域名iplaysoft.com一致,则将元素A2从第一广告元素集合中移除。此时,第一广告元素集合中只包括元素A1,则可确定当前URL链接对应网页中元素标识为ID1的元素为广告元素。
为了提高用户体验,根据本发明的又一个实施例,对当前URL链接对应网页中为广告元素的元素,以空字符串置换该元素以将其过滤。完成过滤处理后,所呈现给用户的网页页面中不再有广告。
此外,对于支持用户标记网页中广告资源的应用,可结合这一标记功能来进一步拦截广告元素。根据本发明的又一个实施例,当当前URL链接对应网页请求完毕时,判断该网页是否包含用户预先标记过的广告元素,若是,则对当前URL链接进行拼接,调用预置的JS方法以设置该网页中所包含的、用户预先标记过的广告元素的相应属性为隐藏,即遍历广告资源标记与页面元素的CSS(Cascading Style Sheets,层叠样式表)属性elementsFromCss相匹配,然后设置其style值为隐藏,例如display=”none”、height=”0px”、position=”absolute”、left=”-1000px”等。
为了尽量提升广告识别的精确度,通过广告规则集合来对网页中的元素预先匹配,再根据匹配结果来进行后续识别处理。根据本发明的又一个实施例,移动终端400中还存储有广告规则集合,广告规则集合包括一条或多条广告匹配规则,每条广告匹配规则适于确定网页中的相应元素是否为广告元素,在将对应于图片资源的元素标记为待识别元素之前,对每一个元素,根据所述广告规则集合中的各广告匹配规则,对该元素进行匹配处理,若匹配结果指示该元素为广告元素,则将该元素添加至预设的第二广告元素集合。
在该实施方式中,每条广告匹配规则具有对应的规则类型,如end with”$third-party”、start with”||”、”#@#”、”##”等,基于规则类型对所有广告匹配规则进行分组,以便根据不同组进行相应匹配。以下为广告匹配规则的部分示例:
/adintrs/*
/adpfile/*
/adpro.js
/adpuba/*
/adpv?cn=
/adsfactor_ab
/AdverJS/*
/advpic/*
具体的,在根据广告规则集合中的各广告匹配规则,对该元素进行匹配处理时,先获取该元素所包含的跳转链接,对该跳转链接进行分类处理,以确定其对应的规则类型,将跳转链接对应的规则类型所关联的各广告匹配规则依次与该跳转链接进行匹配。当形成了第二广告元素集合后,标记为待识别元素的对应于图片资源的元素,为未添加至第二广告元素集合、资源属性为图片资源的元素,后续移动终端400将结合第一广告元素集合和第二广告元素集合,确定对当前URL链接对应网页中的各元素是否为广告元素。
根据本发明的又一个实施例,方法500还包括移动终端400指示网络服务器800预先生成广告元素概率分值表。网络服务器800若要生成广告元素概率分值表,还需要先生成用于对各图片元素进行广告元素概率计算的广告识别模型。在生成广告识别模型时,网络服务器800接收各移动终端上报的用户访问行为和网页页面信息,用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,网页页面信息包括网页中各元素关联的元素标识和第二元素信息,对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源,若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息,结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。完成广告识别模型的生成后,对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取广告识别模型的输出作为该图片元素的广告元素概率,将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于网络服务器800中。
考虑到广告识别模型与广告元素概率分值表定期更新的需求,根据本发明的又一个实施例,在当前URL链接对应网页加载完毕后,收集用户对该网页的用户访问行为,将用户访问行为和/或网页页面信息发送至网络服务器800,以指示网络服务器800定期根据接收到的用户访问行为和/或网页页面信息,对广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。上述关于预先生成、更新广告识别模型和广告元素概率分值表的过程,可参照方法300中相应的处理步骤,此处不予以赘述。
现有的广告识别方法多是采用第三方或者自身平台收集完善的广告规则库,进而对广告的URL链接进行相应地规则匹配,以实现广告的识别功能,但通常只能识别出一些主流形式的广告,还耗费了额外的资源。根据本发明实施例的广告识别模型的生成方案,先接收各移动终端上报的相关信息,根据相关信息中与元素标识关联的元素信息,确定各图片元素的处理频率信息,再基于预设的评分规则生成用于对图片元素进行广告元素概率计算的广告识别模型。在上述方案中,在生成广告识别模型时,对每一个图片元素,计算该图片元素的点击频率与关闭频率的比值作为第一分值,从评分规则中分别获取与该图片元素的位置信息、滚动标记对应的分值作为第二分值、第三分值,对第一分值、第二分值和第三分值加权处理后生成该图片元素的初始分值,以各图片元素的处理频率信息、位置信息和滚动标记为输入数据、初始分值为输出数据,拟合生成广告识别模型。进一步的,利用该广告识别模型计算各图片元素的广告元素概率,与相应元素标识关联后形成广告元素概率分值表,在保证识别准确性的前提下,方便接收到移动终端的请求后进行概率分值查询,无需重复计算概率,提高了效率。进而,根据本发明实施例的广告识别方法,将用户输入的当前URL链接对应网页中的、对应于图片资源的元素标记为待识别元素,将各待识别元素的元素标识上传至网络服务器,以指示网络服务器通过广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发,根据接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合,进而确定当前URL链接对应网页中的各元素是否为广告元素。在上述方案中,为提高广告识别的成功率,在将对应于图片资源的元素标记为待识别元素之前,对每一个元素,根据广告规则集合中的各广告匹配规则,对该元素进行匹配处理,若匹配结果指示该元素为广告元素,则将该元素添加至预设的第二广告元素集合,最后结合第一广告元素集合和第二广告元素集合,确定对当前URL链接对应网页中的各元素是否为广告元素,通过多维度广告识别可以对目前广告规则库拦截的方式进行补充扩展,采用与识别模型相结合的方式,实现了基于用户行为及页面信息对广告进行较为完善精准的识别。
B10.如B6-8中任一项所述的方法,所述根据从所述网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合的步骤包括:
对每一个待识别元素,判断该待识别元素在识别结果中对应的广告元素概率是否大于预设的分值阈值;
集合各广告元素概率不大于所述分值阈值的待识别元素,以形成第一广告元素集合。
B11.如B6-8中任一项所述的方法,在根据所述第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素的步骤之前,还包括:
对第一广告元素集合中每一个元素,获取该元素所包含的跳转链接,对该跳转链接进行后台预加载以获取实际访问网页的URL链接;
判断该实际访问网页的URL链接中的域名与当前URL链接中的域名是否一致;
若一致,则将元素从所述第一广告元素集合中移除。
B12.如B6-8中任一项所述的方法,还包括指示所述网络服务器预先生成广告元素概率分值表,所述网络服务器与多个移动终端通信连接,所述预先生成广告元素概率分值表的步骤包括预先生成用于对各图片元素进行广告元素概率计算的广告识别模型,所述预先生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤包括:
接收各移动终端上报的用户访问行为和网页页面信息,所述用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,所述网页页面信息包括网页中各元素关联的元素标识和第二元素信息;
对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源;
若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息;
结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。
B13.如B12所述的方法,所述预先生成广告元素概率分值表的步骤包括:
对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取所述广告识别模型的输出作为该图片元素的广告元素概率;
将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于所述网络服务器中。
B14.如B6-8中任一项所述的方法,还包括:
在当前URL链接对应网页加载完毕后,收集所述用户对该网页的用户访问行为;
将所述用户访问行为和/或网页页面信息发送至所述网络服务器,以指示所述网络服务器定期根据接收到的用户访问行为和/或网页页面信息,对广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的广告识别模型的生成方法和/或广告识别方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种广告识别模型的生成方法,适于在网络服务器中执行,所述网络服务器与多个移动终端通信连接,所述方法包括:
接收各移动终端上报的用户访问行为和网页页面信息,所述用户访问行为包括用户在访问网页时,该网页中相应元素关联的元素标识、第一元素信息、资源属性以及该网页对用户的展示次数,所述网页页面信息包括网页中各元素关联的元素标识和第二元素信息;
对每一个元素标识,判断该元素标识所关联元素的资源属性是否为图片资源;
若是,将该元素标识所关联的元素标记为图片元素,根据该图片元素的第一元素信息和其所在网页对用户的总展示次数,计算该图片元素的处理频率信息;
结合各图片元素的处理频率信息和第二元素信息,基于预设的评分规则,生成用于对各图片元素进行广告元素概率计算的广告识别模型。
2.如权利要求1所述的方法,所述处理频率信息包括元素的点击频率和关闭频率,所述生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤包括:
对每一个图片元素,计算该图片元素的点击频率与关闭频率的比值,将该比值作为该图片元素的第一分值;
基于预设的评分规则,获取与该图片元素的位置信息对应的分值作为其第二分值,获取与该图片元素的滚动标记对应的分值作为其第三分值;
根据预设的分值计算规则,将该图片元素的第一分值、第二分值和第三分值进行加权处理,以生成该图片元素的初始分值;
以各图片元素的处理频率信息和第二元素信息为输入数据、初始分值为输出数据,拟合生成用于计算各图片元素的广告元素概率的广告识别模型。
3.如权利要求1或2所述的方法,还包括:
对每一个图片元素,将该图片元素的处理频率信息和第二元素信息输入到已生成的广告识别模型中,以获取所述广告识别模型的输出作为该图片元素的广告元素概率;
将各图片元素的元素标识与其广告元素概率进行相应关联,以生成广告元素概率分值表并存储于所述网络服务器中。
4.如权利要求3所述的方法,还包括:
接收各移动终端上报的待识别元素的元素标识;
对接收到的每一个元素标识,从所述广告元素概率分值表中查找该元素标识对应的广告元素概率;
关联该元素标识与其对应的广告元素概率以形成识别结果,将该识别结果下发至对应的移动终端。
5.如权利要求1或2所述的方法,在生成用于对各图片元素进行广告元素概率计算的广告识别模型的步骤之后,还包括:
接收各移动终端上报的用户访问行为和/或网页页面信息;
定期根据接收到的用户访问行为和/或网页页面信息对所述广告识别模型进行更新,并基于更新后的广告识别模型重新计算生成广告元素概率分值表。
6.一种广告识别方法,适于在移动终端中执行,所述移动终端与网络服务器通信连接,所述网络服务器中存储有广告元素概率分值表,所述广告元素概率分值表中关联存储有网页中图片元素的元素标识与对应的广告元素概率,所述方法包括:
获取用户输入的当前URL链接对应网页中的各元素;
将对应于图片资源的元素标记为待识别元素;
将各待识别元素的元素标识上传至所述网络服务器,以指示网络服务器通过所述广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至所述移动终端;
根据从所述网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合;
根据所述第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素。
7.如权利要求6所述的方法,所述移动终端中还存储有广告规则集合,所述广告规则集合包括一条或多条广告匹配规则,每条广告匹配规则适于确定网页中的相应元素是否为广告元素,在将对应于图片资源的元素标记为待识别元素的步骤前,所述方法还包括:
对每一个元素,根据所述广告规则集合中的各广告匹配规则,对该元素进行匹配处理;
若匹配结果指示该元素为广告元素,则将该元素添加至预设的第二广告元素集合。
8.如权利要求7所述的方法,每条广告匹配规则具有对应的规则类型,所述根据所述广告规则集合中的各广告匹配规则,对该元素进行匹配处理的步骤包括:
获取该元素所包含的跳转链接;
对所述跳转链接进行分类处理,以确定其对应的规则类型;
将所述跳转链接对应的规则类型所关联的各广告匹配规则依次与该跳转链接进行匹配。
9.如权利要求6-8中任一项所述的方法,所述网络服务器通过所述广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率的步骤包括:
对接收到的每一个元素标识,从所述广告元素概率分值表中查找该元素标识对应的广告元素概率;
关联该元素标识与其对应的广告元素概率以形成识别结果。
10.一种广告识别系统,所述系统包括网络服务器和与所述网络服务器通信连接的一个或多个移动终端,所述网络服务器中存储有广告元素概率分值表,所述广告元素概率分值表中关联存储有网页中图片元素的元素标识与对应的广告元素概率,其中:
移动终端,适于获取用户输入的当前URL链接对应网页中的各元素,将对应于图片资源的元素标记为待识别元素,将各待识别元素的元素标识上传至所述网络服务器,以指示网络服务器通过所述广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率并形成相应的识别结果下发,根据从所述网络服务器接收到的识别结果,对各待识别元素进行分析处理,以生成第一广告元素集合,根据所述第一广告元素集合,确定当前URL链接对应网页中的各元素是否为广告元素;
网络服务器,适于对每一个移动终端,接收该移动终端上传的待识别元素的元素标识,通过所述广告元素概率分值表,获取接收到的各元素标识关联的广告元素概率,并形成相应的识别结果下发至该移动终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094530.1A CN109241437A (zh) | 2018-09-19 | 2018-09-19 | 一种广告识别模型的生成方法、广告识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094530.1A CN109241437A (zh) | 2018-09-19 | 2018-09-19 | 一种广告识别模型的生成方法、广告识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241437A true CN109241437A (zh) | 2019-01-18 |
Family
ID=65059767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811094530.1A Pending CN109241437A (zh) | 2018-09-19 | 2018-09-19 | 一种广告识别模型的生成方法、广告识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241437A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825600A (zh) * | 2019-10-28 | 2020-02-21 | 北京城市网邻信息技术有限公司 | 一种页面信息处理方法、服务器和页面展示装置 |
CN111125603A (zh) * | 2019-12-27 | 2020-05-08 | 百度时代网络技术(北京)有限公司 | 网页场景识别方法、装置、电子设备及存储介质 |
CN113656731A (zh) * | 2021-07-30 | 2021-11-16 | 北京百度网讯科技有限公司 | 广告页面的处理方法、装置、电子设备和存储介质 |
CN114205652A (zh) * | 2020-09-18 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 媒体信息处理方法、装置以及计算机设备 |
CN115118492A (zh) * | 2022-06-27 | 2022-09-27 | 珠海市鸿瑞信息技术股份有限公司 | 基于tcp访问的设备状态监测系统及方法 |
CN116304457A (zh) * | 2023-02-27 | 2023-06-23 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239422A (zh) * | 2014-08-21 | 2014-12-24 | 小米科技有限责任公司 | 广告识别方法及装置、电子设备 |
CN104462583A (zh) * | 2014-12-30 | 2015-03-25 | 北京奇虎科技有限公司 | 一种进行广告拦截处理浏览器装置和移动终端 |
CN107193956A (zh) * | 2017-05-23 | 2017-09-22 | 深圳天珑无线科技有限公司 | 页面处理方法及装置 |
CN107329750A (zh) * | 2017-06-26 | 2017-11-07 | 厦门美图移动科技有限公司 | 应用程序中广告页面的识别方法、跳转方法及移动终端 |
CN107609122A (zh) * | 2017-09-14 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 广告屏蔽规则的更新方法、装置、服务器和存储介质 |
CN108399161A (zh) * | 2018-03-06 | 2018-08-14 | 平安科技(深圳)有限公司 | 广告图片鉴定方法、电子装置及可读存储介质 |
-
2018
- 2018-09-19 CN CN201811094530.1A patent/CN109241437A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239422A (zh) * | 2014-08-21 | 2014-12-24 | 小米科技有限责任公司 | 广告识别方法及装置、电子设备 |
CN104462583A (zh) * | 2014-12-30 | 2015-03-25 | 北京奇虎科技有限公司 | 一种进行广告拦截处理浏览器装置和移动终端 |
CN107193956A (zh) * | 2017-05-23 | 2017-09-22 | 深圳天珑无线科技有限公司 | 页面处理方法及装置 |
CN107329750A (zh) * | 2017-06-26 | 2017-11-07 | 厦门美图移动科技有限公司 | 应用程序中广告页面的识别方法、跳转方法及移动终端 |
CN107609122A (zh) * | 2017-09-14 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 广告屏蔽规则的更新方法、装置、服务器和存储介质 |
CN108399161A (zh) * | 2018-03-06 | 2018-08-14 | 平安科技(深圳)有限公司 | 广告图片鉴定方法、电子装置及可读存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825600A (zh) * | 2019-10-28 | 2020-02-21 | 北京城市网邻信息技术有限公司 | 一种页面信息处理方法、服务器和页面展示装置 |
CN110825600B (zh) * | 2019-10-28 | 2023-04-11 | 北京城市网邻信息技术有限公司 | 一种页面信息处理方法、服务器和页面展示装置 |
CN111125603A (zh) * | 2019-12-27 | 2020-05-08 | 百度时代网络技术(北京)有限公司 | 网页场景识别方法、装置、电子设备及存储介质 |
CN111125603B (zh) * | 2019-12-27 | 2023-06-27 | 百度时代网络技术(北京)有限公司 | 网页场景识别方法、装置、电子设备及存储介质 |
CN114205652A (zh) * | 2020-09-18 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 媒体信息处理方法、装置以及计算机设备 |
CN114205652B (zh) * | 2020-09-18 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 媒体信息处理方法、装置以及计算机设备 |
CN113656731A (zh) * | 2021-07-30 | 2021-11-16 | 北京百度网讯科技有限公司 | 广告页面的处理方法、装置、电子设备和存储介质 |
CN115118492A (zh) * | 2022-06-27 | 2022-09-27 | 珠海市鸿瑞信息技术股份有限公司 | 基于tcp访问的设备状态监测系统及方法 |
CN115118492B (zh) * | 2022-06-27 | 2023-03-24 | 珠海市鸿瑞信息技术股份有限公司 | 基于tcp访问的设备状态监测系统及方法 |
CN116304457A (zh) * | 2023-02-27 | 2023-06-23 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
CN116304457B (zh) * | 2023-02-27 | 2024-03-29 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241437A (zh) | 一种广告识别模型的生成方法、广告识别方法及系统 | |
US11604821B2 (en) | Determining and utilizing contextual meaning of digital standardized image characters | |
US20230042639A1 (en) | Automatically adjusting screen brightness based on screen content | |
US20220062707A1 (en) | Privacy Preserving Personalized Workout Recommendations | |
US20180375949A1 (en) | Provisioning personalized content recommendations | |
CN108121803B (zh) | 一种确定页面布局的方法和服务器 | |
US10366171B1 (en) | Optimizing machine translations for user engagement | |
US12074954B2 (en) | Generating application configurations based on user engagement segments | |
US9288274B2 (en) | Determining a community emotional response | |
US10521483B2 (en) | Ranking test framework for search results on an online social network | |
CN110297973B (zh) | 一种基于深度学习的数据推荐方法、装置及终端设备 | |
CN107491560A (zh) | 页面图片显示方法、装置、存储介质、服务器及移动终端 | |
CN106777226B (zh) | 一种信息分析方法及电子设备 | |
CN106021449A (zh) | 用于移动终端的搜索方法、装置以及移动终端 | |
US10255277B2 (en) | Crowd matching translators | |
WO2015113240A1 (en) | Method, apparatus and system for content recommendation | |
CN110347781B (zh) | 文章倒排方法、文章推荐方法、装置、设备及存储介质 | |
CN106445971A (zh) | 一种应用推荐方法和系统 | |
CN107612974A (zh) | 信息推荐方法、装置、移动终端及存储介质 | |
US20130218876A1 (en) | Method and apparatus for enhancing context intelligence in random index based system | |
CN106649696A (zh) | 信息分类方法及装置 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN107292141A (zh) | 一种身份验证装置、终端及方法 | |
CN107563851A (zh) | 应用推荐方法、装置、终端及存储介质 | |
CN110889036A (zh) | 一种多维度信息的处理方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |