CN106910081A - 一种信息处理方法和装置 - Google Patents

一种信息处理方法和装置 Download PDF

Info

Publication number
CN106910081A
CN106910081A CN201510982573.3A CN201510982573A CN106910081A CN 106910081 A CN106910081 A CN 106910081A CN 201510982573 A CN201510982573 A CN 201510982573A CN 106910081 A CN106910081 A CN 106910081A
Authority
CN
China
Prior art keywords
data
current
access
web page
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510982573.3A
Other languages
English (en)
Inventor
王颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510982573.3A priority Critical patent/CN106910081A/zh
Publication of CN106910081A publication Critical patent/CN106910081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Abstract

本发明公开了一种信息处理方法和装置。所述方法包括:实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。

Description

一种信息处理方法和装置
技术领域
本发明涉及软件技术领域,具体涉及一种信息处理方法,以及一种信息处理装置。
背景技术
由于互联网的飞速发展,在网页上投放广告成为了当前宣传的重要手段。
在网页上投放广告时,会先挖掘各个用户的兴趣特征,进一步根据用户的兴趣爱好进行有针对性地推送广告,从而提高广告投放效果。
而在挖掘用户的兴趣爱好时,一般是基于离线数据挖掘,即需要收集到用户的全量历史数据,然后进行对用户的行为进行挖掘,进一步获得用户的兴趣爱好,然后针对用户的兴趣爱好有进行投放。
但由于用户行为是具有时效性的,即用户前一天的兴趣关注点和当前的兴趣关注点有可能是不一样的,因此,针对历史行为分析用户兴趣并非用户当前关注的兴趣,那么基于目前的这种推送方式则会影响广告的点击率,使广告投放的效果不理想。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的信息处理方法,以及一种信息处理装置。
依据本发明的一个方面,提供了一种信息处理方法,包括:
实时获取用户访问当前网页时产生的访问数据;
对所述访问数据进行分析,获得当前数据类别;
将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
将所述网页广告显示在所述当前网页中。
可选地,所述实时获取用户访问当前网页时产生的访问数据,具体为:
实时调取访问日志的记录获得所述访问数据。
可选地,在所述实时获取用户访问当前网页时产生的访问数据之后,所述方法还包括:
先将所述访问数据缓存至第一缓存队列中,再从所述第一缓存队列中提取所述访问数据。
可选地,所述访问数据包括搜索关键词;
所述对所述访问数据进行分析,获得当前数据类别,包括:
对所述访问数据进行分析,获得所述搜索关键词;
基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
可选地,在所述基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值之后,所述方法还包括:
先将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中;再从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
可选地,在所述对所述访问数据进行分析,获得当前数据类别之后,具体还包括:
利用所述当前数据类别更新记录的历史数据类别。
可选地,所述利用所述当前数据类别更新记录的所述用户访问的历史数据类别,包括:
按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
可选地,所述方法还包括:
按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
可选地,所述方法还包括:
按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
可选地,在所述对所述访问数据进行分析,获得当前数据类别之后,所述方法还包括:
将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
可选的,所述将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,包括:
选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。
依据本发明的另一个方面,提供了一种信息处理装置,其中,包括:
访问数据获取模块,用于实时获取用户访问当前网页时产生的访问数据;
当前数据类别分析模块,用于对所述访问数据进行分析,获得当前数据类别;
发送模块,用于将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
嵌入模块,将所述网页广告显示在所述当前网页中。
可选地,所述访问数据获取模块,具体用于实时调取访问日志的记录获得所述访问数据。
可选地,在所述访问数据获取模块之后,所述装置还包括:
第一缓存模块,用于将所述访问数据缓存至第一缓存队列中;
访问数据提取模块,用于从所述第一缓存队列中提取所述访问数据。
可选地,所述访问数据包括搜索关键词;
其中,所述当前数据类别分析模块包括:
搜索关键词提取子模块,用于对所述访问数据进行分析,获得所述搜索关键词;
信息获得子模块,用于基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
可选地,在所述信息获得子模块之后,所述装置还包括:
第二缓存模块,用于将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中;
信息提取子模块,用于从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
可选地,在所述当前数据类别分析模块之后,具体还包括:
更新模块,用于利用所述当前数据类别更新记录的历史数据类别。
可选地,所述更新模块,具体用于按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
可选地,所述装置还包括:
类别权重值衰减计算模块,用于按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
可选地,所述装置还包括:
清理模块,用于按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
可选地,所述装置还包括:
数据关联模块,用于将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
可选的,所述装置还包括:
广告推荐模块,用于选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。
依据本发明的实施例,实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。
此外,可以对记录的历史行为数据进行清理,可以保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,从而保证所推荐广告的点击率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例1的信息处理方法的流程图;
图2示出了根据本发明实施例2的信息处理方法的流程图;
图3示出了根据本发明实施例3的信息处理方法的流程图;
图4示出了根据本发明实施例1的信息处理装置的结构框图;
图5示出了根据本发明实施例2的信息处理装置的结构框图;
图6示出了根据本发明实施例3的信息处理装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1
参考图1,示出了根据本发明实施例1的信息处理方法的流程图,该方法具体可以包括以下步骤:
步骤101、实时获取用户访问当前网页时产生的访问数据。
用户访问当前网页时产生的行为可以包括用户在当前网页输入搜索关键词的行为、用户在当前网页点击相关链接的行为和其它任意可适用的行为。以搜索查询行为举例,所述访问数据包括用户行为的动作类型、在当前网页输入的关键词、在当前网页点击相关链接的连接地址、访问行为发生的时间信息等信息。不同用户的网页访问行为可以通过所处终端的IP地址、网页客户端的标识符、用户登录信息或其它任意可标识用户的信息。
在具体实现中,由于访问日志中用户访问当前网页时产生的所有行为,因此可实时调取访问日志的记录获得所述访问数据。
例如,步骤101中实时获取访问数据的步骤可以由scribe日志收集系统执行,应用于本申请,可以从各种日志源上收集日志,存储到一个中央存储系统(例如分布式文件系统等)上,以便于进行集中统计分析处理。并且可以为日志的“分布式收集,统一处理”提供一个可扩展的、高容错的方案,当中央存储系统的网络或者机器出现故障时,将日志转存到本地或者另一个位置,当中央存储系统恢复后,可以将转存的日志重新传输给中央存储系统。
步骤102、对所述访问数据进行分析,获得当前数据类别。
所述当前数据类别为针对所述用户的当前访问请求操作的数据类别。
对访问数据进行挖掘分析的方式,主要包括分词、分类和标签等。通过挖掘分析,获得当前数据类别。
在具体实现中,可以对一个或多个访问数据并发处理,获得针对不同访问请求操作的多个访问数据的当前数据类别。
优选地,本申请步骤102中解析访问数据的步骤可以由strom实时处理系统执行。具体的,可以预先设计一个用于实时计算的拓扑结构,然后将拓扑结构提交给服务器集群,由服务器集群中主控节点分发代码,将任务分配给其他工作节点执行。一个拓扑中包括spout(数据源)和bolt(数据操作)两种不同功能的服务器,其中spout发送消息,负责将待处理的访问数据的数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中完成分析、过滤等操作,bolt自身也可以随机将数据流发送给其他bolt,其中,每条信息的处理都可以得到保证,如果某次处理失败会从数据源重新读取并处理,并且在执行中出现错误时,也会由storm重新分配任务。
通过上述架构,strom可以实现实时的、分布式以及高容错的计算,应用于本申请,可以处理源源不断获取的访问数据处理,并将处理结果写入到相应存储中。
步骤103、将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告。
当前数据类别可能并不只有一个数据类别,可能包含多个数据类别,而每个数据类别对应有各自的权重值。
在当前数据类别包含有多个数据类别时,可以提取符合预设范围的(例如大于某个阈值)数据类别作为当前数据类别,还可以按照其他设定的规则提取,此处不做限制。
步骤104、将所述网页广告显示在所述当前网页中。
网页服务器在接收到反馈的当前数据类别后,在预置的广告数据库中调取和当前数据类别匹配的广告,其中,广告与数据类别的匹配方式可以根据实际需求设定,可以预先针对各种广告进行分类,直接选择属于当前数据类别的广告作为推荐广告。具体从广告数据库中提取的可以是广告的内容数据(例如图片、视频、文字等实际展示的内容),也可以是广告存储地址,也可以是广告的其他标识信息,提取的信息插入到当前网页的网页源文件中然后进行展示,具体来说,可根据广告内容数据直接渲染广告,或是根据广告的存储地址或是标识信息提取广告内容数据后进一步渲染。
依据本发明的实施例,实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。
此外,可以对记录的历史行为数据进行清理,可以保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,从而保证所推荐广告的点击率。
优选地,在所述对所述访问数据进行分析,获得当前数据类别之后,所述方法还包括:
将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
依据本发明实施例可以在接收到访问数据时,对不同种类的访问数据进行标记,例如触发搜索的行为数据、访问网页的行为数据、点击广告的行为数据等。
针对同一用户,不同种类的行为数据可能在一次访问过程中先后发生,可以将先后发生的不同的行为数据进行关联,例如,用户先触发搜索,产生触发搜索的行为数据,进一步在生成的搜索结果网页中点击某个网页广告,产生点击广告的行为数据,则可以将触发搜索的行为数据与点击广告的行为数据进行关联。
对访问数据进行关联时,可以将在同一个时间窗口内发生的行为进行关联,例如,5分钟的时间窗口内发生的行为可以关联。
对访问数据进行关联后,进一步提取对应访问目标网页广告的访问数据,将其他访问数据对应的当前数据类别与该访问数据对应访问的目标网页广告进行关联。
相应的,所述将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,包括:
选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。
依据本发明的实施例,实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。
此外,可以对记录的历史行为数据进行清理,可以保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,从而保证所推荐广告的点击率。
实施例2
参考图2,示出了根据本发明实施例2的信息处理方法的流程图,该方法具体可以包括以下步骤:
步骤201、实时获取用户访问当前网页时产生的访问数据。
步骤202、将所述访问数据缓存至第一缓存队列中。
所述第一缓存队列可以是一种存储设备,用于存储获取的访问数据。
访问数据实际上也可以有多条,为了保证获取访问数据的速度以及处理访问数据的速度的协调,将获取的访问数据在所述第一缓存队列中进行缓冲,可以有效防止访问数据过快获取和访问数据过慢处理中的至少一种导致的数据丢失或数据堵塞,保证了数据处理过程的正常进行。
步骤203、从所述第一缓存队列中提取所述访问数据。
获取到的访问数据的数目可以根据实际需要进行设置。本发明实施例中,可以从所述第一缓存队列中,采用单条提取访问数据的方式进行访问数据提取。
步骤204、对所述访问数据进行分析,获得所述搜索关键词。
当用户访问当前网页时产生的行为是用户在当前网页输入搜索关键词的行为时,对应的访问数据包括输入的搜索关键词,从所述访问数据中提取所述用户在所述当前网页输入的搜索关键词。
步骤205、基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
具体来说,可将提取的搜索关键词输入预置的分类预测模型,然后获得至少一个数据类别并且获得对应的类别权重值。
本发明实施例中,当在分类预测模型中输入一搜索关键词时,可能会预测出一个或多个数据类别,每个数据类别有对应的类别权重值。例如,输入的关键信息为“北京”,预测得到的数据类别可能是城市、中国首都和奥运会举办地三种,其中,城市类别对应的类别权重值可能为1,中国首都类别对应的类别权重值可能为2,奥运会举办地对应的类别权重值可能为3。本发明在此仅进行举例,并不做限制。
此外,可以将获得的当前数据类别以及对应的类别权重值存储为特定的数据格式,便于后续的数据传输。
步骤206、将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列。
所述第二缓存队列也可以是一种存储设备,用于缓存步骤205获得的至少一个当前数据类别以及对应的类别权重值。避免了数据拥堵的现象,保证了数据处理过程的正常进行。
步骤207、从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
可以将从所述第二缓存队列中提取的所述当前数据类别以及对应的类别权重值存储至服务机房,导入在线实时数据库。其中,预设个数可以根据实际需要进行设置。需要说明的是,从所述第二缓存队列中提取的数据还可以包括时间信息,所述时间信息可以为时间戳信息。
本发明实施例中,可以从所述第二缓存队列中,采用单条提取所述当前数据类别以及对应的类别权重值的方式进行数据提取,具体可以采用两级队列架构模式,将从根据访问数据预测的当前数据类别和从第二缓存队列中提取的当前数据类别分组接收,更新增量更新到外部存储,即采用进程模型加线程模型相结合的方式写入多机房中。
另外,由于在获得当前数据类别之后,还可以利用所述当前数据类别更新记录的历史数据类别。
下面则承接上面的步骤,介绍如何利用所述当前数据类别更新记录的历史数据类别。
步骤208、按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
本发明实施例中,依据所述访问数据中记录的发生访问请求的IP地址、终端或搜索客户端的标识符或程序登录名,确定当前访问操作行为对应的具体用户。比较当前数据类别和历史数据类别,当历史数据类别包含当前数据类别时,针对同一数据类别的类别权重值进行更新,将同一数据类别的额类别权重值进行更新;当历史数据类别不包含当前数据类别时,在记录的数据中添加一新的数据类别,并记录对应的类别权重值,得到更新后的所述历史数据类别和所述历史类别权重值。
步骤209、按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
根据用户行为处理量等其它实际情况,可以按一定的时间间隔,即一定的频率,定期对记录的历史类别权重值进行衰减计算,更新所述历史类别权重值。例如,针对某段时间,当处理的访问数据的数量较大时,可以把时间间隔设为4个小时,相当于1天执行6次衰减计算;当处理的访问数据的数量较小时,可以把时间间隔设为1个小时,相当于1天执行1次衰减计算。本发明在此并不做限制,凡是适用于本发明的可实施的实施方式均可行。
在具体实现中,在对同一数据类别的前类别权重值和历史类别权重值进行更新后,对历史类别权重值进行衰减计算。在具体实现中,可以预设一衰减系数,在衰减计算过程中,衰减系数始终为一定值,可以利用下面的权重值衰减计算公式计算衰减后的类别权重值:
W=(W1+CW0)
其中,W0为历史类别权重值,W1为当前类别权重值,C为与时间因素有关的衰减系数,也是最终的衰减系数,通过使得最实时的行为权重更高,保证行为权重的时间效应,W为衰减计算后的历史类别权重值。
另外,还可以利用另外的衰减方式进行计算。在具体实现中,可以预设一衰减系数,在衰减计算过程中,衰减系数始终为一定值,可以利用下面的权重值衰减计算公式计算衰减后的类别权重值:
其中,W0'为t0时刻的历史类别权重值,W1'"为t1时刻的当前类别权重值,α'为衰减系数,与时间因素有关的衰减系数,可以保证行为权重的时间效应,最实时的行为权重更高,W'为衰减计算后的历史类别权重值。
优选的,还包括步骤210、按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
步骤211、将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告。
步骤212、将所述网页广告显示在所述当前网页中。
上述衰减策略实现了清理一定时间窗口之外的数据,为了保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,可以对记录的历史行为数据进行清理。
在具体实现中,可以定期清理的方式清理所述历史数据类别,也可以在每次更新历史类别权重值时,清理所述历史数据类别。本发明在此仅是进行举例,并不做限制。
可以对预先设定的一定时间窗口内的数据进行清理,清理策略可以根据实际需求设置,本申请实施例中,可以按照时间信息对历史数据类别进行清理,例如,清理时间信息为一定时间窗口内的历史数据类别,清理历史类别权重符合预设范围的历史类别信息(例如小于某个阈值),还可以进一步查找其他业务系统中针对该历史类别信息记录的与商业价值相关的信息,对商业价值较低的历史类别信息进行清理。例如历史类别信息的广告点击率,如娱乐类的广告点击率低于时尚类的广告点击率,则可以对点击率较小的历史类别信息进行清理。上述清理的方式可以择一执行也可以多个结合执行。
需要说明的是,对于离线处理而言,用户数据的处理过程是最核心的部分,但在实时处理中,用户数据的收集,处理,以及输出都成为整个流程关键的环节。每个环节都需要考虑全面。本发明的实施例应用在商业产品团队DMP的访问数据实时接入的项目时。访问数据由原来一天的延迟缩短为秒级别的延迟。
依据本发明的实施例,实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。
此外,可以对记录的历史行为数据进行清理,可以保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,从而保证所推荐广告的点击率。
实施例3
参考图3,示出了根据本发明实施例3的信息处理方法的流程图,该方法具体可以包括以下步骤:
步骤301、实时获取用户访问当前网页时产生的访问数据。
步骤302、将所述访问数据缓存至第一缓存队列中。
步骤303、从所述第一缓存队列中提取所述访问数据。
步骤304、对所述访问数据进行分析,获得所述搜索关键词。
步骤305、基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
步骤306、将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列。
步骤307、从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
步骤308、按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
步骤309、按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
步骤310、将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告。
步骤311、将所述网页广告显示在所述当前网页中。
依据本发明的实施例,实时获取用户访问当前网页时产生的访问数据,对所述访问数据进行分析,获得当前数据类别,将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,将所述网页广告显示在所述当前网页中。通过上述机制,根据最新产生的访问数据,实时获得当前数据类别对用户当前网页进行实时的广告推荐,当前数据类别可以更好地标识用户当前行为,可以推荐与用户当前行为更为相关的广告,从而可以提高推荐的广告的点击率。
此外,可以对记录的历史行为数据进行清理,可以保证在资源允许的情况下,记录的历史行为数据为针对用户的最新的和最有效的数据,从而保证所推荐广告的点击率。
实施例4
参考图4,示出了根据本发明实施例1的信息处理装置的结构框图,具体可以包括:
访问数据获取模块401,用于实时获取用户访问当前网页时产生的访问数据。
当前数据类别分析模块402,用于对所述访问数据进行分析,获得当前数据类别。
发送模块403,用于将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告。
嵌入模块404,用于将所述网页广告显示在所述当前网页中。
优选地,所述装置还可以包括:
数据关联模块,用于将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
相应优选地,所述装置还可以包括:
广告推荐模块,用于选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。
实施例5
参考图5,示出了根据本发明实施例2的信息处理装置的结构框图,具体可以包括:
访问数据获取模块501,用于实时获取记录用户对当前网页访问行为的访问数据。优选的,访问数据获取模块501,具体用于实时调取访问日志的记录获得所述访问数据。
第一缓存模块502,用于将所述访问数据缓存至第一缓存队列中。
访问数据提取模块503,用于从所述第一缓存队列中提取所述访问数据。
当前数据类别分析模块504,用于对所述访问数据进行分析,获得当前数据类别。
所述访问数据包括搜索关键词;
所述当前数据类别分析模块504包括:
搜索关键词提取子模块5041,用于对所述访问数据进行分析,获得所述搜索关键词;
信息获得子模块5042,用于基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
第二缓存模块505,用于将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中。
信息提取子模块506,用于从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
更新模块507,用于利用所述当前数据类别更新记录的历史数据类别。优选的,更新模块507,具体用于按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
类别权重值衰减计算模块508,用于用于按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
所述装置还包括:
清理模块509,用于按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
嵌入模块510,用于将所述网页广告显示在所述当前网页中。
需要说明的是,对于离线处理而言,用户数据的处理过程是最核心的部分,但在实时处理中,用户数据的收集,处理,以及输出都成为整个流程关键的环节。每个环节都需要考虑全面。
实施例6
参考图6,示出了根据本发明实施例3的信息处理装置的结构框图,具体可以包括:
访问数据获取模块601,用于实时获取记录用户对当前网页访问行为的访问数据。优选的,访问数据获取模块601,具体用于实时调取访问日志的记录获得所述访问数据。
第一缓存模块602,用于将所述访问数据缓存至第一缓存队列中。
访问数据提取模块603,用于从所述第一缓存队列中提取所述访问数据。
所述访问数据包括搜索关键词;
所述当前数据类别分析模块604包括:
搜索关键词提取子模块6041,用于对所述访问数据进行分析,获得所述搜索关键词;
信息获得子模块6042,用于基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
第二缓存模块605,用于将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中。
信息提取子模块606,用于从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
更新模块607,用于利用所述当前数据类别更新记录的历史数据类别。优选的,更新模块607,具体用于按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
优选的,还包括清理模块608,用于按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
嵌入模块609,用于将所述网页广告显示在所述当前网页中。
由于所述装置实施例基本相应于前述图1-图3所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页广告的推荐装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明包括A1、一种信息处理方法,其特征在于,所述方法包括:
实时获取用户访问当前网页时产生的访问数据;
对所述访问数据进行分析,获得当前数据类别;
将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
将所述网页广告显示在所述当前网页中。
A2、如A1所述的方法,其特征在于,所述实时获取用户访问当前网页时产生的访问数据,具体为:
实时调取访问日志的记录获得所述访问数据。
A3、如A1所述的方法,其特征在于,在所述实时获取用户访问当前网页时产生的访问数据之后,所述方法还包括:
先将所述访问数据缓存至第一缓存队列中,再从所述第一缓存队列中提取所述访问数据。
A4、如A1所述的方法,其特征在于,所述访问数据包括搜索关键词;
所述对所述访问数据进行分析,获得当前数据类别,包括:
对所述访问数据进行分析,获得所述搜索关键词;
基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
A5、如A4所述的方法,其特征在于,在所述基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值之后,所述方法还包括:
先将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中;再从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
A6、如A5所述的方法,其特征在于,在所述对所述访问数据进行分析,获得当前数据类别之后,具体还包括:
利用所述当前数据类别更新记录的历史数据类别。
A7、如A6所述的方法,其特征在于,所述利用所述当前数据类别更新记录的所述用户访问的历史数据类别,包括:
按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
A8、如A7所述的方法,其特征在于,所述方法还包括:
按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
A9、如A7或A8所述的方法,其特征在于,所述方法还包括:
按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
A10、如A1所述的方法,其特征在于,在所述对所述访问数据进行分析,获得当前数据类别之后,所述方法还包括:
将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
A11、如A10所述的方法,其特征在于,所述将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告,包括:
选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。
本发明还包括:
B12、一种信息处理装置,其特征在于,包括:
访问数据获取模块,用于实时获取用户访问当前网页时产生的访问数据;
当前数据类别分析模块,用于对所述访问数据进行分析,获得当前数据类别;
发送模块,用于将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
嵌入模块,用于将所述网页广告显示在所述当前网页中。
B13、如B12所述的装置,其特征在于,所述访问数据获取模块,具体用于实时调取访问日志的记录获得所述访问数据。
B14、如B12所述的装置,其特征在于,在所述访问数据获取模块之后,所述装置还包括:
第一缓存模块,用于将所述访问数据缓存至第一缓存队列中;
访问数据提取模块,用于从所述第一缓存队列中提取所述访问数据。
B15、如B12所述的装置,其特征在于,所述访问数据包括搜索关键词;
其中,所述当前数据类别分析模块包括:
搜索关键词提取子模块,用于对所述访问数据进行分析,获得所述搜索关键词;
信息获得子模块,用于基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
B16、如B15所述的装置,其特征在于,在所述信息获得子模块之后,所述装置还包括:
第二缓存模块,用于将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中;
信息提取子模块,用于从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
B17、如B15所述的装置,其特征在于,在所述当前数据类别分析模块之后,具体还包括:
更新模块,用于利用所述当前数据类别更新记录的历史数据类别。
B18、如B17所述的装置,其特征在于,所述更新模块,具体用于按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
B19、如B17所述的装置,其特征在于,所述装置还包括:
类别权重值衰减计算模块,用于按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
B20、如B17所述的装置,其特征在于,所述装置还包括:
清理模块,用于按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
B21、如B12所述的装置,其特征在于,所述装置还包括:
数据关联模块,用于将对应一次访问行为的不同种类的访问数据进行关联,将一个访问数据对应的当前数据类别与关联的另一个访问数据访问的目标网页广告进行关联。
B22、如B21所述的装置,其特征在于,所述装置还包括:
广告推荐模块,用于选择所述当前数据类别关联的目标网页广告反馈至所述网页服务器,以供所述网页服务器在所述当前网页中推荐所述目标网页广告。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
实时获取用户访问当前网页时产生的访问数据;
对所述访问数据进行分析,获得当前数据类别;
将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
将所述网页广告显示在所述当前网页中。
2.如权利要求1所述的方法,其特征在于,所述实时获取用户访问当前网页时产生的访问数据,具体为:
实时调取访问日志的记录获得所述访问数据。
3.如权利要求1所述的方法,其特征在于,在所述实时获取用户访问当前网页时产生的访问数据之后,所述方法还包括:
先将所述访问数据缓存至第一缓存队列中,再从所述第一缓存队列中提取所述访问数据。
4.如权利要求1所述的方法,其特征在于,所述访问数据包括搜索关键词;
所述对所述访问数据进行分析,获得当前数据类别,包括:
对所述访问数据进行分析,获得所述搜索关键词;
基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值。
5.如权利要求4所述的方法,其特征在于,在所述基于所述搜索关键词获得至少一个数据类别并且获得对应的类别权重值之后,所述方法还包括:
先将所述至少一个数据类别以及对应的类别权重值缓存至第二缓存队列中;再从所述第二缓存队列中提取出预设个数的数据类别作为所述当前数据类别,并且提取出对应的类别权重值。
6.如权利要求5所述的方法,其特征在于,在所述对所述访问数据进行分析,获得当前数据类别之后,具体还包括:
利用所述当前数据类别更新记录的历史数据类别。
7.如权利要求6所述的方法,其特征在于,所述利用所述当前数据类别更新记录的所述用户访问的历史数据类别,包括:
按照所述至少一个数据类别以及对应的类别权重值,将同一数据类别下的当前类别权重值和历史类别权重值进行更新,得到更新后的所述历史数据类别和所述历史类别权重值。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
按照所述历史数据类别的时间信息,对更新后的历史类别权重值进行衰减计算,得到衰减后的所述历史类别权重值。
9.如权利要求7或8所述的方法,其特征在于,所述方法还包括:
按照对应的时间信息以及所述更新后的历史类别权重值清理所述历史数据类别。
10.一种信息处理装置,其特征在于,包括:
访问数据获取模块,用于实时获取用户访问当前网页时产生的访问数据;
当前数据类别分析模块,用于对所述访问数据进行分析,获得当前数据类别;
发送模块,用于将所述当前数据类别发送给网页服务器,使所述网页服务器获取对应所述当前数据类别的网页广告;
嵌入模块,用于将所述网页广告显示在所述当前网页中。
CN201510982573.3A 2015-12-23 2015-12-23 一种信息处理方法和装置 Pending CN106910081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510982573.3A CN106910081A (zh) 2015-12-23 2015-12-23 一种信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510982573.3A CN106910081A (zh) 2015-12-23 2015-12-23 一种信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN106910081A true CN106910081A (zh) 2017-06-30

Family

ID=59206182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510982573.3A Pending CN106910081A (zh) 2015-12-23 2015-12-23 一种信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN106910081A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003138A (zh) * 2018-07-24 2018-12-14 上海常仁信息科技有限公司 一种基于客户爱好分析的广告推荐系统和方法
CN109886716A (zh) * 2017-12-06 2019-06-14 北京奇虎科技有限公司 一种广告推送方法及系统
CN110909043A (zh) * 2019-11-15 2020-03-24 上海易点时空网络有限公司 基于模糊查询关键词的违章数据查询方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103440259A (zh) * 2013-07-31 2013-12-11 亿赞普(北京)科技有限公司 一种网络广告推送方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103440259A (zh) * 2013-07-31 2013-12-11 亿赞普(北京)科技有限公司 一种网络广告推送方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886716A (zh) * 2017-12-06 2019-06-14 北京奇虎科技有限公司 一种广告推送方法及系统
CN109003138A (zh) * 2018-07-24 2018-12-14 上海常仁信息科技有限公司 一种基于客户爱好分析的广告推荐系统和方法
CN110909043A (zh) * 2019-11-15 2020-03-24 上海易点时空网络有限公司 基于模糊查询关键词的违章数据查询方法及系统

Similar Documents

Publication Publication Date Title
CN106447371A (zh) 一种网页广告的推荐方法和装置
CN104956365B (zh) 基于在线系统中的用户动作询问特征
CN104065565B (zh) 推送消息的方法、服务器、客户端装置和系统
CN102354315B (zh) 一种网址导航页面生成方法和装置
Tang et al. Predicting individual retweet behavior by user similarity: a multi-task learning approach
CN103546326B (zh) 一种网站流量统计的方法
US8844031B1 (en) Detecting spam events in event management systems
CN110377851A (zh) 多级联动下拉框的实现方法、装置和计算机设备
CN104462593A (zh) 一种提供用户个性化资源消息推送的方法和装置
CN104462594A (zh) 一种提供用户个性化资源消息推送的方法和装置
CN106709033A (zh) 一种业务多媒体数据处理方法以及装置
CN105183873A (zh) 恶意点击行为检测方法及装置
US20230153839A1 (en) Selecting digital media assets based on transitions across categories
CN103500213B (zh) 基于预读取的页面热点资源更新方法和装置
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
CN106910082A (zh) 一种调取广告进行推送的方法和装置
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN107124655A (zh) 虚拟礼物消息展示方法及装置
CN106649376A (zh) 导航标签排序的方法及装置
AU2014251235A1 (en) Application-tailored object re-use and recycling
CN106910081A (zh) 一种信息处理方法和装置
CN105893421A (zh) Uv计算方法、装置
CN106528851A (zh) 一种智能推荐方法及装置
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
US8326688B2 (en) Method and system for behavioral classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170630

RJ01 Rejection of invention patent application after publication