CN102236867A - 基于云计算的受众行为分析广告定向系统 - Google Patents

基于云计算的受众行为分析广告定向系统 Download PDF

Info

Publication number
CN102236867A
CN102236867A CN2011102322665A CN201110232266A CN102236867A CN 102236867 A CN102236867 A CN 102236867A CN 2011102322665 A CN2011102322665 A CN 2011102322665A CN 201110232266 A CN201110232266 A CN 201110232266A CN 102236867 A CN102236867 A CN 102236867A
Authority
CN
China
Prior art keywords
user
module
data
analysis
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102322665A
Other languages
English (en)
Inventor
张�杰
刘奎飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yoyi Beijing Advertising Co ltd
Original Assignee
Yoyi Beijing Advertising Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yoyi Beijing Advertising Co ltd filed Critical Yoyi Beijing Advertising Co ltd
Priority to CN2011102322665A priority Critical patent/CN102236867A/zh
Publication of CN102236867A publication Critical patent/CN102236867A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于云计算的受众行为分析广告定向ABT系统,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块。本发明能够利用数据挖掘分析、云存储和云计算技术对互联网用户的行为进行研究,实现针对每一个互联网受众,准确分析判断其用户属性、兴趣爱好,从而根据其兴趣点及附加属性,准确地投放相应类型的广告。

Description

基于云计算的受众行为分析广告定向系统
技术领域
本发明涉及网络广告发布、web文本挖掘及信息检索技术,尤其涉及一种基于云计算的受众行为分析广告定向系统(简称“ABT系统”)。
背景技术
中国的互联网广告正处于蓬勃的发展时期,根据CNNIC《第26次中国互联网络发展状况统计报告》显示,截至2010年6月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。随着互联网络的高速发展,网络广告也得到了较快的发展。网络已经成为继电视广播、报刊杂志和户外广告以外的第四大广告媒体。随着上网人数的不断增加以及网络技术的不断进步,网络广告将成为最为经济有效的广告形式之一。
互联网广告区别于传统广告最大的优势在于定向技术使得广告投放的针对性更强,并且具有传统广告无法比拟的交互特性和数据跟踪监测能力。现在,市场上的互联网广告,一般会通过媒体选择辅以时间、地域等技术定向手段来实现针对性投放,个别国际领先的搜索引擎公司还采用了页面内容定向的手段来进一步提高广告投放的针对性和准确性。但是,真正的精准投放,是需要一对一地把广告精确地投放给真正对他感兴趣的人,这样才能用最少的流量资源取得最好的投放效果,才能最大程度发挥出互联网广告区别于传统媒体的优势。
目前,广告主对于精准投放的认识逐渐形成,精准投放的需求日益强烈,而由于技术和媒体资源的壁垒,这部分市场还处于比较初级的阶段,市场空间巨大。而广告精准投放,提升广告效果,既是互联网广告投放最重要目标,也是整个互联网广告市场乃至互联网行业发展的核心推动力。基于云计算的受众行为分析广告定向系统致力于广告精准投放,提升广告效果,既是互联网广告投放最重要目标,也是整个互联网广告市场乃至互联网行业发展的核心推动力。因而,旨在把广告投放给真正感兴趣的人这种用户层面上的精准定向,成为了未来互联网广告领域最重要研究方向。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于云计算的受众行为分析广告定向系统,利用数据挖掘分析、云存储和云计算技术对互联网用户的行为进行研究,实现针对每一个互联网受众,准确分析判断其用户属性、兴趣爱好,从而根据其兴趣点及附加属性,准确地投放相应类型的广告。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于云计算的受众行为分析广告定向ABT系统,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块;其中:
用户轨迹存储模块,在广告投放过程中,用于针对用户浏览记录进行用户访问轨迹信息的收集和存储,所述用户访问轨迹信息是所述ABT系统中进行用户行为分析的主要数据来源;
用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下计算的系统性能,其用户行为分析的数据来源主要包括受众自然浏览行为、受众自然搜索行为、广告交互行为、电子商务交互行为;
复合搜索模块,用于提供统一资源定位符URL即页面地址到页面重点关键词的转换,还用于为BT定向的用户行为提供分析服务,同时提供用户即时兴趣匹配的页面分词功能;
网页内文分析模块,作为所述ABT系统中的搜索引擎,用于确保网页正文的高权重关键词广告投放;
实时定向模块,用于对所述ABT系统的投放模块提供针对单个用户信息的检索服务;
集群调度及管理模块,用于对各个子节点的节点服务器列表进行登记维护;对各个服务器中的HDFS、Map/Reduce、Hbase的web状态进行查询转发;用于完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询;还用于对失败的任务进行重新调度、重新分配;以及提供整体任务完成情况和全局数值分析的简单报表服务。
其中,所述用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统;其中,
数据传输子模块,用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份;
线程控制子模块,用于对分布式计算的各个任务的线程起到调配的作用;
转储调度子模块,用于对数据存储的同步、异步以及迁移构造合理的方案;
DFS中间件及HDFS系统,用于分布式的数据库访问的事务处理。
较佳地,所述的HDFS系统进一步包括命名节点NameNode、数据节点DataNode和客户端Client;其中,
所述NameNode是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制;所述NameNode将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息;
所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode;以及,
所述Client是需要获取分布式文件系统文件的应用程序或功能模块。
其中,所述用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下的计算性能的要求,所述用户行为分析的数据来源主要有几下几个方面:
受众自然浏览行为,记录用户的自然访问页面轨迹;受众自然搜索行为,记录用户通过搜索引擎跳转到页面的搜索关键词;广告交互行为,记录用户对广告的点击记录;电子商务交互行为,记录用户在电商企业的购买行为。
所述网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而得到用户浏览的页面关键词。
所述集群调度及管理模块,其管理端的调度的通信机制采用SSH通讯;进一步地,若该模块的可靠性存在问题,备用方案则采用单机corntab调度。
本发明所提供的基于云计算的受众行为分析广告定向系统(ABT系统),具有以下优点:
通过多维一体的受众行为分析体系,收集和分析海量用户行为数据,其最核心的部分是用户兴趣分类的计算模型,它成功地解决了以下几个技术问题:
1、实时搜索技术
互联网用户对网页的浏览行为是跟踪用户行为一项重要数据来源,也是针对独立用户来讲最为广泛的数据来源。通过广告位布码等多种方式,实现对用户的互联网浏览行为尽可能多地全面跟踪,是首先要实现的。但收集来的用户访问记录(以下简称监测点)的URL并没有直接的意义,必须要通过专用的搜索引擎技术来查询出URL对应的页面内容。这需要我们自有的搜索技术来进行支持,属于垂直搜索的范畴。
传统的搜索引擎技术能够保证以自然周乃至自然日的周期对页面进行重新抓取更新,但这是无法满足广告定向业务中对页面内容抓取的需求,因为媒体页面的更新是快速的和实时的,在新的新闻内容页或其他页面出现后,对这些监测点的记录,或在这些页面上显示广告,就必须要求搜索系统能够满足实时搜索的需求,实时地抓取页面内容的内容进行正文提取及分词(后详)等下一步处理。搜索引擎技术属于互联网行业内比较尖端的技术,而实时搜索技术,是搜索引擎技术的延伸,是一门刚刚新兴起来的技术领域,研究起来相对困难,在页面更新的定位、索引方法、数据处理能力、爬虫效率等问题方面,有很多问题尚待突破。
2、中文智能分词技术
由于中文的复杂性和独特性,中文语言处理相对复杂。我们积累了大量的用户浏览网页记录,为了提高分词的语料的准确性,我们手工的对于上万篇的页面人工分词,建立了可靠的语料库,通过隐马尔科夫模型(Hidden MarkovModel,HMM)算法训练模型,得出算法中各个状态的参数值,之后开始对文本分词,分词的可能性很多,采用维特比(Viterbi)算法,求得可能性最大的状态序列。后续我们不断丰富的训练语料来调整参数进而优化分词的准确率。在这部分技术的应用之,技术的整合和针对中文处理时效果的控制,仍有很多突破点。
3、基于后缀树聚类的文本聚类技术
通过收集用户历史访问行为,在中文分词的基础之上,把浏览页面看作一个若干短语的字符串,对短语进行过滤,保留下词库中的重点关键词,收集经常一起出现的关键词、或者短语,然后找出其关联和相互关系,通过对多个页面的分析能够发现几个短语在相提并论的话题。
后缀树把文档看作是一个由若干短语组成的字符串,而不是看作一组词集。该算法非常适合于解决基本的字符串问题,例如发现最长重复子串,相似字符串匹配,字符串比较,文本压缩和英文文档聚类等,处理速度很快。
4、Map/Reduce云计算技术
云计算有很多种实现方式,但在当今功能最完善的云计算框架中,基于Hadoop的Map/Reduce框架兼顾解决了高可靠性、灵活性及极佳的排序及哈希性能。Map/Reduce主要反映了映射和规约两个概念,映射操作按照需求操作独立元素组里的每个元素,这个操作是独立的,所以映射操作时高度并行的。规约操作对一个元素组的元素进行合适的归并,也具有不错的并行性。
在对Map/Reduce框架的实际应用中,程序框架结构的设计、程序的Map及Reduce函数设计、中间分类器的设计,仍有许多研究的空白。
5、Hbase非关系型数据库技术
Hbase是一种非关系型的分布式数据库技术,即“云数据库”技术。它是一个面向列的分布式数据库,其思想源于Google的BigTable系统。我们的大量数据都是存储在Hbase中,以满足随机读写的需求(Random R/W)。Hbase目前尚处于起步的阶段,其split操作,compact操作及相关性能及数据调度及使用有很多问题尚待突破。
对于数据处理过程,充分采用Thrift中间件等技术,提高系统兼容性及性能,并应用了Hive数据仓库对部分数据结果进行了ETL,从而将一些需要关系型处理的数据进行了仓库化存储,弥补了Hbase进行数据持久化时的一些弊端。
附图说明
图1为本发明基于云计算的受众行为分析广告定向系统(ABT系统)总体框架示意图;
图2为本发明ABT系统的用户轨迹存储模块示意图;
图3为图2所示HDFS的架构示意图;
图4为本发明ABT系统的用户行为分析模块及其相关模块的关系示意图;
图5为本发明ABT系统网页内文分析模块利用加权算法计算出最高权重词的原理示意图;
图6为本发明ABT系统实时定向模块结构示意图;
图7为本发明ABT系统实现针对广告受众的匹配选择过程示意图;
图8为本发明ABT系统对广告投放后的用户数据深度挖掘及分析的用户实际样本示意图(局部);
图9为本发明ABT系统基于统计学算法的正文识别结果示意图;
图10为本发明ABT系统关键词自动扩展系统词库拓展示意图;
图11为本发明ABT系统采用基于用户浏览行为的兴趣计算结果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的系统作进一步详细的说明。
在互联网广告投放技术领域,国际上围绕受众行为定向工作主要有以下几个方面的技术:
一、实时搜索技术
互联网用户对网页的浏览行为是跟踪用户行为一项重要数据来源,也是针对独立用户来讲最为广泛的数据来源。通过广告位代码等多种方式,实现对用户的互联网浏览行为尽可能多地全面跟踪,是首先要实现的。但收集来的用户访问记录(以下简称监测点)的URL并没有直接的意义,必须要通过专用的搜索引擎技术来查询出URL对应的页面内容。这需要我们自有的搜索技术来进行支持,属于垂直搜索的范畴。
传统的搜索引擎技术能够保证以自然周乃至自然日的周期对页面进行重新抓取更新,但这是无法满足广告定向业务中对页面内容抓取的需求,因为媒体页面的更新是快速的和实时的,在新的新闻内容页或其他页面出现后,对这些监测点的记录,或在这些页面上显示广告,就必须要求搜索系统能够满足实时搜索的需求,实时地抓取页面的内容进行正文提取及分词等下一步处理。搜索引擎技术属于互联网行业内比较尖端的技术,而实时搜索技术,是搜索引擎技术的延伸,实现起来相对困难,在页面更新的定位、索引方法、数据处理能力、爬虫效率等问题方面,有很多难点。
二、基于规则和统计的内文抽取技术
由于互联网网站多种多样,使得网页结构都异常复杂,但是网页的正文才是用户所要关注的关键,这对于广告投放异常重要,只有我们获得正文内容才能知道用户的兴趣所在才能更能精准的定向广告,我们采用基于规则和基于统计结合的方法,先摒弃不可能含有网页正文的标签,再从剩余的标签中计算出网页的链接字符数和非链接字符数,构建标签树形结构查找出文本字数概率最大值的标签,加入规则过滤选取正文和title中的标题,已经取得了良好的效果。
三、中文智能分词技术
由于中文的复杂性和独特性,中文语言处理相对复杂。悠易互通积累了大量的用户浏览网页记录,为了提高分词的语料的准确性,悠易互通手工的对于上万篇的页面人工分词,建立了可靠的语料库,通过隐马尔科夫模型(HiddenMarkov Model,HMM)算法训练模型,得出算法中各个状态的参数值,之后开始对文本分词,分词的可能性很多,采用维特比(Viterbi)算法,求得可能性最大的状态序列。悠易互通不断丰富的训练语料来调整参数进而优化分词的准确率。在这部分技术的应用之,技术的整合和针对中文处理时效果的控制,仍有很多突破点。
四、基于后缀树聚类的文本聚类技术
通过收集用户历史访问行为,在中文分词的基础之上,把浏览页面看作一个若干短语的字符串,对短语进行过滤,保留下词库中的重点关键词,收集经常一起出现的关键词、或者短语,然后找出其关联和相互关系,通过对多个页面的分析能够发现几个短语在相提并论的话题。
后缀树把文档看作是一个由若干短语组成的字符串,而不是看作一组词集。该算法非常适合于解决基本的字符串问题,例如发现最长重复子串,相似字符串匹配,字符串比较,文本压缩和英文文档聚类等,处理速度很快。
五、Map/Reduce云计算技术
云计算有很多种实现方式,但在当今功能最完善的云计算框架中,基于Hadoop的Map/Reduce框架兼顾解决了高可靠性、灵活性及极佳的排序及哈希性能。Map/Reduce主要反映了映射和规约两个概念,映射操作按照需求操作独立元素组里的每个元素,这个操作是独立的,所以映射操作时高度并行的。规约操作对一个元素组的元素进行合适的归并,也具有不错的并行性。
在对Map/Reduce框架的实际应用中,程序框架结构的设计、程序的Map及Reduce函数设计、中间分类器的设计,仍有许多研究的空白。
六、Hbase非关系型数据库技术
Hbase是一种非关系型的分布式数据库技术,即“云数据库”技术。它是一个面向列的分布式数据库,其思想源于Google的BigTable系统。我们的大量数据都是存储在Hbase中,以满足随机读写的需求(Random R/W)。Hbase目前尚处于起步的阶段,其split操作,compact操作及相关性能及数据调度及使用,有很多问题尚待突破。我们也一直致力于这部分的开发及二次开发,取得了不做的成果。
对于数据处理过程,充分采用Thrift中间件等技术,提高系统兼容性及性能,并应用了Hive数据仓库对部分数据结果进行了ETL,从而将一些需要关系型处理的数据进行了仓库化存储,弥补了Hbase进行数据持久化时的一些弊端。
本发明的ABT系统拥有相对独立的数据体系和运算模型,其基础结构为一个基于云计算(Cloud Computing)和分布式存储(Distributed Storage)的计算机/应用集群,用于承载ABT应用5亿受众、50亿行为记录级别的海量数据运算和存储。其在很大程度上充分运用了最新的分布式存储及计算技术,实现传统程序无法实现的数据计算能力。从而为实现用户行为精准地跟踪计算提供了保证。业务流程方面,ABT负责受众行为的跟踪、分析、存储、挖掘、检索、提供。其设计目可概括为以下几点:
第一、为AMP平台精准广告定向投放提供用户行为数据支持;
第二、为AMP所覆盖的媒体全局范围内的用户浏览等数据提供整体数值分析;
第三、为将来基于用户兴趣的广告位属性数据库提供数据准备;
第四、为将来覆盖广告主网站的广告后行为优化/电子商务支持系统提供数据准备;
第五、积累用户行为数据,努力建立全国互联网广告受众数据库,为行业纵向分析等其他后续数据业务进行数据积累。
其基本原理是按照下述流程跟踪和获取用户信息:
步骤1、实现基于广告系统日志的受众浏览及广告行为跟踪,保证对广告系统日志的完全利用;
步骤2、结合搜索模块的数据接口,每日提取出用户的普通浏览行为分布和其所针对的关键词数据;
步骤3、结合广告管理模块的数据,每日提取出用户广告浏览、点击、播放、关闭行为和其所针对的关键词数据;
步骤4、每周进行用户行为公式化分析(行为挖掘)和汇总转储;
步骤5、每周进行现有用户行为公式化分析结果的更正;
步骤6、保留长时段的每日用户行为分析结果(保留30天数据点),提供基于时间轴的用户兴趣点变化取向分析的(基于公式分析,一期暂不实现)的数据;
步骤7、基于最终公式化分析的结果,为广告投放模块提供高性能的实时用户属性查询接口。
从总体上看,本发明要解决的内容主要分两个部分:
海量数据处理、用户行为分析挖掘算法研究。两部分互相结合互相促进。
1)海量数据处理:以云计算技术为主线,着重解决云计算复杂逻辑中的多重索引及二次排序技术。此外还包括具有数据持久性特性的云存储,以及海量数据下最终用户属性数据在广告投放中的实时定向技术的研究。
2)用户行为分析算法:以用户聚类技术为主线,结合用户的浏览行为、广告交互行为、电商交互行为的多维度分析。通过对用户广告效果的回收修正,不断完善数据挖掘和聚类的具体结构,提高用户兴趣提取的准确性。
通过项目实施,在解决海量数据处理能力和用户行为分析中数据建模、聚类方法和数据有效性把控的关键科学和技术问题的过程,建立具有自主研发能力的、稳定的专业团队。提高用户行为分析的效率和准确性,建立基于用户兴趣进行精准广告投放的模式,不断提高广告效果。
图1为本发明基于云计算的受众行为分析广告定向系统总体框架示意图,如图1所示,所述ABT用户行为广告定向系统,主要由基于分布式存储的用户轨迹存储模块、基于云计算的用户行为分析模块、垂直搜索模块、网页内文分析模块、实时定向模块、集群调度及管理子模块组成;其中:
1)基于分布式存储的用户轨迹存储模块(可简称“用户轨迹存储模块”)
用户轨迹存储,是基于对广告投放过程中,广告位置代码所产生的用户浏览记录进行用户访问轨迹信息的收集的。这部分的用户访问轨迹,是ABT系统中进行用户行为分析的一项主要数据来源。
为了实现数据的自动转储、转储完整性判断、数据冗余性和容灾性、数据的并发读取特性等功能,我们基于HDFS分布式文件系统开发了ABT系统的用户轨迹存储模块。
其基本结构如图2所示,该用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统。
数据传输子模块:主要用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份。
线程控制子模块:主要用于对分布式计算的各个任务的线程起到调配的作用。
转储调度子模块:主要用于对数据存储的同步、异步以及迁移构造合理的方案。
DFS中间件及HDFS系统:主要用于分布式的数据库访问的事务处理。
这里,HDFS系统的数据完整性,依赖于其复制因子结构对容灾性能的帮助,在单独节点服务器故障、甚至整个机柜受损的情况下,通过Data Blocks的冗余性及自平衡特性,仍能保证数据的完整性和可用性。具体结构如图3所示。
图中展现了整个HDFS三个重要角色:命名节点(NameNode)、数据节点(DataNode)和客户端(Client)。所述NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。所述Client可以是需要获取分布式文件系统文件的应用程序或功能模块。这里通过三个操作来说明他们之间的交互关系:
文件写入:
①Client向NameNode发起文件写入的请求。
②NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
③Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
文件读取:
①Client向NameNode发起文件读取的请求。
②NameNode返回文件存储的DataNode的信息。
③Client读取文件信息。
文件Block复制:
①NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。
②通知DataNode相互复制Block。
③DataNode开始直接相互复制。
2)基于云计算的用户行为分析模块(可简称“用户行为分析模块”)
用户行为分析模块,采用了Map/Reduce计算模型,以保证大数据量下的计算性能的要求。用户行为分析的数据来源主要有几下几个方面:
①受众自然浏览行为:记录用户的自然访问页面轨迹;
②受众自然搜索行为:记录用户通过搜索引擎跳转到页面的搜索关键词;
③广告交互行为:记录用户对广告的点击记录;
④电子商务交互行为:记录用户在电商企业的购买行为。
它们之间的关系,以及用户行为分析模块在ABT系统中的关系:
用户的自然浏览记录、广告交互及电商购买行为容易被记录下来存储到分布式文件系统中,之后通过数据分析程序把这些记录再加上在广告前端获得的用户搜索行为,建立用户属性及兴趣模型,通过计算得出用户属性,之后在前端广告投放系统在作用于广告的精准投放,他们相铺相成、互相作用。具体流程,如图4所示。
3)复合搜索模块
复合垂直搜索系统提供URL到页面重点关键词的转换。意为传统垂直搜索和针对媒体上不断新增的新页面的实时补充抓取程序相结合。为BT定向的用户行为分析服务,同时提供用户即时兴趣匹配的页面分词功能。
复合搜索模块采用M/R方式进行并行Spider抓取,每个Spider又是多线程运行的,能够提供高并发的页面抓取,并且具有优秀的链接跟踪能力、防爬虫黑洞的技术等。最重要的是,通过基于广告位触发通知的实时搜索技术的引入,由广告位触发通知,结合了受众行为分析广告精准定向的具体业务需求,完美地解决了实时搜索技术中新页面的定位难点。
4)网页内文分析模块
网页内文分析,是ABT系统中搜索引擎的关键所在。确保网页正文的高权重关键词广告投放。
使用概率统计计算得出页面中table、div等标签中文本字数概率最大值的标签,结合网页噪音过滤算法选取网页正文和title中的标题。
我们通过识别出页面的正文,加上TF/IDF和标题加权算法计算出本页面最高权重关键词,具体步骤如下:
步骤1、将普通网页HTML转换成符合标准的XHTML,类似工具HTMLTidy。
步骤2、将修复后的网页html生成dom树。
步骤3、根据<title>标签抽取标题。
步骤4、识别网页编码:可以查看http请求头的charset或者查看网页代码中的meta中的charset。
步骤5、去掉和正文无关的网页节点标签及内容:script、style、Button、meta、iframe等。
步骤6、计算整篇网页中的非链接字符总数。
步骤7、遍历网页中的table、div节点,并计算节点中非链接字符数量与网页总的非链接字符数量相除,选择比值大于0.8的节点存入有序集合。
步骤8、过滤包含注释文本的节点,例如:郑重声明、版权所有、关于我们等,制作一个常用的网站注释过滤库。
步骤9、将title分词(去除停止词)在已取得的集合中,选择包含关键词最多的节点,如果包含关键词相同则以集合顺序为准,如果不包含关键词则选择第一个。
最终,通过上述方法将选择的节点抽取文本作为正文,并进行下一步的分词处理,其原理如图5所示。
网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而我们就能知道用户浏览的页面关键词了。
5)实时定向模块
广告进行用户行为定向,需要ABT系统的实时定向模块负责对广告系统的投放模块提供针对单个用户信息的数据检索服务。实时定向模块就是在广告投放时,广告投放核心对需要进行BT定向的广告,向此模块发起查询,查询当前访客的兴趣信息及当前页面的上下文内容关键词信息。这些信息是通过上述ABT系统中的若干模块通过统计分析得来的最终数据,在Hbase系统中进行存储,将作为最终广告定向的判断条件。
通过采用Apache自写DSO作为最终的Socket查询终端,可以实现更好的缓冲性能,降低REST及HBase压力,服务线程等具体参数控制灵活,加之功能强大,可以实现与REST的不对称匹配,便于系统部署灵活性。
在DSO和Hbase的连接层,采用了RestAPI作为中间件系统,具有结构灵活可控的优点。此外,有余Rest服务器部署在Hbase的多个regionserver上,还采用了HAProxy负载均衡系统对查询及rest中间件服务进行了分流,确保服务的稳定性。其整体模块结构如图6所示。
HAproxy负载均衡:负责接受广告页面js代码传递过来的广告请求,并将大量请求有效的均衡到集群服务器上。
Memcache:由memcache组成的集群可以快速的回应负载均衡转过来的请求,一击命中大大提高了查询速度。
REST Gateway服务:是一个hbase的第三方操作插件,通过它第三方程序可以方便的在memcache命中不了的情况之下查询hbase数据库,来回应请求。
Hbase:分布式数据库主要用来存储用户的浏览记录、网页正文、分词结果和分析后的用户兴趣。
6)集群调度及管理模块
Hadoop的HDFS及MapReduce调度依赖于Hadoop本身的调度机制,HBase对于HregionServer的调度也依赖于其本身的调度机制。
在上述任务流程中,整体调度模块(以下简称ABT Master)将和Hadoop的Master服务器公用一台服务器,其需要处理的任务有:
(1)对各个子结点的结点服务器列表进行登记维护,整理如下(见表1)。
表1:
Figure BDA0000083179600000151
(2)各个服务器中HDFS、Map/Reduce、Hbase的WEB状态查询转发。
(3)完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询等。
(4)对失败的任务进行重新调度、重新分配。
(5)提供整体任务完成情况和全局数值分析的简单报表服务。
集群任务及管理子模块采用WEB管理方式,其管理端可采用PHP编写,其调度的通信机制可以采用Perl编写,采用SSH通讯。若此模块的可靠性存在问题,备用方案可采用单机crontab调度,但会检查Master的服务的通知标记,以保证任务调度的灵活性。
应用本ABT系统,可达到如下的技术效果:
1、可实现针对广告受众的匹配的详细选择
我们可实现细化的广告投放精准需求选择,其中主要创新点是包括了人口属性和兴趣属性,均表示了投放的目标人群。如图7所示。
2、对广告投放后的用户数据深度挖掘及分析。
我们可实现针对广告投放命中的用户进行细节分析,提供用户的兴趣属性和定向命中信息,并按广告效果进行排序,可用来进行数据挖掘或下一步的投放选择。
如图8所示的用户实际样本。
例如,访问媒体分析,如表2所示。
表2:
Figure BDA0000083179600000161
例如,关键词分析,如表3所示。
表3:
  兴趣关键词   词频权重
  新闻   75.98%
  汽车   68.85%
  图片   63.55%
  生活   63.51%
  娱乐   61.40%
  论坛   59.43%
  视频   53.33%
  发表   48.98%
  网络   48.61%
  网友   44.42%
  时尚   43.76%
  信息   43.56%
例如,兴趣分类分析,如表4所示。
表4:
  兴趣分类   兴趣受众(占总人数比例,有重复)
  游戏   66.16%
  时尚   61.15%
  汽车   29.63%
  财经   25.13%
  健康   21.83%
  房产   16.35%
  IT数码   15.40%
  校园   13.03%
  体育   12.93%
  旅游   1.41%
  母婴   0.29%
本发明的ABT系统,还需要进一步改善的问题有:
1)需要进一步细化分类标准并为之建立模型
目前我们对用户的分类还是过于行业化,之后根据需要,还可以细化到行业->产品->品牌的层级,用于更细化的标识用户兴趣,并为进一步的计算提供数据依据。
2)需要增加用户分析的项目,例如,兴趣时间等。
需要增加用户的兴趣与时间联动计算预测用户的消费行为,需要增加用户的角色信息,心理属性信息等深度挖掘用户属性的相关指标。
本发明的ABT系统的特点,还包括:
1、基于统计学算法的正文识别
目前我们实现了基于统计学原理实现的文章页内文提取功能,可以实现任何文本页的正文提取,抛弃了页面中无用的文字广告和冗余信息等内容,可以大幅提高对页面内容语义识别的精确度,并进而提高用户属性分析的基础数据的质量。其正文识别的结果,如图9所示。
2、关键词自动扩展系统
由于本发明的系统中基础数据主要依靠关键词。为了丰富词库的内容,我方除了机器学习算法之外还开方了基于广告投放和用户数据研究的关键词扩展系统,为词库维护人员提供了更多的流行词和关联词的选择。关键词经拓展得到的拓展词条及相关词条如图10所示。
3、基于用户浏览行为的兴趣计算
用户浏览行为->用户兴趣关键词->用户兴趣计算,是本发明的独创的技术,涉及了海量数据平台的研发和大量的数据模型建立。我们的数据平台中存储了数十TB的数据,并对这些数据进行并行计算,才可以维护现有用户脚本的数据记录和分析工作。例如,其计算结果(部分)如图11所示。
4、实时高效的广告投放和分析技术
我方的投放服务平台每天可支持数十亿的广告投放请求服务,在每次请求时,都会进行复杂的广告匹配计算,这些计算的数据源非常宠大。但这些计算都需要在50ms之内完成,这对我们的计算能力有非常高的要求。
为此,我们采用了编写http server的方式,使用系统底层的技术和高效的语言配合,并部署在合理的系统架构来完成此项操作。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.一种基于云计算的受众行为分析广告定向ABT系统,其特征在于,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块;其中:
用户轨迹存储模块,在广告投放过程中,用于针对用户浏览记录进行用户访问轨迹信息的收集和存储,所述用户访问轨迹信息是所述ABT系统中进行用户行为分析的主要数据来源;
用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下计算的系统性能,其用户行为分析的数据来源主要包括受众自然浏览行为、受众自然搜索行为、广告交互行为、电子商务交互行为;
复合搜索模块,用于提供统一资源定位符URL即页面地址到页面重点关键词的转换,还用于为BT定向的用户行为提供分析服务,同时提供用户即时兴趣匹配的页面分词功能;
网页内文分析模块,作为所述ABT系统中的搜索引擎,用于确保网页正文的高权重关键词广告投放;
实时定向模块,用于对所述ABT系统的投放模块提供针对单个用户信息的检索服务;
集群调度及管理模块,用于对各个子节点的节点服务器列表进行登记维护;对各个服务器中的HDFS、Map/Reduce、Hbase的web状态进行查询转发;用于完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询;还用于对失败的任务进行重新调度、重新分配;以及提供整体任务完成情况和全局数值分析的简单报表服务。
2.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统;其中,
数据传输子模块,用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份;
线程控制子模块,用于对分布式计算的各个任务的线程起到调配的作用;
转储调度子模块,用于对数据存储的同步、异步以及迁移构造合理的方案;
DFS中间件及HDFS系统,用于分布式的数据库访问的事务处理。
3.根据权利要求1或2所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述的HDFS系统进一步包括命名节点NameNode、数据节点DataNode和客户端Client;其中,
所述NameNode是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制;所述NameNode将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息;
所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode;以及,
所述Client是需要获取分布式文件系统文件的应用程序或功能模块。
4.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下的计算性能的要求,所述用户行为分析的数据来源主要有几下几个方面:受众自然浏览行为,记录用户的自然访问页面轨迹;受众自然搜索行为,记录用户通过搜索引擎跳转到页面的搜索关键词;广告交互行为,记录用户对广告的点击记录;电子商务交互行为,记录用户在电商企业的购买行为。
5.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而得到用户浏览的页面关键词。
6.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述集群调度及管理模块,其管理端的调度的通信机制采用SSH通讯;进一步地,若该模块的可靠性存在问题,备用方案则采用单机corntab调度。
CN2011102322665A 2011-08-15 2011-08-15 基于云计算的受众行为分析广告定向系统 Pending CN102236867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102322665A CN102236867A (zh) 2011-08-15 2011-08-15 基于云计算的受众行为分析广告定向系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102322665A CN102236867A (zh) 2011-08-15 2011-08-15 基于云计算的受众行为分析广告定向系统

Publications (1)

Publication Number Publication Date
CN102236867A true CN102236867A (zh) 2011-11-09

Family

ID=44887496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102322665A Pending CN102236867A (zh) 2011-08-15 2011-08-15 基于云计算的受众行为分析广告定向系统

Country Status (1)

Country Link
CN (1) CN102236867A (zh)

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN102663027A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种网页人群属性的预测方法
CN102663026A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种定向投放网络广告的实现方法
CN102708498A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于主题定向的广告投放方法
CN102819563A (zh) * 2012-07-04 2012-12-12 合一网络技术(北京)有限公司 一种在统计信息投放频次时降低计算复杂度的方法及系统
CN102855277A (zh) * 2012-07-23 2013-01-02 中国联合网络通信集团有限公司 数据中心系统及数据处理方法
CN102880709A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 数据仓库管理系统和数据仓库管理方法
CN103065260A (zh) * 2013-01-22 2013-04-24 分众(中国)信息技术有限公司 一种基于云计算互动广告信息管理系统
WO2013078640A1 (en) * 2011-11-30 2013-06-06 Google Inc. Estimating user demographics
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103336815A (zh) * 2013-06-27 2013-10-02 北京京东尚科信息技术有限公司 网络广告推送的系统和方法
CN103426096A (zh) * 2012-05-14 2013-12-04 阿里巴巴集团控股有限公司 一种推荐用户的方法及装置
CN103489117A (zh) * 2012-06-12 2014-01-01 深圳市腾讯计算机系统有限公司 信息投放方法和系统
CN103593770A (zh) * 2013-10-24 2014-02-19 清华大学 基于马尔科夫模型的亚马逊弹性计算云竞价方法
CN103632279A (zh) * 2012-08-23 2014-03-12 能汲智慧港(上海)信息科技有限公司 基于模糊聚类技术的移动互联网广告自动发布方法及装置
CN103824214A (zh) * 2014-03-17 2014-05-28 联想(北京)有限公司 信息处理方法、装置及电子设备
CN103823894A (zh) * 2014-03-11 2014-05-28 北京大学 一种产品受众特征抽取方法
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104050591A (zh) * 2014-06-25 2014-09-17 上海艾瑞市场咨询有限公司 Pc终端广告投放量分析及效果优化系统及方法
CN104281635A (zh) * 2014-03-13 2015-01-14 电子科技大学 基于隐私反馈预测移动用户基础属性的方法
CN104346335A (zh) * 2013-07-23 2015-02-11 上海化工宝电子商务有限公司 资讯中心互动网页
EP2843859A1 (en) * 2013-08-29 2015-03-04 Comcast Cable Communications, LLC Measuring video-content viewing
CN104391847A (zh) * 2014-05-22 2015-03-04 艺龙网信息技术(北京)有限公司 一种基于用户行为的酒店排序方法、云端服务器及系统
CN104598466A (zh) * 2013-10-31 2015-05-06 腾讯科技(北京)有限公司 网络媒介信息的展示控制方法和装置
CN104794567A (zh) * 2015-04-10 2015-07-22 华东师范大学 一种基于HBase的传染病数据管理方法
CN104851026A (zh) * 2015-05-21 2015-08-19 上海宾谷网络科技有限公司 基于大数据实时定位用户的竞价原生广告奖励系统及方法
CN104899755A (zh) * 2014-03-05 2015-09-09 晶赞广告(上海)有限公司 一种多维度复杂条件广告索引方法
CN105095299A (zh) * 2014-05-16 2015-11-25 北京奇虎科技有限公司 图片抓取方法和系统
CN105787132A (zh) * 2016-03-31 2016-07-20 畅捷通信息技术股份有限公司 用户行为分析的控制方法和用户行为分析的控制系统
CN106294625A (zh) * 2016-08-02 2017-01-04 苏州鸿然信息科技有限公司 基于用户行为的云服务垂直搜索充电桩系统
WO2017028566A1 (zh) * 2015-08-19 2017-02-23 中兴通讯股份有限公司 一种云环境资源关注点的采集方法、装置及服务器
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN106951505A (zh) * 2017-03-16 2017-07-14 北京搜狐新媒体信息技术有限公司 网页信息获得方法及系统
CN106959965A (zh) * 2016-01-12 2017-07-18 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN107220745A (zh) * 2017-04-24 2017-09-29 北京红马传媒文化发展有限公司 一种意图行为数据的识别方法、系统及设备
CN107358459A (zh) * 2017-06-15 2017-11-17 浙江启冠网络股份有限公司 基于定向房产兴趣人群的广告投放方法与系统
CN107423315A (zh) * 2017-03-23 2017-12-01 广东南方新视界传媒科技有限公司 一种户外媒体资源数据的挖掘处理方法及系统
CN107463853A (zh) * 2017-08-04 2017-12-12 晶赞广告(上海)有限公司 受众标签分析的方法及系统
CN107846426A (zh) * 2016-09-18 2018-03-27 腾讯科技(深圳)有限公司 页面访问中用户轨迹的跟踪方法和装置
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
US10089592B2 (en) 2010-12-29 2018-10-02 Comcast Cable Communications, Llc Measuring video asset viewing
CN109816410A (zh) * 2017-11-21 2019-05-28 北京奇虎科技有限公司 广告主产品受众群体的分析方法及装置
CN109829759A (zh) * 2019-01-26 2019-05-31 广联储区块链科技(深圳)有限公司 一种基于区块链的互联网广告联盟系统
CN109993570A (zh) * 2019-01-14 2019-07-09 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及系统
CN110222750A (zh) * 2019-05-27 2019-09-10 北京品友互动信息技术股份公司 目标受众浓度的确定方法及装置
US10440428B2 (en) 2013-01-13 2019-10-08 Comcast Cable Communications, Llc Measuring video-program-viewing activity
CN110782122A (zh) * 2019-09-16 2020-02-11 腾讯大地通途(北京)科技有限公司 数据处理方法、装置及电子设备
US10945011B2 (en) 2010-12-29 2021-03-09 Comcast Cable Communications, Llc Measuring video viewing
CN114363216A (zh) * 2021-12-31 2022-04-15 上海淇玥信息技术有限公司 一种嵌入式系统全渠道流量映射的方法、装置、电子设备
US11627356B2 (en) 2012-01-28 2023-04-11 Comcast Cable Communications, Llc Data translation for video-viewing activity

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671638B2 (en) 2010-12-29 2023-06-06 Comcast Cable Communications, Llc Measuring video viewing
US10089592B2 (en) 2010-12-29 2018-10-02 Comcast Cable Communications, Llc Measuring video asset viewing
US10945011B2 (en) 2010-12-29 2021-03-09 Comcast Cable Communications, Llc Measuring video viewing
US11218755B2 (en) 2010-12-29 2022-01-04 Comcast Cable Communications, Llc Measuring video viewing
US11537971B2 (en) 2010-12-29 2022-12-27 Comcast Cable Communications, Llc Measuring video-asset viewing
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统
WO2013078640A1 (en) * 2011-11-30 2013-06-06 Google Inc. Estimating user demographics
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN102708498A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于主题定向的广告投放方法
US11627356B2 (en) 2012-01-28 2023-04-11 Comcast Cable Communications, Llc Data translation for video-viewing activity
CN102663026B (zh) * 2012-03-22 2015-09-23 浙江盘石信息技术股份有限公司 一种定向投放网络广告的实现方法
CN102663026A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种定向投放网络广告的实现方法
CN102663027A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种网页人群属性的预测方法
CN103426096A (zh) * 2012-05-14 2013-12-04 阿里巴巴集团控股有限公司 一种推荐用户的方法及装置
CN103489117A (zh) * 2012-06-12 2014-01-01 深圳市腾讯计算机系统有限公司 信息投放方法和系统
CN103489117B (zh) * 2012-06-12 2015-07-01 深圳市腾讯计算机系统有限公司 信息投放方法和系统
CN102819563B (zh) * 2012-07-04 2015-09-23 合一网络技术(北京)有限公司 一种在统计信息投放频次时降低计算复杂度的方法及系统
CN102819563A (zh) * 2012-07-04 2012-12-12 合一网络技术(北京)有限公司 一种在统计信息投放频次时降低计算复杂度的方法及系统
CN102855277A (zh) * 2012-07-23 2013-01-02 中国联合网络通信集团有限公司 数据中心系统及数据处理方法
CN103632279A (zh) * 2012-08-23 2014-03-12 能汲智慧港(上海)信息科技有限公司 基于模糊聚类技术的移动互联网广告自动发布方法及装置
CN102880709A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 数据仓库管理系统和数据仓库管理方法
US11363331B2 (en) 2013-01-13 2022-06-14 Comcast Cable Communications, Llc Measuring video-program-viewing activity
US10440428B2 (en) 2013-01-13 2019-10-08 Comcast Cable Communications, Llc Measuring video-program-viewing activity
US11968421B2 (en) 2013-01-13 2024-04-23 Comcast Cable Communications, Llc Measuring video-program-viewing activity
CN103065260A (zh) * 2013-01-22 2013-04-24 分众(中国)信息技术有限公司 一种基于云计算互动广告信息管理系统
CN103164521B (zh) * 2013-03-11 2016-03-23 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103336815B (zh) * 2013-06-27 2016-12-28 北京京东尚科信息技术有限公司 网络广告推送的系统和方法
CN103336815A (zh) * 2013-06-27 2013-10-02 北京京东尚科信息技术有限公司 网络广告推送的系统和方法
CN104346335A (zh) * 2013-07-23 2015-02-11 上海化工宝电子商务有限公司 资讯中心互动网页
US10645433B1 (en) 2013-08-29 2020-05-05 Comcast Cable Communications, Llc Measuring video-content viewing
US11012726B2 (en) 2013-08-29 2021-05-18 Comcast Cable Communications, Llc Measuring video-content viewing
EP2843859A1 (en) * 2013-08-29 2015-03-04 Comcast Cable Communications, LLC Measuring video-content viewing
US11677998B2 (en) 2013-08-29 2023-06-13 Comcast Cable Communications, Llc Measuring video-content viewing
US11212565B2 (en) 2013-08-29 2021-12-28 Comcast Cable Communications, Llc Measuring video-content viewing
CN103593770A (zh) * 2013-10-24 2014-02-19 清华大学 基于马尔科夫模型的亚马逊弹性计算云竞价方法
CN104598466A (zh) * 2013-10-31 2015-05-06 腾讯科技(北京)有限公司 网络媒介信息的展示控制方法和装置
CN104899755A (zh) * 2014-03-05 2015-09-09 晶赞广告(上海)有限公司 一种多维度复杂条件广告索引方法
CN103823894A (zh) * 2014-03-11 2014-05-28 北京大学 一种产品受众特征抽取方法
CN104281635A (zh) * 2014-03-13 2015-01-14 电子科技大学 基于隐私反馈预测移动用户基础属性的方法
CN103824214A (zh) * 2014-03-17 2014-05-28 联想(北京)有限公司 信息处理方法、装置及电子设备
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN103916293B (zh) * 2014-04-15 2017-03-22 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105095299A (zh) * 2014-05-16 2015-11-25 北京奇虎科技有限公司 图片抓取方法和系统
CN104391847A (zh) * 2014-05-22 2015-03-04 艺龙网信息技术(北京)有限公司 一种基于用户行为的酒店排序方法、云端服务器及系统
CN104050591A (zh) * 2014-06-25 2014-09-17 上海艾瑞市场咨询有限公司 Pc终端广告投放量分析及效果优化系统及方法
CN104794567B (zh) * 2015-04-10 2018-02-23 华东师范大学 一种基于HBase的传染病数据管理方法
CN104794567A (zh) * 2015-04-10 2015-07-22 华东师范大学 一种基于HBase的传染病数据管理方法
CN104851026B (zh) * 2015-05-21 2018-07-17 上海宾谷网络科技有限公司 基于大数据实时定位用户的竞价原生广告奖励系统及方法
CN104851026A (zh) * 2015-05-21 2015-08-19 上海宾谷网络科技有限公司 基于大数据实时定位用户的竞价原生广告奖励系统及方法
WO2017028566A1 (zh) * 2015-08-19 2017-02-23 中兴通讯股份有限公司 一种云环境资源关注点的采集方法、装置及服务器
CN106959965A (zh) * 2016-01-12 2017-07-18 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN105787132A (zh) * 2016-03-31 2016-07-20 畅捷通信息技术股份有限公司 用户行为分析的控制方法和用户行为分析的控制系统
CN106294625A (zh) * 2016-08-02 2017-01-04 苏州鸿然信息科技有限公司 基于用户行为的云服务垂直搜索充电桩系统
CN107846426B (zh) * 2016-09-18 2020-03-06 腾讯科技(深圳)有限公司 页面访问中用户轨迹的跟踪方法和装置
CN107846426A (zh) * 2016-09-18 2018-03-27 腾讯科技(深圳)有限公司 页面访问中用户轨迹的跟踪方法和装置
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN106951505A (zh) * 2017-03-16 2017-07-14 北京搜狐新媒体信息技术有限公司 网页信息获得方法及系统
CN107423315B (zh) * 2017-03-23 2018-11-06 广东南方新视界传媒科技有限公司 一种户外媒体资源数据的挖掘处理方法及系统
CN107423315A (zh) * 2017-03-23 2017-12-01 广东南方新视界传媒科技有限公司 一种户外媒体资源数据的挖掘处理方法及系统
CN107220745B (zh) * 2017-04-24 2021-03-09 北京红马传媒文化发展有限公司 一种意图行为数据的识别方法、系统及设备
CN107220745A (zh) * 2017-04-24 2017-09-29 北京红马传媒文化发展有限公司 一种意图行为数据的识别方法、系统及设备
CN107358459A (zh) * 2017-06-15 2017-11-17 浙江启冠网络股份有限公司 基于定向房产兴趣人群的广告投放方法与系统
CN107463853A (zh) * 2017-08-04 2017-12-12 晶赞广告(上海)有限公司 受众标签分析的方法及系统
CN109816410A (zh) * 2017-11-21 2019-05-28 北京奇虎科技有限公司 广告主产品受众群体的分析方法及装置
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN109993570A (zh) * 2019-01-14 2019-07-09 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及系统
CN109993570B (zh) * 2019-01-14 2023-09-01 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及系统
CN109829759A (zh) * 2019-01-26 2019-05-31 广联储区块链科技(深圳)有限公司 一种基于区块链的互联网广告联盟系统
CN110222750A (zh) * 2019-05-27 2019-09-10 北京品友互动信息技术股份公司 目标受众浓度的确定方法及装置
CN110782122A (zh) * 2019-09-16 2020-02-11 腾讯大地通途(北京)科技有限公司 数据处理方法、装置及电子设备
CN110782122B (zh) * 2019-09-16 2023-11-24 腾讯大地通途(北京)科技有限公司 数据处理方法、装置及电子设备
CN114363216A (zh) * 2021-12-31 2022-04-15 上海淇玥信息技术有限公司 一种嵌入式系统全渠道流量映射的方法、装置、电子设备
CN114363216B (zh) * 2021-12-31 2024-02-27 上海淇玥信息技术有限公司 一种嵌入式系统全渠道流量映射的方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN102236867A (zh) 基于云计算的受众行为分析广告定向系统
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN102495872A (zh) 对移动设备用户进行个性化新闻推荐的方法和装置
CN102110140A (zh) 基于网络离散文本的舆情信息分析方法
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN105378730A (zh) 社交媒体分析与输出
CN103827852B (zh) 在搜索引擎结果页面上聚集web页面
CN103886020A (zh) 一种房地产信息快速搜索方法
CN113553429A (zh) 一种规范化标签体系构建及文本自动标注方法
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
Pehcevski et al. Exploiting locality of Wikipedia links in entity ranking
CN101158953A (zh) 网络文档信息处理方法及装置
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
An et al. A heuristic approach on metadata recommendation for search engine optimization
CN100555283C (zh) 一种直接针对用户的相关信息的发布方法和系统
Li et al. A novel clustering-based RSS aggregator
Wang et al. Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
Kitamoto Digital typhoon: Near real-time aggregation, recombination and delivery of typhoon-related information
KR102328234B1 (ko) 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111109