CN108416620B - 一种基于大数据的画像数据的智能社交广告投放平台 - Google Patents
一种基于大数据的画像数据的智能社交广告投放平台 Download PDFInfo
- Publication number
- CN108416620B CN108416620B CN201810132376.6A CN201810132376A CN108416620B CN 108416620 B CN108416620 B CN 108416620B CN 201810132376 A CN201810132376 A CN 201810132376A CN 108416620 B CN108416620 B CN 108416620B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- layer
- portrait
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明提供了一种基于大数据的画像数据的智能社交广告投放平台。本发明能够将用户实时和离线的行为数据以单一接口(基于dataflow模型)的方式采集下来,通过大数据组件进行整合和计算,计算结果为用户画像数据,数据的组织形式是以标签为字段的宽表。并且通过倒排索引的方式组织画像数据,将这些数据的索引存储在大数据的仓库当中。Web平台将多个具体标签当作输入条件,输出统计和聚合结果。使用时,通过分析特定用于的兴趣、爱好等数据,并根据用户的特定爱好进行广告的投放,从而形成智能社交广告投放平台,减小广告的投放的随机性和盲目性,做到有的放矢。
Description
技术领域
本发明涉及一种智能社交广告投放平台技术领域,具体涉及一种基于大数据的画像数据的智能社交广告投放平台。
背景技术
当前,一方面,先进的广告投放通常为以下几种方式:一种是通过实体广告屏幕的方式,如户外的广告牌、广告显示牌,另外一种是网上的特定网页、电视节目之间插入的广告,如各大传媒网站上都会嵌入广告,而各卫视节目、网上视频也会插入一定时间的广告,这些均是对观看者之间植入广告的形式,由于广告针对的不是特定人群,因此即被广大观众所反感,广告对产品营销的效应也并不是很好,而即使请当红明星也不能有效提高广告对产品推广带来的过多效益。
而另一方面,整个人类社会已经高速进入大数据时代。特别是以各种计算机或智能设备为载体,在操作系统、应用程序、网络服务当中均内置有需经授权的用户数据采集、上传和分析功能。通过汇聚海量、多样、实时的用户数据,形成超大规模的数据集合,再利用大数据计算方法,获得数据背后用户的偏好、行动规律等有价值的信息,同时将相关标签对应到相关的用户,形成画像数据。以通过大数据计算所得的画像信息为基础,能对不同的用户提供相应不同的服务,提高不同层次用户的体验。那么构建一种多个维度的数据检索方式,在这个基础上进行分析就变得尤为重要了。
因此,如果能将大数据的画像数据功能,去分析特定用于的兴趣、爱好等数据,并根据用户的特定爱好进行广告的投放,从而形成智能社交广告投放平台,减小广告的投放的随机性和盲目性,做到有的放矢,这将是一个极具意义的活动。
然而,在大数据方面,为了应对大数据时代,技术储备雄厚的公司大都选择自行开发大数据系统和处理软件,形成符合自己公司的大数据产品,这些产品中不少是关于用户画像方向的。例如,中国专利文献CN107038237A公开了一种基于大数据的用户画像系统及画像方法,用户画像系统其特征在于用户关联模块和用户画像模块,用户画像方法具体包括用户数据处理、网站数据处理,以及用户数据和网站数据的匹配。文本数据处理后,获得用户的关注点。利用这些关注点,给用户打上标签。文本数据处理单元得到的结果,作为用户标签单元的输入。可以通过分类算法:逻辑回归、决策树、朴素贝叶斯、kNN最近邻、SVM支持向量机、神经网络等给用户打上最终的标签,实现精准画像。又例如,中国专利文献CN106547916A公开了一种用户画像标签查询方法及装置,其将标签序列用于按照用户顺序号、采用Bitset方式、通过1或者0分别表示每个用户是否拥有相应标签,根据查询顺序结果和预设的用户顺序表,得到拥有所述欲查询标签的用户号。
多维数据分析是大数据产品的一个重要的应用方向。中国专利文献CN106528787A则公开了一种基于海量数据多维分析的查询方法及装置,方法包括:接收用户发送的携带有待查询的维度信息的查询请求,根据该维度信息,在预先建立的subcube表中查询该维度信息对应的数据,当查询到该维度信息对应的数据,则将数据返回给用户,当未查询到该维度信息对应的数据,则在预先建立的cube表中查询该维度信息对应的数据,将数据返回给用户,并将该维度信息包含的维度名作为维度组合进行采集。通过上述方法,subcube表中的行数是少于cube表中的行数的,用户先在预先建立的subcube表中进行查询,这样可以有效地提高查询的效率,并且,subcube表只是列举出部分维度的维度组合,而无需穷举出所有的维度组合,这样有效地降低计算量。申请号为:CN200910028939.8的中国专利公开了一种从互联网海量信息中发现热点的方法,其特征在于:通过以XML方式解析由网络服务器抓取的一系列RSS种子,以及通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标、信息在其链出网页中的位置、发布时间与点击数等参数计算网页的热点程度,并进行排序和推荐。本发明可以帮助用户在互联网的海量信息中发现热点,使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。申请号为:CN201610835330.1的中国专利公开了一种基于遗忘曲线的教学资源个性化推荐方法。该方法根据人脑遗忘曲线理论来大数据分析用户对各个知识点的当前学习效果,然后根据评估结果定量地向用户推送最迫切需要的教学资源,由此不但可以解决用户面对海量教学资源时的选择障碍,还可以针对用户的个体学习情况,进行有针对性的教学资源个性化推荐,进而可方便用户进行自主及自助学习,提高学习效率,便于实际推广和应用。
可见,将大数据分析应用于用户画像的现有技术当中,大都是以行为数据的采集为基础,进而,统计分析这些行为数据包含的规律,主要以时序条件为统计基准,获得以用户id为key值的画像数据,再通过画像数据的分析挖掘获得行为偏好,进而进行针对性的用户关系管理,譬如用户价值分层维护、潜在高价值用户的挖掘、用户RFM分层、用户行为预测等等。
现有技术中存在的不足包括:第一,现有用户画像技术很少涉及到大数据量的计算操作,大都基于传统的关系型数据库,数据量较大的情况下就会导致计算失败或者计算时间过长。第二,即使用到了大数据的计算框架和引擎,数据的采集过程则主要通过ETL过程将数据从关系数据库中抽取,计算类型主要是离线数据的处理,而实时计算是大数据计算的主流趋势,行为数据的实时性不仅能提高数据的准确性和时效性,而且能提供更多的标签和信息量。第三,即使应用了实时计算方法,数据的采集和计算也是异构和复杂,没有一种统一的工程化方法使离线和实时计算的整个过程简单化和自动化。第四,现有用户画像的查询技术主要是画像数据的明细查询,存储查询技术也局限于关系型数据库,并没有在多维分析的角度上对用户画像数据进行检索和分析。第五,现有的多维分析系统主要是ROLAP和MOLAP,系统之间架构复杂难维护,需要建立数据立方体(cube)的结构,或者新的视图,也导致了在检索上的性能损失。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于大数据的画像数据的智能社交广告投放平台。本发明基于统一的采集计算模型从联网智能设备上运行的服务当中采集用户的行为数据,如登录、浏览、点击、交易、互动、离开等;将这些行为数据通过各种聚合分组统计的操作产生用户画像数据;再对这些用户画像数据进行倒排索引;因此web系统可依据索引数据,面向分析人员进行多维数据分析操作;起到用户关系的妥善管理的作用,并根据获取的更实时的画像数据去合理分析,并及时根据用户的特点去更改投放特定的广告,起到近实时解决用户实时需要的效果,因而能够使广告的针对性更强。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的画像数据的智能社交广告投放平台,其包括基于大数据的画像数据多维分析系统,其特征在于,包括:行为数据采集层、行为数据计算层、行为数据存储层、画像数据应用层、画像数据索引层、画像数据展示层;
所述行为数据采集层,指通过基于dataflow的模型将异构的用户行为数据采集到存储层。数据源包括:(1)从pc和移动设备上实时采集用户的行为数据,如登录、浏览、交易、退出等数据。(2)通过ETL过程从RDBS上拉取相关数据;
所述行为数据计算层从所述行为数据采集层获得提取行为数据,利用大数据计算组件(hadoop或spark),以用户id为整合字段,从用户行为数据中抽象出各种行为标签,按照特定的时间区间计算出标签宽表,并另做存储;
所述行为数据存储层从数据采集和计算层获得用户行为数据和画像数据,采用文本方式或者列存储的方式存储数据。数据的组织形式是一部分按照数据的种类存储,一部分是按照数据的时间字段存储;
所述画像数据应用层,指通过数据仓库工具,实现画像数据的各种应用,包括搜索查询、BI报表,数据分析挖掘等等;
所述画像数据索引层,指将画像数据通过倒排索引的算法,使标签字段数据列存储化,这种方式使得标签快速查找和替换成为可能;
所述画像数据展示层从索引层获取画像数据,将一个或多个标签字段作为传入参数条件,返回统计结果,并在web系统上作商务智能展示。这是典型的多维数据分析场景;
每次用户登录推送广告的社交媒介时,智能社交广告投放平台查询在该大数据的画像数据多维分析系统,并作出和相应实时画像数据的广告匹配,然后提取匹配好的广告,以一定的媒介方式展示给用户。
优选的是,所述行为数据采集层基于统一的dataflow模型,将实时业务流接口和结构化数据ETL过程结合为一种架构范式,并将这种范式工程化;所述实时业务接口从智能设备实时性地采集用户的操作记录和操作时间,以数据流的形式发送到数据队列,采集组件包括日志型的采集工具flume,也可以是业务程序api将用户数据实时发送到数据队列kafka,或者其他实现缓冲作用的队列;所述结构化数据ETL过程使用ETL工具将结构化数据从关系型数据库拉取至行为数据存储层,ETL工具可以是针对性的软件开发程序,也可以是开源的如dataX、kettle等组件;所述统一接口工程化,指将实时和离线的数据以窗口形式汇集到同一处理接口,根据窗口时间设定,将数据本身的产生时间(往往是自带的)作为计算基点,进行聚合和统计操作。
进一步优选的是,所述行为数据计算层将行为数据做聚合分组操作,基于业务数据规则,提炼出各种行为特征。如登录次数、活跃时间、交易数额、购买偏向等等。计算框架既可以基于文本做处理,也可以基于数据仓库。文本文件,通过代码实现计算,如spark读取parquet文件,提取scheme,组成dataframe数据结构,在此基础上进行数据计算工作;数据仓库,比如hive或者sparksql,通过sql操作获取标签数据,例如用户登录表和用户注册表进行聚合,可以获得用户是老用户和新用户。实时数据一般会在storm或者sparkstreaming平台直接进行计算,如各种聚合工作:count,sum,avg等等,这些计算后的结果输入数据库,由web直接查询。
优选的是,所述行为数据存储层具体包括:分布式的文件系统、列式存储等nosql数据库和传统的关系型数据库。分布式的文件系统主要用于大数据量的存储,使用存储用户的明细数据。可供选择的工具有hadoop的HDFS,除了读写等流程外,还能冗余灾备功能,也可以选择云厂商的存储资源,明细数据的存储功能要求能实现大时间间隔内的查询;列式存储包括hbase、elasticsearch等工具,主要用于大数据量的字段查询和olap多维分析。Hbase是hadoop生态圈的分布式列式存储数据库,elasticsearch自带列式存储,但主要是作为数据搜索引擎的工具使用。
优选的是,所述画像数据应用层将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段。数据分析人员可基于各种平台,如web端或数据仓库端进行分析挖掘。Web端对画像数据进行直接查询,譬如画像宽表明细查询,通过用户id或者字段查询画像总体数据。数据仓库端的分析挖掘包括各种场景的客户关系管理,包括用户价值分层维护、潜在高价值用户挖掘、用户的RFM分析、用户的付费预估、用户的流失率分析等等。
优选的是,所述画像数据索引层,包括数据索引和索引数据存储。数据索引指的是将数据的字段拆分,以字段值为key、以数据id为value,而不是以数据id为key、以字段值为value,这种倒排索引方式能极大压缩索引数据存储的压力。经过倒排索引的数据存储主要是以磁盘为持久化载体,以缓存为检索载体,实现读和持久化的分离。倒排索引的原理如下表所示:
字段值(支付等级字段) | 数据id |
V1 | 1,4,5 |
V2 | 2 |
V3 | 3,6 |
V4 | 7,9 |
V5 | 8 |
进一步优选的是,所述画像数据展示层,指主要通过web或客户端方式展示标签统计数据,输入条件是不同维度的标签数据限制,输出值为这些维度下的标签统计和聚合结果。基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。钻取操作基于维度层次的改变,本发明高低维度皆有存储,故可以满足;切片和切块需要某个维度的多条件查询,本发明可以查询某字段的具体多个标签来满足此需求;本发明的所有维度兼做索引,故旋转维度操作也可以满足。跟传统olap的雪花模型结构不同的是,为了多维查询的性能考虑,字段的值已经做了映射操作,所以查询的速度会更快。展示的可视化基于web平台,查询条件主要通过多选列表或下拉单实现输入,后台调用查询api,将模型数据(大部分为统计值和聚合结果)返回给web前端。前端利用开源的图表框架,如jqgrid和echarts,以散点图、折线图、柱状图、地图、饼图、雷达图、k线图、箱线图、热力图、关系图、树状图、矩形树图、平行坐标、桑基图、漏斗图、仪表图、象形柱图、主题河流图、日力图等形式将多维数据分析结果展示出来。
(三)有益效果
与现有技术相比,本发明提供了一种基于大数据的画像数据的智能社交广告投放平台,具备以下有益效果:
本发明中,在进行广告投放前,利用基于大数据的画像数据多维分析系统进行特定用户画像数据的获取,然后匹配合适的广告对特定的用户进行投放,其中,其基于大数据的画像数据多维分析系统能够实现离线和实时数据的采集、计算和展现,并且开发了一套统一的数据接口模型工程,对异构数据源的接入和计算提供平滑可复用的工具。而且在计算量上,本发明基于大数据组件进行数据计算,因此,计算量级可达到PB级别,计算速度也能超越大部分传统计算框架。另外,在数据查询的种类上,本发明不仅可以支持明细数据的查询,还可以基于画像数据进行多维度的数据分析,实现商务智能的超越。最后,在多维分析方面,本发明提供了一种轻型的多维计算和查询工具,可以实现更为快速、丰富的数据查询,并及时匹配用户最实时需要(或最潜在需要)的广告,提供更有针对性的广告投放,提供广告投放的效应。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的一种基于大数据的画像数据的智能社交广告投放平台的流程示意图;
图2为本发明提出的一种基于大数据的画像数据多维分析系统整体结构示意图;
图3为本发明系统的行为数据采集层结构示意图;
图4为本发明采取的画像数据计算结构示意图;
图5为本发明系统的多维分析系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提出的基于大数据的画像数据的智能社交广告投放平台,其包括基于大数据的画像数据多维分析系统,使用时,智能社交广告投放平台查询在该大数据的画像数据多维分析系统,并作出和相应实时画像数据的广告匹配,然后提取匹配好的广告,以一定的媒介方式展示给用户。
图2为本发明提出的一种基于大数据的画像数据多维分析系统整体结构示意图。该系统整体上分为行为数据采集层、行为数据计算层、行为数据存储层、画像数据应用层、画像数据索引层、画像数据展示层。
所述行为数据采集层,指基于工程化的统一接口,通过网络与智能设备建立连接,从智能设备上运行的应用或者服务当中,离线或者实时性采集用户的行为数据。用户的行为数据一般包括:用户设备注册登录情况、用户账号登录情况、用户对页面的浏览情况(包括点击事件、输入事件等)、用户交易情况(包括用户购买的商品、付出的金额等)、用户的互动情况(包括用户之间的消息传递等等)、用户离开情况(包括用户离开的环境和状态)等等。
如图3所示,所述行为数据采集层具体包括:日志数据接入、RDBS数据接入、实时数据接入和统一接口模型工程化。所述日志数据接入,从应用或者服务实时获得该应用或服务中记录用户操作行为及其操作时间的日志;可以在应用或者服务当中埋入钩子插件,将用户每一步操作产生的操作行为及其操作时间实时记录在用户日志当中。所述RDBS数据接入,指通过ETL手段,将原本存储于关系型数据库的数据存储至行为数据存储层,这些数据记录了用户比较重要的行为和相关状态,譬如登录情况(登录时间、登录设备机型、用户的来源信息、登录联网类型、用户的当前虚拟币值等等),交易情况(用户交易时间、交易对象id、交易数额、交易物品、交易物品数量、交易类型等等),离开情况(离开时间、离开时刻虚拟数值、离开时刻停留页面或服务、停留时长)。实时数据接入是指,针对用户操作时呈现的特定行为场景当中涉及的全部对象,定时查询采样每个对象的状态数据;例如,对于实时业务来说,每个对象的状态数据均保存在服务器的实时配置文件之中,并且根据服务器与智能设备之间双向交互的业务数据流的指令和参数,对该状态数据予以更新,则实时数据接入的相关接口可以侦听该业务数据流,进而获得每个对象的状态数据。所述统一接口工程化,区分数据的event time和process time,event time即数据产生的时间,往往存在于数据的某个字段中,process time即数据处理计算的时间,统一接口将采集来的数据以不同的时间窗口进行计算,如果是离线数据,那么时间窗口可以是长达一天、两天、一个月;如果是实时数据,时间窗口就可以是1秒、2秒、5秒,根据不同的业务场景,时间窗口也是不同的。因此,接口的工程函数只需要将不同的时间窗口参数引入,即可实现功能需求,而整个工程的接口则是同一个,这在代码复用和工程部署上会格外便利。
所述行为数据计算层从所述行为数据采集层提取行为数据,一般的,某个标签的值需要数个文件或结构化数据表进行连接join才能获得。譬如某个标签为注册天数(注册时间与统计登陆时间的差值),可统计出该用户的生命周期。这就需要用户登录表和注册表进行join操作,算出此差值,并将此标签值打在该用户的标签宽表上。将众多标签集成起来,形成的宽表数据就是统计时间区间内的用户画像数据。具体流程如图4所示。
所述行为数据存储层主要分为缓冲层和持久层。缓冲层是指实时数据接入之后,为了防止数据输入并发量过大超出数据存储速率,故在实时数据输入和数据存储之间搭建的队列。缓冲层的主要组件包括kafka、redis和自研的队列系统。缓冲层还可以起到冗余数据的作用,队列中的数据可以通过持久化保存指定的时间。持久层是日志数据接入、RDBS数据接入的存储载体,也是实时数据最终的存储介质。持久层主要是分布式的数据系统HDFS,行为数据明细都存储于hdfs。
所述画像数据应用层,将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段。数据分析人员可基于各种平台,如web端或数据仓库端进行分析挖掘。基础报表是较基本的应用,以时间序列为基本条件,日/周/月为自然统计周期,可统计出包括登录人数、付费交易人数、注册人数、新增付费人数等等比较重要的统计数据。以RFM分层为例,为了反应用户最近期的付费变化,同时预估用户短期的付费情况,减少流失,将用户最近付费日R(远->近:1~3分),用户付费频率F(低->高:1~3分),用户付费金额M(小->大:1~3分)作为最基本的标签评分,应用马尔科夫链原则。马尔科夫链是一种随机过程,设用户短期内付费为随机过程{X(t),t∈T},如果现阶段用户付费状况是已知的,并且之后付费与现阶段付费之前的状态无关,则可以设用户付费的状态空间为S,假设对于任意的n≥2,任意的t1<t2<…tn∈T,在条件{X(ti)=xi,xi∈S,i=1,2,…,n-1}下,{X(tn)}的条件概率分布函数恰好等于其在条件{X(tn-1)=xn-1}下的条件概率函数,即P(X(tn)≤xn|X(t1)=x1,X(t2)=x2,…,X(tn-1)=xn-1)=P(X(tn)≤xn|X(tn-1)=xn-1),那么通过大数定律算出之前付费的条件概率,基于当前RFM情况估算出下一阶段的付费概率。
除了上述应用之外,画像数据还有一个更重要的应用,即多维数据分析。它能使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI的特征。F是fast,指系统能在数秒内对用户的多数分析要求作出反应;A是analysis,指用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告;M是multi-dimensional,指提供对数据分析的多维视图和分析;I是information,指能及时获得信息,并且管理大容量信息。
所述画像数据索引层,指通过一种倒排索引的方法,将画像数据的字段值建立索引,以字段值为key、数据条的id为value,构建一种nosql数据存储方式。
如图5所示,画像数据由大量的标签字段组成,每个字段代表某个用户在统计周期内的某个统计值或行为度量。一般来说,相当多的用户的某个字段标签值是相同的,因此,从存储角度讲,重复的标签值是冗余的。只需注明哪些用户的此标签字段值是相同的即可。这样的话,每个标签字段可以维护一张倒排索引的字典表。字典表以键值对分布。类似于hash表,通过数组的形式存储这些标签值,设为key,value值为用户画像文档值ID,若下个用户文档字段的key值相等,则这个文档ID以链表的结构连接到上个文档值ID之后。这些字典表文件存储于磁盘当中,热数据的检索可以通过缓存放入内存中。当进行多维查询时,前端web传入字段条件参数,执行引擎找到此字段的字典表,经hash算法找到此字段值的存储桶,对value值中的文档数进行count操作,将统计结果返回给web端。当传入条件为多个不同标签的字段值,则找出符合各个标签字段值的文档,再对这些文档取交集,比如标签X中符合标签值条件的文档为{xi,i=1,2,3…n},标签Y中符合标签值条件的文档为{yj,j=1,2,3…m},则符合条件的文档为{xi,i=1,2,3…n}∩{yj,j=1,2,3…m},然后再对这些文档进行count统计,统计结果后返回。当对某个标签进行分组统计,类似于sql中的group by操作,则对标签所在的字典表中每个key值都进行文档的count操作,返回统计结果。
所述画像数据展示层,不仅包括画像数据的直接展示或报表统计,还包含多维分析的展示层。Web平台可以采取java典型的ssm架构,即spring、springMVC和mybatis架构,也可以采用python的Django架构。前端展示工具可以采用百度的echarts或者highcharts。通过这些有力的开源工具,我们可以据此作出丰富多彩的图表。
本发明能够将对用户各种行为数据的大数据采集与分析,与用户未来和潜在的行为关联起来,运用随机过程、聚类等大数据分析算法,实现对相关服务和应用的用户偏好的大数据分析,所产生的分析结论既可以优化现有的用户体验,还可以预测用户未来的行为,对用户进行分层运营,为用户提供精准推荐营销等等各种智能服务。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于大数据的画像数据的智能社交广告投放平台,包括基于大数据的画像数据多维分析系统,该基于大数据的画像数据多维分析系统包括:行为数据采集层、行为数据计算层、行为数据存储层、画像数据应用层、画像数据索引层、画像数据展示层;
所述行为数据采集层,指通过统一的接口将用户行为数据从异构的数据源采集到存储层,异构的数据源包括:(1)从pc和移动设备上实时采集用户的行为数据,包括登录、浏览、交易、退出这些数据;(2)通过ETL过程从RDBS上拉取相关数据;
所述行为数据计算层从所述行为数据采集层提取行为数据,利用大数据计算组件,以用户id为整合字段,从用户行为数据中抽象出各种行为标签,按照特定的时间区间计算出标签宽表,并另做存储;所述计算出标签宽表具体为:一个标签的值需要数个文件或结构化数据表进行连接join才能获得,需要用户登录表和注册表进行join操作,算出此标签值,并将此标签值打在该用户的标签宽表上,随后将众多标签集成起来,形成的宽表数据就是统计时间区间内的用户画像数据;
所述行为数据存储层从数据计算层获得用户画像数据,采用文本方式或者列存储的方式存储数据;数据的组织形式是一部分按照数据的种类存储,一部分是按照数据的时间字段存储;
所述画像数据应用层将所述数据计算和存储层获得的画像数据应用于业务系统;基于画像数据和不同的应用场景,进行不同角度的深入分析和挖掘,形成面向业务的大数据产品;
所述画像数据索引层,指将画像数据通过倒排索引的算法,使标签字段数据列存储化,使得标签快速查找和替换;
所述画像数据展示层,指通过web或客户端方式展示标签统计数据,输入条件是不同维度的标签数据限制,输出值为这些维度下的标签统计和聚合结果;
每次用户登录推送广告的社交媒介时,智能社交广告投放平台查询在该基于大数据的画像数据多维分析系统,查询到用户的实时画像数据,然后作出和相应实时画像数据的广告匹配,然后提取匹配好的广告,以一定的媒介方式展示给用户。
2.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述行为数据采集层具体包括:统一的无边界数据ETL接口;所述统一的无边界数据ETL接口将离线和实时的数据拉取至行为数据存储层,离线数据指的是已经存储在关系型数据库的数据,实时数据指的是从智能设备即时产生的用户操作数据,包括操作时间和操作事件。
3.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述行为数据计算层将行为数据做聚合分组操作,基于业务数据规则,提炼出各种行为特征;计算框架基于文本做处理,或者基于数据仓库,文本文件,通过代码实现计算;数据仓库,通过sql操作获取标签数据。
4.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述行为数据存储层具体包括:分布式的文件系统、列式存储nosql数据库和传统的关系型数据库;分布式的文件系统用于大数据量的存储,使用存储用户的明细数据;列式存储包括hbase、elasticsearch工具,用于大数据量的字段查询和olap多维分析。
5.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述画像数据应用层将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段;数据分析人员基于各种平台,进行分析挖掘。
6.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述画像数据索引层,包括数据索引和索引数据存储,数据索引指的是将数据的字段拆分,以字段值为key、以数据id为value,而不是以数据id为key、以字段值为value,这种倒排索引方式能极大压缩索引数据存储的压力,索引数据存储是以磁盘为持久化载体,以缓存为检索载体,实现读和持久化的分离。
7.根据权利要求1所述的智能社交广告投放平台,其特征在于,所述画像数据展示层以web平台作为多维分析的载体,鉴于倒排索引已经被存储,多维分析的cube就不需要重新计算,因此,底层大数据索引平台秒级返回统计结果,并快速反馈提供匹配的广告进行投放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810132376.6A CN108416620B (zh) | 2018-02-08 | 2018-02-08 | 一种基于大数据的画像数据的智能社交广告投放平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810132376.6A CN108416620B (zh) | 2018-02-08 | 2018-02-08 | 一种基于大数据的画像数据的智能社交广告投放平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416620A CN108416620A (zh) | 2018-08-17 |
CN108416620B true CN108416620B (zh) | 2022-02-22 |
Family
ID=63128123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810132376.6A Active CN108416620B (zh) | 2018-02-08 | 2018-02-08 | 一种基于大数据的画像数据的智能社交广告投放平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416620B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325779A (zh) * | 2018-08-20 | 2019-02-12 | 北京数美时代科技有限公司 | 一种用于反欺诈的读写画像方法、系统和画像处理系统 |
CN109145217A (zh) * | 2018-09-05 | 2019-01-04 | 广州视源电子科技股份有限公司 | 移动终端的上网数据分析的方法、装置、设备和存储介质 |
CN109344092B (zh) * | 2018-09-11 | 2023-06-23 | 天津易华录信息技术有限公司 | 一种提高冷存储数据读取速度的方法和系统 |
CN109446500B (zh) * | 2018-10-10 | 2023-10-03 | 江苏中威科技软件系统有限公司 | 一种控制区域批示下的整页跨格批示的方法 |
CN109634699B (zh) * | 2018-11-23 | 2022-04-05 | 中国人民解放军63789部队 | 一种基于桑基图的航天器异常信息聚类可视化及交互方法 |
CN109615429A (zh) * | 2018-12-11 | 2019-04-12 | 大象慧云信息技术有限公司 | 一种基于发票数据的精准广告投放系统及方法 |
CN109684402A (zh) * | 2018-12-21 | 2019-04-26 | 福建南威软件有限公司 | 一种基于大数据平台元数据血缘关系实现方法 |
CN109685579A (zh) * | 2018-12-29 | 2019-04-26 | 深圳市酷开网络科技有限公司 | 一种基于用户标签的数据处理方法、智能电视及存储介质 |
CN110351608A (zh) * | 2019-07-18 | 2019-10-18 | 中国传媒大学 | 一种广电用户收视行为数据切片系统、架构及方法 |
CN110489660B (zh) * | 2019-07-22 | 2020-12-18 | 武汉大学 | 一种社交媒体公开数据的用户经济状况画像方法 |
CN111105269B (zh) * | 2019-11-29 | 2023-05-26 | 北京云测信息技术有限公司 | 广告投放处理方法、装置、设备和存储介质 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
CN111459624B (zh) * | 2020-02-28 | 2021-08-24 | 拉扎斯网络科技(上海)有限公司 | 资源数据的发放方法、装置及设备 |
CN111506621B (zh) * | 2020-03-31 | 2023-03-31 | 新华三大数据技术有限公司 | 一种数据统计方法及装置 |
CN111475509A (zh) * | 2020-04-03 | 2020-07-31 | 李俊宏 | 一种基于大数据的用户画像和多维分析系统 |
CN111709843B (zh) * | 2020-05-09 | 2023-07-28 | 中国人民财产保险股份有限公司 | 一种客户画像的生成方法、装置及电子设备 |
CN111625583B (zh) * | 2020-05-21 | 2022-07-29 | 广西电网有限责任公司 | 业务数据处理方法、装置、计算机设备和存储介质 |
CN111754268A (zh) * | 2020-06-29 | 2020-10-09 | 深圳市酷开软件技术有限公司 | 基于ott大数据的用户标签生成方法、管理系统及存储介质 |
CN111753008A (zh) * | 2020-06-30 | 2020-10-09 | 珠海迈越信息技术有限公司 | 一种基于大数据分析的机顶盒收视方法及系统 |
CN111881221A (zh) * | 2020-07-07 | 2020-11-03 | 上海中通吉网络技术有限公司 | 物流服务里客户画像的方法、装置和设备 |
CN112000748A (zh) * | 2020-07-14 | 2020-11-27 | 北京神州泰岳智能数据技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN111882368B (zh) * | 2020-08-11 | 2023-12-05 | 北京云和互动信息技术有限公司 | 一种在线广告dpi加密埋点及透传跟踪的方法 |
CN112287226A (zh) * | 2020-10-29 | 2021-01-29 | 四川长虹电器股份有限公司 | 基于大数据的用户画像方法 |
US10999416B1 (en) | 2020-12-09 | 2021-05-04 | Coupang Corp. | Systems and methods for recurrent and adaptive electronic notifications |
CN112561578A (zh) * | 2020-12-15 | 2021-03-26 | 北京孵家科技股份有限公司 | 广告受众用户行为分析方法及系统 |
CN112527682B (zh) * | 2020-12-24 | 2023-10-27 | 四川享宇金信金融科技有限公司 | 一种产品功能性与用户协调性融合的模型开发方法 |
CN112990323A (zh) * | 2021-03-23 | 2021-06-18 | 李光伟 | 基于大数据线上模式的用户画像挖掘方法及机器学习系统 |
CN113392113A (zh) * | 2021-06-20 | 2021-09-14 | 杭州登虹科技有限公司 | 一种云视频开放平台精细化用户画像实时推荐方法 |
CN113421133A (zh) * | 2021-07-21 | 2021-09-21 | 赛诺数据科技(南京)有限公司 | 基于客户匹配的网络营销系统 |
CN113836136A (zh) * | 2021-08-20 | 2021-12-24 | 南京博雅区块链研究院有限公司 | 防贫预警方法、装置、电子设备及存储介质 |
CN113469755B (zh) * | 2021-09-03 | 2022-02-08 | 广东联讯科技发展股份有限公司 | 一种基于广告推送的智能精准营销管理系统 |
CN114022202B (zh) * | 2021-11-03 | 2022-11-01 | 中南大学 | 基于深度学习的用户流失预测方法及系统 |
CN114595943A (zh) * | 2022-02-14 | 2022-06-07 | 烟台杰瑞石油服务集团股份有限公司 | 机械设备画像生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677844A (zh) * | 2016-01-06 | 2016-06-15 | 北京摩比万思科技有限公司 | 一种移动广告大数据的定向推送及用户跨屏识别方法 |
CN105741134A (zh) * | 2016-01-26 | 2016-07-06 | 北京百分点信息科技有限公司 | 跨数据源的营销人群在市场营销中应用的方法及装置 |
WO2017071619A1 (en) * | 2015-10-27 | 2017-05-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for delivering a message |
CN107193855A (zh) * | 2016-12-30 | 2017-09-22 | 杭州博采网络科技股份有限公司 | 一种数据分析系统及方法 |
CN107403335A (zh) * | 2017-06-19 | 2017-11-28 | 北京至信普林科技有限公司 | 一种基于深度用户画像进行精准营销的系统及实现方法 |
-
2018
- 2018-02-08 CN CN201810132376.6A patent/CN108416620B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017071619A1 (en) * | 2015-10-27 | 2017-05-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for delivering a message |
CN105677844A (zh) * | 2016-01-06 | 2016-06-15 | 北京摩比万思科技有限公司 | 一种移动广告大数据的定向推送及用户跨屏识别方法 |
CN105741134A (zh) * | 2016-01-26 | 2016-07-06 | 北京百分点信息科技有限公司 | 跨数据源的营销人群在市场营销中应用的方法及装置 |
CN107193855A (zh) * | 2016-12-30 | 2017-09-22 | 杭州博采网络科技股份有限公司 | 一种数据分析系统及方法 |
CN107403335A (zh) * | 2017-06-19 | 2017-11-28 | 北京至信普林科技有限公司 | 一种基于深度用户画像进行精准营销的系统及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108416620A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416620B (zh) | 一种基于大数据的画像数据的智能社交广告投放平台 | |
CN111475509A (zh) | 一种基于大数据的用户画像和多维分析系统 | |
US9710815B2 (en) | System, method, and computer program product for processing and visualization of information | |
US20170124487A1 (en) | Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism | |
US9087332B2 (en) | Adaptive targeting for finding look-alike users | |
US10853847B2 (en) | Methods and systems for near real-time lookalike audience expansion in ads targeting | |
US11194812B2 (en) | Efficient aggregation of sliding time window features | |
US20150213109A1 (en) | System and method for providing big data analytics on dynamically-changing data models | |
US20140372346A1 (en) | Data intelligence using machine learning | |
AU2002334954A1 (en) | System, method, and computer program product for processing and visualization of information | |
US11768908B2 (en) | System and method for collection of a website in a past state and retroactive analysis thereof | |
US20140337274A1 (en) | System and method for analyzing big data in a network environment | |
US20190244146A1 (en) | Elastic distribution queuing of mass data for the use in director driven company assessment | |
CN111552885A (zh) | 实现自动化实时消息推送运营的系统及其方法 | |
US20220222268A1 (en) | Recommendation system for data assets in federation business data lake environments | |
CN107729206A (zh) | 告警日志的实时分析方法、系统和计算机处理设备 | |
Dutta et al. | Big data analytics for real time systems | |
US11308115B2 (en) | Method and system for persisting data | |
AU2020101842A4 (en) | DAI- Dataset Discovery: DATASET DISCOVERY IN DATA ANALYTICS USING AI- BASED PROGRAMMING. | |
AU2020103522A4 (en) | DAMA- Dataset Discovery: Dataset Discovery in Data Analytics and Machine Learning Algorithm | |
Doshi et al. | Analytics and visualization of trends in news articles | |
Smyrnaki | Data warehousing in higher education. A case study of the Hellenic Mediterranean University. | |
Ayyavaraiah | Data Mining For Business Intelligence | |
Arora | Big Data Analytics: The Underlying Technologies Used by Organizations | |
Kapoor et al. | Big Data Analysis in Cloud Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |