CN105677844A - 一种移动广告大数据的定向推送及用户跨屏识别方法 - Google Patents

一种移动广告大数据的定向推送及用户跨屏识别方法 Download PDF

Info

Publication number
CN105677844A
CN105677844A CN201610007215.5A CN201610007215A CN105677844A CN 105677844 A CN105677844 A CN 105677844A CN 201610007215 A CN201610007215 A CN 201610007215A CN 105677844 A CN105677844 A CN 105677844A
Authority
CN
China
Prior art keywords
user
data
visitor
browse
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610007215.5A
Other languages
English (en)
Other versions
CN105677844B (zh
Inventor
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yu Dongxue
Original Assignee
Beijing Mobivans Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mobivans Technology Co Ltd filed Critical Beijing Mobivans Technology Co Ltd
Priority to CN201610007215.5A priority Critical patent/CN105677844B/zh
Publication of CN105677844A publication Critical patent/CN105677844A/zh
Application granted granted Critical
Publication of CN105677844B publication Critical patent/CN105677844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种移动广告大数据的定向推送及用户跨屏识别方法,包括:推广投放服务器获取多个用户在浏览页面或App时的历史浏览及行为数据,生成浏览习惯及行为兴趣数据;根据用户的访问者ID在检测到用户再次在广告网络中进行浏览行为时,结合用户的历史兴趣分类和用户需求标签,选取符合该用户浏览习惯的广告数据进行推送;在检测到用户采用相关联的访问者ID在至少一个其他终端设备上登录页面时,主动推送符合该用户浏览习惯的广告数据,以实现针对该用户的用户跨屏用户设备识别。本发明通过对用户的历史浏览及行为数据的分析得到用户的浏览习惯,针对用户浏览习惯有针对性的主动向用户推送广告数据,具有投放及回报效率更高的特点。

Description

一种移动广告大数据的定向推送及用户跨屏识别方法
技术领域
本发明涉及移动互联网技术领域,特别涉及一种移动广告大数据的定向推送及用户跨屏识别方法。
背景技术
当前中国程序化广告市场正处于快速成长期,其2015年的高速增长一方面是由于RTB市场的高速增长,另一方面是受到非RTB的程序化购买方式及视频广告程序化购买的推动。
RTB(RealTimeBidding)与传统互联网广告购买形式相比,RTB是在每一个广告展示曝光的基础上进行竞价,就是每一个PV(pageview,页面浏览量)都会进行一次展现竞价,谁出价高,谁的广告就会被这个PV看到。广告主即买方会为了一个广告PV而竞价的原因在于AdExchange广告平台售卖的不是传统意义上的广告位,而是访问这个广告位的当前访问行为。
在访问行为背后,包含着广告位属性、受众的兴趣属性等特征,都将直接影响到DSP及广告主对于当前流量的广告匹配度,从而以不同的出价来体现。此种RTB的广告交易方式已经成为目前最具有增长前景的模式,能够最大程度上体现出互联网流量的价值,并为互联网受众提供更加高效的内容服务。
目前的互联网广告作为互联网行业的支柱产业,技术和市场的发展都是十分迅速。同时,与传统广告形式不同,互联网广告由于能够实现精确的数据监测、效果追踪与评估。所以,在追求广告展示及曝光效果之外,移动互联网广告的投放,更多地集中在效果广告方面。而提升网络广告的效果,最直接的手段就是利用互联网环境下独有的技术优势,采用精准定向的手段,找到广告真正有效果的受众群体。
另一方面,互联网用户对网页的浏览行为是跟踪用户行为一项重要数据来源,也是针对独立用户来讲最为广泛的数据来源。通过广告位分布等多种方式,实现对用户的互联网浏览行为尽可能多地全面跟踪,是首先要实现的。但收集来的用户访问记录(以下简称监测点)的URL并没有直接的意义,必须要通过专用的搜索引擎技术来查询出URL对应的页面内容,这需要自有的搜索技术来进行支持,属于垂直搜索的范畴。
传统的搜索引擎技术能够保证以自然周乃至自然日的周期对页面进行重新抓取更新,但这是无法满足广告定向业务中对页面内容抓取的需求,因为媒体页面的更新是快速的和实时的,在新的新闻内容页或其他页面出现后,对这些监测点的记录,或在这些页面上显示广告,就必须要求搜索系统能够满足实时搜索的需求,实时地抓取页面内容的内容进行正文提取及分词等下一步处理。搜索引擎技术属于互联网行业内比较尖端的技术,而实时搜索技术,是搜索引擎技术的延伸,是一门刚刚新兴起来的技术领域,研究起来相对困难,在页面更新的定位、索引方法、数据处理能力、爬虫效率等问题方面,有很多问题尚待突破。
此外,互联网的高速发展已经把人类带入了全新的消费时代,可以清晰的发现每个人的注意力其实都在身边的屏幕上进行流转,电视、PC、pad、手机,甚至户外大屏等等屏幕,所以了解这些屏幕对于研究消费者的心理需求绝对非常重要,多屏互动就是未来。
但是,有别于在传统PC端通过Cookie进行用户识别跟踪的技术,在移动端,更多的是通过设备ID或者IMEI码进行用户设备识别。那么如何实现针对不同的设备的唯一用户的跟踪定义是当前需要解决的技术问题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种移动广告大数据的定向推送及用户跨屏识别方法。
为了实现上述目的,本发明的实施例提供一种移动广告大数据的定向推送及用户跨屏识别方法,包括如下步骤:
步骤S1,推广投放服务器获取多个用户在浏览页面或App应用时的历史浏览及行为数据,并对所述历史浏览及行为数据进行分析,生成对应用户的浏览习惯及行为兴趣数据;
步骤S2,所述推广投放服务器根据用户的访问者ID在检测到所述用户再次在广告网络中进行浏览等行为时,根据预存的所述用户的浏览习惯及行为兴趣数据,从广告数据库中选取符合该用户浏览习惯的广告数据推送至所述用户的终端设备;
步骤S3,所述推广投放服务器在检测到所述用户采用多个访问者ID在至少一个其他终端设备上访问页面时,将所述多个访问者ID建立关联,并认定为同一个访问者实体,主动向上述其他终端设备推送符合该用户浏览习惯的广告数据,以实现针对该用户的用户跨屏同步展现。
进一步,在所述步骤S1中,所述用户浏览的页面为以下至少一种:个人计算机或手机上浏览器的页面、手机上APP应用提供的页面、个人计算机或手机上安装的第三方应用软件的页面。
进一步,在所述步骤S2中,所述推广投放服务器将所述用户的历史浏览及行为数据、浏览习惯及行为兴趣数据与该用户的访问者ID进行关联存储。
进一步,在所述步骤S2中,所述推广投放服务器根据用户的访问者ID检测该用户是否访问页面,如果检测到用户访问,则根据所述访问者ID查找对应的浏览习惯及行为兴趣数据,进一步根据所述浏览习惯及行为兴趣数据从广告数据库中选取符合该用户浏览习惯的广告数据推送至所述用户。
进一步,在所述步骤S3中,所述推广投放服务器采用用户分析工具对所述用户的访问者身份进行排重计算,以判断所述用户是否采用多个问者ID登录页面,并将属于同一个用户的多个设备的访问者ID建立关联,认定关联的所述多个访问者ID属于同一个访问者实体。
进一步,所述用户分析工具采用以下至少一种方式对所述用户的访问者身份进行排重计算:
(1)根据时间维度对所述用户的访问者身份进行排重;
(2)根据所述访问者的来源维度对所述用户的访问者身份进行排重,其中,所述访问者的来源维度包括所述访问者登录所述页面的媒介;
(3)根据所述访问者历时访问页面对所述用户的访问者身份进行排重。
(4)根据设备访问的网络环境、IP地址、用户代理UA信息对访问者身份进行排重。
进一步,还包括如下步骤:所述推广投放服务器向所述用户的终端设备推送广告竞价服务页面。
进一步,所述用户的历史浏览及行为数据包括:用户进行首次实时查询的广告各维度ID所对应的关键字、实时查询所述推广投放服务器的URL地址对应的关键字。
进一步,在所述步骤S1和S2中,采用HadoopHDFS分布式文件系统存储所述历史浏览及行为数据、浏览习惯及行为兴趣数据和向所述用户推送的广告数据。
根据本发明实施例的移动广告大数据的定向推送及用户跨屏识别方法,具有以下有益效果:
(1)通过对用户的历史浏览及行为数据的分析,得到用户的浏览习惯,即获取和通过算法挖掘用户感兴趣的内容,然后可以针对用户感兴趣的内容有针对性的主动向用户推送广告数据,这种广告推送方式的投放及回报效率更高。
(2)实现了基于实时竞价拍卖逻辑去按照每一个广告展现(impression)去竞标广告展现机会的功能。此功能是作为一个移动DSP的核心功能,只有实现了RTB,才能和Exchange流量交易平台进行对接,才能实现真正意义上的DSP程序化广告投放,解决了和移动端流量、流量平台的实时竞价的对接需求。这也是目前用户兴趣数据广告最有效果的应用方式。
RTB实时竞价采用标准的GoogleProtobuf协议或IABOpenRTB协议。此项技术接口标准已经形成了事实上的技术标准。对接口的承载能力、并发负载能力的要求,是此项技术要求最高的方面。要想做到RTB接口的先进性和高可用性,就必须实现高性能Socket服务。
(3)建立了只针对用户具体属性和历史投放数据的私有的受众数据库。这对于用户投放效果的持续优化,具有非常重大的意义。
(4)实现了基于用户上网环境、行为等数据的跨屏识别,把同属于一个用户的多个设备ID,关联识别为同一个实际用户。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的移动广告大数据的定向推送及用户跨屏识别方法的流程图;
图2为根据本发明实施例的HDFS的架构图;
图3为根据本发明实施例的Map/Reduce的示意图;
图4为根据本发明实施例的用户跨屏实现的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提出一种移动广告大数据的定向推送及用户跨屏识别方法,主要涉及RTB实时广告定向技术、RTB技术在移动广告领域的应用,及其后端的数据挖掘、用户数据分析、实时数据库及多屏用户跟踪整合等相关技术。
如图1所示,本发明实施例的移动广告大数据的定向推送及用户跨屏识别方法,包括如下步骤:
步骤S1,推广投放服务器获取多个用户在浏览页面或App应用时的历史浏览及行为数据,并对上述历史浏览及行为数据进行分析,生成对应用户的浏览习惯及行为兴趣数据。
在本步骤中,用户浏览的页面或APP应用为以下至少一种:个人计算机或手机上浏览器的页面、手机上APP应用提供的页面、个人计算机或手机上安装的第三方应用软件的页面。其中,第三方应用可以为微博、微信等社交工具。
用户历史浏览及行为数据可以包括:用户所浏览页面的URL地址、用户浏览内容所对应的关键字、用户的搜索关键词、所浏览内容的内容分类等。。
推广投放服务器可以与上述用户浏览页面通过脚本代码或者SDK开发工具包建立通信机制,由页面的脚本代码采集用户的历史浏览及行为数据,然后反馈给推广投放服务器。由数据分析推广投放服务器对上述历史浏览及行为数据进行分析,根据用户的浏览内容分析出用户的浏览习惯(例如经常浏览的内容,这部分内容即可能为用户较为感兴趣的内容),然后生成对应的浏览习惯及行为兴趣数据。
步骤S2,推广投放服务器根据用户的访问者ID,在检测到用户再次在广告网络中进行浏览行为时,即再次在广告网络上要求展现广告网络时,根据预存的用户的浏览习惯及行为兴趣数据,从广告数据库中选取符合该用户浏览习惯的广告数据推送至用户的终端。需要说明的是,一个用户可以对应多个访问者ID,例如:邮箱、用户名、关联APP应用的账户名等。
推广投放服务器内置有广告数据库,该广告数据库中存储有大量的广告数据,每个广告数据可以包括有多个标签,该标签用于标示广告类型、内容等。例如:运动、化妆品、成衣、老人等。在广告数据库中,可以依据用户标签对大量的广告数据进行分类存储,从而便于后续查找和添加。
推广投放服务器在检测到用户通过访问者ID再次访问页面时,通过该访问者ID查找出之前已经分析出的对应的浏览习惯及行为兴趣数据,根据该浏览习惯及行为兴趣数据从广告数据库中,查找出符合该用户浏览习惯的广告数据。由此,根据上述浏览习惯及行为兴趣数据,推广投放服务器可以有针对性的主动推送符合该用户浏览习惯的广告数据,即用户感兴趣的广告内容。这种有针对性的主动向用户推送广告数据,可以达到最优的广告投放效率。
在本步骤中,数据分析服务器将用户的历史浏览及行为数据、浏览习惯及行为兴趣数据与该用户的访问者ID进行关联存储。
在本发明的一个实施例中,数据分析服务器可以采用HadoopHDFS分布式文件系统存储上述历史浏览及行为数据、浏览习惯及行为兴趣数据和向用户推送的广告数据。
具体地,本发明选用Apache社区的HadoopHDFS分布式文件系统作为底层架构。HDFS被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streamingaccess)文件系统中的数据。
运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。
HDFS是一个的主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命名空间和调节用户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。
内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统用户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。
在改进的HDFS应用框架下:HDFS的Replication因子设置为默认的3;Hbase文件的Replication因子暂时先为3,如有必要增加为5;DataNode不必使用RAID,如果采用简单RAID结构,可以采用RAID0,不采用RAID1。
推广投放服务器根据用户的访问者ID检测该用户是否访问页面,如果检测到用户访问页面,则根据该访问者ID查找对应的浏览习惯及行为兴趣数据,并进一步根据查找到的浏览习惯及行为兴趣数据从广告数据库中选取符合用户浏览习惯的广告数据推送至用户。
步骤S3,推广投放服务器在检测到用户采用多个访问者ID在至少一个其他终端设备上访问页面时,将多个访问者ID建立关联,并认定为同一个访问者实体,主动向上述其他终端设备推送符合该用户浏览习惯的广告数据,以实现针对该用户的用户跨屏同步实现。
在步骤S3中,推广投放服务器采用用户分析工具对用户的访问者身份进行排重计算,以判断该用户是否采用访问者ID登录页面,并将属于同一个用户的多个设备的访问者ID建立关联,认定关联的所述多个访问者ID属于同一个访问者实体。由此,一个用户可以关联多个访问者ID,只要用户采用其中一个访问页面,系统就可自动智能判断是该用户,并根据该用户的浏览习惯及行为兴趣数据进行推送。这种智能用户身份判断方式,不仅为用户访问带来了便利性,也提高了数据推送的精度。
下面对步骤S3的用户同屏实现进行详细说明。
用户分析工具依靠IP或Cookie来定义访问者。一个IP地址或一个Cookie就代表一个访问者。早期的日志分析工具依靠IP地址,但由于存在多个人公用一个IP地址的情况,例如网吧,或者学校机房等等。因此现在大部分的用户分析工具都是以Cookie来定义访问者。Cookie是存储在访问者浏览器中的一个文本文件,用来记录访问者的身份信息。当然也有一些分析工具可以进行定制,当访问者浏览器禁用Cookie时通过IP地址继续定义并追踪访问者。
在纯移动设备环境下,采用设备的IMEI(国际移动设备标识ID)或这个IDFA/AndroidID来标识设备,其实现的作用类似于Cookie。IDFA是美国苹果公司在新版的IOS操作系统设备上实现的基于设备级别去标识设备用户的专用于广告应用的ID机制,AndroidID是安卓操作系统下类似的ID机制,以下简称为设备DeviceID。
用于定义访问者的Cookie或DeviceID中有一串唯一的数字,这串唯一的数字就是访问者的设备ID。访问者设备ID会在访问者每次访问网站或浏览页面时跟随其他指标一起返回用户分析工具的服务器。用户分析工具通过这串Cookie中的唯一数字ID来区分访问者的身份。如果发现多条日志中的访问者ID都相同,则判断这些访问或页面浏览行为来自同一个访问者。
在本发明的一个实施例中,在步骤S3中,用户分析工具采用以下至少一种方式对用户的访问者身份进行排重计算。换言之,用户分析工具提供的是唯一身份访问者数据。以下测试可以说明用户分析工具是如何对访问者进行排重计算的。
(1)根据时间维度对用户的访问者身份进行排重。
(2)根据访问者的来源维度对用户的访问者身份进行排重,其中,访问者的来源维度包括访问者登录广告竞价服务页面的媒介。
(3)根据访问者历史访问页面对用户的访问者身份进行排重。
(4)根据设备访问的网络环境、IP地址、用户代理UA信息对访问者身份进行排重。
综上所述,为了保证唯一身份访问者的数据准确,数据分析工具会从整个网站的维度对访问者进行排重计算。而这一切的前提都是用户分析工具能够在不同维度下识别并区分出这个访问者。但在实际的访问场景中,有一些维度用户分析工具没有办法进行排重操作。例如不同的浏览器,和不同的终端设备。因为用户分析工具赖以定义访问者的ID存储在Cookie中,而Cookie是基于浏览器端的。换句话说就是访问者在不同的浏览器或设备中会拥有不同的访问者ID。这就导致了用户分析工具没有办法在浏览器和设备维度下对访问者进行排重。
图4为根据本发明实施例的跨屏实现的示意图。
从技术和指标计算的角度来看,跨屏追踪的这个新功能的主要作用就是用来在不同浏览器及设备间精确定义和识别访问者,并对访问者进行跨屏幕,跨设备的识别和排重。使获得的唯一身份访问者数据更加精确。
推广跨屏追踪一项基本原理,是通过访问者的唯一身份标识在不同的设备间定义和识别访问者。然后在服务器端按照唯一身份对访问者使用的设备,访问行为进行排除和汇总处理。但在跨屏追踪中,这个唯一身份标识不再来自于Cookie中的访问者ID。而是依赖于访问者在网站中的唯一身份标识。如果要对访问者进行跨屏追踪,需要在的媒体资源全局代码中添加一行代码用于获取这个访问者在网站中的唯一身份ID。并将这个ID返回给推广分析服务器。进行后续的排重和汇总处理。
例如,以bluewhale_test作为访问者唯一身份标识为例。这段代码在的页面全局代码当代码被执行,可以发现和验证两件事情:
第一,访问者被成功的赋予了唯一身份标识后,可以在返回数据中看到本次的访问和页面浏览行为属于用户bluewhale_test。
第二,这个访问者唯一身份标识并没有存储在Cookie中,而是直接发送到分析的服务器。
当这个访问者在其他设备登陆网站时,也将同样为其赋予bluewhale_test的标识。这样在服务器端就可以对这个访问者进行识别,并将其在不同设备间的访问行为进行归并计算,以实现跨越屏幕和终端的访问者追踪。
没用用户登录的环节,采用下述方式进行用户识别:
当一个访问者在网站进行了注册或者登陆操作,那么用户追踪系统会将访问者的用户名作为唯一身份访问者ID对访问者进行标识。用户追踪系统在后台还会做一件事情,就是将当前访问者的唯一身份ID与其cookie中的访问者ID进行关联。
在不删除Cookie的情况下,下次这位访问者到访网站时无论是否进行登陆操作,系统都能再次识别出其,并且将其与之前的历史行为进行关联。当这名访客登录后,系统将cookie中的访问者ID与URM的唯一身份ID进行关联。URM唯一身份ID用来识别用户,基于cookie的不同访问者ID就会赋予到唯一身份ID中。如果任何一个唯一身份ID发送到用户追踪系统,相关的cookie访问者ID也会添加到其中。URM唯一身份ID只在第一次关联的时候用到。之后,关联机制便独立于URM唯一身份ID。这样当访问者不再进行登陆操作时,也能根据之前建立起来的关联关系对访问者进行识别。
在本发明的一个实施例中,本发明的移动广告大数据的定向推送及用户跨屏识别方法,还包括如下步骤:推广投放服务器向用户的终端设备推送广告竞价服务页面。
具体地,推广投放服务器向用户的终端设备提供并展示广告竞价服务页面。其中,每个用户可以通过唯一的访问者ID登录广告竞价服务页面,即RTB竞价服务页面,该页面在用户的移动终端上也网页形式进行展现。
例如,在步骤S3中,推广投放服务器在检测到用户采用同一个访问者ID在至少一个其他终端设备上登录页面时,主动向上述其他终端设备推送符合该用户浏览习惯的广告竞价服务页面。具体地,RTB竞价服务页面主要负责系统和各大Exchange(广告交易平台)对接的实时竞价部分。
RTB实时竞价技术要求的高性能SOCKET接口,需要采用非常规Web服务作为基础架构,采用了基于Epoll架构的服务核心。
Epoll是Linux内核为处理大批量文件描述符而作了改进的Epoll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。
获取事件的时候,Epoll无须遍历整个被侦听的描述符集,只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。Epoll除了提供select/poll那种IO事件的水平触发(LevelTriggered)外,还提供了边缘触发(EdgeTriggered),这就使得用户空间程序有可能缓存IO状态,减少epoll_wait/epoll_pwait的调用,提高应用程序效率。通过上述Epoll架构,自主开发了高性能RTB接口服务,实现了高于100000QPS量级的RTB承载能力。
对于移动DSP实时竞价广告技术上,用户的浏览内容、搜索内容等元数据,可以反映出一个用户的兴趣关注点和用户的用户画像描述,从而更加准确的通过后续的数据处理和分析过程形成用户数据库。而这个用户数据库,可以用以准确的指导广告竞价,提高竞价效率和准确度。从而提高广告投放的效果。那么对数据系统所获取的用户浏览内容等元数据进行中文分词就显得尤为重要。
进一步,在本发明的实施例中,由主控服务器提取推广投放服务器的原始日志数据流文件,采用Perl语言编写主流程,受Master主控服务器整体调度程序控制,每台服务器连接指定的推广投放服务器,采用FTP方式获取日志。
在本发明的一个实施例中:日志获取采用松散的管理结构,管理内容包括:获取数据流任务的分配;获取数据流任务完成情况监视;包含获取失败重试;获取失败重新分配;服务器失败重新分配;数据日志完整度维护;数据日志弃用机制。
获取后的日志由一个Perl程序进行拆分、数据项提取,将结果直接通过管道(Pipe)传递给一个C的转发程序,由此程序将结果Push到HDFS系统,等待用户行为分析子模块的任务使用。管道(pipe)是指用于连接一个读进程和一个写进程以实现之间通信的一个共享文件,又名pipe文件。向管道(共享文件)提供输入的发送进程(即写进程),以字符流形式将大量的数据送入管道;而接收管道输出的接受进程即读进程),则从管道中接收数据。管道实际是用于进程间通信的一段共享内存,创建管道的进程称为管道服务器,连接到一个管道的进程为管道用户机。一个进程在向管道写入数据后,另一进程就可以从管道的另一端将其读取出来。
推广投放服务器在向用户的终端设备推送广告竞价服务页面后,可以获取并存储多个用户操作广告竞价服务页面的受众数据。
在本发明的一个实施例中,受众数据包括:用户进行预先载入或首次实时查询的广告各维度ID所对应的关键字、实时查询推广投放服务器的URL地址对应的关键字。在本步骤中,采用HadoopHDFS分布式文件系统存储受众数据。
需要说明的是,以上运算及外部数据使用过程在Map过程中发生,此部分由于推广搜索模块对于推广来说属于外围模块,其性能不可控制,故而存在较大性能风险。如果搜索模块的性能出现问题,解决办法由2个:
A、在此部分采用单独的Memcache服务器,有推广自己增加一层查询缓冲;
B、定期同步搜索模块的数据到推广本地的Hbase,调度及同步方案需要推广Module部分自己编写。
此程序每日运行一次,对前一天的数据进行处理。在Reduce过程中,通过Thrift中间件,将数据插入到Hbase当中。同时,Reducer会产生全局的统计数据,插入到Master相应的数据表中。
上部分数据基于JSON格式存储,取决于具体出库入库格式,如有问题可以考虑采用Base64编码。除此之外,Reducer会生成单日新增用户索引,直接生成到HDFS中。
下面对Hbase非关系型数据库技术进行说明。图2为根据本发明实施例的HDFS的架构图。
Hbase非关系型数据库技术可以实现在海量数据单表环境下,高并发的数据查询。此模块解决了在移动DSP竞价模块中,实时进行后端用户数据查询(此数据可能包括用户的历史竞价信息、用户的兴趣标签、用户画像),从而作为实时竞价的用户数据依据的需求。对于数据处理过程,充分采用Thrift中间件等技术,提高系统兼容性及性能,并应用了Hive数据仓库对部分数据结果进行了ETL,从而将一些需要关系型处理的数据进行了仓库化存储,弥补了Hbase进行数据持久化时的一些弊端。
推广投放服务器根据预存的用户基础竞价信息检索出对应用户的受众数据。其中,采用多线程socket服务器技术进行受众数据的检索。在本发明的一个实施例中,用户基础竞价信息包括:用户基础信息和用户的历史竞价信息,以及流量所的基础属性、流量所代表的互联网用户和竞价出价策略等。
具体地,移动DSP的合理竞价与后端受众数据是分不开的,每一次RTB竞价,都需要对流量所的基础属性、流量所代表的互联网用户、历史竞价信息、竞价出价策略进行一系列的判断计算,才能进行一个有逻辑的合理出价。这其中,受众数据势必要从后端数据库中获取。由于数据量的巨大,在RTB所需的高并发应用场景下,直接检索数据库将会产生严重的性能系消耗,从而无法达到对RTB竞价的技术要求。
在步骤中,采用用户信息检索中间件,负责对投放模块提供针对单个用户信息的数据检索服务,其必须达到以下性能:高响应速度、高并发负载支持能力和后置数据格式/编码转换能力。
为了实现上述性能需求,必须采用多线程的Socket服务器和缓存技术。具体来说,第一层数据检索依赖于HBase自身的检索能力,检索压力分配到多个Hregion服务器,HBase自身具有文件缓存和Hmemcache缓存,可以提供第一层的性能保证。
检索端和Hbase的接口采用RESTGateway,这是一个基于Jetty的HBaseHTTP代理,具有较高的性能。
鉴于单用户往往会连续多次浏览等实际特性,和与投放模块的具体结合方式未定,决定采用Apache自写DSO作为最终的Socket查询终端,具有以下几个优点:
A、可以实现更好的缓冲性能,降低REST及HBase压力;
B、服务线程等具体参数控制灵活,加之功能强大,可以实现与REST的不对称匹配,便于系统部署灵活性;
C、可以任意定义请求及响应格式、请求端口等;
D、可以在返回数据时进行字符编码转换;
E、只返回指定数据,查询可控,增强了安全性;
F、后期还可以增加多种形式的权限控制,用户数据库不易外泄;
此部分将采用C/C++开发DSO模块的方式编写,其缓冲机制将采用Linux共享内存(SHM)机制,或采用单独的Memcache服务器。
作为备选方案,ApacheDSO可以采用Thrift中间件直接与HBase交互,此方案还需要进一步的可靠性及性能评估。
然后,每隔预设周期对检索出的受众数据进行公式化分析处理,得到向对应用户的推送的竞价数据,将分析处理后的竞价数据存储于多个不同字段中,以作为向对应用户进行广告定向推送的结果数据。
优选的,预设周期为一周。
具体地,对检索出的受众数据进行公式化分析处理,包括:对预设周期内,每日生成的新增用户建立索引,并进行汇总去重。
上述公式化分析处理过程运行在HadoopMap/Reduce框架之上,采用流模式(HadoopStreaming)交互。
下面对Map/Reduce云计算技术进行说明。图3为根据本发明实施例的Map/Reduce的示意图。
Map/Reduce主要反映了映射和规约两个概念,映射操作按照需求操作独立元素组里的每个元素,这个操作是独立的,所以映射操作时高度并行的。规约操作对一个元素组的元素进行合适的归并,也具有不错的并行性。
Map/Reduce就是通过一系列的任务控制、数据分发、数据汇总等机制,实现了并行计算功能。在本方案中,Map/Reduce平台作为一个数据计算的基础架构,配合构建于其上的应用逻辑,解决了对于用户行为数据分析环节大数据量的数据分析的问题。基于Hadoop的Map/Reduce框架兼顾解决了高可靠性、灵活性及极佳的排序及哈希性能。
下面对公式化分析处理的具体过程进行说明。
每隔预设周期(例如一周)对HBase中用户每日分析的数据进行再处理将分析处理后的竞价数据存储于多个不同字段中,以作为向对应用户进行广告定向推送的结果数据。此部分计算包含一个前置的Map/Reduce计算流程,用于将此时段内每日生成的新增用户索引进行汇总去重。
此部分前置计算的结果仍然以文件的形式(*1)存储于HDFS系统中。正式的公式化计算的流程,不涉及任何外围数据接口。同样采用HadoopMap/Reduce架构,StreamingIO接口,用Perl编写,通过Thrift进行Hbase数据交互。此部分采用上述(*1)所属的文件作为Input,但可以看作一个单Map的Job,其Reduce数据仅负责输出一些维护相关的信息。此任务和相关信息,受到主控服务器的整体调度和管理。
在本步骤中,采用HadoopHDFS分布式文件系统存储用于广告定向推送的结果数据,即竞价数据。另外,如上所述,上述步骤中采集到的用户数据也是采用HadoopHDFS分布式文件系统存储。
为解决上述问题,本发明还提出一种智能分词技术,可以很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率较高。本发明在体现词形切分准确的基础上,根据用户对分词基础件实际应用的需要,该产品还附加了词性的输出,如:人名、地名、时间词、数量词等。
在精准广告的技术环节中,有很多定向匹配和识别功能都是基于关键词的词性和词义来工作的。本发明的智能分词技术实现了将整段文本进行中文化的关键词提取、关键词切分的功能。并且,关键词的中文化切分、词频分析、词语权重分析的结果,直接作用于关键词定向、用户兴趣词计算,解决了上述功能模块的语料生成问题。
具体来说,针对页面正文的提取是一个智能化的解决过程,本发明采用智能分词技术对网页的结构、页面内容进行分析,最终确定哪部分是页面正文。推广的正文提取,采用了以下手段:
(1)将普通网页HTML转换成符合标准的XHTML,类似工具HTMLTidy。
(2)将修复后的网页html生成dom树。
(3)根据<title>标签抽取标题。
(4)识别网页编码:可以查看http请求头的charset或者查看网页代码中的meta中的charset。
(5)去掉和正文无关的网页节点标签及内容:script、style、Button、meta、iframe等。
(6)计算整篇网页中的非链接字符总数。
(7)遍历网页中的table、div节点,并计算节点中非链接字符数量与网页总的非链接字符数量相除,选择比值大于0.8的节点存入有序集合。
(8)过滤包含注释文本的节点,例如:郑重声明、版权所有、关于等,制作一个常用的网站注释过滤库。
(9)将title分词(去除停止词)在已取得的集合中,选择包含关键词最多的节点,如果包含关键词相同则以集合顺序为准,如果不包含关键词则选择第一个。
(10)将选择的节点抽取文本作为正文。
网上信息的分类目录组织是提高检索效率和检索精度的有效途径,如在利用搜索引擎对网页数据进行检索时,若能提供查询的类别信息,会缩小与限制检索范围,从而提高查准率。同时,分类可以提供信息的良好组织结构,便于用户进行浏览和过滤信息。
文本聚类技术是系统中“语义分析”环节中的关键组成部分,实现了将一类内容的文本进行相关性的整理,把类似的方案基于客观性规律归为一类的功能。此项功能解决了语义分析环节中把关键词、词序、词性偶合成一种序列化指标,找到相似性文本,从而对语义定义中把用户访问的不同内容科学归类的需求。
通过收集用户历史访问行为,在中文分词的基础之上将浏览页面看作一个若干短语的字符串,对短语进行过滤,保留下词库中的重点关键词,收集经常一起出现的关键词或者短语,然后找出其关联和相互关系。
通过对多个页面的分析能够发现几个短语在相提并论的话题。后缀树把文档看作是一个由若干短语组成的字符串,而不是看作一组词集。该算法非常适合于解决基本的字符串问题,例如发现最长重复子串,相似字符串匹配,字符串比较,文本压缩和英文文档聚类等,处理速度很快。
聚类分析是文本挖掘的主要手段之一。它的主要作用是:
(1)通过对检索结果的聚类,将检索到的大量网页以一定的类别提供给用户,使用户能够快速定位期望的目标;
(2)自动生成分类目录;
(3)通过相似网页的归并,便于分析这些网页的共性。
通过引入贝叶斯潜在语义模型,首先将含有潜在类别主题变量的文档分配到相应的类主题中,接着利用简单贝叶斯模型,结合前一阶段的知识,完成对未含类主题变量的文档作标注。针对这两个阶段的特点,定义了两种似然函数,并利用EM(expectationmaximization)算法获得最大似然估计的局部最优解。
这种处理方法一方面克服了非监督学习中对求解空间搜索的盲目性;另一方面,它不需要对大量训练样本的类别标注,只需提供相应的类主题变量,把网站管理人员从繁琐的训练样本的标注中解脱出来,提高了网页分类的自动性。
首先需要描述一下内容聚类系统的组成:
将高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。具体地说,对任意矩阵,由线性代数的知识可知,它可分解为下面的形式:
(1)这里,U,V是正交阵()。(为N的奇异值)是对角阵。潜在语义分析通过取k个最大的奇异值,而将剩余的值设为零来近似式。
(2)由于文档之间的相似性,可以通过来表示。
文档在潜在语义空间中的坐标可以来近似。所以,高维空间中的文档表示投影到低维的潜在语义空间中,原来在高维中比较稀疏的向量表通过S示在潜在语义空间中变得不再稀疏。这也暗指,即使两篇文档没有任何共同的项,仍然可能找到它们之间比较有意义的关联值。通过奇异值分解,将文档在高维向量空间模型中的表示,投影到低维的潜在语义空间中,有效地缩小了问题的规模。潜在语义分析在信息滤波文本索引视频检索等方面有较为成功的应用。然而矩阵的SVD分解因对数据的变化较为敏感,同时缺乏先验信息的植入等而显得过分机械,从而使它的应用受到了一定的限制。
另外,内容聚类的方法流程如下:
把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵Nm×n的奇异值分解(SVD)来实现的。具体地说,对任意矩阵Nm×n,由线性代数的知识可知,它可分解为下面的形式:
N=UΣV
(1)这里,U,V是正交阵()。Σ=diag(a1,a1,...ak,...,av)(a1,a2...,av为N的奇异值)是对角阵。潜在语义分析通过取k个最大的奇异值,而将剩余的值设为零来近似式(1)。
N ~ = U &Sigma; ~ V T &ap; U&Sigma;V T = NUU T = VV T = I
(2)由于文档之间的相似性,可以通过来表示,因此文档在潜在语义空间中的坐标可以来近似。所以,高维空间中的文档表示投影到低维的潜在语义空间中,原来在高维中比较稀疏的向量表通过S示在潜在语义空间中变得不再稀疏。这也暗指,即使两篇文档没有任何共同的项,仍然可能找到它们之间比较有意义的关联值。
通过奇异值分解,将文档在高维向量空间模型中的表示,投影到低维的潜在语义空间中,有效地缩小了问题的规模。潜在语义分析在信息滤波文本索引视频检索等方面有较为成功的应用。然而矩阵的SVD分解因对数据的变化较为敏感,同时缺乏先验信息的植入等而显得过分机械,从而使它的应用受到了一定的限制。
具体的方法流程如下:
数据是指代表一篇文本的一个向量。向量的各维代表一个关键字的权重。训练文本中,每个数据还附带一个文本的分类编码。对此有两个方面的工作:
(1)分类器学习:即从训练数据集中统计P(tk|Cj)和P(Cj),并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象。
(2)分类识别:从一个测试文档中读取其中的测试数据项,识别其的分类,并输出到一个文件中。
但文本分类有一个特殊情况:各属性的值不是标准值。因此在查找P(tk|Cj)时会遇到麻烦:新数据的tk值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况。这样,P(tk|Cj)太多、太分散,没有统计上的意义。
这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(0~0.1),(0.1~0.2),…,(0.9~1),各段分别编号为0,1,…9。一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。
另一种方法同样进行分段,但分段后计算各段的平均值作为各段的标准值。根据具体数据相应属性的值与各分段标准值的接近程度,重新设置数据该属性的值。如对第k个属性,将其值域分为(0~0.1),(0.1~0.2),…,(0.9~1),假设(0.1~0.2)的平均值为0.15,(0.2~0.3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0.22更接近,应该重设为0.22。
以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k,将数据按k属性的值排序,然后按N/M个进行等分,计算各值域分段中的标准值。
v k m = &Sigma; i &Element; m t k i | | m | |
其中,m表示一个分段,||m||表示第k个属性值在该段内的数据的总数。每段内的数据的相应属性重设为该段的平均值。
分段的工作在在训练阶段进行。必须保留分段的结果:即各属性的各分段值域的标准值。在训练阶段,将所有训练数据的属性值替换为标准值后,再进行统计。而在识别阶段,将待识别数据的属性值同样替换为标准值后,再进行识别。
该中文智能分词基础件具有灵活定制的特点,支持多平台、支持多码制、针对不同应用可量身定做多种版本且扩展性极强。用户可根据应用范围选择需要增加的词表,如中国分类主题词表、中国商用、关键词表、行业词表、港台用语词表等。此基础件作为推广移动DSP广告管理平台的数据部分重点模块,主要具有如下功能特色:
(1)歧义识别。依靠优秀的中文智能分词功能基础件依靠优秀的歧义识别算法,有效的避免了分词歧义的产生,使分词的准确率大大提高。
(2)未登录词识别。中文智能分词功能基础件采用了先进的新词识别算法,能够自动准确地识别人名地名未登录词。
(3)外挂用户词典:用户可以根据自己的需求定义新词,利用中文智能分词软件包的接口与分词系统进行挂接。
(4)关键词标注:从用户输入的一句话或者几个词组中,抽取其中的核心词汇。
(5)词性标注:标明词的属性(如:人名、地名、数量、时间等)。
(6)主题词标注:自动标注文章的主题词及等同词、上位词、下位词、同类词的相关内容。
(7)多字符集支持:支持GB18030、BIG5、Unicode
网上信息的分类目录组织是提高检索效率和检索精度的有效途径。它通过学习大量的带有类别标注的训练样本来预测网页的类别,然而人工标注这些训练样本是相当繁琐的。网页聚类通过一定的相似性度量,将相关网页归并到一类,也能达到缩小搜索空间的目的,然而传统的聚类方法对解空间的搜索带有盲目性和缺乏语义特性,因而它的效率和精确度大打折扣。为此提出了一种半监督学习算法。在贝叶斯潜在语义模型的框架下,由用户提供一定数量的潜在类别变量,而不需要任何带有类别标注的样本,将一组文档集划分到不同的类别中。它分为两个阶段:
第1阶段,利用贝叶斯潜在语义分析来标注含有潜在类别变量的文档的类别;
第2阶段则通过简单贝叶斯模型,结合未标注文档的知识,对这些文档贴标签。还分析了算法的时间与空间复杂性,实验结果也表明,该算法具有较高的精度与召回率。对该算法的进一步研究包括潜在类别变量的选择对结果的影响以及在贝叶斯潜在语义分析框架下如何实现词的聚类等。
在本发明的一个实施例中,主控服务器采用Web页面方式对推广投放服务器进行任务调度和分配。
Hadoop的HDFS及MapReduce调度依赖于Hadoop本身的调度机制,HBase对于HregionServer的调度也依赖于其本身的调度机制。在上述任务流程中,主控服务器将和Hadoop的Master服务器公用一台服务器,其需要处理的任务有:
对各个子结点的结点服务器列表进行登记维护,整理如表1所示:
表1
各个服务器中HDFS、MapReduce、Hbase的WEB状态查询转发。
(1)完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询等。
(2)对失败的任务进行重新调度、重新分配。
(3)提供整体任务完成情况和全局数值分析的简单报表服务。
集群任务及管理子模块采用WEB管理方式,其管理端采用PHP编写,调度的通信机制预计采用Perl编写,采用SSH通讯。此部分如果可靠性存在问题,备用方案为采用单机crontab调度,但会检查Master的服务的通知标记,以保证任务调度的灵活性。
根据本发明实施例的移动广告大数据的定向推送及用户跨屏识别方法,具有以下有益效果:
(1)通过对用户的历史浏览及行为数据的分析,得到用户的浏览习惯,即获取用户感兴趣的内容,然后可以针对用户感兴趣的内容有针对性的主动向用户推送广告数据,这种广告推送方式的投放及回报效率更高。
(2)实现了基于实时竞价拍卖逻辑去按照每一个广告展现(impression)去竞标广告展现机会的功能。此功能是作为一个移动DSP的核心功能,只有实现了RTB,才能和Exchange流量交易平台进行对接,才能实现真正意义上的DSP程序化广告投放,解决了和移动端流量、流量平台的实时竞价的对接需求。
RTB实时竞价采用标准的GoogleProtobuf协议或IABOpenRTB协议。此项技术接口标准已经形成了事实上的技术标准。对接口的承载能力、并发负载能力的要求,是此项技术要求最高的方面。要想做到RTB接口的先进性和高可用性,就必须实现高性能Socket服务。
(3)建立了只针对用户具体属性和历史投放数据的私有的受众数据库。这对于用户投放效果的持续优化,具有非常重大的意义。
(4)实现了基于跨屏设备识别和语义分析的关键词定向推送。
针对不同的使用者,本发明的移动广告大数据的定向推送及用户跨屏识别方法均具有相应的特点:
1)对于广告主,能够通过精准定向的手段,找到广告主的目标受众群体,最大限度提升广告效果。
2)从广告运营方面来讲,将广告投放给感兴趣的目标受众,能够获得更好的广告效果,从而能够利用最少流量资源,获得最大的广告收益。
3)对于用户来讲,能够看到自己感兴趣的信息,而减少无关广告信息的干扰,提升用户的上网体验。
4)从App及媒体方面来讲,提供了相关度更高,用户更感兴趣的信息和广告给用户,能够提升媒体对于用户的粘滞度,也有利于媒体的发展。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (7)

1.一种移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,包括如下步骤:
步骤S1,推广投放服务器获取多个用户在浏览页面或App应用时的历史浏览及行为数据,并对所述历史浏览及行为数据进行分析,对用户的数据进行分析挖掘,生成对应用户的分类标签和用户画像数据;
步骤S2,所述推广投放服务器根据用户的访问者ID在检测到所述用户再次在广告网络中进行浏览行为时,根据预存的所述用户的浏览习惯及行为兴趣数据,从广告数据库中选取符合该用户浏览习惯的广告数据推送至所述用户的终端设备;
步骤S3,所述推广投放服务器在检测到所述用户采用多个上网终端设备ID在至少一个其他终端设备上访问页面时,通过用户的接入点IP关联及行为分析等算法,将所述多个设备ID建立关联,并认定为同一个访问者实体,主动向上述其他终端设备推送符合该用户浏览习惯的广告数据,以实现针对该用户的用户跨屏识别和跨屏数据应用,其中,所述推广投放服务器采用用户分析工具对所述用户的访问者身份进行排重和关联计算,以判断所述用户是否采用浏览页面,并将属于同一个用户的多个设备的设备ID建立关联,认定关联的所述多个设备ID属于同一个访问者实体,所述用户分析工具采用以下至少一种方式对所述用户的访问者身份进行排重计算:
(1)根据时间维度对所述用户的访问者身份进行排重;
(2)根据所述访问者的来源维度对所述用户的访问者身份进行排重,其中,所述访问者的来源维度包括所述访问者登录所述网站、页面的账号;
(3)根据所述访问者历史访问页面对所述用户的访问者身份进行排重。
(4)根据设备访问的网络环境、IP地址、用户代理UA信息对访问者身份进行排重。
2.如权利要求1所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,在所述步骤S1中,所述用户浏览的页面为以下至少一种:个人计算机或手机上浏览器的页面、手机上APP应用提供的页面、个人计算机或手机上安装的第三方应用软件的页面,智能电视等其它用户所拥有的上网终端设备
3.如权利要求1所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,在所述步骤S2中,所述推广投放服务器将所述用户的历史浏览及行为数据、浏览习惯及行为兴趣数据与该用户的设备ID以及访问者ID进行关联存储。
4.如权利要求3所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,在所述步骤S2中,所述推广投放服务器根据用户的上网设备ID,关联到具体用户,进而检测该用户是否访问页面,如果检测到用户访问,则根据所述访问者ID查找对应的浏览习惯及行为兴趣数据,进一步根据所述浏览习惯及行为兴趣数据从广告数据库中选取符合该用户浏览习惯的广告数据推送至所述用户。
5.如权利要求1所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,还包括如下步骤:所述推广投放服务器向所述用户的终端设备通过竞价交易的方式推送性趣关联的广告创意。
6.如权利要求1所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,所述用户的历史浏览及行为数据包括:用户的网页浏览URL、浏览内容、用户的App安装打开情况、App内使用习惯等内容。
7.如权利要求1所述的移动广告大数据的定向推送及用户跨屏识别方法,其特征在于,在所述步骤S1和S2中,采用HadoopHDFS分布式文件系统存储和分析所述历史浏览及行为数据、浏览习惯及行为兴趣数据和向所述用户推送的广告数据。
CN201610007215.5A 2016-01-06 2016-01-06 一种移动广告大数据的定向推送及用户跨屏识别方法 Active CN105677844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610007215.5A CN105677844B (zh) 2016-01-06 2016-01-06 一种移动广告大数据的定向推送及用户跨屏识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610007215.5A CN105677844B (zh) 2016-01-06 2016-01-06 一种移动广告大数据的定向推送及用户跨屏识别方法

Publications (2)

Publication Number Publication Date
CN105677844A true CN105677844A (zh) 2016-06-15
CN105677844B CN105677844B (zh) 2017-03-08

Family

ID=56234676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610007215.5A Active CN105677844B (zh) 2016-01-06 2016-01-06 一种移动广告大数据的定向推送及用户跨屏识别方法

Country Status (1)

Country Link
CN (1) CN105677844B (zh)

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933760A (zh) * 2016-06-27 2016-09-07 欢聚时代文化传媒(北京)有限公司 智能终端投放媒体信息的方法及装置
CN106294883A (zh) * 2016-08-30 2017-01-04 杭州启冠网络技术有限公司 基于用户行为数据对用户行为图上分析的方法和系统
CN106296283A (zh) * 2016-08-08 2017-01-04 时趣互动(北京)科技有限公司 一种基于移动应用的广告播放方法及系统
CN106339896A (zh) * 2016-08-17 2017-01-18 罗军 一种广告投放方法及系统
CN106469206A (zh) * 2016-08-31 2017-03-01 广州酷狗计算机科技有限公司 推送信息的方法和装置
CN106506696A (zh) * 2016-12-20 2017-03-15 深圳市信锐网科技术有限公司 广告推送方法及装置
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN106803189A (zh) * 2016-12-27 2017-06-06 天津数集科技有限公司 一种基于重定向联合传统广告投放进行实时联合频控的广告投放方法
CN106934651A (zh) * 2017-01-18 2017-07-07 北京光年无限科技有限公司 一种用于机器人的宣传信息输出方法及系统
CN107222526A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 推送推广信息的方法、装置、设备和计算机存储介质
CN107295067A (zh) * 2017-05-26 2017-10-24 北京京东尚科信息技术有限公司 跨屏识别用户的方法和装置
CN107491997A (zh) * 2017-09-22 2017-12-19 四川省艾普网络股份有限公司 信息推送方法及系统
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN107527226A (zh) * 2017-07-12 2017-12-29 深圳财富圈电子商务有限公司 内容推送的方法、终端设备及计算机可读存储介质
CN107704494A (zh) * 2017-08-24 2018-02-16 上海斐讯数据通信技术有限公司 一种基于应用软件的用户信息收集方法和系统
CN107729560A (zh) * 2017-11-08 2018-02-23 北京奇虎科技有限公司 基于大数据的用户画像构造方法、装置及计算设备
CN107809485A (zh) * 2017-10-31 2018-03-16 广州云移信息科技有限公司 一种信息推荐方法及终端
CN108022125A (zh) * 2017-11-21 2018-05-11 华南理工大学 一种基于Hadoop的HA机制集群精准广告推送方法
CN108076450A (zh) * 2016-11-10 2018-05-25 北京国双科技有限公司 一种识别同一用户的方法及装置
CN108108998A (zh) * 2017-12-14 2018-06-01 百度在线网络技术(北京)有限公司 广告展现方法和装置、服务器、存储介质
CN108197995A (zh) * 2018-01-10 2018-06-22 北京掌阔移动传媒科技有限公司 一种基于人脸识别的精准广告投放方法
CN108243219A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN108322782A (zh) * 2018-01-19 2018-07-24 西安万像电子科技有限公司 多媒体信息的推送方法、装置和系统
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN108446330A (zh) * 2018-02-13 2018-08-24 北京数字新思科技有限公司 一种推广对象处理方法、装置及一种计算机可读存储介质
CN108596661A (zh) * 2018-04-20 2018-09-28 上海东方报业有限公司 广告配置方法及系统
CN108615166A (zh) * 2016-12-13 2018-10-02 方正国际软件(北京)有限公司 一种广告展现方法和装置
CN108920529A (zh) * 2018-06-07 2018-11-30 北京金山安全软件有限公司 一种数据提取方法、装置及电子设备
WO2018223280A1 (zh) * 2017-06-06 2018-12-13 深圳市东信时代信息技术有限公司 一种基于实时竞价的广告曝光率调节装置和方法
CN109033149A (zh) * 2018-06-12 2018-12-18 北京奇艺世纪科技有限公司 信息推荐方法、装置、服务器及存储介质
CN109067970A (zh) * 2018-06-27 2018-12-21 上海擎感智能科技有限公司 基于车载仪表屏的智能手机显示方法及系统、车载终端
CN109067690A (zh) * 2018-08-07 2018-12-21 腾讯科技(深圳)有限公司 离线计算结果数据的推送方法及装置
CN109656903A (zh) * 2018-10-30 2019-04-19 成都飞机工业(集团)有限责任公司 一种智能推送管控中心模块的方法
CN109961308A (zh) * 2017-12-25 2019-07-02 北京京东尚科信息技术有限公司 评估标签数据的方法和装置
CN109960531A (zh) * 2017-12-26 2019-07-02 中国移动通信集团浙江有限公司 一种页面显示方法和装置
CN110348874A (zh) * 2019-05-22 2019-10-18 口碑(上海)信息技术有限公司 广告信息的推送方法、装置及系统
CN110516030A (zh) * 2019-08-26 2019-11-29 北京百度网讯科技有限公司 意图词的确定方法、装置、设备及计算机可读存储介质
CN110659918A (zh) * 2018-06-28 2020-01-07 上海传漾广告有限公司 一种网络广告的追踪和分析的优化方法
CN110737691A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于处理访问行为数据的方法和装置
CN110796491A (zh) * 2019-10-28 2020-02-14 北京深演智能科技股份有限公司 一种广告投放方法及装置
CN110969470A (zh) * 2018-09-30 2020-04-07 武汉斗鱼网络科技有限公司 一种app推广情况监控方法、存储介质、电子设备及系统
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111080349A (zh) * 2019-12-04 2020-04-28 北京悠易网际科技发展有限公司 识别同一用户的多个设备的方法、装置、服务器及介质
CN111310016A (zh) * 2018-12-11 2020-06-19 百度在线网络技术(北京)有限公司 标签挖掘方法、装置、服务器和存储介质
WO2020147714A1 (zh) * 2019-01-15 2020-07-23 加拿大辉莱广告公司 一种可配送实体的推送方法以及装置
CN111563205A (zh) * 2020-04-26 2020-08-21 山东师范大学 共享账户中基于自注意力机制的跨域信息推荐方法及系统
CN111915419A (zh) * 2020-07-02 2020-11-10 中信银行股份有限公司 基于大数据的信用卡核心系统开放式账单计算与查询系统
WO2021003673A1 (zh) * 2019-07-09 2021-01-14 深圳市欢太科技有限公司 内容推送方法及相关产品
CN112308579A (zh) * 2019-07-24 2021-02-02 腾讯科技(深圳)有限公司 一种信息投放方法、装置及存储介质
WO2021104279A1 (zh) * 2019-11-26 2021-06-03 中兴通讯股份有限公司 用户画像构建方法和装置、设备和存储介质
CN113396433A (zh) * 2019-06-11 2021-09-14 深圳市欢太科技有限公司 用户画像构建方法及相关产品
CN114780855A (zh) * 2022-05-05 2022-07-22 穗保(广州)科技有限公司 一种基于互联网安全性的信息共享系统
US11620678B2 (en) 2018-10-16 2023-04-04 Baidu Online Network Technology (Beijing) Co., Ltd. Advertising method, device and system, and computer-readable storage medium
TWI807243B (zh) * 2021-01-12 2023-07-01 統一超商股份有限公司 結合集資活動的線上社群系統與處理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634275A (zh) * 2012-08-21 2014-03-12 联想(北京)有限公司 多设备管理与任务迁移方法及管理服务器
CN104054055A (zh) * 2011-11-15 2014-09-17 A·H·揣思达尔 以物理设备或软件应用程序的标识符之间的关联为基础使用联网设备识别和跟踪用户活动
CN104091277A (zh) * 2014-06-10 2014-10-08 北京智云众网络科技有限公司 用户身份标识的关联方法和装置、广告投放方法和装置
CN104539742A (zh) * 2015-01-26 2015-04-22 北京奇艺世纪科技有限公司 一种信息推送方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054055A (zh) * 2011-11-15 2014-09-17 A·H·揣思达尔 以物理设备或软件应用程序的标识符之间的关联为基础使用联网设备识别和跟踪用户活动
CN103634275A (zh) * 2012-08-21 2014-03-12 联想(北京)有限公司 多设备管理与任务迁移方法及管理服务器
CN104091277A (zh) * 2014-06-10 2014-10-08 北京智云众网络科技有限公司 用户身份标识的关联方法和装置、广告投放方法和装置
CN104539742A (zh) * 2015-01-26 2015-04-22 北京奇艺世纪科技有限公司 一种信息推送方法、装置及系统

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933760A (zh) * 2016-06-27 2016-09-07 欢聚时代文化传媒(北京)有限公司 智能终端投放媒体信息的方法及装置
CN106296283B (zh) * 2016-08-08 2020-04-14 时趣互动(北京)科技有限公司 一种基于移动应用的广告播放方法及系统
CN106296283A (zh) * 2016-08-08 2017-01-04 时趣互动(北京)科技有限公司 一种基于移动应用的广告播放方法及系统
CN106339896A (zh) * 2016-08-17 2017-01-18 罗军 一种广告投放方法及系统
CN106294883A (zh) * 2016-08-30 2017-01-04 杭州启冠网络技术有限公司 基于用户行为数据对用户行为图上分析的方法和系统
CN106294883B (zh) * 2016-08-30 2019-05-21 浙江启冠网络股份有限公司 基于用户行为数据对用户行为图上分析的方法和系统
CN106469206A (zh) * 2016-08-31 2017-03-01 广州酷狗计算机科技有限公司 推送信息的方法和装置
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN108076450A (zh) * 2016-11-10 2018-05-25 北京国双科技有限公司 一种识别同一用户的方法及装置
CN108615166A (zh) * 2016-12-13 2018-10-02 方正国际软件(北京)有限公司 一种广告展现方法和装置
CN106506696A (zh) * 2016-12-20 2017-03-15 深圳市信锐网科技术有限公司 广告推送方法及装置
CN108243219B (zh) * 2016-12-26 2020-11-06 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN108243219A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN106803189A (zh) * 2016-12-27 2017-06-06 天津数集科技有限公司 一种基于重定向联合传统广告投放进行实时联合频控的广告投放方法
CN106934651A (zh) * 2017-01-18 2017-07-07 北京光年无限科技有限公司 一种用于机器人的宣传信息输出方法及系统
CN107222526A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 推送推广信息的方法、装置、设备和计算机存储介质
CN107222526B (zh) * 2017-05-16 2020-09-29 百度在线网络技术(北京)有限公司 推送推广信息的方法、装置、设备和计算机存储介质
CN107295067A (zh) * 2017-05-26 2017-10-24 北京京东尚科信息技术有限公司 跨屏识别用户的方法和装置
WO2018223280A1 (zh) * 2017-06-06 2018-12-13 深圳市东信时代信息技术有限公司 一种基于实时竞价的广告曝光率调节装置和方法
CN107527226A (zh) * 2017-07-12 2017-12-29 深圳财富圈电子商务有限公司 内容推送的方法、终端设备及计算机可读存储介质
CN107515915B (zh) * 2017-08-18 2020-02-18 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN107704494A (zh) * 2017-08-24 2018-02-16 上海斐讯数据通信技术有限公司 一种基于应用软件的用户信息收集方法和系统
CN107704494B (zh) * 2017-08-24 2021-09-14 深圳市来玩科技有限公司 一种基于应用软件的用户信息收集方法和系统
CN107491997A (zh) * 2017-09-22 2017-12-19 四川省艾普网络股份有限公司 信息推送方法及系统
CN107809485A (zh) * 2017-10-31 2018-03-16 广州云移信息科技有限公司 一种信息推荐方法及终端
CN107729560A (zh) * 2017-11-08 2018-02-23 北京奇虎科技有限公司 基于大数据的用户画像构造方法、装置及计算设备
CN108022125A (zh) * 2017-11-21 2018-05-11 华南理工大学 一种基于Hadoop的HA机制集群精准广告推送方法
CN108108998A (zh) * 2017-12-14 2018-06-01 百度在线网络技术(北京)有限公司 广告展现方法和装置、服务器、存储介质
CN109961308A (zh) * 2017-12-25 2019-07-02 北京京东尚科信息技术有限公司 评估标签数据的方法和装置
CN109960531B (zh) * 2017-12-26 2022-06-14 中国移动通信集团浙江有限公司 一种页面显示方法和装置
CN109960531A (zh) * 2017-12-26 2019-07-02 中国移动通信集团浙江有限公司 一种页面显示方法和装置
CN108197995A (zh) * 2018-01-10 2018-06-22 北京掌阔移动传媒科技有限公司 一种基于人脸识别的精准广告投放方法
CN108322782A (zh) * 2018-01-19 2018-07-24 西安万像电子科技有限公司 多媒体信息的推送方法、装置和系统
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN108416620B (zh) * 2018-02-08 2022-02-22 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN108446330B (zh) * 2018-02-13 2022-05-13 北京明略昭辉科技有限公司 一种推广对象处理方法、装置及一种计算机可读存储介质
CN108446330A (zh) * 2018-02-13 2018-08-24 北京数字新思科技有限公司 一种推广对象处理方法、装置及一种计算机可读存储介质
CN108596661A (zh) * 2018-04-20 2018-09-28 上海东方报业有限公司 广告配置方法及系统
CN108596661B (zh) * 2018-04-20 2021-10-22 上海东方报业有限公司 广告配置方法及系统
CN108920529A (zh) * 2018-06-07 2018-11-30 北京金山安全软件有限公司 一种数据提取方法、装置及电子设备
CN109033149B (zh) * 2018-06-12 2020-11-13 北京奇艺世纪科技有限公司 信息推荐方法、装置、服务器及存储介质
CN109033149A (zh) * 2018-06-12 2018-12-18 北京奇艺世纪科技有限公司 信息推荐方法、装置、服务器及存储介质
CN109067970A (zh) * 2018-06-27 2018-12-21 上海擎感智能科技有限公司 基于车载仪表屏的智能手机显示方法及系统、车载终端
CN110659918A (zh) * 2018-06-28 2020-01-07 上海传漾广告有限公司 一种网络广告的追踪和分析的优化方法
CN110737691A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于处理访问行为数据的方法和装置
CN110737691B (zh) * 2018-07-03 2022-11-04 百度在线网络技术(北京)有限公司 用于处理访问行为数据的方法和装置
CN109067690A (zh) * 2018-08-07 2018-12-21 腾讯科技(深圳)有限公司 离线计算结果数据的推送方法及装置
CN110969470A (zh) * 2018-09-30 2020-04-07 武汉斗鱼网络科技有限公司 一种app推广情况监控方法、存储介质、电子设备及系统
US11620678B2 (en) 2018-10-16 2023-04-04 Baidu Online Network Technology (Beijing) Co., Ltd. Advertising method, device and system, and computer-readable storage medium
CN109656903A (zh) * 2018-10-30 2019-04-19 成都飞机工业(集团)有限责任公司 一种智能推送管控中心模块的方法
CN111310016A (zh) * 2018-12-11 2020-06-19 百度在线网络技术(北京)有限公司 标签挖掘方法、装置、服务器和存储介质
CN111310016B (zh) * 2018-12-11 2023-08-04 百度在线网络技术(北京)有限公司 标签挖掘方法、装置、服务器和存储介质
WO2020147714A1 (zh) * 2019-01-15 2020-07-23 加拿大辉莱广告公司 一种可配送实体的推送方法以及装置
CN110348874A (zh) * 2019-05-22 2019-10-18 口碑(上海)信息技术有限公司 广告信息的推送方法、装置及系统
CN113396433A (zh) * 2019-06-11 2021-09-14 深圳市欢太科技有限公司 用户画像构建方法及相关产品
CN113396433B (zh) * 2019-06-11 2023-12-26 深圳市欢太科技有限公司 用户画像构建方法及相关产品
WO2021003673A1 (zh) * 2019-07-09 2021-01-14 深圳市欢太科技有限公司 内容推送方法及相关产品
CN112308579A (zh) * 2019-07-24 2021-02-02 腾讯科技(深圳)有限公司 一种信息投放方法、装置及存储介质
CN112308579B (zh) * 2019-07-24 2024-07-16 腾讯科技(深圳)有限公司 一种信息投放方法、装置及存储介质
CN110516030B (zh) * 2019-08-26 2022-11-01 北京百度网讯科技有限公司 意图词的确定方法、装置、设备及计算机可读存储介质
CN110516030A (zh) * 2019-08-26 2019-11-29 北京百度网讯科技有限公司 意图词的确定方法、装置、设备及计算机可读存储介质
CN110796491A (zh) * 2019-10-28 2020-02-14 北京深演智能科技股份有限公司 一种广告投放方法及装置
CN110796491B (zh) * 2019-10-28 2022-09-16 北京深演智能科技股份有限公司 一种广告投放方法及装置
WO2021104279A1 (zh) * 2019-11-26 2021-06-03 中兴通讯股份有限公司 用户画像构建方法和装置、设备和存储介质
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111080349B (zh) * 2019-12-04 2023-04-21 北京悠易网际科技发展有限公司 识别同一用户的多个设备的方法、装置、服务器及介质
CN111080349A (zh) * 2019-12-04 2020-04-28 北京悠易网际科技发展有限公司 识别同一用户的多个设备的方法、装置、服务器及介质
CN111563205A (zh) * 2020-04-26 2020-08-21 山东师范大学 共享账户中基于自注意力机制的跨域信息推荐方法及系统
CN111915419A (zh) * 2020-07-02 2020-11-10 中信银行股份有限公司 基于大数据的信用卡核心系统开放式账单计算与查询系统
TWI807243B (zh) * 2021-01-12 2023-07-01 統一超商股份有限公司 結合集資活動的線上社群系統與處理方法
CN114780855A (zh) * 2022-05-05 2022-07-22 穗保(广州)科技有限公司 一种基于互联网安全性的信息共享系统
CN114780855B (zh) * 2022-05-05 2022-11-25 穗保(广州)科技有限公司 一种基于互联网安全性的信息共享系统

Also Published As

Publication number Publication date
CN105677844B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN105677844B (zh) 一种移动广告大数据的定向推送及用户跨屏识别方法
CN100547593C (zh) 在web爬取过程期间给网站排优先级的系统和方法
TWI482037B (zh) 搜尋建議叢集與呈現
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
Hotho et al. Trend detection in folksonomies
Abebe et al. Generic metadata representation framework for social-based event detection, description, and linkage
US20100274770A1 (en) Transductive approach to category-specific record attribute extraction
Lee et al. Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking
CN102236867A (zh) 基于云计算的受众行为分析广告定向系统
US11928143B2 (en) Systems, methods, and devices for generating real-time analytics
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
CN108959580A (zh) 一种标签数据的优化方法及系统
Parmar et al. NLPExplorer: exploring the universe of NLP papers
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
Kumar World towards advance web mining: A review
Chen et al. Big data applications
CN109902230A (zh) 一种新闻数据的处理方法及装置
Qumsiyeh et al. Enhancing web search by using query-based clusters and multi-document summaries
CN114996571A (zh) 一种信息推送方法及装置、存储介质和电子设备
CN114881722A (zh) 基于热点的旅游产品匹配方法、系统、设备及存储介质
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230315

Address after: Room 603, Gate 1, Building 2, Quanzhuang No.1 Courtyard, Haidian District, Beijing, 100080

Patentee after: Yu Dongxue

Address before: 606, Building 17, Yard 30, Shixing Street, Shijingshan District, Beijing, 100041

Patentee before: BEIJING MOBIVANS TECHNOLOGY Co.,Ltd.