CN107291755A - 一种终端推送方法及装置 - Google Patents
一种终端推送方法及装置 Download PDFInfo
- Publication number
- CN107291755A CN107291755A CN201610204189.5A CN201610204189A CN107291755A CN 107291755 A CN107291755 A CN 107291755A CN 201610204189 A CN201610204189 A CN 201610204189A CN 107291755 A CN107291755 A CN 107291755A
- Authority
- CN
- China
- Prior art keywords
- terminal
- access
- time section
- active time
- interest tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种终端推送方法及装置,该方法包括:在终端访问网站时,根据终端的地址信息以及当前时间确定终端在当前时间所属的访问活跃时间段;根据确定的终端在当前时间所属的访问活跃时间段,确定与访问活跃时间段对应的兴趣标签;根据兴趣标签向终端推送与兴趣标签相关的业务信息。由于将终端的访问行为划分成为多个访问活跃时间段,针对当前访问时间确定当前时间所属访问活跃时间段对应兴趣标签对应的业务信息,因此,有效提高了信息推送的准确率;通过对终端访问活跃时间段的划分,在进行推送时,只需要对当前时间所属的访问活跃时间段内的访问行为进行分析,从而缩小了推送时对访问行为分析匹配的计算量,提高了计算精度。
Description
技术领域
本发明涉及网络应用技术领域,尤指一种终端推送方法及装置。
背景技术
随着信息技术的迅速发展,为给用户带来更好的应用体验,信息推送在行业内以其大量的应用方向,是当今互联网十分重要的技术方向。
现阶段的终端推送方法通常采用随机推送的方式,或者对终端的访问行为的历史数据进行分析,基于固定的时间段对终端进行信息推送。
然而,用户在不同时间不同地点使用终端的访问行为有所不同,因而访问内容也存在很大差异。例如,用户在上班时间和休闲时间访问行为存在很大差异,用户在家里访问学术文章的网站,在工作时间访问商务合作类网站。此外,由于用户的个体差异性,即使对时间进行划分,在同一时间段不同用户的访问内容仍存在较大差异。例如,一家人公用同一台平板电脑,不同家庭成员的访问内容大不相同,平板电脑并不能区分使用设备的用户,从而也不通用区分用户对使用者推送不同的信息。因此,通过上述方法对终端进行信息推送的推送准确率较低。
发明内容
本发明实施例提供一种终端推送方法及装置,用以解决现有技术中信息推送的准确率低的问题。
第一方面,本发明实施例提供一种终端推送方法,所述方法包括:
在终端访问网站时,根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段;
根据确定的所述终端在当前时间所属的访问活跃时间段,确定与所述访问活跃时间段对应的兴趣标签;
根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,在根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段之前,所述方法还包括:
获取所述终端访问行为的历史数据;
将所述历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段;
根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述获取所述终端访问行为的历史数据,包括:
获取所述终端的网关日志,并在所述网关日志中提取统一资源定位符;
根据所述统一资源定位符进行爬虫处理后,获得所述终端访问行为的历史数据。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段,包括:
将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签,包括:
对所述终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为所述兴趣标签;
按照所述访问活跃时间段分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,在对所述终端访问行为的历史数据采用主题模型进行主题分类之前,所述方法还包括:
根据所有终端访问行为的历史数据,对所述主题模型进行训练。
优选地,所述根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息,包括:
确定每个待推送业务信息的主题信息与所述兴趣标签的相似度;
向所述终端推送所述相似度大于预设值的待推送业务信息。
第二方面,本发明实施例提供一种终端推送装置,所述装置包括:
第一确定单元,用于在终端访问网站时,根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段;
第二确定单元,用于根据确定的所述终端在当前时间所属的访问活跃时间段,确定与所述访问活跃时间段对应的兴趣标签;
业务信息推送单元,用于根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述装置还包括:
历史数据获取单元,用于获取所述终端访问行为的历史数据;
第三确定单元,用于将所述历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段;
第四确定单元,用于根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述历史数据获取单元,具体用于获取所述终端的网关日志,并在所述网关日志中提取统一资源定位符;根据所述统一资源定位符进行爬虫处理后,获得所述终端访问行为的历史数据。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述第三确定单元,具体用于将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述第四确定单元,具体用于对所述终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为所述兴趣标签;按照所述访问活跃时间段分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述装置还包括:
主题模型训练单元,用于根据所有终端访问行为的历史数据,对所述主题模型进行训练。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述业务信息推送单元,具体用于确定每个待推送业务信息的主题信息与所述兴趣标签的相似度;向所述终端推送所述相似度大于预设值的待推送业务信息。
本发明实施例的有益效果包括:
本发明提供了一种终端推送方法及装置,在终端访问网站时,根据终端的地址信息以及当前时间确定终端在当前时间所属的访问活跃时间段;根据确定的终端在当前时间所属的访问活跃时间段,确定与访问活跃时间段对应的兴趣标签;根据兴趣标签向终端推送与兴趣标签相关的业务信息。在本发明提供的上述终端推送方法中,由于将终端的访问行为划分成为多个访问活跃时间段,针对当前访问时间确定当前时间所属访问活跃时间段对应兴趣标签对应的业务信息,因此,有效提高了信息推送的准确率;通过对终端访问活跃时间段的划分,在进行推送时,只需要对当前时间所属的访问活跃时间内的访问行为进行分析,从而缩小了推送时对访问行为分析匹配的计算量,提高了计算精度。
附图说明
图1为本发明实施例提供的一种终端推送方法的流程示意图之一;
图2为本发明实施例提供的一种终端推送方法的流程示意图之二;
图3为本发明实施例提供的一种终端推送装置的结构示意图。
具体实施方式
针对现有技术中存在的信息推送的准确率低及推送计算精度低的问题,本发明实施例提供的终端推送方法,首先,本发明方法的流程如图1所示,执行步骤如下:
S101、在终端访问网站时,根据终端的地址信息以及当前时间确定终端在当前时间所属的访问活跃时间段;
S102、根据确定的终端在当前时间所属的访问活跃时间段,确定与访问活跃时间段对应的兴趣标签;
S103、根据兴趣标签向终端推送与兴趣标签相关的业务信息。
本发明实施例提供的上述终端推送方法,由于将终端的访问行为划分成为多个访问活跃时间段,针对当前访问时间确定当前时间所属访问活跃时间段对应兴趣标签,向终端推送与这些兴趣标签对应的业务信息,因此,有效提高了信息推送的准确率;通过对终端访问活跃时间段的划分,只需要对当前时间所属的访问活跃时间段内的访问行为进行分析,从而缩小了推送时对访问行为分析匹配的计算量,提高了计算精度。
在具体实施时,在执行本发明实施例提供的上述终端推送方法中的步骤S101之前,本发明实施例提供的上述终端推送方法,还包括如图2所示的步骤S101’至步骤S103’。
S101’、获取终端访问行为的历史数据;
S102’、将历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定终端对应的多个访问活跃时间段;
S103’、根据终端访问行为的历史数据,分别确定在各访问活跃时间段内终端的兴趣标签。
下面对上述各步骤的具体实现方式进行详细的说明。
在上述步骤S101’中,获取终端访问行为的历史数据,具体可以包括:
获取终端的网关日志,并在网关日志中提取统一资源定位符;
根据统一资源定位符进行爬虫处理后,获得终端访问行为的历史数据。
在具体实施时,可定时将网关日志上传汇总来记录终端访问过的网页内容。而网关日志中并不能直接显示终端浏览过的具体内容,因此,首先要对网关日志进行清理将用户访问过的统一资源定位符(Uniform Resoure Locator,简称URL)提取出来。例如,可通过正则表达式将网关日志中的URL提取,并对提取出来的URL进行解析。再采用网络爬虫方式获得将每个URL所对应的终端访问行为的历史数据,并将获得的历史数据存储于本地服务器上。
在具体实施时,在上述的步骤S102’中,由于用户在使用终端的访问行为在一天中的多个时间段有很大差异,并且在同一个时间段的访问行为又具有很高的相似度,因此,将终端访问行为的历史数据按照相似访问行为进行聚类处理。
具体地,在终端访问行为的历史数据超过预设值时,可认为该终端为具有历史数据积累。此处的预设值可根据实际需要进行设定,本实施例不对其具体取值进行限定。此时,可采用非监督学习的分类方法将终端所有访问行为分为多类。例如,可采用k-means算法对终端的访问行为进行聚类。由于聚类算法要针对终端的每次访问行为进行分类,可将终端的访问行为用向量x(i)来表示,x(i)表示终端第i次的访问行为,可具体表示为:
其中,IDi为终端标识,Timei为终端的时间标签,表示第i次访问时间,至为终端感兴趣的主题标签。
如下以将终端访问行为聚类为三类为例,对上述步骤S102’中,将终端访问行为的历史数据按照相似访问行为进行聚类处理进行具体说明。
聚类算法的聚类簇数K,可取值为3,即分为三类,如此分类是基于用户使用终端一天之内的活动周期的假设。首先,对聚类算法进行初始设置:将聚类中心位置μ1,μ2,μ3设置在初始值8:00,12:30和17:30三个时间位置,在这三个时间点各取一个访问行为的样本点,在初始值处存在多个样本数据时,随机选择其一作为访问行为的样本点;在初始值处无样本数据时,则在距离此初始值时间点最近的样本数据中随机选取其一作为该分类的中心位置。上述的初始设置克服了k-means算法因初始值的随机性导致最终解陷于局部最优的缺点,也使初始的聚类中心离最终解更近从而加快了收敛速度。
具体地,采用如下公式执行循环迭代操作直至收敛后结束:
其中,c(i)表示聚类,μj表示中心位置,m为样本总数,1{}表示指示函数。每次迭代中心位置μj都会发生变化,将变化后的中心位置μj重新代入公式,确定其属于哪一个聚类。由此,可将所有的访问行为聚类为三类。
在具体实施时,还可采用k-medoids算法或适合的划分算法进行相似访问行为的聚类,本实施例不对其进行限定,此外,采用上述的聚类算法还可将上述终端的访问行为分为两类、四类或更多类,本实施例不对聚类簇数的具体取值进行限定。
进一步的,在上述的步骤S102’中,根据聚类处理后的各类相似访问行为的时间分布,确定终端对应的多个访问活跃时间段,具体可以包括:
将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
具体地,在上述计算得到的三个聚类中,每一类的访问行为的时间分布可为正态分布,将该类的访问行为的时间分布进行划分,将第一个四分位数至第三个四分位数之间的时间区域,即正态分布的中心部分时间段,作为该类相似访问行为对应的访问活跃时间段。此外,可选取其它部分时间段或全部时间段作访问活跃时间段,本实施例不对其进行限定。在实施应用时,可通过提取各类访问行为x(i)中的时间标签Timei来获得访问行为的时间分布,从而选取时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
在一种可能实施的方式中,在终端没有访问行为或访问行为的历史数据较少,低于上述的预设值时,则将该终端的访问活跃时间段设置为默认值。例如,划分7:00至9:00,11:00至14:00,19:00至24:00三个时间段为该终端对应的多个访问活跃时间段。
在确定终端对应的多个访问活跃时间段之后,在上的步骤S103’中,根据终端访问行为的历史数据,分别确定在各访问活跃时间段内终端的兴趣标签,具体可以包括:
对终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为兴趣标签;
按照访问活跃时间段分别确定在各访问活跃时间段内终端的兴趣标签。
进一步地,在对终端访问行为的历史数据采用主题模型进行主题分类之前,本发明实施例提供的上述方法,还包括:
根据所有终端访问行为的历史数据,对主题模型进行训练。
如下以采用pLSA模型进行主题模型训练过程为例对上述的步骤S103’进行说明。
采用上述步骤S101’中获取访问行为历史数据的方式获取所有终端的历史数据作为待训练的文档,可分别采用长文本训练方式或短文本训练方式来进行主题模型的训练。在采用长文本训练方式时,提取HTML中的段落,即<p>标签内的文本作为文档d;在采用短文本训练方式时,提取HTML中的标题,即<h>标签内的文本作为文档d。再通过词库分词模型,将上述获得的文本文档d进行分词,得到word1、word2…wordN,从而并建立词袋模型,如下表所示。
word1 | word2 | word3 | … | wordN | |
d | x1 | x2 | x3 | … | xN |
其中X1,X2表明对应的词word1、word2在文档d中出现的次数。
经过统计分词word出现的比率之后进行保存并且带入主题模型进行训练和判断。
具体地,可采用pLSA模型对主题模型进行训练。假设每个文档d都是由多个主题z组成,此时,设文档d包含主题z的条件概率为P(z|d),而每个词word都是又主题z生成的,设主题生成词的概率为P(w|z)。通过这两个概率可以计算文档和词共同出现的概率:
其中,P(d,w)是文档d和词w共同出现的概率,p(d)是文档d在所有文档中出现的概率,z是所有主题的集合Z中的一个元素,即一个主题。
进一步地,求上式的最大似然估计,对主题模型进行训练,得到可以用于主题分类的主题模型。经过训练后获得的两组条件概率P(z|d)和P(w|z)反映了已知文档内容与何种主题的相关度的大小。因此针对每一个文档d,可以获得一个由P(z|d)组成的向量(P(z1|d),P(z2|d),P(z3|d)......,P(zn|d)),其中的条件概率P(zi|d)从由训练后的主题模型推算得到描述了当前文档d属于主题zi概率。由此,可将终端浏览内容对应的主题提取出来,再将主题中的兴趣关键词作为兴趣标签进行存储。
进一步地,将存储的终端所有兴趣标签按照访问活跃时间段分别确定在各访问活跃时间段内终端的兴趣标签。
具体实施时,在上述的步骤S103中,根据兴趣标签向终端推送与兴趣标签相关的业务信息,具体包括:
确定每个待推送业务信息的主题信息与兴趣标签的相似度;
向终端推送相似度大于预设值的待推送业务信息。
具体地,上述的待推送业务信息可为广告信息、新闻信息、文档信息、图片信息或与终端当前搜索内容相关的业务信息。在向终端推送上述任一种业务信息之前,确定待推送业务信息与兴趣标签的相似度,从而将相似度高的待推送业务信息向终端进行推送,可有效提高推送的准确度。上述的预设值为经验值,可根据实际需要进行取值,本实施例不对预设值的具体取值进行限定。
在一种可能实施的方式中,本发明实施例提供的上述方法中,还可根据终端之间的相似度,对终端进行业务信息推送。例如,广告信息推送环节中,仅仅通过对已有用户进行推送是远远不够的,而向新用户推送广告信息时,通常会由广告商提供一部分种子用户,由需求方平台(Demand-Side Platform,简称DSP)计算用户使用终端的访问行为的相似性来找到潜在的用户。
具体地,可通过计算某一终端与种子终端访问行为的相似度,找到相似度系数高的终端,由此向该种子终端推送与该种子终端相似度高的终端访问的广告信息,从而实现更准确的广告信息推送。上述相似度的计算方式可为余弦相似性,调整余弦性,皮尔森系数等方法。
如下以余弦相似性的计算为例进行说明。
用向量X=(x1,x2,...,xn)作为用户当前使用终端的兴趣向量,其中,x1至xn为上述终端的兴趣标签。xi的值用来衡量终端对于第i个主题的兴趣关键词的相关强度,强度的衡量可以是出现该主题的次数占总访问行为的比例,或者是由pLSA算法得出的访问行为与该主题的相关性概率后求和。进一步地,计算第i个终端和第j个终端的余弦相似度:
在计算的余弦相似度大于预设值时,将广告信息向新用户当前使用的终端进行推送。由于传统方法中,兴趣向量X中不为零的项有很多,也就意味着终端的兴趣标签项很多,然而找到两个兴趣标签完全重合或较多兴趣标签重合的终端的难度较大,因此,先根据当前时间确定终端当前所属的访问活跃时间段,再确定该访问活跃时间段对应的兴趣标签,可以提高两终端关注几个兴趣方向的重合的几率,使得生成的相关矩阵比较稀疏,从而提高了计算的准确性。
在一种可实施的方式中,可将上述的终端对应各访问活跃时间段进行标识,以三元组(U,T,L)对终端进行标识,其中,U表示终端的地址信息,T为表示访问活跃时间段的标签,L为地理标签。由于用户在通过终端访问网站时,通常在一天中的同一时间段会处于相同或相近的地理位置,因此,T标签与L标签通常具有关联性。在具体实施时,可针对标识中的T标签关联多个兴趣标签。在终端访问网站时,通过获取时间标签对应的终端标识(U,T,L)来获得当前时间对应的终端的兴趣标签,从而根据兴趣标签向终端推送相关的业务信息。
基于同一发明构思,本发明实施例提供一种终端推送装置,由于该装置解决问题的原理与前述一种在内部通信网中通信数据的处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供一种终端推送装置,结构如图3所示,包括:
第一确定单元31,用于在终端访问网站时,根据终端的地址信息以及当前时间确定终端在当前时间所属的访问活跃时间段;
第二确定单元32,用于根据确定的终端在当前时间所属的访问活跃时间段,确定与访问活跃时间段对应的兴趣标签;
业务信息推送单元33,用于根据兴趣标签向终端推送与兴趣标签相关的业务信息。
进一步地,本发明实施例提供的上述装置,如图3所示,还包括:
历史数据获取单元34,用于获取终端访问行为的历史数据;
第三确定单元35,用于将历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定终端对应的多个访问活跃时间段;
第四确定单元36,用于根据终端访问行为的历史数据,分别确定在各访问活跃时间段内终端的兴趣标签。
具体地,上述历史数据获取单元34,具体用于获取终端的网关日志,并在网关日志中提取统一资源定位符;根据统一资源定位符进行爬虫处理后,获得终端访问行为的历史数据。
具体地,上述第三确定单元35,具体用于将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
具体地,上述第四确定单元36,具体用于对终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为兴趣标签;按照访问活跃时间段分别确定在各访问活跃时间段内终端的兴趣标签。
进一步地,本发明实施例提供的上述装置,如图3所示,还包括:
主题模型训练单元37,用于根据所有终端访问行为的历史数据,对主题模型进行训练。
具体地,上述业务信息推送单元33,具体用于确定每个待推送业务信息的主题信息与兴趣标签的相似度;向终端推送相似度大于预设值的待推送业务信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件与必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例提供的上述终端推送方法,在终端访问网站时,根据终端的地址信息以及当前时间确定终端在当前时间所属的访问活跃时间段,并根据确定的终端在当前时间所属的访问活跃时间段,确定与访问活跃时间段对应的兴趣标签,从而根据兴趣标签向终端推送与兴趣标签相关的业务信息。在本发明提供的上述终端推送方法中,由于将终端的访问行为划分成为多个访问活跃时间段,针对当前访问时间确定当前时间所属访问活跃时间段对应兴趣标签对应的业务信息,因此,有效提高了信息推送的准确率;通过对终端访问活跃时间段的划分,在进行推送时,只需要对当前时间所属的访问活跃时间内的访问行为进行分析,从而缩小了推送时对访问行为分析匹配的计算量,提高了计算精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种终端推送方法,其特征在于,所述方法包括:
在终端访问网站时,根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段;
根据确定的所述终端在当前时间所属的访问活跃时间段,确定与所述访问活跃时间段对应的兴趣标签;
根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息。
2.如权利要求1所述的方法,其特征在于,在根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段之前,所述方法还包括:
获取所述终端访问行为的历史数据;
将所述历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段;
根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
3.如权利要求2所述的方法,其特征在于,所述获取所述终端访问行为的历史数据,包括:
获取所述终端的网关日志,并在所述网关日志中提取统一资源定位符;
根据所述统一资源定位符进行爬虫处理后,获得所述终端访问行为的历史数据。
4.如权利要求2所述的方法,其特征在于,所述根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段,包括:
将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
5.如权利要求2所述的方法,其特征在于,所述根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签,包括:对所述终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为所述兴趣标签;
按照所述访问活跃时间段分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
6.如权利要求5所述的方法,其特征在于,在对所述终端访问行为的历史数据采用主题模型进行主题分类之前,所述方法还包括:
根据所有终端访问行为的历史数据,对所述主题模型进行训练。
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息,包括:
确定每个待推送业务信息的主题信息与所述兴趣标签的相似度;
向所述终端推送所述相似度大于预设值的待推送业务信息。
8.一种终端推送装置,其特征在于,所述装置包括:
第一确定单元,用于在终端访问网站时,根据所述终端的地址信息以及当前时间确定所述终端在当前时间所属的访问活跃时间段;
第二确定单元,用于根据确定的所述终端在当前时间所属的访问活跃时间段,确定与所述访问活跃时间段对应的兴趣标签;
业务信息推送单元,用于根据所述兴趣标签向所述终端推送与所述兴趣标签相关的业务信息。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
历史数据获取单元,用于获取所述终端访问行为的历史数据;
第三确定单元,用于将所述历史数据按照相似访问行为进行聚类处理,根据聚类处理后的各类相似访问行为的时间分布,确定所述终端对应的多个访问活跃时间段;
第四确定单元,用于根据所述终端访问行为的历史数据,分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
10.如权利要求9所述的装置,其特征在于,所述历史数据获取单元,具体用于获取所述终端的网关日志,并在所述网关日志中提取统一资源定位符;根据所述统一资源定位符进行爬虫处理后,获得所述终端访问行为的历史数据。
11.如权利要求9所述的装置,其特征在于,所述第三确定单元,具体用于将属于各类相似访问行为的时间分布中的部分时间段作为该类相似访问行为对应的访问活跃时间段。
12.如权利要求9所述的装置,其特征在于,所述第四确定单元,具体用于对所述终端访问行为的历史数据采用主题模型进行主题分类,并将主题分类得到的各兴趣关键词作为所述兴趣标签;按照所述访问活跃时间段分别确定在各所述访问活跃时间段内所述终端的兴趣标签。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
主题模型训练单元,用于根据所有终端访问行为的历史数据,对所述主题模型进行训练。
14.如权利要求8至13任一项所述的装置,其特征在于,所述业务信息推送单元,具体用于确定每个待推送业务信息的主题信息与所述兴趣标签的相似度;向所述终端推送所述相似度大于预设值的待推送业务信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204189.5A CN107291755B (zh) | 2016-04-01 | 2016-04-01 | 一种终端推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204189.5A CN107291755B (zh) | 2016-04-01 | 2016-04-01 | 一种终端推送方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291755A true CN107291755A (zh) | 2017-10-24 |
CN107291755B CN107291755B (zh) | 2020-08-14 |
Family
ID=60086991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610204189.5A Active CN107291755B (zh) | 2016-04-01 | 2016-04-01 | 一种终端推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291755B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109768869A (zh) * | 2017-11-06 | 2019-05-17 | 中国移动通信有限公司研究院 | 一种业务预测方法、系统和计算机存储介质 |
CN109788056A (zh) * | 2019-01-10 | 2019-05-21 | 四川新网银行股份有限公司 | 基于聚类分析的用户主题消息推送方法及系统 |
CN111191109A (zh) * | 2018-11-15 | 2020-05-22 | 中国移动通信集团有限公司 | 一种信息处理方法及装置、存储介质 |
CN113177160A (zh) * | 2021-05-25 | 2021-07-27 | 上海众源网络有限公司 | 一种推送文案生成方法、装置、电子设备及存储介质 |
CN113393286A (zh) * | 2021-04-16 | 2021-09-14 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法及装置、存储介质 |
CN113486244A (zh) * | 2021-07-14 | 2021-10-08 | 深圳市点购电子商务控股股份有限公司 | 一种用户兴趣的探索方法和装置 |
CN113961798A (zh) * | 2021-09-26 | 2022-01-21 | 深圳市铠硕达科技有限公司 | 云平台数据管理方法及系统 |
CN115378827A (zh) * | 2022-08-04 | 2022-11-22 | 银联智惠信息服务(上海)有限公司 | 互联网协议地址分析方法及装置、服务器、存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866341A (zh) * | 2009-04-17 | 2010-10-20 | 华为技术有限公司 | 一种信息推送方法、装置及系统 |
CN102440009A (zh) * | 2009-03-09 | 2012-05-02 | 佐科姆有限公司 | 提供生活观察的移动终端和方法以及具有数据分析、分发以及终端指导特征的相关服务器布置和方法 |
CN103235826A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 一种时间窗口的调节方法 |
CN103246725A (zh) * | 2013-05-06 | 2013-08-14 | 上海河广信息科技有限公司 | 一种基于无线网络的数据业务推送系统和方法 |
US8572165B2 (en) * | 2011-07-08 | 2013-10-29 | Sony Corporation | Collaborative filtering of content |
CN104008184A (zh) * | 2014-06-10 | 2014-08-27 | 百度在线网络技术(北京)有限公司 | 信息的推送方法和装置 |
CN104750792A (zh) * | 2015-03-12 | 2015-07-01 | 百度在线网络技术(北京)有限公司 | 一种用户特征的获取方法及装置 |
CN104991973A (zh) * | 2015-07-31 | 2015-10-21 | 网易传媒科技(北京)有限公司 | 一种用户兴趣领域的确定方法和设备 |
CN105095219A (zh) * | 2014-04-23 | 2015-11-25 | 华为技术有限公司 | 微博推荐方法和终端 |
-
2016
- 2016-04-01 CN CN201610204189.5A patent/CN107291755B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102440009A (zh) * | 2009-03-09 | 2012-05-02 | 佐科姆有限公司 | 提供生活观察的移动终端和方法以及具有数据分析、分发以及终端指导特征的相关服务器布置和方法 |
CN101866341A (zh) * | 2009-04-17 | 2010-10-20 | 华为技术有限公司 | 一种信息推送方法、装置及系统 |
US8572165B2 (en) * | 2011-07-08 | 2013-10-29 | Sony Corporation | Collaborative filtering of content |
CN103235826A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 一种时间窗口的调节方法 |
CN103246725A (zh) * | 2013-05-06 | 2013-08-14 | 上海河广信息科技有限公司 | 一种基于无线网络的数据业务推送系统和方法 |
CN105095219A (zh) * | 2014-04-23 | 2015-11-25 | 华为技术有限公司 | 微博推荐方法和终端 |
CN104008184A (zh) * | 2014-06-10 | 2014-08-27 | 百度在线网络技术(北京)有限公司 | 信息的推送方法和装置 |
CN104750792A (zh) * | 2015-03-12 | 2015-07-01 | 百度在线网络技术(北京)有限公司 | 一种用户特征的获取方法及装置 |
CN104991973A (zh) * | 2015-07-31 | 2015-10-21 | 网易传媒科技(北京)有限公司 | 一种用户兴趣领域的确定方法和设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109768869A (zh) * | 2017-11-06 | 2019-05-17 | 中国移动通信有限公司研究院 | 一种业务预测方法、系统和计算机存储介质 |
CN111191109A (zh) * | 2018-11-15 | 2020-05-22 | 中国移动通信集团有限公司 | 一种信息处理方法及装置、存储介质 |
CN109788056A (zh) * | 2019-01-10 | 2019-05-21 | 四川新网银行股份有限公司 | 基于聚类分析的用户主题消息推送方法及系统 |
CN113393286A (zh) * | 2021-04-16 | 2021-09-14 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法及装置、存储介质 |
CN113177160A (zh) * | 2021-05-25 | 2021-07-27 | 上海众源网络有限公司 | 一种推送文案生成方法、装置、电子设备及存储介质 |
CN113177160B (zh) * | 2021-05-25 | 2024-04-23 | 上海众源网络有限公司 | 一种推送文案生成方法、装置、电子设备及存储介质 |
CN113486244A (zh) * | 2021-07-14 | 2021-10-08 | 深圳市点购电子商务控股股份有限公司 | 一种用户兴趣的探索方法和装置 |
CN113961798A (zh) * | 2021-09-26 | 2022-01-21 | 深圳市铠硕达科技有限公司 | 云平台数据管理方法及系统 |
CN115378827A (zh) * | 2022-08-04 | 2022-11-22 | 银联智惠信息服务(上海)有限公司 | 互联网协议地址分析方法及装置、服务器、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107291755B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
WO2019095417A1 (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN102708131B (zh) | 将消费者自动分类到微细分中 | |
WO2022033199A1 (zh) | 一种获得用户画像的方法及相关装置 | |
CN106997549A (zh) | 一种广告信息的推送方法及系统 | |
CN106940705A (zh) | 一种用于构建用户画像的方法与设备 | |
US20110113095A1 (en) | System and Method For Value Significance Evaluation of Ontological Subjects of Networks and The Applications Thereof | |
CN104254851A (zh) | 用于向用户推荐内容的方法和系统 | |
CN112989038B (zh) | 句子级用户画像生成方法、装置及存储介质 | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN112115712B (zh) | 基于话题的群体情感分析方法 | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
CN108280081B (zh) | 生成网页的方法和装置 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 | |
CN112182390B (zh) | 一种函件推送方法、装置、计算机设备及存储介质 | |
CN112084406B (zh) | 短信处理方法、装置、电子设备和存储介质 | |
Lei et al. | Personalized Item Recommendation Algorithm for Outdoor Sports | |
CN108153785B (zh) | 生成展示信息的方法和装置 | |
CN104462241A (zh) | 基于url中锚文字和周边文本的人口属性分类方法及装置 | |
Kae et al. | Categorization of display ads using image and landing page features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |