CN103235823A - 根据相关网页和当前行为确定用户当前兴趣的方法和系统 - Google Patents
根据相关网页和当前行为确定用户当前兴趣的方法和系统 Download PDFInfo
- Publication number
- CN103235823A CN103235823A CN2013101628704A CN201310162870A CN103235823A CN 103235823 A CN103235823 A CN 103235823A CN 2013101628704 A CN2013101628704 A CN 2013101628704A CN 201310162870 A CN201310162870 A CN 201310162870A CN 103235823 A CN103235823 A CN 103235823A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- current
- web page
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,包括步骤:对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,得到用户当前兴趣,实现数据业务的定向推送,提高数据业务推送的可信度,提高用户喜好度。
Description
技术领域
本发明涉及一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法和系统,用于针对用户兴趣偏好推送数据业务领域。
背景技术
数据业务推送在2011年开始了全面的绽放,行业内涌现出众多机构,数据业务推送也从第一阶段的网站组合(媒体选择很重要,根据媒体的受众特点进行组合和选择),到第二阶段上下文定向(内容优化很重要,根据内容吸引受众的类型进行组合),再到现在第三个阶段以人群定向技术为核心的人群定向推送方式转变,更着重于对人群的识别。此外,基于位置的数据业务推送在另外一个维度上发展和成熟。
本发明的目的在于根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣,实现数据业务的定向推送,提高数据业务推送的可信度,提高用户喜好度。
发明内容
本发明提供一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,包括步骤:对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;对用户当前的兴趣类 别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
其中,获得用户当前行为特征的步骤包括:统计短信行为;统计通信行为;统计上网行为;通过PCA方法对用户行为特征进行删减;确定用户当前行为特征。
另外,获取用户当前内容兴趣的步骤包括:获取相应关键词及其索引;计算用户对关键词的关注度;根据关注度阈值,获取用户的兴趣偏好。
优选的,获取相应关键词的步骤包括:
①对全文进行分词处理,即中文词间象英文一样用空格分开;
②过滤掉停用词;
③提取文本标题,将标题词集存入向量Vh;
④提取文本第一段、第二段、末段,将内容词集存入向量Vc;
⑤如果|Vh∩Vc|<P,则判断文本标题为“抽象型”标题,其中,P为一个给定阈值,根据实验确定为3;
⑦如果标题无(5)或(6)中特征,则判断其为“具体型”标题;
对于“抽象型”的标题,采用TFIDF方法在全文中查找权值高于一定阈值的词作为候选词,然后通过候选词所在的位置判断该词是否为关键字,所在句子的权值越高,成为关键字的可能性越大,对与“具体型”标题,将标题分词后,得到的名词和动词就为该文本的关键字, 计算句子权重时,赋予标题词列表中的词更大的权重比例因子,通过以上方法,能够获得每个句子的权重,能够计算出每个句子的权值,而且更新了关键词列表的权重,每个文章对应的关键词链表按权重排序即为该文的关键词。
此外,计算用户对关键词的关注度的步骤包括:
将相同类属A下所有主题向量中的关键词加入到此类属下的关键词列表K中;
将相同类属下关键词添加过程中出现的重复关键词归一,重复关键词触发了候选相似主题的聚集,并将该词所属的所有网页归并到一起组成一个候选相似主题组;
对于每个重复关键词所在的候选相似主题组,比较该词在这组主题向量中的原始权值,找出权值最大者所在的主题向量作为这一组主题向量的核心主题代表(并将之加入到K中);
计算核心主题与所在候选相似主题组中每个主题向量的相似度,设定一个阈值,所有超出域值者加入到主题组Ki中形成相似主题组Ki组,也即形成了一个话题Ki;
以前面所找出的核心主题作为话题Ki的代表,将话题Ki中所有主题向量所在主题的频度叠加将为调整后的核心主题热度,将调整后的核心主题加入到候选热点主题列表中;
根据前面所述的热度计量方法计算出K中每一个主题的关注度。
另外,得到用户当前兴趣的步骤包括:针对同一个训练集,训练不同的分类器,即决策树弱分类器,然后把这些决策树弱分类器集合起来,构成一个更强的最终分类器,形成用户兴趣的最终分类,采用 AdaBoost算法对用户行为分类器和用户内容兴趣分类器的结果进行迭代调整,获得不同决策树弱分类器的权重,进而获得用户当前兴趣。
本发明还提供一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的系统,包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,行为信息分析子模块对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;内容信息分析子模块对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
附图说明
图1是一种移动终端通过无线网关浏览页面的系统结构图;
图2是一种在移动服务器上通过无线网关实时获取移动终端用户兴趣偏好的方法;
图3是本发明时间窗口调节和网页数据分类统计模块的操作流程图;
图4是本发明网页分类/内容信息处理子模块的操作流程图;
图5a是本发明构建网页文本分类器的方法;
图5b是本发明网页文本分类器的使用方法;
图6是本发明用户内容兴趣提取子模块操作流程图;
图7是本发明的用户兴趣偏好的示例性树状结构;
图8为数据业务推送模块操作流程图;
图9是本发明位置分析模块操作流程图;
图10是本发明位置信息关联流程图。
具体实施方式
以下参照附图1~10进一步说明本发明的根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法和系统以及其适用的数据推送业务实施例。
图1是移动终端通过如WAP网关的无线网关浏览页面的系统结构图。
本发明提供一种基于无线网络的数据业务推送系统,其通过无线网关获得用户使用如手机的移动终端的日志信息后,对当前一段时间范围内用户使用手机行为进行过滤处理,获得用户行为特征,使用户对内容的兴趣和行为习惯结合形成用户的兴趣偏好,并与移动终端的位置信息实时关联起来,向移动终端进行信息推送,所述系统由图1中虚线框所标记的部分示出,包括时间窗口调节和网页数据分类统计模块、用户兴趣提取模块、数据业务推送模块和位置分析模块,其中:
时间窗口调节和网页数据分类统计模块从无线网关接收浏览页面的URL,对当前一段时间范围内用户浏览网页进行过滤处理,获得用户感兴趣的相关网页和用户行为特征;
用户兴趣提取模块包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,
行为信息分析子模块根据用户行为特征,对时间序列进行统计和筛选、降维,形成用户行为兴趣,输出为用户当前行为兴趣,
内容信息分析子模块根据用户感兴趣的相关网页的URL地址,对网页内容进行文本处理,提取网页主题,并根据所述的网页主题和网 页其他属性信息,形成用户内容兴趣,输出为用户当前内容兴趣,
集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,输出为用户当前兴趣;
位置分析模块通过GMLC网关获得用户当前的浏览位置信息;
数据业务推送模块根据用户兴趣提取模块输出的当前用户兴趣,利用规则关联策略,判断是否可以进行本地化信息推送服务;对不符合本地化服务特点的当前用户兴趣,服务推送模块将其与对应的预推送信息进行匹配,根据匹配结果选取匹配度最高的推送信息;对符合本地化服务特点的当前用户兴趣,根据来自位置分析模块的用户当前的浏览位置信息,获得位置关联信息,再利用匹配策略,将用户当前兴趣与位置关联信息进行匹配,并根据匹配结果选择匹配度最高的位置关联信息作为推送信息,向移动终端进行推送。
其中所述无线网关包括WAP GW、增强GGSN、独立综合网关等设备,在后面的说明中,以常见的WAP GW为例介绍整个发明的内容。
其中浏览页面由网络中的sp/cp服务器提供,移动终端通过无线网关访问这些页面。
本发明提供一种基于无线网络的数据业务推送方法,如图2所示,其通过无线网关获得用户使用如手机的移动终端的日志信息后,对当前一段时间范围内用户使用手机行为进行过滤处理,获得用户行为特征,使用户对内容的兴趣和行为习惯结合形成用户的兴趣偏好,并与移动终端的位置信息实时关联起来,向移动终端进行信息推送,包括:
从无线网关接收浏览页面的URL,对当前一段时间范围内用户浏览网页进行过滤处理,获得用户感兴趣的相关网页和用户行为特征;
根据用户行为特征,对时间序列进行统计和筛选、降维,形成用户行为兴趣,作为用户当前行为兴趣,根据用户感兴趣的相关网页的URL地址,对网页内容进行文本处理,提取网页主题,并根据所述的网页主题和网页其他属性信息,形成用户内容兴趣,作为用户当前内容兴趣,根据上述用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,作为用户当前兴趣;
通过GMLC网关获得用户当前的浏览位置信息;
根据当前用户兴趣,利用规则关联策略,判断是否可以进行本地化信息推送服务;对不符合本地化服务特点的当前用户兴趣,将其与对应的预推送信息进行匹配,根据匹配结果选取匹配度最高的推送信息;对符合本地化服务特点的当前用户兴趣,根据用户当前的浏览位置信息,获得位置关联信息,再利用匹配策略,将用户当前兴趣与位置关联信息进行匹配,并根据匹配结果选择匹配度最高的位置关联信息作为推送信息,向移动终端进行推送。
时间窗口调节和网页数据分类统计模块包括时间窗口调节子模块和网页数据分类统计子模块,网页数据分类统计子模块包括行为信息统计子模块和网页分类子模块。图3是时间窗口调节和网页数据分类统计模块的操作流程图。
时间窗口调节子模块执行时间窗口调节方法,根据用户的上网速度和习惯,确定和调节时间窗口,反映用户当前时间段的集中兴趣。
为了获得用户感兴趣的相关网页和用户行为特征,所述系统需要对当前一段时间范围内用户浏览网页进行过滤处理,现有技术中需要统计处理的时间范围区间通常是固定值,如对用户在一个较长时间段 内的兴趣偏好做处理,如一天、一月甚至一年,这样的处理虽然在分析用户兴趣方面比较全面和准确,但是分析的网页内容庞大,实时性较差,或以单个上网行为或者单个浏览网页为触发条件,上一次网或浏览一个网页做一次推荐,这样虽然是实时推荐,但是系统会返回太多的推荐内容,增加了无线通信网络的负担,也降低了用户体验的趣味。
基于现有技术的上述问题,本发明采用了一中时间窗口的调节方法,能够兼顾用户长期兴趣偏好和短时兴趣偏好,在两者间进行调节和控制,通过调节时间窗口来控制获取网页的数量,调节时间窗口的大小达到实时的效果,更为及时和准确。
所述时间窗口的调节方法可由时间窗口调节子模块执行。
该方法的目的是以用户当前上网时间为开始,以一个符合用户上网速度和习惯的时间范围为基准,分析在该时间范围内用户通过上网反映出来的兴趣类别。
所述时间窗口的调节方法根据用户不同的上网速度和习惯,设定时间窗口的初始设定时间值,之后时间窗口的设定时间随着用户的上网习惯而进行自动调节,步骤为:
一定时间周期后,再次计算用户在一个新的时间段内的上网密 度,
设定时间值为:
其中,α大小可调,在一个较长时间后统计上网数量总量,根据上述公式对α进行调整。
网页数据分类处理子模块包括行为信息处理子模块和网页分类/内容信息处理子模块,对行为信息和网页分类/内容信息进行处理,获得用户感兴趣的相关网页和用户行为特征。
行为信息处理子模块包括短信行为统计子模块、通信行为统计子模块、上网行为统计子模块、通过PCA方法对用户行为特征进行删减的子模块、以及用户当前行为特征确定子模块。其根据在上述时间窗口内获取的浏览网页,对用户上述行为进行时间统计,得到用户的行为特征。
行为信息处理子模块的操作步骤为:统计短信行为;统计通信行为;统计上网行为;通过PCA方法对用户行为特征进行删减;确定用户当前行为特征。
网页分类/内容信息处理子模块包括网页文本获取子模块、网页文本分类子模块、访问频度统计子模块、以及用户当前内容兴趣确定子模块。其对上述时间窗口内,用户浏览的网页进行过滤处理,得到一组相关网页,根据访问网页的URL地址,获得页面的文本内容,对文本内容进行分类处理;对每个类进行访问频度统计,以访问频度值最高的网页集为用户感兴趣的相关网页。图4是网页分类/内容信息处理子模块的操作流程图。
网页分类/内容信息处理子模块的操作步骤为:获取网页文本; 网页文本分类;统计访问频度;确定用户感兴趣的相关网页。
网页文本获取子模块对输入的URL地址,去除掉无用网页和某些无法访问的网页,对经过筛选剩下的URL地址进行链接,提取标题和文本信息。
一篇网页源文件的文字信息分布一般如下:
其中链接4,链接5既是链接信息,也是正文信息。
通过格式解析,匹配<title>获得标题信息;去除掉无用的链接信息,获得正文和有用的链接信息,如正文1,链接4,正文2,链接5,正文3。
网页文本获取子模块输出网页的标题和正文信息给网页文本分类子模块。
网页文本分类子模块按照预先定义的主题类别,为网页文档集合的每个网页文档确定一个类别,网页的主题类别如体育、餐饮、IT、房地产、汽车、旅游等。图5a为构建网页文本分类器的方法;图5b为网页文本分类器的使用方法。
网页分类器包括以下两部分:
网页分类器的构建和训练部分,其输入为训练文本集,通过文本表示和特征选择,根据特征词库构建分类器模型,输出为类似于树形结构的分类规则集,如图5a所示;
网页分类器的训练过程即对训练样本不断分组,通过建立目标变量关于各个输入变量的分类预测模型,全面实现输入变量和目标变量不同取值下的数据分组,进而用于对新数据对象的分类和预测。
分类器的训练过程步骤为:在决策树各级结点上选择属性时候,用增益比率作为属性的选择标准。
网页分类器分类部分,其输入为经过文本预处理模块处理过的待分类文本(网页文档对象),通过文本表示,根据特征词库进行特征选择,与训练所生成的分类器模型的分类规则进行文本分类,输出为各文本所属类别信息,如图5b所示。
网页分类器使用决策树分类方法,其步骤为:
①将测试样本表达成和训练样本同样的形式;
②t←决策树根结点;
③取决策树结点t的测试属性和阈值,将待测试样本对应特征的值与之比较,然后根据t结点分裂的标准决定是
t←t的左孩子or t←t的右孩子;
④递归执行⑶,直到t为叶子结点;
⑤测试样本的类别为叶子t代表的类别。
文本表示步骤中,采用特征向量空间表示文本特征,文档i可以表示成如下公式的特征向量:
Wij=(Wi1,Wi2,...,Wim)
其中,Wij为词条j在文档i中出现频率fij的函数,直接使用词条在文档的出现频率作为特征值,计算公式为:
Wij=fij
特征选择步骤中,采用基于改进的χ2统计量和模式聚合的特征降维方法,步骤为:
⑴根据公式
⑶为比较各个模式对各类分类贡献比例是否一致,首先将每个模式的改进统计量统一处理到[-1,1]之间,处理方式如下:
其中max、min分别为模式i的改进χ2统计量的最大值和最小值;
⑷采用简单的聚类算法,根据A对模式进行聚类(A的每行表示一个模式),同一类的模式聚合为一个新的模式,这样将得到L个新模式,其中L远小于M,采用凝聚的层次法进行聚类,距离测量采用最常用的欧氏距离,如下:
将欧氏距离d(i,j)小于一定阈值的模式进行聚类,聚类的过程为:
①根据矩阵A计算出距离小于阈值的模式,对其进行聚类;
②聚类之后,每类中的模式合并为一个模式,此模式包括这个类中的全部词条,其词频就是这些词条的词频之和,重新计算新模式的改进统计量,根据新模式重新形成矩阵A;
重复①、②两个步骤,直到所有模式不能聚合为止;
⑸重新计算每个特征项的CHI值,根据CHI值大小选择前L′个特征项。
用户兴趣提取模块包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,
行为信息分析子模块根据用户行为特征,对时间序列进行统计和筛选、降维,形成用户行为兴趣,输出为用户当前行为兴趣,
内容信息分析子模块根据用户感兴趣的相关网页的URL地址,对 网页内容进行文本处理,提取网页主题,并根据所述的网页主题和网页其他属性信息,形成用户内容兴趣,输出为用户当前内容兴趣,
集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,输出为用户当前兴趣。
用户兴趣分为行为兴趣与内容兴趣两个部分,分别用行为信息分析子模块和用户内容兴趣分析子模块来提取,最后由集成学习子模块集成。
用户使用行为分析子模块:对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣。
用户内容兴趣提取子模块:对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣,步骤为:
(1)获取相应关键词及其索引;
(2)计算用户对关键词的关注度;
(3)根据关注度阈值,获取用户当前内容兴趣。
关键词获取过程包括:
①对全文进行分词处理(即中文词间象英文一样用空格分开,便于处理);
②过滤掉停用词(它是有较少语义含义的词,如虚词和一些高频词。停用词由于出现在很多文件里,故对信息分析没什么贡献);
③提取文本标题,将标题词集存入向量Vh;
④提取文本第一段、第二段、末段,将内容词集存入向量Vc;
⑤如果|Vh∩Vc|<P,则判断文本标题为“抽象型”标题。其中,P为一个给定阈值,根据实验确定为3;
⑦如果标题无(5)或(6)中特征,则判断其为“具体型”标题;
对于“抽象型”的标题,采用TFIDF方法在全文中查找权值高于一定阈值的词作为候选词,然后通过候选词所在的位置判断该词是否为关键字(所在句子的权值越高,成为关键字的可能性越大)。
对与“具体型”标题,将标题分词后,得到的名词和动词就为该文本的关键字。计算句子权重时,赋予标题词列表中的词更大的权重比例因子。
通过以上方法,能够获得每个句子的权重,能够计算出每个句子的权值,为后面的时间提取提供依据,而且更新了关键词列表的权重,每个文章对应的关键词链表按权重排序即为该文的关键词。
关注度计算:通过对用户的每个浏览内容信息和浏览行为信息进行分析,就可以定量的计算出用户对每个兴趣主题的关注度。计算步骤包括:
①将相同类属A下所有主题向量中的关键词加入到此类属下的关键词列表K中;
②将相同类属下关键词添加过程中出现的重复关键词归一,重复关键词触发了候选相似主题的聚集,并将该词所属的所有网页归并到一起组成一个候选相似主题组;
③对于每个重复关键词所在的候选相似主题组,比较该词在这组主题向量中的原始权值,找出权值最大者所在的主题向量作为这一组主题向量的核心主题代表(并将之加入到K中);
④计算核心主题与所在候选相似主题组中每个主题向量的相似度,设定一个阈值,所有超出域值者加入到主题组Ki中形成相似主题组Ki组,也即形成了一个话题Ki;
⑤以前面所找出的核心主题作为话题Ki的代表,将话题Ki中所有主题向量所在主题的频度叠加将为调整后的核心主题热度,将调整后的核心主题加入到候选热点主题列表中;
⑥根据前面所述的热度计量方法计算出K中每一个主题的关注度;
集成学习子模块是针对同一个训练集,训练不同的分类器,即决策树弱分类器,然后把这些决策树弱分类器集合起来,构成一个更强的最终分类器,形成用户兴趣的最终分类,采用AdaBoost算法对用户行为分类器和用户内容兴趣分类器的结果进行迭代调整,获得不同决策树弱分类器的权重,进而获得用户当前兴趣。
用户兴趣偏好包括兴趣项、兴趣类别、关注度和产生时间;在具体实施中,可以将用户的兴趣偏好表示成树状的结构形式,树状结构的上层表示兴趣偏好的类型,下层表示是兴趣子类或者主题。用树状结构既可以保存用户的兴趣类型信心,也可以保存用户兴趣特征词的信息。图7是本发明的用户兴趣偏好的示例性树状结构。
数据业务推送模块:所述利用规则关联策略,判断所述用户兴趣和偏好是否适合本地服务,如满足做本地服务的条件,则触发位置分 析模块获取当前浏览位置;否则,做一般的内容关联信息推送服务。
本地服务的判断条件可以为:
(1)用户当前浏览的网站类别,如城市版的餐饮、购物、住宿、交通网站或增值业务提供商的服务系统等。
(2)用户当前兴趣的类别,如天气、查询交通、预定票务、折扣、旅游经典、特色产品等。
以上判断条件可以组合,如用户当前浏览的网站是某城市版的搜房网站,并且浏览网页反映的兴趣是租房,则可以适合本地化服务推荐。
位置分析模块通过GMLC网关获取当前浏览位置,即用户在浏览当前网页时所处的地理位置。图9是本发明的位置分析模块操作流程图。
其中,在所述位置分析模块向服务推送模块发送位置信息之前还包括所述位置分析模块基于所述获得的浏览位置信息定制与所述移动终端用户所处位置相关联的URL或URL页面内容的步骤。图10是本发明位置信息关联的流程图。
位置关联信息库:记录在地理上相同或相近的地点提供的服务信息或者地点属性信息等,如:
位置搜索匹配:将用户兴趣偏好、用户位置信息和对应的位置关联信息进行匹配的过程,具体包括:
(1)将用户当前位置信息作为查询关键字,进行位置关联查询,获得与作为关键字输入一致的位置信息记录;
(2)将用户当前兴趣偏好的类别和位置关联信息中的提供服务信息进行匹配,计算匹配度,若匹配度超出某一阈值,则输出该位置关联信息;
1.若匹配结果较多,则将用户当前兴趣偏好的主题和位置关联信息中的提供服务信息进行匹配,计算匹配度
2.根据匹配度进行排序;
3.输出匹配度超出阈值的位置信息。
(3)否则,将用户位置信息中的核心位置作为查询关键字,进行位置关联查询,获得与作为关键字输入一致的位置信息记录,转(2);
以上步骤是在与用户当前所处位置相同或相近的位置分析和位置关联。
如果以上信息的匹配度都低于设定的阈值,则说明在用户当前位置没有合适兴趣偏好的场所或者服务。因此,需要根据其兴趣和偏好找到适合的场所或者服务。
目标位置分析:目标位置为最匹配用户兴趣和偏好的信息包含地址或发生地点,过程包括:
(1)将用户当前兴趣偏好的主题作为查询关键字,进行位置关联查询,获得与作为关键字输入一致的位置信息记录,输出该位置关联信息;
(2)若无一致的位置信息记录,则计算用户当前兴趣偏好的主题和位置关联信息中的提供服务信息的匹配度,
1.根据匹配度进行排序;
2.输出匹配度超出阈值的位置信息。
(3)将输出的位置信息传递给路线推荐单元。
路线推荐单元包括:
(1)推荐路线生成单元,用于计算和选择路线数据;
(2)输出路线数据,从而生成在从出发地向目的地移动时推荐的推荐路线;
(3)显示单元,用于显示显示信息。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:本领域技术人员可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (7)
1.一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:包括步骤:
对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;
对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;
根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
2.如权利要求1所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获得用户当前行为特征的步骤包括:统计短信行为;统计通信行为;统计上网行为;通过PCA方法对用户行为特征进行删减;确定用户当前行为特征。
3.如权利要求1或2所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获取用户当前内容兴趣的步骤包括:
获取相应关键词及其索引;
计算用户对关键词的关注度;
根据关注度阈值,获取用户的兴趣偏好。
4.如权利要求3所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获取相应关键词的步骤包括:
①对全文进行分词处理,即中文词间象英文一样用空格分开;
②过滤掉停用词;
③提取文本标题,将标题词集存入向量Vh;
④提取文本第一段、第二段、末段,将内容词集存入向量Vc;
⑤如果|Vh∩Vc|<P,则判断文本标题为“抽象型”标题,其中,P为一个给定阈值,根据实验确定为3;
⑦如果标题无(5)或(6)中特征,则判断其为“具体型”标题;
对于“抽象型”的标题,采用TFIDF方法在全文中查找权值高于一定阈值的词作为候选词,然后通过候选词所在的位置判断该词是否为关键字,所在句子的权值越高,成为关键字的可能性越大,
对与“具体型”标题,将标题分词后,得到的名词和动词就为该文本的关键字,计算句子权重时,赋予标题词列表中的词更大的权重比例因子,
通过以上方法,能够获得每个句子的权重,能够计算出每个句子的权值,而且更新了关键词列表的权重,每个文章对应的关键词链表按权重排序即为该文的关键词。
5.如权利要求3所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:计算用户对关键词的关注度的步骤包括:
将相同类属A下所有主题向量中的关键词加入到此类属下的关键词列表K中;
将相同类属下关键词添加过程中出现的重复关键词归一,重复关键词触发了候选相似主题的聚集,并将该词所属的所有网页归并到一起组成一个候选相似主题组;
对于每个重复关键词所在的候选相似主题组,比较该词在这组主题向量中的原始权值,找出权值最大者所在的主题向量作为这一组主题向量的核心主题代表(并将之加入到K中);
计算核心主题与所在候选相似主题组中每个主题向量的相似度,设定一个阈值,所有超出域值者加入到主题组Ki中形成相似主题组Ki组,也即形成了一个话题Ki;
以前面所找出的核心主题作为话题Ki的代表,将话题Ki中所有主题向量所在主题的频度叠加将为调整后的核心主题热度,将调整后的核心主题加入到候选热点主题列表中;
根据前面所述的热度计量方法计算出K中每一个主题的关注度。
6.如权利要求1、2、4和5之一所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:得到用户当前兴趣的步骤包括:针对同一个训练集,训练不同的分类器,即决策树弱分类器,然后把这些决策树弱分类器集合起来,构成一个更强的最终分类器,形成用户兴趣的最终分类,采用AdaBoost算法对用户行为分类器和用户内容兴趣分类器的结果进行迭代调整,获得不同决策树弱分类器的权重,进而获得用户当前兴趣。
7.一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的系统,其特征在于:包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,
行为信息分析子模块对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;
内容信息分析子模块对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;
集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101628704A CN103235823A (zh) | 2013-05-06 | 2013-05-06 | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101628704A CN103235823A (zh) | 2013-05-06 | 2013-05-06 | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103235823A true CN103235823A (zh) | 2013-08-07 |
Family
ID=48883864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101628704A Pending CN103235823A (zh) | 2013-05-06 | 2013-05-06 | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103235823A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103686599A (zh) * | 2013-09-30 | 2014-03-26 | 周岩 | 为智能终端提供应用的方法及系统 |
CN103746895A (zh) * | 2013-10-29 | 2014-04-23 | 广州华多网络科技有限公司 | 通讯用户间关注度的处理方法和系统 |
CN104423945A (zh) * | 2013-08-30 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104951551A (zh) * | 2015-06-26 | 2015-09-30 | 深圳市腾讯计算机系统有限公司 | 一种数据分类方法及系统 |
CN105786467A (zh) * | 2014-12-25 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 生成图面的方法及装置 |
CN105812846A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 网络视频的获取方法及装置 |
CN105824884A (zh) * | 2016-03-10 | 2016-08-03 | 海信集团有限公司 | 一种用户上网信息处理方法及装置 |
CN105897466A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN106156259A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种用户行为信息展示方法及系统 |
CN106294534A (zh) * | 2016-07-18 | 2017-01-04 | 中国银联股份有限公司 | 一种用户兴趣匹配推送系统及用户兴趣匹配推送方法 |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
CN106372113A (zh) * | 2016-08-22 | 2017-02-01 | 上海亿账通互联网科技有限公司 | 新闻内容的推送方法及系统 |
CN106790570A (zh) * | 2016-12-27 | 2017-05-31 | 山东开创云软件有限公司 | 一种消费者行为分析管理系统及其分析方法 |
WO2017107026A1 (en) * | 2015-12-21 | 2017-06-29 | Zhaohui Zheng | Method and system for exploring a personal interest space |
CN107301188A (zh) * | 2016-04-15 | 2017-10-27 | 北京搜狗科技发展有限公司 | 一种获取用户兴趣的方法及电子设备 |
CN107579866A (zh) * | 2017-10-25 | 2018-01-12 | 重庆电子工程职业学院 | 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法 |
CN107608980A (zh) * | 2016-07-11 | 2018-01-19 | 中国电信股份有限公司 | 基于dpi大数据分析的信息推送方法和系统 |
WO2018090545A1 (zh) * | 2016-11-15 | 2018-05-24 | 平安科技(深圳)有限公司 | 融合时间因素的协同过滤方法、装置、服务器和存储介质 |
CN108182255A (zh) * | 2017-12-29 | 2018-06-19 | 重庆金融资产交易所有限责任公司 | 产权项目信息推荐方法、装置、存储介质和计算机设备 |
CN108259546A (zh) * | 2017-01-16 | 2018-07-06 | 广州市动景计算机科技有限公司 | 消息推送方法、设备及可编程设备 |
CN108446333A (zh) * | 2018-02-22 | 2018-08-24 | 睦沃数据科技(苏州)有限公司 | 一种大数据文本挖掘处理系统及其方法 |
CN108771526A (zh) * | 2018-05-31 | 2018-11-09 | 佛山市顺德区美的洗涤电器制造有限公司 | 洗涤方法、洗碗机及计算机可读存储介质 |
CN108874812A (zh) * | 2017-05-10 | 2018-11-23 | 腾讯科技(北京)有限公司 | 一种数据处理方法及服务器、计算机存储介质 |
CN109214417A (zh) * | 2018-07-25 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 用户意图的挖掘方法及装置、计算机设备及可读介质 |
CN110737750A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 分析文本受众的数据处理方法、装置与电子设备 |
CN110992215A (zh) * | 2019-12-10 | 2020-04-10 | 浙江力石科技股份有限公司 | 基于语义分析的旅游服务推荐系统、数据库和推荐方法 |
CN111028044A (zh) * | 2019-10-22 | 2020-04-17 | 贝壳技术有限公司 | 一种拼租方法、装置、电子设备和存储介质 |
CN111292523A (zh) * | 2018-12-06 | 2020-06-16 | 中国信息通信科技集团有限公司 | 网络智能体系统 |
CN113486235A (zh) * | 2021-05-31 | 2021-10-08 | 杭州摸象大数据科技有限公司 | 用户兴趣识别的方法和系统 |
CN114971817A (zh) * | 2022-07-29 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
US11816586B2 (en) | 2017-11-13 | 2023-11-14 | International Business Machines Corporation | Event identification through machine learning |
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244914A1 (en) * | 2006-04-17 | 2007-10-18 | Kreiner Barrett M | Electronic information feedback |
CN101071424A (zh) * | 2006-06-23 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种个性化信息推送系统和方法 |
CN101866341A (zh) * | 2009-04-17 | 2010-10-20 | 华为技术有限公司 | 一种信息推送方法、装置及系统 |
CN102141986A (zh) * | 2010-01-28 | 2011-08-03 | 北京邮电大学 | 基于用户行为的个性化信息提供方法及系统 |
CN102236867A (zh) * | 2011-08-15 | 2011-11-09 | 悠易互通(北京)广告有限公司 | 基于云计算的受众行为分析广告定向系统 |
-
2013
- 2013-05-06 CN CN2013101628704A patent/CN103235823A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244914A1 (en) * | 2006-04-17 | 2007-10-18 | Kreiner Barrett M | Electronic information feedback |
CN101071424A (zh) * | 2006-06-23 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种个性化信息推送系统和方法 |
CN101866341A (zh) * | 2009-04-17 | 2010-10-20 | 华为技术有限公司 | 一种信息推送方法、装置及系统 |
CN102141986A (zh) * | 2010-01-28 | 2011-08-03 | 北京邮电大学 | 基于用户行为的个性化信息提供方法及系统 |
CN102236867A (zh) * | 2011-08-15 | 2011-11-09 | 悠易互通(北京)广告有限公司 | 基于云计算的受众行为分析广告定向系统 |
Non-Patent Citations (1)
Title |
---|
刘茂旺,林世平: "《BOOSTING算法在多类多标签文本分类中的应用》", 《福建电脑》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104423945A (zh) * | 2013-08-30 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104423945B (zh) * | 2013-08-30 | 2018-10-12 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103686599B (zh) * | 2013-09-30 | 2017-01-25 | 昭文科技(北京)股份有限公司 | 为智能终端提供应用的方法及系统 |
CN103686599A (zh) * | 2013-09-30 | 2014-03-26 | 周岩 | 为智能终端提供应用的方法及系统 |
CN103746895A (zh) * | 2013-10-29 | 2014-04-23 | 广州华多网络科技有限公司 | 通讯用户间关注度的处理方法和系统 |
CN105786467A (zh) * | 2014-12-25 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 生成图面的方法及装置 |
CN105786467B (zh) * | 2014-12-25 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 生成图面的方法及装置 |
CN105812846A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 网络视频的获取方法及装置 |
CN105812846B (zh) * | 2014-12-30 | 2019-02-01 | Tcl集团股份有限公司 | 网络视频的获取方法及装置 |
CN106156259A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种用户行为信息展示方法及系统 |
CN104951551A (zh) * | 2015-06-26 | 2015-09-30 | 深圳市腾讯计算机系统有限公司 | 一种数据分类方法及系统 |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
WO2017107026A1 (en) * | 2015-12-21 | 2017-06-29 | Zhaohui Zheng | Method and system for exploring a personal interest space |
US12001971B2 (en) | 2015-12-21 | 2024-06-04 | Particle Media, Inc. | Method and system for exploring a personal interest space |
US11475338B2 (en) | 2015-12-21 | 2022-10-18 | Particle Media, Inc. | Method and system for exploring a personal interest space |
CN105824884A (zh) * | 2016-03-10 | 2016-08-03 | 海信集团有限公司 | 一种用户上网信息处理方法及装置 |
CN105897466B (zh) * | 2016-03-30 | 2018-10-12 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN105897466A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN107301188A (zh) * | 2016-04-15 | 2017-10-27 | 北京搜狗科技发展有限公司 | 一种获取用户兴趣的方法及电子设备 |
CN107301188B (zh) * | 2016-04-15 | 2020-11-10 | 北京搜狗科技发展有限公司 | 一种获取用户兴趣的方法及电子设备 |
CN107608980A (zh) * | 2016-07-11 | 2018-01-19 | 中国电信股份有限公司 | 基于dpi大数据分析的信息推送方法和系统 |
CN106294534B (zh) * | 2016-07-18 | 2019-12-24 | 中国银联股份有限公司 | 一种用户兴趣匹配推送系统及用户兴趣匹配推送方法 |
CN106294534A (zh) * | 2016-07-18 | 2017-01-04 | 中国银联股份有限公司 | 一种用户兴趣匹配推送系统及用户兴趣匹配推送方法 |
CN106372113A (zh) * | 2016-08-22 | 2017-02-01 | 上海亿账通互联网科技有限公司 | 新闻内容的推送方法及系统 |
CN106372113B (zh) * | 2016-08-22 | 2018-03-20 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法及系统 |
WO2018090545A1 (zh) * | 2016-11-15 | 2018-05-24 | 平安科技(深圳)有限公司 | 融合时间因素的协同过滤方法、装置、服务器和存储介质 |
US10565525B2 (en) | 2016-11-15 | 2020-02-18 | Ping An Technology (Shenzhen) Co., Ltd. | Collaborative filtering method, apparatus, server and storage medium in combination with time factor |
CN106790570A (zh) * | 2016-12-27 | 2017-05-31 | 山东开创云软件有限公司 | 一种消费者行为分析管理系统及其分析方法 |
CN108259546A (zh) * | 2017-01-16 | 2018-07-06 | 广州市动景计算机科技有限公司 | 消息推送方法、设备及可编程设备 |
CN108874812A (zh) * | 2017-05-10 | 2018-11-23 | 腾讯科技(北京)有限公司 | 一种数据处理方法及服务器、计算机存储介质 |
CN108874812B (zh) * | 2017-05-10 | 2021-12-10 | 腾讯科技(北京)有限公司 | 一种数据处理方法及服务器、计算机存储介质 |
CN107579866B (zh) * | 2017-10-25 | 2019-05-10 | 重庆电子工程职业学院 | 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法 |
CN107579866A (zh) * | 2017-10-25 | 2018-01-12 | 重庆电子工程职业学院 | 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法 |
US11816586B2 (en) | 2017-11-13 | 2023-11-14 | International Business Machines Corporation | Event identification through machine learning |
CN108182255B (zh) * | 2017-12-29 | 2020-07-28 | 重庆金融资产交易所有限责任公司 | 产权项目信息推荐方法、装置、存储介质和计算机设备 |
CN108182255A (zh) * | 2017-12-29 | 2018-06-19 | 重庆金融资产交易所有限责任公司 | 产权项目信息推荐方法、装置、存储介质和计算机设备 |
CN108446333B (zh) * | 2018-02-22 | 2022-01-18 | 寇毅 | 一种大数据文本挖掘处理系统及其方法 |
CN108446333A (zh) * | 2018-02-22 | 2018-08-24 | 睦沃数据科技(苏州)有限公司 | 一种大数据文本挖掘处理系统及其方法 |
CN108771526B (zh) * | 2018-05-31 | 2021-03-19 | 佛山市顺德区美的洗涤电器制造有限公司 | 洗涤方法、洗碗机及计算机可读存储介质 |
CN108771526A (zh) * | 2018-05-31 | 2018-11-09 | 佛山市顺德区美的洗涤电器制造有限公司 | 洗涤方法、洗碗机及计算机可读存储介质 |
CN110737750A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 分析文本受众的数据处理方法、装置与电子设备 |
CN109214417A (zh) * | 2018-07-25 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 用户意图的挖掘方法及装置、计算机设备及可读介质 |
CN111292523A (zh) * | 2018-12-06 | 2020-06-16 | 中国信息通信科技集团有限公司 | 网络智能体系统 |
CN111028044B (zh) * | 2019-10-22 | 2023-10-27 | 贝壳技术有限公司 | 一种拼租方法、装置、电子设备和存储介质 |
CN111028044A (zh) * | 2019-10-22 | 2020-04-17 | 贝壳技术有限公司 | 一种拼租方法、装置、电子设备和存储介质 |
CN110992215A (zh) * | 2019-12-10 | 2020-04-10 | 浙江力石科技股份有限公司 | 基于语义分析的旅游服务推荐系统、数据库和推荐方法 |
CN110992215B (zh) * | 2019-12-10 | 2023-10-13 | 浙江力石科技股份有限公司 | 基于语义分析的旅游服务推荐系统、数据库和推荐方法 |
CN113486235A (zh) * | 2021-05-31 | 2021-10-08 | 杭州摸象大数据科技有限公司 | 用户兴趣识别的方法和系统 |
CN114971817B (zh) * | 2022-07-29 | 2022-11-22 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN114971817A (zh) * | 2022-07-29 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103235823A (zh) | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 | |
CN103235824A (zh) | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 | |
CN103246725A (zh) | 一种基于无线网络的数据业务推送系统和方法 | |
Ren et al. | Context-aware probabilistic matrix factorization modeling for point-of-interest recommendation | |
CN103235826B (zh) | 一种时间窗口的调节方法 | |
CN105718579B (zh) | 一种基于上网日志挖掘和用户活动识别的信息推送方法 | |
CN101551806B (zh) | 一种个性化网址导航的方法和系统 | |
CN102982042B (zh) | 一种个性化内容推荐方法、平台以及系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN101866341A (zh) | 一种信息推送方法、装置及系统 | |
Cufoglu | User profiling-a short review | |
CN109800350A (zh) | 一种个性化新闻推荐方法及系统、存储介质 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
CN105488233A (zh) | 阅读信息推荐方法和系统 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
WO2001025947A1 (en) | Method of dynamically recommending web sites and answering user queries based upon affinity groups | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103049440A (zh) | 一种相关文章的推荐处理方法和处理系统 | |
CN103823893A (zh) | 一种基于用户评论的产品检索方法及产品检索系统 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
Markou et al. | Predicting taxi demand hotspots using automated internet search queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130807 |
|
RJ01 | Rejection of invention patent application after publication |