CN102890689A - 一种用户兴趣模型的建立方法及系统 - Google Patents
一种用户兴趣模型的建立方法及系统 Download PDFInfo
- Publication number
- CN102890689A CN102890689A CN2011102068611A CN201110206861A CN102890689A CN 102890689 A CN102890689 A CN 102890689A CN 2011102068611 A CN2011102068611 A CN 2011102068611A CN 201110206861 A CN201110206861 A CN 201110206861A CN 102890689 A CN102890689 A CN 102890689A
- Authority
- CN
- China
- Prior art keywords
- term
- weights
- user
- interest model
- user interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供了一种用户兴趣模型的建立方法及系统,其用户兴趣模型的建立方法,该方法包括:A.根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;B.根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;C.用所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。相较于现有技术,本发明所建立的用户兴趣模型更加准确,可减小服务器和客户端的负担和资源浪费。
Description
【技术领域】
本发明涉及互联网应用技术领域,尤其涉及一种用户兴趣模型的建立方法及系统。
【背景技术】
随着计算机和网络技术的发展,互联网中所提供的服务种类也在不断完善。为了向用户提供个性化的服务,互联网服务者通常需要通过挖掘用户历史网络行为信息,得到关于各用户兴趣倾向的模型,从而为用户提供有针对性的服务。对于基于文本或与文本相关的互联网服务中,比如网页搜索、博客、网络百科等,通常是采用基于词项(Term)的方式,表述用户的兴趣模型。所谓Term就是自然语言中,具有基本语意特征的文字片段。用户输入的文字、网页的标题、文章的内容、歌曲名称等等都可以认为是由Term组成的。采用Term表述用户的兴趣是因为,每一种语言中的Term是相对稳定的集合,其数量比Query、语句等等要小得多,可节约存储空间;同时Term比更小的语言元素(单个汉字或英语中的字母)具有更丰富的表意性。
现有的基于Term的用户兴趣模型通常是采用“Term向量”,即向量空间模型(Vector Space Model)的方式进行描述,通过统计用户历史行为,得到表达这个用户兴趣的Term集合,并依据统计信息为每个Term赋予权值。然而用户兴趣通常是多种多样的,具有不同的粒度、清晰度,且具有不可枚举性。为应对用户几乎无数种可能的潜在兴趣,备选的Term通常达到十万或更多。如果把每个Term看作是一个空间的维度,则用户的历史行为就表达成了在这个极高维空间中的一个矢量。
现有用户行为模型所采用的“Term向量”中,并没有针对不同的应用场景进行区分,这就会在针对具体应用场景使用用户兴趣模型时,造成用户兴趣识别的不准确,例如针对一个提供娱乐类服务的网络应用,“Term向量”中与工业、制造、学术等专业相关的Term就会影响娱乐类服务的应用,同时对服务器和客户端都会造成负担和资源的浪费。
【发明内容】
为了解决上述问题,本发明提供了一种用户兴趣模型的建立方法及系统,针对不同的应用场景输出相应的用户兴趣模型,使得用户兴趣模型更加准确,减小服务器和客户端的负担和资源浪费。
具体技术方案如下:
相应地,本发明实施例提供的一种用户兴趣模型的建立方法,该方法包括:
A、根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;
B、根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;
C、用所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
根据本发明之一优选实施例,步骤A具体包括:
A1、获取用户历史行为的文本信息;
A2、对用户历史行为的文本信息进行分词;
A3、从分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。
根据本发明之一优选实施例,根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
根据本发明之一优选实施例,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;
所述动态调整采取以下策略中的至少一种:
为用户短时或短期网络行为对应的Term的权值设置上限值;
将用户爆发性网络行为对应的Term的权值按照时间进行衰减。
根据本发明之一优选实施例,所述为用户短时或短期网络行为对应的Term的权值设置上限值具体是:
设置短时权值贡献的上限值或短期权值贡献的上限值;
当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
根据本发明之一优选实施例,将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:
将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。
根据本发明之一优选实施例,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整,所述动态调整的策略是:增加用户重复性网络行为对应的Term的权值。
根据本发明之一优选实施例,所述用户重复性网络行为的识别条件包括:
用户兴趣模型中Term之间的共现关系重复出现,且重复出现的Term之间的共现关系的出现时间间隔超过预设的保护时间间隔。
根据本发明之一优选实施例,所述Term知识集合还包括:所述应用对应的Term的权值;如果在所述用户兴趣模型中基于Term的词频为Term赋予权值,则在所述Term知识集合中基于Term的词频-倒文档率为Term赋予权值;或者,
如果在所述用户兴趣模型中基于词频-倒文档率为Term赋予权值,则在所述Term知识集合中基于Term的词频为Term赋予权值。
根据本发明之一优选实施例,所述Term知识集合还包括:所述应用对应的Term的权值;所述步骤C具体包括:
将所述Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将所述Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述应用对应的用户兴趣模型。
根据本发明之一优选实施例,所述步骤C还包括:
从所述用户在所述应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型;
所述预设条件包括:权值排在前N个,N为预设的正整数,或者,权值大于预设的权值阈值。
相应地,本发明实施例提供的一种用户兴趣模型的建立系统,包括:
用户兴趣模型建立模块,用于根据用户历史行为建立各用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;
知识集合建立模块,根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;
模型调整模块,用于通过所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
根据本发明之一优选实施例,所述用户兴趣模型建立模块具体包括:
文本信息获取模块,用于获取用户历史行为的文本信息;
分词模块,用于对用户历史行为的文本信息进行分词;
赋值模块,用于从分词模块的分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。
根据本发明之一优选实施例,所述赋值模块根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
根据本发明之一优选实施例,该系统还包括第一权值调整模块;
所述第一权值调整模块根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;
所述动态调整采取以下策略中的至少一种:
为用户短时或短期网络行为对应的Term的权值设置上限值;
将用户爆发性网络行为对应的Term的权值按照时间进行衰减。
根据本发明之一优选实施例,所述第一权值调整模块模块为用户短时或短期网络行为对应的Term的权值设置上限值具体是:
当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
根据本发明之一优选实施例,所述第一权值调整模块将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:
将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。
根据本发明之一优选实施例,该系统还包括:第二权值调整模块;
所述第二权值调整模块根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整,所述动态调整的策略是:增加用户重复性网络行为对应的Term的权值。
根据本发明之一优选实施例,所述第二权值调整模块中用户重复性网络行为的识别条件包括:
用户兴趣模型中Term之间的共现关系重复出现,且重复出现的Term之间的共现关系的出现时间间隔超过预设的保护时间间隔。
根据本发明之一优选实施例,所述Term知识集合包括各所述应用对应的Term的权值,如果所述赋值模块基于Term的词频为Term赋予权值,则所述知识集合建立模块基于Term的词频-倒文档率为Term赋予权值;或者,
如果所述赋值模块基于词频-倒文档率为Term赋予权值,则所述知识集合建立模块基于Term的词频为Term赋予权值。
根据本发明之一优选实施例,所述Term知识集合还包括:所述应用对应的Term的权值;所述模型调整模块将所述Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将所述Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述应用对应的用户兴趣模型。
根据本发明之一优选实施例,该系统还包括:模型提取模块,用于从所述用户在所述应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型;
所述预设条件包括:权值排在前N个,N为预设的正整数,或者,权值大于预设的权值阈值。
由以上技术方案可以看出,本发明提供的一种基于用户兴趣模型的建立方法及系统,通过挖掘用户历史行为,采用基于term及其共现关系形成用户兴趣模型,并通过不同应用领域的知识集合进行特征调整,得到针对具体应用场景的有效的用户兴趣模型。相较于现有技术,本发明所建立的用户兴趣模型更加准确,可减小服务器和客户端的负担和资源浪费。
【附图说明】
图1是本发明用户兴趣模型的建立方法的流程图;
图2是本发明一用户兴趣模型网络节点图的示例图;
图3是本发明一用户兴趣模型进行特征调整的示意图;
图4是本发明一实施例的建立用户兴趣模型的流程图;
图5是本发明用户兴趣模型的建立系统的架构图;
图6是本发明一实施例的用户兴趣模型建立模块的架构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,为本发明一实施例中提供的一种用户兴趣模型的建立方法的流程图,该方法包括:
A、根据用户历史行为建立各用户的用户兴趣模型。
所述的用户历史行为可以包括各种与文字相关,可以体现用户兴趣的信息内容,比如该用户网页检索的Query,点击的站点标题,站点标签(Tag),浏览的新闻标题、新闻内容,点播的歌曲、视频名称、作者等等。
所述的用户兴趣模型可以包含基于用户历史行为的文本信息提取的用户兴趣词(Term),以及Term的权值。其中,Term的提取方式可以采用现有技术中的方式,即对用户行为日志进行分词和停用词过滤后得到。Term的权值用于表征该Term对用户兴趣的表征程度,可以基于词性确定,也可以基于词频-倒文档率(TF-IDF)或者词频(TF)确定。
由于在很多情况下,Term与其他不同Term共现时,可能表达不同的含义,为了使得用户兴趣模型更加准确地反映用户兴趣,在该用户兴趣模型中还可以包括Term与Term之间的共现关系的权值,该共现关系的权值可以由Term之间的共现次数确定。具体将在后续实施例中进行描述。
上述用户兴趣模型可以采用网络节点图的形式表示,每个节点对应于用户历史行为信息中的一个Term,每条边连接两个节点,代表两个Term的共现关系。并为Term赋予权值以及为Term之间的共现关系赋予权值,形成网络节点图的形式表示各用户的用户兴趣模型。
如图2所示,为一用户兴趣模型网络节点图的示例图,可以看到在该用户历史行为中建立的包含“苹果”、“iphone”、“ipad2”、“听音乐”、“营养”、“在线试听”等Term的网络节点图,每个Term节点下面的数字代表该节点的Term的权值,如“苹果”的权值为8.2。每条边上的数字为共现关系的权值,代表连接的两个Term之间的共现关系,如“苹果”与“ipad2”的共现关系是5。
B、根据具体应用的用户历史行为,建立所述应用对应的Term知识集合。
从不同应用中获取用户历史行为的文本信息,从中分别提取各应用对应的Term知识集合,具体地,分别从不同应用的用户历史行为的文本信息中提取Term以及Term的权值,Term的提取与步骤A中的方式相同,在此不再赘述,Term的权值可以基于TF或者TF-IDF统计。需要说明的是,该应用对应的Term知识集合是针对所有用户的。
比如对于音乐服务,就可以从包括歌曲名称,歌手,歌曲介绍等等相关的语料中,挖掘与音乐服务相关的Term及其Term的权值,形成一个音乐服务相关Term知识集合。显然,这个集合中与音乐不相关的Term不会出现或以极小的权值出现。另外,这种Term知识集合不一定针对某个特殊的领域。比如一个百科的网络服务,其访问特征与时间密切相关,用户在工作日更倾向于访问专业知识词条,而周末倾向娱乐相关词条。则Term知识集合就可以针对不同时段,分别建立不同的Term知识集合。因而,对应于不同应用场景可以形成各种不同的Term知识集合,如音乐服务相关Term知识集合、网络服务工作日Term知识集合、网络服务周末Term知识集合、电子产品相关Term知识集合、工业相关Term知识集合、网址相关Term知识集合等等。
C、用具体应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。具体包括:
将具体应用对应的Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将具体应用对应的Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述具体应用对应的用户兴趣模型。经过特征调整后,与所述具体应用相对应的用户兴趣得到加强,与所述具体应用无关的兴趣被过滤掉。
如图3所示,为一用户兴趣模型进行特征调整的示意图。可以看到,电子产品相关Term知识集合的上方的网络结构是图2所示的一用户兴趣模型网络节点图,电子产品相关Term知识集合的下方则显示了该用户兴趣模型经过电子产品相关Term知识集合过滤后的结果。其中,电子产品相关Term知识集合是统计所有用户在电子产品应用的Term,知识集合中的Term采用VSM向量表示,并赋予Term的权值。在本实施例中,用户兴趣模型中Term的权值采用TF-IDF计算,电子产品相关Term知识集合中Term的权值采用词频TF计算。因而,过滤后形成的用户兴趣模型中Term的权值是过滤前用户兴趣模型中Term的权值*知识集合中Term的权值,即用户兴趣模型中Term的TF-IDF*知识集合中Term的TF。当用户兴趣模型中Term的权值采用TF计算,电子产品相关Term知识集合中Term的权值则采用TF-IDF计算,过滤后的用户兴趣模型中Term的权值则是用户兴趣模型中Term的TF*知识集合中Term的TF-IDF。对于Term的倒文档率(IDF)代表该Term在大规模语料库中的倒文档率。
本实施例中,经过过滤后,“苹果”、“iphone”、“ipad2”的权值均有所改变,与电子产品相关的“苹果”、“iphone”等的用户兴趣被加强的,其权值分别变成12.2、8.3,而其他与电子产品无关的“营养”、“女歌星”、“在线试听”等用户兴趣则被过滤掉了。
所述步骤C还包括从所述用户在具体应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型。
所述预设条件包括:权值排在前N个,N为预设的正整数;或者,权值大于预设的权值阈值。
先提取权值最大的Term,并从该Term进行深度或广度优先遍历用户兴趣模型网络节点图,通过设定一个遍历深度阈值,得到一组表达用户兴趣的Term集合及Term间的连接关系。所述遍历深度阈值为提取辅助词的个数M,M为预设的正整数,或者为预设的共现关系的权值阈值。
如图3所示,在提取的过程中,先提取Term的权值最大的“苹果”(12.2)为关键的核心词,同时从“苹果”这个节点遍历与其相连的边,根据共现关系的权值大小取前M=2个的“iphone”、“ipad2”作为辅助词。如果有,则再进行第二组Term的权值次重的节点的提取,以及提取对应的辅助词。由于“iphone”、“ipad2”已作为辅助词被提取,在提取第二组并不作为提取的对象。依次类推,提取前N组作为电子产品相关应用场景的用户兴趣模型。通过上述方式得到的用户兴趣模型能够针对不同的应用场景,有效的输出相适应的用户兴趣描述,使得用户兴趣模型更加准确,节约系统和服务器的资源。
下面进一步说明步骤A的用户兴趣模型的建立过程。如图4所示,为本发明建立用户兴趣模型的流程图,具体包括:
A1、获取用户历史行为的文本信息。
用户检索的query“苹果ipad2听音乐的效果如何?”用户点击的网页标题为“苹果iphone在美国上市”的网页等用户历史行为,则系统将记录该用户上述的历史行为,并获取文本信息。文本信息具体识别过程为本领域公知技术,在此不再赘述。
A2、对用户历史行为的文本信息进行分词。
分词的目的是将用户历史行为的文本信息切分成有意义的Term,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、最大正向匹配分词、最大反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等。例如,按照最大正向匹配分词法,将用户检索的query分为“苹果/ipad2/听音乐/的/效果/如何/?”,将网页标题分为“苹果/iphone/在/美国/上市”。
A3、从分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成各用户的用户兴趣模型。
本发明不限于采用何种算法来计算用户每个Term的权值,比如可以采用传统的TF或者TF-IDF值来计算。其中,TF主要用来表达Term与用户之间的兴趣紧密程度,即该Term在用户历史行为中出现的次数越多,则权值越大。IDF主要表达Term在大规模语料库中出现的次数,出现的次数越少,越能表征该用户的特性,则权值越大。如果一个Term在用户历史行为中出现的次数越多,在大规模语料库中出现的次数越少,表明该Term对这个用户越重要,因而权值就越大。
从分词结果中提取Term,需要先对分词结果进行预处理,过滤掉无效的Term,比如按照词性过滤掉虚词、副词、连接词、停用词、符号、数词等,按照应用环境的使用习惯过滤掉不太有实际意义的黑名单Term,如“高清”、“最新”等。过滤后的分词结果根据Term的TF,即出现的次数赋予权值。Term之间的共现关系也将被记录,形成网络结构的边,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
因而,对用户检索query“苹果ipad2听音乐的效果如何?”的分词结果进行过滤后的Term包括“苹果”、“ipad2”、“听音乐”、“效果”,对网页标题的分词结果进行过滤后的Term包括“苹果”、“iphone”、“美国”、“上市”。根据“苹果”在该用户历史行为中出现的次数赋值“苹果”的权值,由于“苹果”与“ipad2”共同出现,记录该共现关系并赋予权值。同理可得到各个Term的权值及两个Term之间共现关系的权值。
值得一提的是,Term的共现关系在具体应用时根据不同的语料来源及不同的应用场景来定义不同的共现范围,如按照一定的时间间隔,不同的粒度范围,或者,定义一定范围的观察窗口。
比如对于网页检索,用户通常在一个较短的时间内(5分钟),进行针对同一个目标的多次检索,尝试不同的Query。我们通常将用户的检索分成会话(Session)或目标(Goal)粒度,则这个用户从首次检索到最终找到需要的信息的过程中,所输入或点击的Query,都可以作为Term的共现范围。在这个范围内,任意两个Term都表达为网络中的“边”,同时按照出现的次数,为Term之间的共现关系赋予不同的权值。Term之间的共现关系的权值越大,说明这两个Term同时出现用以表达这个用户的某种需求的情况越多。对于出现于同一个query或者网页标题的Term,则认为是有共现关系的。如果两次或多次的query都在一个较短的时间内,过滤得到的每个Term之间都认为是有共现关系的。如一用户分别连续在5分钟内检索了“苹果”“ipad”“听音乐”“ipad2”等query,则这个范围内的任意两个Term都认为是有共现关系的。
如果用户历史行为的语料来源是用户浏览过的新闻标题,由于标题通常较长,还有可能具有复杂语意关系,则“共现”的定义就应该相应改变,比如设定一个窗口,选取Term同时出现在窗之内的所有Term组成两两相关的联系。所述的窗口是指在同一个窗口范围内出现的两个Term即认为共现的。例如,可以选择3个词的窗口,则是Term间距离最多间隔1个Term时认为是共现的。按照这种方式,对于标题文本“苹果iphone在美国上市”中的“苹果”及“上市”由于没有出现在3个Term构成的窗口内,可以认为这两者没有共现关系。
在实际应用中,用户的网络行为不是一个平稳过程,不同用户的兴趣各不相同,对于同一用户的兴趣也普遍具有时变性,比如有对某些突发事件形成短时兴趣,也有对时事动态、球赛的周期性关注和追踪等等。因而相应地,用户兴趣模型的建立是一个复杂动态的过程。为了应对用户兴趣的时效性变化,本发明采用动态的方式来调整用户兴趣模型的权值,使得用户兴趣模型更加准确。
进行权值的动态调整,可采取以下策略:
1)为用户短时或短期网络行为对应的Term的权值设置上限值。
用户短时和短期网络行为是指用户在有突发事件发生时通常会有对应短时(几小时)或短期(几天)兴趣。比如用户偶然得知某名人的突发事件,形成短时兴趣并积极关注。或者假如用户家中电器故障,他上网浏览电器故障的排除方法,形成短期兴趣。但几天后,故障解除,该用户可能再也不会关注电器故障方面信息。
针对用户短时和短期的兴趣,设置上限值来调整用户短时和短期网络行为对用户兴趣模型的权值贡献,具体是:
1a)设置短时权值贡献的上限值或短期权值贡献的上限值。例如,短时权值贡献的上限值可以是为几个小时内的短时网络行为设置的上限值,短期权值贡献的上限值可以是为几天内的短期网络行为设置的上限值。上限值的设置可以采用经验值的方式,通过统计用户一段时间内的用户历史行为,得到用户的行为规律,再选取合适的经验值。例如,统计用户30天的用户历史行为后,可求得用户网络行为对Term的权值的总和在一段时间内增量的平均值,根据该平均值选取平均值+方差的2倍作为上限值。
1b)当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过设置的上限值时,则将设置的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
先在短时或短期重复用户网络行为中提取表达用户兴趣的Term,可能包含多个Term,并每个Term可按其在这段时间出现次数或者预设的方式赋予权值。Term的提取与步骤A中的方式相同,在此不再赘述。例如,用户网络行为中有3个Term:Term1、Term2、Term3。在这段时间内,Term1的权值是8,Term2的权值是5,Term3的权值为7,而设定的上限值为10,因3个Term的权值总和为20>10,则将按这段时间内各个Term的权值大小为比例进行分配,分配后得到在这段时间内Term1增加的权值为4,Term2增加的权值是2.5,Term3增加的权值是3.5。
2)对用户爆发性网络行为按照时间进行衰减。
对用户爆发性的兴趣变化,并不能代表用户的长期兴趣,因而采取对用户兴趣模型的权值按时间进行衰减的方式进行调节。
所述的衰减是将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减。
当用户兴趣突然出现爆发性的重复时,先对这段时间内用户网络行为提取Term并赋予权值。Term的提取与步骤A中的方式相同,在此不再赘述。在本实施例中,用户兴趣模型中Term的权值与Term之间共现关系的权值积累都记录最后的变动时间。在Term的权值与Term之间共现关系的权值增加以后,会随时间持续衰减一段时期,设定的衰减期过后不再衰减。具体衰减的策略可以随不同的应用具体制定。
比如对于网页搜索,根据统计发生特殊事件时,检索流量通常是先突然高涨1天,然后呈指数衰减3~4天,5天以后影响基本消失。则用户兴趣模型中Term的权值也可以先保持一天不变,然后逐日衰减,持续4天。衰减量可以按照最末增加的权值按比例计算,比如4天计划共衰减末次增量的70%。如果按天级衰减,可以选择线性衰减或指数衰减等。当然也可以应用更复杂的衰减策略,比如考虑末次增量的大小,决定衰减的时间长度等。如果是新闻类服务,通常对突发新闻更敏感,可以应用一个衰减周期为几个小时的策略,体现用户对热点新闻的兴趣倾向。衰减期过后,用户兴趣模型中Term的权值下降到原始水平,转而体现用户的长期兴趣,使得用户兴趣模型对突发兴趣具有更强的鲁棒性。
3)对用户重复性网络行为设置更大的权值。
用户的网络行为通常具有重复性,比如重复收听一支歌曲、重复打开一个网页,比如用户对球赛、网络小说发布、电视剧的更新等具有周期性事件的关注,还有用户晚上或周末关心娱乐类信息,工作时间关心工作相关的专业信息等这种重复性兴趣变化。这些用户长期关注的信息及重复的行为,实际上表达了非常强烈的用户兴趣倾向。
所述用户重复性网络行为的识别条件包括:用户兴趣模型中Term之间的共现关系是否重复出现,且重复出现的Term之间的共现关系的出现时间间隔是否超过预设的保护时间间隔。用户重复的网络行为应该具有一定保护时间间隔,比如间隔几天。如果重复的出现时间间隔没有超过预设的保护时间间隔,则将重复行为判断为是短时或短期的用户兴趣。这样,通过定期分析用户的历史日志,则可以挖掘用户的这种重复行为。
当判断用户的网络行为是重复性网络行为时,为用户兴趣模型中Term的权值设置更大的权值,增大对应Term的权值及Term之间共现关系的权值。
例如以一天作为保护时间间隔,将用户在不同天发生相同的网络行为,都定义为用户重复性网络行为,表达用户长期兴趣。对用户每天的行为都将提取Term并赋予权值,Term的提取与步骤A中的方式相同,在此不再赘述。因而每天都会形成一个用户当天的用户兴趣图,然后将这个当天的用户兴趣图与历史的用户兴趣模型相合并,在合并时可以检测到在历史的用户兴趣模型中是否有已经存在对应的Term以及Term之间的共现关系,即节点对。如果有已经存在的节点对,说明是重复行为。比如,用户间隔几天在搜索中搜“新浪”,通常直接点击“新浪网”就结束了这个行为。对于节点对“新浪”和“新浪网”的重复,则认为是重复性网络行为。如果仅仅是节点的重复而不是节点对重复,则不认为是网络行为的重复。在进行给予更大权值时,可以选择将用户当天的用户兴趣图对应的Term的权值和Term之间共现关系的权值都乘以2。将加倍后得到的当天的用户兴趣图再与历史的用户兴趣模型相合并。值得一提的是,增加的权值可以不必设置上限,实际上重复发生的行为相对比较短,因为用户需要的信息已经比较熟悉,用户行为比较确定,因而节点对不会过于复杂。通常不会有很长很丰富的用户行为对应用户的长期兴趣。
采用上述动态权值的方式来维护用户兴趣模型,可更准确体现用户的兴趣时变性。
如图5所示,为本发明一实施例中提供的一种用户兴趣模型的建立系统的架构图,该系统包括:
用户兴趣模型建立模块10,用于根据用户历史行为建立各用户的用户兴趣模型。
所述的用户历史行为可以包括各种与文字相关,可以体现用户兴趣的信息内容,比如该用户网页检索的Query,点击的站点标题,站点标签(Tag),浏览的新闻标题、新闻内容,点播的歌曲、视频名称、作者等等。
所述的用户兴趣模型可以包含基于用户历史行为的文本信息提取的Term,以及Term的权值。其中,Term的提取方式可以采用现有技术中的方式,即对用户行为日志进行分词和停用词过滤后得到。Term的权值用于表征该Term对用户兴趣的表征程度,可以基于词性确定,也可以基于TF-IDF或者TF确定。
由于在很多情况下,Term与其他不同Term共现时,可能表达不同的含义,为了使得用户兴趣模型更加准确地反映用户兴趣,在该用户兴趣模型中还可以包括Term与Term之间的共现关系的权值,该共现关系的权值可以由Term之间的共现次数确定。具体将在后续实施例中进行描述。
上述用户兴趣模型可以采用网络节点图的形式表示,每个节点对应于用户历史行为信息中的一个Term,每条边连接两个节点,代表两个Term的共现关系。并为Term赋予权值以及为Term之间的共现关系赋予权值,形成网络节点图的形式表示各用户的用户兴趣模型。
如图2所示,为一用户兴趣模型网络节点图的示例图,可以看到在该用户历史行为中建立的包含“苹果”、“iphone”、“ipad2”、“听音乐”、“营养”、“在线试听”等Term的网络节点图,每个Term节点下面的数字代表该节点的Term的权值,如“苹果”的权值为8.2。每条边上的数字为共现关系的权值,代表连接的两个Term之间的共现关系,如“苹果”与“ipad2”的共现关系是5。
知识集合建立模块20,用于根据具体应用的用户历史行为,建立所述应用对应的Term知识集合。
从不同应用中获取用户历史行为的文本信息,从中分别提取各应用对应的Term知识集合,具体地,分别从不同应用的用户历史行为的文本信息中提取Term以及Term的权值,Term的提取与步骤A中的方式相同,在此不再赘述,Term的权值可以基于TF或者TF-IDF统计。需要说明的是,该应用对应的Term知识集合是针对所有用户的。
比如对于音乐服务,就可以从包括歌曲名称,歌手,歌曲介绍等等相关的语料中,挖掘与音乐服务相关的Term及其Term的权值,形成一个音乐服务相关Term知识集合。显然,这个集合中与音乐不相关的Term不会出现或以极小的权值出现。另外,这种Term知识集合不一定针对某个特殊的领域。比如一个百科的网络服务,其访问特征与时间密切相关,用户在工作日更倾向于访问专业知识词条,而周末倾向娱乐相关词条。则Term知识集合就可以针对不同时段,分别建立不同的Term知识集合。因而,对应于不同应用场景可以形成各种不同的Term知识集合,如音乐服务相关Term知识集合、网络服务工作日Term知识集合、网络服务周末Term知识集合、电子产品相关Term知识集合、工业相关Term知识集合、网址相关Term知识集合等等。
模型调整模块30,用于通过所述知识集合建立模块20建立的具体应用对应的Term知识集合对所述用户兴趣模型建立模块10建立的用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
当需要取用用户的兴趣信息时,模型调整模块30将具体应用对应的Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将具体应用对应的Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述具体应用对应的用户兴趣模型。经过特征调整后,与所述具体应用相对应的用户兴趣得到加强,与所述具体应用无关的兴趣被过滤掉。
如图3所示,为一用户兴趣模型进行特征调整的示意图。可以看到,电子产品相关Term知识集合的上方的网络结构是图2所示的一用户兴趣模型网络节点图,电子产品相关Term知识集合的下方则显示了该用户兴趣模型经过电子产品相关Term知识集合过滤后的结果。其中,电子产品相关Term知识集合是统计所有用户在电子产品应用的Term,知识集合中的Term采用VSM向量表示,并赋予Term的权值。在本实施例中,用户兴趣模型中Term的权值采用TF-IDF计算,电子产品相关Term知识集合中Term的权值采用词频TF计算。因而,过滤后形成的用户兴趣模型中Term的权值是过滤前用户兴趣模型中Term的权值*知识集合中Term的权值,即用户兴趣模型中Term的TF-IDF*知识集合中Term的TF。当用户兴趣模型中Term的权值采用TF计算,电子产品相关Term知识集合中Term的权值则采用TF-IDF计算,过滤后的用户兴趣模型中Term的权值则是用户兴趣模型中Term的TF*知识集合中Term的TF-IDF。对于Term的倒文档率(IDF)代表该Term在大规模语料库中的倒文档率。
本实施例中,经过过滤后,“苹果”、“iphone”、“ipad2”的权值均有所改变,与电子产品相关的“苹果”、“iphone”等的用户兴趣被加强的,其权值分别变成12.2、8.3,而其他与电子产品无关的“营养”、“女歌星”、“在线试听”等用户兴趣则被过滤掉了。
所述用户兴趣模型的建立系统还包括模型提取模块40,用于从所述用户在具体应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型。其中,所述预设条件包括:权值排在前N个的Term,N为预设的正整数;或者,权值大于预设的权值阈值的Term。
模型提取模块40先提取权值最大的Term,并从该Term进行深度或广度优先遍历用户兴趣模型网络节点图,通过设定一个遍历深度阈值,得到一组表达用户兴趣的Term集合及Term间的连接关系。所述遍历深度阈值为提取辅助词的个数M,M为预设的正整数,或者为预设的共现关系的权值阈值。
如图3所示,在提取的过程中,先提取Term的权值最大的“苹果”(12.2)为关键的核心词,同时从“苹果”这个节点遍历与其相连的边,根据共现关系的权值大小取前M=2个的“iphone”、“ipad2”作为辅助词。如果有,则再进行第二组Term的权值次重的节点的提取,以及提取对应的辅助词。由于“iphone”、“ipad2”已作为辅助词被提取,在提取第二组并不作为提取的对象。依次类推,提取前N组作为电子产品相关应用场景的用户兴趣模型。通过上述方式得到的用户兴趣模型能够针对不同的应用场景,有效的输出相适应的用户兴趣描述,使得用户兴趣模型更加准确,节约系统和服务器的资源。
如图6所示,为本发明用户兴趣模型建立模块10的架构图,具体包括:
文本信息获取模块101,用于获取用户历史行为的文本信息。
用户检索的query“苹果ipad2听音乐的效果如何?”用户点击的网页标题为“苹果iphone在美国上市”的网页等用户历史行为,则系统将记录该用户上述的历史行为,并获取文本信息。文本信息具体识别过程为本领域公知技术,在此不再赘述。
分词模块102,用于对用户历史行为的文本信息进行分词。
分词的目的是将用户历史行为的文本信息切分成有意义的Term,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、最大正向匹配分词、最大反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等。例如,按照最大正向匹配分词法,将用户检索的query分为“苹果/ipad2/听音乐/的/效果/如何/?”,将网页标题分为“苹果/iphone/在/美国/上市”。
赋值模块103,用于从分词模块102的分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成各用户的用户兴趣模型。
本发明不限于采用何种算法来计算用户每个Term的权值,比如可以采用传统的TF或者TF-IDF值来计算。其中,TF主要用来表达Term与用户之间的兴趣紧密程度,即该Term在用户历史行为中出现的次数越多,则权值越大。IDF主要表达Term在大规模语料库中出现的次数,出现的次数越少,越能表征该用户的特性,则权值越大。如果一个Term在用户历史行为中出现的次数越多,在大规模语料库中出现的次数越少,表明该Term对这个用户越重要,因而权值就越大。
赋值模块103从分词结果中提取Term,需要先对分词结果进行预处理,过滤掉无效的Term,比如按照词性过滤掉虚词、副词、连接词、停用词、符号、数词等,按照应用环境的使用习惯过滤掉不太有实际意义的黑名单Term,如“高清”、“最新”等。过滤后的分词结果根据Term的TF,即出现的次数赋予权值。Term之间的共现关系也将被记录,形成网络结构的边,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
例如,对用户检索query“苹果ipad2听音乐的效果如何?”的分词结果进行过滤后的Term包括“苹果”、“ipad2”、“听音乐”、“效果”,对网页标题的分词结果进行过滤后的Term包括“苹果”、“iphone”、“美国”、“上市”。根据“苹果”在该用户历史行为中出现的次数赋值“苹果”的权值,由于“苹果”与“ipad2”共同出现,记录该共现关系并赋予权值。同理可得到各个Term的权值及两个Term之间共现关系的权值。
值得一提的是,Term的共现关系在具体应用时根据不同的语料来源及不同的应用场景来定义不同的共现范围,如按照一定的时间间隔,不同的粒度范围,或者,定义一定范围的观察窗口。
比如对于网页检索,用户通常在一个较短的时间内(5分钟),进行针对同一个目标的多次检索,尝试不同的Query。我们通常将用户的检索分成会话(Session)或目标(Goal)粒度,则这个用户从首次检索到最终找到需要的信息的过程中,所输入或点击的Query,都可以作为Term的共现范围。在这个范围内,任意两个Term都表达为网络中的“边”,同时按照出现的次数,为Term之间的共现关系赋予不同的权值。Term之间的共现关系的权值越大,说明这两个Term同时出现用以表达这个用户的某种需求的情况越多。对于出现于同一个query或者网页标题的Term,则认为是有共现关系的。如果两次或多次的query都在一个较短的时间内,过滤得到的每个Term之间都认为是有共现关系的。如一用户分别连续在5分钟内检索了“苹果”“ipad”“听音乐”“ipad2”等query,则这个范围内的任意两个Term都认为是有共现关系的。
如果用户历史行为的语料来源是用户浏览过的新闻标题,由于标题通常较长,还有可能具有复杂语意关系,则“共现”的定义就应该相应改变,比如设定一个窗口,选取Term同时出现在窗之内的所有Term组成两两相关的联系。所述的窗口是指在同一个窗口范围内出现的两个Term即认为共现的。例如,可以选择3个词的窗口,则是Term间距离最多间隔1个Term时认为是共现的。按照这种方式,对于标题文本“苹果iphone在美国上市”中的“苹果”及“上市”由于没有出现在3个Term构成的窗口内,可以认为这两者没有共现关系。
在实际应用中,用户的网络行为不是一个平稳过程,不同用户的兴趣各不相同,对于同一用户的兴趣也普遍具有时变性,比如有对某些突发事件形成短时兴趣,也有对时事动态、球赛的周期性关注和追踪等等。因而相应地,用户兴趣模型的建立是一个复杂动态的过程。
为了应对用户兴趣的时效性变化,继续参见图5,本发明的用户兴趣模型的建立系统还可以包括第一权值调整模块50和第二权值调整模块60,采用动态的方式来调整用户兴趣模型的权值,使得用户兴趣模型更加准确。
第一权值调整模块50进行权值的动态调整,可采取以下策略:
1)为用户短时或短期网络行为对应的Term的权值设置上限值。
用户短时和短期网络行为是指用户在有突发事件发生时通常会有对应短时(几小时)或短期(几天)兴趣。比如用户偶然得知某名人的突发事件,形成短时兴趣并积极关注。或者假如用户家中电器故障,他上网浏览电器故障的排除方法,形成短期兴趣。但几天后,故障解除,该用户可能再也不会回来关注电器故障方面信息。
针对用户短时和短期的兴趣,设置上限值来调整用户短时和短期网络行为对用户兴趣模型的权值贡献,具体是:
1a)设置短时权值贡献的上限值或短期权值贡献的上限值。例如,短时权值贡献的上限值可以是为几个小时内的短时网络行为设置的上限值,短期权值贡献的上限值可以是为几天内的短期网络行为设置的上限值。上限值的设置可以采用经验值的方式,通过统计用户一段时间内的用户历史行为,得到用户的行为规律,再选取合适的经验值。例如,统计用户30天的用户历史行为后,可求得用户网络行为对Term的权值的总和在一段时间内增量的平均值,根据该平均值选取平均值+方差的2倍作为上限值。
1b)当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过设置的上限值时,则将设置的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
先在短时或短期重复用户网络行为中提取表达用户兴趣的Term,可能包含多个Term,并每个Term可按其在这段时间出现次数或者预设的方式赋予权值。Term的提取与步骤A中的方式相同,在此不再赘述。例如,用户网络行为中有3个Term:Term1、Term2、Term3。在这段时间内,Term1的权值是8,Term2的权值是5,Term3的权值为7,而设定的上限值为10,因3个Term的权值总和为20>10,则将按这段时间内各个Term的权值大小为比例进行分配,分配后得到在这段时间内Term1增加的权值为4,Term2增加的权值是2.5,Term3增加的权值是3.5。
2)对用户爆发性网络行为按照时间进行衰减。
对用户爆发性的兴趣变化,并不能代表用户的长期兴趣,因而采取对用户兴趣模型的权值按时间进行衰减的方式进行调节。
所述的衰减是将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减。
当用户兴趣突然出现爆发性的重复时,先对这段时间内用户网络行为提取Term并赋予权值。Term的提取与步骤A中的方式相同,在此不再赘述。在本实施例中,用户兴趣模型中Term的权值与Term之间共现关系的权值积累都记录最后的变动时间。在Term的权值与Term之间共现关系的权值增加以后,会随时间持续衰减一段时期,设定的衰减期过后不再衰减。具体衰减的策略可以随不同的应用具体制定。
比如对于网页搜索,根据统计发生特殊事件时,检索流量通常是先突然高涨1天,然后呈指数衰减3~4天,5天以后影响基本消失。则用户兴趣模型中Term的权值也可以先保持一天不变,然后逐日衰减,持续4天。衰减量可以按照最末增加的权值按比例计算,比如4天计划共衰减末次增量的70%。如果按天级衰减,可以选择线性衰减或指数衰减等。当然也可以应用更复杂的衰减策略,比如考虑末次增量的大小,决定衰减的时间长度等。如果是新闻类服务,通常对突发新闻更敏感,可以应用一个衰减周期为几个小时的策略,体现用户对热点新闻的兴趣倾向。衰减期过后,用户兴趣模型中的Term权值下降到原始水平,转而体现用户的长期兴趣,使得用户兴趣模型对突发兴趣具有更强的鲁棒性。
第二权值调整模块60的动态调整策略是:对用户重复性网络行为设置更大的权值。
用户的网络行为通常具有重复性,比如重复收听一支歌曲、重复打开一个网页,比如用户对球赛、网络小说发布、电视剧的更新等具有周期性事件的关注,还有用户晚上或周末关心娱乐类信息,工作时间关心工作相关的专业信息等这种重复性兴趣变化。这些用户长期关注的信息及重复的行为,实际上表达了非常强烈的用户兴趣倾向。
第二权值调整模块60中用户重复性网络行为的识别条件包括:用户兴趣模型中Term之间的共现关系是否重复出现,且重复出现的Term之间的共现关系的出现时间间隔是否超过预设的保护时间间隔。用户重复的网络行为应该具有一定保护时间间隔,比如间隔几天。如果重复的出现时间间隔没有超过预设的保护时间间隔,则将重复行为判断为是短时或短期的用户兴趣。这样,通过定期分析用户的历史日志,则可以挖掘用户的这种重复行为。
当判断用户的网络行为是重复性网络行为时,为用户兴趣模型中Term的权值设置更大的权值,增大对应Term的权值及Term之间共现关系的权值。
例如以一天作为保护时间间隔,将用户在不同天发生相同的网络行为,都定义为用户重复性网络行为,表达用户长期兴趣。对用户每天的行为都将提取Term并赋予权值,Term的提取与步骤A中的方式相同,在此不再赘述。因而每天都会形成一个用户当天的用户兴趣图,然后将这个当天的用户兴趣图与历史的用户兴趣模型相合并,在合并时可以检测到在历史的用户兴趣模型中是否有已经存在对应的Term以及Term之间的共现关系,即节点对。如果有已经存在的节点对,说明是重复行为。比如,用户间隔几天在搜索中搜“新浪”,通常直接点击“新浪网”就结束了这个行为。对于节点对“新浪”和“新浪网”的重复,则认为是重复性网络行为。如果仅仅是节点的重复而不是节点对重复,则不认为是网络行为的重复。在进行给予更大权值时,可以选择将用户当天的用户兴趣图对应的Term的权值和Term之间共现关系的权值都乘以2。将加倍后得到的当天的用户兴趣图再与历史的用户兴趣模型相合并。值得一提的是,增加的权值可以不必设置上限,实际上重复发生的行为相对比较短,因为用户需要的信息已经比较熟悉,用户行为比较确定,因而节点对不会过于复杂。通常不会有很长很丰富的用户行为对应用户的长期兴趣。
经过上述方法和装置得到的用户在具体应用对应的用户兴趣模型,可以用于信息推送服务、浏览页面推荐、query识别、搜索时的query推荐(querysuggestion)、搜索结果的排序、点播歌曲和娱乐服务推荐、与工业或者学术等各类网站的信息推荐,可以向用户提供更加准确的个性化服务。
以页面推荐为例,如果用户进入科技类网站的页面,可以基于本发明上述实施例建立的用户在科技这类具体应用上对应的用户模型,获取用户的兴趣词,可以主动为用户推荐用户感兴趣的页面。
以搜索结果的排序为例,如果用户进入科技类网站的页面,并在本站内的搜索框内输入“苹果”进行搜索,在返回搜索结果时,确定在搜索结果中与“苹果”存在共现关系的词语,基于本发明上述实施例建立的用户在科技这类具体应用上对应的用户兴趣模型,查询在该用户兴趣模型中与该“苹果”存在共现关系的词语,按照共现关系的权值从高到低的顺序,对搜索结果进行排序。
以query推荐为例,如果用户进入科技类网站的页面,并在本站内的搜索框内输入“苹果”,则可以查询用户在科技这类具体应用上对应的用户兴趣模型,查找与“苹果”的共现关系的权值排在前n个的词语分别与“苹果”组合在一起作为向用户推荐的query。
本发明实施例提供的方法和装置所建立的具体应用对应的用户兴趣模型可以用于多种场景,本发明并不以上述例子中所述场景作为限定,对于其他应用场景在此不再一一穷举。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,信息推送服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、信息推送服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种用户兴趣模型的建立方法,其特征在于,该方法包括:
A、根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;
B、根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;
C、用所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
2.根据权利要求1所述的方法,其特征在于,步骤A具体包括:
A1、获取用户历史行为的文本信息;
A2、对用户历史行为的文本信息进行分词;
A3、从分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。
3.根据权利要求2所述的方法,其特征在于,根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
4.根据权利要求1或2或3所述的方法,其特征在于,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;
所述动态调整采取以下策略中的至少一种:
为用户短时或短期网络行为对应的Term的权值设置上限值;
将用户爆发性网络行为对应的Term的权值按照时间进行衰减。
5.根据权利要求4所述的方法,其特征在于,所述为用户短时或短期网络行为对应的Term的权值设置上限值具体是:
当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
6.根据权利要求4所述的方法,其特征在于,将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:
将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。
7.根据权利要求2或3所述的方法,其特征在于,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整,所述动态调整的策略是:增加用户重复性网络行为对应的Term的权值。
8.根据权利要求7所述的方法,其特征在于,所述用户重复性网络行为的识别条件包括:
用户兴趣模型中Term之间的共现关系重复出现,且重复出现的Term之间的共现关系的出现时间间隔超过预设的保护时间间隔。
9.根据权利要求3所述的方法,其特征在于,所述Term知识集合还包括:所述应用对应的Term的权值;
如果在所述用户兴趣模型中基于Term的词频为Term赋予权值,则在所述Term知识集合中基于Term的词频-倒文档率为Term赋予权值;或者,
如果在所述用户兴趣模型中基于词频-倒文档率为Term赋予权值,则在所述Term知识集合中基于Term的词频为Term赋予权值。
10.根据权利要求1所述的方法,其特征在于,所述Term知识集合还包括:所述应用对应的Term的权值;
所述步骤C具体包括:
将所述Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将所述Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述应用对应的用户兴趣模型。
11.根据权利要求10所述的方法,其特征在于,所述步骤C还包括:
从所述用户在所述应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型;
所述预设条件包括:权值排在前N个,N为预设的正整数,或者,权值大于预设的权值阈值。
12.一种用户兴趣模型的建立系统,其特征在于,该系统包括:
用户兴趣模型建立模块,用于根据用户历史行为建立各用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;
知识集合建立模块,根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;
模型调整模块,用于通过所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
13.根据权利要求12所述的系统,其特征在于,所述用户兴趣模型建立模块具体包括:
文本信息获取模块,用于获取用户历史行为的文本信息;
分词模块,用于对用户历史行为的文本信息进行分词;
赋值模块,用于从分词模块的分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。
14.根据权利要求13所述的系统,其特征在于,所述赋值模块根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
15.根据权利要求12或13或14所述的系统,其特征在于,该系统还包括:第一权值调整模块;
所述第一权值调整模块根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;
所述动态调整采取以下策略中的至少一种:
为用户短时或短期网络行为对应的Term的权值设置上限值;
将用户爆发性网络行为对应的Term的权值按照时间进行衰减。
16.根据权利要求15所述的系统,其特征在于,所述第一权值调整模块为用户短时或短期网络行为对应的Term的权值设置上限值具体是:
当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
17.根据权利要求15所述的系统,其特征在于,所述第一权值调整模块将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:
将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。
18.根据权利要求13或14所述的系统,其特征在于,该系统还包括:第二权值调整模块;
所述第二权值调整模块根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整,所述动态调整的策略是:增加用户重复性网络行为对应的Term的权值。
19.根据权利要求18所述的系统,其特征在于,所述第二权值调整模块中用户重复性网络行为的识别条件包括:
用户兴趣模型中Term之间的共现关系重复出现,且重复出现的Term之间的共现关系的出现时间间隔超过预设的保护时间间隔。
20.根据权利要求14所述的系统,其特征在于,所述Term知识集合还包括:所述应用对应的Term的权值;
如果所述赋值模块基于Term的词频为Term赋予权值,则所述知识集合建立模块基于Term的词频-倒文档率为Term赋予权值;或者,
如果所述赋值模块基于词频-倒文档率为Term赋予权值,则所述知识集合建立模块基于Term的词频为Term赋予权值。
21.根据权利要求12所述的系统,其特征在于,所述Term知识集合还包括:所述应用对应的Term的权值;
所述模型调整模块将所述Term知识集合中不包含的Term从所述用户兴趣模型中过滤掉,且将所述Term知识集合中Term的权值与所述用户兴趣模型中同一Term的权值相乘,得到所述用户在所述应用对应的用户兴趣模型。
22.根据权利要求21所述的系统,其特征在于,该系统还包括:模型提取模块,用于从所述用户在所述应用对应的用户兴趣模型中按照Term的权值提取满足预设条件的Term并保留提取的Term存在的共现关系,得到所述用户在所述应用对应的最终用户兴趣模型;
所述预设条件包括:权值排在前N个,N为预设的正整数,或者,权值大于预设的权值阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110206861.1A CN102890689B (zh) | 2011-07-22 | 2011-07-22 | 一种用户兴趣模型的建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110206861.1A CN102890689B (zh) | 2011-07-22 | 2011-07-22 | 一种用户兴趣模型的建立方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102890689A true CN102890689A (zh) | 2013-01-23 |
CN102890689B CN102890689B (zh) | 2017-06-06 |
Family
ID=47534195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110206861.1A Active CN102890689B (zh) | 2011-07-22 | 2011-07-22 | 一种用户兴趣模型的建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102890689B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440342A (zh) * | 2013-09-10 | 2013-12-11 | 广州市动景计算机科技有限公司 | 基于网页类型的信息推送方法和装置 |
CN103455552A (zh) * | 2013-08-01 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 基于兴趣词的兴趣点挖掘方法及装置 |
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN103488752A (zh) * | 2013-09-24 | 2014-01-01 | 沈阳美行科技有限公司 | 一种poi智能检索的检索方法 |
CN103870538A (zh) * | 2014-01-28 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN104376058A (zh) * | 2014-11-07 | 2015-02-25 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
CN104462245A (zh) * | 2014-11-19 | 2015-03-25 | 亚信科技(南京)有限公司 | 一种用户上网偏好数据识别方法 |
CN104679743A (zh) * | 2013-11-26 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种确定用户的偏好模式的方法及装置 |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
CN105208113A (zh) * | 2015-08-31 | 2015-12-30 | 北京百度网讯科技有限公司 | 信息推送的方法和装置 |
CN106997360A (zh) * | 2016-01-25 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 用户行为数据的处理方法和装置 |
CN107958070A (zh) * | 2017-12-05 | 2018-04-24 | 上海电机学院 | 一种基于用户偏好的个性化消息推送方法 |
CN108134691A (zh) * | 2017-12-18 | 2018-06-08 | 广东欧珀移动通信有限公司 | 模型构建方法、网络资源预加载方法、装置、介质及终端 |
CN109408725A (zh) * | 2018-11-07 | 2019-03-01 | 北京京东金融科技控股有限公司 | 用于确定用户兴趣的方法和装置 |
CN110458666A (zh) * | 2019-08-09 | 2019-11-15 | 同方知网(北京)技术有限公司 | 一种基于领域知识的个性化知识库重组方法 |
CN110489525A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置、存储介质及电子装置 |
CN110969222A (zh) * | 2018-09-29 | 2020-04-07 | 西门子股份公司 | 信息提供方法和系统 |
CN111666171A (zh) * | 2020-06-04 | 2020-09-15 | 中国工商银行股份有限公司 | 故障识别方法及装置、电子设备和可读存储介质 |
CN111861525A (zh) * | 2019-04-30 | 2020-10-30 | 拉扎斯网络科技(上海)有限公司 | 任务执行方法、装置、电子设备及计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070143709A1 (en) * | 2005-12-20 | 2007-06-21 | Gloto Corp. | Methods and systems for displaying information on a graphical user interface |
CN101127043A (zh) * | 2007-08-03 | 2008-02-20 | 哈尔滨工程大学 | 一种轻量级个性化搜索引擎及其搜索方法 |
CN101339563A (zh) * | 2008-08-15 | 2009-01-07 | 北京航空航天大学 | 面向奇异发现推荐的兴趣模型更新方法 |
CN101571870A (zh) * | 2009-06-09 | 2009-11-04 | 北京航空航天大学 | 一种基于概念聚类的用户兴趣建模方法 |
CN101706794A (zh) * | 2009-11-24 | 2010-05-12 | 上海显智信息科技有限公司 | 基于语义实体关系模型和可视化推荐的信息浏览检索方法 |
US20100153292A1 (en) * | 2008-12-11 | 2010-06-17 | Microsoft Corporation | Making Friend and Location Recommendations Based on Location Similarities |
CN101894351A (zh) * | 2010-08-09 | 2010-11-24 | 北京邮电大学 | 基于多智能Agent的旅游多媒体信息个性化服务系统 |
CN102056335A (zh) * | 2009-11-06 | 2011-05-11 | 华为技术有限公司 | 移动搜索方法、装置和系统 |
CN102075851A (zh) * | 2009-11-20 | 2011-05-25 | 北京邮电大学 | 一种移动网络中用户偏好的获取方法及系统 |
CN102129427A (zh) * | 2010-01-13 | 2011-07-20 | 腾讯科技(深圳)有限公司 | 一种词关系挖掘方法和装置 |
-
2011
- 2011-07-22 CN CN201110206861.1A patent/CN102890689B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070143709A1 (en) * | 2005-12-20 | 2007-06-21 | Gloto Corp. | Methods and systems for displaying information on a graphical user interface |
CN101127043A (zh) * | 2007-08-03 | 2008-02-20 | 哈尔滨工程大学 | 一种轻量级个性化搜索引擎及其搜索方法 |
CN101339563A (zh) * | 2008-08-15 | 2009-01-07 | 北京航空航天大学 | 面向奇异发现推荐的兴趣模型更新方法 |
US20100153292A1 (en) * | 2008-12-11 | 2010-06-17 | Microsoft Corporation | Making Friend and Location Recommendations Based on Location Similarities |
CN101571870A (zh) * | 2009-06-09 | 2009-11-04 | 北京航空航天大学 | 一种基于概念聚类的用户兴趣建模方法 |
CN102056335A (zh) * | 2009-11-06 | 2011-05-11 | 华为技术有限公司 | 移动搜索方法、装置和系统 |
CN102075851A (zh) * | 2009-11-20 | 2011-05-25 | 北京邮电大学 | 一种移动网络中用户偏好的获取方法及系统 |
CN101706794A (zh) * | 2009-11-24 | 2010-05-12 | 上海显智信息科技有限公司 | 基于语义实体关系模型和可视化推荐的信息浏览检索方法 |
CN102129427A (zh) * | 2010-01-13 | 2011-07-20 | 腾讯科技(深圳)有限公司 | 一种词关系挖掘方法和装置 |
CN101894351A (zh) * | 2010-08-09 | 2010-11-24 | 北京邮电大学 | 基于多智能Agent的旅游多媒体信息个性化服务系统 |
Non-Patent Citations (2)
Title |
---|
唐朝: "资源自适应个性化新闻推荐系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2011 (2011-02-15), pages 24 - 29 * |
耿焕同等: ""一种基于传统VSM和词共现概念的中文文本聚类的研究", 《安徽师范大学学报(自然科学版)》, vol. 28, no. 1, 25 March 2005 (2005-03-25), pages 28 - 29 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455552A (zh) * | 2013-08-01 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 基于兴趣词的兴趣点挖掘方法及装置 |
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN103488705B (zh) * | 2013-09-06 | 2016-06-22 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN103440342B (zh) * | 2013-09-10 | 2016-10-26 | 广州市动景计算机科技有限公司 | 基于网页类型的信息推送方法和装置 |
CN103440342A (zh) * | 2013-09-10 | 2013-12-11 | 广州市动景计算机科技有限公司 | 基于网页类型的信息推送方法和装置 |
CN103488752A (zh) * | 2013-09-24 | 2014-01-01 | 沈阳美行科技有限公司 | 一种poi智能检索的检索方法 |
CN104679743A (zh) * | 2013-11-26 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种确定用户的偏好模式的方法及装置 |
CN103870538A (zh) * | 2014-01-28 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN103870538B (zh) * | 2014-01-28 | 2017-02-15 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN104376058A (zh) * | 2014-11-07 | 2015-02-25 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
CN104376058B (zh) * | 2014-11-07 | 2018-04-27 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
CN104462245A (zh) * | 2014-11-19 | 2015-03-25 | 亚信科技(南京)有限公司 | 一种用户上网偏好数据识别方法 |
CN104462245B (zh) * | 2014-11-19 | 2017-09-05 | 南京亚信软件有限公司 | 一种用户上网偏好数据识别方法 |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
CN105208113A (zh) * | 2015-08-31 | 2015-12-30 | 北京百度网讯科技有限公司 | 信息推送的方法和装置 |
CN106997360A (zh) * | 2016-01-25 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 用户行为数据的处理方法和装置 |
CN107958070A (zh) * | 2017-12-05 | 2018-04-24 | 上海电机学院 | 一种基于用户偏好的个性化消息推送方法 |
CN107958070B (zh) * | 2017-12-05 | 2021-11-12 | 上海电机学院 | 一种基于用户偏好的个性化消息推送方法 |
CN108134691A (zh) * | 2017-12-18 | 2018-06-08 | 广东欧珀移动通信有限公司 | 模型构建方法、网络资源预加载方法、装置、介质及终端 |
CN110969222A (zh) * | 2018-09-29 | 2020-04-07 | 西门子股份公司 | 信息提供方法和系统 |
CN109408725B (zh) * | 2018-11-07 | 2020-09-29 | 京东数字科技控股有限公司 | 用于确定用户兴趣的方法和装置 |
CN109408725A (zh) * | 2018-11-07 | 2019-03-01 | 北京京东金融科技控股有限公司 | 用于确定用户兴趣的方法和装置 |
CN111861525A (zh) * | 2019-04-30 | 2020-10-30 | 拉扎斯网络科技(上海)有限公司 | 任务执行方法、装置、电子设备及计算机可读存储介质 |
CN110489525A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置、存储介质及电子装置 |
CN110458666A (zh) * | 2019-08-09 | 2019-11-15 | 同方知网(北京)技术有限公司 | 一种基于领域知识的个性化知识库重组方法 |
CN111666171A (zh) * | 2020-06-04 | 2020-09-15 | 中国工商银行股份有限公司 | 故障识别方法及装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102890689B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102890689A (zh) | 一种用户兴趣模型的建立方法及系统 | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
Phong et al. | Mining user opinions in mobile app reviews: A keyword-based approach (t) | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN103365924B (zh) | 一种互联网信息搜索的方法、装置和终端 | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN101118560A (zh) | 关键词输出设备和关键词输出方法 | |
CN104573054A (zh) | 一种信息推送方法和设备 | |
KR101566616B1 (ko) | 빅데이터 처리를 통한 광고의사결정시스템 및 방법 | |
CN104050163A (zh) | 内容推荐系统及方法 | |
CN101641697A (zh) | 对网页的相关搜索查询及其应用 | |
WO2010048430A2 (en) | System and method for identifying trends in web feeds collected from various content servers | |
CN105138670A (zh) | 音频文件标签生成方法和系统 | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
US8423554B2 (en) | Content category scoring for nodes in a linked database | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN104133877A (zh) | 软件标签的生成方法和装置 | |
TWI571756B (zh) | 用以分析瀏覽記錄及其文件之方法及其系統 | |
CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
CN109635084A (zh) | 一种多源数据文档实时快速去重方法及系统 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |