CN104899215A

CN104899215A - 数据处理方法、推荐源信息组织和信息推荐方法及装置

Info

Publication number: CN104899215A
Application number: CN201410080600.3A
Authority: CN
Inventors: 郭奇; 肖镜辉; 商胜; 崔华
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2015-09-09

Abstract

本发明公开了一种数据处理方法、推荐源信息组织和信息推荐方法及装置，其中，数据处理方法包括：对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；存储所述抽取的特征词与相应的类别之间的对应关系。

Description

数据处理方法、推荐源信息组织和信息推荐方法及装置

技术领域

本发明涉及网络信息技术领域，特别是涉及一种基于特征词抽取与处理的信息推荐方法及装置。

背景技术

随着网络技术的发展，推荐系统已经在各个领域得到了广泛的普及，成为网络信息技术（Information Technology，IT）的一个重要的研究内容，获得了越来越多的关注。例如，各种大型的电子商务系统（如淘宝网、各大网上书店等）都采用了各式各样的推荐系统。

在推荐系统中，如何组织推荐源信息以及向用户推送的推荐源信息是否符合用户的需求是非常重要的。

发明内容

本发明提供了一种数据处理方法、推荐源信息组织和信息推荐方法及装置，能够基于用户进行网络访问的行为记录数据自动设置特征词与类别之间的对应关系，并能够进一步的根据该对应关系有效的组织推荐源信息以及信息推荐。

依据本发明的第一个方面，提供了一种数据处理方法，包括：对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；存储所述抽取的特征词与相应的类别之间的对应关系。

依据本发明的第二个方面，提供了一种推荐源信息组织方法，包括上述数据处理方法，且该推荐源信息组织方法还包括:根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。

依据本发明的第三个方面，提供了一种信息推荐方法，包括上述推荐源信息组织方法，且该信息推荐方法还包括：从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。

依据本发明的第四个方面，提供了一种数据处理装置，包括：样本数据获取模块，用于对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；特征词抽取模块，用于针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；存储模块，用于存储所述抽取的特征词与相应的类别之间的对应关系。

依据本发明的第五个方面，提供了一种推荐源信息组织装置，包括上述数据处理装置，且该推荐源信息组织装置还包括:组织模块，用于根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。

依据本发明的第六个方面，提供了一种信息推荐装置，包括上述推荐源信息组织装置，且该信息推荐装置还包括：信息推荐模块，用于从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。

根据本发明提供的一种数据处理方法、推荐源信息组织和信息推荐方法及装置，对多个用户的行为记录数据进行过滤获得样本数据，并对获取的每一类别的样本数据进行特征词的抽取，这样，可以基于用户进行网络访问的行为记录数据自动的设置特征词与类别之间的对应关系；通过利用上述设置的对应关系来组织推荐源信息，可以使各推荐源信息能够更准确的分类，从而可以有效的为用户提供更准确的信息推荐服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一提供的包括数据处理方法和推荐源信息组织方法在内的信息推荐方法流程图；

图2示出了本发明实施例一提供的获得样本数据过程的示意图；

图3示出了本发明实施例一提供的网页的url对应的anchor示意图；

图4示出了本发明实施例一提供的从样本数据中抽取特征词的方法流程图；

图5示出了本发明实施例一提供的获取实体词的替代词的示意图；

图6示出了本发明实施例一提供的获取实体词的替代词的一个具体例子的示意图；

图7示出了本发明提供实施例二提供的包括数据处理装置和推荐源信息组织装置在内的信息推荐装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、包括数据处理方法和推荐源信息组织方法在内的信息推荐方法。下面结合图1对本发明提供的方法进行详细说明。

图1中，S101、对收集到的多个用户进行网络访问的行为记录数据进行过滤获取样本数据，以从收集到的行为记录数据中获取带类别的样本数据。

具体的，在用户浏览网页的过程中，浏览器客户端会向相应的网站服务器发送访问请求，通常浏览器客户端向网站服务器发送的访问请求中承载的请求信息包括用户希望访问的URL（Uniform/Universal Resource Locator，统一资源定位符，也称为网页地址）、请求类型以及http（Hypertext transferprotocol，超文本传输协议）版本等信息。网站服务器根据浏览器客户端发送的访问请求，将与访问请求相关的内容推送给浏览器客户端。而目前有很多支持用户个性化服务的推荐系统，根据用户的访问请求向用户推荐用户真正感兴趣的内容。在组织推荐系统的推荐源信息之前，需要收集多个用户的行为记录数据（理想的状态是能够收集到全网所有用户进行网络访问的行为记录数据），具体的，用户通过浏览器客户端进行网络访问时，浏览器客户端会将用户进行网络访问的行为记录数据上报给相应的网络侧设备如浏览器的管理设备（即浏览器服务端），这样，浏览器的管理设备就会收集到多个用户的行为记录数据。在优选实施例中，浏览器的管理设备可以收集到网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。推荐系统中的词常用于表示用户的个性化信息，可以从预先组织好的推荐源信息中查找与词相关的信息，并将该信息推荐给用户。词的表示方法及词的抽取质量对推荐系统的推荐效果会产生较大的影响。因此需要对收集到的用户进行网络访问的行为记录数据中的样本数据进行高质量的特征词提取，然后根据抽取的特征词组织推荐源信息。要想实现高质量的特征词提取，首先需要保证从用户的行为记录数据（如用户的浏览日志数据或用户的收藏夹数据等）中能够获得高质量的样本数据。

在特征词的抽取过程中，样本数据的质量对于特征词的抽取质量有很大的影响，若样本数据中包含大量噪音（即与用户访问的内容无关的内容），则很难抽取到合理的特征词。因此，在优选实施例中，采用模板过滤的方法从用户的行为记录数据中抽取高质量的样本数据，其中，模板具有一定的规则，且带有一定的类别，可以将符合模板类别的用户的行为记录数据过滤出来。具体的，主要是对用户浏览日志和/或收藏夹中的URL进行模板过滤，在优选实施例中，定义三种URL模板：带类别的refer页url模板（可以简称为refer页url模板）、带类别的最终页的url模板（可以简称为最终页的url模板）和通用的最终页的url模板；其中，refer页url模板是针对用户访问的当前页面的前一个页面的url设置了一定规则的模板，如在用户访问的当前页面的前一个页面的url满足一定的规则时，该模板可以识别出该当前页面的前一个页面的url所属的类别；最终页的url模板是针对用户访问的当前页面的url设置了一定规则的模板，如在用户访问的当前页面的url满足一定的规则时，可以识别出用户访问的当前页面的url所属的类别，通用的最终页的url模板是针对用户访问的当前页面的url以及当前页面的前一个页面的url设置了一定规则的模板，如在用户访问的refer页满足refer页url模板且用户访问的当前页面的url是通用的最终页时，可以识别出当前页面所属的类别为refer页所属的类别。在实际应用中，最终页的url模板应和通用的最终页的url模板结合起来使用。上述通用的最终页通常是指不是网站首页、帮助页面、登录页面以及注册页面等页面。

如图2中示出了结合上述三种url模板从用户浏览日志和/或收藏夹数据中过滤原始数据的具体实施过程。其中，用户浏览日志和/或收藏夹数据中至少包括url、该url对应的标题和该url对应的anchor（指在网页中显示的网页链接的标题）。可以参见图3，图3中标注处即为网页url对应的anchor，url对应的anchor与url对应的实际标题可能会有一些差异，一般来说，url对应的anchor可能会对网页内容的概括更为准确一些。在用户当前访问网页的url符合带类别的最终页的url模板，获取与模板中类别对应的url对应的标题，即通过模板对用户访问的当前URL进行类别过滤，并获得该类别下每个url对应的标题，通过规则过滤标题中的前后缀；或者用户访问的当前页面的前一页面的url符合refer页url模板且用户访问的当前页面的url符合通用的最终页的url模板，即在用户当前访问网页的url不具有类别、且用户当前访问网页的前一页面的url具有类别的情况下，对用户访问的当前页面进行是否为通用的最终页的判断，如果为通用的最终页，则获取refer页面的url对应的anchor，并通过正则过滤收集的anchor。最后将过滤处理后的标题和anchor进行合并，并作去重处理，将过滤处理后的标题和anchor中重复的内容去掉。由于在采用url模板过滤时，url模板中带有每个url的类别，因此采用上述方法，可以从用户的浏览日志或收藏夹数据中获得各种类别的样本数据，其中，样本数据即为网页对应的标题和链接标题，或者，样本数据为正则过滤后的标题和链接标题，或者，样本数据为去重处理后的标题和链接标题。

从用户浏览日志和/或收藏夹数据中获得各种类别的样本数据的一个具体的例子，如下表1所示。

表1

由表1中可以看出，所列的url符合refer页url模板的有：

^http://basketball.titan24.com/nba/$；

^http://bbs.hupu.com/rockets$；

^http://bbs.hupu.com/vote$。

符合带类别的最终页的url模板的有：

^http://voice.hupu.com/nba/([0-9]+).html$；

^http://basketball.titan24.com/nba/([0-9]+)-([0-9]+)-([0-9]+)/([0-9]+).html$。

符合通用的最终页的url模板的有：

^http://bbs.hupu.com/([0-9]+).html$。

采用本发明提供的三种url模板过滤后得到url，记录每条url对应的类别（topic）。对用户访问的当前页面的url符合带类别的最终页模板，获取该url对应的标题，并通过规则过滤掉获取的标题中的前后缀。在此，通过规则过滤掉标题中的前后缀是指删除与url内容无关的信息，这些信息对特征词的抽取来说属于噪音数据。例如，获取的标题“书豪仅得6分魔登同低迷杜兰特33+13火箭惨败雷霆_篮球-NBA_新浪竞技风暴_新浪网”中的前后缀是指“_新浪竞技风暴_新浪网”，通过规则过滤掉标题中的前后缀，过滤掉样本数据中的噪音，获得与url更相关的信息。当用户访问的当前页面的前一页面的url符合refer页url模板、该当前页面的url不具有类别且当前页面的url满足通用最终页的模板，获取用户访问的refer页的url对应的anchor，并通过正则规则过滤获取的anchor，比如，去掉“更多”、“下一页”、“上一章”等这类与url内容无关的信息，使获取的anchor与url所属的类别更相关。将过滤处理后的标题和anchor合并，并作去重处理，得到各种类别的样本数据，作为后续的抽取特征词之用。

S102、针对上述获得的带类别的样本数据，对各类别的样本数据分别进行特征词抽取。

具体的，通过上述步骤S101获得了各种类别的样本数据，本步骤对上述获取的每种类别的样本数据进行特征词抽取处理。可以采用多种方式对样本数据进行特征词的抽取，在优选实施例中，考虑样本数据中每个词在所属类别中的5个属性值，根据这5个属性值的情况来判断该词是否为所属类别的特征词。

具体实现时，请参见图4，首先对获得的各类别（topic）的样本数据进行分词（也称为切词）处理，得到各类别对应的词集合，即每一类别分别对应有包含有若干个词的词集合。然后以类别为单位，计算词集合中的每个词在所属类别中的5个属性值，分别为：

（1）词在所属类别中的tfidf（term frequency–inverse documentfrequency，词频-逆向文件频率），其中，tfidf是一种统计方法，用于评估一字词对于一个文件集或一个语料库（样本数据库）中的一个文件的重要性。在本实施例中，词在所属类别中的词频-逆向文件频率记为tfidf（word/topic），词的tfidf值的计算公式如下：

tfidf(word|topic)=p(word|topic)/log（topicCount（topic）/topicCount(topic|word)）；

其中，p(word|topic)指词在所属类别（topic）中的分布，分布的具体含义是count（word|topic）/count(word)，count（word）指词在样本数据中出现的总的次数，count（word|topic）指词在该topic下出现的次数；topicCount（topic）指上述步骤S101中获取的样本数据的类别总数；topicCount(topic|word)指词出现的类别数，即有多少个类别中出现过该词。

（2）词在所属类别中出现的次数wordCount（word/topic）；

（3）词在所属类别中出现的次数与词在样本数据（即语料）中出现的总的次数的比例，也可以称为词在所属类别中的分布p(word/topic),即该词在所属类别中出现的位置分布；

（4）词在所属类别中作为独立搜索词及非独立搜索词的比例query(word)/splitquery(word)，即该词在所属类别中作为独立搜索词出现的次数与该词在所属类别中作为非独立搜索词出现的次数之比；

（5）词作为独立搜索词与从用户群体角度讲的输入频率的比例query(word)/ime(word)，从用户群体角度讲输入频率高的词通常为：是、我、你、他、的……。

其中，上述5个属性值中，word指词集中的词，topic指词集所属的类别。当对词的上述5个属性值计算完成后，通过上述5个属性值的情况判断该词是否为所属类别的特征词。

具体的，判断词是否为所属类别的特征词的第一种方式为：在词满足tfidf(word|topic)>第一预置阈值或（wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值）的情况下，确定该词为所属类别中的特征词。

利用tfidf(word|topic)>第一预置阈值这一策略可以获得大部分的特征词，但是会遗漏仅在某些小领域频繁出现的词，如观赏鱼养殖领域中某位专家的名字，然而，该专家的名字也是十分重要的，即仅在某些小领域频繁出现的词也应该是特征词；利用wordCount（word/topic）>第二预置阈值以及p(word/topic)>第三预置阈值这两个策略的结合可以在去除类似于感叹号以及倒三角等噪音的基础上，将上述遗漏的词也确定为特征词。

判断词是否为所属类别的特征词的第二种实现方式为：在词满足[tfidf(word|topic)>第一预置阈值或（wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值）]且query(word)/splitquery(word)>第四预置阈值的情况下，确定该词为所属类别中的特征词。

判断词是否为所属类别的特征词的第三种实现方式为：在词满足[tfidf(word|topic)>第一预置阈值或（wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值）]且ime(word)/query(word)>第五预置阈值的情况下，确定该词为所属类别中的特征词。

判断词是否为所属类别的特征词的第四种实现方式为：在词满足[tfidf(word|topic)>第一预置阈值或（wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值）]且query(word)/splitquery(word)>第四预置阈值且ime(word)/query(word)>第五置设阈值的情况下，确定该词为所属类别中的特征词。

上述第三种实现方式和第四种实现方式可以进一步去除词中的噪音。

对步骤S101获取的样本数据进行特征词抽取的具体示例，请参见表2所示，表2中示出了计算词的上述5个属性值中的部分属性值的部分数据。

表2

由表2中可以看出，可以获得词所属的类别（topic）、词在所属类别中出现的次数、词出现的类别数wordCount（word/topic）、词的tfidf、词的tf以及词的idf等数据，通过上述表格可以计算出词的tfidf（word/topic）。

S103、从抽取的特征词中区分出实体词。

具体的，在优选实施例中，实体词指可作为推荐信息基本组织单位的词，而领域词指与类别相关的词。例如，“比分”作为体育类别的领域词，“c罗”可作为该类别的实体词。在推荐系统中，对抽取的特征词区分为领域词与实体词的好处为实体词可用于推荐源及对用户的个性化信息的组织单元，能更准确的表达用户的个性化兴趣。比如，在组织推荐源信息时，可以以该类别下的实体词为关键词，将所有与该实体词有关的信息作为有用的信息进行存储，同样也可以采用实体词来表示用户的个性化信息，在为用户推荐信息时，可以直接向用户推荐与该类别下的实体词相关的信息即可。领域词的作用是辅助进行推荐源信息类别的判断，以及用户感兴趣内容的类别的判断。比如，在分析一篇文章是否为某一类别时，需要通过领域词来进行分析，即分析该文章中是否有匹配的领域词，如果有匹配的领域词，即将该篇文章归入该领域词所属的类别下。

本步骤进行特征词的领域词及实体词的区分，可以采用多种方式来实现，其中，本实施例主要利用现有的分类数据库，例如，百科、知立方等数据库中对词的类别的标识来判断领域词与实体词。本实施例以采用百科数据库来对领域词和实体词进行区分为例对本步骤进行说明，具体实现时，可以参见表3中所示。

表3

其中，表3中，类别栏中“1”表示实体词，“0”表示领域词。由表3中可以看出，一个实体词会对应较多的类别，而由于领域词是与类别相关的词，因此一个领域词在百科数据库中可能没有或很少与之对应的类别，如果抽取的特征词在百科数据库中对应的类别数量达到预设的阈值时，确定该特征词为实体词。在对抽取的特征词进行领域词与实体词的区分之后，获取上述实体词的替代词。实体词的替代词即实体词的别名，在优选实施例中，获得实体词的别名指获得实体词在同一类别下的别名。在推荐系统中，实体词对应的别名对推荐的效果会有一定的影响，别名是指指代同一个事物的词，例如，“贝克汉姆”和“小贝”是指同一个人，如果在推荐系统中，用户关注“贝克汉姆”时，推荐系统也应该给用户推荐“小贝”相关的消息。在具体实现的过程中，主要是利用数据库中的词库来获得实体词的别名。优选实施例以利用搜狗知立方数据库为例来对本步骤进行说明。获取实体词在同一类别中的别名的具体方式的一个例子，在搜狗知立方数据库中，ｗord1在所属类别下的别名有word3和word4，word4在所属类别下的别名有word2和word5，可以将以上的每个词看做为一个节点，将有关系的两个节点连接起来，形成如图5中的连通图，获得连通图中所有连通的节点，就可获得别名集合：（word1，word2,word3,word4,word5）,在该别名集合中选择count（word/topic）（即别名集合中的词在所属类别下出现的次数）最大的词作为代表该别名集合的词，可以将count（word/topic）最大的词可称为代表词，可将所有其它的词都映射到代表词中，即用代表词来替代所有其它的别名，这样可以避免将代表同一实体的相关信息分开，使相关信息更集中。

通过搜狗知立方数据获取实体词的别名的一个具体的例子，获得湖人队及湖人的相关别名如下：

湖人队：湖人，洛杉矶湖人队；

湖人：湖人队，洛杉矶湖人。

如图6所示，通过连通关系可以得到湖人队，湖人，洛杉矶湖人队，洛杉矶湖人表示同一个实体，因此可以获得一个别名集合（湖人队，湖人，洛杉矶湖人队，洛杉矶湖人），并通过比较别名集合中各个词在所属类别中出现的次数，通过比较，发现count(湖人/nba)>count(湖人队/nba)>….，因此在nba类别中将湖人作为别名集合（湖人队，湖人，洛杉矶湖人队，洛杉矶湖人）的代表词，并且在推荐系统中（湖人队，湖人，洛杉矶湖人队，洛杉矶湖人）用湖人来代替。例如，若从用户浏览的一篇文章中抽取的特征词有“洛杉矶湖人队”或“湖人队”，则在推荐系统中，可以标注用户对“湖人”相关的信息感兴趣。将（湖人队，湖人，洛杉矶湖人队，洛杉矶湖人）统一为“湖人”使推荐系统在组织推荐源信息时更方便。

通过数据库获取上述实体词在所属类别下的别名后，对实体词以及实体词的别名进行扩展。通过前述步骤S102对特征词的抽取处理，只有达到预设条件的词才确定为特征词，因此可能会有一些特征词未抽取到，该步骤通过对特征词在所属类别下的扩展来作为辅助抽取，使从样本数据中抽取的特征词更全面。在优选实施例中，对抽取的实体词及实体词的替代词进行扩展，通过计算样本数据中未被抽取作为特征词的词与抽取的实体词或实体词的替代词在同一类别（topic）下的同现概率来进行实现词的扩展。具体实现时，可以获得前述样本数据中未被抽取作为特征词的词与步骤S103中区分出来的实体词在同一类别中的同现概率，即将未被抽取的每个词与抽取的实体词或实体词的替代词两两之间进行同现概率的计算。实体词或实体词的替代词的扩展的一个优选实施例，在同一类别下的wordi与wordj的同现概率可以记为corate(wordi,wordj),其中，wordi为前述样本数据中未被抽取作为特征词的词，wordj为步骤S103区分出来的实体词或实体词的替代词。当corate(wordi,wordj)>预设的阈值，且与wordi在同一类别下同现的实体词wordj的个数达到一定阈值时，可以将wordi纳入该类别（topic）的实体词词集中。例如，通过计算前述样本数据标题中未被抽取作为特征词的词与抽取出来的实体词之间的同现概率，得到如下的数据：

张朝阳（古永锵:0.75080633王小川:0.7415418丁磊:0.7347989马化腾:0.72546184曹国伟:0.7231274周鸿祎:0.71726304..），由于王小川、丁磊、马化腾、曹国伟和周鸿袆在前述步骤S102和S103中归为互联网这一类别中的实体词，张朝阳与上述人物的同现概率高于阈值0.7，且上述人物的个数超过阈值4，因此将张朝阳也归为互联网这一类别的实体词。

需要说明的是，上述获取了从样本数据中抽取的实体词在所属类别中的替代词（也称别名），并对实体词和实体词的替代词在所属类别下进行了词的扩展，在此处，将抽取的实体词、实体词的替代词以及扩展出来的词均作为所属类别的实体词，为描述方便，下面所述的实体词包括抽取的实体词、实体词的替代词以及扩展出来的词。

S104、存储各类别与特征词（尤其是实体词）的对应关系，并利用类别与特征词（尤其是实体词）的对应关系组织推荐源信息，进一步的，本发明实施例还可以将推荐源信息中与用户感兴趣的类别及实体词相同的类别及实体词相关的信息（即内容资源信息）推荐给用户。

具体的，根据前述步骤获取了多个用户的行为记录数据经过过滤后的样本数据中的标题的类别以及标题中的特征词，并对特征词中的实体词和领域词进行了区分。由于前述通过url模板对用户的行为记录数据进行类别过滤，但通过url模板过滤获得的样本数据只是用户的行为记录数据中的一部分，用户的行为记录数据中的剩下的不符合url模板的一部分没有进行类别过滤，此时可以通过已经抽取的领域词和实体词对用户的行为记录数据中的剩余部分进行类别分类。具体的，提取用户的行为记录数据中的剩余部分的url中对应的标题中的领域词和实体词，由于通过过滤获取的样本数据中抽取的领域词和实体词带有类别，因此将这些提取的领域词和实体词与前述通过过滤获取的样本数据中抽取的领域词和实体词对比，就能够确定用户的行为记录数据中剩余部分的url的类别。当对用户的行为记录数据进行了分类之后，就可以组织推荐源信息，即对推荐源信息进行分类，此处，推荐源信息可以是用户的行为记录数据（包括URL及URL对应的标题）对应的信息，推荐源信息还可以包括网页或者文本文件等各种网络资源。具体的，在组织推荐源信息时，将推荐源信息按照类别与实体词进行分类，比如，将推荐源信息中与体育类别及李娜相关的信息分为一类，将推荐源信息中与体育类别及科比相关的信息分为另一类，这样，根据实体词对同一类别下的信息进一步细化，使推荐源信息更精细化，从而推荐系统给用户推荐的信息具有更高的准确性。对推荐系统中的推荐源信息进行分类后，推荐系统可以采用多种方式将推荐源信息推荐给用户。例如，可以根据事先确定出的每个用户感兴趣的类别及实体词，将推荐源信息中与该类别及实体词相关的信息推荐给相应的用户。具体的，确定每个用户感兴趣的类别和实体词的方法以及推荐方法，例如可以抽取用户的行为记录数据中的实体词，若用户对某些实体词访问的频率高，则认为该实体词为用户感兴趣的实体词，该实体词所属类别则为用户感兴趣的类别。比如，若分析出某个用户对体育类别下与湖人相关的信息感兴趣，则将推荐源信息中体育类别下与湖人相关的信息推荐给此用户。

本实施例也可以根据用户当前关注的信息所属的类别及信息中包含的实体词决定给用户推荐哪些信息。若检测到用户当前关注的信息属于体育类别且存在“湖人”的特征词，推荐系统就将推荐源信息中与体育类别及“湖人”相关的信息推荐给用户。

在本实施例中，领域词的作用包括：辅助进行推荐源信息类别的判断以及用户感兴趣内容的类别的判断。

实施例二、一种包括数据处理装置和推荐源信息组织装置在内的信息推荐装置。下面结合图7对本发明提供的装置进行详细说明。

图7中，本发明提供的信息推荐装置包括：样本数据获取模块701、特征词抽取模块702、特征词区分模块703、存储模块704、组织模块705和信息推荐模块706。

样本数据获取模块701用于对收集到的多个用户的行为记录数据进行过滤，以从收集到的行为记录数据中获取带类别的样本数据。

具体的，用户通过浏览器客户端进行网络访问时，浏览器客户端会将用户进行网络访问的行为记录数据上报给相应的网络侧设备如浏览器的管理设备（即浏览器服务端），这样，样本数据获取模块701（如设置于浏览器的管理设备中的样本数据获取模块701）就会收集到多个用户的行为记录数据。在优选实施例中，浏览器的管理设备中的样本数据获取模块701可以收集到网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。

在优选实施例中，样本数据获取模块701采用模板过滤的方法从用户的行为记录数据中抽取高质量的样本数据，其中，模板具有一定的规则，且带有一定的类别，可以将符合模板类别的用户的行为记录数据过滤出来。具体的，样本数据获取模块701采用模板主要对用户浏览日志和/或收藏夹中的URL进行过滤，在优选实施例中，样本数据获取模块701包含有三种URL模板：带类别的refer页url模板（可以简称为refer页url模板）、带类别的最终页的url模板（可以简称为最终页的url模板）和通用的最终页的url模板。样本数据获取模块701采用模板进行过滤的例子如上述方法实施例中的描述，在此不再重复说明。

对用户访问的当前页面的url符合带类别的最终页模板，样本数据获取模块701获取该url对应的标题，并通过规则过滤掉获取的标题中的前后缀。在此，样本数据获取模块701通过规则过滤掉标题中的前后缀是指删除与url内容无关的信息，这些信息对特征词的抽取来说属于噪音数据。当用户访问的当前页面的前一页面的url符合refer页url模板、该当前页面的url不具有类别且当前页面的url满足通用最终页的模板，样本数据获取模块701获取用户访问的refer页的url对应的anchor，并通过正则规则过滤获取的anchor，比如，去掉“更多”、“下一页”、“上一章”等这类与url内容无关的信息，使样本数据获取模块701获取的anchor与url所属的类别更相关。样本数据获取模块701将过滤处理后的标题和anchor合并，并作去重处理，得到各种类别的样本数据，作为后续的抽取特征词之用。

特征词抽取模块702用于针对各个带类别的样本数据，对各个带类别的样本数据分别进行特征词抽取。

具体的，特征词抽取模块702可以采用多种方式对样本数据进行特征词的抽取，在优选实施例中，特征词抽取模块702考虑样本数据中每个词在所属类别中的5个属性值，根据这5个属性值的情况来判断该词是否为所属类别的特征词。

具体实现时，特征词抽取模块702对获得的各类别（topic）的样本数据进行分词（也称为切词）处理，得到各类别对应的词集合，即每一类别分别对应有包含有若干个词的词集合；然后，特征词抽取模块702以类别为单位，计算词集合中的每个词在所属类别中的5个属性值，分别为：

（1）词在所属类别中的tfidf，其中，tfidf是一种统计方法，用于评估一字词对于一个文件集或一个样本数据库中的一个文件的重要性。在本实施例中，词在所属类别中的词频-逆向文件频率记为tfidf（word/topic），词的tfidf值的计算公式如下：

（2）词在所属类别中出现的次数wordCount（word/topic）；

具体的，特征词抽取模块702判断词是否为所属类别的特征词的第一种方式为：在词满足tfidf(word|topic)>第一预置阈值或wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值的情况下，特征词抽取模块702确定该词为所属类别中的特征词。

特征词抽取模块702利用tfidf(word|topic)>第一预置阈值这一策略可以获得大部分的特征词，但是会遗漏仅在某些小领域频繁出现的词，如观赏鱼养殖领域中某位专家的名字，然而，该专家的名字也是十分重要的，即仅在某些小领域频繁出现的词也应该是特征词；特征词抽取模块702利用wordCount（word/topic）>第二预置阈值以及p(word/topic)>第三预置阈值这两个策略的结合可以在去除类似于感叹号以及倒三角等噪音的基础上，将上述遗漏的词也确定为特征词。

特征词抽取模块702判断词是否为所属类别的特征词的第二种实现方式为：特征词抽取模块702在词满足tfidf(word|topic)>第一预置阈值或wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值且query(word)/splitquery(word)>第四预置阈值的情况下，确定该词为所属类别中的特征词。

特征词抽取模块702判断词是否为所属类别的特征词的第三种实现方式为：特征词抽取模块702在词满足tfidf(word|topic)>第一预置阈值或wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值且ime(word)/query(word)>第五预置阈值的情况下，确定该词为所属类别中的特征词。

特征词抽取模块702判断词是否为所属类别的特征词的第四种实现方式为：特征词抽取模块702在词满足tfidf(word|topic)>第一预置阈值或wordCount（word/topic）>第二预置阈值且p(word/topic)>第三预置阈值且query(word)/splitquery(word)>第四预置阈值且ime(word)/query(word)>第五置设阈值的情况下，确定该词为所属类别中的特征词。

特征词抽取模块702利用上述第三种实现方式和第四种实现方式可以进一步去除词中的噪音。

特征词区分模块703，用于从特征词抽取模块702抽取的特征词中区分出实体词。

具体的，在优选实施例中，特征词区分模块703可以采用多种方式对特征词进行领域词及实体词的区分，如特征词区分模块703可以利用现有的分类数据库进行领域词及实体词的区分，更进一步的，特征词区分模块703可以利用百科以及知立方等数据库中对词的类别的标识来判断领域词与实体词。

特征词区分模块703获取每个抽取的特征词在词库中对应的类别，若特征词在词库中对应的类别数量达到预设的阈值时，确定该特征词为实体词，特征词抽取模块702抽取的特征词中剩余的词为领域词。

另外，在对抽取的特征词进行领域词与实体词区分之后，获得区分出来的实体词在所属类别下的替代词，对实体词及替代词在所属类别下进行扩展，并将实体词、实体词对应的替代词以及扩展出来的词均作为所属类别的实体词。

其中，可以通过获得每个实体词在数据库中的替代词及获得替代词在数据库中的替代词，如此循环，直到找出所有的替代词。同样的，可以通过如下方式对实体词及替代词在所属类别下进行扩展：将同一类别下的实体词和实体词的替代词组成一个词集，计算前述获取的样本数据中的未被抽取作为特征词的每个词与词集中的每个词在同一类别中的同现概率，若未被抽取作为特征词的词与词集中预设数量的词的同现概率大于预设阈值，确定该未被抽取作为特征词的词为所述类别中的实体词。

存储模块704用于存储抽取的特征词与相应的类别之间的对应关系。存储模块704存储的对应关系信息可以表现为数据库或者表等多种方式，且存储模块704存储的对应关系信息可以用于组织推荐源信息过程，也可以用于信息推荐过程。

组织模块705用于根据抽取的特征词与相应的类别之间的对应关系组织推荐源信息。

由于前述通过url模板对用户的行为记录数据进行类别过滤，但通过url模板过滤获得的样本数据只是用户的行为记录数据中的一部分，用户的行为记录数据中的剩下的不符合url模板的一部分没有进行类别过滤，此时组织模块705可以通过已经抽取的领域词和实体词对用户的行为记录数据中的剩余部分进行类别分类。具体的，组织模块705可以提取用户的行为记录数据中的剩余部分的url中对应的标题中的领域词和实体词，由于通过过滤获取的样本数据中抽取的领域词和实体词带有类别，因此将这些提取的领域词和实体词与前述通过过滤获取的样本数据中抽取的领域词和实体词对比，就能够确定用户的行为记录数据中剩余部分的url的类别。当组织模块705对用户的行为记录数据进行了分类之后，就可以组织推荐源信息，即对推荐源信息进行分类，此处，推荐源信息可以是用户的行为记录数据（包括URL及URL对应的标题）对应的信息，推荐源信息还可以包括网页或者文本文件等各种网络资源。具体的，组织模块705在组织推荐源信息时，组织模块705将推荐源信息按照类别与实体词进行分类，比如，将推荐源信息中与体育类别及李娜相关的信息分为一类，组织模块705将推荐源信息中与体育类别及科比相关的信息分为另一类，这样，组织模块705根据实体词对同一类别下的信息进一步细化，使推荐源信息更精细化，从而信息推荐装置给用户推荐的信息具有更高的准确性。

信息推荐模块706用于从组织的推荐源信息中选取用户感兴趣的推荐源信息，并向用户推送其选取的推荐源信息，如信息推荐模块706将推荐源信息中与用户感兴趣的类别及实体词相同的类别及实体词相关的信息推荐给用户。

具体的，信息推荐模块706可以采用多种方式将相应的推荐源信息推荐给用户；如信息推荐模块706可以根据事先确定出的每个用户感兴趣的类别及实体词，将推荐源信息中与该类别及实体词相关的信息推荐给相应的用户。

信息推荐模块706可以抽取用户的行为记录数据中的实体词，若用户对某些实体词访问的频率高，则认为该实体词为用户感兴趣的实体词，该实体词所属类别则为用户感兴趣的类别；如如果分析出某个用户对体育类别下与湖人相关的信息感兴趣，则信息推荐模块706可以将推荐源信息中体育类别下与湖人相关的信息推荐给此用户。

信息推荐模块706也可以根据用户当前关注的信息所属的类别及信息中包含的实体词决定给用户推荐哪些信息。若检测到用户当前关注的信息属于体育类别且存在“湖人”的特征词，信息推荐模块706就将推荐源信息中与体育类别及“湖人”相关的信息推荐给用户。

以上对本发明提供的数据处理方法、推荐源信息组织方法和信息推荐方法以及相应的装置进行了详细的介绍，对收集到的用户行为记录数据中的URL通过url模板过滤得到样本数据；然后对样本数据进行特征词的抽取并从抽取的特征词中区分出实体词，并根据类别及实体词组织推荐源信息，然后将推荐源信息中与用户感兴趣的类别及实体词相同的类别及实体词相关的信息推荐给用户。通过本发明提供的方法，在获取样本数据时，采用了url模板进行过滤获取样本数据，对原始用户行为记录数据中包含的大量的噪音进行了过滤，与现有的不经过过滤得到的样本数据相比，能得到更高质量的样本数据，进而能抽取到高质量的特征词，能提高最终的向用户推荐信息时的推荐效果；在特征词的抽取过程中，利用了丰富的网络资源，例如，词作为独立搜索词及非独立搜索词的属性以及词在输入法中的词频，方便了对特征词的抽取；灵活地运用词间的连通关系来获得词对应的所有别名，并通过词的相关词的类别属性得到该词对应的类别属性（即实体词扩展得到的词根据实体词的类别属性得到自身的类别属性），对推荐系统中推荐源信息进行了扩充，能够给用户提供更全面的用户感兴趣的相关信息；并且在向用户推荐相关信息时，推荐系统根据用户感兴趣的类别及实体词，在推荐源信息中查找与上述类别和实体词相关的信息，并将该信息推荐给用户，相比现有的向用户推荐的与抽取的未具体细化的特征词相关的信息，推荐的信息更精细化，更能满足用户的需求。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的数据处理方法、推荐源信息组织方法以及信息推荐方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；

针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；

存储所述抽取的特征词与相应的类别之间的对应关系。

2.如权利要求1所述的方法，其特征在于，所述对收集到的多个用户进行网络访问的行为记录数据进行过滤包括：

根据各行为记录数据中的统一资源定位符URL是否符合模板来对所述多个用户的行为记录数据进行过滤，并获得带类别的样本数据；

其中，所述行为记录数据中的URL包括：用户访问的当前页面的URL；

或者所述行为记录数据中的URL包括：用户访问的当前页面的URL和用户访问的当前页面的前一页面的URL。

3.如权利要求2所述的方法，其特征在于，所述根据各行为记录数据中的统一资源定位符URL是否符合模板来对所述多个用户的行为记录数据进行过滤包括：

利用带类别的最终页URL模板分别判断每个行为记录数据中的用户访问的当前页面的URL是否有所属的类别；和/或

利用带类别的前一页URL模板分别判断每个行为记录数据中的用户访问的当前页面的前一页面的URL是否有所属的类别，利用通用的最终页URL模板分别判断每个行为记录数据中的用户访问的没有所属的类别的当前页面的URL是否属于通用的最终页，且在没有所属的类别的当前页的URL属于通用的最终页的情况下，将用户访问的当前页面的前一页面的URL所属的类别确定为用户访问的当前页的URL所属的类别。

4.如权利要求3所述的方法，其特征在于，所述对收集到的多个用户进行网络访问的行为记录数据进行过滤还包括：

从各行为记录数据中分别获取具有所属类别的当前页面的URL所对应的标题，并对所述标题进行前后缀过滤；和/或者，

在各行为记录数据中的用户访问的当前页面的前一页面的URL具有所属类别、用户访问的当前页面的URL没有所属类别且属于通用的最终页的情况下，从行为记录数据中获取当前页面的前一页面的URL所对应的链接标题，对所述链接标题进行前后缀过滤；

且所述对收集到的多个用户进行网络访问的行为记录数据进行过滤还包括：将所述过滤后的各标题和/或者所述过滤后的各链接标题中的重复内容去重，获得所述带类别的样本数据。

5.如权利要求1所述的方法，其特征在于，所述对各类别的样本数据分别进行特征词抽取包括：

针对每一个类别中的所有样本数据，分别进行分词处理，以获得每一个类别的词集合；

根据每一个类别的词集合中的每个词的属性确定词集合中的特征词。

6.如权利要求5所述的方法，其特征在于，所述词的属性包括：

词在所属类别中的词频逆向文件频率、词在所属类别中出现的次数、词在所属类别中出现的次数与词在样本数据中出现的总的次数的比例、词在所属类别中作为独立搜索词及非独立搜索词的比例以及词作为独立搜索词与从用户群体角度讲的输入频率的比例中的至少一个。

7.如权利要求6所述的方法，其特征在于，其中，所述根据每一个类别的词集合中的每个词的属性确定词集合中的特征词包括：

当词在所属类别中的词频逆向文件频率大于第一预置阈值，或者，

词在所属类别中出现的次数大于第二预置阈值且词在所属类别中出现的次数与词在样本数据中出现的总的次数的比例大于第三预置阈值，

则确定该词为所属类别的特征词；

或者

所述根据每一个类别的词集合中的每个词的属性确定词集合中的特征词在包括：

词在所属类别中出现的次数大于第二预置阈值且词在所属类别中出现的次数与词在样本数据中出现的总的次数的比例大于第三预置阈值，的情况下，

还包括：

词在所属类别中作为独立搜索词及非独立搜索词的比例大于第四预置阈值和/或词作为独立搜索词与从用户群体角度讲的输入频率的比例大于第五预置阈值的情况下，则确定该词为所属类别的特征词。

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

从抽取的特征词中区分出实体词，或者

从抽取的特征词中区分出实体词和领域词；

且所述存储所述抽取的特征词与相应的类别之间的对应关系包括：

存储所述实体词与相应的类别之间的对应关系，或者

存储所述实体词与相应的领域词和相应的类别之间的对应关系。

9.如权利要求8所述的方法，其特征在于，所述从抽取的特征词中区分出实体词和领域词包括：

获取特征词在预先设置的词库中所对应的所有类别，如果特征词在词库中对应的所有类别的数量达到预设值时，则确定出所述特征词为实体词，否则为领域词；

其中，所述词库为标识有词的类别的词库。

10.如权利要求8所述的方法，其特征在于，所述方法在从抽取的特征词中区分出实体词之后还包括：

获得区分出的实体词在所属类别下的替代词，对所述实体词及替代词在所属类别下进行扩展，并将所述实体词、实体词对应的替代词以及扩展出来的词均作为所属类别的实体词。

11.如权利要求10所述的方法，其特征在于，所述对所述实体词及替代词在所属类别下进行扩展包括:

将同一类别下的实体词和实体词的替代词组成一个词集，计算所述获取的样本数据中的未被抽取作为特征词的每个词与词集中的每个词在同一类别中的同现概率，若所述未被抽取作为特征词的词与词集中高于预设数量的词的同现概率大于预设阈值，确定该未被抽取作为特征词的词为所述词集中的实体词。

12.一种推荐源信息组织方法，其特征在于，包括：权利要求1至11中任一权利要求所述的数据处理方法，且所述推荐源信息组织方法还包括:

根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。

13.一种信息推荐方法，其特征在于，包括：权利要求12所述的推荐源信息组织方法，且所述信息推荐方法还包括：

从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。

14.一种数据处理装置，其特征在于，包括：

样本数据获取模块，用于对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；

特征词抽取模块，用于针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；

存储模块，用于存储所述抽取的特征词与相应的类别之间的对应关系。

15.如权利要求14所述的装置，其特征在于，所述样本数据获取模块还用于：

16.如权利要求15所述的装置，其特征在于，所述样本数据获取模块还用于：

17.如权利要求16所述的装置，其特征在于，所述样本数据获取模块还用于：

且所述样本数据获取模块还用于：将所述过滤后的标题和/或者所述过滤后的链接标题中的重复内容去重，获得所述带类别的样本数据。

18.如权利要求14所述的装置，其特征在于，所述特征词抽取模块还用于：

19.如权利要求18所述的装置，其特征在于，所述词的属性包括：

20.如权利要求19所述的装置，其特征在于，其中，所述特征词抽取模块还用于：

则确定该词为所属类别的特征词；

或者

所述特征词抽取模块在用于：当词在所属类别中的词频逆向文件频率大于第一预置阈值，或者，

词在所属类别中出现的次数大于第二预置阈值且词在所属类别中出现的次数与词在样本数据中出现的总的次数的比例大于第三预置阈值

的情况下，还用于：

在词在所属类别中作为独立搜索词及非独立搜索词的比例大于第四预置阈值和/或词作为独立搜索词与从用户群体角度讲的输入频率的比例大于第五预置阈值的情况下，则确定该词为所属类别的特征词。

21.如权利要求14所述的装置，其特征在于，所述装置还包括：

特征词区分模块，用于从抽取的特征词中区分出实体词，或者，从抽取的特征词中区分出实体词和领域词；

且所述存储模块具体用于：

存储所述实体词与相应的类别之间的对应关系，或者，存储所述实体词与相应的领域词和相应的类别之间的对应关系。

22.如权利要求21所述的装置，其特征在于，所述特征词区分模块还用于：

其中，所述词库为标识有词的类别的词库。

23.如权利要求21所述的装置，其特征在于，所述特征词区分模块还用于：

24.如权利要求23所述的装置，其特征在于，所述特征词区分模块还用于:

25.一种推荐源信息组织装置，其特征在于，包括：权利要求14至24中任一权利要求所述的数据处理装置，且所述推荐源信息组织装置还包括:

组织模块，用于根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。

26.一种信息推荐装置，其特征在于，包括：权利要求25所述的推荐源信息组织装置，且所述信息推荐装置还包括：

信息推荐模块，用于从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。