CN103399891A

CN103399891A - 网络内容自动推荐方法、装置和系统

Info

Publication number: CN103399891A
Application number: CN2013103090490A
Authority: CN
Inventors: 吴先超; 陈龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2013-11-20
Anticipated expiration: 2033-07-22
Also published as: CN103399891B

Abstract

本发明公开了一种网络内容自动推荐方法、装置和系统。所述网络内容自动推荐方法包括：接收网络文本数据，从接收的网络文本数据中提取关键词；利用所述关键词按照增量学习的方式训练关键词分类器；接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类；以及根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。所述网络内容自动推荐方法、装置和系统能够根据用户个人兴趣的变化实时改变站点推荐的类别，并且省去了分类器训练过程中的大量人工数据标注。

Description

网络内容自动推荐方法、装置和系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种网络内容自动推荐方法、装置和系统。

背景技术

日常生活中，人们对互联网的依赖程度越来越高。大家可以通过互联网，获取资讯，联系朋友。于是，有的互联网站点开始收集用户的互联网访问数据，并通过对不同用户的互联网的历史访问数据的分析获知用户对哪些领域的资讯更为感兴趣，在依据这样的分析结果为用户推荐他们可能会喜爱的网络内容。

在这样的为用户推荐网络内容的方法中，大多数方法都需要使用机器学习算法来对用户进行分类，以确定用户感兴趣的领域。现有的网络内容推荐方法大都收集用户一段时间内的互联网访问数据，对这些数据进行人工标注以区分领域，利用标注好的数据通过机器学习的方法训练用户分类器，再利用训练好的用户分类器对用户进行分类，最后根据用户的分类向用户推荐网络内容。也就是说，现有的网络内容推荐方法多采用完全监督、非增量的机器学习方法对用户的互联网访问数据进行学习。现有的网络内容推荐方法虽然实现了向用户推荐网络站点，但是根据这种方法向用户推荐的网络内容不具有时效性。因为用户在不同的时间段的兴趣点可能会不同，而根据现有的方法向用户推荐的内容是不会发生改变的。而且，训练用户分类器需要人工对大量的互联网访问数据进行标注，成本较高。

发明内容

有鉴于此，本发明提出一种网络内容自动推荐方法、装置和系统，能够使得向用户推荐的网络内容更具有时效性，同时大幅降低在分类器训练阶段人工数据标注的工作量。

第一方面，本发明实施例提供了一种网络内容自动推荐方法，所述方法包括：

接收网络文本数据，从接收的网络文本数据中提取关键词；

利用所述关键词按照增量学习的方式训练关键词分类器；

接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类；以及

根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

第二方面，本发明实施例提供了一种网络内容自动推荐装置，所述装置包括：

关键词提取模块，用于接收网络文本数据，从接收的网络文本数据中提取关键词；

关键词分类器训练模块，用于利用所述关键词按照增量学习的方式训练关键词分类器；

特定用户分类模块，用于接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类；以及

网络内容推荐模块，用于根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

第三方面，本发明实施例提供了一种网络内容自动推荐系统，包括服务器和客户端，所述服务器包括如上第二方面所述的网络内容自动推荐装置。

本发明利用半监督学习方法进行增量学习，训练关键词分类器，然后利用训练的关键词分类器将用户区分为多个类别，最后根据每个用户的类别向用户推荐网络内容，不仅实现了根据互联网用户的个人兴趣向用户推荐网络内容，而且能够根据用户个人兴趣的变化实时改变站点推荐的类别，并且省去了分类器训练过程中的大量人工数据标注。

附图说明

图1是本发明第一实施例提供的网络内容自动推荐方法的流程示意图。

图2是本发明第一实施例提供的关键词提取的流程示意图。

图3是本发明第一实施例提供的特定用户分类的流程示意图。

图4是本发明第一实施例提供的网络内容推荐的流程示意图

图5a是本发明第一实施例提供的向用户推荐网络站点的图形用户界面的示意图。

图5b是本发明第一实施例提供的经过增量学习后向用户推荐网络站点的图形用户界面的示意图。

图6是本发明第二实施例提供的网络内容自动推荐装置的结构示意图。

图7是本发明第三实施例提供的网络内容自动推荐系统的结构示意图。

具体实施方式

下面结合附图并通过具体实施例来进一步说明本发明的技术方案。

图1至图5b示出了本发明的第一实施例。

图1是本发明第一实施例提供的网络内容自动推荐方法的流程示意图。参见图1，所述网络内容自动推荐方法包括：步骤110，接收网络文本数据，从接收的网络文本数据中提取关键词；步骤120，利用所述关键词按照增量学习的方式训练关键词分类器；步骤130，接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类；步骤140，根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

在步骤110中，接收网络文本数据，从接收的网络文本数据中提取关键词。

所述网络文本数据包括互联网上所有用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本。用于对特定用户进行分类的关键词包含在所述网络文本数据中，因此需要从所述网络文本数据中提取关键词。

所述步骤110包括：子步骤111，接收网络文本数据；子步骤112，对所述网络文本数据进行切词，获得准关键词；子步骤113，计算所述准关键词的重要度；以及子步骤114，将所述准关键词中重要度高于重要度阈值的准关键词作为关键词。

在子步骤111中，接收网络文本数据。

因为用于对特定用户进行分类所使用的关键词包含在所述网络文本数据中，因此需要对网络文本数据进行收集。所述网络文本数据包括互联网上所有用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本。而且，对所述网络文本数据进行收集的过程不需要对所述网络文本数据进行不同用户的区别，而是对所述用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本进行收集。

在子步骤112中，对所述网络文本数据进行切词，获得准关键词。

所述网络文本数据是以语段、语句为单位的文本数据，要从中获取关键词，需要对所述网络文本数据进行切词处理。在本实施例中，对所述网络文本数据进行基于统计的切词处理。准关键词是对所述网络文本数据进行基于统计的切词处理的结果。所述准关键词包括关键词。并且，除了所述关键词外，所述准关键词还包括一些重要度不高的词语。完成对所述网络文本数据的切词处理后，将切词得到的准关键词存储在关键词词典内。

在子步骤113中，计算所述准关键词的重要度。

所述准关键词除了包括关键词以外，还包括一些重要度不高，对用户分类意义不大的词语。对所述网络文本数据完成切词处理后，对存储在所述关键词词典内的准关键词计算重要度。

对准关键词的重要度的计算采用词频-逆向文档频率（termfrequency-inverse document frequency,TF-IDF）算法。词频是指所述准关键词在所述关键词词典出现的频率，它可以通过用所述准关键词在所述关键词词典中出现的次数除以所述关键词词典的总容量计算得到。逆向文档频率通过以总网页数目除以包含所述准关键词的网页的数目，在对得到的商取对数求得。在分别求得所述准关键词的词频和逆向文档频率后，将所述准关键词的词频和逆向文档频率相乘就得到了所述准关键词的重要度。

在子步骤114中，将所述准关键词中重要度高于重要度阈值的准关键词作为关键词。

通过所述词频-逆向文档频率（term frequency-inverse documentfrequency,TF-IDF）算法计算得到所述准关键词的重要度后，将所述准关键词中重要度高于重要度阈值的准关键词作为关键词保留在所述关键词词典中，并将重要度低于重要度阈值的准关键词从所述关键词词典中剔除。

本领域技术人员应该理解，所述网络文本数据是不断到达的，因此，对不断到达的增量数据需要重复执行切词、关键词存储、重要度计算和关键词选择处理。

在步骤120中，利用所述关键词按照增量学习的方式训练关键词分类器。

在本实施例中，采用半监督学习的方式有增量的训练关键词分类器。利用半监督学习的方式有增量的训练关键词分类器，不需要对全部的训练数据进行人工分类，而只需要对所述训练数据中较小的集合进行分类，而对剩余的训练数据采用增量学习的算法通过机器进行分类。

所述关键词分类器将从所述大规模网络文本中提取的关键词区分为至少两个类别。在本实施例的另一个优选实施方式中，所述从网络文本中提取的关键词被区分为“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别。

在本实施例的一个优选实施方式中，按照Topic-bridged PLSA方法利用所述关键词训练所述关键词分类器。Topic-bridged PLSA方法用于利用有限的已分类数据对未分类数据进行文本分类。

根据所述Topic-bridged PLSA方法，在同样类型的已分类文本和未分类文本之间存在共同的语义特征，因此可以利用共同的隐含主题z来桥接已分类文本和未分类文本，并通过共享条件概率p(z|w)来实现对未分类文本的分类。

所有的文本d包括已分类文本d_l和未分类文本d_u。所述已分类文本d_l的集合是已分类文本集合D_L，所述未分类文本d_u的集合是未分类文本集合D_U。z表示文本集合d中的隐含主题。w表示关键词。n(w|d)表示关键词w在d中出现的频率。

如前所述，已分类文本集合D_L和未分类文本集合D_U通过条件概率p(d_l|w)和p(d_u|w)相关联，最后利用文本中的表示两个文本属于同一主题z的Must-link约束和表示两个文本不属于同一主题z的Cannot-link约束来建立Topic-bridged PLSA的目标方程如下：

L = \underset{w}{Σ} [\begin{matrix} λ \underset{d_{l}}{Σ} n (w, d_{l}) \log \underset{z}{Σ} p (d_{l} | z) p (z | w) + \\ (1 - λ) \underset{d_{u}}{Σ} n (w, d_{u}) \log \underset{z}{Σ} p (d_{u} | z) p (z | w) \end{matrix}] +

β_{1} \underset{d_{l}}{Σ} \log \underset{z}{Σ} p (d_{l}^{i} | z) p (d_{l}^{j} | z) + .

β_{2} \underset{d_{l}}{Σ} \log \underset{z_{i} &NotEqual; z_{j}}{Σ} p (d_{l}^{i} | z) p (d_{l}^{j} | z)

其中，n(w|d)是单词w在文本d中出现的次数；p(d_l|z)和p(d_u|z)表示在出现隐含主题z的条件下，文本d_l、d_u的概率；p(z|w)表示在隐含主题空间中单词的概率分布；λ是源数据与目标数据之间的权重；β₁、β₂表示两个约束权值。

在本实施方式中，d对应于从所述网络文本数据中提取出来的所有关键词；d_l对应于从所述网络文本数据中提取出来的关键词中已经进行了人工分类的关键词；d_u对应于从所述大规模网络文本数据中提取出来的关键词中没有进行人工分类的关键词；w对应于从所述网络文本数据中提取出来的关键词中的任意一个；z对应于从所述网络文本数据中提取出来的关键词所述的类别，具体是“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”中的一个。

采用Topic-bridged PLSA算法训练所述关键词分类器的具体步骤如下：

S1、提取文本集合d中的单词w，构成关联矩阵n(w,d)，随机初始化p(d_l|z)、p(d_u|z)和p(z|w)；

S2、通过期望最大值算法计算p(d_l|z)、p(d_u|z)和p(z|w)，直到所述目标函数收敛；

S3、根据收敛后得到的p(d_u|z)来判断未分类数据的类别。

经过所述Topic-bridged PLSA算法的运算，所述关键词词典中的每个关键词被归入“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别中的一个类别。例如，关键词“朋克”、“摇滚”属于类别“音乐”，而关键词“温网”、“斯诺克”属于类别“体育”。也就是说，所述关键词分类器被训练完成。

本领域技术人员应该理解，所述半监督学习算法并不限于所述的Topic-bridged PLSA算法，所有基于半监督学习的增量文本分类算法都可以应用在本实施例中来训练所述关键词分类器。

本领域技术人员还应该理解，由于用于训练所述关键词分类器的机器学习算法是增量学习算法，所以所述关键词分类器并不是利用训练数据一次训练完成的，而是不断利用增量数据更新形成的。

在步骤130中，接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类。

所述步骤130包括：子步骤131，接收特定用户的网络文本数据；子步骤132，统计每个类别的关键词在所述特定用户的网络文本数据中出现的次数；子步骤133，将关键词在所述特定用户的网络文本数据中出现次数最多的至少两个类别设置为所述特定用户的类别。

在所述子步骤131中，接收特定用户的网络文本数据。

所述特定用户的网络文本数据是按照用户区分的网络文本数据，其数据来源包括互联网上特定用户浏览的网页上的文本、特定用户在即时通讯工具中输入的文本和特定用户在社交网络站点上输入的文本。接收所述特定用户的网络文本数据的目的在于为利用所述关键词分类器对用户进行分类。

在所述子步骤132中，统计每个类别的关键词在所述特定用户的网络文本数据中出现的次数。

所述关键词是经过重要度计算后重要度高于预设的重要度阈值的关键词。并且，经过关键词分类器训练的过程，每个关键词都对应于八个类别中的一个类别。

对特定用户进行分类，需要对特定用户网络文本数据中识别出特定用户的兴趣，然后根据从所述特定用户的网络文本数据中识别出的特定用户的兴趣点对所述特定用户进行分类。所述特定用户的兴趣点是通过从所述特定用户的网络文本数据中的关键词表征的。比如，在某个特定用户的网络文本数据中属于体育领域的关键词频繁出现，那么该特定用户就应该被分类至“体育”领域。

为了发掘每个特定用户的兴趣点，需要对每个类别的关键词在所述特定用户的网络文本数据中出现的次数进行统计。具体的，所述对每个类别的关键词在所述特定用户的网络文本数据中出现的次数进行统计包括对一个类别中每个关键词在所述特定用户的网络文本数据中出现的次数进行统计，以及对一个类别中所有关键词在所述特定用户的网络文本数据中出现的次数进行求和，便得到该类别的关键词在所述特定用户的网络文本数据中出现的次数。

在所述子步骤133中，将关键词在所述特定用户的网络文本数据中出现次数最多的至少两个类别设置为所述特定用户的类别。

在本实施例中，从所述大规模网络文本数据中提取的关键词被区分为“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别。一般情况下，所述八个不同类别中的关键词在所述特定用户的网络文本数据中出现的次数不同。选取所述八个类别中关键词在所述特定用户的网络文本数据中出现的次数最多的至少两个类别作为所述特定用户被分入的类别。在本实施例的一个优选实施方式中，所述特定用户被分入的类别的个数是3个。

本领域技术人员应该理解，由于用于训练所述关键词分类器的机器学习算法是增量学习算法，所以所述关键词分类器是随着时间的推移而变化的，因此所述特定用户的类别也是随着时间的推移而变化的。

在步骤140中，根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

经过关键词提取、关键词分类器训练和特定用户分类的处理，已经按照每个特定用户的兴趣将特定用户进行了分类。在本实施例中，特定用户被按照特定用户的兴趣被分成入了“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别。有了对特定用户的具体分类，就可以按照对特定用户的具体分类将每个分类对应的网络内容推荐给特定用户，其中，所述网络内容包括网络站点、网络视频、博客、微博。

所述步骤140包括：子步骤141，统计每个类别中各网络内容被访问的次数；以及子步骤142，将每个类别中被访问次数最高的至少两个网络内容推荐给用户。

在子步骤141中，统计每个类别中各个网络内容被访问的次数。

在本实施例中，常用的网络内容被预先分类在所述“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别中。而在所述的八个类别的每个类别中推荐哪些网络内容给用户需要看每个网络内容在用户中的受欢迎程度。用户对每个网络内容的访问次数是该网络内容在用户中受欢迎程度的很好的表征，也就是说，用户对一个网络内容的访问次数高就说明该网络内容在用户中受欢迎的程度高，而用户对一个网络内容的访问次数低就说明该网络内容在用户中受欢迎的程度低。因此，在向用户推荐网络内容前，需要对每个类别中各个网络内容被访问的次数进行统计。

所述统计每个类别中各个网络内容被访问的次数是同一所有用户对各个网络内容的访问次数，而不是特定一个用户对各个网络内容的访问次数。

在子步骤142中，将每个类别中被访问次数最高的至少两个网络内容推荐给用户。

完成对每个类别中各个网络内容被访问的次数的统计后，将每个类别中的网络内容依照统计得到的被访问的次数进行排序，将被访问次数最高的至少两个网络内容，也就是最受客户欢迎的至少两个网络内容推荐给用户。在本实施例的一个优选实施方式中，被推荐的最受客户欢迎的网络内容的个数是2个。

图5a和图5b分别示出了增量学习前和增量学习后向用户推荐网络站点的图形用户界面。在增量学习前，根据对关键词在所述特定用户的网络文本数据中出现的次数的统计，识别出所述特定用户的兴趣是“新闻”、“视频”和“音乐”，即所述特定用户的分类是“新闻”、“视频”和“音乐”。因此，参见图5a，在用户使用的客户端上，为用户推荐了分别属于“新闻”、“视频”和“音乐”三个类别的六个网络站点。

在增量学习后，根据对更新后的关键词在所述特定用户的网络文本数据中出现的次数的统计，识别出更新后的所述特定用户的兴趣是“新闻”、“视频”和“社交”，即更新后的所述特定用户的分类是“新闻”、“视频”和“社交”。因此，参见图5b，在用户使用的客户端上，为用户推荐了分别属于“新闻”、“视频”和“社交”三个类别的另外六个网络站点。

在图5a和图5b中，接收服务器推荐的网络内容的客户端是移动终端。本领域技术人员应该理解，接收服务器推荐的网络内容的客户端不仅限于移动终端，还包括个人电脑、工作站等连接至互联网，能够从互联网接收网络内容的计算装置。

在图5a和图5b中，服务器向客户端推荐的网络内容是网络站点。在本实施例中，网络内容并不限于网络站点，还包括网络视频、博客、微博。

本实施例通过利用半监督学习方法有增量的训练关键词分类器，利用训练的关键词分类器对用户进行兴趣分类，最后按照用户的兴趣分类向用户推荐网络站点，不仅实现了根据用户的兴趣向用户推荐网络站点，而且能够根据用户的兴趣变化实时更新对用户的网络站点推荐，同时大幅降低了对互联网访问数据进行人工标注的工作量。

图6示出了本发明的第二实施例。

图6是本发明第二实施例提供的网络内容自动推荐装置的结构示意图。参见图3，所述网络内容自动推荐装置包括关键词提取模块610、关键词分类器训练模块620、特定用户分类模块630和网络内容推荐模块640。

所述关键词提取模块610用于接收网络文本数据，计算所述网络文本数据中的准关键词的重要度，将重要度高于重要度阈值的准关键词作为关键词。

所述关键词提取模块610包括第一文本数据接收子模块611、文本切词子模块612、重要度计算子模块613和关键词获取子模块614。

所述第一文本数据接收子模块611用于接收网络文本数据。所述网络文本数据来自于互联网上所有用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本。

所述文本切词子模块612用于对所述网络文本数据进行切词，获得准关键词。在本实施例中，所述文本切词子模块612根据基于统计的切词方法对所述网络文本数据进行切词。对所述网络文本数据切词完成后，将切词处理的结果作为准关键词存入关键词词典。

所述重要度计算子模块613用于计算所述准关键词的重要度。在本实施例中，计算所述准关键词的重要度采用词频-逆向文档频率（termfrequency-inverse document frequency,TF-IDF）算法。

所述关键词获取子模块614用于将所述准关键词中重要度高于重要度阈值的准关键词作为关键词。所述关键词获取子模块614将重要度高于所述重要度阈值的准关键词作为关键词保留在所述关键词词典中，并将重要度低于所述重要度阈值的准关键词从所述关键词词典中剔除。

所述关键词分类器训练模块620用于利用所述关键词按照增量学习的方式训练关键词分类器。

在本实施例中，所述关键词分类器训练模块620根据半监督学习算法对所述关键词分类器进行增量训练。在本实施例的一个优选实施方式中，所述关键词分类器按照Topic-bridged PLSA算法对所述关键词分类器进行增量训练。

所述特定用户分类模块630用于接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类。

所述特定用户分类模块630包括第二文本数据接收子模块331、关键词词频统计子模块632和类别设置子模块633。

所述第二文本接收子模块631用于接收特定用户的网络文本数据，以便对所述特定用户进行分类。所述特定用户的网络文本数据包括所述特定用户浏览的网页上的文本、特定用户在即时通讯工具中输入的文本和特定用户在社交网络站点上输入的文本。

所述关键词词频统计子模块632用于统计每个类别的关键词在所述特定用户的网络文本数据中出现的次数。所述关键词词频统计子模块632统计每个类别中所有关键词在所述特定用户的网络文本数据中出现的总次数，而不针对一个特定的关键词统计器在所述特定用户的网络文本数据中出现的次数。

所述类别设置子模块633用于将关键词在所述特定用户的网络文本数据中出现次数最多的至少两个类别设置为所述特定用户的类别。所述类别设置子模块333按照所述关键词词频统计子模块632对每个类别的关键词在所述特定用户的网络文本数据中出现的总次数的统计结果对所述“新闻”、“军事”、“体育”、“社会”、“视频”、“音乐”、“社交”和“科技”八个类别进行排序，并将排序最靠前的至少两个类别作为所述特定用户被分入的类别。在本实施例的一个优选实施方式中，所述特定用户被分入的类别的个数是3个。

所述网络内容推荐模块640用于根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

所述网络内容推荐模块640包括访问次数统计子模块641和网络内容选取子模块642。

所述访问次数统计子模块641用于统计每个类别中各网络内容被访问的次数。所述访问次数统计子模块641统计一个时间段内每个类别中各网络内容被访问的次数，以此确定每个类别中各网络内容的受欢迎程序。统计每个类别中各网络内容被访问次数的时间段应该采用距离目前时间点较近的时间段。

所述网络内容选取子模块642用于将每个类别中被访问次数最高的至少两个网络内容推荐给用户。如果一个网络内容在其所属的类别中被访问次数最高，说明它在其所属的类别中受欢迎的程度最高。所述网络内容选取子模块642将每个类别中受欢迎程度最高的至少两个网络内容推荐给用户。在本实施例的一个优选实施方式中，所述推荐给用户的被访问次数最高的至少两个网络内容的个数是2个。

本实施例利用关键词提取模块、关键词分类器训练模块、特定用户分类模块和网络内容推荐模块实时挖掘互联网用户的兴趣，根据用户的兴趣对用户进行分类，再根据对用户的分类向用户推荐网络内容，不仅实现了根据用户的兴趣向用户推荐网络内容，而且根据用户的兴趣变化实时更新对用户的网路内容推荐。

图7示出本发明的第三实施例。

图7是本发明第三实施例提供的网络内容自动推荐系统的结构示意图。参见图7，所述网络内容自动推荐系统包括服务器710和客户端720。所述服务器710与所述客户端720通过互联网730连接。

所述服务器710包括关键词提取模块711、关键词分类器训练模块712、特定用户分类模块713和网络内容推荐模块714。所述关键词提取模块711用于从接收的网络文本数据中提取关键词，提取的关键词不仅语义上要完整，而且需要在所述接收的网络文本数据中具有一定的重要程度。所述关键词分类器训练模块712用于利用所述关键词按照增量学习的方式训练关键词分类器，整个训练的过程采用半监督学习的方式对所述关键词分类器进行增量训练。所述特定用户分类模块713用于接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类，以便准确的识别出特定用户的兴趣，根据所述特定用户的兴趣对所述特定用户进行分类。所述网络内容推荐模块714用于根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容。

所述客户端720发送网络文本数据，并接收所述服务器710推荐的网络内容。所述网络文本数据包括用户浏览的网页上的文本、用户在即时通讯工具中输入的文本和用户在社交网络站点上输入的文本。所述网络内容包括网络站点、网络视频、博客和微博。所述客户端720包括台式计算机、膝上型计算机、掌上电脑、个人数字助理（PDA）、手持式电子处理装置、结合PDA和手机功能的智能手机、导航装置、或能够显示数据信息（例如网络站点信息）并自动处理数据信息的任何其他电子装置。

本实施例通过对互联网用户的兴趣的增量学习，实时判断用户的兴趣，并根据用户的兴趣实时为用户推荐网络内容，提升了用户的上网体验。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的通信终端实施，对于语音信息的发送以及接收功能可以集成于同一通信终端上以使得通信终端既可以发送也可以接收语音信息。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络内容自动推荐方法，其特征在于，包括：

接收网络文本数据，从接收的网络文本数据中提取关键词；

利用所述关键词按照增量学习的方式训练关键词分类器；

2.根据权利要求1所述的网络内容自动推荐方法，其特征在于，所述接收网络文本数据，从接收的网络文本数据中提取关键词包括：

接收网络文本数据；

对所述网络文本数据进行切词，获得准关键词；

计算所述准关键词的重要度；以及

将所述准关键词中重要度高于重要度阈值的准关键词作为关键词。

3.根据权利要求2所述的网络内容自动推荐方法，其特征在于，所述计算所述准关键词的重要度是根据词频-逆向文档频率（term frequency-inversedocument frequency,TF-IDF）算法计算所述准关键词的重要度。

4.根据权利要求1所述的网络内容自动推荐方法，其特征在于，所述利用所述关键词按照增量学习的方式训练关键词分类器是利用所述关键词按照半监督学习的方式训练关键词分类器。

5.根据权利要求4所述的网络内容自动推荐方法，其特征在于，所述利用所述关键词按照半监督学习的方式训练关键词分类器是利用已分类关键词通过半监督学习算法对新提取的未分类关键词进行分类。

6.根据权利要求1所述的网络内容自动推荐方法，其特征在于，所述接收特定用户的网络文本数据，根据所述关键词分类器对从所述特定用户的网络文本数据中提取的关键词的分类结果对所述特定用户进行分类包括：

接收特定用户的网络文本数据；

统计每个类别的关键词在所述特定用户的网络文本数据中出现的次数；以及

将关键词在所述特定用户的网络文本数据中出现次数最多的至少两个类别设置为所述特定用户的类别。

7.根据权利要求1所述的网络内容自动推荐方法，其特征在于，所述根据对所述特定用户的分类，并按照预先定义的网络内容的分类向特定用户推荐特定用户感兴趣的网络内容包括：

统计每个类别中各网络内容被访问的次数；以及

将每个类别中被访问次数最高的至少两个网络内容推荐给用户。

8.根据权利要求1所述的网络内容自动推荐方法，其特征在于，所述网络文本数据包括所有用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本；所述特定用户的网络文本数据包括所述特定用户浏览的网页上的文本、特定用户在即时通讯工具中输入的文本和特定用户在社交网络站点上输入的文本。

9.一种网络内容自动推荐装置，其特征在于，包括：

10.根据权利要求9所述的网络内容自动推荐装置，其特征在于，所述关键词提取模块包括：

第一文本数据接收子模块，用于接收网络文本数据；

文本切词子模块，用于对所述网络文本数据进行切词，获得准关键词；

重要度计算子模块，用于计算所述准关键词的重要度；以及

关键词获取子模块，用于将所述准关键词中重要度高于重要度阈值的准关键词作为关键词。

11.根据权利要求10所述的网络内容自动推荐装置，其特征在于，所述重要度计算子模块根据词频-逆向文档频率（term frequency-inverse documentfrequency,TF-IDF）算法计算所述准关键词的重要度。

12.根据权利要求9所述的网络内容自动推荐装置，其特征在于，所述关键词分类器训练模块利用所述关键词按照半监督学习的方式训练关键词分类器。

13.根据权利要求12所述的网络内容自动推荐装置，其特征在于，所述关键词分类器训练模块利用所述关键词按照半监督学习的方式训练关键词分类器的过程是利用已分类关键词通过半监督学习算法对新提取的未分类关键词进行分类。

14.根据权利要求9所述的网络内容自动推荐装置，其特征在于，所述特定用户分类模块包括：

第二文本数据接收子模块，用于接收特定用户的网络文本数据；

关键词词频统计子模块，用于统计每个类别的关键词在所述特定用户的网络文本数据中出现的次数；以及

类别设置子模块，用于将关键词在所述特定用户的网络文本数据中出现次数最多的至少两个类别设置为所述特定用户的类别。

15.根据权利要求9所述的网络内容自动推荐装置，其特征在于，所述网络内容推荐模块包括：

访问次数统计子模块，用于统计每个类别中各网络内容被访问的次数；以及

网络内容选取子模块，用于将每个类别中被访问次数最高的至少两个网络内容推荐给用户。

16.根据权利要求9所述的网络内容自动推荐装置，其特征在于，所述网络文本数据包括所有用户浏览的网页上的文本、所有用户在即时通讯工具中输入的文本和所有用户在社交网络站点上输入的文本；所述特定用户的网络文本数据包括所述特定用户浏览的网页上的文本、特定用户在即时通讯工具中输入的文本和特定用户在社交网络站点上输入的文本。

17.一种网络内容自动推荐系统，包括服务器和客户端，其特征在于，所述服务器包括权利要求9-16任一所述的网络内容自动推荐装置。