CN106951494A

CN106951494A - 一种信息推荐方法及装置

Info

Publication number: CN106951494A
Application number: CN201710151351.6A
Authority: CN
Inventors: 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-07-14
Anticipated expiration: 2037-03-14
Also published as: CN106951494B

Abstract

本发明公开了一种信息推荐方法及装置，该信息推荐方法包括：获取候选文章集、以及所述候选文章集中每一候选文章的标题信息；根据所述候选文章集和标题信息确定候选词集；根据所述候选词集、标题信息和候选文章集生成候选标签组，所述候选标签组中每一候选标签对应至少一篇候选文章；根据所述候选词集、候选标签组和候选文章集建立推荐数据库；基于所述推荐数据库向用户推荐信息。上述信息推荐方法及装置无需用户进行海量检索即可得到感兴趣的文章，方法简单、获取效率高。

Description

一种信息推荐方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息推荐方法及装置。

背景技术

现在，化妆是一种潮流时尚，很多的职场女性或者出去约会的女生都需要化妆，化妆可以美化容貌、增加女性气质，可以说，化妆是现在女性生活中必不可少的一件事情。

如何画一个精致又适合自己的妆容是很多美妆女性需要学习的内容，为此，很多女性用户会在互联网上搜索和阅读美妆教程类的相关文章，以提高自己的化妆水平。但是，对于大数据时代，若要用户自己从鱼龙混杂的互联网检索出想要的文章，需要花费大量的时间和精力，检索效率低、获取成本较高。

发明内容

本发明的目的在于提供一种信息推荐方法及装置，以解决现有美妆类教学文章获取途径繁杂、获取效率低的技术问题。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种信息推荐方法，包括：

获取候选文章集、以及所述候选文章集中每一候选文章的标题信息；

根据所述候选文章集和标题信息确定候选词集；

根据所述候选词集、标题信息和候选文章集生成候选标签组，所述候选标签组中每一候选标签对应至少一篇候选文章；

根据所述候选词集、候选标签组和候选文章集建立推荐数据库；

基于所述推荐数据库向用户推荐信息。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种信息推荐装置，包括：

获取模块，用于获取候选文章集、以及所述候选文章集中每一候选文章的标题信息；

确定模块，用于根据所述候选文章集和标题信息确定候选词集；

生成模块，用于根据所述候选词集、标题信息和候选文章集生成候选标签组，所述候选标签组中每一候选标签对应至少一篇候选文章；

建立模块，用于根据所述候选词集、候选标签组和候选文章集建立推荐数据库；

推荐模块，用于基于所述推荐数据库向用户推荐信息。

本发明所述的信息推荐方法及装置，通过获取候选文章集、以及该候选文章集中每一候选文章的标题信息，并根据该候选文章集和标题信息确定候选词集，之后，根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章，之后，根据该候选词集、候选标签组和候选文章集建立推荐数据库，并基于该推荐数据库向用户推荐信息，从而无需用户进行海量检索即可得到感兴趣的文章，方法简单、获取效率高。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1为本发明实施例提供的信息推荐方法的流程示意图；

图2a为本发明实施例提供的信息推荐方法的流程示意图；

图2b为本发明实施例提供的步骤S204的流程示意图；

图2c为本发明实施例提供的候选标签的推荐流程示意图；

图2d为本发明实施例提供的候选文章的推荐流程示意图；

图3a为本发明实施例提供的信息推荐装置的结构示意图；

图3b为本发明实施例提供的生成模块的结构示意图；

图3c为本发明实施例提供的建立模块的结构示意图；

图4本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种信息推荐方法和装置。以下分别进行详细说明。需说明的是，以下实施例的编号并不作为对实施例优选顺序的限定。

第一实施例

本实施例将从信息推荐装置的角度进行描述，该信息推荐装置具体可以作为独立的实体来实现，也可以集成在其他的设备，比如服务器中来实现，该服务器可以是应用服务器。

一种信息推荐方法，包括：获取候选文章集、以及该候选文章集中每一候选文章的标题信息，并根据该候选文章集和标题信息确定候选词集，之后，根据该候选词集、标题信息和候选文章集生成候选标签组集，每一候选词对应一个候选标签组，每一候选标签对应至少一篇候选文章，之后，根据该候选词集、候选标签组集和候选文章集建立推荐数据库，并基于该推荐数据库向用户推荐信息。

如图1所示，该信息推荐方法的具体流程可以如下：

S101、获取候选文章集、以及该候选文章集中每一候选文章的标题信息。

本实施例中，该候选文章集包括至少一篇候选文章，该候选文章主要包括指定领域(比如美妆领域)的讲述类文章，这些讲述类文章可以是直接从网络下载的，也可以是本地存储的。该讲述类文章是指具有连续讲述步骤的文章，其包括字符和图像，每一字符包括汉字、字母或数字。每个讲述步骤是一个字符段落，一个图像也是一个段落，且每个讲述步骤都配有相应的图像。每一候选文章可以包括标题信息和正文内容，通常，该标题信息用于概括正文内容所描述的主题，其主要包括字符，该正文内容可以包括字符和图像。

S102、根据该候选文章集和标题信息确定候选词集。

例如，上述步骤S102具体可以包括：

1-1、对该候选文章集中每一候选文章进行分词处理，得到词集。

本实施例中，该词集包括至少一个词，每一个词包括至少两个字符。具体可以通过分词技术，比如基于字典、词库匹配的分词法(字符串匹配法)，或者基于知识理解的分词法(语义分词法)，或者基于词频度统计的分词法(统计分词法)等，对整个候选文章进行处理，得到每一侯选文章所包含的所有词。

1-2、利用预设算法对该词集进行筛选操作，得到筛选后词集。

本实施例中，该筛选后词集包括至少一个词，该预设算法可以根据需求而定，比如可以是TF-IDF(Term Frequency–Inverse Document Frequency)算法，主要用于评估单个词对候选文章集的重要程度，具体可以结合单个词的出现频次和权重系数来计算重要程度，重要程度满足指定值的词可以存储在筛选后词集中。该出现频次主要指单个词的出现次数，该权重系数主要针对常见词和非常见词而设定的，通常，越常见的词设置的权重系数越小，比如对于“的”、“是”或者“在”等这种常见词，权重系数可以很小，对于“眼霜”这种非常见词，权重系数可以很大。

1-3、根据该筛选后词集和标题信息确定候选词集。

例如，上述步骤1-3具体可以包括：

计算该筛选后词集中每一词在该标题信息中出现的总次数；

将总次数大于第一预设阀值的词确定为候选词，并添入候选词集。

本实施例中，该候选词集包括至少一个候选词，每一候选词主要是名词，也即表示名称的字符组合，比如眼霜、眼影或者BB霜等。该第一预设阈值可以根据候选文章集中候选文章的总量而定，比如可以是候选文章总数量的万分之一，主要用于过滤一些不常用的词，得到符合大多数用户用语习惯的词。

S103、根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章。

本实施例中，该侯选标签组包括至少一个候选标签，每一侯选标签都是从标题信息中提炼出来的内容，通常都简明扼要的指示出候选文章的撰写意图，比如指示该候选文章是用来介绍某个产品性能的，还是用来介绍该产品是怎样使用的，或者是用来介绍该产品的制作工艺，等等，每一侯选标签一般都是一个短句，其字数少于标题信息所包含的字数。

例如，上述步骤S103具体可以包括：

2-1、根据该候选词集和标题信息对该候选文章集进行分组，得到待处理文章组，每一候选词对应一个待处理文章组。

本实施例中，每一待处理文章组包括至少一篇候选文章。

例如，上述步骤2-1具体可以包括：

将每一候选文章的标题信息与该候选词集中的候选词进行匹配；

将与同一候选词匹配成功的所有候选文章归为同一组，得到待处理文章组。

本实施例中，由于标题信息可以反映文章主题，而候选词又是从标题信息中提取出来的词，故可以根据候选词对候选文章进行分组，将标题信息中具有同一候选词的候选文章划分为同一待处理文章组，从而可使划分到同一待处理文章组的候选文章都具有相同的主题。需要说明的是，由于有些标题信息可能存在两个候选词，故待处理文章组和待处理文章组之间可能存在相同的候选文章。

2-2、根据该待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签，并添入候选标签组。

本实施例中，由于每篇候选文章所要介绍的内容一般都体现在标题信息中，而每个候选词又是从标题信息中提取出来的关键词，故可以根据标题信息中围绕该候选词展开的短语来准确推测出该候选文章的撰写意图，也即生成候选标签。

例如，以任一待处理文章组为例，上述步骤2-2具体可以包括：

2-2-1、对该待处理文章组中每一候选文章的标题信息进行语法分析，得到词性信息。

本实施例中，可以通过语法分析器来对标题信息进行语法分析，具体可以通过自上而下语法分析方法或者自下而上语法分析方法来实现。该词性信息是指以词的特点，比如以语法特征(包括句法功能和形态变化)为主要依据，兼顾词汇意义对词进行划分得到的，该词性信息可以包括动词、形容词、名词和介词等等。

2-2-2、获取该候选词在标题信息中出现的位置信息。

本实施例中，经由语法分析后的标题信息可以表现为多个按序排列的词，该候选词在该标题信息中的排列位置即为该位置信息。

2-2-3、根据该候选词、位置信息、词性信息和标题信息生成候选标签，并添入候选标签组。

例如，上述步骤2-2-3具体可以包括：

根据该位置信息和词性信息，按照预设规则从该待处理文章组的每一标题信息中确定目标词组，每一标题信息对应一个目标词组，每一目标词组包括至少一个目标词；

根据每一目标词组和对应的候选词生成候选标签，并添入候选标签组。

本实施例中，该目标词可以是动词、形容词以及名词中的一种或者几种。该预设规则可以根据需求而定，比如可以提取标题信息中距离候选词前后最近的动词和/或形容词，作为该标题信息的目标词，得到目标词组，其大致可以包括以下五种提取方式：

a.动词+形容词+名词{候选词}；

b.动词+名词{候选词}；

c.形容词+名词{候选词}+动词[可选非必须]；

d.名词{候选词}+动词+名词[可选非必须]；

f.名词{候选词}+形容词；

当通过合适的提取方式从标题信息中提取出多个目标词时，应按照原先的排列位置将目标词与对应的候选词组合，形成的短句就是候选标签。

需要说明的是，由于通过单个候选词对文章进行分组时，每一待处理文章组中候选文章的数量会比较多，比如几百至几千篇，若直接对每个待处理文章组的标题信息进行目标词组提取，有些标题信息可能需要将以上几种提取方式都进行一遍，才能找到对应的提取方式，耗时长，同时，由于每种提取方式都倾向于某种话题类型的文章，比如提取方式a、b倾向于产品的制作方法，提取方式c倾向于产品的使用方法或产品性能介绍等，故可以先通过一些用于隐含话题挖掘的分类模型，比如文档主题生成模型(Latent DirichletAllocation,LDA)，或概率隐语义分析模型(probabilistic latent semantic analysis，PLSA)等，对每一待处理文章组进行话题细分，比如将每一待处理文章组分成10个话题类别，然后针对每个话题类别选择几种最佳的提取方式优先提取，从而能较快的提取出目标词组，大大提高了提取效率，加快了候选标签的生成速度。

S104、根据该候选词集、候选标签组和候选文章集建立推荐数据库。

例如，上述步骤S104具体可以包括：

3-1、将该候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组。

本实施例中，每一候选文章组包括至少一篇候选文章。当根据候选标签对候选文章集进行分组得到候选文章组后，每一候选文章组中的候选文章具有一个相同的话题内容，从而方便后续查找和推送对应话题的候选文章。

3-2、建立该候选词集中每一候选词与候选标签组之间的关联，得到第一关联关系。

本实施例中，该第一关联关系可以包括候选词、候选标签组、以及候选词与候选标签组的对应关系。

3-3、根据该候选标签组和候选文章组确定第二关联关系。

本实施例中，可以直接将候选标签组、候选文章组、以及每一候选标签和候选文章组的对应关系确定为第二关联关系，这样，后续根据候选标签向用户推送的就是候选文章组。为确保每次只向用户推送一篇候选文章，可以根据点击量、转发量或者发布时间等信息对每个候选文章组中的候选文章进行排序，按序每次获取一篇候选文章进行推送。当然，为节省每次推送所耗的流量，可以采取分段推送的方式，也即每次只推送文章的一小段而非全部，当用户需要往下阅读的时候，才继续推送下一段，当用户想换一篇文章时，可以按序切换到下一篇候选文章的第一段，从而能最大程度节省单次推送的流量，提高用户体验性。

例如，当后续需要采取分段推送方式时，上述步骤3-3具体可以包括：

从该候选文章组中提取出每一候选文章所包含的段落，得到段落组，每一候选文章对应一个段落组；

根据该段落组生成候选片段组，每一段落组对应一个候选片段组；

建立每一候选标签和候选文章组之间、以及每一候选文章和候选片段组之间的关联，得到第二关联关系。

本实施例中，每一段落组包括至少一个段落，该段落是从正文内容中提取出来的，其可以是文字内容或图像内容。该第二关联关系可以包括候选标签、候选文章组、候选片段组、每一候选标签和候选文章组的对应关系、以及每一候选文章与候选片段组的对应关系。该候选片段可以根据候选文章所包含的段落生成，比如可以直接将每个段落作为一个候选片段，也可以将多个段落合并为一个候选片段，具体可以根据实际需求而定。

例如，上述步骤“根据每一段落组生成候选片段组”具体可以包括：

从每一段落组中获取内容是图像的段落，作为目标段落；

根据该目标段落对该段落组进行调整；

将调整后段落组中的每一段落作为一个候选片段，得到候选片段组。

本实施例中，由于候选文章中的每个图像都是一个段落，而有些图像下面会附注有一两句文字说明，这些附注说明通常也会以段落的形式呈现，若将图像与附注说明分开推送，难免会使推送内容不紧凑，导致用户阅读体验感差，因此，最好将该附注说明与图像一起推送，也即，上述步骤“根据该目标段落对该段落组进行调整”具体可以包括：

从该段落组中获取与该目标段落相邻的下一个段落；

计算获取的下一个段落的字数；

将字数小于第二预设阀值的下一个段落合并到对应的目标段落中，以对该段落组进行调整。

本实施例中，该第二预设阀值可以根据实际需求而定，其主要用于区分该下一个段落是正常段落，还是与图像有关的附注说明，比如该第二预设阀值可以是30。当某个图像的下一个段落的字数少于第二预设阀值时，可以推测该段落内容是与图像紧密相连的，也即是与图像有关的附注说明，此时，可以将这两个段落进行合并。

3-4、将该第一关联关系和第二关联关系存储在推荐数据库中。

本实施例中，该推荐数据库可以根据实际需求而定，比如可以是用户指定的某个存储区域。

S105、基于该推荐数据库向用户推荐信息。

本实施例中，当推荐数据库建立好后，后续可以从该推荐数据库中获取对应的数据向用户推荐。

例如，上述步骤S105具体可以包括：

4-1、获取信息推荐请求，该信息推荐请求携带检索词。

本实施例中，该检索词通常为单个词或者词组，其可以从指定接口获取，比如可从应用界面上的输入框获取，该输入框主要用于为用户提供文字输入口。当用户在输入框中输入所需搜索的内容时，点击“完成”按钮即可生成信息推荐请求。

4-2、根据该检索词和第一关联关系从该推荐数据库中确定可选标签组。

例如，上述步骤4-2具体可以包括：

将该检索词与候选词集中的候选词进行匹配；

若匹配成功，则根据该第一关联关系，从该推荐数据库中查找与匹配成功的候选词对应的候选标签组，作为可选标签组。

本实施例中，当候选词集中存储有用户输入的检索词时，可以从推荐数据库中查找到与该检索词对应的候选标签组，作为向用户推送的可选标签组，从而无需输入过多的文字即推测出用户推荐感兴趣的话题(也即候选标签)，简化了用户输入，简单方便。

4-3、根据该第二关联关系和可选标签组从该推荐数据库中确定目标片段。

例如，上述步骤4-3具体可以包括：

4-3-1、向用户发送该可选标签组，以使用户根据该可选标签组确定目标标签。

本实施例中，该可选标签组可以显示在应用界面的指定位置，比如应用界面的左下方或正下方等，以供用户选择。需要说明的是，由于每一可选标签组中候选标签的数量可能比较多，而应用界面的显示空间又有限，故可以将该可选标签组分批发送，比如每次向用户发送3个或4个，此时，每个候选标签的发送批次可以根据相关度高低或者发布时间远近来决定，相关度越高或发布时间越近，该候选标签的发送批次越早，与此同时，应用界面每次只显示一批候选标签，当用户点击“换一批”按钮时，才开始发送下一批候选标签，以此类推，直到用户选择了某个候选标签作为目标标签为止。

4-3-2、接收用户根据该可选标签组返回的目标标签。

本实施例中，当用户点击了应用界面上显示的某个候选标签时，该候选标签即作为目标标签返回至服务器。

4-3-3、根据该第二关联关系和目标标签从该推荐数据库中确定目标片段。

例如，上述步骤4-3-3具体可以包括：

根据该第二关联关系，从该推荐数据库中查找与该目标标签对应的候选文章组、以及该候选文章组中每一候选文章对应的候选片段组；

根据查找到的候选文章组确定目标文章；

根据该目标文章对应的候选片段组确定目标片段。

本实施例中，该候选文章组中的候选文章可以按照热度高低或发布时间远近进行排序，该候选片段组中的候选片段是按序排列的，其排列顺序通常和对应段落在候选文章中的排列顺序一致。该目标文章和目标片段是通过用户与服务器的互动来确定的，通常，会默认将候选文章组中排在第一位的候选文章确定为首次的目标文章，将选片段组中排在第一位的候选片段确定为首次的目标片段。当用户点击“换一个”按钮时，该目标文章更换为排在下一位的候选文章，当用户点击“继续”或者向上拉动屏幕时，该目标片段更换为排在下一位的候选片段，以此类推。

4-4、向用户推荐该目标片段。

本实施例中，可以通过对话的形式将每次推荐的目标片段显示在应用界面中，趣味性强，用户体验感好。

由上述可知，本实施例提供的信息推荐方法，通过获取候选文章集、以及该候选文章集中每一候选文章的标题信息，并根据该候选文章集和标题信息确定候选词集，之后，根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章，之后，根据该候选词集、候选标签组和候选文章集建立推荐数据库，并基于该推荐数据库向用户推荐信息，从而无需用户进行海量检索即可得到感兴趣的文章，方法简单、获取效率高。

第二实施例

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以信息推荐装置集成在服务器中为例进行详细说明。

如图2a所示，一种信息推荐方法，具体流程可以如下：

S201、服务器获取候选文章集、以及该候选文章集中每一候选文章的标题信息。

譬如，该候选文章集可以是定期从指定网络平台上获取的讲述类文章，比如美妆类讲述文章，每一讲述类文章都包括标题信息和正文内容，该正文内容中每个段落通常是一个讲述步骤或者某个讲述步骤的配图，该标题信息用于概括正文内容所描述的主题。

S202、服务器对该候选文章集中每一候选文章进行分词处理，得到词集，并利用预设算法对该词集进行筛选操作，得到筛选后词集。

譬如，可以利用字符串匹配方法对候选文章进行分词处理，比如可以将候选文章中的字符串与字典、词库中的字符串进行匹配，将匹配成功的字符串作为一个词。该预设算法可以是TF-IDF算法，比如可以结合单个词在候选文章集中出现的次数和权重系数来计算该词的重要程度，过滤掉不重要的词，剩下的就是筛选后词集，

S203、服务器计算该筛选后词集中每一词在该标题信息中出现的总次数，将总次数大于第一预设阀值的词确定为候选词，并添入候选词集。

譬如，该候选文章集的数量大致可以在100万左右，该第一预设阀值可以是100，该筛选后词集可以包括{眼霜、裸妆、BB霜…眼睑}，若词“眼睑”只在75篇候选文章的标题信息中出现，说明不是常用词，不能作为候选词。

S204、服务器根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章。

例如，请参见图2b，上述步骤S204具体可以包括：

S2041、服务器根据该候选词集和标题信息对该候选文章集进行分组，得到待处理文章组，每一候选词对应一个待处理文章组。

例如，上述步骤S2041具体可以包括：

譬如，若该候选词集包括300个美妆领域的专属词汇(也即候选词)，比如“眼影”、“双眼皮”、“眼霜”、“裸妆”、“彩妆”和“BB霜”等，此时，对应得到的待处理文章组也为300个，且每一专属词汇对应一个待处理文章组，每一待处理文章组中待处理文章的数量可以在100至1000之间。

S2042、服务器对该待处理文章组中每一候选文章的标题信息进行语法分析，得到词性信息，并获取该候选词在标题信息中出现的位置信息。

譬如，对标题信息“教你自制气垫BB霜”进行语法分析，得到的词可以包括“教”、“你”、“自制”、“气垫”以及“BB霜”，对应的词性信息依次为动词、代词、动词、形容词和名词，候选词“BB霜”位于该标题信息的末尾。

S2043、服务器根据该候选词、位置信息、词性信息和标题信息生成候选标签，并添入候选标签组。

例如，上述步骤S2043具体可以包括：

譬如，为提高候选标签的生成速度，可以先通过LDA分类模型将每一待处理文章组分成10类，每一类都代表一种话题，之后采用预设规则对每一类候选文章进行目标词组的提取，并将提取出的目标词组与对应的候选词组合，形成的短句就是候选标签，其中，该预设规则可以包括以下五种：

a.动词+形容词+名词{候选词}；

b.动词+名词{候选词}；

c.形容词+名词{候选词}+动词[可选非必须]；

d.名词{候选词}+动词+名词[可选非必须]；

f.名词{候选词}+形容词；

由于每一种话题都对应有几种最佳的提取方式，比如某一个类x1对应的最佳提取方式是a和c，则在对目标词组进行提取时，可以优先通过a和c提取，只有当提取失败时，才继续通过b、d和f提取，从而可以快速准确的找到目标词组。比如，类别x1中候选文章对应的标题可以包括：

“教你自制气垫BB霜,女人们开始惊叫吧！”，

“极密BB霜自然色使用教程:跟着老师打造韩式清透底妆”，

“强大的自制气垫bb霜教程！”，

“这是一篇气垫BB霜正确使用指南”。

当直接利用提取方式a和c进行提取，并将提取出的目标词组与候选词“BB霜”或“bb霜”组合后，得到的候选标签可以包括：“自制气垫BB霜”、“极密BB霜”、“自制气垫bb霜”和“气垫BB霜使用”。

S205、服务器将该候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组。

譬如，可以将候选标签为“自制气垫BB霜”的50篇候选文章归为同一候选文章组。

S206、服务器从该候选文章组中提取出每一候选文章所包含的段落，得到段落组，并根据每一段落组生成候选片段组，每一候选文章对应一个段落组，每一段落组对应一个候选片段组。

从每一段落组中获取内容是图像的段落，作为目标段落；

根据该目标段落对该段落组进行调整；

譬如，若某篇候选文章包括5个连续讲述步骤，且每个讲述步骤下都配有图像，有些图像下甚至附注有一两句文字说明，此时，该段落组中包括至少10个段落，这些段落包括图像、讲述步骤和附注说明。为避免在推送的时候，将图像和附注说明分开推送，从而造成推送内容不紧凑的现象，影响阅读体验，这里需要将附注说明与图像所在的两个段落合并为一个候选片段，与此同时，每个讲述步骤作为一个候选片段，从而得到只有10个片段的候选片段组，后续推送的时候，每次以片段为单位进行推送。

例如，上述步骤“根据该目标段落对该段落组进行调整”具体可以包括：

从该段落组中获取与该目标段落相邻的下一个段落；

计算获取的下一个段落的字数；

譬如，该第二预设阀值可以是30。当图像的下一个段落的字数少于30时，可以推测该段落并非讲述步骤，而是附注说明，此时，可以将该段落与图像进行合并。

S207、服务器建立每一候选词与候选标签组之间的关联关系，并建立每一候选标签和候选文章组之间、以及每一候选文章和候选片段组之间的关联关系，并存储在推荐数据库中。

譬如，可以将候选词“眼影”与候选标签组{眼影画法、眼影排行榜、眼影点评、蓝色眼影…眼影搭配}进行关联，将候选标签“眼影画法”与讲述眼影画法的候选文章组A1进行关联，将A1中的每篇候选文章与对应的候选片段组进行关联，之后，将“眼影”、候选标签组{眼影画法、眼影排行榜、眼影点评、蓝色眼影…眼影搭配}、候选文章组A1、与A1中每篇候选文章对应的候选片段组、以及对应的一些关联关系存储在推荐数据库中。

S208、服务器获取信息推荐请求，该信息推荐请求携带检索词。

譬如，当用户通过应用界面下方的输入框输入检索词“眼影”时，可以生成该信息推荐请求。

S209、服务器将该检索词与候选词集中的候选词进行匹配，若匹配成功，则执行下述步骤S210，若匹配失败，则可以不执行任何操作。

譬如，若候选词集中存在候选词“眼影”时，则匹配成功，若不存在，则匹配失败。

S210、服务器根据该第一关联关系，从该推荐数据库中查找与匹配成功的候选词对应的候选标签组，作为可选标签组。

譬如，该可选标签组可以包括{眼影画法、眼影排行榜、眼影点评、眼影搭配…蓝色眼影}，且该可选标签组中的候选标签均按照文章发布时间远近进行排序，发布时间越近越靠前。

S211、服务器向用户发送该可选标签组，以使用户根据该可选标签组确定目标标签。

譬如，该可选标签组的发送过程主要依靠用户和服务器的互动来实现，具体请参见图2c，比如，可以默认将“眼影画法”和“眼影排行榜”作为首批标签发送给用户，当用户点击“换一批”按钮时，会将“眼影点评”和“眼影搭配”作为第二批标签发送给用户，以此类推，直到用户选择了某个候选标签作为目标标签为止。

S212、服务器接收用户根据该可选标签组返回的目标标签，并根据该第二关联关系和目标标签从该推荐数据库中确定目标片段。

例如，上述步骤“根据该第二关联关系和目标标签从该推荐数据库中确定目标片段”具体可以包括：

根据查找到的候选文章组确定目标文章；

根据该目标文章对应的候选片段组确定目标片段。

譬如，当用户选择了候选标签“眼影画法”作为目标标签时，会先根据“眼影画法”查找到讲述眼影画法的候选文章组A1，该候选文章组A1中的候选文章可以按照热度高低或者发布时间进行排序，默认将候选文章组中排在第一位的候选文章确定为首次的目标文章，将选片段组中排在第一位的候选片段确定为首次的目标片段，当用户点击“换一个吧”按钮时，该目标文章更换为排在下一位的候选文章，当用户点击“小看，继续”或者向上拉动屏幕时，该目标片段更换为排在下一位的候选片段，以此类推，具体请参见图2d。

S213、服务器向用户推荐该目标片段。

譬如，可以通过对话的形式将每次推荐的目标片段显示在应用界面中，从而增强用户与机器之间的互动感，提升用户体验。

由上述可知，本实施例提供的信息推荐方法，其中服务器可以获取候选文章集、以及该候选文章集中每一候选文章的标题信息，并对该候选文章集中每一候选文章进行分词处理，得到词集，并利用预设算法对该词集进行筛选操作，得到筛选后词集，接着，计算该筛选后词集中每一词在该标题信息中出现的总次数，将总次数大于第一预设阀值的词确定为候选词，并添入候选词集，接着，服务器根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章，之后服务器将该候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组，接着，从该候选文章组中提取出每一候选文章所包含的段落，得到段落组，并根据每一段落组生成候选片段组，每一候选文章对应一个段落组，每一段落组对应一个候选片段组，接着，建立每一候选词与候选标签组之间的关联关系，并建立每一候选标签和候选文章组之间、以及每一候选文章和候选片段组之间的关联关系，并存储在推荐数据库中，从而完成整个推荐数据库的建立，之后，获取信息推荐请求，该信息推荐请求携带检索词，并将该检索词与候选词集中的候选词进行匹配，若匹配成功，则根据该第一关联关系，从该推荐数据库中查找与匹配成功的候选词对应的候选标签组，作为可选标签组，并向用户发送该可选标签组，以使用户根据该可选标签组确定目标标签，接着，接收用户根据该可选标签组返回的目标标签，并根据该第二关联关系和目标标签从该推荐数据库中确定目标片段，最后，向用户推荐该目标片段，从而无需用户进行海量检索即可得到感兴趣的文章，方法简单、获取效率高，并且通过与机器互动的方式来实现文章的推荐，趣味性强，用户体验性好。

第三实施例

根据实施例一和实施例二所描述的方法，本实施例将从信息推荐装置的角度进一步进行描述，该信息推荐装置可以集成在服务器中。

请参阅图3a，图3a具体描述了本发明第三实施例提供的信息推荐装置，其可以包括：获取模块10、确定模块20、生成模块30、建立模块40和推荐模块50，其中：

(1)获取模块10

获取模块10，用于获取候选文章集、以及该候选文章集中每一候选文章的标题信息。

(2)确定模块20

确定模块20，用于根据该候选文章集和标题信息确定候选词集。

例如，上述确定模块20具体可以用于：

1-2、对该候选文章集中每一候选文章进行分词处理，得到词集。

本实施例中，该词集包括至少一个词，每一个词包括至少两个字符。确定模块20具体可以通过分词技术，比如基于字典、词库匹配的分词法(字符串匹配法)，基于知识理解的分词法(语义分词法)，或者基于词频度统计的分词法(统计分词法)等，对整个候选文章进行处理，得到每一侯选文章所包含的所有词。

1-3、根据该筛选后词集和标题信息确定候选词集。

例如，上述确定模块20进一步可以用于：

计算该筛选后词集中每一词在该标题信息中出现的总次数；

(3)生成模块30

生成模块30，用于根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章。

例如，请参阅图3b，该生成模块30具体可以包括：第一分组子模块31和生成子模块32，其中：

第一分组子模块31，用于根据该候选词集和标题信息对该候选文章集进行分组，得到待处理文章组，每一候选词对应一个待处理文章组。

本实施例中，每一待处理文章组包括至少一篇候选文章。

例如，该第一分组子模块31具体可以用于：

本实施例中，由于标题信息可以反映文章主题，而候选词又是从标题信息中提取出来的词，故第一分组子模块31可以根据候选词对候选文章进行分组，将标题信息中具有同一候选词的候选文章划分为同一待处理文章组，从而可使划分到同一待处理文章组的候选文章都具有相同的主题。需要说明的是，由于有些标题信息可能存在两个候选词，故待处理文章组和待处理文章组之间可能存在相同的候选文章。

生成子模32，用于根据该待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签，并添入候选标签组。

本实施例中，由于每篇候选文章所要介绍的内容一般都体现在标题信息中，而每个候选词又是从标题信息中提取出来的关键词，故生成子模32可以根据标题信息中围绕该候选词展开的短语来准确推测出该候选文章的撰写意图，也即生成候选标签。

例如，该生成子模块32具体可以用于：

本实施例中，生成子模块32可以通过语法分析器来对标题信息进行语法分析，具体可以通过自上而下语法分析方法或者自下而上语法分析方法来实现。该词性信息是指以词的特点，比如以语法特征(包括句法功能和形态变化)为主要依据，兼顾词汇意义对词进行划分得到的，该词性信息可以包括动词、形容词、名词和介词等等。

2-2-2、获取该候选词在标题信息中出现的位置信息。

例如，上述生成子模块32进一步可以用于：

a.动词+形容词+名词{候选词}；

b.动词+名词{候选词}；

c.形容词+名词{候选词}+动词[可选非必须]；

d.名词{候选词}+动词+名词[可选非必须]；

f.名词{候选词}+形容词；

当生成子模块32通过合适的提取方式从标题信息中提取出多个目标词时，应按照原先的排列位置将目标词与对应的候选词组合，形成的短句就是候选标签。

需要说明的是，由于通过单个候选词对文章进行分组时，每一待处理文章组中候选文章的数量会比较多，比如几百至几千篇，若直接对每个待处理文章组的标题信息进行目标词组提取，有些标题信息可能需要将以上几种提取方式都进行一遍，才能找到对应的提取方式，耗时长，同时，由于每种提取方式都倾向于某种话题类型的文章，比如提取方式a、b倾向于产品的制作方法，提取方式c倾向于产品的使用方法或产品性能介绍等，故生成子模块32可以先通过一些用于隐含话题挖掘的分类模型，比如文档主题生成模型(LatentDirichlet Allocation,LDA)，或概率隐语义分析模型(probabilistic latent semanticanalysis，PLSA)等，对每一待处理文章组进行话题细分，比如将每一待处理文章组分成10个话题类别，然后针对每个话题类别选择几种最佳的提取方式优先提取，从而能较快的提取出目标词组，大大提高了提取效率，加快了候选标签的生成速度。

(4)建立模块40

建立模块40，用于根据该候选词集、候选标签组和候选文章集建立推荐数据库。

例如，请参见图3c，该建立模块40具体可以包括：第二分组子模块41、建立子模块42、确定子模块43和存储子模块44，其中：

第二分组子模块41，用于将该候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组。

本实施例中，每一候选文章组包括至少一篇候选文章。当第二分组子模块41根据候选标签对候选文章集进行分组得到候选文章组后，每一候选文章组中的候选文章具有一个相同的话题内容，从而方便后续查找和推送对应话题的候选文章。

建立子模块42，用于建立该候选词集中每一候选词与候选标签组之间的关联，得到第一关联关系。

确定子模块43，用于根据该候选标签组和候选文章组确定第二关联关系。

本实施例中，确定子模块43可以直接将候选标签组、候选文章组、以及每一候选标签和候选文章组的对应关系确定为第二关联关系，这样，后续根据候选标签向用户推送的就是候选文章组。为确保每次只向用户推送一篇候选文章，可以根据点击量、转发量或者发布时间等信息对每个候选文章组中的候选文章进行排序，按序每次获取一篇候选文章进行推送。当然，为节省每次推送所耗的流量，确定子模块43可以采取分段推送的方式，也即每次只推送文章的一小段而非全部，当用户需要往下阅读的时候，才继续推送下一段，当用户想换一篇文章时，可以按序切换到下一篇候选文章的第一段，从而能最大程度节省单次推送的流量，提高用户体验性。

例如，当后续需要采取分段推送方式时，该确定子模块43具体可以包括：提取单元、生成单元和建立单元，其中：

提取单元，用于从该候选文章组中提取出每一候选文章所包含的段落，得到段落组，每一候选文章对应一个段落组；

生成单元，用于根据该段落组生成候选片段组，每一段落组对应一个候选片段组；

建立单元，用于建立每一候选标签和候选文章组之间、以及每一候选文章和候选片段组之间的关联，得到第二关联关系。

例如，该生成单元进一步可以用于：

从每一段落组中获取内容是图像的段落，作为目标段落；

根据该目标段落对该段落组进行调整；

本实施例中，由于候选文章中的每个图像都是一个段落，而有些图像下面会附注有一两句文字说明，这些附注说明通常也会以段落的形式呈现，若将图像与附注说明分开推送，难免会使推送内容不紧凑，导致用户阅读体验感差，因此，最好将该附注说明与图像一起推送，也即，该生成单元进一步可以用于：

从该段落组中获取与该目标段落相邻的下一个段落；

计算获取的下一个段落的字数；

本实施例中，该第二预设阀值可以根据实际需求而定，其主要用于区分该下一个段落是正常段落，还是与图像有关的附注说明，比如该第二预设阀值可以是30。当某个图像的下一个段落的字数少于第二预设阀值时，可以推测该段落内容是与图像紧密相连的，也即是与图像有关的附注说明，此时，生成单元可以将这两个段落进行合并。

存储子模块44，用于将该第一关联关系和第二关联关系存储在推荐数据库中。

(5)推荐模块50

推荐模块50，用于基于该推荐数据库向用户推荐信息。

例如，该推荐模块50具体可以用于：

4-1、获取信息推荐请求，该信息推荐请求携带检索词。

例如，该推荐模块50进一步可以用于：

将该检索词与候选词集中的候选词进行匹配；

本实施例中，当候选词集中存储有用户输入的检索词时，推荐模块50可以从推荐数据库中查找到与该检索词对应的候选标签组，作为向用户推送的可选标签组，从而无需输入过多的文字即推测出用户推荐感兴趣的话题(也即候选标签)，简化了用户输入，简单方便。

例如，该推荐模块50进一步可以用于：

本实施例中，该可选标签组可以显示在应用界面的指定位置，比如应用界面的左下方或正下方等，以供用户选择。需要说明的是，由于每一可选标签组中候选标签的数量可能比较多，而应用界面的显示空间又有限，故推荐模块50可以将该可选标签组分批发送，比如每次向用户发送3个或4个，此时，每个候选标签的发送批次可以根据相关度高低或者发布时间远近来决定，相关度越高或发布时间越近，该候选标签的发送批次越早，与此同时，应用界面每次只显示一批候选标签，当用户点击“换一批”按钮时，推荐模块50才开始发送下一批候选标签，以此类推，直到用户选择了某个候选标签作为目标标签为止。

4-3-2、接收用户根据该可选标签组返回的目标标签。

例如，该推荐模块50进一步可以用于

根据查找到的候选文章组确定目标文章；

根据该目标文章对应的候选片段组确定目标片段。

本实施例中，该候选文章组中的候选文章可以按照热度高低或发布时间远近进行排序，该候选片段组中的候选片段是按序排列的，其排列顺序通常和对应段落在候选文章中的排列顺序一致。该目标文章和目标片段是通过用户与服务器的互动来确定的，通常，推荐模块50会默认将候选文章组中排在第一位的候选文章确定为首次的目标文章，将选片段组中排在第一位的候选片段确定为首次的目标片段。当用户点击“换一个”按钮时，推荐模块50会将该目标文章更换为排在下一位的候选文章，当用户点击“继续”或者向上拉动屏幕时，推荐模块50会将该目标片段更换为排在下一位的候选片段，以此类推。

4-4、向用户推荐该目标片段。

本实施例中，推荐模块50可以通过对话的形式将每次推荐的目标片段显示在应用界面中，趣味性强，用户体验感好。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上述可知，本实施例提供的信息推荐装置，通过获取模块10获取候选文章集、以及该候选文章集中每一候选文章的标题信息，确定模块20根据该候选文章集和标题信息确定候选词集，之后，生成模块30根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章，之后，建立模块40根据该候选词集、候选标签组和候选文章集建立推荐数据库，推荐模块50基于该推荐数据库向用户推荐信息，从而无需用户进行海量检索即可得到感兴趣的文章，方法简单、获取效率高。

第四实施例

相应的，本发明实施例还提供一种信息推荐系统，包括本发明实施例所提供的任一种信息推荐装置，该信息推荐装置可以集成在服务器中。

其中，服务器获取候选文章集、以及该候选文章集中每一候选文章的标题信息；根据该候选文章集和标题信息确定候选词集；根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章；根据该候选词集、候选标签组和候选文章集建立推荐数据库；基于该推荐数据库向用户推荐信息。

以上各个设备的具体实施可参见前面的实施例，在此不再赘述。

由于该路况信息的生成系统可以包括本发明实施例所提供的任一种信息推荐装置，因此，可以实现本发明实施例所提供的任一种信息推荐装置所能实现的有益效果，详见前面的实施例，在此不再赘述。

第五实施例

本发明实施例还提供一种服务器，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、射频(Radio Frequency，RF)电路603、电源604、输入单元605、以及显示单元606等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

RF电路603可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器601处理；另外，将涉及上行的数据发送给基站。通常，RF电路603包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路603还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源604(比如电池)，优选的，电源604可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元605，该输入单元605可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元605可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器601，并能接收处理器601发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元605还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该服务器还可包括显示单元606，该显示单元606可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元606可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取候选文章集、以及该候选文章集中每一候选文章的标题信息；

根据该候选文章集和标题信息确定候选词集；

根据该候选词集、标题信息和候选文章集生成候选标签组，该候选标签组中每一候选标签对应至少一篇候选文章；

根据该候选词集、候选标签组和候选文章集建立推荐数据库；

基于该推荐数据库向用户推荐信息。

该终端可以实现本发明实施例所提供的任一种信息推荐装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种信息推荐方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息推荐方法，其特征在于，包括：

根据所述候选文章集和标题信息确定候选词集；

基于所述推荐数据库向用户推荐信息。

2.根据权利要求1所述的信息推荐方法，其特征在于，所述根据所述候选词集、标题信息和候选文章集生成候选标签组，包括：

根据所述候选词集和标题信息对所述候选文章集进行分组，得到待处理文章组，每一候选词对应一个待处理文章组；

根据所述待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签，并添入候选标签组。

3.根据权利要求2所述的信息推荐方法，其特征在于，所述根据所述候选词集和标题信息对所述候选文章集进行分组，得到待处理文章组，包括：

将每一候选文章的标题信息与所述候选词集中的候选词进行匹配；

4.根据权利要求2所述的信息推荐方法，其特征在于，所述根据所述待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签，并添入候选标签组，包括：

对所述待处理文章组中每一候选文章的标题信息进行语法分析，得到词性信息；

获取所述候选词在标题信息中出现的位置信息；

根据所述候选词、位置信息、词性信息和标题信息生成候选标签，并添入候选标签组。

5.根据权利要求4所述的信息推荐方法，其特征在于，所述根据所述候选词、位置信息、词性信息和标题信息生成候选标签，并添入候选标签组，包括：

根据所述位置信息和词性信息，按照预设规则从所述待处理文章组的每一标题信息中确定目标词组，每一标题信息对应一个目标词组，每一目标词组包括至少一个目标词；

6.根据权利要求1所述的信息推荐方法，其特征在于，所述根据所述候选文章集和标题信息确定候选词集，包括：

对所述候选文章集中每一候选文章进行分词处理，得到词集；

利用预设算法对所述词集进行筛选操作，得到筛选后词集；

根据所述筛选后词集和标题信息确定候选词集。

7.根据权利要求6所述的信息推荐方法，其特征在于，所述根据所述筛选后词集和标题信息确定候选词集，包括：

计算所述筛选后词集中每一词在所述标题信息中出现的总次数；

8.根据权利要求1-7中任意一项所述的信息推荐方法，其特征在于，所述根据所述候选词集、候选标签组和候选文章集建立推荐数据库，包括：

将所述候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组；

建立所述候选词集中每一候选词与候选标签组之间的关联，得到第一关联关系；

根据所述候选标签组和候选文章组确定第二关联关系；

将所述第一关联关系和第二关联关系存储在推荐数据库中。

9.根据权利要求8所述的信息推荐方法，其特征在于，所述根据所述候选标签组和候选文章组确定第二关联关系，包括：

从所述候选文章组中提取出每一候选文章所包含的段落，得到段落组，每一候选文章对应一个段落组；

根据所述段落组生成候选片段组，每一段落组对应一个候选片段组；

10.根据权利要求9所述的信息推荐方法，其特征在于，所述根据所述段落组生成候选片段组，包括：

从每一段落组中获取内容是图像的段落，作为目标段落；

根据所述目标段落对所述段落组进行调整；

11.根据权利要求10所述的信息推荐方法，其特征在于，所述根据所述目标段落对所述段落组进行调整，包括：

从所述段落组中获取与所述目标段落相邻的下一个段落；

计算获取的下一个段落的字数；

将字数小于第二预设阀值的下一个段落合并到对应的目标段落中，以对所述段落组进行调整。

12.根据权利要求9所述的信息推荐方法，其特征在于，所述基于所述推荐数据库向用户推荐信息，包括：

获取信息推荐请求，所述信息推荐请求携带检索词；

根据所述检索词和第一关联关系从所述推荐数据库中确定可选标签组；

根据所述第二关联关系和可选标签组从所述推荐数据库中确定目标片段；

向用户推荐所述目标片段。

13.根据权利要求12所述的信息推荐方法，其特征在于，所述根据所述检索词和第一关联关系从所述推荐数据库中确定可选标签组，包括：

将所述检索词与候选词集中的候选词进行匹配；

若匹配成功，则根据所述第一关联关系，从所述推荐数据库中查找与匹配成功的候选词对应的候选标签组，作为可选标签组。

14.根据权利要求12所述的信息推荐方法，其特征在于，所述根据所述第二关联关系和可选标签组从所述推荐数据库中确定目标片段，包括：

向用户发送所述可选标签组，以使用户根据所述可选标签组确定目标标签；

接收用户根据所述可选标签组返回的目标标签；

根据所述第二关联关系和目标标签从所述推荐数据库中确定目标片段。

15.根据权利要求14所述的信息推荐方法，其特征在于，所述根据所述第二关联关系和目标标签从所述推荐数据库中确定目标片段，包括：

根据所述第二关联关系，从所述推荐数据库中查找与所述目标标签对应的候选文章组、以及所述候选文章组中每一候选文章对应的候选片段组；

根据查找到的候选文章组确定目标文章；

根据所述目标文章对应的候选片段组确定目标片段。

16.一种信息推荐装置，其特征在于，包括：

推荐模块，用于基于所述推荐数据库向用户推荐信息。

17.根据权利要求16述的信息推荐装置，其特征在于，所述生成模块包括：

第一分组子模块，用于根据所述候选词集和标题信息对所述候选文章集进行分组，得到待处理文章组，每一候选词对应一个待处理文章组；

生成子模块，用于根据所述待处理文章组中待处理文章的标题信息和对应的候选词生成候选标签，并添入候选标签组。

18.根据权利要求17述的信息推荐装置，其特征在于，所述第一分组子模块用于：

19.根据权利要求17述的信息推荐装置，其特征在于，所述生成子模块用于：

获取所述候选词在标题信息中出现的位置信息；

20.根据权利要求19述的信息推荐装置，其特征在于，所述生成子模块用于：

21.根据权利要求16所述的信息推荐装置，其特征在于，所述建立模块包括：

第二分组子模块，用于将所述候选文章集中具有相同候选标签的候选文章归为一组，得到候选文章组，每一候选标签对应一个候选文章组；

建立子模块，用于建立所述候选词集中每一候选词与候选标签组之间的关联，得到第一关联关系；

确定子模块，用于根据所述候选标签组和候选文章组确定第二关联关系；

存储子模块，用于将所述第一关联关系和第二关联关系存储在推荐数据库中。

22.根据权利要求21所述的信息推荐装置，其特征在于，所述确定子模块包括：

提取单元，用于从所述候选文章组中提取出每一候选文章所包含的段落，得到段落组，每一候选文章对应一个段落组；

生成单元，用于根据所述段落组生成候选片段组，每一段落组对应一个候选片段组；

23.根据权利要求22所述的信息推荐装置，其特征在于，所述生成单元用于：

从每一段落组中获取内容是图像的段落，作为目标段落；

根据所述目标段落对所述段落组进行调整；

24.根据权利要求23所述的信息推荐装置，其特征在于，所述生成单元用于：

从所述段落组中获取与所述目标段落相邻的下一个段落；

计算获取的下一个段落的字数；

25.根据权利要求22所述的信息推荐装置，其特征在于，所述推荐模块用于：

获取信息推荐请求，所述信息推荐请求携带检索词；

向用户推荐所述目标片段。