CN106933878B

CN106933878B - 一种信息处理方法及装置

Info

Publication number: CN106933878B
Application number: CN201511027841.2A
Authority: CN
Inventors: 吴一飞; 李兴飞; 郭卫敏
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2021-02-05
Anticipated expiration: 2035-12-30
Also published as: CN106933878A

Abstract

本发明公开了一种信息处理方法，所述方法包括：确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；获取第一文章集合；根据所述特征集合从所述第一文章集合中确定第二文章集合；根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；确定所述第四文章集合与所述第二文章集合之间的交集；将所述第二文章集合中除所述交集外的文章确定为第五文章集合；将所述第五文章集合输出。本发明同时还公开了一种信息处理装置。

Description

一种信息处理方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及一种信息处理方法及装置。

背景技术

互联网中重复新闻、博客、文章等数据约占总量的50％～70％，大量重复内容进入用户推荐阅读列表会非常影响用户的阅读体验。内容重复是一种个人阅读感知，用户对不同类别文章的内容重复认知也是不一样的。系统通过自动提取文章核心关键词进行文章相似度计算，并根据用户兴趣画像和阅读历史记录，依照用户阅读感知在线动态过滤重复文章。

相关技术在识别同源文章时会有比较高的准确率，其中同源文章是指同一篇文章内容被多个媒体进行转载，文章内容基本一致。但是对相同主题的文章识别相似度准确率很低，并且经常会产生误判；并且在计算文章分词的权重评分的时候，不同长度的文章TF(词频)对结果影像较大，从而导致最终结果会有偏差。此外，不同的文章相似度对不同兴趣类别的用户阅读感知也是不一样的，例如体育重度兴趣用户可能会财经类文章会不太敏感，但是对体育类别文章具有较强的需求。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种信息处理方法及装置，能够针对单个用户做个性化过滤，从而有效增强用户的阅读体验。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种信息处理方法，所述方法包括：

确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；

获取第一文章集合；

根据所述特征集合从所述第一文章集合中确定第二文章集合；

根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；

确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；

确定所述第四文章集合与所述第二文章集合之间的交集；

将所述第二文章集合中除所述交集外的文章确定为第五文章集合；

将所述第五文章集合输出。

第二方面，本发明实施例提供一种信息处理装置，所述装置包括第一确定单元、第一获取单元、第二确定单元、第二获取单元、第三确定单元、第四确定单元、第五确定单元和输出单元，其中：

所述第一确定单元，用于确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；

所述第一获取单元，用于获取第一文章集合；

所述第二确定单元，用于根据所述特征集合从所述第一文章集合中确定第二文章集合；

所述第二获取单元，用于根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；

所述第三确定单元，用于确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；

所述第四确定单元，用于确定所述第四文章集合与所述第二文章集合之间的交集；

所述第五确定单元，用于将所述第二文章集合中除所述交集外的文章确定为第五文章集合；

所述输出单元，用于将所述第五文章集合输出。

本发明实施例提供一种信息处理方法及装置，其中：确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；获取第一文章集合；根据所述特征集合从所述第一文章集合中确定第二文章集合；根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；确定所述第四文章集合与所述第二文章集合之间的交集；将所述第二文章集合中除所述交集外的文章确定为第五文章集合；将所述第五文章集合输出；如此，能够针对单个用户做个性化过滤，从而有效增强用户的阅读体验。

附图说明

图1-1为相关技术中计算指纹向量的实现流程示意图；

图1-2为相关技术中确定汉明距离的实现流程示意图；

图1-3为本发明实施例中进行信息交互的各方硬件实体的示意图；

图1-4为本发明实施例一信息处理方法的实现流程示意图；

图2为本发明实施例二信息处理方法的实现流程示意图；

图3为本发明实施例三计算相似度的流程示意图；

图4-1为本发明实施例各实体的硬件组成结构示意图；

图4-2为本发明实施例四信息处理装置的组成结构示意图。

具体实施方式

互联网中阅读应用和搜索引擎等系统，通常是根据文章内容计算生成指纹信息。通过两个指纹信息进行比较计算出的汉明距离，如果指纹信息的汉明距离小于预设的阈值，则说明两篇文章越相似；反之，则越不相似。相关技术中通常是通过某种算法计算文章的指纹信息，并计算两个指纹信息的汉明距离，然后根据计算的汉明距离进行文章过滤，相关技术中的技术方案包括如下步骤：

步骤S11，对文章进行分词等预处理；

首先将文章进行分词，得到第一分词结果；然后对所述分词结果进行过滤，得到第二分词结果；其中，所述过滤一般包括过滤常用词、标点符号、停用词等数据；

举例来说，假设文章1的内容为“支付宝实名认证存惊天漏洞！快打开手机检查一下你的账号！”，对文章1进行分词处理，生成的第一分词结果为“支付宝实名认证存惊天漏洞！快打开手机检查一下你的账号！”。然后对第一分词结果过滤常用词、标点符号、停用词等数据，则得到第二分词结果“支付宝实名认证存惊天漏洞打开手机检查账号”。一般采用空格或横线等标识符来表示汉字或单词之间的划分结果。

步骤S12，对文章所有分词按权重评分；

这里，计算每个分词的权重评分，评分公式参见公式(0-1)；

评分(Score)＝词频(TF)×逆文档频率(IDF) (0-1)；

公式(0-1)中，词频(TF)采用公式(0-2)表示，逆文档频率(IDF)采用公式(0-3)表示；

词频(TF)＝词在文章出现的次数 (0-2)；

根据计算出来的权重评分降序排列所有分词，如表1所示：

表1

步骤S13，生成文章的指纹信息；

这里，参见图1-1所示，每个分词结果中的每一个分词作为特征关键词计算成64位整形的Hash值，并转化成64位的向量，向量每一位对应hash的一位；其中，如果hash值该位是0，向量该位的值等于负的分词权重(-分词权重)，如果hash值该位是1，向量该位的值等于正的分词权重(分词权重)；然后，累加所有特征关键词向量生成64位指纹向量(指纹向量作为指纹信息)，如果指纹向量该位的值为负数，则将文章的指纹向量该位置为0，如果指纹向量该位的值为正数，则将文章指纹该位置为1，最终生成64位文章的指纹向量。

假设下面以支付宝和帐号为例进行说明，假设支付宝的Hash值为：Hash(支付宝)＝＞110011001101...＝＞Vector(0.28165，0.28165，-0.28165，-0.28165，0.28165，0.28165，-0.28165，-0.28165，0.28165，0.28165，-0.28165，0.28165，...)；假设帐号的Hash值为：Hash(帐号)＝＞011100000011...＝＞Vector(-0.22721，0.22721，0.22721，0.22721，-0.22721，-0.22721，-0.22721，-0.22721，-0.22721，-0.22721，0.22721，0.22721，...)；则累加帐号的Hash值和支付宝的Hash值，得到累加向量：累加所有向量＝＞Vector(-0.05444，0.50886，-0.05444，-0.05444，0.05444，...)；最后根据指纹向量正负符号转换成指纹信息＝＞11001010，...。

步骤S40，计算指纹信息的汉明距离，根据作为相似度的汉明距离进行重复数据过滤；

这里，比较两篇文章的64位的指纹信息，指纹信息的汉明距离等于两个指纹异或运算结果位值为1的个数。例如，参见图1-2所示，文章1的指纹信息表示为“1111 1101 10101111 1110 1111 0011 0010 0100 0010 0011 0100 0101 1111 1101 1010”，文章2的指纹信息表示为“0101 0100 0011 1101 1111 1111 0011 0100 0101 1111 1110 1111 00110010 1111 0101”，对文章1的指纹信息和文章2的指纹信息进行异或运算，得到的结果为“1010 1001 1001 0010 0001 0000 0000 0110 0001 1101 1101 1011 0110 1101 00101111”，其中，本例中文章1和文章2的汉明距离为30，因为异或结果中等于1的个数为30个；假设阈值设置为3，由于文章1和文章2的汉明距离为30，大于预设的阈值3，因此，说明文章1和文章2不相似。

下面介绍一下本发明实施例所涉及的信息交互的各方硬件实体，图1-3为本发明实施例中进行信息交互的各方硬件实体的示意图，图1-3中包括：服务器(可以为推荐文章的服务器)11......1n、终端设备21-24，终端设备21-24通过有线网络或者无线网络与服务器进行信息交互，终端设备包括手机、台式机、PC机、一体机等类型，用户可以通过终端设备21至24上的App接收服务器推荐的文章等。上述图1-3的例子只是实现本发明实施例的一个系统架构实例，本发明实施例并不限于上述图1-3所述的系统结构，基于该系统架构，提出本发明各个实施例。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

实施例一

为了解决前述的背景技术中存在的问题，本发明实施例提供一种信息处理方法，该方法应用于计算设备，该信息处理方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算设备至少包括处理器和存储介质。所述计算设备(如图1-3中的服务器11等)包括各种具有信息处理能力的电子设备，例如个人计算机、平板电脑、笔记本电脑、集成服务器等。

图1-4为本发明实施例一信息处理方法的实现流程示意图，如图1-4所示，，所述方法包括：

步骤S101，确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；

这里，所述特征可以为文章的类别信息或标签信息，例如，一般来说，文章可以分别散文、议论文、说明文等类型，文章也可以分别经济类、历史类、娱乐类、亲子类、百科类、科技类等标签，其中无论是文章的类别信息还是文章的标签信息都可以作为描述用户阅读文章的兴趣特征。

这里，所述特征可以为用户自己在终端上选择或输入的，还可以是服务器根据用户的阅读历史文章确定出的特征。

步骤S102，获取第一文章集合；

步骤S103，根据所述特征集合从所述第一文章集合中确定第二文章集合；

这里，所述第一文章集合可以为待推荐的文章集合，例如刚上线的新文章，对于某一特定的用户，那么还需要确定那些可以推荐给该用户的文章，显然不能把所有的新文章都推荐给一个用户，如此，可以根据用户的兴趣(特征集合)推荐文章给用户。

步骤S104，根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；

这里，所述第三文章集合可以为用户已经阅读的文章，所述第三文章集合的确定可以通过获取用户的属性信息而得到，所述用户的属性信息中包括用户已经阅读过的文章的列表。

步骤S105，确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；

这里，所述第四文章集合可以为已经读过的文章的类似文章，其中所述类似文章可以根据两篇文章的相似度来确定，相似度大于预设阈值的两篇文章称为相似文章。

这里，所述确定所述第三文章集合对应的第四文章集合，包括：

步骤S151，获取所述第三文章集合中第一文章的标识信息；

步骤S152，根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息；所述关联信息用于表明所述第一文章的标识信息与所述第二文章的标识信息之间的对应关系；

步骤S153，根据所述第二文章的标识信息形成第四文章集合。

步骤S106，确定所述第四文章集合与所述第二文章集合之间的交集；

这里，所述第三文章集合和所述第四文章集合中的共同文章即为所述交集。

步骤S107，将所述第二文章集合中除所述交集外的文章确定为第五文章集合；

步骤S108，将所述第五文章集合输出。

本发明实施例提供的技术方案，可以用于下面的场景，终端App向后台服务器端发起新文章列表获取请求，服务器端从数据库中获取该用户的特征集合；然后根据特征结合从新文章列表(即第一文章集合)中确定待推荐的文章列表(即第二文章集合)，本实施例中还需要对第二文章集合进行过滤，即备服务器端对待推荐的文章列表中的每篇文章以及相似文章查看其是否在该用户的历史阅读列表(即第三文章集合)中，如果在，则证明该文章已被用户阅读过，将其从待推荐的文章列表中删除。最终服务器将已过滤最终的推荐列表发送给终端App。

本发明实施例中，所述将所述第五文章集合输出，包括：

步骤S1081，将所述第五文章集合作为推荐文章发送给终端；

步骤S1082，所述第五文章集合中至少包括文章的标题和网址信息。

这里，所述标题便于用户查看文章的概要，所述网址信息便于用户查看文章的详情。

本发明实施例中，所述步骤S101，所述确定特征集合，包括：

步骤S111，获取第一文章的标识信息，所述第一文章为用户已阅读的文章；

步骤S112，根据所述第一文章的标识信息获取第一文章的内容或第一文章的标题或第一文章的关键词；

步骤S113，根据所述第一文章的内容或第一文章的标题或第一文章的关键词确定特征集合。

这里，可以设置某种规则或策略，以便确定特征集合，例如文章的标题或内容中出现某些关键词，即将关键词对应的特征确定为用户的特征集合，例如文章中出现GDP、国民生产总值、增长、股票、市场、证券、下降等关键词时，就认为用户阅读的兴趣包括经济类文章。

本发明实施例提中：确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；获取第一文章集合；根据所述特征集合从所述第一文章集合中确定第二文章集合；根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；确定所述第四文章集合与所述第二文章集合之间的交集；将所述第二文章集合中除所述交集外的文章确定为第五文章集合；将所述第五文章集合输出；如此，能够针对单个用户做个性化过滤，从而有效增强用户的阅读体验。

实施例二

图2为本发明实施例二信息处理方法的实现流程示意图，如图2所示，所述方法包括：

步骤S102，获取第一文章集合；

步骤S151，获取所述第三文章集合中第一文章的标识信息；

步骤S152，判断所述第一文章的标识信息是否在预设的关联信息中；

步骤S153，如果所述第一文章的标识信息在所述关联信息中，则根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息，根据所述第二文章的标识信息形成第四文章集合；

这里，所述关联信息用于表明所述第一文章的标识信息与所述第二文章的标识信息之间的对应关系；

步骤S154，如果所述第一文章的标识信息不在所述关联信息中，则从文章库中确定第三文章；

步骤S155，确定所述第一文章与所述第三文章之间的相似度；

步骤S156，如果所述第三文章满足预设的第一条件，则将所述第三文章作为所述第一文章的相似文章输出到所述第四文章集合中。

步骤S108，将所述第五文章集合输出。

本发明实施例中，步骤S154，所述从文章库中确定第三文章，包括：

步骤S1541，根据所述第一文章的标识信息获取所述第一文章的标签信息；

步骤S1542，将所述文章库与所述第一文章的标签信息相同的文章作为第六文章集合；

步骤S1543，将所述第六文章集合中的任意一篇文章作为所述第三文章。

本发明实施例中，所述方法还包括：形成所述关联信息，所述形成所述关联信息包括：

步骤S201，对所述第一文章进行分词处理，得到第一文章的分词；

步骤S202，按照评分(Score)＝词频(TF)×逆文档频率(IDF)计算所述第一文章的分词的权重，其中所述词频采用

表示，所述逆文档频率

表示；

步骤S203，获取与所述第一文章的分词相同的文章列表；

步骤S204，根据所述权重计算所述文章列表中每一篇文章与所述第一文章之间的相似度；

步骤S205，将满足所述条件的相似度对应的文章作为第二文章；

步骤S206，根据所述第二文章的标识信息与所述第一文章的标识信息建立所述关联信息。

实施例三

为了解决前述的技术问题，本发明实施例提取文章特定的前N个关键词构建一个关键词集合，通过比较关键词集合的相似度来映射文章的相似度，这种方式一定程度上降低文章词频对结果的影响，从而增加对相同主题文章的识别准确率，最后再结合用户的兴趣模型和文章相似度两方面因素在线协同过滤相似文章。本发明实施例中包括离线排重和在线排重两个应用场景，离线部分通过计算文章相似度进行离线过滤，在线部分是根据用户已阅读文章的兴趣画像，对将阅读文章计算相似度进行在线过滤。

本发明实施例中使用的文章相似度的计算方法是对相关技术中相似度算法的改良和优化。对不同内容长度的文章进行均衡，保证计算特征关键词时，不会因为文章过长导致词频值过大，而对分词结果产生噪点。此外，计算文章指纹的排重方法无法获取文章的相似度，对于较低相似度(含有相同的特征关键词较少)的文章指纹，距离过大无法排除掉。本发明实施例的计算方法可以大幅度提升重复文章的检测和相同主题文章的识别。

在线重复文章过滤，结合离线计算的结果和用户兴趣的相似度阈值，动态过滤用户拉取的新文章列表。首先将新拉取出的文章的标识信息(ID)在用户阅读列表中查找，如果已经阅读过则不输出到用户终端的应用程序(App，Application)。如果没有查找到，则输出到用户终端App，并查找该篇文章离线计算出的所有相似文章列表，根据用户兴趣对该篇文章所在类别的相似度阈值，将所有相似度大于阈值的文章ID和当前文章ID都插入到用户阅读列表中，用于后续相似文章过滤。

下面计算一下本发明实施例计算文章相似度的流程，首先对新发表的文章进行相似度计算，每篇新发表文章都要计算出与之相似的所有文章，并将相似对应关系和相似度保存下来。图3为本发明实施例三计算相似度的流程示意图，如图3所示，该流程包括：

步骤S21，对文章分词预处理；

步骤S22，计算文章特征关键词；

这里，计算文章的特征关键词时就是将文章的分词结果中的每一个分词进行打分(打分公式参见下面的公式(3-1))，取分值最高的前N个分词作为文章的特征关键词；与相关技术不同，词频(TF)统计对文章长度进行修正(除以文章总词数)，对长篇幅文章进行评分打压，使不同长度的文章有一个较好的平衡(参见公式(3-2))。

评分(Score)＝词频(TF)×逆文档频率(IDF) (3-1)；

公式(3-1)中，词频(TF)采用公式(3-2)表示，逆文档频率(IDF)采用公式(3-3)表示；

根据计算出来的评分降序排列，取前N个分词作为文章的特征关键词，例如N＝6，取前6个作为文章的特征关键词，参见表2：

表2

步骤S23，创建或增加文章特征关键词倒排索引；

这里，经过步骤S21～S22的特征关键词提取，对新增文章的每一个特征关键词创建一个包含该词的文章ID列表的倒排索引，如表3所示，例如，特征关键词1“支付宝”的文章ID列表为：“支付宝”-＞文章1；文章2；文章3......；特征关键词2“漏洞”的文章ID列表为：“漏洞”-＞文章2；文章6；文章7......；特征关键词3“支付宝”的文章ID列表为：“账号”一＞文章2；文章3；文章9......。需要说明的是，特征关键词下的文章ID列表，按照文章发表时间降序排列，便于新的文章进行插入和检索。如果特征关键词倒排列表已经存在，就将包含该特征关键词的新文章ID插入到这个倒排列表中。

表3

特证词	文章ID	文章ID	文章ID	文章ID
					“支付宝”	文章1	文章2	文章3	......
“漏洞”	文章2	文章6	文章7	......
					”账号”	文章2	文章3	文章9	......

步骤S24，获取相同特征关键词的文章列表，计算每篇文章特征关键词集合与新增文章特征关键词集合相似度；

这里，根据步骤S21至步骤S23，获得新增文章的N个特征关键词后，访问特征关键词倒排索引，读取包含该文章特征关键词的所有文章列表，并计算新增文章特征关键词集合与提取出的每篇文章特征关键词集合的相似度，计算公式参见公式(3-4)：

步骤S25，保存文章与相关相似文章对应关系索引；

这里，根据步骤S24计算出的相似文章列表以及每篇文章的相似度，按照新增文章ID为索引保存起来，用于在线过滤检索。

上述计算文章相似度的过程较为复杂，计算耗时长，故采在离线排重部分进行，而且计算文章相似度的结果，可以直接第一时间应用在离线排重流程。

基于前述的离线重排流程，下面介绍一下在线文章过滤流程，在线文章排重流程是根据用户阅读历史结合用户阅读兴趣进行相似文章过滤，具体流程如下：

步骤S31，终端App向后台服务器端发起新文章列表获取请求，服务器端从数据库中获取该用户的历史阅读兴趣特征；

步骤S32，新文章列表获取，服务器端根据该用户历史阅读兴趣特征，从待推送文章池中获取一定数量的备用新文章用于响应用户的请求；

步骤S33，备用新文章在线过滤；

这里，首先服务器端对备用新文章列表中的每篇文章查看其是否在该用户的历史阅读兴趣特征中，如果在，则证明该文章已被用户阅读过，将其从备用新文章列表中删除。然后根据离线计算的相似度记录，查看每篇文章的相似文章是否在用户的历史阅读兴趣特征中，如果在，则证明有与该文章相似的文章已被用户阅读过，将其从备用新文章列表中删除。

步骤S31，将已过滤最终的新文章列表添加在该用户的历史阅读兴趣特征中，并将最终的新文章列表发送给终端App侧。

需要说明的是，在离线计算相似度时，本实施例中采用前N个文章核心关键词作为特征值集合，所述特征值集合还可以通过如下几种方式来获取：1)以文章的图片的属性作为特征值，如图片的纹理、色彩对比度、内容轮廓等特征；2)以文章的部分标题属性作为特征值，如标题中的事件或者人物信息等特征；3)以文章的主题内容分布作为特征值；4)以文章核心关键词的词向量作为特征值。在线文章过滤时，本实施例在线文章过滤通过组合多种特种集合的方式进行多重过滤，从而提高在线文章过滤的准确度，例如分层过滤，首先采用关键词特征集合的相似度过滤，再采用文章中图片内容的特征集合相似度过滤。

从以上描述可以看出，本发明实施例在计算文章相似度时，采用文章的核心关键词集合作为对应文章的特征集合，通过比较特征集合的相似度决定文章的相似度。在线文章过滤中，根据该用户历史阅读兴趣特征和离线部分的计算相似度算法产生的结果进行在线文章过滤。如此，本发明实施例具有如下的技术效果：1)离线文章过滤，在离线排重中使用改良优化后的相似度计算方式，降低推荐池中相同或相似文章的数量，提高进入推荐池的文章质量，同时在离线排重部分构建文章倒排的数据存储结构还能降低相似度计算的延迟时间，从而提高发文速度，进而增强用户体验。2)在线文章过滤能够充分利用离线部分计算出的文章相似度结果，针对单个用户做个性化过滤排重，从而有效增强用户的阅读体验。

实施例四

基于前述的实施例，本发明实施例提供一种信息处理装置，该装置所包括的第一确定单元、第一获取单元、第二确定单元、第二获取单元、第三确定单元、第四确定单元、第五确定单元和输出单元等各单元，以及各单元所包括的各模块，都可以通过计算设备中的处理器来实现，当然也可通过具体的逻辑电路实现；其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)或可编程逻辑阵列(FPGA，FieldProgrammable Gate Array)实现；对于存储介质来说，包含操作指令，该操作指令可以为计算机可执行代码，通过所述操作指令来实现上述本发明实施例信息处理方法流程中的各个步骤。

本发明实施例中的终端、服务器等作为硬件实体S11的一个示例如图4-1所示，硬件实体S11包括处理器61、存储介质62以及至少一个外部通信接口63；所述处理器61、存储介质62以及外部通信接口63均通过总线64连接。

图4-2为本发明实施例四信息处理装置的组成结构示意图，如图4-2所示，所述装置400包括第一确定单元401、第一获取单元402、第二确定单元403、第二获取单元404、第三确定单元405、第四确定单元406、第五确定单元407和输出单元408，其中：

所述第一确定单元401，用于确定特征集合，所述特征集合中至少包括一个及一个以上的特征，所述特征用于描述用户的阅读的文章兴趣；

所述第一获取单元402，用于获取第一文章集合；

所述第二确定单元403，用于根据所述特征集合从所述第一文章集合中确定第二文章集合；

所述第二获取单元404，用于根据用户的标识信息获取用户的第三文章集合，所述第三文章集合为用户已阅读的文章集合；

所述第三确定单元405，用于确定所述第三文章集合对应的第四文章集合，所述第四文章集合包括第二文章所组成的集合和所述第三文章集合，所述第二文章为所述第三文章集合中第一文章的相似文章；

所述第四确定单元406，用于确定所述第四文章集合与所述第二文章集合之间的交集；

所述第五确定单元407，用于将所述第二文章集合中除所述交集外的文章确定为第五文章集合；

所述输出单元408，用于将所述第五文章集合输出。

本发明实施例中，所述输出单元，用于将所述第五文章集合作为推荐文章发送给终端；其中所述第五文章集合中至少包括文章的标题和网址信息。

本发明实施例中，所述第一确定单元包括第一获取模块、第二获取模块和第一确定模块，其中：

所述第一获取模块，用于获取第一文章的标识信息，所述第一文章为用户已阅读的文章；

所述第二获取模块，用于根据所述第一文章的标识信息获取第一文章的内容或第一文章的标题或第一文章的关键词；

所述第一确定模块，用于根据所述第一文章的内容或第一文章的标题或第一文章的关键词确定特征集合。

本发明实施例中，所述第三确定单元包括第三获取模块、第四获取模块和形成模块，其中：

所述第三获取模块，用于获取所述第三文章集合中第一文章的标识信息；

所述第四获取模块，用于根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息；所述关联信息用于表明所述第一文章的标识信息与所述第二文章的标识信息之间的对应关系；

所述形成模块，用于根据所述第二文章的标识信息形成第四文章集合。

本发明实施例中，所述第三确定单元包括判断模块、第五获取模块、第二确定模块、第三确定模块和输出模块，其中：

所述判断模块，用于判断所述第一文章的标识信息是否在所述关联信息中；

所述第五获取模块，用于如果所述第一文章的标识信息在所述关联信息中，则根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息；

所述第二确定模块，用于如果所述第一文章的标识信息不在所述关联信息中，则从文章库中确定第三文章；

所述第三确定模块，用于确定所述第一文章与所述第三文章之间的相似度；

所述输出模块，用于如果所述第三文章满足预设的第一条件，则将所述第三文章作为所述第一文章的相似文章输出到所述第四文章集合中。

本发明实施例中，所述第二确定模块包括获取子模块、第一确定子模块和第二确定子模块，其中：

所述获取子模块，用于根据所述第一文章的标识信息获取所述第一文章的标签信息；

所述第一确定子模块，用于将所述文章库与所述第一文章的标签信息相同的文章作为第六文章集合；

所述第二确定子模块，用于将所述第六文章集合中的任意一篇文章作为所述第三文章。

本发明实施例中，所述装置还包括形成单元，所述形成单元进一步包括处理模块、计算模块、排序模块、第六获取模块、第二计算模块、第四确定模块和建立模块，其中：

所述处理模块，用于对所述第一文章进行分词处理，得到第一文章的分词；

所述第一计算模块，用于按照评分(Score)＝词频(TF)×逆文档频率(IDF)计算所述第一文章的分词的权重，其中所述词频采用

表示，所述逆文档频率

表示；

所述第六获取模块，用于获取与所述第一文章的分词相同的文章列表；

所述第二计算模块，用于根据所述权重计算所述文章列表中每一篇文章与所述第一文章之间的相似度；

所述第四确定模块，用于将满足所述条件的相似度对应的文章确定为第二文章；

所述建立模块，用于根据所述第二文章的标识信息与所述第一文章的标识信息建立所述关联信息。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取第一文章的标识信息，所述第一文章为用户已阅读的文章；

根据所述第一文章的标识信息获取第一文章的内容或第一文章的标题；

根据所述第一文章的内容或所述第一文章的标题中出现的关键词所对应的特征，确定特征集合，其中，所述特征集合中至少包括一个及一个以上的所述特征，所述特征用于描述用户的阅读的文章兴趣；

获取第一文章集合；

确定所述第四文章集合与所述第二文章集合之间的交集；

将所述第五文章集合输出。

2.根据权利要求1所述的方法，其特征在于，所述将所述第五文章集合输出，包括：

将所述第五文章集合作为推荐文章发送给终端；

所述第五文章集合中至少包括文章的标题和网址信息。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述第三文章集合对应的第四文章集合，包括：

获取所述第三文章集合中第一文章的标识信息；

根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息；所述关联信息用于表明所述第一文章的标识信息与所述第二文章的标识信息之间的对应关系；

根据所述第二文章的标识信息形成第四文章集合。

4.根据权利要求3所述的方法，其特征在于，所述确定所述第三文章集合对应的第四文章集合，还包括：

判断所述第一文章的标识信息是否在所述关联信息中；

如果所述第一文章的标识信息在所述关联信息中，则根据所述第一文章的标识信息从预设的关联信息中获取第二文章的标识信息；

如果所述第一文章的标识信息不在所述关联信息中，则从文章库中确定第三文章；

确定所述第一文章与所述第三文章之间的相似度；

如果所述第三文章满足预设的第一条件，则将所述第三文章作为所述第一文章的相似文章输出到所述第四文章集合中。

5.根据权利要求4所述的方法，其特征在于，所述从文章库中确定第三文章，包括：

根据所述第一文章的标识信息获取所述第一文章的标签信息；

将所述文章库与所述第一文章的标签信息相同的文章作为第六文章集合；

将所述第六文章集合中的任意一篇文章作为所述第三文章。

6.根据权利要求4或5所述的方法，其特征在于，所述关联信息采用如下的方式形成：

对所述第一文章进行分词处理，得到第一文章的分词；

按照

计算所述第一文章的分词的权重，其中所述词频采用

表示，所述逆文档频率

表示；

获取与所述第一文章的分词相同的文章列表；

根据所述权重计算所述文章列表中每一篇文章与所述第一文章之间的相似度；

将满足所述条件的相似度对应的文章作为第二文章；

根据所述第二文章的标识信息与所述第一文章的标识信息建立所述关联信息。

7.一种信息处理装置，其特征在于，所述装置包括第一确定单元、第一获取单元、第二确定单元、第二获取单元、第三确定单元、第四确定单元、第五确定单元和输出单元，其中：

所述第一确定单元，用于获取第一文章的标识信息，所述第一文章为用户已阅读的文章；根据所述第一文章的标识信息获取第一文章的内容或第一文章的标题；根据所述第一文章的内容或所述第一文章的标题中出现的关键词所对应的特征，确定特征集合，其中，所述特征集合中至少包括一个及一个以上的所述特征，所述特征用于描述用户的阅读的文章兴趣；

所述第一获取单元，用于获取第一文章集合；

所述输出单元，用于将所述第五文章集合输出。

8.根据权利要求7所述的装置，其特征在于，所述输出单元，用于将所述第五文章集合作为推荐文章发送给终端；其中所述第五文章集合中至少包括文章的标题和网址信息。

9.根据权利要求7或8所述的装置，其特征在于，所述第三确定单元包括第三获取模块、第四获取模块和形成模块，其中：

10.根据权利要求9所述的装置，其特征在于，所述第三确定单元包括判断模块、第五获取模块、第二确定模块、第三确定模块和输出模块，其中：

11.根据权利要求10所述的装置，其特征在于，所述第二确定模块包括获取子模块、第一确定子模块和第二确定子模块，其中：

12.根据权利要求10或11所述的装置，其特征在于，所述装置还包括形成单元，所述形成单元进一步包括处理模块、计算模块、排序模块、第六获取模块、第二计算模块、第四确定模块和建立模块，其中：

所述计算模块，用于按照

计算所述第一文章的分词的权重，其中所述词频采用

表示，所述逆文档频率

表示；

13.一种计算机可读存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令配置为执行上述权利要求1至6任一项所提供的信息处理方法。