CN103810167B

CN103810167B - 获取信息的方法和装置

Info

Publication number: CN103810167B
Application number: CN201210438300.9A
Authority: CN
Inventors: 何小晨; 张国强; 鲁敏; 杨海军; 郝志新; 何建国
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2018-09-18
Anticipated expiration: 2032-11-06
Also published as: CN103810167A

Abstract

本发明公开了一种获取信息的方法和装置，属于微博技术领域。所述方法包括：获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；对所述获得的文本进行预处理，得到所述文本的相关词列表；根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。

Description

获取信息的方法和装置

技术领域

本发明涉及微博技术领域，特别涉及一种获取信息的方法和装置。

背景技术

微博是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB、WAP以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享。由于微博具有发布信息快速和信息传播的速度快的特点，所以微博吸引了越来越多的用户。

但是在微博用户中也存在着一些话题作弊用户，这些用户为增加自己的关注度，利用不相关文本+热门话题的形式进行作弊。这些微博用户对网络的正常使用造成了干扰，对普通用户正常的阅读造成了干扰，降低了用户在使用微博时的体验感，所以怎样根据微博的特点搜索作弊用户是需要解决的问题。

发明内容

为了搜索到微博中作弊的用户，本发明实施例提供了一种获取信息的方法和装置。所述技术方案如下：

一方面，提供了一种获取信息的方法，所述方法包括：

获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；

对所述文本进行文本分词、词频分析和词性过滤的操作，得到所述文本的相关词；

统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率，并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中，其中，不同词性的词汇对应于不同的预设阈值；

根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；

根据所述相关话题的博文与所述文本的话题相关度，对发表所述相关话题的博文的用户ID进行排序，得到第一队列；

计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值，并统计所述第一队列中的相同用户ID发表的博文数，得到第二队列；

将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户。

所述相关话题包括：热门话题和历史作弊话题。

所述获得与所述每个相关话题相关的文本，包括：

判断所述相关话题是否为指定的话题，如果是，则拉取所述指定话题的说明文本，如果否，则从指定门户网站拉取与所述相关话题相关的文本。

所述根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度，包括：

计算所述每个相关话题的博文命中所述文本的相关词列表的次数；

根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本话题相关度。

另一方面，提供了一种获取信息的装置，所述装置包括：

文本获取模块，用于获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；

预处理模块，用于对所述获得的文本进行预处理，得到所述文本的相关词列表；

计算模块，用于根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；

黑名单获取模块，用于根据所述相关话题的博文与所述文本的话题相关度，对发表所述相关话题的博文的用户ID进行排序，得到第一队列；计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值，并统计所述第一队列中的相同用户ID发表的博文数，得到第二队列；将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户；

所述预处理模块，包括：

文本分析单元，用于对所述文本进行文本分词、词频分析和词性过滤的操作，得到所述文本的相关词；

统计单元，用于统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率，并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中，其中，不同词性的词汇对应于不同的预设阈值。

所述相关话题包括：热门话题和历史作弊话题。

所述文本获取模块，包括：

判断单元，用于判断所述相关话题是否为指定的话题；

拉取单元，用于如果所述判断单元的判断结果为是，则拉取所述指定话题的说明文本，如果所述判断单元的判断结果为是否，则从指定门户网站拉取与所述相关话题相关的文本。

所述计算模块，包括：

计算单元，用于计算所述每个相关话题的博文命中所述文本的相关词列表的次数；

话题相关度获取单元，用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本话题相关度。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现如第一方面所述的获取信息的方法。

本发明实施例提供的技术方案带来的有益效果是：获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；对所述获得的文本进行预处理，得到所述文本的相关词列表；根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户，使其不能够利用热门话题发布干扰内容，以提高普通用户使用微博时的体验感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种获取信息的方法流程图；

图2是本发明实施例二提供的一种获取信息的方法流程图；

图3是本发明实施例三提供的一种获取信息的装置结构示意图；

图4是本发明实施例三提供的另一种获取信息的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

参见图1，本实施例中提供了一种获取信息的方法，包括：

101、获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；

102、对所述获得的文本进行预处理，得到所述文本的相关词列表；

103、根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；

104、根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。

其中，所述相关话题包括：热门话题和历史作弊话题。

本实施例中，所述获得与所述每个相关话题相关的文本，包括：

本实施例中，所述对所述获得的文本进行预处理，得到所述文本的相关词列表，包括：

统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率，并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。

优选地，本实施例中，所述根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度，包括：

其中，所述根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户，包括：

根据所述相关话题的博文的话题相关度，对发表所述相关话题的博文的用户ID进行排序，得到第一队列；

将所述第二队列中ID用户的话题相关度分数低于第一阈值且单位时间内发表微博篇数高于第二阈值的用户判定为话题作弊用户。

本实施例的有益效果是：获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；对所述获得的文本进行预处理，得到所述文本的相关词列表；根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户，使其不能够利用热门话题发布干扰内容，以提高普通用户使用微博时的体验感。

实施例二

参见图2，本发明实施例提供了一种获取信息的方法，包括：

201、获取微博社区内的多个相关话题。

本实施例中，微博社区中的相关话题包括热门话题和历史作弊话题。其中热门话题是指目前社区中被转发或是评论比较多的话题。历史作弊话题是通过对黑名单用户所使用的话题进行统计分析获得的。

本步骤中的黑名单用户指的是通过话题进行作弊的用户，其中，黑名单用户可能是微博管理者统计得来的，也可能是通过本实施例中提供的获取信息的方法获得的，对此本实施例不做具体限定。

202、获得与所述每个相关话题相关的文本。

本实施例中，判定话题和文本是否相关，主要是以该话题相关词的命中率为依据，而话题相关词的挖掘依赖于一系列的不含作弊文本的相关文本作为参考。本步骤中，对于每一个话题，都会拉取其对应的相关文本，其中具体的，获得与所述每个相关话题相关的文本，包括：判断所述相关话题是否为指定的话题，如果是，则拉取所述指定话题的说明文本，如果否，则从指定门户网站拉取与所述相关话题相关的文本。其中，与相关话题相关的文本可以是一个也可以是多个，对此本实施例不做具体限定。

本实施例中，指定的话题是指微博中通过人工编辑过的特殊话题，相对于普通的用户话题展示更加丰富，一般通过编辑运营的方式建立，所以指定的话题有一定的可信性。如果获取到的相关话题为指定的话题，则直接拉取该指定的话题的说明文本，作为该相关话题的相关文本。但是如果获取到的相关话题不是指定的话题，即为普通的用户编辑的话题，则从指定门户网站搜索与该话题相关的文本，其中指定的门户网站可以是预先选取好的可信任网站，也可以是随机选取的可信任网站，对此本实施例不做具体限定。

值得说明的是，本实施例中的热门话题和历史作弊话题与指定的话题并不冲突，用户可能在指定的话题上进行转发或是评论，所以热门话题和历史作弊话题包括指定的话题。

203、对所述获得的文本进行预处理，得到所述文本的相关词。

本实施例中，在获取到相关话题的文本后，对其文本进行预处理，以得到该文本的相关词。具体的，所述对所述获得的文本进行预处理，得到所述文本的相关词列表，包括：对所述文本进行文本分词、词频分析和词性过滤的操作，得到所述文本的相关词；统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率，并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。

其中，预处理操作包括但不限于：对所述文本进行文本分词、词频分析和词性过滤等的操作。相关词的词汇包括：形容词、区别词、名词、人名、地名、机构团体、其他专名、处所词、时间词、动词、动名词等。

在得到相关词后，根据预设规则对所述得到的所述文本的相关词进行筛选，得到所述文本的相关词列表。其中预设规则包括：统计相关词中的每个词汇在多个相关文本中出现的频率，判断相关词中的每个词汇出现的频率是否超过预设的阈值，如果是，则将该词汇加入相关词列表中，最终得到相关词列表。本实施例中如果某个词出现的频率未超过某个阈值，则丢弃该词汇。其中由于不同词性的使用频率有所不容，则在具体实施过程中可以针对不同的词性设置不同的阈值，对此本实施例不做具体限定。

204、根据所述文本的相关词列表，计算所述每个相关话题与所述文本的话题相关度。

本实施例中，在得到文本的相关词列表后，根据所述文本的相关词列表，计算所述每个相关话题与所述文本的话题相关度，具体包括：计算所述每个相关话题的博文命中所述文本的相关词列表的次数；根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本话题相关度。

本实施例中，相关度是一个0-1之间的数值，如果博文除话题外没有命中其它相关词，它的分数会小于等于0.5，如果博文的长度超过一定阈值，则博文越长分值越低。其中，博文包括话题和话题下的文本信息，如果博文除话题外，话题下的文本信息还命中了相关词，则分数会大于0.5，该分值与命中的次数以及博文的长度有关，相同长度下命中次数越多相关度越高，相同命中次数的情况下，博文长度越高相关度越低。在具体的执行过程中，命中次数和博文长度对话题相关度影响的程度可以根据经验值预先设定好，或是依据实际微博平台的具体情况进行调整，对此本实施例不做具体限定。

值得说明的是，对于博文中有多个话题的，取这多个话题中最低的相关度分值，作为该相关话题的博文的话题相关度。

205、根据所述计算得到的所述每个相关话题的博文与所述文本话题相关度得到话题作弊用户。

本实施例中，在得到相关话题的博文的话题相关度后，进一步根据所述博文的话题相关度得到话题作弊用户，具体包括：

本实施例中，对话题作弊用户进行统计，得到话题作弊用户列表，进一步地对该将该话题作弊用户所使用的话题进行统计分析获得历史作弊话题，将该历史作弊话题作为相关话题的一个来源。

另外，由于有些话题，例如“微小说”，语义上的指向性不强，难以用有限的相关词对其进行概括，造成其相关度计算策略失效，影响其相关度的计算。为谨慎起见，定期由编辑对话题列表和新产生的用户黑名单列表进行审核，以减少系统的误差。

本实施例的有益效果是：获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；对所述获得的文本进行预处理，得到所述文本的相关词列表；根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；根据所述计算得到的所述每个相关话题的博文的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户，使其不能够利用热门话题发布干扰内容，以提高普通用户使用微博时的体验感。

实施例三

参见图3，本发明实施例提供了一种获取信息的装置，该装置包括：文本获取模块301、预处理模块302、计算模块303和黑名单获取模块304。

文本获取模块301，用于获取微博社区内的多个相关话题，并获得与所述每个相关话题相关的文本；

预处理模块302，用于对所述获得的文本进行预处理，得到所述文本的相关词列表；

计算模块303，用于根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度；

黑名单获取模块304，用于根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。

其中，所述相关话题包括：热门话题和历史作弊话题。

参见图4，所述文本获取模块301，包括：

判断单元301a，用于判断所述相关话题是否为指定的话题；

拉取单元301b，用于如果所述判断单元301a的判断结果为是，则拉取所述指定话题的说明文本，如果所述判断单元的判断结果为是否，则从指定门户网站拉取与所述相关话题相关的文本。

参见图4，所述预处理模块302，包括：

文本分析单元302a，用于对所述文本进行文本分词、词频分析和词性过滤的操作，得到所述文本的相关词；

统计单元302b，用于统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率，并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。

参见图4，所述计算模块303，包括：

计算单元303a，用于计算所述每个相关话题的博文命中所述文本的相关词列表的次数；

话题相关度获取单元303b，用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本话题相关度。

参见图4，所述话题作弊用户获取模块304，包括：

排序单元304a，用于根据所述相关话题的博文与所述文本的话题相关度，对发表所述相关话题的博文的用户ID进行排序，得到第一队列；

计算单元304b，用于计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值，并统计所述第一队列中的相同用户ID发表的博文数，得到第二队列；

判定单元304c，用于将所述第二队列中ID用户的话题相关度分数低于第一阈值且单位时间内发表微博篇数高于第二阈值的用户判定为话题作弊用户。

需要说明的是：上述实施例提供的获取信息的装置中，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例提供的获取信息的装置与获取信息的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种获取信息的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述相关话题包括：热门话题和历史作弊话题。

3.根据权利要求1所述的方法，其特征在于，所述获得与所述每个相关话题相关的文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本的相关词列表，计算所述每个相关话题的博文与所述文本的话题相关度，包括：

根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本的话题相关度。

5.一种获取信息的装置，其特征在于，所述装置包括：

所述预处理模块，包括：

6.根据权利要求5所述的装置，其特征在于，所述相关话题包括：热门话题和历史作弊话题。

7.根据权利要求5所述的装置，其特征在于，所述文本获取模块，包括：

判断单元，用于判断所述相关话题是否为指定的话题；

8.根据权利要求5所述的装置，其特征在于，所述计算模块，包括：

话题相关度获取单元，用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数，得到所述相关话题的博文与所述文本的话题相关度。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现如权利要求1至4任一项所述的获取信息的方法。