CN103810167B - 获取信息的方法和装置 - Google Patents

获取信息的方法和装置 Download PDF

Info

Publication number
CN103810167B
CN103810167B CN201210438300.9A CN201210438300A CN103810167B CN 103810167 B CN103810167 B CN 103810167B CN 201210438300 A CN201210438300 A CN 201210438300A CN 103810167 B CN103810167 B CN 103810167B
Authority
CN
China
Prior art keywords
topic
text
blog article
correlation
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210438300.9A
Other languages
English (en)
Other versions
CN103810167A (zh
Inventor
何小晨
张国强
鲁敏
杨海军
郝志新
何建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210438300.9A priority Critical patent/CN103810167B/zh
Publication of CN103810167A publication Critical patent/CN103810167A/zh
Application granted granted Critical
Publication of CN103810167B publication Critical patent/CN103810167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取信息的方法和装置,属于微博技术领域。所述方法包括:获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;对所述获得的文本进行预处理,得到所述文本的相关词列表;根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。

Description

获取信息的方法和装置
技术领域
本发明涉及微博技术领域,特别涉及一种获取信息的方法和装置。
背景技术
微博是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。由于微博具有发布信息快速和信息传播的速度快的特点,所以微博吸引了越来越多的用户。
但是在微博用户中也存在着一些话题作弊用户,这些用户为增加自己的关注度,利用不相关文本+热门话题的形式进行作弊。这些微博用户对网络的正常使用造成了干扰,对普通用户正常的阅读造成了干扰,降低了用户在使用微博时的体验感,所以怎样根据微博的特点搜索作弊用户是需要解决的问题。
发明内容
为了搜索到微博中作弊的用户,本发明实施例提供了一种获取信息的方法和装置。所述技术方案如下:
一方面,提供了一种获取信息的方法,所述方法包括:
获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中,其中,不同词性的词汇对应于不同的预设阈值;
根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;
计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;
将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户。
所述相关话题包括:热门话题和历史作弊话题。
所述获得与所述每个相关话题相关的文本,包括:
判断所述相关话题是否为指定的话题,如果是,则拉取所述指定话题的说明文本,如果否,则从指定门户网站拉取与所述相关话题相关的文本。
所述根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度,包括:
计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本话题相关度。
另一方面,提供了一种获取信息的装置,所述装置包括:
文本获取模块,用于获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
预处理模块,用于对所述获得的文本进行预处理,得到所述文本的相关词列表;
计算模块,用于根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
黑名单获取模块,用于根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户;
所述预处理模块,包括:
文本分析单元,用于对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计单元,用于统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中,其中,不同词性的词汇对应于不同的预设阈值。
所述相关话题包括:热门话题和历史作弊话题。
所述文本获取模块,包括:
判断单元,用于判断所述相关话题是否为指定的话题;
拉取单元,用于如果所述判断单元的判断结果为是,则拉取所述指定话题的说明文本,如果所述判断单元的判断结果为是否,则从指定门户网站拉取与所述相关话题相关的文本。
所述计算模块,包括:
计算单元,用于计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
话题相关度获取单元,用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本话题相关度。
再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现如第一方面所述的获取信息的方法。
本发明实施例提供的技术方案带来的有益效果是:获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;对所述获得的文本进行预处理,得到所述文本的相关词列表;根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户,使其不能够利用热门话题发布干扰内容,以提高普通用户使用微博时的体验感。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种获取信息的方法流程图;
图2是本发明实施例二提供的一种获取信息的方法流程图;
图3是本发明实施例三提供的一种获取信息的装置结构示意图;
图4是本发明实施例三提供的另一种获取信息的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本实施例中提供了一种获取信息的方法,包括:
101、获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
102、对所述获得的文本进行预处理,得到所述文本的相关词列表;
103、根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
104、根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。
其中,所述相关话题包括:热门话题和历史作弊话题。
本实施例中,所述获得与所述每个相关话题相关的文本,包括:
判断所述相关话题是否为指定的话题,如果是,则拉取所述指定话题的说明文本,如果否,则从指定门户网站拉取与所述相关话题相关的文本。
本实施例中,所述对所述获得的文本进行预处理,得到所述文本的相关词列表,包括:
对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。
优选地,本实施例中,所述根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度,包括:
计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本话题相关度。
其中,所述根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户,包括:
根据所述相关话题的博文的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;
计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;
将所述第二队列中ID用户的话题相关度分数低于第一阈值且单位时间内发表微博篇数高于第二阈值的用户判定为话题作弊用户。
本实施例的有益效果是:获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;对所述获得的文本进行预处理,得到所述文本的相关词列表;根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户,使其不能够利用热门话题发布干扰内容,以提高普通用户使用微博时的体验感。
实施例二
参见图2,本发明实施例提供了一种获取信息的方法,包括:
201、获取微博社区内的多个相关话题。
本实施例中,微博社区中的相关话题包括热门话题和历史作弊话题。其中热门话题是指目前社区中被转发或是评论比较多的话题。历史作弊话题是通过对黑名单用户所使用的话题进行统计分析获得的。
本步骤中的黑名单用户指的是通过话题进行作弊的用户,其中,黑名单用户可能是微博管理者统计得来的,也可能是通过本实施例中提供的获取信息的方法获得的,对此本实施例不做具体限定。
202、获得与所述每个相关话题相关的文本。
本实施例中,判定话题和文本是否相关,主要是以该话题相关词的命中率为依据,而话题相关词的挖掘依赖于一系列的不含作弊文本的相关文本作为参考。本步骤中,对于每一个话题,都会拉取其对应的相关文本,其中具体的,获得与所述每个相关话题相关的文本,包括:判断所述相关话题是否为指定的话题,如果是,则拉取所述指定话题的说明文本,如果否,则从指定门户网站拉取与所述相关话题相关的文本。其中,与相关话题相关的文本可以是一个也可以是多个,对此本实施例不做具体限定。
本实施例中,指定的话题是指微博中通过人工编辑过的特殊话题,相对于普通的用户话题展示更加丰富,一般通过编辑运营的方式建立,所以指定的话题有一定的可信性。如果获取到的相关话题为指定的话题,则直接拉取该指定的话题的说明文本,作为该相关话题的相关文本。但是如果获取到的相关话题不是指定的话题,即为普通的用户编辑的话题,则从指定门户网站搜索与该话题相关的文本,其中指定的门户网站可以是预先选取好的可信任网站,也可以是随机选取的可信任网站,对此本实施例不做具体限定。
值得说明的是,本实施例中的热门话题和历史作弊话题与指定的话题并不冲突,用户可能在指定的话题上进行转发或是评论,所以热门话题和历史作弊话题包括指定的话题。
203、对所述获得的文本进行预处理,得到所述文本的相关词。
本实施例中,在获取到相关话题的文本后,对其文本进行预处理,以得到该文本的相关词。具体的,所述对所述获得的文本进行预处理,得到所述文本的相关词列表,包括:对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。
其中,预处理操作包括但不限于:对所述文本进行文本分词、词频分析和词性过滤等的操作。相关词的词汇包括:形容词、区别词、名词、人名、地名、机构团体、其他专名、处所词、时间词、动词、动名词等。
在得到相关词后,根据预设规则对所述得到的所述文本的相关词进行筛选,得到所述文本的相关词列表。其中预设规则包括:统计相关词中的每个词汇在多个相关文本中出现的频率,判断相关词中的每个词汇出现的频率是否超过预设的阈值,如果是,则将该词汇加入相关词列表中,最终得到相关词列表。本实施例中如果某个词出现的频率未超过某个阈值,则丢弃该词汇。其中由于不同词性的使用频率有所不容,则在具体实施过程中可以针对不同的词性设置不同的阈值,对此本实施例不做具体限定。
204、根据所述文本的相关词列表,计算所述每个相关话题与所述文本的话题相关度。
本实施例中,在得到文本的相关词列表后,根据所述文本的相关词列表,计算所述每个相关话题与所述文本的话题相关度,具体包括:计算所述每个相关话题的博文命中所述文本的相关词列表的次数;根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本话题相关度。
本实施例中,相关度是一个0-1之间的数值,如果博文除话题外没有命中其它相关词,它的分数会小于等于0.5,如果博文的长度超过一定阈值,则博文越长分值越低。其中,博文包括话题和话题下的文本信息,如果博文除话题外,话题下的文本信息还命中了相关词,则分数会大于0.5,该分值与命中的次数以及博文的长度有关,相同长度下命中次数越多相关度越高,相同命中次数的情况下,博文长度越高相关度越低。在具体的执行过程中,命中次数和博文长度对话题相关度影响的程度可以根据经验值预先设定好,或是依据实际微博平台的具体情况进行调整,对此本实施例不做具体限定。
值得说明的是,对于博文中有多个话题的,取这多个话题中最低的相关度分值,作为该相关话题的博文的话题相关度。
205、根据所述计算得到的所述每个相关话题的博文与所述文本话题相关度得到话题作弊用户。
本实施例中,在得到相关话题的博文的话题相关度后,进一步根据所述博文的话题相关度得到话题作弊用户,具体包括:
根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;
计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;
将所述第二队列中ID用户的话题相关度分数低于第一阈值且单位时间内发表微博篇数高于第二阈值的用户判定为话题作弊用户。
本实施例中,对话题作弊用户进行统计,得到话题作弊用户列表,进一步地对该将该话题作弊用户所使用的话题进行统计分析获得历史作弊话题,将该历史作弊话题作为相关话题的一个来源。
另外,由于有些话题,例如“微小说”,语义上的指向性不强,难以用有限的相关词对其进行概括,造成其相关度计算策略失效,影响其相关度的计算。为谨慎起见,定期由编辑对话题列表和新产生的用户黑名单列表进行审核,以减少系统的误差。
本实施例的有益效果是:获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;对所述获得的文本进行预处理,得到所述文本的相关词列表;根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;根据所述计算得到的所述每个相关话题的博文的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户,使其不能够利用热门话题发布干扰内容,以提高普通用户使用微博时的体验感。
实施例三
参见图3,本发明实施例提供了一种获取信息的装置,该装置包括:文本获取模块301、预处理模块302、计算模块303和黑名单获取模块304。
文本获取模块301,用于获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
预处理模块302,用于对所述获得的文本进行预处理,得到所述文本的相关词列表;
计算模块303,用于根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
黑名单获取模块304,用于根据所述计算得到的所述每个相关话题的博文与所述文本的话题相关度得到话题作弊用户。
其中,所述相关话题包括:热门话题和历史作弊话题。
参见图4,所述文本获取模块301,包括:
判断单元301a,用于判断所述相关话题是否为指定的话题;
拉取单元301b,用于如果所述判断单元301a的判断结果为是,则拉取所述指定话题的说明文本,如果所述判断单元的判断结果为是否,则从指定门户网站拉取与所述相关话题相关的文本。
参见图4,所述预处理模块302,包括:
文本分析单元302a,用于对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计单元302b,用于统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到相关词列表中。
参见图4,所述计算模块303,包括:
计算单元303a,用于计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
话题相关度获取单元303b,用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本话题相关度。
参见图4,所述话题作弊用户获取模块304,包括:
排序单元304a,用于根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;
计算单元304b,用于计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;
判定单元304c,用于将所述第二队列中ID用户的话题相关度分数低于第一阈值且单位时间内发表微博篇数高于第二阈值的用户判定为话题作弊用户。
本实施例的有益效果是:获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;对所述获得的文本进行预处理,得到所述文本的相关词列表;根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;根据所述计算得到的所述每个相关话题的博文的话题相关度得到话题作弊用户。从而使微博管理者能够屏蔽话题作弊用户,使其不能够利用热门话题发布干扰内容,以提高普通用户使用微博时的体验感。
需要说明的是:上述实施例提供的获取信息的装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例提供的获取信息的装置与获取信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种获取信息的方法,其特征在于,所述方法包括:
获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中,其中,不同词性的词汇对应于不同的预设阈值;
根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;
计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;
将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户。
2.根据权利要求1所述的方法,其特征在于,所述相关话题包括:热门话题和历史作弊话题。
3.根据权利要求1所述的方法,其特征在于,所述获得与所述每个相关话题相关的文本,包括:
判断所述相关话题是否为指定的话题,如果是,则拉取所述指定话题的说明文本,如果否,则从指定门户网站拉取与所述相关话题相关的文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度,包括:
计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本的话题相关度。
5.一种获取信息的装置,其特征在于,所述装置包括:
文本获取模块,用于获取微博社区内的多个相关话题,并获得与所述每个相关话题相关的文本;
预处理模块,用于对所述获得的文本进行预处理,得到所述文本的相关词列表;
计算模块,用于根据所述文本的相关词列表,计算所述每个相关话题的博文与所述文本的话题相关度;
黑名单获取模块,用于根据所述相关话题的博文与所述文本的话题相关度,对发表所述相关话题的博文的用户ID进行排序,得到第一队列;计算所述第一队列中相同用户ID所发表的博文的话题相关度的平均值,并统计所述第一队列中的相同用户ID发表的博文数,得到第二队列;将所述第二队列中话题相关度分数低于第一阈值且单位时间内发表的博文数高于第二阈值的用户判定为话题作弊用户;
所述预处理模块,包括:
文本分析单元,用于对所述文本进行文本分词、词频分析和词性过滤的操作,得到所述文本的相关词;
统计单元,用于统计所述相关词中的每个词汇在与所述相关话题相关的文本中出现的频率,并将所述出现的频率超过预设阈值的词汇添加到所述文本的相关词列表中,其中,不同词性的词汇对应于不同的预设阈值。
6.根据权利要求5所述的装置,其特征在于,所述相关话题包括:热门话题和历史作弊话题。
7.根据权利要求5所述的装置,其特征在于,所述文本获取模块,包括:
判断单元,用于判断所述相关话题是否为指定的话题;
拉取单元,用于如果所述判断单元的判断结果为是,则拉取所述指定话题的说明文本,如果所述判断单元的判断结果为是否,则从指定门户网站拉取与所述相关话题相关的文本。
8.根据权利要求5所述的装置,其特征在于,所述计算模块,包括:
计算单元,用于计算所述每个相关话题的博文命中所述文本的相关词列表的次数;
话题相关度获取单元,用于根据所述每个相关话题的博文的长度和所述每个相关话题的博文命中所述文本的相关词的次数,得到所述相关话题的博文与所述文本的话题相关度。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现如权利要求1至4任一项所述的获取信息的方法。
CN201210438300.9A 2012-11-06 2012-11-06 获取信息的方法和装置 Active CN103810167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210438300.9A CN103810167B (zh) 2012-11-06 2012-11-06 获取信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210438300.9A CN103810167B (zh) 2012-11-06 2012-11-06 获取信息的方法和装置

Publications (2)

Publication Number Publication Date
CN103810167A CN103810167A (zh) 2014-05-21
CN103810167B true CN103810167B (zh) 2018-09-18

Family

ID=50706953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210438300.9A Active CN103810167B (zh) 2012-11-06 2012-11-06 获取信息的方法和装置

Country Status (1)

Country Link
CN (1) CN103810167B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855879A (zh) * 2016-12-14 2017-06-16 竹间智能科技(上海)有限公司 人工智能心理与音乐咨询的机器人
CN108959295B (zh) 2017-05-19 2021-04-16 腾讯科技(深圳)有限公司 一种原生对象的识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Study of Trend-Stuffing on Twitter through Text Classification";Danesh Irani等;《CEAS 2010 Seventh annual Collaboration, Electronic messaging, AntiAbuse and Spam Conference》;20100714;第1-9页 *

Also Published As

Publication number Publication date
CN103810167A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
Zannettou et al. What is gab: A bastion of free speech or an alt-right echo chamber
Nazar et al. Plandemic revisited: a product of planned disinformation amplifying the COVID-19 “infodemic”
CN106980692A (zh) 一种基于微博特定事件的影响力计算方法
Kwon et al. Prominent features of rumor propagation in online social media
Danescu-Niculescu-Mizil et al. You had me at hello: How phrasing affects memorability
Ma et al. On predicting the popularity of newly emerging hashtags in t witter
Mondal et al. Analysis and early detection of rumors in a post disaster scenario
CN103150374B (zh) 一种识别微博异常用户的方法和系统
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN107526800A (zh) 信息推荐的装置、方法及计算机可读存储介质
CN103218412B (zh) 舆情信息处理方法与装置
CN104102658B (zh) 文本内容挖掘方法及装置
CN110188248A (zh) 基于新闻问答交互系统的数据处理方法、装置及电子设备
US11361167B1 (en) Determining conversational structure from speech
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
Sims et al. Measuring information propagation in literary social networks
Gaglio et al. Real-time detection of twitter social events from the user's perspective
Hönings et al. Health information diffusion on Twitter: The content and design of WHO tweets matter
US20240134914A1 (en) Content based related view recommendations
Samory et al. Quotes reveal community structure and interaction dynamics
Chen et al. Modeling, simulation, and case analysis of COVID‐19 over network public opinion formation with individual internal factors and external information characteristics
CN106708796A (zh) 一种基于文本的关键人名的提取方法及系统
CN103810167B (zh) 获取信息的方法和装置
Tran et al. Wikipevent: Leveraging wikipedia edit history for event detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant