CN104281610B - 过滤微博的方法和装置 - Google Patents

过滤微博的方法和装置 Download PDF

Info

Publication number
CN104281610B
CN104281610B CN201310284727.2A CN201310284727A CN104281610B CN 104281610 B CN104281610 B CN 104281610B CN 201310284727 A CN201310284727 A CN 201310284727A CN 104281610 B CN104281610 B CN 104281610B
Authority
CN
China
Prior art keywords
microblogging
vocabulary
descriptor
attention rate
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310284727.2A
Other languages
English (en)
Other versions
CN104281610A (zh
Inventor
罗伟
李�诚
郑晖
杨振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310284727.2A priority Critical patent/CN104281610B/zh
Priority to PCT/CN2014/081794 priority patent/WO2015003607A1/en
Publication of CN104281610A publication Critical patent/CN104281610A/zh
Priority to US14/795,318 priority patent/US10204164B2/en
Application granted granted Critical
Publication of CN104281610B publication Critical patent/CN104281610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种过滤微博的方法,所述方法包括:根据待过滤微博的内容获取主题词;获取与用户标识对应的关注词表;根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博。本发明提供的过滤微博的方法,通过与用户标识对应的关注词表获取主题词对应的关注度,对于每个用户来说,都会根据待过滤微博的内容中的主题词对应的关注度来判断是否过滤掉微博,使得用户所接收到的微博是过滤处理过的微博,相较于现有技术,减少了冗余信息的传播,从而节省了网络资源。

Description

过滤微博的方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种过滤微博的方法和装置。
背景技术
随着互联网技术的发展,微博越来越成为人们社交活动中不可或缺的一部分。传统的过滤微博的方法,是根据用户是否收听了其它用户的微博进行过滤,如果收听了其它用户的微博,就会收到其它用户发布的所有微博。
发明人发现现有技术中至少存在如下问题:
如果收听了其它用户的微博,那么其它用户发布的微博都会推送,但是其它用户发布的微博中可能只有部分是有用的,其它微博对于用户来说则是冗余信息,比如广告以及用户可能不敢兴趣的微博,而冗余信息的传播会占用大量网络资源。
发明内容
基于此,有必要针对上述现有技术垃圾信息占用大量网络资源的问题,提供一种过滤微博的方法和装置。
一种过滤微博的方法,所述方法包括:
根据待过滤微博的内容获取主题词;
获取与用户标识对应的关注词表;
根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博。
一种过滤微博的装置,所述装置包括:
主题词获取模块,用于根据待过滤微博的内容获取主题词;
关注词表获取模块,用于获取与用户标识对应的关注词表;
微博过滤模块,用于根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博。
上述过滤微博的方法和装置,通过与用户标识对应的关注词表获取主题词对应的关注度,对于每个用户来说,都会根据待过滤微博的内容中的主题词对应的关注度来判断是否过滤掉微博,使得用户所接收到的微博是过滤处理过的微博,相较于现有技术,减少了冗余信息的传播,从而节省了网络资源。
附图说明
图1为一个实施例中过滤微博的方法的流程示意图;
图2为图1中根据待过滤微博的内容获取主题词的流程示意图;
图3为在一个实施例中根据关注度判断是否过滤掉微博的流程示意图;
图4为另一个实施例中根据关注度判断是否过滤掉微博的流程示意图;
图5为再一个实施例中根据关注度判断是否过滤掉微博的流程示意图;
图6为一个实施例中计算相关度的流程示意图;
图7为一个实施例中根据黑/白名单过滤微博的流程示意图;
图8为一个实施例中生成关注词表的流程示意图;
图9为一个实施例中过滤微博的装置的结构框图;
图10为图9中的主题词获取模块的结构框图;
图11为一个实施例中微博过滤模块的结构框图;
图12为另一个实施例中微博过滤模块的结构框图;
图13为再一个实施例中微博过滤模块的结构框图;
图14为另一个实施例中过滤微博的装置的结构框图;
图15为再一个实施例中过滤微博的装置的结构框图;
图16为一个实施例中过滤微博的装置的结构框图;
图17为另一个实施例中过滤微博的装置的结构框图;
图18为再一个实施例中过滤微博的装置的结构框图;
图19为一个实施例中过滤微博的终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种过滤微博的方法。该方法可以应用于服务器,用以根据过滤结果判断是否向终端推送微博,该服务器包括但不限于各种计算机,包括个人计算机、大型计算机、超级计算机和计算机集群等;也可以应用于终端,用以根据过滤结果判断是否接收服务器推送来的微博,该终端可以包括智能手机、平板电脑、个人数字助理、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)或MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、POS终端、车载电脑、膝上型便携计算机和台式计算机等等。该过滤微博的方法,包括:
步骤120,根据待过滤微博的内容获取主题词。
主题词是表示待过滤微博内容的主题的词语或词组。
如图2所示,在一个实施例中,步骤120包括:
步骤202,对待过滤微博的文本信息进行分词,得到候选词。
分词是将一个文本序列切分成一个个单独的词的过程,通过对待过滤微博中的文本信息进行分词,从而得到一个个单独的候选词。例如,待过滤微博中的文本信息为:“昨天本来想趁着还剩那么多流量把微信,浏览器啥的都更新更新”,则对其进行分词后得到候选词为“昨天/本来/想/趁/着/还/剩/那么/多/流量/把/微信/,/浏览器/啥/的/都/更新/更新/”。
步骤204,查找存在于关键字词典中的候选词为主题词。
关键字词典是大量与微博主题相关的词汇的集合,这些词汇通常为名词,可以通过对大量的微博样本进行统计得到,例如“互联网”、“计算机”等,而对于分词得到的候选词中可能有与微博主题无关的词语,比如“的”、“还”等词语,则不应作为主题词。如果候选词存在于该关键字词典中,则作为该待过滤微博的主题词。
举例说明,假如待过滤微博的内容为“昨天本来想趁着还剩那么多流量把微信,浏览器啥的都更新更新”,其分词结果为“昨天/本来/想/趁/着/还/剩/那么/多/流量/把/微信/,浏览器/啥/的/都/更新/更新/”,其中“微信”、“流量”、“浏览器”存在于关键字词典中,那么“微信”、“流量”、“浏览器”就是该微博的主题词。
步骤140,获取与用户标识对应的关注词表。
用户标识用于唯一标识一个网络用户,可以是用户的微博账号、与微博帐号对应的即时通信号码、用户所在终端的标识等。本实施例中,预先存储了与用户标识对应的关注词表,其中关注词表可以为多个,可通过用户操作确定所使用的关注词表。
步骤160,根据关注词表获取主题词对应的关注度,根据关注度判断是否过滤掉微博。
关注词表中存储有主题词,这些主题词可认为是用户比较关注的主题词,每个主题词对应了关注度,该关注度表达了用户可能关注该主题的程度。应当说明的是,本发明实施例中的关注词表,并不限定其为表格形式,也可以是文本或数据库的形式,本发明并不对此进行限定。在一个实施例中,可以根据与用户标识对应的已接收微博来统计出用户比较关注的主题词以及计算对应的关注度,生成与用户标识对应的关注词表。
本实施例中,通过与用户标识对应的关注词表获取主题词对应的关注度,对于每个用户来说,都会根据待过滤微博的内容中的主题词对应的关注度来判断是否过滤掉微博,使得终端所接收到的微博是过滤处理过的微博,相较于现有技术,减少了冗余信息的传播,从而节省了网络资源。
在一个实施例中,步骤160之后,还包括:若不过滤掉微博,获取用户对接收到的微博的反馈信息,根据反馈信息调整在关注词表中存在的主题词的关注度。
若不过滤掉微博,则终端接收到该微博,用户可通过终端对接收到的微博进行评论、转发、支持等操作。则反馈信息可以是终端对接收到的微博的评论、转发、支持等操作信息。在接收到这些反馈信息后,可以对关注词表中存在的主题词的关注度进行调整,比如,关注度的值是百分比,则可以通过给关注度乘以一个系数来调整关注度。本实施例中,根据反馈信息对关注词表进行调整,可以达到动态积累用户数据、获取用户兴趣点的目的,从而根据用户需求过滤微博,避免冗余信息的传播,节省网络资源。
如图3所示,在一个实施例中,步骤160包括:
步骤302,查找在关注词表中存在的主题词。
具体的,查找根据待过滤微博的内容获得的主题词中存在于关注词表中的主题词,例如,根据待顾虑微博的内容获得的主题词包括:“微信”、“流量”和“浏览器”,其中“微信”和“浏览器”存在于与用户标识对应的关注词表中。
步骤304,获取与查找到的主题词对应的关注度,根据查找到的主题词对应的关注度判断是否过滤掉微博。
本实施例中,待过滤微博的主题词至少有一个存在于关注词表中,获取关注词表中与该主题词对应的关注度,当有一个主题词对应的关注度不低于第一过滤阈值时,不过滤掉该微博;否则过滤掉该微博。此外,还可计算存在于关注词表中的所有主题词对应的关注度的总和,当总和不低于预先设定的阈值时,不过滤掉该微博,即服务器可向用户所在终端推送该微博或用户所在终端接收该微博,否则过滤掉该微博。
如图4所示,在一个实施例中,步骤160包括:
步骤402,查找在关注词表中存在的主题词。
具体的,查找根据待过滤微博的内容获得的主题词中存在于关注词表中的主题词。
步骤404,获取与查找到的主题词对应的关注度。
从关注词表中获取与查找到的主题词对应的关注度。
步骤406,检测查找到的主题词中互相关的主题词,获取互相关的主题词对应的相关度。
互相关的主题词,是查找到的主题词中,彼此相关的主题词。本实施例中,预先可设置用于记录互相关的主题词之间的映射关系的映射表,并在该映射表中记录对应互相关的主题词的相关度。其中,相关度可通过获取检测关键字词典中的词汇在样本集合中出现的次数,以及两两词汇在样本集合中共同出现的次数计算得到。本实施例中,可检测查找到的主题词是否在该映射表中有对应的映射记录,如果有,则获取两个主题词在映射表中的映射记录,并获取这两个主题词(也就是互相关的主题词)对应的相关度。
步骤408,根据查找到的主题词对应的关注度和相关度计算总关注度。
将互相关的主题词中的一个作为中心词,那么对于该中心词,总关注度可以使用公式计算得到。其中,α为该中心词在关注词表中对应的关注度,n为与该中心词相关的主题词的个数,βi为与该中心词相关的主题词对应的关注度,γi与该中心词相关的主题词与该中心词的相关度。可以将查找到的每一个主题词分别作为中心词计算对应的总关注度。
步骤410,根据总关注度判断是否过滤掉该微博。
当查找到的主题词中至少一个主题词的总关注度不低于第二过滤阈值时,不过滤掉该微博;否则过滤掉该微博。
本实施例中,通过检测在关注词表中存在的主题词中互相关的主题词,根据查找到的主题词对应的关注度和相关度计算总关注度,从而根据总关注度判断是否过滤掉微博。使得判断是否过滤微博的判断更为准确,可以进一步避免冗余信息的传播,节省了网络资源。
如图5所示,在另一个实施例中,步骤160包括:
步骤502,获取与主题词相关的相关词。
本实施例中,可根据待过滤微博的主题词,在该映射表中查找与该主题词对应的相关度大于相关度阈值的词汇,作为该主题词的相关词。比如,待过滤微博的内容为“昨天本来想趁着还剩那么多流量把微信,浏览器啥的都更新更新”,其分词结果为“昨天/本来/想/趁/着/还/剩/那么/多/流量/把/微信/,/浏览器/啥/的/都/更新/更新/”,其中“微信”、“流量”、“浏览器”是该微博的主题词,且经查找映射表,“浏览器”与“计算机”的相关度为θ,如果θ大于相关度阈值,那么“计算机”就是该微博中与“浏览器”相关的相关词。
步骤504,查找在关注词表中存在的相关词。
对于步骤502得到的相关词,可查找这些相关词是否在与用户标识对应到关注词表存在,若存在,则表明用户还对该微博中除主题词外,与该主题词相关的相关词也进行了关注。
步骤506,获取关注词表中存在的相关词对应的关注度和主题词与相关词对应的相关度,根据相关词对应的关注度和相关度判断是否过滤掉微博。
可以从关注词表中获取与相关词对应的关注度,从映射表中获取待过滤微博的主题词与相关词的相关度。当各个相关词的关注度与相关度的乘积的和不低于第三过滤阈值时,不过滤掉该微博;否则过滤该微博。比如,待过滤微博中有主题词“足球”,查找到该主题词的相关词为“中超”和“运动”,在映射表中,“足球”与“中超”的相关度为δ,“足球”与“运动”的相关度为ε,在关注词表中,“中超”对应的关注度为a,“运动”对应的关注度为b,那么当a×δ+b×ε的值不低于第三过滤阈值时,不过滤掉该微博,否则过滤掉该微博。
本实施例中,通过查找相关词的关注度和主题词与相关词对应的相关度,判断是否过滤掉微博,避免了冗余信息的传播,也避免了将一些对用户有用的信息也过滤掉,使得微博的过滤更为准确,也节省了网络资源。
如图6所示,在一个实施例中,过滤微博的方法还包括计算相关度的步骤,具体的,包括:
步骤602,获取样本集合。
样本集合可以是大量微博的集合,优选的,可以是终端已接收的大量微博的集合。
步骤604,检测关键字词典中的词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数。
如果两个词汇在样本集合中共同出现的次数比较多,说明这两个词汇之间的相关度比较高。因此可以通过统计词汇在样本集合中出现的次数和两两词汇在样本集合中共同出现的次数来计算相关度。
步骤606,根据词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数计算两两词汇之间的相关度。
在一个实施例中,可以使用一个正相关的函数来计算相关度。举例说明,假设样本集合的文本容量为1000个单词,其中“英雄”出现了100次,“联盟”出现了80次,“英雄联盟”(顺序不能颠倒)共同出现了50次,“英雄”与“联盟”的支持度为50/1000,“英雄”与“联盟”的可信度为50/100,“联盟”与“英雄”的可信度为50/80。将支持度和两个可信度带入一个正相关的函数,可计算获得“联盟”与“英雄”之间的相关度,比如将支持度和两个可信度分别加权再取和等。如上所述,计算得到的相关度可对应互相关的两个主题词保存在一个映射表中。
本实施例中,通过计算可以获得两两词汇之间的相关度,根据相关度可以查找与主题词相关的相关词,并根据相关词判断是否过滤掉微博,提高了过滤微博的准确率。
如图7所示,在一个实施例中,在根据待过滤微博的内容获取主题词之后,还包括根据黑和/或白名单过滤微博的流程,具体包括:
步骤702,获取输入的黑名单和/或白名单。
白名单中包含用户感兴趣、愿意接收的词汇,黑名单中包含用户不感兴趣、拒绝接收的词汇。黑名单和/或白名单中的词汇可以由用户自行设定,也可以从服务平台获取。
步骤704,判断主题词是否存在于白名单中,若是则执行步骤706,若否则执行步骤708。
步骤706,不过滤掉微博。
如果主题词存在于白名单中,该微博是用户需要的,不过滤掉该微博。白名单的优先级可以配置为高于黑名单的优先级,当主题词既存在于白名单中,也存在于黑名单中时,由于白名单的优先级高于黑名单的优先级,因此可以不过滤掉该微博。
步骤708,判断主题词是否存在于黑名单中,若是则执行步骤710,若否则执行步骤712。
步骤710,过滤掉微博。
如果主题词不存在于白名单中,却存在于黑名单中,该微博是用户不感兴趣的、拒绝接收的,因此过滤掉该微博。
步骤712,不过滤掉微博。
如果主题词既不存在于白名单中,也不存在于黑名单中,则不过滤掉该微博。
进一步的,在一个实施例中,该过滤微博的方法,还包括:将黑名单和/或白名单中的词汇加入关注词表中,并设置黑名单和/或白名单中的词汇对应的关注度。白名单中的词汇的关注度,可以设置为一个较高的值,可以是关注度取值范围内的最大值,比如100%;黑名单中的词汇的关注度,可以设置为一个较低的值,可以是关注度取值范围内的最小值,比如0。
本实施例中,通过设置黑/白名单,当该方法应用于服务器时,可以用以将用户感兴趣的微博推送给用户,将用户不感兴趣的微博过滤掉;当该方法应用于终端时,用以接收用户感兴趣的微博,不接收用户不感兴趣的微博。可以进一步避免冗余信息的传播,节省网络资源。
在一个实施例中,还可在终端提供用户设置是否按照黑名单和/或白名单过滤微博以及是否按照关注词表过滤微博的接口,通过该接口用户可设置是按照黑名单和/或白名单过滤微博,和/或按照关注词表过滤微博。因此,在一个实施例中,在根据待微滤微博的内容获取到主题词后,当有主题词存在于白名单中时,则可直接不过滤该微博或者进一步根据关注词表来判定是否过滤掉该微博。当没有主题词存在于白名单中时,则可进一步判断是否有主题词存在于黑名单中,当没有主题词存在于黑名单中时,可直接不过滤掉该微博或者进一步根据关注词表来判定是否过滤掉该微博。
如图8所示,在一个实施例中,该过滤微博的方法还包括:
步骤802,获取与用户标识对应的已接收微博,对已接收微博进行分词,得到候选词汇。
具体的,在服务器上存储了对应每个用户标识的已接收微博,对这些已接收微博进行处理可得到对应该用户标识的用户可能会关注的主题词。
步骤804,查找在关键字词典中存在的候选词汇。
步骤806,获取查找到的候选词汇的词频,根据词频计算候选词汇的关注度;根据候选词汇的关注度生成与用户标识对应的关注词表。
词频是候选词汇在已接收的微博中出现的次数。比如,用户接受了100条微博,共出现了3次“浏览器”,那么“浏览器”的词频就是3,那么“浏览器”的关注度可以表示为3/100=3%。还可以根据词频采用其他计算方式计算关注度,这里不一一列举。进一步的,可判断候选词汇对应的关注度是否大于预先设定的阈值,如果是,则将该候选词汇和对应的关注度加入与用户标识对应的关注词表中。
本实施例中,通过对已接收微博中的候选词汇的词频进行统计,并根据词频计算关注度,可以自动计算关注度生成关注词表,并随时根据用户已接收的微博更新关注词表,可以动态分析用户的行为,获取用户感兴趣的微博主题,可以更好地区分冗余信息与有用信息,使得冗余信息的过滤更为准确,节省了网络资源。
如图9所示,在一个实施例中,还提供了一种过滤微博的装置,包括:
主题词获取模块920,用于根据待过滤微博的内容获取主题词。
关注词表获取模块940,用于获取与用户标识对应的关注词表。
微博过滤模块960,用于根据关注词表获取主题词对应的关注度,根据关注度判断是否过滤掉微博。
如图10所示,在一个实施例中,主题词获取模块920包括:
第一分词模块922,用于对待过滤微博的文本信息进行分词,得到候选词。
主题词确定模块924,用于查找存在于关键字词典中的候选词为主题词。
如图11所示,在一个实施例中,微博过滤模块960包括:
主题词查找模块961,用于查找在关注词表中存在的主题词。
关注度获取模块963,用于获取与查找到的主题词对应的关注度。
第一判断模块965,用于根据查找到的主题词对应的关注度判断是否过滤掉微博。
如图12所示,在一个实施例中,微博过滤模块960还包括:
第一相关度获取模块962,用于检测查找到的主题词中互相关的主题词,获取互相关的主题词所对应的相关度。
总关注度计算模块964,用于根据查找到的主题词对应的关注度和相关度计算总关注度。
第二判断模块966,用于根据总关注度判断是否过滤掉微博。
如图13所示,在一个实施例中,微博过滤模块960包括:
相关词确定模块967,用于获取与主题词相关的相关词,查找在关注词表中存在的相关词。
第三判断模块969,用于获取与相关词对应的关注度和主题词与相关词对应的相关度,根据相关词对应的关注度和相关度判断是否过滤掉微博。
如图14所示,在一个实施例中,该过滤微博的装置还包括:
样本获取模块910,用于获取样本集合。
词汇检测模块930,用于检测关键字词典中的词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数。
相关度计算模块950,用于根据词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数计算两两词汇之间的相关度。
如图15所示,在一个实施例中,该过滤微博的装置还包括:
黑/白名单获取模块970,用于获取输入的黑名单和/或白名单。
白名单判断模块980,用于判断主题词是否存在于白名单中,若是,则不过滤掉微博。
黑名单判断模块990,用于当主题词不存在于白名单中时,进一步判断主题词是否存在于黑名单中,若是,则过滤掉微博。
如图16所示,在一个实施例中,该过滤微博的装置还包括:
第一关注词表设置模块972,用于将黑名单和/或白名单中的词汇加入关注词表中,并设置黑名单和/或白名单中的词汇对应的关注度。
如图17所示,在一个实施例中,该过滤微博的装置还包括:
关注度调整模块942,用于若不过滤掉微博,获取用户对接收到的微博的反馈信息,根据反馈信息调整在关注词表中存在的主题词的关注度。
如图18所示,在一个实施例中,该过滤微博的装置还包括第二关注词表设置模块944,第二关注词表设置模块944包括:
第二分词模块944a,用于获取与用户标识对应的已接收微博,对已接收微博进行分词,得到候选词汇。
词汇查找模块944b,用于查找在关键字词典中存在的候选词汇。
关注度计算模块944c,用于获取查找到的候选词汇的词频,根据词频计算候选词汇的关注度。
关注词表生成模块944d,用于根据候选词汇的关注度生成与用户标识对应的关注词表。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序存储于终端的存储介质中,并被该终端中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本发明实施例还提供了另一种过滤微博的终端,如图19所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图19示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图19,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线通信模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图19中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图19对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120中的软件程序可用于执行一种过滤微博的方法,该方法包括:根据待过滤微博的内容获取主题词;获取与用户标识对应的关注词表;根据关注词表获取主题词对应的关注度,根据关注度判断是否过滤掉微博。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图19中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
无线通信模块1170包括但不限于无线保真(wireless fidelity,WiFi,一种短距离无线传输技术)模块、蓝牙模块、红外通信模块等。手机通过无线通信模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图19示出了无线通信模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),优选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器1180还具有以下功能:用于根据待过滤微博的内容获取主题词;获取与用户标识对应的关注词表;根据关注词表获取主题词对应的关注度,根据关注度判断是否过滤掉微博。
在一个实施例中,处理器1180还具有以下功能:用于对待过滤微博的文本信息进行分词,得到候选词;查找存在于关键字词典中的候选词为主题词。
在一个实施例中,处理器1180还具有以下功能:用于查找在关注词表中存在的主题词;获取与查找到的主题词对应的关注度,根据查找到的主题词对应的关注度判断是否过滤掉微博。
在一个实施例中,处理器1180还具有以下功能:用于检测查找到的主题词中互相关的主题词,获取互相关的主题词所对应的相关度;根据查找到的主题词对应的关注度和相关度计算总关注度;根据总关注度判断是否过滤掉微博。
在一个实施例中,处理器1180还具有以下功能:用于获取与主题词相关的相关词;查找在关注词表中存在的相关词;获取关注词表中存在的相关词对应的关注度和主题词与相关词对应的相关度,根据相关词对应的关注度和相关度判断是否过滤掉微博。
在一个实施例中,处理器1180还具有以下功能:用于获取样本集合;检测关键字词典中的词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数;根据词汇在样本集合中出现的次数以及两两词汇在样本集合中共同出现的次数计算两两词汇之间的相关度。
在一个实施例中,处理器1180还具有以下功能:用于获取输入的黑名单和/或白名单;判断主题词是否存在于白名单中,若是,则不过滤掉微博;当主题词不存在于白名单中时,进一步判断主题词是否存在于黑名单中,若是,则过滤掉微博。
在一个实施例中,处理器1180还具有以下功能:用于将黑名单和/或白名单中的词汇加入关注词表中,并设置黑名单和/或白名单中的词汇对应的关注度。
在一个实施例中,处理器1180还具有以下功能:用于若不过滤掉微博,获取用户对接收到的微博的反馈信息,根据反馈信息调整在关注词表中存在的主题词的关注度。
在一个实施例中,处理器1180还具有以下功能:用于获取与用户标识对应的已接收微博,对已接收微博进行分词,得到候选词汇;查找在关键字词典中存在的候选词汇;获取查找到的候选词汇的词频,根据词频计算候选词汇的关注度;根据候选词汇的关注度生成与用户标识对应的关注词表。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种过滤微博的方法,所述方法包括:
获取与用户标识对应的已接收微博,对所述已接收微博进行分词,得到候选词汇;
查找在关键字词典中存在的所述候选词汇;
获取所述查找到的候选词汇的词频,根据所述词频计算所述候选词汇的关注度;
根据所述候选词汇的关注度生成与所述用户标识对应的关注词表;
根据待过滤微博的内容获取主题词;
获取与用户标识对应的关注词表;
根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博。
2.根据权利要求1所述的方法,其特征在于,所述根据待过滤微博的内容获取主题词,包括:
对所述待过滤微博的文本信息进行分词,得到候选词;
查找存在于关键字词典中的所述候选词为所述主题词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博,包括:
查找在所述关注词表中存在的所述主题词;
获取与查找到的主题词对应的关注度,根据所述查找到的主题词对应的关注度判断是否过滤掉所述微博。
4.根据权利要求3所述的方法,其特征在于,所述获取与查找到的主题词对应的关注度,根据所述查找到的主题词对应的关注度判断是否过滤掉所述微博,包括:
检测查找到的主题词中互相关的主题词,获取所述互相关的主题词所对应的相关度;
根据查找到的主题词对应的关注度和所述相关度计算总关注度;
根据所述总关注度判断是否过滤掉所述微博。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博,包括:
获取与所述主题词相关的相关词;
查找在所述关注词表中存在的所述相关词;
获取所述关注词表中存在的相关词对应的关注度和所述主题词与相关词对应的相关度,根据所述相关词对应的关注度和所述相关度判断是否过滤掉所述微博。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取样本集合;
检测关键字词典中的词汇在样本集合中出现的次数以及两两词汇在所述样本集合中共同出现的次数;
根据所述词汇在所述样本集合中出现的次数以及两两词汇在所述样本集合中共同出现的次数计算两两词汇之间的相关度。
7.根据权利要求1所述的方法,其特征在于,在所述根据待过滤微博的内容获取主题词的步骤之后,所述方法还包括:
获取输入的黑名单和/或白名单;
判断所述主题词是否存在于所述白名单中,若是,则不过滤掉所述微博;
当所述主题词不存在于所述白名单中时,进一步判断所述主题词是否存在于所述黑名单中,若是,则过滤掉所述微博。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述黑名单和/或白名单中的词汇加入所述关注词表中,并设置所述黑名单和/或白名单中的词汇对应的关注度。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若不过滤掉所述微博,获取用户对接收到的所述微博的反馈信息,根据所述反馈信息调整在所述关注词表中存在的所述主题词的关注度。
10.一种过滤微博的装置,其特征在于,所述装置包括:
分词模块,用于获取与用户标识对应的已接收微博,对所述已接收微博进行分词,得到候选词汇;
词汇查找模块,用于查找在关键字词典中存在的所述候选词汇;
关注度计算模块,用于获取所述查找到的候选词汇的词频,根据所述词频计算所述候选词汇的关注度;
关注词表生成模块,用于根据所述候选词汇的关注度生成与所述用户标识对应的关注词表;
主题词获取模块,用于根据待过滤微博的内容获取主题词;
关注词表获取模块,用于获取与用户标识对应的关注词表;
微博过滤模块,用于根据所述关注词表获取所述主题词对应的关注度,根据所述关注度判断是否过滤掉所述微博。
11.根据权利要求10所述的装置,其特征在于,所述主题词获取模块包括:
所述分词模块,还用于对所述待过滤微博的文本信息进行分词,得到候选词;
主题词确定模块,用于查找存在于关键字词典中的所述候选词为所述主题词。
12.根据权利要求10所述的装置,其特征在于,所述微博过滤模块包括:
主题词查找模块,用于查找在所述关注词表中存在的所述主题词;
关注度获取模块,用于获取与查找到的主题词对应的关注度;
第一判断模块,用于根据所述查找到的主题词对应的关注度判断是否过滤掉所述微博。
13.根据权利要求12所述的装置,其特征在于,所述微博过滤模块还包括:
第一相关度获取模块,用于检测查找到的主题词中互相关的主题词,获取所述互相关的主题词所对应的相关度;
总关注度计算模块,用于根据查找到的主题词对应的关注度和所述相关度计算总关注度;
第二判断模块,用于根据所述总关注度判断是否过滤掉所述微博。
14.根据权利要求10所述的装置,其特征在于,所述微博过滤模块包括:
相关词确定模块,用于获取与所述主题词相关的相关词,查找在所述关注词表中存在的所述相关词;
第三判断模块,用于获取与所述相关词对应的关注度和所述主题词与相关词对应的相关度,根据所述相关词对应的关注度和所述相关度判断是否过滤掉所述微博。
15.根据权利要求13或14所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取样本集合;
词汇检测模块,用于检测关键字词典中的词汇在样本集合中出现的次数以及两两词汇在所述样本集合中共同出现的次数;
相关度计算模块,用于根据所述词汇在所述样本集合中出现的次数以及两两词汇在所述样本集合中共同出现的次数计算两两词汇之间的相关度。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
黑/白名单获取模块,用于获取输入的黑名单和/或白名单;
白名单判断模块,用于判断所述主题词是否存在于所述白名单中,若是,则不过滤掉所述微博;
黑名单判断模块,用于当所述主题词不存在于所述白名单中时,进一步判断所述主题词是否存在于所述黑名单中,若是,则过滤掉所述微博。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
关注词表设置模块,用于将所述黑名单和/或白名单中的词汇加入所述关注词表中,并设置所述黑名单和/或白名单中的词汇对应的关注度。
18.根据权利要求10所述的装置,其特征在于,所述装置还包括:
关注度调整模块,用于若不过滤掉所述微博,获取用户对接收到的所述微博的反馈信息,根据所述反馈信息调整在所述关注词表中存在的所述主题词的关注度。
19.一种终端,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
20.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
CN201310284727.2A 2013-07-08 2013-07-08 过滤微博的方法和装置 Active CN104281610B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310284727.2A CN104281610B (zh) 2013-07-08 2013-07-08 过滤微博的方法和装置
PCT/CN2014/081794 WO2015003607A1 (en) 2013-07-08 2014-07-08 Systems and methods for filtering microblogs
US14/795,318 US10204164B2 (en) 2013-07-08 2015-07-09 Systems and methods for filtering microblogs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310284727.2A CN104281610B (zh) 2013-07-08 2013-07-08 过滤微博的方法和装置

Publications (2)

Publication Number Publication Date
CN104281610A CN104281610A (zh) 2015-01-14
CN104281610B true CN104281610B (zh) 2019-03-29

Family

ID=52256486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310284727.2A Active CN104281610B (zh) 2013-07-08 2013-07-08 过滤微博的方法和装置

Country Status (3)

Country Link
US (1) US10204164B2 (zh)
CN (1) CN104281610B (zh)
WO (1) WO2015003607A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615714B (zh) * 2015-02-05 2019-05-24 北京中搜云商网络技术有限公司 基于文本相似度和微博频道特征的博文排重方法
CN107784029B (zh) * 2016-08-31 2022-02-08 阿里巴巴集团控股有限公司 生成提示关键词、建立索引关系的方法、服务器和客户端
CN108268431B (zh) * 2016-12-30 2019-12-03 北京国双科技有限公司 段落向量化的方法和装置
CN109978645B (zh) * 2017-12-28 2022-04-12 北京京东尚科信息技术有限公司 一种数据推荐方法和装置
CN108595481A (zh) * 2018-03-13 2018-09-28 维沃移动通信有限公司 一种通知消息显示方法及终端设备
CN110909255B (zh) * 2019-11-01 2022-10-25 北京达佳互联信息技术有限公司 一种内容处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404239A (zh) * 2010-09-08 2012-04-04 腾讯科技(深圳)有限公司 一种用于在微博中提供广播消息的方法和系统
CN102970324A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110179114A1 (en) * 2010-01-15 2011-07-21 Compass Labs, Inc. User communication analysis systems and methods
US20120066303A1 (en) * 2010-03-03 2012-03-15 Waldeck Technology, Llc Synchronized group location updates
US8954451B2 (en) * 2010-06-30 2015-02-10 Hewlett-Packard Development Company, L.P. Selecting microblog entries based on web pages, via path similarity within hierarchy of categories
CN102622374B (zh) * 2011-01-31 2017-10-31 腾讯科技(深圳)有限公司 一种信息推送方法、装置及系统
US8473498B2 (en) * 2011-08-02 2013-06-25 Tom H. C. Anderson Natural language text analytics
US8886737B1 (en) * 2011-09-06 2014-11-11 Google Inc. Identifying particular parties
US8756500B2 (en) * 2011-09-20 2014-06-17 Microsoft Corporation Dynamic content feed filtering
US20160171228A1 (en) * 2012-06-21 2016-06-16 Thomson Licensing Method and apparatus for obfuscating user demographics
WO2014008866A1 (en) * 2012-07-11 2014-01-16 Xie Wanxia System and method for indexing, ranking, and analyzing web activity within event driven architecture

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404239A (zh) * 2010-09-08 2012-04-04 腾讯科技(深圳)有限公司 一种用于在微博中提供广播消息的方法和系统
CN102970324A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置

Also Published As

Publication number Publication date
CN104281610A (zh) 2015-01-14
US10204164B2 (en) 2019-02-12
WO2015003607A1 (en) 2015-01-15
US20150310119A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及系统
US9241242B2 (en) Information recommendation method and apparatus
CN104281610B (zh) 过滤微博的方法和装置
CN108156508B (zh) 弹幕信息处理的方法、装置、移动终端、服务器及系统
CN106303070B (zh) 一种通知消息的提示方法、装置及移动终端
US20150088914A1 (en) User recommendation method and system in sns community, and computer storage medium
CN110166828A (zh) 一种视频处理方法和装置
CN103455330A (zh) 应用程序管理方法、终端、设备及系统
CN107885718B (zh) 语义确定方法及装置
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN103501487A (zh) 分类器更新方法、装置、终端、服务器及系统
JP6915074B2 (ja) メッセージ通知方法及び端末
CN106202422B (zh) 网页图标的处理方法和装置
CN104063400A (zh) 数据搜索方法和装置
CN106294087B (zh) 一种对业务执行操作的操作频率的统计方法及装置
CN104424203A (zh) 移动设备中的照片分享状态查看方法及系统
CN104731806B (zh) 一种在社交网络中快速查找用户信息的方法及终端
CN105991405A (zh) 一种即时通信的建立方法及装置
CN106339402B (zh) 一种推荐内容推送的方法、装置及系统
CN103401910A (zh) 推荐方法、服务器、终端及系统
CN104834638B (zh) 一种热词展示方法、装置及电子设备
CN104424218B (zh) 应用数据的调用方法和装置
CN109740121A (zh) 一种移动终端的搜索方法、移动终端及存储介质
CN106570096B (zh) 图片排序方法和装置
CN111666485B (zh) 一种信息推荐方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant