CN103914491B - 对优质用户生成内容的数据挖掘方法和系统 - Google Patents
对优质用户生成内容的数据挖掘方法和系统 Download PDFInfo
- Publication number
- CN103914491B CN103914491B CN201310007061.6A CN201310007061A CN103914491B CN 103914491 B CN103914491 B CN 103914491B CN 201310007061 A CN201310007061 A CN 201310007061A CN 103914491 B CN103914491 B CN 103914491B
- Authority
- CN
- China
- Prior art keywords
- ugc
- quality
- account number
- correlation
- account
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种对优质用户生成内容(UGC)的数据挖掘方法和系统,包括:计算各个帐号所发表的历史UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;在接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。利用本发明,可以提高优质UGC与目标用户所关心内容和本类目的相关性,提高优质UGC的实时性。
Description
技术领域
本申请涉及计算机和互联网数据处理技术领域,尤其涉及一种对优质用户生成内容(UGC,User Generated Content)的数据挖掘方法和系统。
背景技术
目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2.0时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为UGC,如用户发表的日志、照片等。在Web2.0时代,由于UGC的大量涌现,网络信息量呈几何级快速增长,形成一个多、广、专的局面,对人类知识的积累和传播起到了一个非常大的作用。
可以发表UGC的网站系统通常被称为UGC网站系统。例如目前常用的UGC网站系统包括:微博客(MicroBlog)系统、社交网络服务系统(SNS,Social NetworkService))、社区论坛系统、知识分享系统等等。其中某些UGC网站系统的功能也是相互融合的,具有多种属性。
例如,微博客(MicroBlog),简称微博,是一个基于用户关系的信息分享、传播以及获取的UGC网站系统,也属于一种SNS系统,用户可以通过有线通信网络或无线通信网络、以及各种客户端访问微博,以指定数目的文字和/或其它多媒体信息更新信息,并实现即时分享。在微博系统中,每一个用户都可以收听(或关注)其它用户,即被该用户收听(或关注)的用户所发表的微博信息(即UGC)可以及时地传输到该用户的微博中。当然所有的用户也可以被其它用户收听(或关注)。
但是需要注意的是,在UGC网站系统中,因为每一个人都可以生成内容,可能会有很多错误、虚假和片面的内容,所以出现了对优质内容进行挖掘筛选的需求。目前,出现了一种在UGC网站系统中对优质UGC的数据挖掘方法,其目的是要从大量用户所发表的大量的UGC中挖掘出最值得推荐的优质UGC,所谓优质UGC的数据挖掘技术,就是通过数据统计分析对目标用户所关心的内容进行估计,从而将与目标用户所关心的内容的相关度最高的UGC挑选出来,优先展示给目标用户,从而方便目标用户在第一时间看到所关心的优质UGC,减少目标用户为了需找优质UGC而耗费时间和精力。
例如,在目前的微博系统中,出现了一种被称为“热门微博”的优质UGC的数据挖掘方案。图1为一种“热门微博”的优质UGC的数据挖掘方案的展示效果界面图。参见图1,在这种现有的优质UGC数据挖掘技术中,微博系统对微博进行归类,形成各个类目,如图1左侧的类目列表101,并人工设置每个类目的优质帐号,对每个类目中的优质帐号所发表的微博进行数据挖掘,即在每个类目中按照一段时间内的转发数和评论数的多寡对各个微博进行排名,一个微博的转发数和评论数越多则排名越靠前,排名靠前的微博就是本类目中的“热门微博”即优质UGC。当然也可以将全部类目的优质帐号所发表的微博,按照一段时间内的转发数和评论数进行排名,从而得到全部类目的“热门微博”。
但是,现有的这种优质UGC的数据挖掘方案存在以下缺点:
首先,每个类目中的优质帐号基本上是按照该帐号所拥有的“粉丝”数量来设置的,所述粉丝即收听(或关注)该帐号的用户,当一个帐号所拥有的粉丝数量大于某个阈值则该帐号就会被设置为优质帐号,但是,“粉丝”数量高的帐号所发表的UGC不见得优质,而“粉丝”数量低的帐号所发表的UGC也不见得不优质。或者所述优质帐号由网站管理人员进行人工主观设置,至于各个优质帐号的归属类目,则完全由人工主观设置。因此,现有技术所设置的优质帐号都不是基于帐号所发表的客观UGC内容得出的,而是根据其它因素如“粉丝”数量或主观设置得出,因此从这些所谓的优质帐号所发出的UGC中挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较差,而且与本类目的相关性也较差,例如在微博系统中,一个“娱乐”类的优质帐号所发表的热门微博的内容不见得就属于“娱乐”类目,有可能属于其它类目。
其次,现有的这种优质UGC的数据挖掘过程中主要依据各类目优质帐号所发表的UGC的转发数和评论数进行排名挑选,也不是基于UGC的内容来挑选,导致最终挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较差,而且与本类目的相关性也较差。
再次,由于现有的这种优质UGC的数据挖掘过程中主要依据各类目优质帐号所发表的UGC的转发数和评论数进行排名挑选,而转发数和评论数较高的UGC往往是发表时间较久的UGC,而最新发表的UGC的转发数和评论数往往很小,因此最新发表的UGC被挑选为优质UGC的几率很低,导致优质UGC的实时性太差,无法适应某些需要实时较高的类目如新闻类目的实时性要求。
总之,现有的这种优质UGC的数据挖掘技术所挑选出的各类目的优质UGC与目标用户所关心的内容的相关性较差,与本类目的相关性也较差,且实时性也较差。导致目标用户不便快速浏览到所关心的UGC,需要耗费过多的时间和精力去寻找其所关心的内容。同时,在用户需找其所关心的内容的过程中,需要进行大量的人机交互操作(如点击查看等操作),而每一次人机交互操作都会占用相应的机器资源和网络带宽资源,如果直接将优质UGC推荐给用户,用户则可以减少大量的人机交互操作,降低对机器资源和网络带宽资源的占用量。
发明内容
有鉴于此,本发明的主要目的在于提供一种优质UGC的数据挖掘方法和系统,以提高优质UGC与目标用户所关心内容和本类目的相关性,提高优质UGC的实时性,方便目标用户快速浏览到所关心的内容,降低用户为寻找所关心的内容而进行的人机交互操作。
本发明的技术方案是这样实现的:
一种对优质用户生成内容UGC的数据挖掘方法,包括:
对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
一种对优质UGC的数据挖掘系统,该系统包括:
优质帐号挖掘模块,对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
优质UGC挖掘模块,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
与现有技术相比,本发明在选取优质帐号的过程中,是基于帐号所发表的客观UGC内容进行分析计算得到各UGC的质量分及其与各类目的相关度,再依据所述质量分和相关度筛选出各类目的优质帐号,而不是根据其它因素如“粉丝”数量或主观设置得出,因此本发明从这些筛选出的优质帐号所发出的UGC中挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较高,而且与本类目的相关性也较高。同时,本发明在选取优质UGC的过程中,也是基于UGC的客观内容计算得到该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并根据预设的阈值选出优质帐号所属类目中的优质UGC,因此选取方式更加客观,提高了最终挑选出来的优质UGC的内容与目标用户所关心的内容的相关性,而且提高了优质UGC与本类目的相关性。另外,由于本发明在接收到优质帐号新发表的UGC之后就进行优质UGC的筛选处理,其优质UGC的实时性也大为提高。
因此,本发明可以方便目标用户快速浏览到所关心的内容,降低用户为寻找所关心的内容而进行的人机交互操作,节省由于进行多余人机交互操作所占用的机器资源和网络带宽资源。
附图说明
图1为一种“热门微博”的优质UGC的数据挖掘方案的展示效果界面图;
图2为本发明所述优质UGC的数据挖掘方法的流程图;
图3为本发明所述步骤201的挖掘优质帐号的一种具体流程图;
图4为本发明所述优质UGC的数据挖掘系统的一种实施例的组成示意图;
图5为本发明所述优质UGC的数据挖掘系统的又一种实施例的组成示意图;
图6为本发明所述数据挖掘系统的优质帐号挖掘模块的一种组成示意图;
图7为本发明应用在微博系统中进行优质微博的数据挖掘方法的一种流程图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明
图2为本发明所述优质UGC的数据挖掘方法的流程图。参见图2,该方法主要包括:
步骤201,挖掘各类目的优质账号。即:对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号。由于该步骤201的计算量巨大,因此该步骤通常离线进行。
步骤202、对优质UGC的挖掘处理。即:在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC,否则该UGC不是优质UGC。
在一种优选的实施例中,步骤202中,在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括数据的预处理过程,即:对于实时接收到的微博,过滤掉含有关键词黑名单中所列词的微博;即判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果包括则排除掉该UGC,即不对该UGC进行后续的处理,否则对该UGC进行后续的处理。这样可以进一步排除掉含有黑名单内容的UGC,提高优质UGC的内容质量,也可以精简候选UGC的数量,减少后续计算的计算量。
步骤202中,本发明所述在UGC网站系统接收到所述优质帐号新发表的UGC之后,具体可以为:在UGC网站系统实时接收到所述优质帐号新发表的每个UGC之后,或者在UGC网站系统定期接收到最近的一段时间内所述优质帐号发表的一个以上UGC之后。也就是说,本发明步骤202中的优质UGC的挖掘处理,可以是在每实时接收到一个优质帐号发表的一个UGC之后,就触发步骤202对该UGC的进行处理,如果该UGC是优质UGC则挑选出来;也可以是在定期接收到最近一段时间(例如每10分钟)内所述优质帐号发表的一个以上UGC之后,再触发步骤202对所接收的每一个UGC进行处理,从中挑选出优质UGC。
在一种具体的实施例中,如果采用定期接收到最近一段时间(例如每10分钟)内所述优质帐号发表的一个以上UGC之后再触发步骤202进行处理,则在步骤202中,在计算所述优质帐号新发表的UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括去重处理,即:
判断接收到的所述优质帐号新发表的UGC的数量是否为两个以上,如果是两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只对其它UGC进行后续处理。通过这种去重处理,可以进一步精简候选UGC的数量,减轻后续计算的计算量。
所述计算所述各个新发表的UGC之间的文本相似度,具体包括:对所述各个新发表的UGC进行文本切词取得实词,计算所述两两UGC之间的实词重复率,所述实词重复率就是文本相似度,对于实词重复率高于指定阈值的两个UGC,说明这两个UGC的内容相似,此时只保留发表时间较早的UGC进行后续的处理。
在所述步骤201挖掘优质帐号的过程中,由于计算量巨大,因此该步骤201通常是离线进行。图3为本发明所述步骤201的挖掘优质帐号的一种具体流程图。参见图3,该过程主要包括以下步骤211至115:
步骤211、获取UGC网站系统各个帐号(通常为全量用户帐号)在指定历史时间段内(例如最近两个月)所发表的原创UGC的内容。
步骤212、针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度。
步骤213、根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度。
其中:
某个帐号的平均质量分=该帐号所发表的各原创UGC质量分的总和/该帐号发表的原创UGC的数量;
某个帐号与某类目的平均相关度=该帐号所发表的各原创UGC与该类目相关度的总和/该帐号发表的原创UGC的数量;
步骤214、针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目。这样可以在一定程度上保证类目质量。
步骤215、挖掘优质帐号,具体包括:针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
如上所述,所述原创UGC的质量分以及与类目的相关度是挖掘优质帐号的重要依据,当然在进一步的实施例中可以用这两个参数衍生出其它参数,以作为挖掘优质帐号的进一步的依据。
例如在一种实施例中,在所述步骤212中,在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,进一步将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度,该可信度就是一种衍生参数,可以作为挖掘优质帐号的进一步的依据。并且,在所述步骤213中进一步包括:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度,其中:
某个帐号针对某类目的平均可信度=该帐号发表的每个原创UGC针对该类目的可信度的总和/该帐号所发表的原创UGC的总数;
并且在所述步骤215中进一步包括:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
在上述步骤201和步骤202中,所述计算某个UGC的质量分的具体过程包括:
获取该UGC的文本总长度、总词数、过滤词数和标点符号数,所述过滤词数为该UGC中属于预设的过滤词的词数;
确定该UGC的有效词数,该有效词数=总词数-过滤词数-标点符号数;
确定该UGC的文本基础分,该文本基础分=文本总长度+w5×有效词数+w6×过滤词数;所述w5和w6为对应的权重系数;
计算该UGC的词重复数,并确定词重复度,该词重复度=词重复数/总词数;
确定该UGC的文本分,该文本分=文本基础分×(有效词数/总词数)×f1×(1-词重复度)/w4,其中所述f1是以标点符号数和总词数为参数的预设函数,所述w4为对应的权重系数;
获取该UGC的发表时间,确定该UGC的时间分,该时间分=(该UGC发表时间-预设的基准时间)/w7,所述w7为对应的权重系数;
确定该UGC的质量分,该质量分=w1×(w2×文本分+w3×时间分),所述w1、w2和w3为对应的权重系数。
在上述步骤201和步骤202中,所述计算某一UGC与某一类目的相关度,具体根据以下公式计算:
相关度=W1×F1(weight)+W2×F2(rate)+W3×F3(rank)
其中,所述W1、W2、W3分别是三个对应的权重系数;
所述weight是该类目的权重;
所述rate是该类目权重除以总权重的值;
所述rank是该类目在所有类目中的权重排名值;
所述F1是将weight归约到0-1的函数;
所述F2是将rate归约到0-1的函数;
所述F3是将rank归约到0-1的函数。
与上述方法对应,本发明还公开了一种对优质UGC的数据挖掘系统,用于执行本发明的所述方法。图4为本发明所述优质UGC的数据挖掘系统的一种实施例的组成示意图。参见图4,该数据挖掘系统主要包括:
优质帐号挖掘模块401,用于挖掘各类目优质账号:即对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号。
优质UGC挖掘模块402,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
图5为本发明所述优质UGC的数据挖掘系统的又一种实施例的组成示意图。参见图5,该实施例中进一步包括:
预处理模块501,设置在所述优质UGC挖掘模块402之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果不包括则将该UGC送入后续模块处理,否则不将该UGC送入后续模块处理。
在该实施例中,该系统还进一步包括:
去重模块502,设置在所述优质UGC挖掘模块402之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只将其它UGC送入后续模块处理。
在上述实施例中,所述数据挖掘系统包括了预处理模块501和去重模块502。当然,在另外的实施例中,所述数据挖掘系统也可以在图4的基础上进一步包括预处理模块501或者进一步包括去重模块502。
图6为本发明所述数据挖掘系统的优质帐号挖掘模块的一种组成示意图。由于计算量较大,该优质帐号挖掘模块401为一种离线处理模块,具体组成参见图6,包括:
第一子模块,用于获取UGC网站系统各个帐号(通常为全量用户帐号)在指定历史时间段内(例如最近两个月)所发表的原创UGC的内容。
第二子模块,用于针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度。
第三子模块,用于根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度。
第四子模块,用于针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目,这可一定程度上保证类目质量。
第五子模块,用于针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
在进一步的实施例中,所述第二子模块还可以进一步用于:在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度作为衍生参数;同时,所述第三子模块进一步用于:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度;并且,所述第五子模块进一步用于:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
本发明可以适用的UGC网站系统为可以发表UGC的网站系统,例如包括:微博系统、社交网络服务系统(SNS,Social Network Service))、社区论坛系统、知识分享系统等等。其中某些UGC网站系统的功能也是相互融合的,具有多种属性。下面以将本发明应用在微博系统中为例进一步说明本发明的技术方案,其中的微博就是本发明所述的UGC。
图7为本发明应用在微博系统中进行优质微博的数据挖掘方法的一种流程图。
参见图7,该流程包括:
步骤701、离线挖掘各类目的优质账号。具体包括以下步骤711至步骤715。
步骤711、获取各帐号最近一段时间(如最近两个月)所发表的原创微博,得下表1所示例的数据:
表1
步骤712、计算所获取的原创微博的质量分、与各类目的相关度和可信度。
此处假设微博质量分的具体计算公式为:
质量分=700000×(0.5×文本分+0.4×(微博发表时间-1293811200)/w7)。其中w7=3600×87600。
文本分=(文本总长度+5×(总词数-过滤词数-标点符号数)-20×过滤词数)×(总词数-过滤词数-标点符号数)/总词数×f1(标点符号数,总词数)×(1-词重复数/总词数)/840。
其中f1的具体数值可根据评估数据进行分析得到,具体实例如下:
f1的默认值为1;
当标点数为0时,当总长度大于300时f1=0.3,当总长度大于100时f1=0.6,当总长度大于70时0.88;
当标点数大于40时,f1=0.74;
当标点数大于30时,f1=0.82;
当标点数大于20时,f1=0.92;
当标点数除以总长度小于0.03时,f1=0.73;
当标点数除以总长度小于0.05时,f1=0.9。
此处假设微博与某类目的相关度的具体计算公式为:
相关度=0.2×F1(weight)+0.6×F2(rate)+0.2×F3(rank)
F1定义为:
当weight>3时F1=1
其他情况下F1=pow(weight/3,0.2)
F2定义为:
当rate>0.5时F2=1
其他情况下F2=pow(rate/0.5,0.4)
F3定义为:
当rank>10时,F3=0
其他情况下F3=pow((11.0-rank)/10.0,1.5)
此处举例计算编号1的微博的质量分、相关度和可信度。其中:
(1)编号1的微博的质量分的计算过程为:
编号1的微博的文本总长度为134,总词数35,标点符号数9,过滤词数0,词重复数0
编号1的微博的文本分=(134+5×(35-0-9)-20×0)×(35-0-9)/35×1×(1-0/35)/840=0.233469
编号1的微博的时间分=(1354621754-1293811200)/3600/87600=0.192829
编号1的微博的质量分=700000×(0.5×文本分+0.4×时间分)=700000×(0.5×0.233469+0.4×0.192829)=135706
(2)编号1的微博与各类目的相关度的计算过程为:
可通过TfIdf之类的分类训练方法训练得到各个词在各个类目下的权重,得到带权重的分类词表,然后依据该带权重的分类词表可以得到该微博文本切词后各个词条在各个类目的权重。该编号1的微博切词后各词条在各个类目的具体权重如下表2所示:
词条 | 类目 | 权重 |
nba | 篮球 | 1.000000 |
停摆 | 篮球 | 0.529648 |
球员 | 篮球 | 0.205528 |
球员 | 足球 | 0.197445 |
透露 | 时事 | 0.120000 |
消息 | 时事 | 0.120000 |
报价 | 购物 | 0.100000 |
接受 | 语录 | 0.100000 |
透露 | 军事 | 0.100000 |
消息 | 军事 | 0.100000 |
表2
由上表2汇总并根据相关度的计算公式0.2×F1(weight)+0.6×F2(rate)+0.2×F3(rank)可得到编号1的微博与各类目的相关度,具体取值如下表3:
类目 | 权重(weight) | 比例(rate) | 排名(rank) | 相关度 |
篮球 | 1.735176 | 0.208239 | 1 | 0.990000 |
时事 | 0.240000 | 0.028802 | 2 | 0.306711 |
军事 | 0.200000 | 0.024002 | 3 | 0.256398 |
足球 | 0.197445 | 0.023695 | 4 | 0.228975 |
语录 | 0.100000 | 0.012001 | 5 | 0.149597 |
购物 | 0.100000 | 0.012001 | 6 | 0.127356 |
表3
(3)编号1的微博针对各类目的可信度,可以根据可信度计算公式即:质量分×该微博与该类目的相关度,进行计算,计算结果可得下表4:
类目 | 相关度 | 可信度 |
篮球 | 0.990000 | 134348 |
时事 | 0.306711 | 41622 |
军事 | 0.256398 | 34794 |
足球 | 0.228975 | 31073 |
语录 | 0.149597 | 20301 |
购物 | 0.127356 | 17282 |
表4
参照以上方法对所有微博计算质量分、相关度、可信度,可得到下表5所述的结果:
表5
步骤713、根据以上数据可汇总得到各帐号的平均质量分以及与各类目的平均相关度和平均可信度,得下表6
表6
步骤714、针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目。根据上表6所示,所述“张三”唯一归属为“篮球”类目,所述“李四”唯一归属为“军事”类目。
步骤715、挖掘优质帐号,此处假设优质账号的选取过滤规则是要同时满足:
1)质量分>70000;
2)相关度>0.3;
3)可信度>65000。
根据上述过滤规则,“张三”成为类目“篮球”的优质账号,李四则被抛弃。
通过上述过程可以挖掘出优质帐号,在微博系统实时接收到优质帐号新发表的微博后,则执行如下步骤702至步骤706。
假设,此时实时接收到了三个优质帐号的微博,分别是帐号A、帐号B和帐号C。这些优质账号发表的微博数据如下表7所示:
表7
步骤702、数据预处理。假设“互听”在关键词黑名单中,因此微博编号3被过滤掉,其他微博通过预处理。
步骤703、数据去重处理。将微博文本切词后取得实词,两两微博实词重复率,重复率高于一定阈值则认为相似,保留发表时间较早的微博。
在本示例中,编号4和编号8重复度高于阈值,则排除掉时间较晚的编号4的微博,其它微博继续进行后续处理。
步骤704、进行微博相关性检测。
利用与步骤712相同的相关度计算方法,计算得到各条微博的相关度,并根据各类目对应的相关度阈值判定该微博是否通过检测,如果不通过检测则排除该微博,具体的结果如下表8所示:
表8
经过相关性检测后得下表9:
表9
步骤705、进行微博的质量检测。
利用与步骤712中相同的质量分计算方法,得到各条微博的质量分,并根据各类目对应的质量分阈值判定该微博是否通过检测,如果不通过检测则排除该微博,具体的结果如下表10所示:
表10
经过质量分检测最终编号6的微博成为“篮球”类目的优质微博。
由以上实施例可以看出,基于本发明所提供的微博优质内容数据挖掘方案,可以快速、准确地发现各类目的微博优质内容,为用户快速阅览其感兴趣类目的优质微博提供了便利。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (13)
1.一种对优质用户生成内容UGC的数据挖掘方法,其特征在于,包括:
对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
2.根据权利要求1所述的方法,其特征在于,该方法在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括:
判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果包括则不对该UGC进行后续的处理。
3.根据权利要求1或2所述的方法,其特征在于,该方法在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括:
如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只对其它UGC进行后续处理。
4.根据权利要求1所述的方法,其特征在于,所述在UGC网站系统接收到所述优质帐号新发表的UGC之后,具体为:在UGC网站系统实时接收到所述优质帐号新发表的每个UGC之后,或者在UGC网站系统定期接收到最近的一段时间内所述优质帐号发表的一个以上UGC之后。
5.根据权利要求1所述的方法,其特征在于,所述对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号,其具体过程为离线操作,包括:
获取UGC网站系统各个帐号在指定历史时间段内所发表的原创UGC的内容;
针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度;
根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度;
针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目;
挖掘优质帐号,具体包括:针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
6.根据权利要求5所述的方法,其特征在于,
所述在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,进一步包括:将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度;并根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度;
在挖掘优质帐号的过程中,针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,进一步判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
7.根据权利要求1或5所述的方法,其特征在于,所述计算UGC的质量分,具体包括:
获取该UGC的文本总长度、总词数、过滤词数和标点符号数,所述过滤词数为该UGC中属于预设的过滤词的词数;
确定该UGC的有效词数,该有效词数=总词数-过滤词数-标点符号数;
确定该UGC的文本基础分,
该文本基础分=文本总长度+w5×有效词数+w6×过滤词数;所述w5和w6为对应的权重系数;
计算该UGC的词重复数,并确定词重复度,该词重复度=词重复数/总词数;
确定该UGC的文本分,
该文本分=文本基础分×(有效词数/总词数)×f1×(1-词重复度)/w4,其中所述f1是以标点符号数和总词数为参数的预设函数,所述w4为对应的权重系数;
获取该UGC的发表时间,确定该UGC的时间分,
该时间分=(该UGC发表时间-预设的基准时间)/w7,所述w7为对应的权重系数;
确定该UGC的质量分,该质量分=w1×(w2×文本分+w3×时间分),所述w1、w2和w3为对应的权重系数。
8.根据权利要求1或5所述的方法,其特征在于,所述计算UGC与某一类目的相关度,具体根据以下公式计算:
相关度=W1×F1(weight)+W2×F2(rate)+W3×F3(rank)
其中,所述W1、W2、W3分别是三个对应的权重系数;
所述weight是该类目的权重;
所述rate是该类目权重除以总权重的值;
所述rank是该类目在所有类目中的权重排名值;
所述F1是将weight归约到0-1的函数;
所述F2是将rate归约到0-1的函数;
所述F3是将rank归约到0-1的函数。
9.一种对优质UGC的数据挖掘系统,其特征在于,该系统包括:
优质帐号挖掘模块,对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
优质UGC挖掘模块,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
10.根据权利要求9所述的系统,其特征在于,该系统进一步包括:
预处理模块,设置在所述优质UGC挖掘模块之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果不包括则将该UGC送入后续模块处理,否则不将该UGC送入后续模块处理。
11.根据权利要求9或10所述的系统,其特征在于,该系统进一步包括:
去重模块,设置在所述优质UGC挖掘模块之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只将其它UGC送入后续模块处理。
12.根据权利要求9所述的系统,其特征在于,所述优质帐号挖掘模块为离线处理模块,具体包括:
第一子模块,用于获取UGC网站系统各个帐号在指定历史时间段内所发表的原创UGC的内容;
第二子模块,用于针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度;
第三子模块,用于根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度;
第四子模块,用于针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目;
第五子模块,用于针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
13.根据权利要求12所述的系统,其特征在于,
所述第二子模块进一步用于:在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度;
所述第三子模块进一步用于:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度;
所述第五子模块进一步用于:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310007061.6A CN103914491B (zh) | 2013-01-09 | 2013-01-09 | 对优质用户生成内容的数据挖掘方法和系统 |
PCT/CN2013/086839 WO2014107989A1 (en) | 2013-01-09 | 2013-11-11 | Method and apparatus for determining hot user generated contents |
US14/627,632 US10198480B2 (en) | 2013-01-09 | 2015-02-20 | Method and apparatus for determining hot user generated contents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310007061.6A CN103914491B (zh) | 2013-01-09 | 2013-01-09 | 对优质用户生成内容的数据挖掘方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103914491A CN103914491A (zh) | 2014-07-09 |
CN103914491B true CN103914491B (zh) | 2017-11-17 |
Family
ID=51040182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310007061.6A Active CN103914491B (zh) | 2013-01-09 | 2013-01-09 | 对优质用户生成内容的数据挖掘方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10198480B2 (zh) |
CN (1) | CN103914491B (zh) |
WO (1) | WO2014107989A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091280A (zh) * | 2014-07-21 | 2014-10-08 | 吴晨 | 一种智能网络营销系统 |
CN105681046A (zh) * | 2016-02-29 | 2016-06-15 | 郑州悉知信息科技股份有限公司 | Ugc指纹签名确定方法、装置及ugc去重方法、装置 |
CN107292750B (zh) * | 2016-04-01 | 2020-08-18 | 株式会社理光 | 社交网络的信息收集方法及信息收集装置 |
CN106599289A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 在搜索结果页中聚合动漫类资讯信息的方法及装置 |
CN108959295B (zh) | 2017-05-19 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 一种原生对象的识别方法和装置 |
CN107798554A (zh) * | 2017-08-28 | 2018-03-13 | 平安科技(深圳)有限公司 | 断点名单的清洗方法、存储介质和服务器 |
CN107767264A (zh) * | 2017-10-27 | 2018-03-06 | 中国银行股份有限公司 | 联机交易系统热点账户交易流量压力实时调控方法及装置 |
CN108287821B (zh) * | 2018-01-23 | 2021-12-17 | 北京奇艺世纪科技有限公司 | 一种高质量文本筛选方法、装置及电子设备 |
US10896239B1 (en) * | 2018-03-01 | 2021-01-19 | Facebook, Inc. | Adjusting quality scores of external pages based on quality of associated content |
CN112446716B (zh) * | 2019-08-27 | 2024-03-05 | 百度在线网络技术(北京)有限公司 | Ugc处理方法、装置、电子设备和存储介质 |
CN111626736A (zh) * | 2020-05-28 | 2020-09-04 | 上海银行股份有限公司 | 一种加快热点账户交易响应速率的方法 |
CN113254709B (zh) * | 2021-06-30 | 2021-12-28 | 北京达佳互联信息技术有限公司 | 内容数据的处理方法及装置、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101305371A (zh) * | 2005-09-13 | 2008-11-12 | 谷歌公司 | 对博客文档进行排名 |
CN101582086A (zh) * | 2009-06-11 | 2009-11-18 | 腾讯科技(深圳)有限公司 | 获取博客质量信息的方法和装置 |
CN102708176A (zh) * | 2012-05-08 | 2012-10-03 | 山东大学 | 基于活跃用户的微博数据挖掘方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US7685199B2 (en) * | 2006-07-31 | 2010-03-23 | Microsoft Corporation | Presenting information related to topics extracted from event classes |
JP4403426B2 (ja) * | 2007-01-09 | 2010-01-27 | サイレックス・テクノロジー株式会社 | 生体認証装置及び生体認証プログラム |
CN101730902A (zh) * | 2007-05-03 | 2010-06-09 | 谷歌公司 | 数字内容贡献的货币化 |
US8644642B2 (en) * | 2008-04-30 | 2014-02-04 | Nec Corporation | Image quality evaluation method, system, and program based on an alternating-current component differential value |
US8630972B2 (en) * | 2008-06-21 | 2014-01-14 | Microsoft Corporation | Providing context for web articles |
US20100036784A1 (en) * | 2008-08-07 | 2010-02-11 | Yahoo! Inc. | Systems and methods for finding high quality content in social media |
US8650081B2 (en) * | 2008-12-31 | 2014-02-11 | Sap Ag | Optimization technology |
CN101645082B (zh) * | 2009-04-17 | 2011-04-20 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
US20110041075A1 (en) * | 2009-08-12 | 2011-02-17 | Google Inc. | Separating reputation of users in different roles |
US8965883B2 (en) * | 2009-10-29 | 2015-02-24 | Google Inc. | Ranking user generated web content |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
US8296130B2 (en) * | 2010-01-29 | 2012-10-23 | Ipar, Llc | Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization |
US9870424B2 (en) * | 2011-02-10 | 2018-01-16 | Microsoft Technology Licensing, Llc | Social network based contextual ranking |
CN102779220A (zh) * | 2011-05-10 | 2012-11-14 | 李德霞 | 英语试卷打分系统 |
-
2013
- 2013-01-09 CN CN201310007061.6A patent/CN103914491B/zh active Active
- 2013-11-11 WO PCT/CN2013/086839 patent/WO2014107989A1/en active Application Filing
-
2015
- 2015-02-20 US US14/627,632 patent/US10198480B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101305371A (zh) * | 2005-09-13 | 2008-11-12 | 谷歌公司 | 对博客文档进行排名 |
CN101582086A (zh) * | 2009-06-11 | 2009-11-18 | 腾讯科技(深圳)有限公司 | 获取博客质量信息的方法和装置 |
CN102708176A (zh) * | 2012-05-08 | 2012-10-03 | 山东大学 | 基于活跃用户的微博数据挖掘方法 |
Non-Patent Citations (1)
Title |
---|
SNS中用户生成内容和行为数据的分析与应用;程光曦;《中国优秀硕士学位论文全文数据库》;20110315(第2011年03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US10198480B2 (en) | 2019-02-05 |
US20150161140A1 (en) | 2015-06-11 |
WO2014107989A1 (en) | 2014-07-17 |
CN103914491A (zh) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914491B (zh) | 对优质用户生成内容的数据挖掘方法和系统 | |
JP5560367B2 (ja) | ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ | |
CN102377790B (zh) | 一种推送数据的方法和装置 | |
US9064002B1 (en) | Social identity clustering | |
Morstatter et al. | Understanding twitter data with tweetxplorer | |
Tinati et al. | Identifying communicator roles in twitter | |
CN107102941A (zh) | 一种测试用例的生成方法及装置 | |
CN104102635B (zh) | 一种挖掘知识图谱的方法及装置 | |
CN113454954A (zh) | 社交数据流上的实时事件检测 | |
CN108170692A (zh) | 一种热点事件信息处理方法和装置 | |
CN105224593B (zh) | 一种短暂上网事务中频繁共现账号挖掘方法 | |
CN103838819A (zh) | 一种信息发布方法及系统 | |
CN106503230A (zh) | 一种基于复杂网络的微博传播溯源方法 | |
CN103580939A (zh) | 一种基于账号属性的异常消息检测方法及设备 | |
CN103020212A (zh) | 一种基于用户查询日志实时发现热点视频的方法和装置 | |
US20160034426A1 (en) | Creating Cohesive Documents From Social Media Messages | |
Jabeur et al. | Uprising microblogs: A Bayesian network retrieval model for tweet search | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
Han et al. | A comparative analysis on Weibo and Twitter | |
CN103425650A (zh) | 推荐搜索方法和系统 | |
Yu et al. | Fast budgeted influence maximization over multi-action event logs | |
CN106789347A (zh) | 一种基于告警数据实现告警关联和网络故障诊断的方法 | |
CN107015993A (zh) | 一种用户类型识别方法及装置 | |
CN107463551A (zh) | 社交网络人际关系的分析方法及装置 | |
CN105430624B (zh) | 一种信息获取的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |