CN104281606A

CN104281606A - 一种展示微博评论的方法和装置

Info

Publication number: CN104281606A
Application number: CN201310283548.7A
Authority: CN
Inventors: 阳云; 李维刚
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2015-01-14
Anticipated expiration: 2033-07-08
Also published as: CN104281606B

Abstract

本发明实施方式提出了一种展示微博评论的方法和装置。方法包括：获取微博评论数据，并对微博评论数据执行数据清洗；从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。本发明实施方式提高了阅读效率。

Description

一种展示微博评论的方法和装置

技术领域

本发明实施方式涉及信息处理技术领域，更具体地，涉及一种展示微博评论的方法和装置。

背景技术

微博，即微博客（MicroBlog）的简称，是一种基于用户关系的信息共享、传播以及获取平台。通过微博平台，用户可以应用WEB、WAP以及各种客户端组件，以140字左右的文字更新信息，并实现即时共享。相对于强调版面布置的博客来说，微博的内容组成只是由简单的只言片语组成，从这个角度来说，对用户的技术要求门槛很低，而且在语言的编排组织上，没有博客那么高。微博开通的多种API使得大量的用户可以通过手机、网络等方式来即时更新自己的个人信息。微博草根性更强，且广泛分布在桌面、浏览器、移动终端等多个平台上，有多种商业模式并存，或形成多个垂直细分领域的可能。现今，微博已经成为许多人的生活组成部分：获取资讯、社交、娱乐；甚至社交和娱乐融为一体，比如在微博上和好友玩一些社交游戏。

在微博技术中，当微博作者发出微博后，经常会得到大量的评论信息，在现有技术中通常按照评论时间顺序来展示评论信息，最近评论的信息一般能得到优先展示。

然而，由于评论信息中经常掺杂有大量的无意义评论或不相关评论，这种按照评论时间顺序展示评论信息的处理方式可能会将真正有意义的评论内容淹没在大量无意义评论中，不利于高质量评论信息的展示，用户不得不耗费大量时间来自行寻找高质量评论信息，从而降低了阅读效率。

发明内容

本发明实施方式提出一种展示微博评论的方法，从而提高阅读效率。

本发明实施方式提出一种展示微博评论的装置，从而提高阅读效率。

本发明实施方式的具体方案如下：

一种展示微博评论的方法，该方法包括：

获取微博评论数据，并对所述微博评论数据执行数据清洗；

从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；

基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。

一种展示微博评论的装置，包括数据清洗单元、排序值计算单元和数据展示单元，其中：

数据清洗单元，用于获取微博评论数据，并对所述微博评论数据执行数据清洗；

排序值计算单元，用于从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；

数据展示单元，用于基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。

从上述技术方案可以看出，在本发明实施方式中，获取微博评论数据，并对所述微博评论数据执行数据清洗；从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。由此可见，可以基于数据清洗和排序因子特征过滤无意义评论或不相关评论，利于高质量评论信息的展示，并节约用户时间，提高了阅读效率。

而且，还可以将本发明实施方式应用到各种终端中，并且可以跨平台跨终端使用，适用范围非常广泛。

附图说明

图1为根据本发明实施方式展示微博评论的方法流程图；

图2为根据本发明实施方式展示微博评论的流程图；

图3为根据本发明实施方式展示微博评论的装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

可以在各种终端上展示微博页面。本发明实施方式中，这些终端是指具有数据计算处理功能和电话通讯功能的通讯终端。包括但不限于：智能手机、个人电脑（PC）、服务器（Server）、带有电话通讯功能的掌上电脑、平板电脑、个人数字助理器（PDA，Personal Digital Assistant）等，甚至是带有电话通讯功能的便携式智能电视（Smart TV）。

以上详细罗列了一些终端的具体类型，但是本领域技术人员可以意识到，本发明实施方式并不局限于上述罗列的类型，而还可以适用于其他任意具有计算和通讯能力的端类型和操作系统类型之中，尤其适合于智能终端。

本发明实施方式的智能终端操作系统可以是任意的智能终端操作系统，具体可以采用的操作系统包括但是不局限于：安卓（Andorid）、Palm OS、Symbian（塞班）、Windows mobile、Linux、Android（安卓）、iPhone（苹果）OS、BlackBerry（黑莓）OS6.0、Windows Phone系列，等等。

优选地，智能终端操作系统具体可以采用Andorid操作系统，而且智能终端可以采用到Andorid的各个版本之中，包括但是不局限于：阿童木（AndroidBeta）、发条机器人（Android1.0）、纸杯蛋糕（Android1.5）、甜甜圈（Android1.6）、松饼（Android2.0/2.1），冻酸奶（Android2.2）、姜饼（Android2.3）、蜂巢（Android3.0）、冰激凌三明治（Android4.0）、果冻豆（Jelly Bean，Android4.1）等版本。

以上详细罗列了Android平台的具体版本，本领域技术人员可以意识到，本发明实施方式并不局限于上述罗列版本，而还可以适用于其他基于Android软件架构的任意版本之中。

图1为根据本发明实施方式展示微博评论的方法流程图。

如图1所示，该方法包括：

步骤101：获取微博评论数据，并对所述微博评论数据执行数据清洗。

数据清洗（Data Cleaning）指发现并纠正微博评论数据中可识别的错误，包括检查数据一致性、处理无效值和缺失值等，主要用于滤除不完整的数据、错误的数据和重复的数据。

具体地，数据清洗可以包括数据预处理、数据去重、过滤抄袭内容、过滤相似内容，等处理。其中：

数据预处理：可以包括过滤掉含有关键词黑名单中所列词的微博转评数据，过滤掉转评作者在微博内容原用户黑名单中的微博转评数据。

数据去重：首先对微博评论数据进行切词，将切词后词语相连以获得字符串；再计算字符串的哈希值，并针对哈希值相同的字符串，去除发布时间最新的微博评论数据。

比如，首先根据微博评论数据切词后的所有词语相连得到一字符串，用此字符串计算其32位整数的哈希值，同一原创微博内容的不同转评依据此哈希值去重，其中哈希值相同时去掉最新的微博评论。

过滤抄袭内容：首先计算全量微博数据的整数哈希值，并确定各个哈希值的频数；计算微博评论数据的哈希值，并确定对应于微博评论数据哈希值的频数；当对应于微博评论数据哈希值的频数大于预先设定的频数门限值时，滤去该微博评论数据。

比如：可以应用simhash算法计算最近一个季度的全量微博内容的64位整数哈希值，相同哈希值则认为内容相同，从而可以统计出每个哈希值的频数（即抄袭度），再根据当前转评微博内容计算的哈希值可找出其对应的频数，然后通过预先设置的门限值过滤掉频数过高的微博评论。

过滤相似内容：分别对原微博和与评论内容切词，相同词总数除以转评的总词数，即得相似度，并去掉相似度高于阈值的转评

步骤102：从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值。

在这里，排序因子特征具体可以包括文本特征、用户特征和时间特征。可以首先从数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征，并根据所述文本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值，其中排序值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正比。

时间特征具体可以为微博评论的发布时间；用户特征可以为发出该微博评论的用户级别；而文本特征为微博评论内容中与文本总长度、有效词数、过滤词数、总词数、词重复度等词参数相关的特征。时间特征的新颖度与微博评论数据发布时间相关，而发布时间越新颖，时间特征的新颖度越高。用户特征的可信度与用户等级相关，用户等级越高，用户特征的可信度越高。

在一个实施方式中，文本特征的质量度由下列因子中的至少一个所确定：文本总长度；有效词数；过滤词数；总词数；词重复度；其中：文本特征的质量度与文本总长度和有效词数成正比，与词重复度和过滤词数成反比，与有效词数除以总词数的计算结果成正比。

示范性地：

排序值=w1*文本分+w2*时间分+w3*用户分；

文本分=文本基础分*（有效词数/总词数）*f1*（1-词重复度）/w4

而文本基础分=文本总长度+w5*有效词数+w6*过滤词数；其中：

过滤词可以人工整理的一些广告、骂街之类的词；

有效词数=总词数-过滤词数-标点符号数；

f1是以标点符号数和总词数为参数的函数

词重复度=词重复数/总词数；其中前后相接的两个词一样算作一次重复

时间分=（微博发表时间-基准时间）/w7

用户分：发文质量宏观上跟用户等级正相关，等级越高用户分越高；

其中w1、w2、w3、w4、w5、w6、w7是各个因素的权重，而权重数值可根据训练数据训练得出。

在一个实施方式中，进一步计算清洗后微博评论数据与原始微博内容的相关度；并根据所述相关度调整所述数据清洗后微博评论数据的排序值，其中所述相关度越大，所述数据清洗后微博评论数据的排序值越小。

示范性地：

相关度=v1*分类匹配得分+v2*相似度；

分类匹配得分：分类匹配得分初始值为0，假设转评微博文本分类后得到类目A1A2...Ai...An，原创微博文本分类后得到类目B1B2...Bj...Bm，如果Ai与Bj是同一类目，则分类匹配得分+=Ai的相关性*Bj的相关性；

其中v1、v2是各个因素的权重，权重数值可根据训练数据训练得出。

对一个类目，计算相关性的公式如下：

类目相关性=x1*f1(weight)+x2*f2(rate)+x3*f3(rank)；

其中，x1、x2、x3分别是三个因素的权重；

weight是该类目的权重；

rate是该类目权重除以总权重；

rank是该类目在所有类目中的权重排名；

f1是将“该类目的权重”归约到0-1的函数；

f2是将“该类目权重除以总权重”归约到0-1的函数；

f3是将“该类目在所有类目中的权重排名”归约到0-1的函数。

以上详细描述了计算排序值和相关度的具体算法，本领域技术人员可以意识到，这种描述仅仅是示范性的，并不用于对本发明实施方式进行限定。

步骤103：基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。

再这里，可以按排序值对清洗后微博评论数据进行排序，过滤掉排序值低于预先设置阈值的评论数据，并展示最终的排序结果。

图2为根据本发明实施方式展示微博评论的流程图。

如图2所示，该方法包括：

步骤201：针对微博评论数据执行预处理操作。

在这里，可以获取某一原创微博及其转评内容，并根据预先设置的关键词黑名单，过滤掉一部分评论内容。

比如：假设得到如下的微博和评论数据：

其中，由于“分享自”位于预先设置的关键词黑名单中，因此编号为6的评论内容被过滤。

步骤202：针对评论数据，执行去重复操作。

在这里，分别计算各个评论数据的哈希值，可以发现编号3和编号5的评论内容的哈希值相同，实际上是重复的评论数据，因此过滤掉发布时间较晚的评论数据，即过滤编号5的评论数据。

步骤203：过滤抄袭内容。

在这里，根据simhash算法，可以针对每条评论内容计算得到64位的哈希值，在抄袭库中查找这些哈希值对应的频数（即抄袭数）可以，得知编号7转评的抄袭数5966，超过抄袭度阈值200，因此过滤掉编号7转评。

步骤204：过滤相似内容。

在这里，对于长度大于阈值（比如8个字）的转评，检查其与原创微博的相似度。可以计算评论数据与原创微博数据相同词的总数除以转评的总词数，计算得到编号2转评的相似度为100%，高于阈值95%，因此过滤掉编号2转评。

步骤205：计算排序值。

示范性地，排序值的具体计算公式为：

排序值=700000*(0.5*文本分+0.4*(微博发表时间-1293811200)/3600/87600+0.1*用户分)

文本分=（文本总长度+5*(总词数-过滤词数-标点符号数)-20*过滤词数）*(总词数-过滤词数-标点符号数)/总词数*f1(标点符号数,总词数)*(1-词重复数/总词数)/840

f1定义为(具体数值可根据评估数据摸索得到)：

默认值为1；

当标点数为0时，当总长度大于300时f1=0.3；

当总长度大于100时f1=0.6；

当总长度大于70时f1=0.88；

当标点数大于40时，f1=0.74；

当标点数大于30时，f1=0.82；

当标点数大于20时，f1=0.92；

当标点数除以总长度小于0.03时，f1=0.73；

当标点数除以总长度小于0.05时，f1=0.9；

用户分与用户特征相关，可以定义为：

用户等级1-3:0；

用户等级4-5:0.5；

用户等级6-7:1；

用户等级8以上:2；

假设微博相关度的具体计算公式为：

相关度=0.2*v1(weight)+0.6*v2(rate)+0.2*v3(rank)，其中

v1定义为：当weight>3时v1=1；其他情况下v1=pow(weight/3,0.2)

v2定义为：当rate>0.5时v2=1；其他情况下v2=pow(rate/0.5,0.4)

v3定义为：当rank>10时，v3=0；其他情况下v3=pow((11.0-rank)/10.0,1.5)。

依据上述公式可计算得到各转评排序值如下：

可以过滤掉质量分低于阈值(80000分)的编号4转评。

步骤205：基于相关性调整排序值。

假设评论数据与原创微博的相关度=0.8*分类匹配得分+0.2*相似度；假设对长度超过60的转评相关性低的转评降分规则如下：当相关度小于0.04，新排序值=0；当相关性小于0.1，新排序值=原排序值*46/长度；当相关性小于0.2，新排序值=原排序值*52/长度；当相关性小于0.4，新排序值=原排序值*56/长度；当相关性小于0.6，新排序值=原排序值*60/长度。

依据带权重的分类词表（可通过TfIdf之类的分类训练方法训练得到各个词在各个类目下的权重）可以将原创微博文本切词后各个词条在各个类目的权重统计得出：

词条	类目	权重
			历史	历史	0.490000
公铁	交通	0.300000
			获救	公益	0.300000
海轮	交通	0.250000
			海轮	交通	0.250000
水域	军事	0.236041
			长江	旅游	0.200000
长江	旅游	0.200000
			长江	旅游	0.200000

长江	旅游	0.200000
			被撞	交通	0.150000
大桥	交通	0.140000
			大桥	交通	0.140000
大桥	交通	0.140000
			大桥	交通	0.140000
大桥	交通	0.140000
			12日	新闻	0.130000
两用	服饰	0.115453
			桥墩	交通	0.100000
修建	房产	0.100000
			修建	房产	0.100000
桥墩	交通	0.100000
			桥墩	交通	0.100000
中国	政法	0.050000

由上表汇总并根据相关性公式0.2*f1(weight)+0.6*f2(rate)+0.2*f3(rank)可得到下表：

类目	权重	比例	排名	相关性
					交通	1.950000	0.456	1	0.962591
旅游	0.800000	0.18	2	0.778467
					历史	0.490000	0.11	3	0.670737
公益	0.300000	0.07	4	0.591953
					军事	0.236041	0.05	5	0.385755
房产	0.200000	0.04	6	0.345627
					实事	0.130000	0.03	7	0.285321
服饰	0.115453	0.02	8	0.257878

政法

0.050000

0.01

9

0.186973

过滤掉相关性低于阈值(0.7)的类目，得到原创微博的相关类目：交通(相关性0.96)、旅游(相关性:0.78)

利用上述公式计算各个转评的类目相关性、分类匹配得分、与原创的相似度、与原创的相关度，得下表:

根据相关性调整规则，编号9转评排序值降为0，低于阈值(80000分),因此过滤掉编号9转评。

按排序值倒排序如下表：

由以上实施例可以看出，基于本发明所提供的微博转评排序方法，可以有效地对转评排序，为用户快速阅览优质转评微博提供了便利。

基于上述详细分析，本发明实施方式还提出了一种展示微博评论的装置。

图3为根据本发明实施方式展示微博评论的装置结构图。

如图3所示，该装置数据清洗单元301、排序值计算单元302和数据展示单元303，其中：

数据清洗单元301，用于获取微博评论数据，并对所述微博评论数据执行数据清洗；

排序值计算单元302，用于从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；

数据展示单元303，用于基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。

在一个实施方式中：

数据清洗单元301，用于滤去包含有预先设定黑名单中词汇的微博评论数据；和/或滤去由位于微博用户黑名单中的用户所发出的微博评论数据。

在一个实施方式中：

数据清洗单元301，用于对微博评论数据进行切词，将切词后词语相连以获得字符串；计算字符串的哈希值；并针对哈希值相同的字符串，去除发布时间最新的微博评论数据。

在一个实施方式中：

排序值计算单元302，用于从数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征，并根据所述文本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值，其中排序值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正比。

在一个实施方式中：

所述文本特征的质量度由下列因子中的至少一个所确定：文本总长度；有效词数；过滤词数；总词数；词重复度；其中文本特征的质量度与文本总长度和有效词数成正比，与词重复度和过滤词数成反比，与有效词数除以总词数的计算结果成正比。

在一个实施方式中：

排序值计算单元302，进一步用于计算清洗后微博评论数据与原始微博内容的相关度，并且根据所述相关度调整所述数据清洗后微博评论数据的排序值，其中所述相关度越大，所述数据清洗后微博评论数据的排序值越小。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的展示微博评论的方法和装置。

比如，可以遵循一定规范的应用程序接口，将展示微博评论的方法编写为安装到个人电脑、移动终端等中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的展示微博评论的方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的展示微博评论的方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（MemoryStick）、xD卡等。

另外，还可以将本发明实施方式所提出的展示微博评论的方法应用到基于闪存（Nand flash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，获取微博评论数据，并对所述微博评论数据执行数据清洗；从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值；基于所述排序值对清洗后微博评论数据进行排序，并按照排序结果展示所述清洗后微博评论数据。由此可见，可以基于数据清洗和排序因子特征过滤无意义评论或不相关评论，利于高质量评论信息的展示，并节约用户时间，提高了阅读效率。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种展示微博评论的方法，其特征在于，该方法包括：

获取微博评论数据，并对所述微博评论数据执行数据清洗；

2.根据权利要求1所述展示微博评论的方法，其特征在于，所述对微博评论数据执行数据清洗包括：

滤去包含有预先设定黑名单中词汇的微博评论数据；和/或

滤去由位于微博用户黑名单中的用户所发出的微博评论数据。

3.根据权利要求1所述展示微博评论的方法，其特征在于，所述对微博评论数据执行数据清洗包括：

对微博评论数据进行切词，将切词后词语相连以获得字符串；

计算所述字符串的哈希值；

针对哈希值相同的字符串，去除发布时间最新的微博评论数据。

4.根据权利要求1所述展示微博评论的方法，其特征在于，所述对微博评论数据执行数据清洗包括：

计算全量微博数据的整数哈希值，并确定各个哈希值的频数；

计算微博评论数据的哈希值，并确定对应于微博评论数据哈希值的频数；

当对应于微博评论数据哈希值的频数大于预先设定的频数门限值时，滤去该微博评论数据。

5.根据权利要求1所述展示微博评论的方法，其特征在于，所述从数据清洗后的微博评论数据中提取排序因子特征，并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值包括：

从数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征，并根据所述文本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值，其中排序值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正比。

6.根据权利要求5所述展示微博评论的方法，其特征在于，所述文本特征的质量度由下列因子中的至少一个所确定：

文本总长度；

有效词数；

过滤词数；

总词数；和

词重复度；

其中：文本特征的质量度与文本总长度和有效词数成正比，与词重复度和过滤词数成反比，与有效词数除以总词数的计算结果成正比。

7.根据权利要求5所述展示微博评论的方法，其特征在于，该方法进一步包括：

计算清洗后微博评论数据与原始微博内容的相关度；

根据所述相关度调整所述数据清洗后微博评论数据的排序值，其中所述相关度越大，所述数据清洗后微博评论数据的排序值越小。

8.一种展示微博评论的装置，其特征在于，包括数据清洗单元、排序值计算单元和数据展示单元，其中：

9.根据权利要求8所述的展示微博评论的装置，其特征在于，

数据清洗单元，用于滤去包含有预先设定黑名单中词汇的微博评论数据；和/或滤去由位于微博用户黑名单中的用户所发出的微博评论数据。

10.根据权利要求8所述的展示微博评论的装置，其特征在于，

数据清洗单元，用于对微博评论数据进行切词，将切词后词语相连以获得字符串；计算字符串的哈希值；并针对哈希值相同的字符串，去除发布时间最新的微博评论数据。

11.根据权利要求8所述的展示微博评论的装置，其特征在于，

排序值计算单元，用于从数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征，并根据所述文本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值，其中排序值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正比。

12.根据权利要求11所述的展示微博评论的装置，其特征在于，所述文本特征的质量度由下列因子中的至少一个所确定：文本总长度；有效词数；过滤词数；总词数；词重复度；其中文本特征的质量度与文本总长度和有效词数成正比，与词重复度和过滤词数成反比，与有效词数除以总词数的计算结果成正比。

13.根据权利要求8所述的展示微博评论的装置，其特征在于，

排序值计算单元，进一步用于计算清洗后微博评论数据与原始微博内容的相关度，并且根据所述相关度调整所述数据清洗后微博评论数据的排序值，其中所述相关度越大，所述数据清洗后微博评论数据的排序值越小。