CN104217026B

CN104217026B - 一种基于图模型的中文微博客倾向性检索方法

Info

Publication number: CN104217026B
Application number: CN201410504180.7A
Authority: CN
Inventors: 陈国龙; 廖祥文; 陈胡
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-09-28
Filing date: 2014-09-28
Publication date: 2017-08-11
Anticipated expiration: 2034-09-28
Also published as: CN104217026A

Abstract

本发明涉及一种基于图模型的中文微博客倾向性检索方法，包括以下步骤：(1) 对微博进行预处理，包括去噪声、分词、停用词处理，得到预处理后的微博；(2) 根据预先收集的并经过预处理的倾向性微博集，并基于图模型方法计算倾向词典中每个倾向词的倾向性权重，反映每一个倾向词不同的倾向性强度；(3) 根据微博和给定的查询主题，计算每条微博的相关性得分，然后对微博进行倾向性得分计算，得到每条微博的倾向性得分，最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分，并基于所述排名得分对微博进行排名，得到最终的微博列表。该方法检索速度快，准确度高，适用范围广，应用性强。

Description

一种基于图模型的中文微博客倾向性检索方法

技术领域

本发明涉及观点挖掘和倾向性分析技术领域，更具体地，涉及一种基于图模型的中文微博客倾向性检索方法，能应用于市场调研、投票预测、广告分析、网络观点挖掘等，适用于中文微博客，包括新浪微博、腾讯微博、网易微博等。

背景技术

微博的倾向性检索旨在微博客上检索大众对热点话题的观点看法，要求被检索出的文档除了与给定查询主题相关以外，还必须具有对给定查询主题的主观性评论。因此，它是了解人们对热点话题、组织等各种实体的真实观点和看法的一种有效手段，可应用于市场调研、投票预测、广告分析、网络观点挖掘等项目，具有广阔的应用前景。由于倾向性检索具有重大的研究价值与意义，因而受到国内外众多学者和研究机构的广泛关注。其中，以国内外的顶级评测会议最具代表性：国际检索评测会议（TREC）举办的博客倾向性检索评测（Blog Opinion Retrieval）；日本 NTCIR评测（NII Test Collection for IR Systems）的举办多语言倾向性分析评测（Multilingual Opinion Analysis Task, MOAT）；国内中文倾向性分析评测会议（COAE）和中文微博情感分析评测。

在现有技术中，有很多技术方法可用于倾向性检索，传统的检索方法采用两阶段模型方法，在第一阶段首先检索出与给定查询话题相关的文档，然后识别出这些与给定查询相关文档的倾向性，最后综合相关性和倾向性对文档进行排序。该模型结构简单，容易理解，但是缺乏合理的理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型，而将研究重点放在第二阶段，即文档的倾向性识别。国内外对于文档的倾向性识别方法主要有基于倾向词典的统计方法和基于机器学习的倾向性识别方法等。但是微博客中的文本一般比较短、表达不规范，因此，直接采用传统的倾向性检索方法可能难以适应微博客倾向性检索的需求。

在现有技术中，还有借助当前信息检索和文本挖掘领域的最新模型，直接挖掘描述主题的倾向性对文档进行排序的方法。该方法相对于两阶段模型，具有在理论上易解释、对信息需求表达更直接有效等优点，但是该方法可能没有充分考虑微博客中丰富的上下文信息，导致最终的信息需求有所偏差，影响最终的检索结果。

微博经过几年的快速发展，渐渐成为最流行的网络社交媒介，人们越来越倾向于在微博上分享个人对于热点话题、组织等实体的看法、意见及评价。微博成为了网络主观性信息的重要载体，对微博的倾向性进行检索有助于了解人们对于热点话题、组织等实体的真实观点看法，有很好的现实的应用价值和广阔的应用前景。因此，迫切需要一种高效准确的中文微博倾向性检索方法，该方法应该能够快速地发现微博中的倾向性信息，并对微博按照倾向性强度进行排序。

发明内容

本发明的目的在于提供一种基于图模型的中文微博客倾向性检索方法，该方法检索速度快，准确度高，适用范围广，应用性强。

为实现上述目的，本发明的技术方案是：一种基于图模型的中文微博客倾向性检索方法，包括以下步骤：

(1) 对微博进行预处理，包括去噪声、分词、停用词处理，得到预处理后的微博；

(2) 根据预先收集的并经过预处理的倾向性微博集，并基于图模型方法计算倾向词典中每个倾向词的倾向性权重，反映每一个倾向词不同的倾向性强度；

(3) 根据微博和给定的查询主题，计算每条微博的相关性得分，然后对微博进行倾向性得分计算，得到每条微博的倾向性得分，最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分，并基于所述排名得分对微博进行排名，得到最终的微博列表。

进一步的，在步骤(1)中，所述去噪声处理为去除微博中的以下内容：

a) 网页链接；b) 特殊字符；c) 推广相关的字符；d) 表情相关的符号；e) 标点符号；

所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。

进一步的，所述步骤(2)中，所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合，所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成，并通过如下的图模型方法计算每个倾向词的倾向性权重：

在由倾向性微博集和倾向词典组成的二分连接图中，H _t={t _i}为倾向词典，A _d={d _j}为倾向性微博集，当一个倾向词出现在一条倾向性微博中，便有一条边连接该倾向词与倾向性微博，所对应的连接边由E _td = {e _ij|t _i∈H _t, d _j∈A _d}来表示，每条连接边的权重由如下公式计算：

其中表示倾向词t _i在倾向性微博d _j中出现的次数，len(d _j)为倾向性微博d _j的长度；首先每条倾向性微博的初始得分设置为，每个倾向词的得分设置为，m和n分别为所有倾向性微博的条数和所有倾向词的个数，并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分：

其中HubScore ^(T)(t _i)表示第T步倾向词t _i的得分，AuthScore ^(T)(d _j)表示第T步倾向性微博d _j的得分；当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值φ，迭代计算结束，得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重。

进一步的，所述步骤(3)中，根据给定查询q使用BM25检索模型计算每条微博的相关性得分，计算出的待检索微博d的相关性得分表示为Score _rel(d,q)，所述倾向性得分Score _opn(d,q)的计算公式为：

其中，t _i表示倾向词，α _i表示倾向词的倾向性权重，λ为平滑参数，co(t _i,q)表示倾向词t _i和查询q在微博d中共现的次数，c(q,d)表示查询q在微博d中出现的次数，len(d)为微博的长度；根据微博的相关性得分Score _rel(d,q)和倾向性得分Score _opn(d,q)计算最终的排名得分RankScore(d,q)：

最终根据该排名得分对待检索微博进行排序，得到最终的微博列表。

本发明的有益效果是：针对目前中文微博客倾向性检索面临的两阶段检索方法缺乏理论支持、信息需求表达不够直接有效等问题，提出了一种能够高效、准确地对中文微博客进行倾向性检索的方法，该方法检索速度快，准确度高，适用范围广，应用性强，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中倾向词和倾向性微博的二分连接图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明基于图模型的中文微博客倾向性检索方法，如图1所示，包括以下步骤：

(1) 对微博进行预处理，包括去噪声、分词、停用词处理，得到预处理后的微博。

因为微博中存在着一些与相关性和倾向性分析的信息，包括网页链接、表情、标点及停用词，需要对其进行删除，以确保后续计算分析步骤的准确性。所述去噪声处理为去除微博中的以下内容：

a) 网页链接，“http://t.cn/”；b) 特殊字符，包括“★”、“▲”、“￥”、“『”、“◆”、“●”、“①”等；c) 推广相关的字符，包括“分享自”、“参加了投票”、“活动推荐”等；d) 表情相关的符号，包括“[汗]”、“[泪]”、“[哈哈]”等；e) 标点符号；

所述分词处理为利用中国科学院计算技术研究所提供的分词工具ICTCLAS 2011对微博进行分词；

所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词，所述中文停用词为文本中出现频率很高，但实际意义不大的词，包括“的”、“在”、“和”、“接着”等。

(2) 根据预先收集的并经过预处理的倾向性微博集，并基于图模型方法计算倾向词典中每个倾向词的倾向性权重，反映每一个倾向词不同的倾向性强度。

所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合，所述倾向词典由相关知识库HowNet中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成，并通过如下的图模型方法计算每个倾向词的倾向性权重：

由倾向性微博集和倾向词典组成的二分连接图如图2所示，其中H _t={t _i}为倾向词典，A _d={d _j}为倾向性微博集，当一个倾向词出现在一条倾向性微博中，便有一条边连接该倾向词与倾向性微博，所对应的连接边由E _td = {e _ij|t _i∈H _t, d _j∈A _d}来表示，每条连接边的权重由如下公式计算：

(3) 根据微博和给定的查询主题，基于信息检索中的BM25检索模型计算每条微博的相关性得分，然后通过一定的微博倾向性得分计算公式对微博进行倾向性得分计算，得到每条微博的倾向性得分，最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分，并基于所述排名得分对微博进行排名，得到最终的微博列表。

具体的，根据给定查询q使用BM25检索模型计算每条微博的相关性得分，计算出的待检索微博d的相关性得分表示为Score _rel(d,q)，所述倾向性得分Score _opn(d,q)的计算公式为：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于图模型的中文微博客倾向性检索方法，其特征在于，包括以下步骤：

(1)对微博进行预处理，包括去噪声、分词、停用词处理，得到预处理后的微博；

(2)根据预先收集的并经过预处理的倾向性微博集，并基于图模型方法计算倾向词典中每个倾向词的倾向性权重，反映每一个倾向词不同的倾向性强度；

(3)根据微博和给定的查询主题，计算每条微博的相关性得分，然后对微博进行倾向性得分计算，得到每条微博的倾向性得分，最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分，并基于所述排名得分对微博进行排名，得到最终的微博列表；

所述步骤(2)中，所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合，所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成，并通过如下的图模型方法计算每个倾向词的倾向性权重：

在由倾向性微博集和倾向词典组成的二分连接图中，H_t＝{t_i}为倾向词典，A_d＝{d_j}为倾向性微博集，当一个倾向词出现在一条倾向性微博中，便有一条边连接该倾向词与倾向性微博，所对应的连接边由E_td＝{e_ij|t_i∈H_t,d_j∈A_d}来表示，每条连接边的权重由如下公式计算：

其中表示倾向词t_i在倾向性微博d_j中出现的次数，len(d_j)为倾向性微博d_j的长度；首先每条倾向性微博的初始得分设置为每个倾向词的得分设置为m和n分别为所有倾向性微博的条数和所有倾向词的个数，并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分：

其中HubScore^(T)(t_i)表示第T步倾向词t_i的得分，AuthScore^(T)(d_j)表示第T步倾向性微博d_j的得分；当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值迭代计算结束，得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重；

所述步骤(3)中，根据给定查询q使用BM25检索模型计算每条微博的相关性得分，计算出的待检索微博d的相关性得分表示为Score_rel(d,q)，所述倾向性得分Score_opn(d,q)的计算公式为：

其中，t_i表示倾向词，α_i表示倾向词的倾向性权重，λ为平滑参数，co(t_i,q)表示倾向词t_i和查询q在微博d中共现的次数，c(q,d)表示查询q在微博d中出现的次数，len(d)为微博的长度；根据微博的相关性得分Score_rel(d,q)和倾向性得分Score_opn(d,q)计算最终的排名得分RankScore(d,q)：

RankScore(d，q)＝Score_rel(d，q)*Score_opn(d，q)

2.根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法，其特征在于，在步骤(1)中，所述去噪声处理为去除微博中的以下内容：

a)网页链接；b)特殊字符；c)推广相关的字符；d)表情相关的符号；e)标点符号；