CN104217026B - 一种基于图模型的中文微博客倾向性检索方法 - Google Patents
一种基于图模型的中文微博客倾向性检索方法 Download PDFInfo
- Publication number
- CN104217026B CN104217026B CN201410504180.7A CN201410504180A CN104217026B CN 104217026 B CN104217026 B CN 104217026B CN 201410504180 A CN201410504180 A CN 201410504180A CN 104217026 B CN104217026 B CN 104217026B
- Authority
- CN
- China
- Prior art keywords
- microblogging
- tendentiousness
- score
- tendency
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于图模型的中文微博客倾向性检索方法,包括以下步骤:(1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;(2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;(3) 根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表。该方法检索速度快,准确度高,适用范围广,应用性强。
Description
技术领域
本发明涉及观点挖掘和倾向性分析技术领域,更具体地,涉及一种基于图模型的中文微博客倾向性检索方法,能应用于市场调研、投票预测、广告分析、网络观点挖掘等,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
微博的倾向性检索旨在微博客上检索大众对热点话题的观点看法,要求被检索出的文档除了与给定查询主题相关以外,还必须具有对给定查询主题的主观性评论。因此,它是了解人们对热点话题、组织等各种实体的真实观点和看法的一种有效手段,可应用于市场调研、投票预测、广告分析、网络观点挖掘等项目,具有广阔的应用前景。由于倾向性检索具有重大的研究价值与意义,因而受到国内外众多学者和研究机构的广泛关注。其中,以国内外的顶级评测会议最具代表性:国际检索评测会议(TREC)举办的博客倾向性检索评测(Blog Opinion Retrieval);日本 NTCIR评测(NII Test Collection for IR Systems)的举办多语言倾向性分析评测 (Multilingual Opinion Analysis Task, MOAT);国内中文倾向性分析评测会议(COAE)和中文微博情感分析评测。
在现有技术中,有很多技术方法可用于倾向性检索,传统的检索方法采用两阶段模型方法,在第一阶段首先检索出与给定查询话题相关的文档,然后识别出这些与给定查询相关文档的倾向性,最后综合相关性和倾向性对文档进行排序。该模型结构简单,容易理解,但是缺乏合理的理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型,而将研究重点放在第二阶段,即文档的倾向性识别。国内外对于文档的倾向性识别方法主要有基于倾向词典的统计方法和基于机器学习的倾向性识别方法等。但是微博客中的文本一般比较短、表达不规范,因此,直接采用传统的倾向性检索方法可能难以适应微博客倾向性检索的需求。
在现有技术中,还有借助当前信息检索和文本挖掘领域的最新模型,直接挖掘描述主题的倾向性对文档进行排序的方法。该方法相对于两阶段模型,具有在理论上易解释、对信息需求表达更直接有效等优点,但是该方法可能没有充分考虑微博客中丰富的上下文信息,导致最终的信息需求有所偏差,影响最终的检索结果。
微博经过几年的快速发展,渐渐成为最流行的网络社交媒介,人们越来越倾向于在微博上分享个人对于热点话题、组织等实体的看法、意见及评价。微博成为了网络主观性信息的重要载体,对微博的倾向性进行检索有助于了解人们对于热点话题、组织等实体的真实观点看法,有很好的现实的应用价值和广阔的应用前景。因此,迫切需要一种高效准确的中文微博倾向性检索方法,该方法应该能够快速地发现微博中的倾向性信息,并对微博按照倾向性强度进行排序。
发明内容
本发明的目的在于提供一种基于图模型的中文微博客倾向性检索方法,该方法检索速度快,准确度高,适用范围广,应用性强。
为实现上述目的,本发明的技术方案是:一种基于图模型的中文微博客倾向性检索方法,包括以下步骤:
(1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;
(2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;
(3) 根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表。
进一步的,在步骤(1)中,所述去噪声处理为去除微博中的以下内容:
a) 网页链接;b) 特殊字符;c) 推广相关的字符;d) 表情相关的符号;e) 标点符号;
所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
进一步的,所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合,所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重:
在由倾向性微博集和倾向词典组成的二分连接图中,H t ={t i }为倾向词典,A d ={d j }为倾向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性微博,所对应的连接边由E td = {e ij |t i ∈H t , d j ∈A d }来表示,每条连接边的权重由如下公式计算:
其中表示倾向词t i 在倾向性微博d j 中出现的次数,len(d j )为倾向性微博d j 的长度;首先每条倾向性微博的初始得分设置为,每个倾向词的得分设置为,m和n分别为所有倾向性微博的条数和所有倾向词的个数,并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分:
其中HubScore (T)(t i )表示第T步倾向词t i 的得分,AuthScore (T)(d j )表示第T步倾向性微博d j 的得分;当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值φ,迭代计算结束,得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重。
进一步的,所述步骤(3)中,根据给定查询q使用BM25检索模型计算每条微博的相关性得分,计算出的待检索微博d的相关性得分表示为Score rel (d,q),所述倾向性得分Score opn (d,q)的计算公式为:
其中,t i 表示倾向词,α i 表示倾向词的倾向性权重,λ为平滑参数,co(t i ,q)表示倾向词t i 和查询q在微博d中共现的次数,c(q,d)表示查询q在微博d中出现的次数,len(d)为微博的长度;根据微博的相关性得分Score rel (d,q)和倾向性得分Score opn (d,q)计算最终的排名得分RankScore(d,q):
最终根据该排名得分对待检索微博进行排序,得到最终的微博列表。
本发明的有益效果是:针对目前中文微博客倾向性检索面临的两阶段检索方法缺乏理论支持、信息需求表达不够直接有效等问题,提出了一种能够高效、准确地对中文微博客进行倾向性检索的方法,该方法检索速度快,准确度高,适用范围广,应用性强,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中倾向词和倾向性微博的二分连接图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明基于图模型的中文微博客倾向性检索方法,如图1所示,包括以下步骤:
(1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博。
因为微博中存在着一些与相关性和倾向性分析的信息,包括网页链接、表情、标点及停用词,需要对其进行删除,以确保后续计算分析步骤的准确性。所述去噪声处理为去除微博中的以下内容:
a) 网页链接,“http://t.cn/”;b) 特殊字符,包括“★”、“▲”、“¥”、“『”、“◆”、“●”、“①”等;c) 推广相关的字符,包括“分享自”、“参加了投票”、“活动推荐”等;d) 表情相关的符号,包括“[汗]”、“[泪]”、“[哈哈]”等;e) 标点符号;
所述分词处理为利用中国科学院计算技术研究所提供的分词工具ICTCLAS 2011对微博进行分词;
所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词,所述中文停用词为文本中出现频率很高,但实际意义不大的词,包括“的”、“在”、“和”、“接着”等。
(2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度。
所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合,所述倾向词典由相关知识库HowNet中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重:
由倾向性微博集和倾向词典组成的二分连接图如图2所示,其中H t ={t i }为倾向词典,A d ={d j }为倾向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性微博,所对应的连接边由E td = {e ij |t i ∈H t , d j ∈A d }来表示,每条连接边的权重由如下公式计算:
其中表示倾向词t i 在倾向性微博d j 中出现的次数,len(d j )为倾向性微博d j 的长度;首先每条倾向性微博的初始得分设置为,每个倾向词的得分设置为,m和n分别为所有倾向性微博的条数和所有倾向词的个数,并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分:
其中HubScore (T)(t i )表示第T步倾向词t i 的得分,AuthScore (T)(d j )表示第T步倾向性微博d j 的得分;当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值φ,迭代计算结束,得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重。
(3) 根据微博和给定的查询主题,基于信息检索中的BM25检索模型计算每条微博的相关性得分,然后通过一定的微博倾向性得分计算公式对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表。
具体的,根据给定查询q使用BM25检索模型计算每条微博的相关性得分,计算出的待检索微博d的相关性得分表示为Score rel (d,q),所述倾向性得分Score opn (d,q)的计算公式为:
其中,t i 表示倾向词,α i 表示倾向词的倾向性权重,λ为平滑参数,co(t i ,q)表示倾向词t i 和查询q在微博d中共现的次数,c(q,d)表示查询q在微博d中出现的次数,len(d)为微博的长度;根据微博的相关性得分Score rel (d,q)和倾向性得分Score opn (d,q)计算最终的排名得分RankScore(d,q):
最终根据该排名得分对待检索微博进行排序,得到最终的微博列表。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (2)
1.一种基于图模型的中文微博客倾向性检索方法,其特征在于,包括以下步骤:
(1)对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;
(2)根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;
(3)根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表;
所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合,所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重:
在由倾向性微博集和倾向词典组成的二分连接图中,Ht={ti}为倾向词典,Ad={dj}为倾向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性微博,所对应的连接边由Etd={eij|ti∈Ht,dj∈Ad}来表示,每条连接边的权重由如下公式计算:
其中表示倾向词ti在倾向性微博dj中出现的次数,len(dj)为倾向性微博dj的长度;首先每条倾向性微博的初始得分设置为每个倾向词的得分设置为m和n分别为所有倾向性微博的条数和所有倾向词的个数,并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分:
其中HubScore(T)(ti)表示第T步倾向词ti的得分,AuthScore(T)(dj)表示第T步倾向性微博dj的得分;当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值迭代计算结束,得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重;
所述步骤(3)中,根据给定查询q使用BM25检索模型计算每条微博的相关性得分,计算出的待检索微博d的相关性得分表示为Scorerel(d,q),所述倾向性得分Scoreopn(d,q)的计算公式为:
其中,ti表示倾向词,αi表示倾向词的倾向性权重,λ为平滑参数,co(ti,q)表示倾向词ti和查询q在微博d中共现的次数,c(q,d)表示查询q在微博d中出现的次数,len(d)为微博的长度;根据微博的相关性得分Scorerel(d,q)和倾向性得分Scoreopn(d,q)计算最终的排名得分RankScore(d,q):
RankScore(d,q)=Scorerel(d,q)*Scoreopn(d,q)
最终根据该排名得分对待检索微博进行排序,得到最终的微博列表。
2.根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法,其特征在于,在步骤(1)中,所述去噪声处理为去除微博中的以下内容:
a)网页链接;b)特殊字符;c)推广相关的字符;d)表情相关的符号;e)标点符号;
所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410504180.7A CN104217026B (zh) | 2014-09-28 | 2014-09-28 | 一种基于图模型的中文微博客倾向性检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410504180.7A CN104217026B (zh) | 2014-09-28 | 2014-09-28 | 一种基于图模型的中文微博客倾向性检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217026A CN104217026A (zh) | 2014-12-17 |
CN104217026B true CN104217026B (zh) | 2017-08-11 |
Family
ID=52098516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410504180.7A Active CN104217026B (zh) | 2014-09-28 | 2014-09-28 | 一种基于图模型的中文微博客倾向性检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217026B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
CN106649433B (zh) * | 2016-09-05 | 2020-08-11 | 东南大学 | 基于观点语句可信度的话题观点强度计算方法 |
CN106776554A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于多模态超图学习的微博情感预测方法 |
CN111782512B (zh) * | 2020-06-23 | 2021-07-09 | 北京高质系统科技有限公司 | 基于不平衡噪声集的多特征软件缺陷综合预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
CN103049470A (zh) * | 2012-09-12 | 2013-04-17 | 北京航空航天大学 | 基于情感相关度的观点检索方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008021267A (ja) * | 2006-07-14 | 2008-01-31 | Fuji Xerox Co Ltd | 文献検索システム、文献検索処理方法及び文献検索処理プログラム |
-
2014
- 2014-09-28 CN CN201410504180.7A patent/CN104217026B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
CN103049470A (zh) * | 2012-09-12 | 2013-04-17 | 北京航空航天大学 | 基于情感相关度的观点检索方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
Non-Patent Citations (2)
Title |
---|
"An effective approach to tweets opinion retieval";Zhunchen Luo 等;《6th International AAAI Conference on Weblogs and Social Media,Dublin,Ireland,2012》;20131206;第545-566页 * |
"An Effective Statistical Approach to Blog Post Opinion Rerieval";Ben He;《CIKM"08:Proceedings of the 17th ACM conference on information and knowledge management》;20081231;第1063-1071页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104217026A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156286B (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
CN103390051B (zh) | 一种基于微博数据的话题发现与追踪方法 | |
CN104484339B (zh) | 一种相关实体推荐方法和系统 | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN105512245A (zh) | 一种基于回归模型建立企业画像的方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
CN110232149A (zh) | 一种热点事件检测方法和系统 | |
CN103038764A (zh) | 用于关键字提取的方法 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
Demiroz et al. | Learning domain-specific polarity lexicons | |
CN104217026B (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN103150382A (zh) | 基于开放知识库的短文本语义概念自动化扩展方法及系统 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
Singh et al. | Sentiment analysis of Twitter data using TF-IDF and machine learning techniques | |
CN104298732A (zh) | 一种面向网络用户的个性化文本排序及推荐方法 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN103617245A (zh) | 一种双语情感分类方法及装置 | |
Alksher et al. | A review of methods for mining idea from text | |
Quan et al. | Feature-level sentiment analysis by using comparative domain corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |