CN104268230B - 一种基于异质图随机游走的中文微博客观点探测方法 - Google Patents

一种基于异质图随机游走的中文微博客观点探测方法 Download PDF

Info

Publication number
CN104268230B
CN104268230B CN201410504376.6A CN201410504376A CN104268230B CN 104268230 B CN104268230 B CN 104268230B CN 201410504376 A CN201410504376 A CN 201410504376A CN 104268230 B CN104268230 B CN 104268230B
Authority
CN
China
Prior art keywords
mrow
msub
microblogging
keyword
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410504376.6A
Other languages
English (en)
Other versions
CN104268230A (zh
Inventor
陈国龙
廖祥文
黄弈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410504376.6A priority Critical patent/CN104268230B/zh
Publication of CN104268230A publication Critical patent/CN104268230A/zh
Application granted granted Critical
Publication of CN104268230B publication Critical patent/CN104268230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于异质图随机游走的中文微博客观点探测方法,包括:1、按话题采集微博,形成多个以话题为单位的微博集合;对微博进行预处理,去除噪声,形成词的集合的形式;2、从微博中识别出话题的关键词:计算每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;3、基于图模型探测微博中针对话题的主流观点:构建每条微博的特征向量,然后利用微博用户、微博和关键词之间的关系,以微博用户、微博、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博的排序列表。该方法探测速度快、准确度高,通用性强,适用范围广。

Description

一种基于异质图随机游走的中文微博客观点探测方法
技术领域
本发明涉及观点挖掘技术领域,更具体地,涉及一种基于异质图随机游走的中文微博客观点探测方法,能应用于多话题主流观点的发现和排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
在现有技术中,有很多技术方法可用于网民群体观点探测。传统的观点挖掘方法通过文本的倾向性分析进行观点挖掘,这些方法包括观点识别、观点检索、观点要素抽取、垃圾评论识别等。对这些方法进一步分类,大致包括两个方面。一方面采用基于观点词表的简单统计模型、基于机器学习的方法和基于自然语言处理的观点挖掘模型等方法来挖掘网民观点,这些方法主要利用了观点词表、上下文信息、句子级信息、词位置邻近关系、词背景知识等文本信息。另一方面借助当前信息检索和文本挖掘领域的最新模型提出了基于一体化模型的观点检索算法检索网民对特定话题的观点看法,典型的有:基于词典的产生式倾向性检索模型、基于观点词查询扩展的观点相关模型、基于主题-观点混合的主题模型、基于外部数据集的产生式语言模型等。基于一体化模型的观点挖掘由于具有坚实的统计理论基础、更容易解释,在观点挖掘相关研究工作中被广泛研究。
然而,这些方法主要从文本内容角度出发分析挖掘网民群体观点,缺乏考虑“网民”的信誉度、影响力等用户关系对观点度量的影响。并且,社会媒介的数据蕴含非常丰富可以利用的数据特征:网页之间的链接关系、用户之间的好友关系、网页内容的转载关系、用户之间的隐性交互关系等。
在现有技术中,存在着一些基于图模型的方法被广泛应用于对社会媒介数据的挖掘。它擅长针对对象之间的各种联系建立模型,并根据模型对社会媒介中的对象进行排序。如何基于对象之间的相互关系构建适应各种任务需求的网络图是基于图模型方法的基础。典型的方法有基于网页的出、入链构建网页链接图对网页进行排序;搜索引擎的PageRank算法;HITS算法;LexRank算法;个性化PageRank算法;流形学习模型等。这些方法通过定义网络图空间中对象之间的度数、距离长短等,采用随机游走算法或流形学习模型挖掘对象的信誉度或影响力。
然而,这些基于图模型的方法并没有充分地被使用在观点探测中。
现有的观点探测方法没有充分考虑新型短文本媒体的社会化特征。随着近年来微博客这类社交媒介消息的不断产生,产生了大量的富含网民观点的数据资源,并需要通过数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对观点探测技术提出了一个挑战:如何构建一个统一有效的观点探测系统来满足针对微博客进行观点挖掘的需要。因此,迫切需要有一种高效准确的观点探测方法,该方法应能够在具有多个话题的微博数据中发现话题关键词、构建出微博关系图,探测每个话题的主流观点,同时能够在不同的微博类网站、不同领域方便地使用。
发明内容
本发明的目的在于提供一种基于异质图随机游走的中文微博客观点探测方法,该方法探测速度快、准确度高,通用性强,适用范围广。
为实现上述目的,本发明的技术方案是:一种基于异质图随机游走的中文微博客观点探测方法,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;
步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;
步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
进一步的,在步骤1中,所述去除噪声的规则为去除微博中的以下内容:
a) 网页链接;
b) 特殊字符;
c) 广告相关的特殊字符;
d) 表达情感的拟声词。
进一步的,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:
其中,t表示微博集合中按话题划分的子集,tf j (w i )表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tf j (w i )*idf(w i )值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合。
进一步的,在步骤3中,所述微博帖子的特征向量由两部分构成:
a) 微博帖子中包含的关键词;
b) 按小时划分的时间戳信息。
进一步的,在步骤3中,所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连。
进一步的,在步骤3中,所述微博图中各节点的得分的计算方法为:
Score (r)(w)、Score (r)(p)、Score (r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(p i , p j )表示微博帖子p i p j 的余弦相似度,adj[p i ]表示与微博帖子p i 相连的微博集合;
表示微博用户u i 发布的微博帖子,w表示微博用户u i 发布微博用到的关键词,flw[u i ]表示微博用户u i 的粉丝集合,frd[u j ]表示微博用户u j 关注的微博用户集合;
表示包含有关键词w i 的微博帖子,w j 是和关键词w i 出现在相同微博帖子中的关键词,adj[w j ]表示和关键词w i 相连的关键词集合,表示使用了关键词w i 的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
相较于现有技术,本发明的有益效果是提供了中文微博客的观点探测方法,该方法可以高效、准确地对中文微博网站内针对某一话题的微博中探测出主流观点,克服了现有的观点检测方法对微博媒介中数量大、语法不规范、具有大量噪声等特点缺乏考虑的问题,不仅抽取速度快,准确度高,稳定性高,而且通用性强,适用范围广,能够针对不同领域的话题方便地应用,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中的微博图示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于异质图随机游走的中文微博客观点探测方法,如图1所示,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式。所述去除噪声的规则为去除微博中的以下内容:
a) 网页链接,如“http://t.cn/”;
b) 特殊字符;
c) 广告相关的特殊字符;
d) 表达情感的拟声词。
步骤2:从微博中识别出话题的关键词:使用类TF*IDF计算方法计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词。所述类TF*IDF计算方法如下:
该计算方法把和某一话题相关的微博集合当作一个文档,根据数据的特点改造成上述公式。其中,t表示微博集合中按话题划分的子集,tf j (w i )表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tf j (w i )*idf(w i )值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合。
步骤3:基于图模型探测微博中针对话题的主流观点:在识别出话题的关键词后,构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,如图2所示,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
在步骤3中,所述微博帖子的特征向量由两部分构成:
a) 微博帖子中包含的关键词;
b) 按小时划分的时间戳信息。
所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连。
所述微博图中各节点的得分的计算方法为:
Score (r)(w)、Score (r)(p)、Score (r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(p i , p j )表示微博帖子p i p j 的余弦相似度,adj[p i ]表示与微博帖子p i 相连的微博集合;
如果微博用户使用了比较重要的关键词发布了比较有代表性的微博,那么这个用户被认为是有更强的影响力的。表示微博用户u i 发布的微博帖子,w表示微博用户u i 发布微博用到的关键词,flw[u i ]表示微博用户u i 的粉丝集合,frd[u j ]表示微博用户u j 关注的微博用户集合;
如果一个词出现在比较具有代表性的微博中,被有影响力的用户使用了,说明这个关键词是比较重要的。表示包含有关键词w i 的微博帖子,w j 是和关键词w i 出现在相同微博帖子中的关键词,adj[w j ]表示和关键词w i 相连的关键词集合,表示使用了关键词w i 的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;
步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;
步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表;
在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:
tfj(wi)=log ni,j
<mrow> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <mo>{</mo> <mi>j</mi> <mo>:</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,t表示微博集合中按话题划分的子集,tfj(wi)表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tfj(wi)*idf(wi)值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合;
在步骤3中,所述微博帖子的特征向量由两部分构成:
a)微博帖子中包含的关键词;
b)按小时划分的时间戳信息;
在步骤3中,所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连;
在步骤3中,所述微博图中各节点的得分的计算方法为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;alpha;</mi> <mn>1</mn> </msub> <munder> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>a</mi> <mi>d</mi> <mi>j</mi> <mo>&amp;lsqb;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> </munder> <mfrac> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <mi>a</mi> <mi>d</mi> <mi>j</mi> <mo>&amp;lsqb;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> </munder> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <msub> <mi>&amp;beta;</mi> <mn>1</mn> </msub> <mo>&amp;CenterDot;</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>w</mi> <mo>&amp;Element;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow> </munder> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;gamma;</mi> <mn>1</mn> </msub> <mo>&amp;CenterDot;</mo> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
Score(r)(w)、Score(r)(p)、Score(r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(pi,pj)表示微博帖子pi和pj的余弦相似度,adj[pi]表示与微博帖子pi相连的微博集合;
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;alpha;</mi> <mn>2</mn> </msub> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>P</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> </mrow> </munder> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;beta;</mi> <mn>2</mn> </msub> <mo>&amp;CenterDot;</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>w</mi> <mo>&amp;Element;</mo> <mi>p</mi> <mo>,</mo> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>P</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </msub> </mrow> </munder> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;gamma;</mi> <mn>2</mn> </msub> <mo>&amp;CenterDot;</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>f</mi> <mi>l</mi> <mi>w</mi> <mo>&amp;lsqb;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mrow> <mi>f</mi> <mi>r</mi> <mi>d</mi> <mo>&amp;lsqb;</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
Pui表示微博用户ui发布的微博帖子,w表示微博用户ui发布微博用到的关键词,flw[ui]表示微博用户ui的粉丝集合,frd[uj]表示微博用户uj关注的微博用户集合;
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;alpha;</mi> <mn>3</mn> </msub> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>P</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> </mrow> </munder> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;gamma;</mi> <mn>3</mn> </msub> <mo>&amp;CenterDot;</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>u</mi> <mo>&amp;Element;</mo> <msub> <mi>U</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> </mrow> </munder> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;beta;</mi> <mn>3</mn> </msub> <mo>&amp;CenterDot;</mo> <mo>&amp;lsqb;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mi>t</mi> <mi>f</mi> <mo>&amp;CenterDot;</mo> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>p</mi> </mrow> </munder> <mi>t</mi> <mi>f</mi> <mo>&amp;CenterDot;</mo> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>d</mi> <mo>&amp;CenterDot;</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>a</mi> <mi>d</mi> <mi>j</mi> <mo>&amp;lsqb;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mrow> <mi>a</mi> <mi>d</mi> <mi>j</mi> <mo>&amp;lsqb;</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <msup> <mi>Score</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>
Pwi表示包含有关键词wi的微博帖子,wj是和关键词wi出现在相同微博帖子中的关键词,adj[wj]表示和关键词wi相连的关键词集合,Uwi表示使用了关键词wi的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
2.根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,在步骤1中,所述去除噪声的规则为去除微博中的以下内容:
a)网页链接;
b)特殊字符;
c)广告相关的特殊字符;
d)表达情感的拟声词。
CN201410504376.6A 2014-09-28 2014-09-28 一种基于异质图随机游走的中文微博客观点探测方法 Active CN104268230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410504376.6A CN104268230B (zh) 2014-09-28 2014-09-28 一种基于异质图随机游走的中文微博客观点探测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410504376.6A CN104268230B (zh) 2014-09-28 2014-09-28 一种基于异质图随机游走的中文微博客观点探测方法

Publications (2)

Publication Number Publication Date
CN104268230A CN104268230A (zh) 2015-01-07
CN104268230B true CN104268230B (zh) 2017-09-15

Family

ID=52159752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410504376.6A Active CN104268230B (zh) 2014-09-28 2014-09-28 一种基于异质图随机游走的中文微博客观点探测方法

Country Status (1)

Country Link
CN (1) CN104268230B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN105740448B (zh) * 2016-02-03 2019-06-25 天津大学 面向话题的多微博时序文摘方法
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN107807919A (zh) * 2017-11-15 2018-03-16 浙江大学 一种利用循环随机游走网络进行微博情感分类预测的方法
CN110825939B (zh) * 2019-09-19 2023-10-13 五八有限公司 帖子的分数生成、排序方法、装置、电子设备及存储介质
CN111966800B (zh) * 2020-07-27 2023-12-12 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112241492B (zh) * 2020-10-22 2023-04-07 西安石油大学 一种多源异构在线网络话题早期识别方法
CN114912449B (zh) * 2022-07-18 2022-09-30 山东大学 基于代码描述文本的技术特征关键词抽取方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021267A (ja) * 2006-07-14 2008-01-31 Fuji Xerox Co Ltd 文献検索システム、文献検索処理方法及び文献検索処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于文档主题结构的关键词抽取方法研究";刘知远;《http://nlp.csai.tsinghua.edu.cn/~lzy/publications/phd_thesis.pdf》;20110312;1-130 *

Also Published As

Publication number Publication date
CN104268230A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
Thakkar et al. Approaches for sentiment analysis on twitter: A state-of-art study
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN103150382B (zh) 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN103473283A (zh) 一种文本案例匹配方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103530402A (zh) 一种基于改进的PageRank的微博关键用户识别方法
CN104268130B (zh) 一种面向Twitter的社交广告可投放性分析方法
CN104731923A (zh) 互联网商品评论挖掘本体词库的构建方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN104715049A (zh) 基于本体词库的商品评论属性词抽取方法
CN103455487A (zh) 一种搜索词的提取方法及装置
CN107092605A (zh) 一种实体链接方法及装置
CN105630884A (zh) 一种微博热点事件的地理位置发现方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN104281565A (zh) 语义词典构建方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant