CN105468669A - 一种融合用户关系的自适应微博话题追踪方法 - Google Patents

一种融合用户关系的自适应微博话题追踪方法 Download PDF

Info

Publication number
CN105468669A
CN105468669A CN201510671795.3A CN201510671795A CN105468669A CN 105468669 A CN105468669 A CN 105468669A CN 201510671795 A CN201510671795 A CN 201510671795A CN 105468669 A CN105468669 A CN 105468669A
Authority
CN
China
Prior art keywords
topic
user
tracking
arg
civilian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510671795.3A
Other languages
English (en)
Other versions
CN105468669B (zh
Inventor
张闯
柏文言
徐克付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510671795.3A priority Critical patent/CN105468669B/zh
Publication of CN105468669A publication Critical patent/CN105468669A/zh
Application granted granted Critical
Publication of CN105468669B publication Critical patent/CN105468669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合用户关系的自适应微博话题追踪方法,其步骤包括:1)通过用户集合中的所有用户的行为推动推文集合按时间线延展,并将用户集合中所有用户发表的推文映射到特征向量空间中;2)对推文特征空间进行坐标变换,使话题相关推文集合和话题非相关推文集合的分布为线性可分;3)在当前跟踪时间窗内,采用聚类算法对推文特征向量进行聚类,找到目标话题的相关推文集合;4)利用本轮得到的相关推文集合进行下一轮话题跟踪,并将与本轮得到的相关推文集合关联的用户添加至用户集合。本发明借助用户的历史行为增加了推文判断的稳定性,能够有效避免话题追踪过程中出现话题漂移的现象,并能够密切跟踪话题的焦点演变。

Description

一种融合用户关系的自适应微博话题追踪方法
技术领域
本发明属于网络技术、信息技术领域,具体涉及一种融合用户关系的自适应微博话题追踪方法。
背景技术
关于话题追踪的研究可以分为传统话题追踪(TraditionalTopicTracking,TTT)和自适应话题追踪(AdaptiveTopicTracking,ATT)两个方面。在传统话题追踪的研究领域,主要包括基于知识的话题追踪方法和基于统计的话题追踪方法这两大追踪类别。前者基于知识方法的思路是依靠报道信息之间的关联或继承关系获得有效的信息集合;后者基于统计方法是利用统计知识判定信息的相关度。其中,最常用的方法是通过话题的分类模型检测数据与已知话题的相关度。
在基于知识的传统话题追踪领域,典型的研究是Watanabe等人(YWatanabe,YOkaxta.KKaneji,andYSakarnoto.MultiPleMediaDatabaseSystemforTVNewscastsandNewspapers[A].In:TeehnicalReportofIEIGEf[C].JaPan,1995,47-54.)通过分析日本语新闻的语法,找出新闻报道中常用的关联词,如“正如近期发生的…”、“正如我所报道的…”,最后通过这种关联词找出相关话题新闻集合。可见,这种方法局限于只适应某特定知识领域。在基于统计方法的传统话题跟踪研究领域,目前比较成熟的主流研究方法是基于分类策略。比如利用KNN和DecisionTree(Dtree)两种分类算法实现话题的跟踪,该跟踪方法由于初始训练样本稀疏性问题会导致跟踪结果不准确。Schapire利用支持向量机(VSM)算法实现二元分类方法,即忽略不相关话题的子类别,分类结果只包括相关和不相关两种类别,该跟踪模型的稳定性过于依赖训练样本。T.Leek等人(LeekT,SchwartzR,SistaS.Probabilisticapproachestotopicdetectionandtracking[M]//Topicdetectionandtracking.SpringerUS,2002:67-83.)提出在话题跟踪系统中建立多个分类器,旨在用多个分类器来保证跟踪系统的准确率,但该方法同时利用多个分类器进行检测相关报道,降低了跟踪的效率。
传统的话题跟踪方法没有考虑话题跟踪过程中会出现话题漂移等问题,针对这些问题,一些学者在传统的话题跟踪方法的基础上,开展了一个新的研究领域,即自适应话题跟踪方法(ATT)。该方法的主要思想是为了及时自适应话题焦点的演变,话题跟踪模型会动态地对话题的特征权重进行调整,从而保证了话题跟踪结果的有效性。
传统的话题跟踪主要应用于新闻、博客等领域相关话题的检测,这些信息文本均属于长文本范畴,而新型的微博文本具有文本短小、口语化以及原创性等特点,所以针对微博的话题跟踪的特点,许多学者突破了传统话题跟踪的技术,在微博话题跟踪领域展开了新的研究。
在国外,一些学者对英文的微博进行了研究,其中主要是基于Twitter上的数据。在国内,一些学者针对中文微博的话题跟踪展开了研究。由于微博文本具有内容短小、口语化等特点,利用传统方法在对其进行文本处理时,往往会产生数据稀疏的问题,而对稀疏的数据进行分类或者聚类时,结果的准确率会很低。
目前多数方法基于文本分类技术实现话题跟踪,该类方法存在以下一些问题:
1)该类方法依赖于初始样本训练,但通常在微博话题产生的初始阶段,没有足够的可用于训练的初始样本,过少的训练样本会造成分类器的泛化能力严重降低;
2)该类方法是通过逐条判断的方法实现话题的跟踪,并没有充分利用用户信息及其历史行为,也没有结合当前话题的背景语义,仅依赖于及其短小且口语化的文本信息,往往无法提取出特异性属性。
针对现有微博话题追踪方法存在的问题,我们需要一种能适应微博篇幅短小、口语化、实时性、突发性等特点微博话题追踪系统和方法,以提高微博话题追踪系统的稳定性和追踪效率。
发明内容
本发明的目的在于提出一种融合用户关系的自适应微博话题追踪方法。该方法借助用户的历史信息协助推文的相关性判断,增加了推文判断的稳定性;采用迭代跟踪方式替代逐条分类,不需要样本进行初始训练;利用当前跟踪到的相关推文集合生成新一轮的话题目标向量,有效的避免了在话题追踪过程中出现话题漂移的现象;话题跟踪在推文集合上进行,关注话题的整体走向。
为实现上述目的,本发明采用的技术方案如下:
一种融合用户关系的自适应微博话题追踪方法,其步骤包括:
1)通过用户集合中的所有用户的行为推动推文集合按时间线延展,并将用户集合中所有用户发表的推文映射到特征向量空间中;
2)对推文特征空间进行坐标变换,使话题相关推文集合和话题非相关推文集合的分布为线性可分;
3)在当前跟踪时间窗内,采用聚类算法对推文特征向量进行聚类,找到目标话题的相关推文集合;
4)利用本轮得到的相关推文集合进行下一轮话题跟踪,并将与本轮得到的相关推文集合关联的用户添加至用户集合。
进一步地,步骤2)所述坐标变换包括:
2-1)将推文特征向量空间的坐标进行平移,将相关话题的中心点作为新的坐标原点;
2-2)在坐标原点平移的基础上,将推文特征向量空间进行极坐标变换,使话题相关推文集合与话题非相关集合形成了两个柱形话题簇,并近似平行地分布在极径上。
进一步地,步骤3)所述聚类算法为K-means算法。
进一步地,步骤3)采用K-means算法进行聚类并找出相关推文集合的方法是:
3-1)初始化类中心:在跟踪时间窗内的推文样本集合T中,指定两个初始类别中心点,其中一个主类别中心点为上一个跟踪周期的目标 t t arg e t ( &rho; t arg e t , &theta; t arg e t 1 , &theta; t arg e t 2 , ... , &theta; t arg e t l , ... , &theta; t arg e t L - 1 ) , 另外指定一个非相关话题推文集合的中心点为 m n o n - t arg e t ( 1 ) ( &rho; n o n - t arg e t , 0 , ... , 0 , ... , 0 ) , 且指定ρnon-target=2*ρtarget;同时设定迭代终止条件max(||m(n+1)-m(n)||)<△,其中||m(n+1)-m(n)||表示第(n+1)次迭代得到的中心点m(n+1)与第n次迭代得到的中心点m(n)之间的相似度距离,△为聚类中心收敛误差容限;
3-2)样本归类:对T中的每条推文计算其到每个类中心的距离||t1-t2||=|ρ12|,当且仅当时,把它归到最近的质心所代表的类别中;
3-3)更新聚类中心:对相关话题推文类别的聚类中心进行更新,以此类的平均向量作为新的聚类中心其中qi为每个推文特征向量的权重,size为特征向量的维度;非相关话题推文类的聚类中心保持不变;
3-4)迭代3-1)~3-3)步直至满足上述收敛条件,得到作为跟踪的话题目标,为跟踪到的话题目标集合,即得到此轮聚类得到的相关推文集合。
进一步地,步骤4)利用步骤3)得到的话题跟踪模型计算得出下一轮的话题跟踪模型,即ttarget_new=δ*tave+(1-δ)*ttarget,其中δ表示迭代系数。
利用本发明提供的系统对微博中话题进行跟踪,具有以下优点:
1、本发明借助用户的历史信息协助推文的相关性判断,即引入用户属性协助推文的相关性判断,用户属性来自于其历史推文,该方法借助用户的历史行为增加了推文判断的稳定性;
2、采用迭代跟踪方式替代逐条分类,不需要样本进行初始训练;利用当前跟踪到的相关推文集合生成新一轮的话题目标向量,有效的避免了在话题追踪过程中出现话题漂移的现象,并能够密切跟踪话题的焦点演变;
3、话题跟踪在推文集合上进行,关注话题的整体走向,强调热度的变化与焦点的演变,话题跟踪效果不依赖于单条推文相关度的判别。
附图说明
图1为融合用户关系的自适应话题追踪模型示意图。
图2为原始推文集合分布图。
图3为坐标原点平移后推文集合分布图。
图4为极坐标变换后推文集合分布图。
图5为聚类结果示意图。
图6.a.1~图6.d.3为话题追踪过程以及结果图。
图7.a.1~图7.b.3为微博话题事件的热度变化趋势图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
首先介绍本发明中需要的数据结构:
1)推文特征向量为ti,如下所示。本发明将微博的博文统称为推文,推文特征向量也称为话题特征向量,是指微博文本的特征向量,其中表示ti的第l个特征,即为推文i中第l个特征词的词频:
t i ( w i 1 , w i 2 , w i 3 , ... , w i l , ... , w i L )
2)两条推文相似度为△(t1,t2),其中 t 1 ( w 1 1 , w 1 2 , w 1 3 , ... , w 1 l , ... , w 1 L ) , t 2 ( w 2 1 , w 2 2 , w 2 3 , ... , w 2 l , ... , w 2 L ) 分别为两条推文的特征向量:
&Delta; ( t 1 , t 2 ) = &Sigma; l = 0 L ( w 1 l - w 2 l min ( w 1 l , w 2 l ) ) 2 / L
3)定义当前的跟踪时间窗内的所有推文特征向量集合为T,其中[date1,date2]表示当前跟踪时间窗的时间范围,time(ti)表示推文ti的发表时间:
T={ti|time(ti)∈[date1,date2]∧(uj↑ti),uj∈U}
4)当前用户集合为U,其中(uj↑ti),uj∈U表示ti为用户uj发表的推文,R(uj)表示uj为话题相关用户:
U={uj|R(uj)}
5)本发明利用K-mean聚类算法进行二元聚类找出相关推文集合,采用max(||m(n +1)-m(n)||)<△表示迭代终止条件,其中,m(n+1)表示第(n+1)次迭代得到的中心点,m(n)表示第n次迭代得到的中心点,△表示聚类中心收敛误差容限。该迭代终止条件即表示第(n+1)次迭代得到的中心点与第n次迭代得到的中心点之间的相似度距离小于聚类中心收敛误差容限。
下面介绍该微博话题追踪方法的主要原理:
如图1,在本发明的话题追踪模型中,主要包括三个集合:分别是“网状”动态的用户集合、“带状”延展的推文集合以及“柱状”附有权值的话题特征向量。其中,在话题跟踪过程中,用户集合会不断地被更新,包括添加新的相关用户、更新已有用户的相关权值以及淘汰过期相关用户。其次,推文集合类似于一条“传送带”,沿着时间线不断地增加新推文、淘汰过期推文。而话题特征集合是附有权值的话题焦点集合,在跟踪过程中,随着话题的发展,话题特征集合中焦点不断演变。本发明主要是通过用户集合、推文集合以及话题特征集合三者之间的相互作用和影响来实现融合用户关系的自适应微博话题追踪,基本思路如下:首先,整个话题跟踪系统由用户驱动,用户集合中的所有用户行为直接推动推文集合按时间线延展,其中强相关用户的推文被标记为高相关度候选推文,作为后续跟踪的重要依据。然后,在当前跟踪时间窗内,利用话题追踪模型(指话题具体跟踪过程模型,如图1所示的过程图)在候选推文集合中搜索最大相似度子集,从而划分出相关推文集合。最后,将当前话题目标向量迭代更新至话题追踪模型中,用于下一轮话题跟踪。同时,将强相关推文的关联的用户添加至用户集合。
本发明的融合用户关系的自适应话题追踪模型的具体流程如下:
第一步:由于话题追踪的目的是划分出相关话题推文的子集,而不关心其他话题的区别。所以需要推文集合的分布为线性可分。但是,推文在特征空间内按话题混杂分布,本身不是线性可分。所以针对话题追踪的目标以及推文集合的分布特点,我们将对原始的推文特征空间进行坐标变换。原始推文集合的分布特点如图2所示,推文按照话题聚集为“话题簇”,“话题簇”是围绕某话题而聚集的高密度推文集合,其密度取决于话题的热度,体积取决于话题焦点的分化程度,话题热度越大、焦点分化程度越高,越是呈现为密度高、体积大的“话题簇”。同时,推文集合中还存在大量的非话题性推文,这些推文不规则的分布在话题特征向量空间中,形成了话题向量空间的随机噪声与背景。
针对上述的分布特点,我们将话题向量空间的坐标原点进行平移,将原点平移到当前待跟踪的目标向量上。得到了以话题目标向量为原点的新的坐标分布图。其中,坐标原点平移过程如下:
(1)定义当前话题目标向量为:
t t arg e t ( w t arg e t 1 , w t arg e t 2 , w t arg e t 3 , ... , w t arg e t l , ... , w t arg e t L )
定义原推文特征向量为: t i ( w i 1 , w i 2 , w i 3 , ... , w i l , ... , w i L )
(2)平移后目标向量变换为坐标原点,即:
t t arg e t ( w t arg e t 1 , w t arg e t 2 , w t arg e t 3 , ... , w t arg e t l , ... , w t arg e t L ) &RightArrow; 0 ( 0 , 0 , 0 , ... , 0 )
原推文特征向量 t i ( w i 1 , w i 2 , w i 3 , ... , w i l , ... , w i L ) 变换为:
t i &prime; ( w i 1 - w t arg e t 1 , w i 2 - w t arg e t 2 , w i 3 - w t arg e t 3 , ... , w i l - w t arg e t l , ... , w i L - w t arg e t L )
经过坐标平移变换后得到的推文集合分布如图3所示,话题相关推文集合聚集在坐标原点周围形成“目标话题簇”,其他非目标话题推文聚集在各自的话题中心周围形成相应的“话题簇”,其密度和体积随着各自话题的热度及焦点的分化而改变。同时在“话题簇”之间存在着零散分布的背景推文。
如图3所示,除了目标话题的推文集合外,其他非目标话题相关的推文集合呈环状分布。在这种分布下,利用K-means算法进行聚类的效果很差。同时,本发明话题追踪的目标是追踪特定话题,而不关心其他非目标话题的差异性。针对上述问题,我们将平移后的特征向量进行极坐标变换。
其中,极坐标变换过程如下:
(1)定义坐标平移后的推文特征向量为:
t i ( w i &prime; 1 , w i &prime; 2 , w i &prime; 3 , ... , w i &prime; l , ... , w i &prime; L )
(2)根据极坐标变换公式:
&rho; = w i &prime; 1 2 + w i &prime; 2 2 + w i &prime; 3 2 + ... + w i &prime; l 2 + ... + w i &prime; L 2
&theta; 1 = tan - 1 ( w i &prime; 2 w i &prime; 1 ) , &theta; 2 = tan - 1 ( w i &prime; 3 w i &prime; 1 ) , ... ,
&theta; L - 1 = tan - 1 ( w i &prime; L w i &prime; 1 )
可得极坐标变换后的推文特征向量为: t i ( &rho; , &theta; i 1 , &theta; i 2 , ... , &theta; i l , ... , &theta; i L - 1 )
(3)定义两条推文的相似度计算公式如下:
||t1-t2||=|ρ12|
经过极坐标变换后得到的推文集合分布如图4所示,话题相关推文集合与话题非相关集合形成了两个柱形“话题簇”,并近似平行的分布在极径ρ上。此时,再利用K-means算法对极坐标下的推文集合进行聚类分析。
第二步:利用聚类算法找到相关话题的推文子集,其中由相关用户标注的点在更新聚类中心时会被加权。
定义当前的跟踪时间窗内的所有推文特征向量集合为:
T={ti|time(ti)∈[date1,date2]∧(uj↑ti),uj∈U};
定义当前用户集合为:U={u0,u1,...,uk,...,uK},其中[date1,date2]表示当前跟踪时间窗的时间范围,(uj↑ti),uj∈U表示ti为用户uj发表的推文。
利用K-means聚类算法找出相关推文集合的流程如下:
(1)初始化类中心。
在跟踪时间窗内的推文样本集合T中,指定两个初始类别中心点,其中一个主类别中心点为上一个跟踪周期的目标 t t arg e t ( &rho; t arg e t , &theta; t arg e t 1 , &theta; t arg e t 2 , ... , &theta; t arg e t l , ... , &theta; t arg e t L - 1 ) , 另外指定一个非相关话题推文集合的中心点为 m n o n - t arg e t ( 1 ) ( &rho; n o n - t arg e t , 0 , ... , 0 , ... , 0 ) , 且指定ρnon-target=2*ρtarget。同时设定迭代终止条件max(||m(n+1)-m(n)||)<△,其中||m(n+1)-m(n)||表示第(n+1)次迭代得到的中心点m(n+1)与第n次迭代得到的中心点m(n)之间的相似度距离,△为聚类中心收敛误差容限。
(2)样本归类。
对T中的每条推文计算其到每个类中心的距离||t1-t2||=|ρ12|,当且仅当时,把它归到最近的质心所代表的类别中。
(3)更新聚类中心。
本发明对K-means聚类算法更新聚类中心操作进行了相应改进,主要做法为:对相关话题推文类别的聚类中心进行更新,以此类的平均向量作为新的聚类中心其中
m t arg e t n + 1 = &Sigma; i = 0 s i z e ( q i t i ) s i z e , t i &Element; S h i t ( n )
其中qi为每个推文特征向量的权重,size为特征向量的维度。权重qi是根据发表推文的用户的相关性确定的,而用户本身的相关性是通过用户状态转移函数确定的,用户的具体转移函数具体介绍如下。
用户是话题演变的驱动源头,用户集合中的所有用户行为共同推动着话题的发展,用户集合中的每个用户本身是一个具有状态和行为的实体,用户状态描述如下:
a)E(u):白用户;
b)R(u):相关用户;
c)S(u):账号停用的用户;
d)R(u)++:用户u相关度增加;
用户行为描述如下:
A)停用账号
B)u↑R(t):用户u发表相关推文t;
C)用户u发表不相关相关推文t;
D)uR(u'):用户u与相关用户u’互动(u转载、回复、u’)
E)用户u与相关用户u’互动(u转载、回复、u’)
F)用户删除所有相关推文(包括原发、转发、回复的推文)
G)用户删除所有推文(包括原发、转发、回复的推文)
定义用户的状态转移模型为:其中
为用户的状态集合;
为输入集合;
s=E(u)为初始状态;
为接收状态;
状态转移函数为:
1)δ(E(u),u↑R(t))=R(u)
2)δ(E(u),uR(u′))=R(u)
3)
4)
5)
6)
7)
8) &delta; ( R ( u ) , u &CircleTimes; t ) = E ( u )
9)
10)
11)
12)δ(R(u),u↑r(t)=R(u)++
δ(R(u),ur(u′))=R(u)++
非相关话题推文类的聚类中心保持不变,即
m n o n - t arg e t ( n + 1 ) = m n o n - t arg e t ( n ) = m n o n - t arg e t ( 1 ) ( &rho; n o n - t arg e t , 0 , ... , 0 , ... , 0 ) .
(4)迭代(1)~(3)步直至满足上述收敛条件,得到作为跟踪的话题目标向量,为跟踪到的话题目标向量集合。如图5所示,为此轮聚类得到的相关推文集合。
第三步:利用第二步中得到的话题目标向量计算得出下一轮的话题目标向量,即ttarget_new=δ*tave+(1-δ)*ttarget,其中δ表示迭代系数。同时,根据本轮得到的相关推文集合,将与其关联的用户的相关度进行更新。
本发明可以应用于微博平台的话题推荐平台中,用于为用户实时提供关注话题的后续报道以及话题的整体趋势图。下面提供一个应用实例。
1)实验数据
本实例采用的实验设备如下:服务器,处理器,内存,操作系统,网络带宽。分词程序利用的是基于中科院的ICTCLAS中文分词算法。
为了验证本发明方法的有效性,通过twitter平台获取中文推文作为实验数据。如表1所示:分别选取了在2013年、2014年以及2015年发生的三个热点事件,在这3个话题事件的时间周期内,总共爬取约70000多条推文,其中涉及到的推特用户大约有20000多名。
表1.实验话题事件相关信息统计表
2)实验结果及分析
利用本发明的话题追踪模型对twitter中三个热点事件进行跟踪,在某一时间窗内,三个热点事件的具体跟踪过程以及跟踪结果如图6.a.1~图6.d.3所示。图6.a.1至图6.d.1是话题一的跟踪过程,图6.a.2至图6.d.2是话题二的跟踪过程,图6.a.3至图6.d.3是话题三的跟踪过程。图6.a.1、图6.a.2和图6.a.3分别是三个话题追踪过程的第一个步骤,即将时间窗内的推文映射到特征向量空间中,三个图中分别包括相关话题的“话题簇”以及若干个不同体积和不同密度的非相关话题的“话题簇”,同时在“话题簇”之间存在着零散分布的背景推文。如图6.a.1中与相关话题“复旦投毒”事件同一时间窗内的非相关话题有“北京‘最牛违建’被曝光”事件、“李双江之子李天一陷强奸案”事件和“山西临沂一名男童被其伯母残忍挖眼”事件等。其中,每个图中标红的点为相关用户发表的推文,这些点在聚类过程将被加权。图6.b.1、图6.b.2和图6.b.3分别是三个话题追踪过程的第二个步骤,我们将推文特征向量空间的坐标进行平移,将相关话题的中心点作为新的坐标原点。由图可见,三个“目标话题簇”聚集在坐标原点周围,其他非目标“话题簇”聚集在各自的话题中心周围。图6.c.1、图6.c.2和图6.c.3分别是三个话题追踪过程的第三个步骤,在坐标原点平移的基础上,我们将向量空间进行极坐标变换,如三个图所示,相关话题的推文点集合呈“带状”近似平行地分布在极径ρ上,非相关推文的点集合远离极径ρ散列在向量空间内,且相关推文集合和非相关推文集合的分布线性可分。图6.d.1、图6.d.2和图6.d.3分别是三个话题追踪过程的第四个步骤,即在极坐标变换后,利用K-means聚类算法找出相关话题推文的子集。由图可见,所有位于左侧靠近极径ρ的点组成的“带状”集合为相关话题集合,其中黑色三角形的点表示相关用户发表的话题相关推文,所有右侧远离极径ρ的点被聚类为非相关推文集合。综上可知,通过实现对三个热点话题事件进行话题跟踪的实验,验证了本发明的话题跟踪模型能够快速准确地划分出相关话题的推文子集。验证了的话题追踪模型能够快速准确地划分出相关话题的推文子集。
同时,通过实验对twitter中三个事件进行跟踪,分别统计三个热点事件的每个时间段的相关推文以及参与话题用户的数量,我们得出了三个微博话题事件的热度变化趋势图以及话题追踪模型的准确率,如图7.a.1~图7.b.3所示。其中,图7.a.1、图7.a.2和图7.a.3分别为话题一、话题二和话题三的热度变化图,其中上方的曲线表示相关话题推文的数量,下方的曲线表示参与话题讨论的用户数量。从三组热度变化图可以看出,在三个热点话题的的生命周期内,随着时间的变化,三个话题的相关推文总数以及参与用户的总数也在不断地变化,并且每个话题的热度趋势各不相同。其中,话题一“复旦投毒”事件在追踪周期内呈“双峰”形状,峰值处的话题焦点分别是“投毒#逝者安息#黄”和“投毒#动机#林”;话题二的初始点就已经是整个生命周期的峰值点,此时的话题焦点为“马航#失事#祈祷#”;话题三呈“单峰长尾”形状,峰值处于话题的前中期,此处的话题焦点为“遇难#人数#331”。图7.b.1、图7.b.2和图7.b.3分别为话题一、话题二和话题三的准确率统计图,分别统计了时间窗内所有推文的总数量、话题模型追踪到的相关话题推文数量、相关话题推文的误判数量以及相关话题推文的漏判数量。其中,在三个图中,话题模型追踪到的相关话题数量曲线图分别与图7.a.1、图7.a.2和图7.a.3中曲线形状相似。可见,本发明的话题追踪模型可以有效地为用户提供话题的整体走向。同时,从三组话题的追踪结果的准确率统计图可以看出,本发明的的话题追踪模型有较低的误判率以及漏判率。
最后,通过话题追踪模型,我们统计了每轮追踪结果的权值最大的前三个话题焦点,三组热点话题事件的焦点演变如表2所示。从表2可以看出,随着时间的推移,话题的焦点在不断地更新变化,并清晰的反映出话题内容的变化趋势。其中,由于话题二“马航失事”本身的周期较长且话题焦点演变较快,所以相比其他两个话题,该话题的追踪周期较长,且其追踪结果的焦点演变跨度较大,特征值更新比较频繁。话题一和话题三的焦点周期较短,演变跨度较小,特征值更新不频繁,其二者的焦点变换一般发生在事件出现了新的进展,比如热点话题一“复旦投毒”事件在受害者病逝、凶手被捕时间点处焦点发生了变化。话题二的焦点演变发生在遇害人数增长或搜救结束处等。
表2.实验话题事件的焦点演变统计
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (6)

1.一种融合用户关系的自适应微博话题追踪方法,其步骤包括:
1)通过用户集合中的所有用户的行为推动推文集合按时间线延展,并将用户集合中所有用户发表的推文映射到特征向量空间中;
2)对推文特征空间进行坐标变换,使话题相关推文集合和话题非相关推文集合的分布为线性可分;
3)在当前跟踪时间窗内,采用聚类算法对推文特征向量进行聚类,找到目标话题的相关推文集合;
4)利用本轮得到的相关推文集合进行下一轮话题跟踪,并将与本轮得到的相关推文集合关联的用户添加至用户集合。
2.如权利要求1所述的方法,其特征在于,步骤2)所述坐标变换包括:
2-1)将推文特征向量空间的坐标进行平移,将相关话题的中心点作为新的坐标原点;
2-2)在坐标原点平移的基础上,将推文特征向量空间进行极坐标变换,使话题相关推文集合与话题非相关集合形成了两个柱形话题簇,并近似平行地分布在极径上。
3.如权利要求2所述的方法,其特征在于,步骤3)所述聚类算法为K-means算法。
4.如权利要求4所述的方法,其特征在于,步骤3)采用K-means算法进行聚类并找出相关
推文集合的方法是:
3-1)初始化类中心:在跟踪时间窗内的推文样本集合T中,指定两个初始类别中心点,其中一个主类别中心点为上一个跟踪周期的目标 t t arg e t ( &rho; t arg e t , &theta; t arg e t 1 , &theta; t arg e t 2 , ... , &theta; t arg e t l , ... , &theta; t arg e t L - 1 ) , 另外指定一个非相关话题推文集合的中心点为 m n o n - t arg e t ( 1 ) ( &rho; n o n - t arg e t , 0 , ... , 0 , ... , 0 ) , 且指定ρnon-target=2*ρtarget;同时设定迭代终止条件max(||m(n+1)-m(n)||)<Δ,其中||m(n+1)-m(n)||表示第(n+1)次迭代得到的中心点m(n+1)与第n次迭代得到的中心点m(n)之间的相似度距离,△为聚类中心收敛误差容限;
3-2)样本归类:对T中的每条推文计算其到每个类中心的距离‖t1-t2‖=|ρ12|,当且仅当时,把它归到最近的质心所代表的类别中;
3-3)更新聚类中心:对相关话题推文类别的聚类中心进行更新,以此类的平均向量作为新的聚类中心其中 m t arg e t n + 1 = &Sigma; i = 0 s i z e ( q i t i ) s i z e , t i &Element; S h i t ( n ) , qi为每个推文特征向量的权重,size为特征向量的维度;非相关话题推文类的聚类中心保持不变;
3-4)迭代3-1)~3-3)步直至满足上述收敛条件,得到作为跟踪的话题目标,为跟踪到的话题目标集合,即得到此轮聚类得到的相关推文集合。
5.如权利要求4所述的方法,其特征在于:步骤4)利用步骤3)得到的话题跟踪模型计算得出下一轮的话题跟踪模型,即ttarget_new=δ*tave+(1-δ)*ttarget,其中δ表示迭代系数。
6.权利要求1~5中任一项所述方法应用于微博平台的话题推荐平台中,用于为用户实时提供关注话题的后续报道以及话题的整体趋势图。
CN201510671795.3A 2015-10-13 2015-10-13 一种融合用户关系的自适应微博话题追踪方法 Active CN105468669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510671795.3A CN105468669B (zh) 2015-10-13 2015-10-13 一种融合用户关系的自适应微博话题追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510671795.3A CN105468669B (zh) 2015-10-13 2015-10-13 一种融合用户关系的自适应微博话题追踪方法

Publications (2)

Publication Number Publication Date
CN105468669A true CN105468669A (zh) 2016-04-06
CN105468669B CN105468669B (zh) 2019-05-21

Family

ID=55606371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510671795.3A Active CN105468669B (zh) 2015-10-13 2015-10-13 一种融合用户关系的自适应微博话题追踪方法

Country Status (1)

Country Link
CN (1) CN105468669B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392220A (zh) * 2017-05-31 2017-11-24 阿里巴巴集团控股有限公司 数据流的聚类方法和装置
CN109325860A (zh) * 2018-08-29 2019-02-12 中国科学院自动化研究所 用于海外投资风险预警的网络舆情检测方法及系统
WO2019047849A1 (zh) * 2017-09-05 2019-03-14 腾讯科技(深圳)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN114153915A (zh) * 2021-09-10 2022-03-08 北京天德科技有限公司 一种区块链中信息溯源与追踪的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223258A1 (en) * 2005-12-01 2010-09-02 Ucl Business Plc Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
US20100274753A1 (en) * 2004-06-23 2010-10-28 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274753A1 (en) * 2004-06-23 2010-10-28 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
US20100223258A1 (en) * 2005-12-01 2010-09-02 Ucl Business Plc Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周刚 等: ""MB-SinglePass:基于组合相似度的微博话题检测"", 《计算机科学》 *
邹鸿程: ""微博话题检测与追踪技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392220A (zh) * 2017-05-31 2017-11-24 阿里巴巴集团控股有限公司 数据流的聚类方法和装置
WO2018219284A1 (zh) * 2017-05-31 2018-12-06 阿里巴巴集团控股有限公司 数据流的聚类方法和装置
CN107392220B (zh) * 2017-05-31 2020-05-05 创新先进技术有限公司 数据流的聚类方法和装置
US11226993B2 (en) 2017-05-31 2022-01-18 Advanced New Technologies Co., Ltd. Method and apparatus for clustering data stream
WO2019047849A1 (zh) * 2017-09-05 2019-03-14 腾讯科技(深圳)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN109325860A (zh) * 2018-08-29 2019-02-12 中国科学院自动化研究所 用于海外投资风险预警的网络舆情检测方法及系统
CN114153915A (zh) * 2021-09-10 2022-03-08 北京天德科技有限公司 一种区块链中信息溯源与追踪的方法及系统

Also Published As

Publication number Publication date
CN105468669B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN104915397A (zh) 一种微博传播趋势预测方法及装置
US9967321B2 (en) Meme discovery system
CN104035960A (zh) 互联网资讯信息热点预测方法
Gu et al. [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management
CN105468669A (zh) 一种融合用户关系的自适应微博话题追踪方法
CN109271488B (zh) 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN113159456A (zh) 水质预测方法、装置、电子设备及存储介质
Lu et al. Visual topic discovering, tracking and summarization from social media streams
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
Zhang et al. Automatic Traffic Anomaly Detection on the Road Network with Spatial‐Temporal Graph Neural Network Representation Learning
CN108519993B (zh) 基于多数据流计算的社交网络热点事件检测方法
Yu et al. Forecasting digital economy of China using an Adaptive Lasso and grey model optimized by particle swarm optimization algorithm
CN115186189A (zh) 一种基于加权二部图的混合推荐算法
Dong et al. Rumor Detection with Adversarial Training and Supervised Contrastive Learning
Silva et al. USTAR: Online multimodal embedding for modeling user-guided spatiotemporal activity
Xiong et al. Microgroup mining on tsina via network structure and user attribute
Liu et al. A cascade information diffusion prediction model integrating topic features and cross-attention
Wan et al. A personalised recommendation algorithm of user preference products based on Bayesian network
Kong et al. The risk prediction of mobile user tricking account overdraft limit based on fusion model of logistic and GBDT
Li et al. Application research of naive bayes algorithm based on DIKW in weather website
Wang et al. An Improved Artificial Immune System Model for Link Prediction
CN115062223B (zh) 社交大数据平台垃圾广告用户精准识别方法
Wu et al. Recurrent Graph Convolutional Network for Rumor Detection.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant