CN112989799A - 微博数据流演化主题建模文档聚类解析法 - Google Patents
微博数据流演化主题建模文档聚类解析法 Download PDFInfo
- Publication number
- CN112989799A CN112989799A CN202110456368.9A CN202110456368A CN112989799A CN 112989799 A CN112989799 A CN 112989799A CN 202110456368 A CN202110456368 A CN 202110456368A CN 112989799 A CN112989799 A CN 112989799A
- Authority
- CN
- China
- Prior art keywords
- microblog
- topic
- theme
- document
- focus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 159
- 239000011159 matrix material Substances 0.000 claims description 150
- 230000008859 change Effects 0.000 claims description 45
- 230000003595 spectral effect Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000013467 fragmentation Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 230000004083 survival effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001125862 Tinca tinca Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的微博数据流演化主题建模文档聚类解析法,主要内容和贡献包括:一是提出了一种焦点主题模型TfLDA,采用联合训练的谱聚类及焦点主题推算将潜在主题聚合为事件焦点主题,并将事件焦点主题而不是LDA的潜在主题作为发掘任务的核心;二是在微博文档数据流上实现TfLDA,并对模型参数进行实时更新,以显示其在大规模数据发掘上的有效性和扩展性;三是基于模型困惑度,文档聚类准确性,演化主题直观性指标评估TfLDA,验证其在微博数据流的优质文档聚类和演化主题上的优越性。这套方法的提出,能够有效解决在微博流式数据聚类中难以提取有效特征的问题,实现在有限的时间和内存条件下对微博数据流的分析。
Description
技术领域
本发明涉及一种演化主题建模文档聚类解析法,特别涉及一种微博数据流演化主题建模文档聚类解析法,属于演化主题建模解析技术领域。
背景技术
如今的社交网络平台飞速发展,微博平台在这种背景下具有如下几大特点:一是低门槛性,即每条微博信息都只能在一定字符以内,微博用户可以用三言两语,记录生活、也可以发感慨和晒心情;二是随时随地性,每个用户都可通过互联网、手机等多种渠道,随时随地发微博和接微博;三是快速传播性,如果有一个用户发布了一条微博信息,那么他所有粉丝能够看到信息,用户还能@自己的粉丝和用户所关注的微博用户,实现裂变快速传播;四是搜索功能,通过搜索功能找到其他用户发布的微博信息,也能搜索和自己兴趣相近的微博用户互关注。基于上述几大特点,新浪微博、腾讯微博等微博社会网络媒体已成为时下用户覆盖广、传播影响大、商业价值高的信息发布共享平台,这些微博平台的出现和蓬勃发展,改变了人类对信息聚合、平台开放和用户分享的观念,对人类使用互联网的方式产生了深刻变革。
微博正成为人类社会关系维系和信息传播的重要载体,用户通过微博平台组成各种复杂关系关联的虚拟社区,围绕某一事件、话题、兴趣爱好而聚合成一种网络社交圈,形成具有相似行为特征的网络群体,为交友推荐、产品推荐及广告决策提供了依据。同时,微博也正在成为网络与现实生活反馈互动的新阵地,社交网络中的微博文档数量非常庞大,这些不断产生的微博文档形成了庞大的文档数据流。
在这些微博文档数据流中,往往充斥着对某些事件发展过程的描述纪录,这些与政治、经济、民生紧密关联的微博具有重要的应用价值和研究意义,通过对微博文档进行聚类,可以帮助相关机构更好的了解社会热点事件的发展态势,而且在这些微博文档中,蕴含着用户明确的或是潜在的观点,这些即为本发明所要发掘的主题信息。当前微博文档中的主题,尤其是舆论热点主题,对现实中的作用力越来越大。因此,对主题进行演化分析,可对舆情解析、产品推荐等方面做出重要贡献。
现有技术依然没有很好的解决微博数据流主题演化分析的难题,现有技术的难点和本发明解决的问题主要集中在以下方面:
第一,作为自然语言处理领域的经典方法,主题模型已在文档分类、文档聚类、演化主题、图像压缩、软件管理等方面发挥出重要的应用价值。在处理高维数据,或是类似于微博短文档的稀疏数据时,具有良好的实践效果,微博文档一般为不超过140个字的短文档,与一般的长文档相比不具有严格的句式语法结构,且语句之间结合松散,不具有明显的语义层次,语义跨越度很大。现有技术基于VSM(向量空间模型)的文档聚类方法应用到微博数据时面临特征稀疏度高、噪声干扰大等问题。另一种方法是采用WordNet、HowNet等语义本体库或语料库来扩展词汇语义,弥补短文档稀疏性问题。然而,语义扩展的度不易把握,较多的扩展会增加计算的复杂度,且关联本体库或语料库的构建和选择本身也是一个难题。而通过类似于LDA的主题建模方法,将微博文档表示成主题的分布,而不是常规的词汇的分布,能够有效降低文档处理时的特征维度,同时又能把握住文档的语义结构,但微博数据流规模巨大,且具有多样性、连续性和时变性的特征,这一系列特征使得微博数据流发掘有别于现有技术静态微博数据集的发掘,数据每时每刻都在产生并到达,如果采用常规的主题建模方式来处理数据流文档发掘任务,那么每时每刻都需要基于当前的数据训练一种主题模型,且随着数据的不断积累和变异,以后每次训练主题模型的难度将越来越大,如果采取这种策略,处理数据的内存消耗及存储数据的磁盘空间消耗将随着时间的推移呈现出线性增加的趋势,任何机器都无法在保证实时性的前提下胜任这个任务,最终将会超出其内存承受范围,因此,如何在有限的时间和内存条件下完成对微博数据流的分析是一个极具挑战性的工作;
第二,微博文档内容具有明显的冗余性,针对同一主题,有大量表达含义相同或相近的微博,并且,微博文档内容具有噪声,有相当数量的微博文档中会包含各种广告信息、错别字、与文档无关的URL链接、不规范用词和网络流行符号等,这在微博数据流中尤为明显,这些低质量的噪声微博文档没有必要参与文档发掘,它们反而会增加数据流处理的艰巨性,考虑到用户发布的微博文档信息都带有时间戳,这些文档按照时间戳的先后顺序组成数据流。用户倾向于在不同的时间段发布不同主题的微博,但对某些热门事件或感兴趣的话题,又呈现出在一段时间内持续讨论的状态。因此,一种结合时间序列分析的主题模型是演化主题分析的基础。基于LDA主题模型的演化主题分析方法在LDA主题建模的基础上考虑了时间信息,但直接根据LDA模型提取出的主题只是潜在主题,数量偏多,且缺乏具有高度概括性的焦点主题;
第三,现有技术的数据流动态主题模型DTM等虽然可以利用主题在不同时间片上的分布得到主题强度的演化,但不能得到主题内容的演化。主题内容的演化分析依赖于时间粒度选取及焦点主题选取的有效性,这二者直接影响主题在时间序列上的连续性,并进一步影响演化主题的准确性,因此,针对这种优质微博数据流的文档聚类和演化主题分析非常有意义;
第四,文档数据流或是关于广义有时序文档的聚类一直是研发热点,现有技术基于聚类特征选择的方法虽然较为简便,但在处理微博短文档时很难准确提取有效特征,而借助于主题模型是一种普遍的改进策略,具有可扩展性。在流式数据的主题建模领域,现有技术提出一种动态主题模型,即通过时间信息来扩展LDA模型。主题演化分析的目的是为了更好的把握主题变化规律,并根据这种变换规律做出对应的决策,由于演化分析往往要和时间空间因素结合起来,因此,主要是引入时间空间信息来扩展LDA模型,如动态主题模型、时间主题模型等。然而,基于微博数据流的文档聚类与演化主题分析除了要考虑文档主题的一般组成要素外,还要考虑数据流本身的复杂特性,现有技术虽然不乏研发数据流的主题发掘,但其着眼点仍局限于频繁项集发掘或分片数据的摘要,这对于海量的社会网络媒体数据的实时准确处理来说是不能容忍的,而TM-LDA虽然在大数据量下有较好的实时性,但其进行主题转移分析的时间推进缓慢,重叠处理的数据多,且未考虑到噪声数据和冗余数据的影响,通常社会网络媒体中与查询词关联的文档不到10%,而考虑重要贡献和参考价值后,剩余重要的优质文档只有5‰,针对优质文档的发掘可提高文档数据流的发掘效率和准确,但难度较大;
第五,微博数据流规模巨大,且具有多样性、连续性和时变性的数据流特点,使得微博数据流发掘有别于现有技术静态微博数据集的发掘,数据每时每刻都在产生并到达,如果采用现有技术的主题建模方式来处理数据流的文档发掘任务,那么每时每刻,都需要基于当前的数据训练一种主题模型,随着数据的不断积累和变异,以后每一次训练主题模型的难度将越来越大,同时,微博文档内容具有较为明显的冗余性,即针对同一主题,有大量表达含义相同或相似的微博,并且微博文档内容具有一定的噪声,有相当数量的微博文档中会包含各种广告信息,与文档无关的URL链接、错别字、不规范用词及网络流行符号,这在微博数据流中尤为明显。此外,现有技术的数据流动态主题模型DTM等虽然可以利用主题在不同时间片上的分布得到主题强度的演化,但不能得到主题内容的演化。主题内容的演化分析依赖于时间粒度的选取及焦点主题选取的有效性,这两者直接影响主题在时间序列上的连续性,并进一步影响演化主题的准确性,针对上述情况,本发明提出了一种焦点主题模型TfLDA,以实现在有限的时间和内存条件下对微博文档数据流中的文档聚类与演化主题充分分析。
发明内容
针对现有技术文档聚类方法应用在短文档数据流上复杂度高、特征稀疏和噪声干扰的问题,本发明提出一种在线驱动LDA的焦点主题模型TfLDA,完成微博数据流的优质文档聚类和演化主题分析,基于分片思想将数据流按到达时间分片,并根据微博属性计分策略计算微博重要性,从中提取出优质微博文档,然后基于在线驱动LDA主题模型提取出潜在主题,并采用联合训练方式的谱聚类方法及前后数据片主题推算的方法,产生具有高度概括性的事件焦点主题,产生焦点主题后,通过查询方式将每个待聚类的文档分配到与之最相似的焦点主题,实现优质文档聚类,通过追踪焦点主题的词汇分布、强度要素在时间序列上的变化情况,定义主题在生命周期内的各种生存状态,获得主题的演化图,实现在有限的时间和内存条件下对微博数据流的分析。
为达到以上技术效果,本发明所采用的技术方案如下:
微博数据流演化主题建模文档聚类解析法,基于微博流式数据的文档发掘任务,提出一种焦点主题模型TfLDA,实现微博文档数据流中的文档聚类与演化主题分析,焦点主题模型TfLDA的架构为:第一,基于微博文档的多属性特征计分策略,对数据流进行分片筛选,形成优质微博文档;第二,采用在线驱动LDA的训练方式提取每片优质文档的潜在主题;第三,通过联合训练的谱聚类及主题推算的方式,实现潜在主题的快速聚合,形成焦点主题;第四,基于提出的焦点主题模型TfLDA,计算焦点主题与优质文档之间的相似度,并根据相似度将文档归属于对应的焦点主题,实现优质文档的聚类;第五,再通过追踪焦点主题在时间序列上的变化情况,实现主题的演化分析;
首先基于微博的多属性进行计分,完成优质微博文档的提取,然后采用在线驱动LDA的方式得到文档集中的潜在主题,并通过联合训练的谱聚类及主题推算方法提炼出焦点主题;基于数据流的焦点主题提取模型TfLDA包括,首先,采用EM算法估算每条微博的各个特征的权值,以此对微博进行计分,从中提取优质的微博文档;其次,从小规模的优质微博文档集入手,基于在线LDA得到每个时刻下的潜在主题;然后提出合作学习的谱聚类算法以及基于时间窗口的主题推算,完成焦点主题的提取;最后,基于焦点主题,将优质短文档依据与焦点主题的相似度划分到对应的文档聚簇中以实现聚类;再结合焦点主题的各个要素在时间序列上的变化进行演化分析;
微博文档数据流中的TfLDA:基于在线驱动LDA模型,在基于数据流的TfLDA模型中,将数据片的先验知识运用到当前数据片的计算中,即r时刻下的数据片的焦点主题由r时刻下的时间窗口中的之前的数据片的焦点主题推算得出;对于r时刻下潜在主题的词汇分布矩阵Yr,首先基于TfLDA方法估算焦点主题的个数tr,当前数据片与前一数据片之间语义关联性强,直接在r-1时刻的焦点主题中选取tr个主题作为当前焦点主题矩阵的初始值,进一步考虑以下几种情况:
第一,r-1时刻下的焦点主题数tr-1小于tr;需要向前回溯一个数据片选取主题,若还不够则继续在时间窗口中向前回溯,直至选取的主题数为tr个为止;
第二,r-1时刻下的焦点主题数tr-1等于tr;直接选取r-1下的所有焦点主题SYr-1作为r时刻下焦点主题矩阵的初始值;
第三,r-1时刻下的焦点主题数tr-1大于tr:统计r-1时刻下的这tr-1个焦点主题的强度,即该焦点主题所包含的潜在主题的个数,选取强度最高的前tr个作为r时刻下焦点主题矩阵的初始值;
根据上述三种不同的情况,将r时刻下的焦点主题矩阵初始化,设初始化矩阵为然后,对于r时刻下的所有潜在主题,计算其与该初始化矩阵中的每个初始焦点主题之间的相似度,将每个潜在主题归到与其最相似的焦点主题,形成聚类,再对每个聚类求聚类中心,得到r时刻下的tr个焦点主题构成的矩阵对潜在主题与初始焦点主题之间的相似度设置一个临界值f,对于与任意一个初始焦点主题的相似度均小于f的潜在主题,即认为是当前时刻下新出现的潜在主题,对这些新潜在主题直接进行谱聚类得到新焦点主题NSYr,聚类的个数由TfLDA方法估算,若新出现的焦点主题的个数为ntr,则将中的强度最小的ntr个焦点主题剔除,而将ntr个新焦点主题加入,形成r时刻下的tr个焦点主题所构成的矩阵SYr;对于数据流起始阶段的一个时间窗口的数据片,采用联合训练的谱聚类方式得到焦点主题,而对于之后的每一个数据片,通过其所在的时间窗口中的其余数据片的焦点主题推算得到,平均每p个数据片中有1个需要用联合训练的谱聚类方式得到焦点主题,p为1个时间窗口中的数据片个数,其余p-1个数据片的焦点主题通过推算得出,保证任意一个时间窗口中,至少有1个数据片的焦点主题是由联合训练谱聚类的方式得到的。
微博数据流演化主题建模文档聚类解析法,进一步的,选取优质微博文档:第一,微博数据流分片,对数据流做预处理:针对微博文档数据流C,将其按固定时间间隔或固定的数量分片;
微博评论数、转发数呈现幂律分布的特点,即只有少部分有影响力的用户所发布的微博具有较高的评论量和转发量,鉴于此,在对这两个属性进行计分时,首先对评论数量和转发数量取自然对数,然后将其规范化到[0,100]之间,即:
其中max(ln(M1))为r时刻下的所有微博的评论数的最大值取自然对数,min(ln(M1))为r时刻下的所有微博的评论数的最小值取自然对数,0.05是一个平滑系数;
同理,对于转发量属性,其计分值为:
微博文档的长度,即词汇个数,集中分布在某一种区间之内,只需直接规范化,对于微博文档长度属性,其计分值为:
其中max(ln(M3))为r时刻下的所有微博的词汇个数的最大值,min(ln(M3))为r时刻下的所有微博词汇个数的最小值;
对于URL链接权值,其计分策略考虑因素包括:第一,音乐、视频、图片资源的URL链接的丰富性能反映微博内容的优质特性;第二,微博文档中会掺杂广告信息的URL链接,因此并不是所有的URL链接都能反映微博内容的优质特性,而这些URL链接出现频数较低;第三,同一种URL指向同一种资源,同一种URL链接在不同的微博中的权值一样;
本发明先统计r时刻下的所有微博文档中出现每一种不同的URL链接的出现次数,得到所有不同的URL集合及其频数集合t为URL链接个数,则每条微博的URL链接权值计分为该微博中出现的所有的URL链接的频数之和,即:
在计算得到每一条微博的URL权值计分后,将该权值取自然对数并规范化到[0,100]之间,如下式所示:
其中max(ln(M4))为r时刻下的所有微博的URL权值的最大值取自然对数,min(ln(M4))为r时刻下的所有微博的URL权值的最小值取自然对数,至此得到每个数据片的每一条微博关于评论数、转发数、文档内容长度、URL链接权值4个属性的计分值gi 1、gi 2、gi 3、gi 4,形成计分矩阵
微博数据流演化主题建模文档聚类解析法,进一步的,第三,属性权值估算融合:基于微博特征属性计分策略,得到计分矩阵Gr,但本发明最终需要的是一种总的计分值,因此对微博评论数、转发数、文档内容长度、URL链接权值4个属性计分值进行融合,基于计分矩阵,得到r时刻每个属性下所有微博的计分值的分布,通过EM算法估算这4个属性drj的权值krj(j=1,2,3,4),然后根据权值对4个属性的计分值作线性加权,继而进行融合,每个短文档的综合质量计分依据下式得到:
假设计分矩阵Gr满足N维随机变量的高斯混合分布,此处N=4,基于这个高斯混合模型,融合分值sri出现的概率为:
本发明将r时刻下的数据片用EM估算出的权值向量作为r+1时刻下的数据片的EM初始化权值向量,最后,从每个数据片Ar中提取前P个综合计分值最高的微博文档作为优质文档集LAr。
微博数据流演化主题建模文档聚类解析法,进一步的,本发明在线驱动LDA是一种实时在线主题模型,它将前一个阶段或前一个数据片的模型训练参数作为下一阶段或下一个数据片的模型训练参数的初始值,大幅减少每一次进行LDA训练的时间代价,在线驱动LDA具有LDA的基本模型架构,它也是一种分层的贝叶斯模型,通过潜在主题将文档与词汇关联在一起,参数为文档-主题分布a,主题-词汇分布b,其模型参数训练过程如下:
第一步,随机初始化,对每个文档中的每个词汇随机分配一种主题;
第二步,遍历整个文档集合,对于每篇文档中的每一种词汇,采用吉布斯采样方法采样其主题,并更新该词汇的主题;
第三步,重复第二步直到吉布斯采样结果收敛;
第四步,统计所有的文档-主题共现频率以及主题-词汇共现频率,形成2个矩阵,这2个矩阵是文档-主题分布a和主题-词汇分布b。
微博数据流演化主题建模文档聚类解析法,进一步的,在线驱动LDA主题建模:根据微博数据流分片策略,将微博数据流C表示成文档集合的时间序列形式C={A1,A2,...,Ar,...},Ar是r时刻下到达的微博文档集合,本发明对每个时刻下的微博文档集合进行筛选,选出其中的优质文档集合组成优质的数据流LC={LA1,LA2,...,LAr,...},对于每个优质文档表示为词汇的集合V为词汇总数;
设置一个时间窗口RK,一个时间窗口跨越p个时间段,即一个时间窗口下包含p个数据片的内容,该时间窗口随时间流逝同步推进,在训练r时刻下的数据片的LDA模型的文档-主题分布ar和主题-词汇分布br时,将当前时间窗口中的所有之前的优质数据片,即{LAr-p+1,LAr-p+2,...,LAr-1},共计p-1个数据片的LDA模型参数进行线性融合作为当前优质数据片的LDA模型初始化参数;
设br-1为r-1时刻下的主题-词汇分布矩阵,对于其中的某一个主题w,其对应的分布为 是br-1矩阵中的某一行,将r时刻的时间窗口下所有非当前数据片的关于主题w的分布挑选出来,构成主题w的演化矩阵基于当前时刻下的数据片的主题-词汇分布的初始值与之前的p-1个数据片的主题-词汇分布相关,定义之前的p-1个数据片对当前数据片的主题-词汇分布贡献权值为{hr-p+1,hr-p+2,...,hr-1},则主题w在当前数据片下的先验分布如下:
权值向量{hr-p+1,hr-p+2,...,hr-1}的分配基于文档数据流的延续性,越接近现在贡献价值越大,将权值以公比为0.5的等比数列进行分配,r-1时刻下的数据片的贡献权值为0.5,r-2时刻下的贡献权值为0.25,以此类推,所有p-1个数据片的贡献权值之和为1,模型中的各个参数变量说明如下:C为微博数据流,Ar为r时刻下的微博集合,LAr为r时刻下的优质微博集合,W为潜在主题个数,U为所有不同的词汇的个数,RK为时间窗口,p为时间窗口包含的数据片数目,为r时刻下的i个优质文档中的第j个词汇,为r时刻下的i个优质文档的文档-主题多项式分布,为r时刻下的主题w的主题-词汇多项式分布,为r时刻下的i个优质文档的文档-主题先验分布,为r时刻下的主题w的主题-词汇先验分布,为r时刻下的时间窗口中除去当前数据片外的p-1个数据片中主题w的主题-词汇分布演化矩阵,hi为时间窗口中除去当前数据片外的i个数据片的贡献权值;
r时刻下的微博数据片的在线驱动LDA的模型训练步骤为:
第2步,根据先验分布采样每个主题的主题-词汇分布;
第四步,得到文档-潜在主题分布矩阵ar和潜在主题-词汇分布矩阵br,得到每个数据片下的所有微博文档的W个潜在主题。
微博数据流演化主题建模文档聚类解析法,进一步的,构建潜在主题的多视图相似度:采用联合训练驱动的谱聚类方式对潜在主题进行聚合,提取其中的焦点主题,进而提出TfLDA模型;
训练完毕的LDA模型得到文档-主题分布a,主题-词汇分布b,分别为二个矩阵,设为X和Y,X∈RP×W,Y∈RW×U,P为数据片内的优质微博文档条数,W为LDA潜在主题个数,U为该数据片内的不同的词汇个数,潜在主题有二个方面的特征区别它,一种是潜在主题的词汇分布,另一种是潜在主题的关联微博文档,即包含该潜在主题的微博文档集合,这两个方面的特征构成关于潜在主题的二个不同的视图,多视图的聚类采用基于联合训练的方法;
联合训练的一个要点是数据的多视图性,要求数据的分类或聚类具有多个方面的区别属性,且这些属性之间具有非相干性,若对于某两个数据,它们在某一种视图中属于同一类,那么它们在其余的视图中也属于同一种类,本发明潜在主题的词汇分布和关联微博文档这两个视图满足这一特性;
首先采用谱聚类法实现部分数据的标注,对于图拉普拉斯矩阵的前r个最大的特征值及其对应的特征向量是聚类的关键,在多视图的联合训练方式下,用视图下的图拉普拉斯矩阵的特征向量去标注另一种视图下的聚类数据,然后交换角色,反复进行该步骤;
潜在主题的词汇分布直接根据Y矩阵获得,Y矩阵的每一行是一个潜在主题,总共有W个潜在主题,对于每一种潜在主题,计算其与其余所有潜在主题之间的相似度,每个主题关于词汇是一种概率分布,采用KL散度衡量潜在主题与潜在主题之间的相似度,即对于潜在主题Yi和Yj,其KL散度为:
其中Yi和Yj分别表示矩阵Y中的第i和第j行,Yik和Yjk分别表示矩阵Y中的第i行以及第j行的第k个元素,V为词汇个数,KL散度非对称,即KL(Yi||Yj)和KL(Yj||Yi)不一样,取这两者的平均值作为潜在主题Yi和Yj的KL散度,使之对称化,即:
KL散度越小表示潜在主题分布之间越相似,当二个潜在主题完全相同时,KL散度为0,定义二个潜在主题之间的相似度为sij,则其计算式为:
依据上式计算出这W个潜在主题中任意两个潜在主题之间的相似度,构成一个相似度矩阵K1∈RW×W;
对于潜在主题的关联微博文档集,根据文档-主题矩阵X得到,设置一个概率临界值e,对于文档-主题矩阵X中的第i行,即表示第i个微博文档的主题分布,若该行中的第j个元素大于临界值e,则将该微博文档i加入潜在主题j的关联文档集中,一个微博文档可同时分配给多个潜在主题的关联文档集,得到W个潜在主题的关联微博文档集合,通过计算关联微博文档集合之间的Jaccard相似度来从另一种方面度量潜在主题之间的相似度,即:
其中TAi、TAj分别为潜在主题Yi和Yj的关联文档集合,Jaccard相似度对称,从文档的角度得到这W个潜在主题中任意两个潜在主题之间的相似度,并构成一个相似度矩阵K2∈RW×W,实现多视图下的潜在主题相似性度量。
微博数据流演化主题建模文档聚类解析法,进一步的,运行实现TfLDA:结合潜在主题在词汇分布以及关联微博文档集合两个视图下的相似度矩阵K1和K2,提出一种对于潜在主题的联合训练谱聚类方法,得到焦点主题,构建焦点主题模型TfLDA;
聚合之前估算最终焦点主题的数量,即聚类的个数,拉普拉斯矩阵的最大的前若干个特征值具有加强的类别区分性,因此先求出所有的特征值,然后求特征值的总和evsum,并乘以一个小于1的系数j作为设置的特征值容器,即容器的大小为cont=j*evsum,然后将特征值从大到小排序,并依次添加到特征值容器中,直到容器不能再接受其余特征值的加入为止,最终,容器中的特征值的个数即为最终聚类的个数t;
拉普拉斯矩阵的最大的前t个特征向量构成的子空间为V∈RU×t,将特征向量重新映射回U维空间,减少这几个特征向量之间的关联性对后续聚类过程的影响,映射的结果为Q=VVTK,Q∈RU×U,Q成为新的相似度矩阵;
将矩阵Q对称化,矩阵的对称化形式为sym(Q)=(Q+QT)/2,对称化后的矩阵Q作为新的规范化的相似度矩阵进行下一轮谱聚类过程,直到聚类结果收敛,由此可得到焦点主题;
拉普拉斯矩阵A-1/2KA-1/2,A为K的每一行元素之和构成的对角矩阵,结合潜在主题的二个属性视图,提出基于联合训练的潜在主题谱聚类算法,通过对潜在主题在多个视图上的聚类过程实现焦点主题的聚合,具体流程为:
输出:潜在主题的聚类结果,即焦点主题;
第一,对于每一种视图,分别计算拉普拉斯矩阵,计数器c=1;
第二,对于每一种视图,分别计算拉普拉斯矩阵的最大的前t个特征向量;
第三,对于第c次迭代,用潜在主题关联微博文档集视图的知识更新其词汇分布视图的相似度矩阵;
第四,用潜在主题的词汇分布视图更新主题其关联微博文档集视图的相似度矩阵;
第八,将矩阵Y中属于同一种聚类的所有行求均值,得到t个焦点主题构成的矩阵SY∈Rt×U;
最终得到t个焦点主题关于U个词汇的分布矩阵SY,即TfLDA主题模型最终得到的焦点主题。
微博数据流演化主题建模文档聚类解析法,进一步的,优质微博文档聚类:基于本发明的TfLDA焦点主题模型,实现优质微博文档的聚类,每个焦点主题是一种关于词汇的分布,视为一种查询词组,而待聚类的优质文档视为待检索文档信息,通过主题查询方式,将每个待聚类的优质文档实现聚类;
设LC={LA1,LA2,...,LAr,...}为待聚类的优质微博文档数据流,SYC={SY1,SY2,...,SYr,...}表示每个数据片下的焦点主题矩阵构成的集合,对LC中的每个时刻下的优质微博文档集合LAr依据焦点主题SYr实现聚类,每个优质文档集合由m条微博文档构成,而每条微博文档表示成词汇的向量形式,其中为该数据集合下的U个词汇,为这U个词汇在该微博文档中出现的频数,则对于r时刻下的第i个焦点主题其与该时刻下的第j个优质文档之间的查询相似度定义为:
计算每个优质文档与每个焦点主题之间的查询相似度,并将每个优质文档分配给与其相似度最高的那个焦点主题实现聚类。
微博数据流演化主题建模文档聚类解析法,进一步的,演化主题解析:主题的演化主要表现为主题在时间序列上的强度、内容、状态的变化,主题的强度变化主要是包括该主题的微博文档数量的比例的变化,主题的内容变化是同一种主题的词汇分布随时间的变化;主题的状态变化是主题在生命周期内的各个生存状态的变化,本发明基于主题的强度、内容、状态的变化情况,对于主题的演化分析在焦点主题上进行;
主题强度的演化:表现为与该焦点主题关联的优质微博文档的数目占比的变化情况,基于优质微博文档聚类,即统计文档聚类后的每一种聚簇中的文档数目占总的聚类文档数目,用公式表示为:
微博数据流演化主题建模文档聚类解析法,进一步的,主题内容的演化:主题的内容演化为焦点主题的词汇分布的变化,此处分析的焦点主题均在词汇分布变化较小的情况下进行,在下一时刻该焦点主题的词汇分布变化,但其变化量较小,或与主题关联的种子词汇并没有变化,该焦点主题与之前时刻下的某个对应的焦点主题仍为同一种主题,通过观察某个焦点主题在一时间序列上词汇分布的变化情况,观察该主题在各个时刻下所反映的侧重点。
与现有技术相比,本发明的贡献和创新点在于:
第一,当下网络数据以流的方式产生送达,数据规模极大,现有技术基于静态数据集的主题建模方法已无法胜任数据流中的文档发掘任务,针对微博等流式数据的文档发掘任务,本发明提出一种焦点主题模型TfLDA,实现微博文档数据流中的文档聚类与演化主题分析,创新性的提出基于微博文档的多属性特征计分策略,对数据流进行分片筛选,形成优质微博文档;采用在线驱动LDA的训练方式提取每片优质文档的潜在主题;通过联合训练的谱聚类及主题推算的方式,实现潜在主题的快速聚合,形成焦点主题;基于提出的焦点主题模型TfLDA,计算焦点主题与优质文档之间的相似度,并根据相似度将文档归属于对应的焦点主题,实现优质文档的聚类;再通过追踪焦点主题在时间序列上的变化情况,实现主题的演化分析,通过对新浪微博数据流的实验结果表明,本发明提出的焦点主题模型具有很强的泛化能力,该模型中的优质文档提取、在线潜在主题联合训练、焦点主题聚合和推算过程,在海量数据流处理中显示出了很高的性能,解决了海量文档数据流中主题建模的艰巨性、模型更新的实时性、主题表现的完整性问题,能够在海量微博数据流中较好的实现优质文档聚类和演化主题分析工作;
第二,本发明提出TfLDA焦点主题模型,并从优质文档选取,在线驱动LDA潜在主题学习、焦点主题聚合方面对该焦点主题模型进行详尽补充和改进,给出了模型的构建过程,同时,基于微博文档数据流完善该模型,以适应大规模数据的发掘,并且提出基于焦点主题进行优质文档聚类和主题演化分析任务,文档聚类采用焦点主题查询优质文档,并按查询相似度实现归类;演化主题分析采用从主题强度、主题内容、主题生命周期状态的变化展开进行。从模型困惑度、模型运行时间、优质文档聚类准确性、召回率、F值、演化主题分析的直观性方面对本发明提出的焦点主题模型以及发掘任务进行评估,从实验结果可以看出,本发明提出的焦点主题模型具有很强的泛化能力,基于该模型进行优质文档聚类与演化主题分析取得了较好的效果;
第三,本发明提供的微博数据流演化主题建模文档聚类解析法,主要贡献包括:一是提出了一种焦点主题模型TfLDA,采用联合训练的谱聚类及焦点主题推算将潜在主题聚合为事件焦点主题,并将事件焦点主题而不是LDA的潜在主题作为发掘任务的核心;二是在微博文档数据流上实现TfLDA,并对模型参数进行实时更新,以显示其在大规模数据发掘上的有效性和扩展性;三是基于模型困惑度,文档聚类准确性,演化主题直观性指标评估TfLDA,验证其在微博数据流的优质文档聚类和演化主题上的优越性。这套方法的提出,能够有效解决在微博流式数据聚类中难以提取有效特征的问题;
第四,针对现有技术文档聚类方法应用在短文档数据流上复杂度高、特征稀疏和噪声干扰的问题,首先基于微博的多属性进行计分,完成优质微博文档的提取,然后采用在线驱动LDA的方式得到文档集中的潜在主题,并通过联合训练的谱聚类及主题推算方法提炼出焦点主题;本发明提出一种在线驱动LDA的焦点主题模型TfLDA,完成微博数据流的优质文档聚类和演化主题分析。首先基于分片思想将数据流按到达时间分片,并根据微博属性计分策略计算微博重要性,从中提取出优质微博文档,然后基于在线驱动LDA主题模型提取出潜在主题,并采用联合训练方式的谱聚类方法及前后数据片主题推算的方法,产生具有高度概括性的事件焦点主题,产生焦点主题后,通过查询方式将每个待聚类的文档分配到与之最相似的焦点主题,实现优质文档聚类,通过追踪焦点主题的词汇分布、强度要素在时间序列上的变化情况,定义主题在生命周期内的各种生存状态,获得主题的演化图,实现在有限的时间和内存条件下对微博数据流的分析。
附图说明
图1是本发明基于微博数据流的文档聚类与演化主框架流程图。
图2是本发明优质文档数据流时间窗口示意图。
图3是本发明TfLDA中当前时刻r下的焦点主题矩阵初始化示意图。
图4是本发明整个数据流中的焦点主题推算流程示意图。
具体实施方式
下面结合附图,对本发明提供的微博数据流演化主题建模文档聚类解析法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。
LDA主题模型在文档分类与聚类、热点主题检测等方面已有较为广泛的研发应用,但当下网络数据以流的方式产生送达,数据规模极大,现有技术基于静态数据集的主题建模方法已无法胜任数据流中的文档发掘任务。针对微博等流式数据的文档发掘任务,本发明提出一种焦点主题模型TfLDA,实现微博文档数据流中的文档聚类与演化主题分析,焦点主题模型TfLDA的架构为:第一,本模型创新性的提出基于微博文档的多属性特征计分策略,对数据流进行分片筛选,形成优质微博文档;第二,采用在线驱动LDA的训练方式提取每片优质文档的潜在主题;第三,通过联合训练的谱聚类及主题推算的方式,实现潜在主题的快速聚合,形成焦点主题;第四,基于提出的焦点主题模型TfLDA,计算焦点主题与优质文档之间的相似度,并根据相似度将文档归属于对应的焦点主题,实现优质文档的聚类;第五,再通过追踪焦点主题在时间序列上的变化情况,实现主题的演化分析,通过对新浪微博数据流的实验结果表明,本发明提出的焦点主题模型具有很强的泛化能力,该模型中的优质文档提取、在线潜在主题联合训练、焦点主题聚合和推算过程,在海量数据流处理中显示出了很高的性能,解决了海量文档数据流中主题建模的艰巨性、模型更新的实时性、主题表现的完整性问题,能够在海量微博数据流中较好的实现优质文档聚类和演化主题分析工作。
一、概念定义与任务转换
(一)数据模型关联概念定义
设为由r时刻下获得的m条微博组成的集合,则每个时刻下获得到的所有微博文档集合组成一种数据流C={A1,A2,...,Ar,...},每条微博文档包括n个属性,即D={d1,d2,...,dn},A为属性集合,本发明主要提取数据流C中的优质文档,依据所表达的主题不同聚类,并进行主题的演化分析,为便于任务转换和算法描述,具体定义如下:
定义二,主题:是文档内容的优质部分或是其要描述的种子事件及与之关联的所有事件信息,在本发明中为词汇的概率分布;
定义四,焦点主题:是将LDA产生的潜在主题通过聚类聚合而成的具有高度概括性及明显的事件中心性的主题,也表示为事件关联的词汇的分布形式,设r时刻下的词汇集合Kr中的词汇个数为U,则该时刻下某个焦点主题表示为其中为该焦点主题在词汇集合Kr下的分布;
定义五,主题种子词汇:某主题关联的微博文档中最能反映出该主题事件的词汇;
定义六,主题查询:用焦点主题向量与每条优质微博文档向量作查询,基于相似度将优质微博文档分配到每个焦点主题,实现优质文档聚类,主题查询相似度伴随焦点主题模型的构建产生;
定义七,潜在主题关联的优质微博文档集合:与某个潜在主题满足一定查询相似度的所有关联优质文档构成的集合。
(二)发掘任务定义
本发明的主要发掘任务是实现微博数据流的优质文档聚类和演化主题分析,其中文档聚类的对象是优质微博文档集合,演化主题分析的对象是每个时刻下的各个焦点主题。
定义八,文档聚类:将文档集合依据关联特征,使彼此之间相似度高的文档聚合,彼此之间相似度低的文档分离的过程,本发明文档聚类的依据是文档之间的主题关联性,将描述同一事件主题的微博文档聚合,将描述不同事件主题的微博文档分离,每个时刻下的优质文档集合各自聚类;
定义九,演化主题:主题的强度、内容、状态要素在时间和空间上的变化情况,演化主题分析是在一种时间序列上,对主题的词汇分布、生存状态、表现强度进行描述,发现其演变规律。
(三)任务转换
文档聚类与演化主题分析的准确性由焦点主题的准确性决定,针对现有技术文档聚类方法应用在短文档数据流上复杂度高、特征稀疏和噪声干扰的问题,首先基于微博的多属性进行计分,完成优质微博文档的提取,然后采用在线驱动LDA的方式得到文档集中的潜在主题,并通过联合训练的谱聚类及主题推算方法提炼出焦点主题。
本发明提出一种基于数据流的焦点主题提取模型TfLDA,首先,采用EM算法估算每条微博的各个特征的权值,以此对微博进行计分,从中提取优质的微博文档;其次,从小规模的优质微博文档集入手,基于在线LDA得到每个时刻下的潜在主题;然后提出合作学习的谱聚类算法以及基于时间窗口的主题推算,完成焦点主题的提取;最后,基于焦点主题,将优质短文档依据与焦点主题的相似度划分到对应的文档聚簇中以实现聚类;再结合焦点主题的各个要素在时间序列上的变化进行演化分析。具体的流程图如图1所示。
二、选取优质微博文档
(一)微博数据流分片
微博数据流规模庞大,并且数据时刻在不停的产生,因此,要对这些数据做全局分析计算是不可行的。为了能在有限的内存资源条件下计算这些数据,首先对数据流做预处理:针对微博文档数据流C,将其按固定时间间隔或固定的数量分片。实施例将每三天的微博作为一个数据片,则C={A1,A2,...,Ar,...},其中表示r时刻下的m条微博组成的集合,每次计算的单位就是一种微博数据片Ar。
(二)微博特征属性计分
微博数据流具有信息冗余性和噪声性,如果将全部数据进行计算分析,不仅计算效率低下,而且准确度不高,达不到预期效果,而且结果不可控。因此,对优质微博进行提取,并在优质微博的基础上做计算分析尤为重要。
微博具有主题社会特征、内容特征、影响力特征,每个特征又具有多个属性,主题社会特征属性包括该微博消息的赞、评论、转发、阅读,内容特征涉及微博文档内容、URL链接;影响力特征包括发布者影响力、参与者影响力。
微博评论数、转发数呈现幂律分布的特点,即只有少部分有影响力的用户所发布的微博具有较高的评论量和转发量,而大部分用户发布的微博只有不到两位数的评论和转发量。鉴于此,本发明在对这两个属性进行计分时,首先对评论数量和转发数量取自然对数,然后将其规范化到[0,100]之间,即:
其中max(ln(M1))为r时刻下的所有微博(一个数据片)的评论数的最大值取自然对数,min(ln(M1))为r时刻下的所有微博的评论数的最小值取自然对数,0.05是一个平滑系数。
同理,对于转发量属性,其计分值为:
微博文档的长度,即词汇个数,集中分布在某一种区间之内,只需直接规范化,对于微博文档长度属性,其计分值为:
其中max(ln(M3))为r时刻下的所有微博的词汇个数的最大值,min(ln(M3))为r时刻下的所有微博词汇个数的最小值。
对于URL链接权值,其计分策略考虑因素包括:第一,音乐、视频、图片资源的URL链接的丰富性能反映微博内容的优质特性;第二,微博文档中会掺杂广告信息的URL链接,因此并不是所有的URL链接都能反映微博内容的优质特性,而这些URL链接出现频数较低;第三,同一种URL指向同一种资源,同一种URL链接在不同的微博中的权值一样。
本发明先统计r时刻下的所有微博文档中出现每一种不同的URL链接的出现次数,得到所有不同的URL集合及其频数集合t为URL链接个数,则每条微博的URL链接权值计分为该微博中出现的所有的URL链接的频数之和,即:
在计算得到每一条微博的URL权值计分后,将该权值取自然对数并规范化到[0,100]之间,如下式所示:
其中max(ln(M4))为r时刻下的所有微博的URL权值的最大值取自然对数,min(ln(M4))为r时刻下的所有微博的URL权值的最小值取自然对数,至此得到每个数据片的每一条微博关于评论数、转发数、文档内容长度、URL链接权值4个属性的计分值gi 1、gi 2、gi 3、gi 4,形成计分矩阵
(三)属性权值估算融合
基于微博特征属性计分策略,得到计分矩阵Gr,但本发明最终需要的是一种总的计分值,因此对微博评论数、转发数、文档内容长度、URL链接权值4个属性计分值进行融合,基于计分矩阵,得到r时刻每个属性下所有微博的计分值的分布,通过EM算法估算这4个属性drj的权值krj(j=1,2,3,4),然后根据权值对4个属性的计分值作线性加权,继而进行融合,每个短文档的综合质量计分依据下式得到:
假设计分矩阵Gr满足N维随机变量的高斯混合分布,此处N=4,基于这个高斯混合模型,融合分值sri出现的概率为:
本发明将r时刻下的数据片用EM估算出的权值向量作为r+1时刻下的数据片的EM初始化权值向量,最后,从每个数据片Ar中提取前P个综合计分值最高的微博文档作为优质文档集LAr。
三、在线驱动LDA的潜在主题提取
(一)在线驱动LDA
本发明在线驱动LDA是一种实时在线主题模型,与现有技术LDA不同,它将前一个阶段或前一个数据片的模型训练参数作为下一阶段或下一个数据片的模型训练参数的初始值,大幅减少每一次进行LDA训练的时间代价,在线驱动LDA具有LDA的基本模型架构,它也是一种分层的贝叶斯模型,通过潜在主题将文档与词汇关联在一起,参数为文档-主题分布a,主题-词汇分布b,其模型参数训练过程如下:
第一步,随机初始化,对每个文档中的每个词汇随机分配一种主题;
第二步,遍历整个文档集合,对于每篇文档中的每一种词汇,采用吉布斯采样方法采样其主题,并更新该词汇的主题;
第三步,重复第二步直到吉布斯采样结果收敛;
第四步,统计所有的文档-主题共现频率以及主题-词汇共现频率,形成2个矩阵,这2个矩阵是文档-主题分布a和主题-词汇分布b;
但数据流的数据规模庞大,分片之后数据片数多,若对于每一片数据都进行LDA模型训练,运算时间消耗会增加,影响实时性和准确性。因此,本发明采用在线驱动LDA的方法训练模型参数。
(二)在线驱动LDA主题建模
根据微博数据流分片策略,将微博数据流C表示成文档集合的时间序列形式C={A1,A2,...,Ar,...},Ar是r时刻下到达的微博文档集合,本发明对每个时刻下的微博文档集合进行筛选,选出其中的优质文档集合组成优质的数据流LC={LA1,LA2,...,LAr,...},对于每个优质文档表示为词汇的集合V为词汇总数。
设置一个时间窗口RK,一个时间窗口跨越p个时间段,即一个时间窗口下包含p个数据片的内容,如图2所示,该时间窗口随时间流逝同步推进,在训练r时刻下的数据片的LDA模型的文档-主题分布ar和主题-词汇分布br时,将当前时间窗口中的所有之前的优质数据片,即{LAr-p+1,LAr-p+2,...,LAr-1},共计p-1个数据片的LDA模型参数进行线性融合作为当前优质数据片的LDA模型初始化参数。
设br-1为r-1时刻下的主题-词汇分布矩阵,对于其中的某一个主题w,其对应的分布为 是br-1矩阵中的某一行,将r时刻的时间窗口下所有非当前数据片的关于主题w的分布挑选出来,构成主题w的演化矩阵基于当前时刻下的数据片的主题-词汇分布的初始值与之前的p-1个数据片的主题-词汇分布相关,定义之前的p-1个数据片对当前数据片的主题-词汇分布贡献权值为{hr-p+1,hr-p+2,...,hr-1},则主题w在当前数据片下的先验分布如下:
权值向量{hr-p+1,hr-p+2,...,hr-1}的分配基于文档数据流的延续性,越接近现在贡献价值越大,将权值以公比为0.5的等比数列进行分配,r-1时刻下的数据片的贡献权值为0.5,r-2时刻下的贡献权值为0.25,以此类推,所有p-1个数据片的贡献权值之和为1,模型中的各个参数变量说明如下:C为微博数据流,Ar为r时刻下的微博集合,LAr为r时刻下的优质微博集合,W为潜在主题个数,U为所有不同的词汇的个数,RK为时间窗口,p为时间窗口包含的数据片数目,为r时刻下的i个优质文档中的第j个词汇,为r时刻下的i个优质文档的文档-主题多项式分布,为r时刻下的主题w的主题-词汇多项式分布,为r时刻下的i个优质文档的文档-主题先验分布,为r时刻下的主题w的主题-词汇先验分布,为r时刻下的时间窗口中除去当前数据片外的p-1个数据片中主题w的主题-词汇分布演化矩阵,hi为时间窗口中除去当前数据片外的i个数据片的贡献权值。
r时刻下的微博数据片的在线驱动LDA的模型训练步骤为:
第2步,根据先验分布采样每个主题的主题-词汇分布;
第四步,得到文档-潜在主题分布矩阵ar和潜在主题-词汇分布矩阵br,得到每个数据片下的所有微博文档的W个潜在主题。
四、焦点主题模型TfLDA
(一)构建潜在主题的多视图相似度
不论是现有技术LDA还是本发明驱动的LDA,其产生的潜在主题的数量往往较多,在实际的文档发掘中,会出现过度拟合的问题,不利于聚类和演化分析,因为潜在主题数目过多不仅会带来计算的复杂性,而且会使得聚类结果松散,演化主题粒度太细。因此,本发明采用联合训练驱动的谱聚类方式对潜在主题进行聚合,提取其中的焦点主题,进而提出TfLDA模型。
训练完毕的LDA模型得到文档-主题分布a,主题-词汇分布b,分别为二个矩阵,设为X和Y,X∈RP×W,Y∈RW×U,P为数据片内的优质微博文档条数,W为LDA潜在主题个数,U为该数据片内的不同的词汇个数,潜在主题有二个方面的特征区别它,一种是潜在主题的词汇分布,另一种是潜在主题的关联微博文档,即包含该潜在主题的微博文档集合,这两个方面的特征构成关于潜在主题的二个不同的视图,多视图的聚类采用基于联合训练的方法。
联合训练的一个要点是数据的多视图性,要求数据的分类或聚类具有多个方面的区别属性,且这些属性之间具有非相干性,若对于某两个数据,它们在某一种视图中属于同一类,那么它们在其余的视图中也属于同一种类,本发明潜在主题的词汇分布和关联微博文档这两个视图满足这一特性。
本发明没有少量的带有类别标注的数据,因此,不能直接将联合训练运用到对潜在主题的聚类中。本发明首先采用谱聚类法实现部分数据的标注,对于图拉普拉斯矩阵的前r个最大的特征值及其对应的特征向量是聚类的关键,在多视图的联合训练方式下,用视图下的图拉普拉斯矩阵的特征向量去标注另一种视图下的聚类数据,然后交换角色,反复进行该步骤。
潜在主题的词汇分布直接根据Y矩阵获得,Y矩阵的每一行是一个潜在主题,总共有W个潜在主题,对于每一种潜在主题,计算其与其余所有潜在主题之间的相似度,每个主题关于词汇是一种概率分布,采用KL散度衡量潜在主题与潜在主题之间的相似度,即对于潜在主题Yi和Yj,其KL散度为:
其中Yi和Yj分别表示矩阵Y中的第i和第j行,Yik和Yjk分别表示矩阵Y中的第i行以及第j行的第k个元素,V为词汇个数,KL散度非对称,即KL(Yi||Yj)和KL(Yj||Yi)不一样,取这两者的平均值作为潜在主题Yi和Yj的KL散度,使之对称化,即:
KL散度越小表示潜在主题分布之间越相似,当二个潜在主题完全相同时,KL散度为0,定义二个潜在主题之间的相似度为sij,则其计算式为:
依据上式计算出这W个潜在主题中任意两个潜在主题之间的相似度,构成一个相似度矩阵K1∈RW×W。
对于潜在主题的关联微博文档集,根据文档-主题矩阵X得到,设置一个概率临界值e,对于文档-主题矩阵X中的第i行,即表示第i个微博文档的主题分布,若该行中的第j个元素大于临界值e,则将该微博文档i加入潜在主题j的关联文档集中,一个微博文档可同时分配给多个潜在主题的关联文档集,得到W个潜在主题的关联微博文档集合,通过计算关联微博文档集合之间的Jaccard相似度来从另一种方面度量潜在主题之间的相似度,即:
其中TAi、TAj分别为潜在主题Yi和Yj的关联文档集合,Jaccard相似度对称,从文档的角度得到这W个潜在主题中任意两个潜在主题之间的相似度,并构成一个相似度矩阵K2∈RW×W,实现多视图下的潜在主题相似性度量。
(二)运行实现TfLDA
结合潜在主题在词汇分布以及关联微博文档集合两个视图下的相似度矩阵K1和K2,提出一种对于潜在主题的联合训练谱聚类方法,得到焦点主题,构建焦点主题模型TfLDA。
聚合之前估算最终焦点主题的数量,即聚类的个数,拉普拉斯矩阵的最大的前若干个特征值具有加强的类别区分性,因此先求出所有的特征值,然后求特征值的总和evsum,并乘以一个小于1的系数j作为设置的特征值容器,即容器的大小为cont=j*evsum,然后将特征值从大到小排序,并依次添加到特征值容器中,直到容器不能再接受其余特征值的加入为止,最终,容器中的特征值的个数即为最终聚类的个数t。
拉普拉斯矩阵的最大的前t个特征向量构成的子空间为V∈RU×t,将特征向量重新映射回U维空间,减少这几个特征向量之间的关联性对后续聚类过程的影响,映射的结果为Q=VVTK,Q∈RU×U,Q成为新的相似度矩阵。
将矩阵Q对称化,矩阵的对称化形式为sym(Q)=(Q+QT)/2,对称化后的矩阵Q作为新的规范化的相似度矩阵进行下一轮谱聚类过程,直到聚类结果收敛,由此可得到焦点主题。
拉普拉斯矩阵A-1/2KA-1/2,A为K的每一行元素之和构成的对角矩阵,结合潜在主题的二个属性视图,提出基于联合训练的潜在主题谱聚类算法,通过对潜在主题在多个视图上的聚类过程实现焦点主题的聚合,具体流程为:
输出:潜在主题的聚类结果,即焦点主题;
第一,对于每一种视图,分别计算拉普拉斯矩阵,计数器c=1;
第二,对于每一种视图,分别计算拉普拉斯矩阵的最大的前t个特征向量;
第三,对于第c次迭代,用潜在主题关联微博文档集视图的知识更新其词汇分布视图的相似度矩阵;
第四,用潜在主题的词汇分布视图更新主题其关联微博文档集视图的相似度矩阵;
第八,将矩阵Y中属于同一种聚类的所有行求均值,得到t个焦点主题构成的矩阵SY∈Rt×U;
最终得到t个焦点主题关于U个词汇的分布矩阵SY,即TfLDA主题模型最终得到的焦点主题。
(三)微博文档数据流中的TfLDA
联合训练谱聚类方式的焦点主题提取考虑潜在主题在多属性下的聚类效果,具有较高的准确性,但如果数据流中的每个数据片的焦点主题都需要采用联合训练的方式来获得,实时性将大打折扣,联合训练方式的聚类比纯粹的无监督聚类可靠性高,但其时间消耗比纯粹的聚类也高。数据流处理中联合训练的聚类是必要的,但同时应尽量减少联合训练聚类的使用次数,基于在线驱动LDA模型,在基于数据流的TfLDA模型中,将之前数据片的先验知识运用到当前数据片的计算中,即r时刻下的数据片的焦点主题由r时刻下的时间窗口中的之前的数据片的焦点主题推算得出。
对于r时刻下潜在主题的词汇分布矩阵Yr,首先基于TfLDA方法估算焦点主题的个数tr,当前数据片与前一数据片之间语义关联性强,直接在r-1时刻的焦点主题中选取tr个主题作为当前焦点主题矩阵的初始值,进一步考虑以下几种情况:
第一,r-1时刻下的焦点主题数tr-1小于tr;需要向前回溯一个数据片选取主题,若还不够则继续在时间窗口中向前回溯,直至选取的主题数为tr个为止;
第二,r-1时刻下的焦点主题数tr-1等于tr;直接选取r-1下的所有焦点主题SYr-1作为r时刻下焦点主题矩阵的初始值;
第三,r-1时刻下的焦点主题数tr-1大于tr:统计r-1时刻下的这tr-1个焦点主题的强度,即该焦点主题所包含的潜在主题的个数,选取强度最高的前tr个作为r时刻下焦点主题矩阵的初始值;
根据上述三种不同的情况,将r时刻下的焦点主题矩阵初始化,设初始化矩阵为如图3所示,然后,对于r时刻下的所有潜在主题,计算其与该初始化矩阵中的每个初始焦点主题之间的相似度,将每个潜在主题归到与其最相似的焦点主题,形成聚类,再对每个聚类求聚类中心,得到r时刻下的tr个焦点主题构成的矩阵
但以上方案是假设当前时刻t的数据无新主题产生的情况,实际上当前时刻与之前时刻的主题相比,很可能有新主题的产生,为了捕捉到新主题,对潜在主题与初始焦点主题之间的相似度设置一个临界值f,对于与任意一个初始焦点主题的相似度均小于f的潜在主题,即认为是当前时刻下新出现的潜在主题,对这些新潜在主题直接进行谱聚类得到新焦点主题NSYr,聚类的个数由TfLDA方法估算,若新出现的焦点主题的个数为ntr,则将中的强度最小的ntr个焦点主题剔除,而将ntr个新焦点主题加入,形成r时刻下的tr个焦点主题所构成的矩阵SYr。整个焦点主题的推算流程如图4所示。
对于数据流起始阶段的一个时间窗口的数据片,采用联合训练的谱聚类方式得到焦点主题,而对于之后的每一个数据片,通过其所在的时间窗口中的其余数据片的焦点主题推算得到,主题推算的方式不可避免会引入一些误差,因此为保证较高的准确率,平均每p个数据片中有1个需要用联合训练的谱聚类方式得到焦点主题,p为1个时间窗口中的数据片个数,其余p-1个数据片的焦点主题通过推算得出,保证任意一个时间窗口中,至少有1个数据片的焦点主题是由联合训练谱聚类的方式得到的。
五、优质微博文档聚类与演化主题分析
(一)优质微博文档聚类
文档聚类是将描述同一种主题的微博文档聚合在一起,实现归档的作用,由于微博文档数据流中充斥着大量噪声数据,同时考虑到存储空间有限,因此,基于本发明提出的选取优质微博文档的方法进行聚类,基于本发明提出的TfLDA焦点主题模型,实现优质微博文档的聚类,每个焦点主题是一种关于词汇的分布,视为一种查询词组,而待聚类的优质文档视为待检索文档信息,通过主题查询方式,将每个待聚类的优质文档实现聚类。
设LC={LA1,LA2,...,LAr,...}为待聚类的优质微博文档数据流,SYC={SY1,SY2,...,SYr,...}表示每个数据片下的焦点主题矩阵构成的集合,对LC中的每个时刻下的优质微博文档集合LAr依据焦点主题SYr实现聚类,每个优质文档集合由m条微博文档构成,而每条微博文档表示成词汇的向量形式,其中为该数据集合下的U个词汇,为这U个词汇在该微博文档中出现的频数,则对于r时刻下的第i个焦点主题其与该时刻下的第j个优质文档之间的查询相似度定义为:
计算每个优质文档与每个焦点主题之间的查询相似度,并将每个优质文档分配给与其相似度最高的那个焦点主题实现聚类。
(二)演化主题解析
主题的演化主要表现为主题在时间序列上的强度、内容、状态的变化,主题的强度变化主要是包括该主题的微博文档数量的比例的变化,主题的内容变化是同一种主题的词汇分布随时间的变化;主题的状态变化是主题在生命周期内的各个生存状态的变化,本发明基于主题的强度、内容、状态的变化情况,对于主题的演化分析在焦点主题上进行。
主题强度的演化:表现为与该焦点主题关联的优质微博文档的数目占比的变化情况,基于优质微博文档聚类,即统计文档聚类后的每一种聚簇中的文档数目占总的聚类文档数目,用公式表示为:
主题内容的演化:主题的内容演化为焦点主题的词汇分布的变化,此处分析的焦点主题均在词汇分布变化较小的情况下进行,在下一时刻该焦点主题的词汇分布变化,但其变化量较小,或与主题关联的种子词汇并没有变化,该焦点主题与之前时刻下的某个对应的焦点主题仍为同一种主题,通过观察某个焦点主题在一时间序列上词汇分布的变化情况,观察该主题在各个时刻下所反映的侧重点。
主题状态的演化:主题的状态演化直观反映主题的生存状态,状态的演化与强度的演化结合分析,为便于分析主题的演化情况,定义主题的各种生存状态,将主题的生存状态定义为出现、消失、延续、合并、分裂5种,演化分析涉及到后一种时间段与之前所有时间段的比较,而太过久远的主题又无比较的必要,因此基于时间窗口,本发明只将当前时刻下的主题与之前的p-1个时刻下的主题比较,其中p为时间窗口中包含的数据片数,即时刻数,定义当前时间段为r2,时间窗口中的之前所有的时间段为r1,r1时间段内的所有主题集合为x1,r2时间段内的所有主题集合为x2。
五个演化主题状态的具体描述为:
第一,出现:当前时间段r2内的所有主题均为出现状态,且当前时间段内不存在消失状态的主题;
第二,消失:只存在于之前所有时间段r1的主题中,若r1时间段内的某个主题与r2时间段内的所有主题的相似度都小于某个临界值e,则该主题消失;
第三,延续:延续是出现的细化,若当前时间段r2内的某个主题其与之前所有时间段r1内的某个主题的相似度大于某个临界值h,k、j为自然数,且这两个主题的强度之比在(1-e,1+e)内,e为一种小于0.5的临界值,则主题是主题的延续;
第四,合并:对于r2时间段内的某个主题如果能够在r1时间内找到n(n≥2)个主题,满足和这n个主题的相似度均在(e,h)内,且到这n个主题的权向量X1之间的相似度大于等于h,则为这n个主题的合并,此处的权向量定义为这n个主题根据强度加权后的结果,用下式表示:
根据上述定义的状态进行演化主题分析,得到演化主题的邻接矩阵,并根据邻接矩阵画出演化示意图,便于直观分析。
Claims (10)
1.微博数据流演化主题建模文档聚类解析法,其特征在于,基于微博流式数据的文档发掘任务,提出一种焦点主题模型TfLDA,实现微博文档数据流中的文档聚类与演化主题分析,焦点主题模型TfLDA的架构为:第一,基于微博文档的多属性特征计分策略,对数据流进行分片筛选,形成优质微博文档;第二,采用在线驱动LDA的训练方式提取每片优质文档的潜在主题;第三,通过联合训练的谱聚类及主题推算的方式,实现潜在主题的快速聚合,形成焦点主题;第四,基于提出的焦点主题模型TfLDA,计算焦点主题与优质文档之间的相似度,并根据相似度将文档归属于对应的焦点主题,实现优质文档的聚类;第五,再通过追踪焦点主题在时间序列上的变化情况,实现主题的演化分析;
首先基于微博的多属性进行计分,完成优质微博文档的提取,然后采用在线驱动LDA的方式得到文档集中的潜在主题,并通过联合训练的谱聚类及主题推算方法提炼出焦点主题;基于数据流的焦点主题提取模型TfLDA包括,首先,采用EM算法估算每条微博的各个特征的权值,以此对微博进行计分,从中提取优质的微博文档;其次,从小规模的优质微博文档集入手,基于在线LDA得到每个时刻下的潜在主题;然后提出合作学习的谱聚类算法以及基于时间窗口的主题推算,完成焦点主题的提取;最后,基于焦点主题,将优质短文档依据与焦点主题的相似度划分到对应的文档聚簇中以实现聚类;再结合焦点主题的各个要素在时间序列上的变化进行演化分析;
微博文档数据流中的TfLDA:基于在线驱动LDA模型,在基于数据流的TfLDA模型中,将数据片的先验知识运用到当前数据片的计算中,即r时刻下的数据片的焦点主题由r时刻下的时间窗口中的之前的数据片的焦点主题推算得出;对于r时刻下潜在主题的词汇分布矩阵Yr,首先基于TfLDA方法估算焦点主题的个数tr,当前数据片与前一数据片之间语义关联性强,直接在r-1时刻的焦点主题中选取tr个主题作为当前焦点主题矩阵的初始值,进一步考虑以下几种情况:
第一,r-1时刻下的焦点主题数tr-1小于tr;需要向前回溯一个数据片选取主题,若还不够则继续在时间窗口中向前回溯,直至选取的主题数为tr个为止;
第二,r-1时刻下的焦点主题数tr-1等于tr;直接选取r-1下的所有焦点主题SYr-1作为r时刻下焦点主题矩阵的初始值;
第三,r-1时刻下的焦点主题数tr-1大于tr:统计r-1时刻下的这tr-1个焦点主题的强度,即该焦点主题所包含的潜在主题的个数,选取强度最高的前tr个作为r时刻下焦点主题矩阵的初始值;
根据上述三种不同的情况,将r时刻下的焦点主题矩阵初始化,设初始化矩阵为然后,对于r时刻下的所有潜在主题,计算其与该初始化矩阵中的每个初始焦点主题之间的相似度,将每个潜在主题归到与其最相似的焦点主题,形成聚类,再对每个聚类求聚类中心,得到r时刻下的tr个焦点主题构成的矩阵对潜在主题与初始焦点主题之间的相似度设置一个临界值f,对于与任意一个初始焦点主题的相似度均小于f的潜在主题,即认为是当前时刻下新出现的潜在主题,对这些新潜在主题直接进行谱聚类得到新焦点主题NSYr,聚类的个数由TfLDA方法估算,若新出现的焦点主题的个数为ntr,则将中的强度最小的ntr个焦点主题剔除,而将ntr个新焦点主题加入,形成r时刻下的tr个焦点主题所构成的矩阵SYr;对于数据流起始阶段的一个时间窗口的数据片,采用联合训练的谱聚类方式得到焦点主题,而对于之后的每一个数据片,通过其所在的时间窗口中的其余数据片的焦点主题推算得到,平均每p个数据片中有1个需要用联合训练的谱聚类方式得到焦点主题,p为1个时间窗口中的数据片个数,其余p-1个数据片的焦点主题通过推算得出,保证任意一个时间窗口中,至少有1个数据片的焦点主题是由联合训练谱聚类的方式得到的。
2.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,选取优质微博文档:第一,微博数据流分片,对数据流做预处理:针对微博文档数据流C,将其按固定时间间隔或固定的数量分片;
微博评论数、转发数呈现幂律分布的特点,即只有少部分有影响力的用户所发布的微博具有较高的评论量和转发量,鉴于此,在对这两个属性进行计分时,首先对评论数量和转发数量取自然对数,然后将其规范化到[0,100]之间,即:
其中max(ln(M1))为r时刻下的所有微博的评论数的最大值取自然对数,min(ln(M1))为r时刻下的所有微博的评论数的最小值取自然对数,0.05是一个平滑系数;
同理,对于转发量属性,其计分值为:
微博文档的长度,即词汇个数,集中分布在某一种区间之内,只需直接规范化,对于微博文档长度属性,其计分值为:
其中max(ln(M3))为r时刻下的所有微博的词汇个数的最大值,min(ln(M3))为r时刻下的所有微博词汇个数的最小值;
对于URL链接权值,其计分策略考虑因素包括:第一,音乐、视频、图片资源的URL链接的丰富性能反映微博内容的优质特性;第二,微博文档中会掺杂广告信息的URL链接,因此并不是所有的URL链接都能反映微博内容的优质特性,而这些URL链接出现频数较低;第三,同一种URL指向同一种资源,同一种URL链接在不同的微博中的权值一样;
本发明先统计r时刻下的所有微博文档中出现每一种不同的URL链接的出现次数,得到所有不同的URL集合及其频数集合t为URL链接个数,则每条微博的URL链接权值计分为该微博中出现的所有的URL链接的频数之和,即:
在计算得到每一条微博的URL权值计分后,将该权值取自然对数并规范化到[0,100]之间,如下式所示:
3.根据权利要求2所述的微博数据流演化主题建模文档聚类解析法,其特征在于,第三,属性权值估算融合:基于微博特征属性计分策略,得到计分矩阵Gr,但本发明最终需要的是一种总的计分值,因此对微博评论数、转发数、文档内容长度、URL链接权值4个属性计分值进行融合,基于计分矩阵,得到r时刻每个属性下所有微博的计分值的分布,通过EM算法估算这4个属性drj的权值krj(j=1,2,3,4),然后根据权值对4个属性的计分值作线性加权,继而进行融合,每个短文档的综合质量计分依据下式得到:
假设计分矩阵Gr满足N维随机变量的高斯混合分布,此处N=4,基于这个高斯混合模型,融合分值sri出现的概率为:
本发明将r时刻下的数据片用EM估算出的权值向量作为r+1时刻下的数据片的EM初始化权值向量,最后,从每个数据片Ar中提取前P个综合计分值最高的微博文档作为优质文档集LAr。
4.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,本发明在线驱动LDA是一种实时在线主题模型,它将前一个阶段或前一个数据片的模型训练参数作为下一阶段或下一个数据片的模型训练参数的初始值,大幅减少每一次进行LDA训练的时间代价,在线驱动LDA具有LDA的基本模型架构,它也是一种分层的贝叶斯模型,通过潜在主题将文档与词汇关联在一起,参数为文档-主题分布a,主题-词汇分布b,其模型参数训练过程如下:
第一步,随机初始化,对每个文档中的每个词汇随机分配一种主题;
第二步,遍历整个文档集合,对于每篇文档中的每一种词汇,采用吉布斯采样方法采样其主题,并更新该词汇的主题;
第三步,重复第二步直到吉布斯采样结果收敛;
第四步,统计所有的文档-主题共现频率以及主题-词汇共现频率,形成2个矩阵,这2个矩阵是文档-主题分布a和主题-词汇分布b。
5.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,在线驱动LDA主题建模:根据微博数据流分片策略,将微博数据流C表示成文档集合的时间序列形式C={A1,A2,...,Ar,...},Ar是r时刻下到达的微博文档集合,本发明对每个时刻下的微博文档集合进行筛选,选出其中的优质文档集合组成优质的数据流LC={LA1,LA2,...,LAr,...},对于每个优质文档表示为词汇的集合V为词汇总数;
设置一个时间窗口RK,一个时间窗口跨越p个时间段,即一个时间窗口下包含p个数据片的内容,该时间窗口随时间流逝同步推进,在训练r时刻下的数据片的LDA模型的文档-主题分布ar和主题-词汇分布br时,将当前时间窗口中的所有之前的优质数据片,即{LAr-p+1,LAr-p+2,...,LAr-1},共计p-1个数据片的LDA模型参数进行线性融合作为当前优质数据片的LDA模型初始化参数;
设br-1为r-1时刻下的主题-词汇分布矩阵,对于其中的某一个主题w,其对应的分布为 是br-1矩阵中的某一行,将r时刻的时间窗口下所有非当前数据片的关于主题w的分布挑选出来,构成主题w的演化矩阵基于当前时刻下的数据片的主题-词汇分布的初始值与之前的p-1个数据片的主题-词汇分布相关,定义之前的p-1个数据片对当前数据片的主题-词汇分布贡献权值为{hr-p+1,hr-p+2,...,hr-1},则主题w在当前数据片下的先验分布如下:
权值向量{hr-p+1,hr-p+2,...,hr-1}的分配基于文档数据流的延续性,越接近现在贡献价值越大,将权值以公比为0.5的等比数列进行分配,r-1时刻下的数据片的贡献权值为0.5,r-2时刻下的贡献权值为0.25,以此类推,所有p-1个数据片的贡献权值之和为1,模型中的各个参数变量说明如下:C为微博数据流,Ar为r时刻下的微博集合,LAr为r时刻下的优质微博集合,W为潜在主题个数,U为所有不同的词汇的个数,RK为时间窗口,p为时间窗口包含的数据片数目,为r时刻下的i个优质文档中的第j个词汇,为r时刻下的i个优质文档的文档-主题多项式分布,为r时刻下的主题w的主题-词汇多项式分布,为r时刻下的i个优质文档的文档-主题先验分布,为r时刻下的主题w的主题-词汇先验分布,为r时刻下的时间窗口中除去当前数据片外的p-1个数据片中主题w的主题-词汇分布演化矩阵,hi为时间窗口中除去当前数据片外的i个数据片的贡献权值;
r时刻下的微博数据片的在线驱动LDA的模型训练步骤为:
第2步,根据先验分布采样每个主题的主题-词汇分布;
第四步,得到文档-潜在主题分布矩阵ar和潜在主题-词汇分布矩阵br,得到每个数据片下的所有微博文档的W个潜在主题。
6.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,构建潜在主题的多视图相似度:采用联合训练驱动的谱聚类方式对潜在主题进行聚合,提取其中的焦点主题,进而提出TfLDA模型;
训练完毕的LDA模型得到文档-主题分布a,主题-词汇分布b,分别为二个矩阵,设为X和Y,X∈RP×W,Y∈RW×U,P为数据片内的优质微博文档条数,W为LDA潜在主题个数,U为该数据片内的不同的词汇个数,潜在主题有二个方面的特征区别它,一种是潜在主题的词汇分布,另一种是潜在主题的关联微博文档,即包含该潜在主题的微博文档集合,这两个方面的特征构成关于潜在主题的二个不同的视图,多视图的聚类采用基于联合训练的方法;
联合训练的一个要点是数据的多视图性,要求数据的分类或聚类具有多个方面的区别属性,且这些属性之间具有非相干性,若对于某两个数据,它们在某一种视图中属于同一类,那么它们在其余的视图中也属于同一种类,本发明潜在主题的词汇分布和关联微博文档这两个视图满足这一特性;
首先采用谱聚类法实现部分数据的标注,对于图拉普拉斯矩阵的前r个最大的特征值及其对应的特征向量是聚类的关键,在多视图的联合训练方式下,用视图下的图拉普拉斯矩阵的特征向量去标注另一种视图下的聚类数据,然后交换角色,反复进行该步骤;
潜在主题的词汇分布直接根据Y矩阵获得,Y矩阵的每一行是一个潜在主题,总共有W个潜在主题,对于每一种潜在主题,计算其与其余所有潜在主题之间的相似度,每个主题关于词汇是一种概率分布,采用KL散度衡量潜在主题与潜在主题之间的相似度,即对于潜在主题Yi和Yj,其KL散度为:
其中Yi和Yj分别表示矩阵Y中的第i和第j行,Yik和Yjk分别表示矩阵Y中的第i行以及第j行的第k个元素,V为词汇个数,KL散度非对称,即KL(Yi||Yj)和KL(Yj||Yi)不一样,取这两者的平均值作为潜在主题Yi和Yj的KL散度,使之对称化,即:
KL散度越小表示潜在主题分布之间越相似,当二个潜在主题完全相同时,KL散度为0,定义二个潜在主题之间的相似度为sij,则其计算式为:
依据上式计算出这W个潜在主题中任意两个潜在主题之间的相似度,构成一个相似度矩阵K1∈RW×W;
对于潜在主题的关联微博文档集,根据文档-主题矩阵X得到,设置一个概率临界值e,对于文档-主题矩阵X中的第i行,即表示第i个微博文档的主题分布,若该行中的第j个元素大于临界值e,则将该微博文档i加入潜在主题j的关联文档集中,一个微博文档可同时分配给多个潜在主题的关联文档集,得到W个潜在主题的关联微博文档集合,通过计算关联微博文档集合之间的Jaccard相似度来从另一种方面度量潜在主题之间的相似度,即:
其中TAi、TAj分别为潜在主题Yi和Yj的关联文档集合,Jaccard相似度对称,从文档的角度得到这W个潜在主题中任意两个潜在主题之间的相似度,并构成一个相似度矩阵K2∈RW ×W,实现多视图下的潜在主题相似性度量。
7.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,运行实现TfLDA:结合潜在主题在词汇分布以及关联微博文档集合两个视图下的相似度矩阵K1和K2,提出一种对于潜在主题的联合训练谱聚类方法,得到焦点主题,构建焦点主题模型TfLDA;
聚合之前估算最终焦点主题的数量,即聚类的个数,拉普拉斯矩阵的最大的前若干个特征值具有加强的类别区分性,因此先求出所有的特征值,然后求特征值的总和evsum,并乘以一个小于1的系数j作为设置的特征值容器,即容器的大小为cont=j*evsum,然后将特征值从大到小排序,并依次添加到特征值容器中,直到容器不能再接受其余特征值的加入为止,最终,容器中的特征值的个数即为最终聚类的个数t;
拉普拉斯矩阵的最大的前t个特征向量构成的子空间为V∈RU×t,将特征向量重新映射回U维空间,减少这几个特征向量之间的关联性对后续聚类过程的影响,映射的结果为Q=VVTK,Q∈RU×U,Q成为新的相似度矩阵;
将矩阵Q对称化,矩阵的对称化形式为sym(Q)=(Q+QT)/2,对称化后的矩阵Q作为新的规范化的相似度矩阵进行下一轮谱聚类过程,直到聚类结果收敛,由此可得到焦点主题;
拉普拉斯矩阵A-1/2KA-1/2,A为K的每一行元素之和构成的对角矩阵,结合潜在主题的二个属性视图,提出基于联合训练的潜在主题谱聚类算法,通过对潜在主题在多个视图上的聚类过程实现焦点主题的聚合,具体流程为:
输出:潜在主题的聚类结果,即焦点主题;
第一,对于每一种视图,分别计算拉普拉斯矩阵,计数器c=1;
第二,对于每一种视图,分别计算拉普拉斯矩阵的最大的前t个特征向量;
第三,对于第c次迭代,用潜在主题关联微博文档集视图的知识更新其词汇分布视图的相似度矩阵;
第四,用潜在主题的词汇分布视图更新主题其关联微博文档集视图的相似度矩阵;
第八,将矩阵Y中属于同一种聚类的所有行求均值,得到t个焦点主题构成的矩阵SY∈Rt ×U;
最终得到t个焦点主题关于U个词汇的分布矩阵SY,即TfLDA主题模型最终得到的焦点主题。
8.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,优质微博文档聚类:基于本发明的TfLDA焦点主题模型,实现优质微博文档的聚类,每个焦点主题是一种关于词汇的分布,视为一种查询词组,而待聚类的优质文档视为待检索文档信息,通过主题查询方式,将每个待聚类的优质文档实现聚类;
设LC={LA1,LA2,...,LAr,...}为待聚类的优质微博文档数据流,SYC={SY1,SY2,...,SYr,...|表示每个数据片下的焦点主题矩阵构成的集合,对LC中的每个时刻下的优质微博文档集合LAr依据焦点主题SYr实现聚类,每个优质文档集合由m条微博文档构成,而每条微博文档表示成词汇的向量形式,其中为该数据集合下的U个词汇,为这U个词汇在该微博文档中出现的频数,则对于r时刻下的第i个焦点主题其与该时刻下的第j个优质文档之间的查询相似度定义为:
计算每个优质文档与每个焦点主题之间的查询相似度,并将每个优质文档分配给与其相似度最高的那个焦点主题实现聚类。
9.根据权利要求1所述的微博数据流演化主题建模文档聚类解析法,其特征在于,演化主题解析:主题的演化主要表现为主题在时间序列上的强度、内容、状态的变化,主题的强度变化主要是包括该主题的微博文档数量的比例的变化,主题的内容变化是同一种主题的词汇分布随时间的变化;主题的状态变化是主题在生命周期内的各个生存状态的变化,本发明基于主题的强度、内容、状态的变化情况,对于主题的演化分析在焦点主题上进行;
主题强度的演化:表现为与该焦点主题关联的优质微博文档的数目占比的变化情况,基于优质微博文档聚类,即统计文档聚类后的每一种聚簇中的文档数目占总的聚类文档数目,用公式表示为:
10.根据权利要求9所述的微博数据流演化主题建模文档聚类解析法,其特征在于,主题内容的演化:主题的内容演化为焦点主题的词汇分布的变化,此处分析的焦点主题均在词汇分布变化较小的情况下进行,在下一时刻该焦点主题的词汇分布变化,但其变化量较小,或与主题关联的种子词汇并没有变化,该焦点主题与之前时刻下的某个对应的焦点主题仍为同一种主题,通过观察某个焦点主题在一时间序列上词汇分布的变化情况,观察该主题在各个时刻下所反映的侧重点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456368.9A CN112989799A (zh) | 2021-04-26 | 2021-04-26 | 微博数据流演化主题建模文档聚类解析法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456368.9A CN112989799A (zh) | 2021-04-26 | 2021-04-26 | 微博数据流演化主题建模文档聚类解析法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989799A true CN112989799A (zh) | 2021-06-18 |
Family
ID=76340212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110456368.9A Pending CN112989799A (zh) | 2021-04-26 | 2021-04-26 | 微博数据流演化主题建模文档聚类解析法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989799A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580431A (zh) * | 2022-02-28 | 2022-06-03 | 山西大学 | 一种基于最优运输的动态主题质量评价方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662960A (zh) * | 2012-03-08 | 2012-09-12 | 浙江大学 | 在线监督式主题建模及其演变分析的方法 |
US8630975B1 (en) * | 2010-12-06 | 2014-01-14 | The Research Foundation For The State University Of New York | Knowledge discovery from citation networks |
CN104317881A (zh) * | 2014-04-11 | 2015-01-28 | 北京理工大学 | 一种基于用户话题权威性的微博重排序方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106021406A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种数据驱动的迭代式图像在线标注方法 |
CN108509517A (zh) * | 2018-03-09 | 2018-09-07 | 东南大学 | 一种面向实时新闻内容的流式话题演化跟踪方法 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
EP3591545A1 (en) * | 2018-07-06 | 2020-01-08 | Universite Paris Descartes | Method for co-clustering senders and receivers based on text or image data files |
CN111768027A (zh) * | 2020-05-27 | 2020-10-13 | 华南农业大学 | 基于强化学习的再犯罪风险预测方法、介质和计算设备 |
-
2021
- 2021-04-26 CN CN202110456368.9A patent/CN112989799A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630975B1 (en) * | 2010-12-06 | 2014-01-14 | The Research Foundation For The State University Of New York | Knowledge discovery from citation networks |
CN102662960A (zh) * | 2012-03-08 | 2012-09-12 | 浙江大学 | 在线监督式主题建模及其演变分析的方法 |
CN104317881A (zh) * | 2014-04-11 | 2015-01-28 | 北京理工大学 | 一种基于用户话题权威性的微博重排序方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106021406A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种数据驱动的迭代式图像在线标注方法 |
CN108509517A (zh) * | 2018-03-09 | 2018-09-07 | 东南大学 | 一种面向实时新闻内容的流式话题演化跟踪方法 |
EP3591545A1 (en) * | 2018-07-06 | 2020-01-08 | Universite Paris Descartes | Method for co-clustering senders and receivers based on text or image data files |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN111768027A (zh) * | 2020-05-27 | 2020-10-13 | 华南农业大学 | 基于强化学习的再犯罪风险预测方法、介质和计算设备 |
Non-Patent Citations (5)
Title |
---|
倪丽萍;刘小军;马驰宇;: "基于LDA模型和AP聚类的主题演化分析", 计算机技术与发展, no. 12, 22 November 2016 (2016-11-22), pages 6 - 11 * |
崔凯;周斌;贾焰;梁政;: "一种基于LDA的在线主题演化挖掘模型", 计算机科学, no. 11, 15 November 2010 (2010-11-15), pages 156 - 159 * |
胡艳丽等: "一种话题演化建模与分析方法", 《自动化学报》, vol. 38, no. 10, 15 October 2012 (2012-10-15), pages 1690 - 1697 * |
裴可锋: "基于VOLDA主题模型和ESG预测模型的话题热度预测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2019 (2019-02-15), pages 123 - 184 * |
陈兴蜀等: "基于OLDA 的热点话题演化跟踪模型", 《华南理工大学学报》, vol. 44, no. 5, 15 May 2016 (2016-05-15), pages 130 - 136 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580431A (zh) * | 2022-02-28 | 2022-06-03 | 山西大学 | 一种基于最优运输的动态主题质量评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vadicamo et al. | Cross-media learning for image sentiment analysis in the wild | |
CN108363804B (zh) | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
US20160155067A1 (en) | Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents | |
CN113158023B (zh) | 基于混合推荐算法的公共数字生活精准分类服务方法 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
Liu et al. | Learning to predict population-level label distributions | |
Kaushal et al. | A framework towards domain specific video summarization | |
Straton et al. | Big social data analytics for public health: Predicting facebook post performance using artificial neural networks and deep learning | |
Jiang et al. | Biterm pseudo document topic model for short text | |
Lu et al. | Visual topic discovering, tracking and summarization from social media streams | |
Ji et al. | Cross-modal guidance based auto-encoder for multi-video summarization | |
Fagni et al. | Fine-grained prediction of political leaning on social media with unsupervised deep learning | |
Magdum et al. | Mining online reviews and tweets for predicting sales performance and success of movies | |
CN112989799A (zh) | 微博数据流演化主题建模文档聚类解析法 | |
Wang et al. | A collaborative filtering algorithm fusing user-based, item-based and social networks | |
Riis et al. | On the limits to multi-modal popularity prediction on instagram--a new robust, efficient and explainable baseline | |
Sindhu et al. | Prediction of IMDB Movie Score & Movie Success By Using The Facebook | |
Zhu et al. | Identifying and modeling the dynamic evolution of niche preferences | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
CN113362034A (zh) | 一种职位推荐方法 | |
Li et al. | Deep recommendation based on dual attention mechanism | |
Pawar et al. | Prediction of movie performance using machine learning algorithms | |
CN115470322B (zh) | 一种基于人工智能的关键词生成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |