CN114881041A - 微博大数据热点话题多维度智能提取系统 - Google Patents
微博大数据热点话题多维度智能提取系统 Download PDFInfo
- Publication number
- CN114881041A CN114881041A CN202210565183.6A CN202210565183A CN114881041A CN 114881041 A CN114881041 A CN 114881041A CN 202210565183 A CN202210565183 A CN 202210565183A CN 114881041 A CN114881041 A CN 114881041A
- Authority
- CN
- China
- Prior art keywords
- microblog
- text
- data
- initial
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 124
- 238000004364 calculation method Methods 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 62
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000001816 cooling Methods 0.000 claims description 13
- 238000013480 data collection Methods 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 230000006798 recombination Effects 0.000 claims description 11
- 238000005215 recombination Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 7
- 238000012552 review Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000008521 reorganization Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 238000003892 spreading Methods 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提出了基于短文本拓展和隐藏语义计算方法的文本建模方法,解决现有技术的文本建模方法进行微博话题提取,存在数据降噪、降维不足、语义丢失的问题;本申请结合微博特性提出了短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行了微博文本建模,在不丢失语义的情况下,降低了文本向量的维度;本申请提出了一种协同近似集合方法用于微博话题的提取,并进行了话题热度的打分,将时间数据特性纳入到文本相似度计算中,提出微博话题热度值计算的影响因素和具体方法,并生成了微博热点话题打分列表,提升微博话题的精准性、时效性,减少话题信息的遗失,实现微博大数据热点话题多维度智能准确提取。
Description
技术领域
本申请涉及一种微博大数据热点话题提取系统,特别涉及一种微博大数据热点话题多维度智能提取系统,属于社交网络热点提取技术领域。
背景技术
随着IT技术的快速发展及移动互联网的广泛应用,互联网社交已逐渐并大规模进入人们的生活圈,深入影响到人们的资讯获取方式、社交及生活方式。微博因具备用户数据多、实时发布、开放性强、互动方便优点,逐渐成为人们用来获取和发布信息、分享状态和社交互动的工具,微博已基本成为网络舆论的主要来源之一。
随着微博用户量的剧增,其已成为个人、企业及政府重要的信息来源和发布信息的重要渠道。但面对实时更新、成千上万的用户同时发布的海量微博数据,如何通过有效手段从这些海量数据中及时高效地抓取符合需求的重要信息,确保相关信息准确、可靠、不遗漏重要信息、从而掌握网络舆论的发展态势,这是互联网时代中亟需解决的问题,也具有十分重要的经济和社会意义。
目前常用的信息抓取技术是针对网络新闻、博客内容较长、篇幅较多的网络文章,这些技术的原理是将这些文章所包含的数据通过一些关键词或高频词提取,并通过对这些关键词或者高频词进行计算,抓取出时下的网络热点,找到网络热点后,即可通过对网络热点的实时跟踪,及时掌握该网络热点的发展趋势。然而,通过微博发布数据具有信息短小、数据量巨大、互动性非常强、用户强参与、更新速度特别快特点,微博使用者均可在微博上以自己的表达方式实时传播新的话题,用户们通过搜索、评论和转发的方式均可能将任何用户发布的信息推上热点信息,成为热点话题。微博的这些特点决定了现有技术信息抓取手段难以适用于微博信息的抓取和分析之中,针对微博的信息提取亟需一种新的方式和技术手段来加以实现。
综上,现有技术的微博热点话题提取仍然存在问题,本申请的难点和待解决的问题集中在以下方面:
(1)现有技术虽然对文本表示模型、话题提取方法有不少研究,但传统的基于向量空间模型方法上的话题研究对象,往往是新闻媒体上的报道、评论文章、论坛博客长文本,微博存在与以往的新闻媒体、评论文章不同的特点,导致传统的话题提取方法在运用时存在较大的问题,微博信息的短文本特性,存在文本稀疏性,带来语义信息处理的困难,微博数据较短,而VSM方法在处理数据的过程中,若文本数据量越大,文本间的重复字词越多,越有利于文本相似度的衡量和提取;同时,微博中大量存在噪声数据,例如用户的账户信息、网址链接、表情符号,也会给文本相似度的计算带来困难,影响话题提取的效果,现有技术的热点提取方法运用在微博上会出现较大的偏差。
(2)微博信息量非常巨大,数据实时性很强,对于热点话题提取的速度、准确性都有较高的要求,要从海量的杂乱的微博信息中进行提取,同一话题可能不同的用户的表述差别较大,产生了海量的信息,再由用户间的转发和评论带来巨大的数据处理要求,这对于现有技术的话题提取时间性、算法速度都带来的较大困难,基于微博文本短,数据存在稀疏性,现有技术难以直接通过普通文本特征因子进行计算,无法解决基于向量空间模型的文本建模存在向量空间维度高、语意信息遗失难点,造成字词间的关联性强,无法获得字词间的隐含语义结构,对词和文本表述不准确,微博热点话题提取准确度很低。
(3)微博具有草根性、原创性、重复性、爆炸性的放射状传播方式诸多特征,现有技术对海量的用户实时发布的海量微博数据,无法从中及时高效地抓取符合需求的重要信息,跟进网络舆论热点,缺少一套微博热点话题的自动提取系统,缺少基于短文本拓展和隐藏语义计算方法的文本建模方法,现有技术文本建模方法进行微博话题提取,存在数据降噪、降维不足、语义丢失问题,缺少结合微博特性的短文本扩充,缺少协同近似集合方法用于微博话题的提取,无法实现了对微博热点话题的自动提取和打分展示,微博话题提取的精准性、时效性差,话题信息遗失多,无法满足在现实中的功能需要。
发明内容
基于微博文本短,数据存在稀疏性,难以直接通过普通文本特征因子进行计算,本申请充分利用微博传播及互动的特点,提出一种基于微博发布及评论特性的短文本扩充方法。解决了现有技术基于向量空间模型的文本建模存在向量空间维度高、语意信息遗失难点,本申请基于隐藏语义计算方法进行微博文本的建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,使文本向量的维度降低。适应海量微博信息的处理需求,提出一种改进的协同近似集合算法,同时结合时间数据来计算相似度,提升微博话题提取的准确性、时效性。构建了微博热点话题自动提取系统,通过对微博转载及传播内容的计算和分析,可高效掌握社会当前舆论态势,对网络舆情有效分析把握。
为实现以上技术特征优势,本申请所采用的技术方案如下:
微博大数据热点话题多维度智能提取系统,利用微博传播及互动特点,构建基于微博海量数据的热点话题提取模型,基于短文本扩充与隐藏语义计算方法的文本建模,并基于协同近似集合和热度打分对微博热点话题进行自动提取,构建对应的自动提取系统;
S1,联合短文本扩充与隐藏语义计算的微博文本建模:结合微博特性提出短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行微博文本建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,在不丢失语义的情况下,降低文本向量的维度;
S2,基于协同近似集合和热度打分的微博热点话题提取,包括:改进的协同近似集合算法、联合时间数据的文本相似度计算、微博话题热度影响因素评分、微博话题热度值的计算;融合层次近似集合和K均衡算法并进行改进,并将时间数据特性纳入到文本相似度计算中;结合微博文本的特性引入话题热度值计算的影响因素和实现方法,并生成微博热点话题打分列表;
S3,构建微博热点话题多维度智能提取系统,对文本模型化表示方法所构建的基于短文本扩充方法、隐藏语义计算方法的文本建模,综合协同近似集合和热度打分的热点提取方法提升提取精准性、时效性,减少话题信息遗失,实现对微博热点话题的自动提取和打分展示。
优选地,基于叙词的微博评论处理:
(1)删除长度不足的回复评论,此处设定一定的临界值长度Length,在微博数据提取中去掉内容短于Length的回复评论;
(2)对于微博的内容进行数据的清洗和预处理,包括剔除停用词、表情符号、用户账户、网址链接,对微博内容进行中文分词处理;
(3)删除与初始微博内容不相关的评论,将回复评论的微博集合中,抽取叙词与初始微博相近的评论,对于本条规则的执行,具体过程如下:
过程1:将原微博的叙词簇作为初始簇;
过程2:从原微博的评论中按时间顺序读取一条;
过程3:将抽取的评论中的词与初始簇计算空间距离;
过程4:把评论与初始簇计算归一化的空间距离值相加求和;如果结果小于设定的临界值,则添加至有用评论列表,如果不是,则剔除;
再次执行过程3和过程4,直至所有回复评论处理完成,得到原微博对应的有效的评论列表。
在计算评论与初始微博的空间距离时,涉及文本近似度的计算,计算词a、b的近似概率:
P(a|b)是在b出现的情况下,a出现的概率,它于a与b同时出现的概率除以b出现的概率,计算词与叙词簇的相关性,令词w与簇C之间的距离取max{P(ci|ω)ci∈C}的倒数,具体方法如下:
如果ci在簇C中,则ci在包含w的文本中出现的概率大,词w至簇C的空间距离短,将词w加进簇C;否则,词w离簇C的空间距离大,则词w不加入簇C。
优选地,重组讨论图谱树扩充微博文本:在微博的讨论图谱树里,对微博内容进行重组拓展形成微博的长文本,包括两种情形:一是连续转发的微博,转发博文采用<RT>来标记;二是在回复中评论对话,交谈时会指向标签@微博博主;
微博文本信息提取结合微博的呈现方式,将初始微博下的所有连续转发、评论回复重组,作为该微博内容的拓展,以此来进行话题的提取和计算,在重组之前,将已收集的数据集Set<Blog>按时间先后进行打分得到SortedSet<Blog>,然后将其作为算法的输入,通过算法处理,将其转化为多个文本构成的集合,且已重组重复信息;
(1)重组连续转发微博
使用页面上的标记来筛选Set<Blog>信息,如果微博是初始微博信息或包含<RT>的转发标记时,此类微博信息加入到SortedSet<Blog>中,对于原创微博的HashValue当作textMap的键,将重组后的TextSet<Blog>加到对应位置上,按照算法重组完成后,textMap里的值都是重组重复信息的文本集;
理解最终得到的文本集包含的范围,即没有被转发过的初始微博,和连续转发的重复微博内容,处理完成后标记为yeD,作为初始输入的集合,并进行下一步的处理;
(2)对话与评论的多微博重组
通过重组连续转发微博算法处理后,剩下的文本集yeD中,是带有指标标签@的微博信息,将对话与评论的多微博重组,构建各自的对话树结构,核心是微博发表的时间次序以及指向标签@对应的微博信息传递关系;
先对上一步构成的yeD中微博信息依据其发布时间先后进行次序排列,然后查询整个yeD,对于不包含@指向符合的微博,将其作为Root结点构建一颗对话树,并把新建的树加入到discussTreeSet中;对于转发和评论的微博,则搜寻discussTreeSet,直至:①某条该树结点中微博的发布人是该微博所指向的人;②符合条件①的所有结点中两条微博发布时间差最小,然后将当前微博信息作为其子结点信息加入原对话树中;
通过对话与评论的多微博重组算法处理后,yeD中的微博信息都被重组至对话树中,剔除只有Root结点或者是树的高度非常低的对话树,即评论或者转发非常少的微博信息,将同一对话树结构的微博信息根据发布时间的先后次序重组为一个文本,得到有意义的长文本信息。
优选地,基于隐藏语义计算的微博文本建模:通过大量的文本计算,构造文本-字词矩阵,然后提取字词和文本的隐藏语义结构,具体步骤如下:
对Amxn进行分解后,得到Amx的近似矩阵Ak,此处K<<min(m,n),实现文本向量的降维,分解过程如下:
(2)假设存在矩阵A的分解:A=U∑VT,U和V正交,∑是对角矩阵,得到:AAAT=U∑∑TUT和ATA=V∑T∑VT,∑∑T和∑T∑对角,U和V分别覆盖AAT和ATA的特征向量;
对收集到微博文本信息,采用隐藏语义计算方法建模如下:
tfij代表字词在文本j中出现的频率,N代表文本总量,ni代表含有词i的文本数量,微博文本简短,一个词只在很少的博文中出现,Amxn是稀疏矩阵,且是高维度;
(2)得到字词与文本的共生矩阵Amxn后,在不损失原文本语义关系的基础上,依据k<<min(m,n)选定k维语义空间,采用低维度的字词和文本向量来表达原空间向量,对海量的文本集的处理速度提高,在具体处理过程中,分解采用SVDLIBC法,获得Amxn的近似矩阵Ak。
优选地,改进的协同近似集合算法:先通过层次近似集合算法对数据进行初步近似集合,找出初始的近似集合中心C以及初始的近似集合数量K,将近似集合中心和近似集合数量作为K均衡算法的初始输入因子,按照K均衡算法的步骤完成整个近似集合过程,其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;
包括两个步骤,首先通过层次近似集合找出初始近似集合中心C和初始近似集合簇数K;然后将结果作为K均衡算法的输入因子,按照K均衡算法的流程进行近似集合;
改进的协同近似集合算法的具体过程如下:
步骤一:通过层次近似集合算法找出初始近似集合中心C和初始近似集合簇数K:
(2)求n个数据点的相互距离,将距离最近的数据点两两实现部分地近似集合;其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;
(3)通过随机抽样来剔除部分孤立点:在近似集合接近完成时剔除小于设定临界值的簇以及在近似集合过程中类簇聚集速度低于设定的临界值的簇;
(4)对于上步中得到两两数据之间求中心点,即得到新的簇中心,采用Fi=(ni,mi),(i=1,2Λ,k)来代表;
(5)迭代执行(2)、(3)、(4)步,并计算各层类簇的目标函数值Q(c),选择使Q(c)值最小的层,该值越小则意味着近似集合数K的大小越准确;
(6)计算Fi(i=1,2,Λ,k)中样本数据的均值,作为后续K均衡算法的初始中心Ci(i=1,2,Λ,k);
步骤二:将初始近似集合中心C和初始近似集合簇数K作为K均衡算法的因子,并实现近似集合:
(7)对矩阵A中的所有数据进行判断,是否在步骤一已经进行过近似集合处理,若是则不再进行处理,若尚未处理过,则对该数据点,求所有的簇中心的距离,并按照最小距离原则将其划分至对应的簇中去;
(8)重新对簇的数量、均衡、近似集合特征进行求值,并更新;
(9)迭代执行(7)、(8)步,直到每个类簇不再更新为止,即分类结果达到稳定。
优选地,联合时间数据的文本相似度计算:将时间因子加入文本相似度的计算中,具体方法如下:
其中Sl、S2是隐藏语义计算方法的文本向量表示S1={s1_1,s1_2,…,s1_n}、S2={s2_1,s2_2,…,s2_n},T(S1)和T(S2)分别代表语义文本的微博发表的时间(精确到秒),如果二者相隔越远,则近似度相对越低。
优选地,微博话题热度影响因素评分:对微博话题热度的衡量,基于以下要素评分:
评分1,用户的影响力:微博用户影响力通过其粉丝数量和是否是某一领域的专家来判断;
评分2,评论数:博文如果是很多人都会关注的话题,则会吸引很多人的参与评论;
评分3,转发数;
评分4,时间特性,博文的时间特性考虑在对微博话题热度的评价中。
优选地,微博话题热度值的计算:话题热度值的计算考虑用户的影响力、博文评论数、转发数、发表时间几个要素,构建如下的热度值计算方法:
其中,λ、μ与η为权重因子,且λ+μ+η=1,Hauthor(i)代表用户的影响力大小,将其定义如下:
Hauthor(i)=ζ×Fllowers 式7
式中,Fllowers代表对该用户的关注粉丝量,ζ是权威因子,根据用户是否为相关领域的权威人士来确定值;R(i)代表博文i的转发量;C(i)代表原博文i下的评论条数;Hauthor(j)、c(j)分别指原微博i的第j条转发微博的影响力和评论次数;
根据以上方法算出单条微博信息的热度值后,将时间要素纳入话题的热度计算,即当某条微博信息发出后,对该话题热度的影响伴随着时间的延长,越来越低,本申请基于牛顿冷却定律对于微博的热度按照此规则进行冷却,冷却方法如下:
f′=-α(f(t)-D) 式8
f(t)是当前对象温度以时间t为变量的函数,其导数为f′,D代表环境温度,f(t)-D代表当前对象温度与环境温度间的差异度,参数α(α>0),-α代表降温,视为冷却快慢程度的参数值,对该式求积分,则将其转化为:
式中f0代表初始温度,t-t0为时间间隔,得到微博话题热度的最终式如下:
式中,H(topicSet,t)代表话题在t时刻的热度,t是计算时采用的当前时间,n代表该话题下的博文数目,ti为博文的发表时间,Hi是博文i的初始热度。
优选地,构建微博热点话题多维度智能提取系统整体架构设计:从数据收集到文本分词处理,根据词性进行过滤、对于评论文本进行筛选,重组评论信息得到拓展的微博文本;然后根据拓展的文本生成VSM,对字词文本进行SVD分解,对语义计算后的微博文本进行近似集合,并计算话题热度并进行对应的页面展示;
系统整体框架包括:数据收集、文本预处理、隐藏语义计算、近似集合及热度计算,以及系统展示模块,将收集到的微博文本信息,通过这一系列的处理,最终得到相关的近似集合话题并对其进行热度的打分。
优选地,系统各模块设计:
1.数据收集模块
利用平台的数据接口获取初始数据,提取微博的内容包括初始微博、评论和转发信息、用户信息,使用到的接口包括微博接口,评论接口以及用户接口。
调用API后,数据将以JSON格式返回,在得到对应的数据后,对数据进行处理,并存入本申请的本地数据库中,待后续对其计算。
2.文本预处理模块
对所获取的微博内容及评论进行清洗、过滤和重组,包括文本的选取和清理、文本分词、去掉停用词、词性过滤、评论文本筛选、拓展短文本;
3.隐藏语义计算模块
将文本的分词和频次计量中的热度值较高的文本转化为词与文本矩阵,词频特征矩阵采用文本向量模型来将其模型化,对词和文本矩阵进行分解,将字词间的隐含语义结构提取出来,使得文本向量的维度得以降低;
4.近似集合及话题提取模块
采用本申请改进的协同近似集合算法来实现近似集合,并将时间数据特性纳入到文本相似度计算中,通过层次近似集合算法进行初步的近似集合,找出初始的近似集合中心C以及近似集合数量K,作为K均衡算法的初始因子,按照K均衡算法的步骤完成整个近似集合过程;
5.系统展示
采用B/S架构构建了系统的原型,该系统原型分为数据收集、数据处理、话题提取和热点计算,以及相关系统界面。
与现有技术相比,上述技术方案具有以下创新点和优势:
第一,现有技术的话题提取方法是结合文本内容来进行信息的提取和挖掘,而微博具有特定的结构特征,如用户之间的评论、点赞、转发、互相关注,本申请结合微博的结构特性来优化微博文本的建模,改进文本建模效果,提升话题提取的准确性;现有技术话题提取方法是通过衡量文本中字词间的关联性,通过一定频率的文本重复来判断不同文本的话题相似程度,本申请基于隐藏语义计算对于微博文本进行建模,考虑了不同语境环境下字词的隐藏语义关系,减少文本近似集合中的差错;现有技术话题提取方法对于时间要素的关注度不多,由于微博的时效性相比传统的媒体文章大大加强,最近的微博内容对于当前的热点信息比之前的微博信息更能反应最新的热点,本申请将时间因子体现在文本相似度中,以真实地表达当前的热点问题,提升微博话题提取的准确性、时效性,具有重大意义和巨大实用价值。
第二,微博的数据量呈现高速的增长,每时每刻都会积累海量的微博数据,对于超大量的数据,若直接进行近似集合计算,需要很强的计算能力,同时还无法保证准确度,因为微博上含有大量的信息是无价值的广告、记录琐事,真正有价值的数据还是较少。本申请对微博数据进行进一步地筛选,减少无效的数据,然后再进行近似集合。在算法中结合海量的数据情况,寻找最合适的近似集合算法,提高近似集合速度,让微博话题的提取能够及时地呈现我们所需要的结果,构建了一套微博热点话题的自动提取系统,结合微博特性,优化微博文本的建模,处理实时的海量的微博数据的近似集合,以及热度的打分问题,基于短文本扩充和隐藏语义计算方法进行微博文本的建模,融合K均衡算法和层次近似集合算法实现近似集合,并进行话题热度值的打分,最后在系统中进行了实现,满足在现实中的功能需要。
第三,本申请提出了基于短文本拓展和隐藏语义计算方法的文本建模方法,解决现有技术的文本建模方法进行微博话题提取,存在数据降噪、降维不足、语义丢失的问题,本申请结合了微博的特性提出了短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行了微博文本建模,在不丢失语义的情况下,降低了文本向量的维度;本申请提出了一种协同近似集合方法用于微博话题的提取,并进行了话题热度的打分,将时间数据特性纳入到文本相似度计算中;结合微博文本的特性,提出微博话题热度值计算的影响因素和具体方法,并生成了微博热点话题打分列表,提升微博话题的精准性、时效性,减少话题信息的遗失,实现微博大数据热点话题多维度智能准确提取。
第四,基于微博文本短,数据存在稀疏性,难以直接通过普通文本特征因子进行计算,本申请充分利用微博传播及互动的特点,提出一种基于微博发布及评论特性的短文本扩充方法。解决了现有技术基于向量空间模型的文本建模存在向量空间维度高、语意信息遗失难点,本申请基于隐藏语义计算方法进行微博文本的建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,使文本向量的维度降低。适应海量微博信息的处理需求,提出一种改进的协同近似集合算法,同时结合时间数据来计算相似度,提升微博话题提取的准确性、时效性。构建了微博热点话题自动提取系统,通过对微博转载及传播内容的计算和分析,可高效掌握社会当前舆论态势,对网络舆情有效分析把握。
附图说明
图1是改进的协同近似集合算法的具体流程图。
图2是对象在话题的冷却因子α不同取值条件下的冷却曲线图。
图3是构建微博热点话题多维度智能提取系统框架图。
图4是微博文本预处理模块流程示意图。
图5是微博点话题提取系统用户管理界面示意图。
具体实施方法
为了使本申请的目的、特征优势和创新点能够更为明显易懂和便于实施,下面结合附图对具体实施方式做详细的说明。本领域技术人员可以在不违背本申请内涵时做类似推广,因此本申请不受下面公开的具体实施方式的限制。
随着社交网络化发展及移动互联网技术的不断更新,微博已逐渐成为信息展示及分享的重要平台。微博传播速度快、宣传面广的特点使之成为社会舆论的重要来源和的传播载体。通过对微博转载及传播内容的计算和分析,可高效掌握社会当前舆论态势,对网络舆情有效分析把握。然而微博与博客、新闻等其他媒介相比,具有内容精短、数据稀疏、全民参与、数据量特别大等多重特点,这也使得采用传统方式对微博信息的提取分析比较困难。
针对这些问题,本申请提出基于微博海量数据的热点话题提取方法,基于短文本扩充与隐藏语义计算方法的文本建模,并基于协同近似集合和热度打分对微博热点话题进行自动提取,同时构建对应的自动提取系统。
(1)基于微博文本短,数据存在稀疏性,难以直接通过普通文本特征因子进行计算,因此本申请充分利用微博传播及互动的特点,提出一种基于微博发布及评论特性的短文本扩充方法。
(2)为了解决以往研究中常用的基于向量空间模型的文本建模存在向量空间维度高、语意信息遗失难点,本申请基于隐藏语义计算方法进行微博文本的建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,使文本向量的维度降低。
(3)为了适应海量微博信息的处理需求,结层次近似集合和K均衡近似集合方法,提出一种改进的协同近似集合算法,同时结合时间数据来计算相似度。该方法可以对建模后的微博信息进行层次近似集合,然后通过K均衡近似集合确定初始近似集合中心和近似集合个数,还结合了热点话题的时间性维度,从而能够提升微博话题提取的准确性、时效性。
(4)构建微博热点话题自动提取系统,对本申请提出的文本模型化表示方法所构建的基于短文本扩充方法、隐藏语义计算方法的文本建模,以及综合了协同近似集合和热度打分的热点提取方法进行了实验检验,验证了本申请构建的模型的有效性,可以提升微博话题的精准性、时效性,减少话题信息的遗失,满足在现实中的功能需要。
一、联合短文本扩充与隐藏语义计算的微博文本建模
微博信息往往非常简短,但经过相关评论转发之后,却可以表达很多的信息。现有技术的话题提取方法对于长篇的新闻报道、评论文章较合适,但对于微博的短文本现象若直接套用,会存在数据降噪、降维不足问题,对于文本信息的提取也容易丢失语义,本申请通过短文本扩充和隐藏语义计算方法来解决此问题。
(一)微博的短文本扩充
微博内容往往是用户及其粉丝对某些话题的互动和讨论,用户可以对某些事件或问题发表一条微博,他的关注好友可以对该微博内容进行回复评论,或转发后其他用户进行回复评论。这样一种结构通过提取相关的回复评论来拓展原有文本,使其信息量更加丰富,这可以更广泛的分析初始话题的内涵,而不会额外引入不相关的话题,重点放在通过用户评论回复构成的文本上。
1.基于叙词的微博评论处理
微博内容的回复增加微博长度,拓展微博的内容。然而,由于微博用户数量庞大,存在一些无意义的转发和评论,如营销账号、水军、僵尸用户可能在短时间内,大量回复某些话题,甚至某些机器人账户,通常只回复一些不相干的内容或者简短的点赞、支持话语。还有简单的回复“赞、支持、顶”字词或者表情符号,虽表达用户态度,但若去掉不影响微博的内涵。这些评论都会对话题提取质量产生影响,降低话题提取的效率和精准度,因而需要针对这些无意义的问题构建合理的规则对评论进行处理。
(1)删除长度不足的回复评论,此处设定一定的临界值长度Length,在微博数据提取中去掉内容短于Length的回复评论;
(2)对于微博的内容进行数据的清洗和预处理,包括剔除停用词、表情符号、用户账户、网址链接,对微博内容进行中文分词处理;
(3)删除与初始微博内容不相关的评论,将回复评论的微博集合中,抽取叙词与初始微博相近的评论,对于本条规则的执行,具体过程如下:
过程1:将原微博的叙词簇作为初始簇;
过程2:从原微博的评论中按时间顺序读取一条;
过程3:将抽取的评论中的词与初始簇计算空间距离;
过程4:把评论与初始簇计算归一化的空间距离值相加求和;如果结果小于设定的临界值,则添加至有用评论列表,如果不是,则剔除;
再次执行过程3和过程4,直至所有回复评论处理完成,得到原微博对应的有效的评论列表。
在计算评论与初始微博的空间距离时,涉及文本近似度的计算,计算词a、b的近似概率:
P(a|b)是在b出现的情况下,a出现的概率,它于a与b同时出现的概率除以b出现的概率,计算词与叙词簇的相关性,令词w与簇C之间的距离取max{P(ci|ω)ci∈C}的倒数,具体方法如下:
如果ci在簇C中,则ci在包含w的文本中出现的概率大,词w至簇C的空间距离短,将词w加进簇C;否则,词w离簇C的空间距离大,则词w不加入簇C。
2.重组讨论图谱树扩充微博文本
为提升语义计算效率,降低文本存储空间,对微博信息在文本建模前进一步过滤、筛选、组合,以便满足后续文本建模和相似度计算。初始的微博由用户发表后,其关注对象可能会进行评论、转发,后续用户在此基础上进一步评论、转发,形成关于该话题的讨论图谱树状结构,随着传播越来越广,同话题的相关原创微博越来越多,相关讨论逐渐延伸、拓展,形成更大范围内的热点话题。
在微博的讨论图谱树里,对微博内容进行重组拓展形成微博的长文本,包括两种情形:一是连续转发的微博,对于感兴趣的微博内容,有微博粉丝之间的层层连续转发,即用户对于某条微博信息希望引起其他人的关注、希望分享给其他人,在微博系统中,转发博文采用<RT>来标记;二是在回复中评论对话,同一条热门微博下面,会有不少的回复和相互评论的内容,该方式下有不少的人参与到某一个微博或对该微博的评论中,交谈时会指向标签@微博博主。
微博文本信息提取结合微博的呈现方式,将初始微博下的所有连续转发、评论回复重组,作为该微博内容的拓展,以此来进行话题的提取和计算,在重组之前,将已收集的数据集Set<Blog>按时间先后进行打分得到SortedSet<Blog>,然后将其作为算法的输入,通过算法处理,将其转化为多个文本构成的集合,且已重组重复信息。
(1)重组连续转发微博
使用页面上的标记来筛选Set<Blog>信息,如果微博是初始微博信息或包含<RT>的转发标记时,此类微博信息加入到SortedSet<Blog>中,对于原创微博的HashValue当作textMap的键,将重组后的TextSet<Blog>加到对应位置上,按照算法重组完成后,textMap里的值都是重组重复信息的文本集。
结合上述方法的结果,理解最终得到的文本集包含的范围,即没有被转发过的初始微博,和连续转发的重复微博内容,处理完成后标记为yeD,作为初始输入的集合,并进行下一步的处理。
(2)对话与评论的多微博重组
通过重组连续转发微博算法处理后,剩下的文本集yeD中,是带有指标标签@的微博信息,将对话与评论的多微博重组,构建各自的对话树结构,核心是微博发表的时间次序以及指向标签@对应的微博信息传递关系。
先对上一步构成的yeD中微博信息依据其发布时间先后进行次序排列,然后查询整个yeD,对于不包含@指向符合的微博,将其作为Root结点构建一颗对话树,并把新建的树加入到discussTreeSet中;对于转发和评论的微博,则搜寻discussTreeSet,直至:①某条该树结点中微博的发布人是该微博所指向的人;②符合条件①的所有结点中两条微博发布时间差最小,然后将当前微博信息作为其子结点信息加入原对话树中。
通过对话与评论的多微博重组算法处理后,yeD中的微博信息都被重组至对话树中,剔除只有Root结点或者是树的高度非常低的对话树,即评论或者转发非常少的微博信息,将同一对话树结构的微博信息根据发布时间的先后次序重组为一个文本,得到有意义的长文本信息。
(二)基于隐藏语义计算的微博文本建模
微博短文本高维度、语义相关给近似集合带来困难,本申请基于一种隐藏语义计算方法,降低特征空间维度,同时表达文本背后语义信息不损失,以此对微博文本建模。
通过大量的文本计算,构造文本-字词矩阵,然后提取字词和文本的隐藏语义结构,具体步骤如下:
对Amxn进行分解后,得到Amx的近似矩阵Ak,此处K<<min(m,n),实现文本向量的降维,分解过程如下:
(2)假设存在矩阵A的分解:A=U∑VT,U和V正交,∑是对角矩阵,得到:AAAT=U∑∑TUT和ATA=V∑T∑VT,∑∑T和∑T∑对角,U和V分别覆盖AAT和ATA的特征向量;
对收集到微博文本信息,采用隐藏语义计算方法建模如下:
tfij代表字词在文本j中出现的频率,N代表文本总量,ni代表含有词i的文本数量,微博文本简短,一个词只在很少的博文中出现,Amxn是稀疏矩阵,且是高维度。
(2)得到字词与文本的共生矩阵Amxn后,在不损失原文本语义关系的基础上,依据k<<min(m,n)选定k维语义空间,采用低维度的字词和文本向量来表达原空间向量,对海量的文本集的处理速度提高,在具体处理过程中,分解采用SVDLIBC法,获得Amxn的近似矩阵Ak。
二、基于协同近似集合和热度打分的微博热点话题提取
用户每天都会发布大量的微博条文,产生了海量的信息数据,如何及时处理这些海量的微博数据以提取出所需的热点话题面临较大的难度。
(一)微博文本的协同近似集合
1.改进的协同近似集合算法
先通过层次近似集合算法对数据进行初步近似集合,找出初始的近似集合中心C以及初始的近似集合数量K,将近似集合中心和近似集合数量作为K均衡算法的初始输入因子,按照K均衡算法的步骤完成整个近似集合过程,其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法。
包括两个步骤,首先通过层次近似集合找出初始近似集合中心C和初始近似集合簇数K;然后将结果作为K均衡算法的输入因子,按照K均衡算法的流程进行近似集合。如图1所示。
改进的协同近似集合算法的具体过程如下:
步骤一:通过层次近似集合算法找出初始近似集合中心C和初始近似集合簇数K:
(2)求n个数据点的相互距离,将距离最近的数据点两两实现部分地近似集合;其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;
(3)通过随机抽样来剔除部分孤立点:在近似集合接近完成时剔除小于设定临界值的簇以及在近似集合过程中类簇聚集速度低于设定的临界值的簇;
(4)对于上步中得到两两数据之间求中心点,即得到新的簇中心,采用Fi=(ni,mi),(i=1,2,Λ,k)来代表;
(5)迭代执行(2)、(3)、(4)步,并计算各层类簇的目标函数值Q(c),选择使Q(c)值最小的层,该值越小则意味着近似集合数K的大小越准确;
(6)计算Fi(i=1,2,Λ,k)中样本数据的均值,作为后续K均衡算法的初始中心Ci(i=1,2,Λ,k);
步骤二:将初始近似集合中心C和初始近似集合簇数K作为K均衡算法的因子,并实现近似集合:
(7)对矩阵A中的所有数据进行判断,是否在步骤一已经进行过近似集合处理,若是则不再进行处理,若尚未处理过,则对该数据点,求所有的簇中心的距离,并按照最小距离原则将其划分至对应的簇中去;
(8)重新对簇的数量、均衡、近似集合特征进行求值,并更新;
(9)迭代执行(7)、(8)步,直到每个类簇不再更新为止,即分类结果达到稳定。
2.联合时间数据的文本相似度计算
在近似集合过程中,文本内容的近似度计算是近似集合的重要步骤。由于微博的更新速度非常快,人们的关注焦点往往转换也非常快,一个话题可能从产生到不再受人关注仅仅需要短短一两天甚至只有仅仅几小时。因此,在微博的热点话题提取中,必须将时间要素作为重要的考量。因此,本申请采用一种联合时间要素的文本相似度算法,将时间因子加入文本相似度的计算中,具体方法如下:
其中Sl、S2是隐藏语义计算方法的文本向量表示S1={s1_1,s1_2,…,s1_n}、S2={s2_1,s2_2,…,s2_n},T(S1)和T(S2)分别代表语义文本的微博发表的时间(精确到秒),如果二者相隔越远,则近似度相对越低。
(二)微博话题热度的计算
1.微博话题热度影响因素评分
话题簇由微博文本近似集合后得到,话题簇内的博文的数量只是体现话题热度的部分体现,可能本身该领域的关注人数就较多。对于话题是否是热门话题,是否有广泛的传播,是否得到很多人的参与,是否在短期内受到广泛关注,从以下三个方面进行判断:
(1)话题参与量:微博上的热门话题,必然是吸引了大量用户参与的话题,由很多人对该问题进行关注、评论,因此通过话题的参与人数、相关的原创博文量、转发和评论量,包括博文经多次转发和多次评论的相关数量。
(2)参与的用户群体:某博文由粉丝上百万的大V发布,和由粉丝几百的普通用户发布,其影响力完全不一样,相关热度也完全不一样,微博上有一些公众人物、明星、官方微博、草根大V,由于具有很多关注度,由他们参与讨论的话题容易在短期内受到其他用户的关注和参与,从而形成讨论的热点。
(3)话题形成的时间:微博上的热点话题形成速度快,但也很容易消失的快,因为总是有新的热点问题产生从而吸引人们的注意力,最近的讨论更容易被认为是当前最新的热点,而对发布时间稍早的话题则相关的关注度很容易迅速消散。
因此,本申请对微博话题热度的衡量,基于以下要素评分:
评分1,用户的影响力:微博用户影响力通过其粉丝数量和是否是某一领域的专家来判断;
评分2,评论数:微博用户看到某博文,如果对其有兴趣,则容易在该博文下评论;该博文如果是很多人都会关注的话题,则会吸引很多人的参与评论;
评分3,转发数:人们对于感兴趣的博文,除评论之外,还可能转发,以便自己的粉丝也能够看到,尤其是某些话题,若有权威人士转发,更容易获得其他大量用户的转发、评论,从而在短期内迅速形成人们关注的热点;
评分4,时间特性:即使两个话题的评论、转发数量差不多,但若一个是在短短几小时内达到这个量,而另外一个则是在长达一周的时间内才达到的这个量,则前者更容易被认为是热点的话题,博文的时间特性考虑在对微博话题热度的评价中。
2.微博话题热度值的计算
话题热度值的计算考虑用户的影响力、博文评论数、转发数、发表时间几个要素,构建如下的热度值计算方法:
其中,λ、μ与η为权重因子,且λ+μ+η=1,Hauthor(i)代表用户的影响力大小,将其定义如下:
Hauthor(i)=ζ×Fllowers 式7
式中,Fllowers代表对该用户的关注粉丝量,ζ是权威因子,根据用户是否为相关领域的权威人士来确定值;R(i)代表博文i的转发量;C(i)代表原博文i下的评论条数;Hauthor(j)、c(j)分别指原微博i的第j条转发微博的影响力和评论次数。
根据以上方法算出单条微博信息的热度值后,将时间要素纳入话题的热度计算,即当某条微博信息发出后,对该话题热度的影响伴随着时间的延长,越来越低,本申请基于牛顿冷却定律对于微博的热度按照此规则进行冷却,冷却方法如下:
f′=-α(f(t)-D) 式8
f(t)是当前对象温度以时间t为变量的函数,其导数为f′,D代表环境温度,f(t)-D代表当前对象温度与环境温度间的差异度,参数α(α>0),-α代表降温,视为冷却快慢程度的参数值,对该式求积分,则将其转化为:
式中f0代表初始温度,t-t0为时间间隔,得到微博话题热度的最终式如下:
式中,H(topicSet,t)代表话题在t时刻的热度,t是计算时采用的当前时间,n代表该话题下的博文数目,ti为博文的发表时间,Hi是博文i的初始热度(不带时间因子),本申请暂取值0.10。图2反应对象在话题的冷却因子α不同取值条件下的冷却曲线图。
三、构建微博热点话题多维度智能提取系统
(一)系统整体架构设计
从数据收集到文本分词处理,根据词性进行过滤、对于评论文本进行筛选,重组评论信息得到拓展的微博文本;然后根据拓展的文本生成VSM,对字词文本进行SVD分解,对语义计算后的微博文本进行近似集合,并计算话题热度并进行对应的页面展示。
图3是系统整体框架设计图。包括:数据收集、文本预处理、隐藏语义计算、近似集合及热度计算,以及系统展示模块,将收集到的微博文本信息,通过这一系列的处理,最终得到相关的近似集合话题并对其进行热度的打分。
(二)系统各模块设计
1.数据收集模块
利用平台的数据接口获取初始数据,提取微博的内容包括初始微博、评论和转发信息、用户信息,使用到的接口包括微博接口,评论接口以及用户接口。
调用API后,数据将以JSON格式返回,在得到对应的数据后,对数据进行处理,并存入本申请的本地数据库中,待后续对其计算。
2.文本预处理模块
对所获取的微博内容及评论进行清洗、过滤和重组,包括文本的选取和清理、文本分词、去掉停用词、词性过滤、评论文本筛选、拓展短文本,如图4所示。
(1)微博文本的选取及清洗
关注度很低的微博对于热点话题不产生价值,利用本申请方法计算微博的显式热度,当热度值小于一定临界值的微博丢弃不处理,这样的冷门微博可以在初步判断中即予以放弃,并不会对热点话题的挖掘带来实质影响,而对后续近似集合工作的效率和准确性提升有积极的帮助,另外,还需要对微博文本进行清洗,先将不符合要求的用户账户、表情符号和网址链接删除,剔除这些内容之后,如果微博文本的字数过短,且评论转发数量低于临界值的微博,也剔除不用。
(2)文本分词、去停用词及词性过滤
将无意义的内容去掉,承载微博文本重要的信息留下,采用分词系统ICTCLAS对微博文本进行处理,为了去掉无意义的字词,减少系统不必要的资源消耗,同时也提升近似集合的质量,通过中文分词后,得到对应的词性标注,此时去掉其他无意义的词,包括标点符号、助词、介词、叹词,保留名词和动词,保留微博的含义。
(3)筛选并进行微博文本拓展
获取微博文本词簇,包括初始的博文和相关评论列表,对微博短文本扩充的方法,对微博文本词簇进行处理,重组得到微博文本的讨论数,以便后续计算建模。
3.隐藏语义计算模块
将文本的分词和频次计量中的热度值较高的文本转化为词与文本矩阵,词频特征矩阵采用文本向量模型来将其模型化,对词和文本矩阵进行分解,将字词间的隐含语义结构提取出来,使得文本向量的维度得以降低。
4.近似集合及话题提取模块
采用本申请改进的协同近似集合算法来实现近似集合,并将时间数据特性纳入到文本相似度计算中,通过层次近似集合算法进行初步的近似集合,找出初始的近似集合中心C以及近似集合数量K,作为K均衡算法的初始因子,按照K均衡算法的步骤完成整个近似集合过程。
本申请还需要对筛选出热点话题并进行打分,近似集合结果既形成了一个个的话题簇,同时也视为特征词的集合,此处采用本申请话题热度值的计算方法,结合用户的影响力、博文评论数、转发数、发表时间要素,计算出话题热度值后打分得到靠前的话题簇,即为当前最热门的话题。
在最终的话题簇中,找出与近似集合结果最接近的初始微博,找出其中长度低于某个设定值的初始博文,作为话题的最终展现形式。
5.系统展示
采用B/S架构构建了系统的原型,该系统原型分为数据收集、数据处理、话题提取和热点计算,以及相关的系统界面。其功能界面如图5。
Claims (10)
1.微博大数据热点话题多维度智能提取系统,其特征在于,利用微博传播及互动特点,构建基于微博海量数据的热点话题提取模型,基于短文本扩充与隐藏语义计算方法的文本建模,并基于协同近似集合和热度打分对微博热点话题进行自动提取,构建对应的自动提取系统;
S1,联合短文本扩充与隐藏语义计算的微博文本建模:结合微博特性提出短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行微博文本建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,在不丢失语义的情况下,降低文本向量的维度;
S2,基于协同近似集合和热度打分的微博热点话题提取,包括:改进的协同近似集合算法、联合时间数据的文本相似度计算、微博话题热度影响因素评分、微博话题热度值的计算;融合层次近似集合和K均衡算法并进行改进,并将时间数据特性纳入到文本相似度计算中;结合微博文本的特性引入话题热度值计算的影响因素和实现方法,并生成微博热点话题打分列表;
S3,构建微博热点话题多维度智能提取系统,对文本模型化表示方法所构建的基于短文本扩充方法、隐藏语义计算方法的文本建模,综合协同近似集合和热度打分的热点提取方法提升提取精准性、时效性,减少话题信息遗失,实现对微博热点话题的自动提取和打分展示。
2.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,基于叙词的微博评论处理:
(1)删除长度不足的回复评论,此处设定一定的临界值长度Length,在微博数据提取中去掉内容短于Length的回复评论;
(2)对于微博的内容进行数据的清洗和预处理,包括剔除停用词、表情符号、用户账户、网址链接,对微博内容进行中文分词处理;
(3)删除与初始微博内容不相关的评论,将回复评论的微博集合中,抽取叙词与初始微博相近的评论,对于本条规则的执行,具体过程如下:
过程1:将原微博的叙词簇作为初始簇;
过程2:从原微博的评论中按时间顺序读取一条;
过程3:将抽取的评论中的词与初始簇计算空间距离;
过程4:把评论与初始簇计算归一化的空间距离值相加求和;如果结果小于设定的临界值,则添加至有用评论列表,如果不是,则剔除;
再次执行过程3和过程4,直至所有回复评论处理完成,得到原微博对应的有效的评论列表;
在计算评论与初始微博的空间距离时,涉及文本近似度的计算,计算词a、b的近似概率:
P(a|b)是在b出现的情况下,a出现的概率,它于a与b同时出现的概率除以b出现的概率,计算词与叙词簇的相关性,令词w与簇C之间的距离取max{P(ci|ω)ci∈C}的倒数,具体方法如下:
如果ci在簇C中,则ci在包含w的文本中出现的概率大,词w至簇C的空间距离短,将词w加进簇C;否则,词w离簇C的空间距离大,则词w不加入簇C。
3.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,重组讨论图谱树扩充微博文本:在微博的讨论图谱树里,对微博内容进行重组拓展形成微博的长文本,包括两种情形:一是连续转发的微博,转发博文采用<RT>来标记;二是在回复中评论对话,交谈时会指向标签@微博博主;
微博文本信息提取结合微博的呈现方式,将初始微博下的所有连续转发、评论回复重组,作为该微博内容的拓展,以此来进行话题的提取和计算,在重组之前,将已收集的数据集Set<Blog>按时间先后进行打分得到SortedSet<Blog>,然后将其作为算法的输入,通过算法处理,将其转化为多个文本构成的集合,且已重组重复信息;
(1)重组连续转发微博
使用页面上的标记来筛选Set<Blog>信息,如果微博是初始微博信息或包含<RT>的转发标记时,此类微博信息加入到SortedSet<Blog>中,对于原创微博的HashValue当作textMap的键,将重组后的TextSet<Blog>加到对应位置上,按照算法重组完成后,textMap里的值都是重组重复信息的文本集;
理解最终得到的文本集包含的范围,即没有被转发过的初始微博,和连续转发的重复微博内容,处理完成后标记为yeD,作为初始输入的集合,并进行下一步的处理;
(2)对话与评论的多微博重组
通过重组连续转发微博算法处理后,剩下的文本集yeD中,是带有指标标签@的微博信息,将对话与评论的多微博重组,构建各自的对话树结构,核心是微博发表的时间次序以及指向标签@对应的微博信息传递关系;
先对上一步构成的yeD中微博信息依据其发布时间先后进行次序排列,然后查询整个yeD,对于不包含@指向符合的微博,将其作为Root结点构建一颗对话树,并把新建的树加入到discussTreeSet中;对于转发和评论的微博,则搜寻discussTreeSet,直至:①某条该树结点中微博的发布人是该微博所指向的人;②符合条件①的所有结点中两条微博发布时间差最小,然后将当前微博信息作为其子结点信息加入原对话树中;
通过对话与评论的多微博重组算法处理后,yeD中的微博信息都被重组至对话树中,剔除只有Root结点或者是树的高度非常低的对话树,即评论或者转发非常少的微博信息,将同一对话树结构的微博信息根据发布时间的先后次序重组为一个文本,得到有意义的长文本信息。
4.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,基于隐藏语义计算的微博文本建模:通过大量的文本计算,构造文本-字词矩阵,然后提取字词和文本的隐藏语义结构,具体步骤如下:
对Amxn进行分解后,得到Amx的近似矩阵Ak,此处K<<min(m,n),实现文本向量的降维,分解过程如下:
(2)假设存在矩阵A的分解:A=U∑VT,U和V正交,∑是对角矩阵,得到:AAAT=U∑∑TUT和ATA=V∑T∑VT,∑∑T和∑T∑对角,U和V分别覆盖AAT和ATA的特征向量;
对收集到微博文本信息,采用隐藏语义计算方法建模如下:
tfij代表字词在文本j中出现的频率,N代表文本总量,ni代表含有词i的文本数量,微博文本简短,一个词只在很少的博文中出现,Amxn是稀疏矩阵,且是高维度;
(2)得到字词与文本的共生矩阵Amxn后,在不损失原文本语义关系的基础上,依据k<<min(m,n)选定k维语义空间,采用低维度的字词和文本向量来表达原空间向量,对海量的文本集的处理速度提高,在具体处理过程中,分解采用SVDLIBC法,获得Amxn的近似矩阵Ak。
5.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,改进的协同近似集合算法:先通过层次近似集合算法对数据进行初步近似集合,找出初始的近似集合中心C以及初始的近似集合数量K,将近似集合中心和近似集合数量作为K均衡算法的初始输入因子,按照K均衡算法的步骤完成整个近似集合过程,其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;
包括两个步骤,首先通过层次近似集合找出初始近似集合中心C和初始近似集合簇数K;然后将结果作为K均衡算法的输入因子,按照K均衡算法的流程进行近似集合;
改进的协同近似集合算法的具体过程如下:
步骤一:通过层次近似集合算法找出初始近似集合中心C和初始近似集合簇数K:
(2)求n个数据点的相互距离,将距离最近的数据点两两实现部分地近似集合;其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;
(3)通过随机抽样来剔除部分孤立点:在近似集合接近完成时剔除小于设定临界值的簇以及在近似集合过程中类簇聚集速度低于设定的临界值的簇;
(4)对于上步中得到两两数据之间求中心点,即得到新的簇中心,采用Fi=(ni,mi),(i=1,2,Λ,k)来代表;
(5)迭代执行(2)、(3)、(4)步,并计算各层类簇的目标函数值Q(c),选择使Q(c)值最小的层,该值越小则意味着近似集合数K的大小越准确;
(6)计算Fi(i=1,2,Λ,k)中样本数据的均值,作为后续K均衡算法的初始中心Ci(i=1,2,Λ,k);
步骤二:将初始近似集合中心C和初始近似集合簇数K作为K均衡算法的因子,并实现近似集合:
(7)对矩阵A中的所有数据进行判断,是否在步骤一已经进行过近似集合处理,若是则不再进行处理,若尚未处理过,则对该数据点,求所有的簇中心的距离,并按照最小距离原则将其划分至对应的簇中去;
(8)重新对簇的数量、均衡、近似集合特征进行求值,并更新;
(9)迭代执行(7)、(8)步,直到每个类簇不再更新为止,即分类结果达到稳定。
7.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,微博话题热度影响因素评分:对微博话题热度的衡量,基于以下要素评分:
评分1,用户的影响力:微博用户影响力通过其粉丝数量和是否是某一领域的专家来判断;
评分2,评论数:博文如果是很多人都会关注的话题,则会吸引很多人的参与评论;
评分3,转发数;
评分4,时间特性,博文的时间特性考虑在对微博话题热度的评价中。
8.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,微博话题热度值的计算:话题热度值的计算考虑用户的影响力、博文评论数、转发数、发表时间几个要素,构建如下的热度值计算方法:
其中,λ、μ与η为权重因子,且λ+μ+η=1,Hauthor(i)代表用户的影响力大小,将其定义如下:
Hauthor(i)=ζ×Fllowers 式7
式中,Fllowers代表对该用户的关注粉丝量,ζ是权威因子,根据用户是否为相关领域的权威人士来确定值;R(i)代表博文i的转发量;C(i)代表原博文i下的评论条数;Hauthor(j)、c(j)分别指原微博i的第j条转发微博的影响力和评论次数;
根据以上方法算出单条微博信息的热度值后,将时间要素纳入话题的热度计算,即当某条微博信息发出后,对该话题热度的影响伴随着时间的延长,越来越低,本申请基于牛顿冷却定律对于微博的热度按照此规则进行冷却,冷却方法如下:
f′=-α(f(t)-D) 式8
f(t)是当前对象温度以时间t为变量的函数,其导数为f’,D代表环境温度,f(t)-D代表当前对象温度与环境温度间的差异度,参数α(α>0),-α代表降温,视为冷却快慢程度的参数值,对该式求积分,则将其转化为:
式中f0代表初始温度,t-t0为时间间隔,得到微博话题热度的最终式如下:
式中,H(topicSet,t)代表话题在t时刻的热度,t是计算时采用的当前时间,n代表该话题下的博文数目,ti为博文的发表时间,Hi是博文i的初始热度。
9.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,构建微博热点话题多维度智能提取系统整体架构设计:从数据收集到文本分词处理,根据词性进行过滤、对于评论文本进行筛选,重组评论信息得到拓展的微博文本;然后根据拓展的文本生成VSM,对字词文本进行SVD分解,对语义计算后的微博文本进行近似集合,并计算话题热度并进行对应的页面展示;
系统整体框架包括:数据收集、文本预处理、隐藏语义计算、近似集合及热度计算,以及系统展示模块,将收集到的微博文本信息,通过这一系列的处理,最终得到相关的近似集合话题并对其进行热度的打分。
10.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,系统各模块设计:
1.数据收集模块
利用平台的数据接口获取初始数据,提取微博的内容包括初始微博、评论和转发信息、用户信息,使用到的接口包括微博接口,评论接口以及用户接口;
调用API后,数据将以JSON格式返回,在得到对应的数据后,对数据进行处理,并存入本申请的本地数据库中,待后续对其计算;
2.文本预处理模块
对所获取的微博内容及评论进行清洗、过滤和重组,包括文本的选取和清理、文本分词、去掉停用词、词性过滤、评论文本筛选、拓展短文本;
3.隐藏语义计算模块
将文本的分词和频次计量中的热度值较高的文本转化为词与文本矩阵,词频特征矩阵采用文本向量模型来将其模型化,对词和文本矩阵进行分解,将字词间的隐含语义结构提取出来,使得文本向量的维度得以降低;
4.近似集合及话题提取模块
采用本申请改进的协同近似集合算法来实现近似集合,并将时间数据特性纳入到文本相似度计算中,通过层次近似集合算法进行初步的近似集合,找出初始的近似集合中心C以及近似集合数量K,作为K均衡算法的初始因子,按照K均衡算法的步骤完成整个近似集合过程;
5.系统展示
采用B/S架构构建了系统的原型,该系统原型分为数据收集、数据处理、话题提取和热点计算,以及相关系统界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565183.6A CN114881041A (zh) | 2022-05-24 | 2022-05-24 | 微博大数据热点话题多维度智能提取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565183.6A CN114881041A (zh) | 2022-05-24 | 2022-05-24 | 微博大数据热点话题多维度智能提取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881041A true CN114881041A (zh) | 2022-08-09 |
Family
ID=82677086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210565183.6A Pending CN114881041A (zh) | 2022-05-24 | 2022-05-24 | 微博大数据热点话题多维度智能提取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881041A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329751A (zh) * | 2022-10-17 | 2022-11-11 | 广州数说故事信息科技有限公司 | 针对网络平台发文的关键词提取方法、装置、介质及设备 |
CN116522895A (zh) * | 2023-06-16 | 2023-08-01 | 中国传媒大学 | 一种基于写作风格的文本内容真实性评估方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2434415A2 (en) * | 2010-09-28 | 2012-03-28 | Siemens Corporation | Information relation generation |
CN111460147A (zh) * | 2020-03-24 | 2020-07-28 | 哈尔滨工程大学 | 一种基于语义增强的标题短文本分类方法 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
-
2022
- 2022-05-24 CN CN202210565183.6A patent/CN114881041A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2434415A2 (en) * | 2010-09-28 | 2012-03-28 | Siemens Corporation | Information relation generation |
CN111460147A (zh) * | 2020-03-24 | 2020-07-28 | 哈尔滨工程大学 | 一种基于语义增强的标题短文本分类方法 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
Non-Patent Citations (4)
Title |
---|
XIAOMEI HUANG等: "A survey of context-aware recommendatrion schemes in event-based social networks", 《ELECTRONICS》, vol. 9, no. 10, 27 September 2020 (2020-09-27) * |
彭敏;官宸宇;朱佳晖;谢倩倩;黄佳佳;黄济民;杨绍雄;高望;应称;: "面向社交媒体文本的话题检测与追踪技术研究综述", 武汉大学学报(理学版), no. 03, 9 May 2016 (2016-05-09) * |
路荣;项亮;刘明荣;杨青;: "基于隐主题分析和文本聚类的微博客中新闻话题的发现", 模式识别与人工智能, no. 03, 15 June 2012 (2012-06-15) * |
马雯雯;魏文晗;邓一贵;: "基于隐含语义分析的微博话题发现方法", 计算机工程与应用, no. 01, 1 January 2014 (2014-01-01) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329751A (zh) * | 2022-10-17 | 2022-11-11 | 广州数说故事信息科技有限公司 | 针对网络平台发文的关键词提取方法、装置、介质及设备 |
CN116522895A (zh) * | 2023-06-16 | 2023-08-01 | 中国传媒大学 | 一种基于写作风格的文本内容真实性评估方法及设备 |
CN116522895B (zh) * | 2023-06-16 | 2023-09-12 | 中国传媒大学 | 一种基于写作风格的文本内容真实性评估方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Sentimental analysis of twitter data with respect to general elections in India | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN107633044B (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
Matsuo et al. | Polyphonet: an advanced social network extraction system from the web | |
CN110807091B (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
CN109101479A (zh) | 一种用于中文语句的聚类方法及装置 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN114881041A (zh) | 微博大数据热点话题多维度智能提取系统 | |
Chianese et al. | Cultural heritage and social pulse: a semantic approach for CH sensitivity discovery in social media data | |
CN112148885B (zh) | 一种基于知识图谱的智能搜索方法及系统 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
lvaro Cuesta et al. | A Framework for massive Twitter data extraction and analysis | |
CN107193867A (zh) | 基于大数据的热点话题分析方法 | |
CN111859065A (zh) | 一种基于大数据的舆情聆听系统 | |
Panasyuk et al. | Extraction of semantic activities from twitter data. | |
CN111125297B (zh) | 一种基于搜索引擎的海量离线文本实时推荐方法 | |
CN111783456A (zh) | 一种利用语义分析技术的舆情分析方法 | |
CN112149422A (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
Jamil et al. | A collaborative names recommendation in the Twitter environment based on location | |
Mullick et al. | Harnessing twitter for answering opinion list queries | |
CN115269771A (zh) | 一种基于语义的大数据分析系统 | |
Varde | Challenging research issues in data mining, databases and information retrieval | |
Bjerva et al. | Rethinking intertextuality through a word-space and social network approach–the case of Cassiodorus | |
Yang et al. | The similar scholar recommendation in Schol@ t |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |