CN112528024A - 一种基于多特征融合的微博突发事件检测方法 - Google Patents

一种基于多特征融合的微博突发事件检测方法 Download PDF

Info

Publication number
CN112528024A
CN112528024A CN202011481477.8A CN202011481477A CN112528024A CN 112528024 A CN112528024 A CN 112528024A CN 202011481477 A CN202011481477 A CN 202011481477A CN 112528024 A CN112528024 A CN 112528024A
Authority
CN
China
Prior art keywords
word
words
microblog
weight
burst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011481477.8A
Other languages
English (en)
Other versions
CN112528024B (zh
Inventor
刘聪
杨静
王勇
曲连威
辛显楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011481477.8A priority Critical patent/CN112528024B/zh
Publication of CN112528024A publication Critical patent/CN112528024A/zh
Application granted granted Critical
Publication of CN112528024B publication Critical patent/CN112528024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多特征融合的微博突发事件检测方法。对数据集进行噪音过滤;进行文本的分词,进行词性筛选,统计词频,得到预处理后的文本;对预处理结果进行突发词提取,结合词语的基础权重、突发权重、词语所受微博影响、用户影响力的计算结果进行加权求和得到词语的突发度,根据突发度进行词语的筛选,选出的词语作为突发词放入突发词集;对突发词集中的词语进行基于词语共现度的相似性计算,根据结果构建相似度矩阵;对相似度矩阵中的词语进行凝聚式层次聚类,根据聚类结果得到突发事件检测结果。本发明提出的突发词提取方法能够提高突发词提取的精准度,进而有效提高突发事件检测的准确率,为网络舆情监控、突发事件处理以及社会安全管理提供良好支撑。

Description

一种基于多特征融合的微博突发事件检测方法
技术领域
本发明属于自然语言处理领域;具体涉及一种基于多特征融合的微博突发事件检测方法。
背景技术
随着互联网技术的飞速增加,微博用户规模也在不断扩大。微博的广泛的交互性使其成为在线社交网络中不可或缺的一部分,微博相比于传统媒体,微博具有庞大的社会群体,有着海量的数据量和资源,在舆论的检测,控制上更具有挑战性,对微博的研究同样更具挑战性。近几年,有关在线社交突发事件正在逐渐受到越来越多的关注,有关突发事件的研究也在与日俱增,本文希望在以上研究的基础上进行深入的研究,为突发事件检测提供一种新方法,减少突发事件产生所带来的危害和影响,这对社会的稳定和发展有着重要的意义。
突发事件检测方法是指将现有的事件信息按照时间进行划分,并对已划分的事件进行预处理和分词,根据一定的方法对具有较高突发特征的特征词进行提取,进行词语之间的相似度,根据相似度进行聚类获取突发事件。
突发事件检测方法因其能够帮助控制舆论的大肆传播、扩大以至于造成不良影响并维持网络环境的稳定成为自然语言处理的一个分支,通过对历史时间窗中的数据进行比较并提取突发词是突发事件检测的重要方式。事件传播过程产生的不确定性、环境依赖性、多样性,与突发事件之间存在相应的联系,通过对数据挖掘等方法有效挖掘文本数据集和突发事件之间蕴含的关联关系具有较高的可行性。
发明内容
本发明提供了一种基于多特征融合的微博突发事件检测方法,该方法能够解决已有突发事件检测方法无法准确定位突发事件的范围问题;同时该方法能够针对数据集的多种特征以及用户特征,提高现有突发事件检测的准确率问题。更好的满足在大量和多种特征的数据背景下对突发事件检测准确率要求等问题。
本发明通过以下技术方案实现:
一种基于多特融合的微博突发事件检测方法,所述检测方法包括以下步骤:
步骤1:对微博数据集进行噪音的过滤和时间窗的划分;
步骤2:对步骤1噪音过滤和时间窗划分的数据,进行面向词语级别的预处理,得到分词且词性筛选过的高可用性的文本数据集和词频数据集;
步骤3:对步骤2中的预处理后的文本数据集进行基于多特征的词语权重的计算,最终根据提取的突发度筛选出面向多特征的词语的突发词集;
步骤4:对步骤3的突发词集进行基于词语共现性的相似度计算,最终根据计算结果构建词语-词语相似度矩阵;
步骤5:对步骤4的相似度矩阵进行面向自底向上的凝聚式层次聚类,最终根据聚类结果匹配原文本得到基于多特征的突发事件。
进一步的,所述步骤1具体为:通过对微博数据集进行基于表情符号、URL链接、互动标签、话题标签等噪音的过滤,将过滤后的数据按照时间特征划分到不同的时间窗内,最终得到噪音过滤和时间窗划分的数据集。
进一步的,所述步骤2具体为,将噪音过滤和时间窗划分的数据进行分词,由于事件的描述主要由名词、动词、形容词等组成,所以进行基于分词词性的筛选,具体包含动词、名词、形容词、数词、量词、代词词性,对进行停用词处理并统计词频,最终得到低噪高可用性的文本数据集和词频数据集。
进一步的,所述步骤3包括以下步骤,
步骤3.1:根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算:
Figure BDA0002835414940000021
其中BW为词语基础权重,pi为词i在当前时间窗中的词频,max(p)为当前时间窗中最大的词频,当该公式基数相当大时,能够保证计算的结果不会趋近于0,进而保证后续的计算不会被0所影响;
Figure BDA0002835414940000022
其中TW为词语的突发权重,pn为当前事件窗内词语i的频率,pi为某个时间窗中词i的频率。
步骤3.2:考虑到微博文本的转发数、点赞数、评论数对词语的突发性会产生影响,通过下列公式进行词语所受微博的影响的计算:
Figure BDA0002835414940000031
其中α,β分别为评论数和转发数的权重比例,com、for、agr分别表示微博文本的评论数,转发数和点赞数,max()表示取最大值sum()表示取均值计算;
步骤3.3:对词语基础权重、突发权重、词语所受微博影响进行加权,通过下列公式进行文本自身属性对词语突发性的影响的计算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW为基础权重,TW为突发权重,WE为词语所受微博影响,α,β为上式权重;
步骤3.4:通过下列公式进行对用户影响力对词语突发性影响的计算:
Figure BDA0002835414940000032
其中α+β+γ=1,这里ave()为含有词语i所对应的微博发布用户的粉丝数、微博数、是否经过大V认证的平均值,max()为当前时间窗中粉丝数、微博数的最大值,当用户经过大V认证其值为1,否则为0.5;
步骤3.5:通过下列公式进行综合权重即突发度的计算:
Final=α*user+(1-α)*Weight
其中α为权重比例。
进一步的,所述步骤4具体为,计算词语之间相似度,相似度取决于两个词语共同出现的概率,使用相对出现相似度进行词语之间共现相似度的计算,当两词之间共现度越大,相似度越大。
通过下列公式进行词语之间的相似度计算:
Figure BDA0002835414940000041
Figure BDA0002835414940000042
Figure BDA0002835414940000043
其中pt是当前时间窗内包含的所有微博文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
进一步的,所述步骤5具体为,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,使用离差交错方法更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为最终结果,根据生成的类簇获取原事件,实现突发事件检测。
本发明的有益效果是:
1.本发明将微博文本特征(点赞数、转发数、评论数)以及用户影响力特征(粉丝数、微博数、是否认证)考虑进来并结合基础权重、突发权重计算词语的突发度,准确定位突发词的范围,以此提高突发词提取的准确度。
2.本发明相对于现有突发事件检测方法,具有较高准确度、高效率等优势;相对于现有的突发词提取算法,引入词语所受微博影响、用户影响以及基于TF-IDF改进的基础权重和突发权重四种特征具有更精准的挖掘突发度的能力,使改进后的算法考虑的因素更全面。
附图说明
附图1是本发明总体流程图。
附图2是本发明基于相对共现度的相似度矩阵图。
附图3是本发明基于离差交错的凝聚式层次聚类图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
主要通过获取突发词的相似度矩阵进行突发事件的检测,采用基于多特征融合的突发词提取算法,通过使用基于改进的TF-IDF计算词语的基础权重和突发权重并结合词语所受微博影响以及用户在微博中的影响力来计算词语的突发度并提取出突发词,使得突发词的定位能够更精准,进而提高突发事件检测的准确度。
一种基于多特征融合的突发事件检测方法,其特征在于,所述突发事件检测方法包括以下步骤:
步骤1:对微博数据集进行噪音的过滤和时间窗的划分;
步骤2:对步骤1噪音过滤和时间窗划分的数据,进行面向词语级别的预处理,得到分词且词性筛选过的低噪高可用性的文本数据集和词频数据集;
步骤3:对步骤2中的预处理后的文本数据集进行基于多特征的词语权重的计算,最终根据提取的突发度筛选出面向多特征的词语的突发词集;
步骤4:对步骤3的突发词集进行基于词语共现性的相似度计算,最终根据计算结果构建词语-词语相似度矩阵;
步骤5:对步骤4的相似度矩阵进行面向自底向上的凝聚式层次聚类,最终根据聚类结果匹配原文本得到基于多特征的突发事件。
进一步的,所述步骤1具体为:通过对微博数据集进行基于表情符号、URL链接、互动标签、话题标签等噪音的过滤,将过滤后的数据按照时间特征划分到不同的时间窗内,最终得到噪音过滤和时间窗划分的数据集。
进一步的,所述步骤2具体为,将噪音过滤和时间窗划分的数据进行分词,由于事件的描述主要由名词、动词、形容词等组成,所以进行基于分词词性的筛选,具体包含动词、名词、形容词、数词、量词、代词词性,对进行停用词处理并统计词频,最终得到低噪高可用性的文本数据集和词频数据集。
进一步的,所述步骤3包括以下步骤,
步骤3.1:根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算:
Figure BDA0002835414940000051
其中BW为词语基础权重,pi为词i在当前时间窗中的词频,max(p)为当前时间窗中最大的词频,当该公式基数相当大时,能够保证计算的结果不会趋近于0,进而保证后续的计算不会被0所影响;
Figure BDA0002835414940000061
其中TW为词语的突发权重,pn为当前事件窗内词语i的频率,pi为某个时间窗中词i的频率。
步骤3.2:考虑到微博文本的转发数、点赞数、评论数对词语的突发性会产生影响,通过下列公式进行词语所受微博的影响的计算:
Figure BDA0002835414940000062
其中α,β分别为评论数和转发数的权重比例,com、for、agr分别表示微博文本的评论数,转发数和点赞数,max()表示取最大值sum()表示取均值计算;
步骤3.3:对词语基础权重、突发权重、词语所受微博影响进行加权,通过下列公式进行文本自身属性对词语突发性的影响的计算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW为基础权重,TW为突发权重,WE为词语所受微博影响,α,β为上式权重;
步骤3.4:通过下列公式进行对用户影响力对词语突发性影响的计算:
Figure BDA0002835414940000063
其中α+β+γ=1,这里ave()为含有词语i所对应的微博发布用户的粉丝数、微博数、是否经过大V认证的平均值,max()为当前时间窗中粉丝数、微博数的最大值,当用户经过大V认证其值为1,否则为0.5;
步骤3.5:通过下列公式进行综合权重即突发度的计算:
Final=α*user+(1-α)*Weight
其中α为权重比例。
进一步的,所述步骤4具体为,计算词语之间相似度,相似度取决于两个词语共同出现的概率,使用相对出现相似度进行词语之间共现相似度的计算,当两词之间共现度越大,相似度越大。
通过下列公式进行词语之间的相似度计算:
Figure BDA0002835414940000071
Figure BDA0002835414940000072
Figure BDA0002835414940000073
其中pt是当前时间窗内包含的所有微博文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
进一步的,所述步骤5具体为,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为最终结果,根据生成的类簇获取原事件,实现突发事件检测。
实施例2
从图1可以看出,采用本发明给出的方法,对已有数据进行噪音过滤和时间窗的划分、数据预处理和词频统计,并基于预处理数据进行突发词提取和相似度矩阵构建,最终实现高准确率,高效率的突发事件的检测方法,首先在已有微博数据集进行去噪和时间窗划分处理,并对数据进行分词、停用词过滤、词性过滤、词频统计等预处理,然后通过基于多特征融合的突发词提取算法进行突发词提取,进而跟据提取的突发词进行基于词语共现度的相似度矩阵构建,最后基于离差交错的凝聚式层次聚类获取突发事件实现突发事件的检测,这与本发明目标一致。
第一步、多元数据集噪音处理
由于微博数据中含有大量的人为造成的无用数据,其中包含一些噪声会影响本发明的检测精度,因此本发明首先对数据进行噪音过滤,去掉无用的URL链接、话题标签、表情符号、互动标签,将过滤后的数据按照时间特征划分到不同的时间窗内,最终得到低噪音的数据集。
第二步、多元数据集的预处理
由于以句子级为单位进行突发事件检测的准确度很低,所以将数据集进行预处理,使用分词工具进行分词,停用词处理,保留词性为动词、名词、形容词、数词、量词、代词的词语,统计文本的词频,构建以词语级为单位的数据集,最终得到低噪高可用性的微博数据集,进而对预处理后的数据集进行突发词提取,以用来实现突发事件的检测。
第三步、基于多特征融合的突发词提取
首先,根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算,由于TF-IDF在高词频的词语上的倾向性,使用一种改进的TF-IDF方法:
Figure BDA0002835414940000081
其中BW为词语基础权重,pi为词i在当前时间窗中的词频,max(p)为当前时间窗中最大的词频,当该公式基数相当大时,能够保证计算的结果不会趋近于0,进而保证后续的计算不会被0所影响;
Figure BDA0002835414940000082
其中TW为词语的突发权重,pn为当前事件窗内词语i的频率,pi为某个时间窗中词i的频率。
其次,考虑到用户行为会对微博的转发数、点赞数、评论数产生影响进而对词语的突发性会产生影响,通过下列公式进行词语所受微博的影响的计算:
Figure BDA0002835414940000083
其中α,β分别为评论数和转发数的权重比例,com、for、agr分别表示微博文本的评论数,转发数和点赞数,max()表示取最大值sum()表示取均值计算;
再次,由于词语基础权重、突发权重、词语所受微博影响都是基于文本自身多种特征的计算,对三者进行加权,通过下列公式进行文本自身属性对词语突发性的影响的计算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW为基础权重,TW为突发权重,WE为词语所受微博影响,α,β为上式权重;
然后,由于微博的转发、点赞、评论等行为和用户有很大的关联,用户作为微博的使用者,同时也是微博服务的主体,在突发事件的研究中扮演着信息传播者的角色,本发明考虑到用户自身特征,通过下列公式进行对用户影响力对词语突发性影响的计算:
Figure BDA0002835414940000091
其中α+β+γ=1,这里ave()为含有词语i所对应的微博发布用户的粉丝数、微博数、是否经过大V认证的平均值,max()为当前时间窗中粉丝数、微博数的最大值,当用户经过大V认证其值为1,否则为0.5;
最终,通过下列公式进行综合权重即突发度的计算:
Final=α*user+(1-α)*Weight
其中α为权重比例。
第四步、基于词语共现度构建相似度矩阵
根据图2显示,相似度取决于两个词语共同出现的概率,当两词之间共现度越大,相似度越大,面对数据量相当大的微博文本时,文本的基数相当大,即使两个词语共同出现的次数虽然在所有词语中共现性较高,当最终除以相当大的基数会造成实际相似性的值较低,本发明采用了一种基于词语相对相似度的计算方法,以词语相互条件概率的均值作为词语的相似度。
通过下列公式进行词语之间的相似度计算:
Figure BDA0002835414940000101
Figure BDA0002835414940000102
Figure BDA0002835414940000103
其中pt是当前时间窗内包含的所有微博文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
第五步、基于离差交错的凝聚式层次聚类算法聚类
根据图3所示,首先将所有词都看成一个个独立的类簇,设定合适的阈值,选择两个满足阈值条件的类簇进行合并,基于离差交错的方法更新新生成的类簇与其他类簇的相似度,遍历剩余类簇重复进行合并,直到所有类簇不满足条件或者仅剩一个类簇,剩下的类簇即为最终结果,根据生成的类簇获取原事件,实现突发事件检测。
本发明不仅能针对数据文本简短、稀疏的特点,结合微博文本现状,设定合适的噪音过滤及预处理规则,最大程度上减小了噪音的影响;相比于传统的突发词提取方法,引入词语所受微博影响、用户影响以及基于TF-IDF改进的基础权重和突发权重四种特征能够准确划定突发词的范围,结合聚类算法准确挖掘出突发事件,对于控制舆论的传播、维护社会的稳定有重要意义。

Claims (6)

1.一种基于多特征融合的微博突发事件检测方法,其特征在于,所述突发事件检测方法包括以下步骤:
步骤1:对微博数据集进行噪音的过滤和时间窗的划分;
步骤2:对步骤1噪音过滤和时间窗划分的数据,进行面向词语级别的预处理,得到分词且词性筛选过的低噪高可用性的文本数据集和词频数据集;
步骤3:对步骤2中的预处理后的文本数据集进行基于多特征的词语权重的计算,最终根据提取的突发度筛选出面向多特征的词语的突发词集;
步骤4:对步骤3的突发词集进行基于词语共现性的相似度计算,最终根据计算结果构建词语-词语相似度矩阵;
步骤5:对步骤4的相似度矩阵进行面向自底向上的凝聚式层次聚类,最终根据聚类结果匹配原文本得到基于多特征的突发事件。
2.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法,其特征在于,所属步骤1具体为:通过对微博数据集进行基于表情符号、URL链接、互动标签、话题标签等噪音的过滤,将过滤后的数据按照时间特征划分到不同的时间窗内,最终得到噪音过滤和时间窗划分的数据集。
3.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法,其特征在于,所述步骤2具体为,将噪音过滤和时间窗划分的数据进行分词,由于事件的描述主要由名词、动词、形容词等组成,所以进行基于分词词性的筛选,具体包含动词、名词、形容词、数词、量词、代词词性,对进行停用词处理并统计词频,最终得到低噪高可用性的文本数据集和词频数据集。
4.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法,其特征在于,所述步骤3包括以下步骤,
步骤3.1:根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算:
Figure FDA0002835414930000011
其中BW为词语基础权重,pi为词i在当前时间窗中的词频,max(p)为当前时间窗中最大的词频,当该公式基数相当大时,能够保证计算的结果不会趋近于0,进而保证后续的计算不会被0所影响;
Figure FDA0002835414930000021
其中TW为词语的突发权重,pn为当前事件窗内词语i的频率,pi为某个时间窗中词i的频率。
步骤3.2:考虑到微博文本的转发数、点赞数、评论数对词语的突发性会产生影响,通过下列公式进行词语所受微博的影响的计算:
Figure FDA0002835414930000022
其中α,β分别为评论数和转发数的权重比例,com、for、agr分别表示微博文本的评论数,转发数和点赞数,max()表示取最大值sum()表示取均值计算;
步骤3.3:对词语基础权重、突发权重、词语所受微博影响进行加权,通过下列公式进行文本自身属性对词语突发性的影响的计算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW为基础权重,TW为突发权重,WE为词语所受微博影响,α,β为上式权重;
步骤3.4:通过下列公式进行对用户影响力对词语突发性影响的计算:
Figure FDA0002835414930000023
其中α+β+γ=1,这里ave()为含有词语i所对应的微博发布用户的粉丝数、微博数、是否经过大V认证的平均值,max()为当前时间窗中粉丝数、微博数的最大值,当用户经过大V认证其值为1,否则为0.5;
步骤3.5:通过下列公式进行综合权重即突发度的计算:
Final=α*user+(1-α)*Weight
其中α为权重比例。
5.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法,其特征在于,所述步骤4具体为,计算词语之间相似度,相似度取决于两个词语共同出现的概率,使用相对出现相似度进行词语之间共现相似度的计算,当两词之间共现度越大,相似度越大。
通过下列公式进行词语之间的相似度计算:
Figure FDA0002835414930000031
Figure FDA0002835414930000032
Figure FDA0002835414930000033
其中pt是当前时间窗内包含的所有微博文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
6.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法,其特征在于,所述步骤5具体为,首先将所有词都看成一个个独立的类簇,将相似度满足初始设定的阈值条件类簇进行合并,离差交错更新类簇相似度,重复进行合并,直到所有类簇均不满足条件为止,剩下的类簇即为最终结果,根据生成的类簇获取原事件,实现突发事件检测。
CN202011481477.8A 2020-12-15 2020-12-15 一种基于多特征融合的微博突发事件检测方法 Active CN112528024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011481477.8A CN112528024B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的微博突发事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011481477.8A CN112528024B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的微博突发事件检测方法

Publications (2)

Publication Number Publication Date
CN112528024A true CN112528024A (zh) 2021-03-19
CN112528024B CN112528024B (zh) 2022-11-18

Family

ID=75000384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011481477.8A Active CN112528024B (zh) 2020-12-15 2020-12-15 一种基于多特征融合的微博突发事件检测方法

Country Status (1)

Country Link
CN (1) CN112528024B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761115A (zh) * 2021-04-08 2021-12-07 北京沃东天骏信息技术有限公司 一种突发事件检测方法、装置、设备及介质
CN113836267A (zh) * 2021-09-24 2021-12-24 国家市场监督管理总局信息中心 一种突发事件检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252025A1 (en) * 2010-04-09 2011-10-13 International Business Machines Corporation System and method for topic initiator detection on the world wide web
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN110543590A (zh) * 2019-01-23 2019-12-06 北京信息科技大学 一种微博突发事件的检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252025A1 (en) * 2010-04-09 2011-10-13 International Business Machines Corporation System and method for topic initiator detection on the world wide web
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN110543590A (zh) * 2019-01-23 2019-12-06 北京信息科技大学 一种微博突发事件的检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHIWEI JIN: "Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs", 《PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
奉国和等: "多测度的突发词探测及验证研究", 《图书情报工作》 *
张玉: "基于微博的突发事件检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王建: "基于多特征融合的微博突发事件检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761115A (zh) * 2021-04-08 2021-12-07 北京沃东天骏信息技术有限公司 一种突发事件检测方法、装置、设备及介质
CN113836267A (zh) * 2021-09-24 2021-12-24 国家市场监督管理总局信息中心 一种突发事件检测方法及装置

Also Published As

Publication number Publication date
CN112528024B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN103914494B (zh) 一种微博用户身份识别方法及系统
Morabia et al. SEDTWik: segmentation-based event detection from tweets using Wikipedia
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN112528024B (zh) 一种基于多特征融合的微博突发事件检测方法
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111694958A (zh) 基于词向量与single-pass融合的微博话题聚类方法
CN113407679B (zh) 文本主题挖掘方法、装置、电子设备及存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN112949713A (zh) 一种基于复杂网络的集成学习的文本情感分类方法
CN112527981A (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN111651559A (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN110134781A (zh) 一种金融文本摘要自动抽取方法
CN109509110B (zh) 基于改进bbtm模型的微博热点话题发现方法
CN113836267A (zh) 一种突发事件检测方法及装置
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
CN116756623A (zh) 一种信息分类方法及系统
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
CN111651598A (zh) 一种通过中心向量相似度匹配的垃圾文本审核装置和方法
CN110457685A (zh) 一种基于机器学习的中文商业文本预处理方法
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
CN114385912A (zh) 一种互联网舆情信息发生地的判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant