CN113836267A - 一种突发事件检测方法及装置 - Google Patents
一种突发事件检测方法及装置 Download PDFInfo
- Publication number
- CN113836267A CN113836267A CN202111120270.2A CN202111120270A CN113836267A CN 113836267 A CN113836267 A CN 113836267A CN 202111120270 A CN202111120270 A CN 202111120270A CN 113836267 A CN113836267 A CN 113836267A
- Authority
- CN
- China
- Prior art keywords
- word
- data set
- burst
- words
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种突发事件检测方法及装置,方法包括:对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,预处理器数据集中包含多个实词词语,词频数据集中包含实词词语的出现次数;基于预处理数据集、词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;对相似度矩阵进行聚类处理,并基于聚类结果确定突发事件。上述实现方案将新闻数据特征与词语自身特征结合来计算突发性,能够有效提高提取突发词的准确度,从而整体上提升突发事件检测结果的准确性。
Description
技术领域
本发明涉及自然语言处理领域,更具体的说,是涉及一种突发事件检测方法及装置。
背景技术
互联网技术飞速发展并日益成熟的今天,互联网已经成为信息传播的主要途径之一。当突发事件发生后,更多的人习惯从互联网获取新闻等相关信息,尤其是通过社交应用、即时通信应用等其他网络平台获取所谓的“事实真相”并进行转发,因此网络对社会舆论具有一定的放大作用。
随着工业技术的不断成熟,越来越多的工业产品被制造出来,极大的改善了人们的日常生活,由于其有着庞大的受用群体,网络上有关工业产品的新闻越来越多,因此对工业产品新闻的舆论检测和控制具有极大的挑战性。
突发事件检测能够合理地控制和引导舆论导向,减少突发事件造成的不必要危害并维持社会的稳定,为舆情应急管理提供决策支持信息。当前的工业产品突发事件检测方法无法准确的划定突发事件的范围,从而存在突发事件检测准确率低的问题。
发明内容
有鉴于此,本发明提供如下技术方案:
一种突发事件检测方法,包括:
对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;
基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;
对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;
对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
可选的,所述对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,包括:
对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据;
对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集。
可选的,所述对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据,包括:
过滤掉新闻数据集中的链接信息和符号内容,并根据所述新闻数据集中包含新闻的发布时间进行时段划分。
可选的,所述对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集,包括:
采用分词工具对每个时段的所述滤噪数据进行分词,得到分词结果;
过滤掉所述分词结果中的虚词、停用词以及少于三个词语的新闻数据。
可选的,所述基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,包括:
基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;
基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;
基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
可选的,所述基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,包括:
对所述实词词语的基础权重、突发权重和关注度加权求和,得到实词词语的突发性;
将突发性高于第一阈值的实词词语确定为突发词。
可选的,所述对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件,包括:
对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果;
基于第二阈值对所述聚类结果进行筛选,并将筛选结果与所述新闻数据集进行匹配,确定匹配成功新闻对应的事件为突发事件。
可选的,所述对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果,包括:
以所述相似度矩阵和所述突发词集作为输入,将所述突发词集中的每个突发词作为初始类簇;
重复执行聚类操作,直至所有类簇中任意两个类簇的相似度不高于第三阈值;
其中,所述聚类操作包括:遍历所有类簇,在两个类簇的相似度高于所述第三阈值的情况下,将所述两个类簇进行合并,得到新的类簇。
一种突发事件检测装置,包括:
第一处理模块,用于对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;
突发性确定模块,用于基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;
矩阵构建模块,用于对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;
聚类处理模块,用于对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
可选的,所述突发性确定模块包括:
权重确定模块,用于基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;
关注度确定模块,用于基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;
突发性确定子模块,用于基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种突发事件检测方法及装置,方法包括:对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。上述实现方案将新闻数据特征与词语自身特征结合来计算突发性,能够有效提高提取突发词的准确度,从而整体上提升突发事件检测结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种突发事件检测方法的流程图;
图2为本申请实施例公开的确定突发词的流程图;
图3为本申请实施例公开的共现相似度矩阵示意图;
图4为本申请实施例公开的确定突发事件的流程图;
图5为本申请实施例公开的凝聚是层次聚类的流程示意图;
图6为本申请实施例公开的突发事件检测方法的流程示意图;
图7为本申请实施例公开的一种突发事件检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例公开的一种突发事件检测方法的流程图,参见图1所示,突发事件检测方法可以包括:
步骤101:对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数。
突发事件检测方法可以理解为:将现有的事件信息按照时间进行划分,并对已划分的事件进行停用词库处理、数据分词、词性筛选等预处理工作,根据一定的方法提取具有较高突发特征的特征词,计算词语之间的相似度,以此进行聚类来获取突发事件。本申请实施例正是基于上述逻辑来进行突发事件的检测。
由于新闻中存在特殊符号以及事件的链接等噪音会影响到突发词提取的准确度进而影响突发事件检测准确度,首先对数据集进行噪音过滤,去掉其中的链接、可能存在的表情符号、特殊符号、标签等无用信息,从最大程度上降低噪音对后续工作的影响。
其中的第一处理可以但不限制为包括降噪、过滤掉无用数据或干扰数据等,对于第一处理的具体实现,将在后面的实施例中详细介绍,在此不再过多说明。
步骤102:基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
本申请实施例中,在确定突发词时不仅基于实词词语自身的特征(可以但不限于包括基础权重和突发权重),同时考虑了事件传播过程中的环境因素(对应前述展示信息)对突发事件检测的影响,根据新闻具备的多种特征,提高现有领域突发事件检测的准确率问题。更好的满足在多元特征和大量数据背景下对突发事件检测准确率要求等问题。
步骤103:对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵。
在确定突发词之后,通过计算突发词之间的共现相似度来确定突发词之间的共现性,从而构建相似度矩阵,为聚类提供依据。
步骤104:对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
具体的,可以对相似度矩阵进行凝聚式层次聚类,得到聚类结果,通过设定合适阈值对结果进行筛选,最终将其与原新闻文本进行匹配得到基于多特征突发事件。
本实施例所述突发事件的检测方法,实施过程中考虑到事件传播过程中的新闻展示信息,结合新闻中实词自身的数据特征来综合确定突发词,具有对突发事件更精准的挖掘能力,有助于提升突发事件检测的准确度。
上述实施例中,所述对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,可以包括:对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据;对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集。
具体的,对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据,可以包括:过滤掉新闻数据集中的链接信息和符号内容,并根据所述新闻数据集中包含新闻的发布时间进行时段划分。当然,对于噪音过滤的对象不限于上述链接信息和符号内容,还可以包括诸如表情动画、非法字符等等。
对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集,可以包括:采用分词工具对每个时段的所述滤噪数据进行分词,得到分词结果;过滤掉所述分词结果中的虚词、停用词以及少于三个词语的新闻数据。
一个实现中,可以首先将新闻数据按照时间以天为单位划分时间窗(对应前述时段),然后对新闻数据进行一个预处理,也即前述第一处理,主要包含:过滤掉新闻中的噪音(表情符号、网址链接、非法字符等),对过滤噪音后的新闻进行分词工作,通过词性筛选筛选出满足突发事件三要素(何时、何地、何事)的词语,再经过停用词处理,得到高可用性的新闻数据,结合本申请后续介绍的方法计算词语的突发性,通过突发性的排序得到较高突发性的词语作为突发词,计算所有突发词之间在当前时间窗中的词语共现度(两个词语共同出现在同一新闻的概率),通过这个共现度来实现词语之间的聚类。
例如:一条新闻如下(已经噪音处理过):“震惊,巴黎圣母院美丽的哥特式塔尖在熊熊火焰中崩塌。还好有石质穹顶的庇护,内部结构、文物损失得没有想象中那么惨烈。17年去的那次,恰逢星期天。希望能够再次听见这圣洁、空灵的歌声”,分词后的结果为:震惊:动词,巴黎:名词,圣母院:名词,美丽:形容词,塔尖:名词,火焰:名词,崩塌:动词,石质:形容词,庇护:动词,结构:名词,文物:名词,损失:名词,想象:动词,惨烈:形容词,希望:动词,能够:动词,听见:动词,圣洁:形容词,空灵:形容词,歌声:名词;通过词性过滤,把数字比如“17”数词给过滤掉了,保留了需要的名词、动词、形容词等词性的词语。如果这些词语存在停用词库中后续会通过停用词处理过滤掉,最终可能得到这样的预处理数据:“震惊巴黎圣母院美丽塔尖火焰崩塌石质庇护结构文物损失想象惨烈希望能够听见圣洁空灵歌声”,通过对待检测时间窗中所有新闻进行突发词提取可能得到“巴黎圣母院美丽塔尖深度解读时间......”等突发词,最后通过聚类得到聚类结果如下:“巴黎-圣母院-塔尖”;通过一个事件匹配可能得到类似的多个新闻作为突发事件:事件1:“震惊,巴黎圣母院美丽的哥特式塔尖在熊熊火焰中崩塌。还好有石质穹顶的庇护,内部结构、文物损失得没有想象中那么惨烈。17年去的那次,恰逢星期天。希望能够再次听见这圣洁、空灵的歌声”、事件2:“当地时间4月15日下午,法国巴黎著名地标巴黎圣母院突然起火,导致著名玫瑰花窗被烧毁,塔尖坍塌,建筑受损严重”等事件。
一个实现中,图2为本申请实施例公开的确定突发词的流程图,结合图2所示,所述基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,可以包括:
步骤201:基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重。
其中,所述突发权重表征实词词语相对于突发事件关联词语的重要性。
由于不同词语在日常使用频率不同,因而具有不同的基础权重,同时词语在不同时间窗词频增长率也不同,导致其突发权重不同。首先,可以根据预处理数据集及其对应的词频数据集进行实词词语基础权重和突发权重的计算:
其中,BaseWeight表示词语基础权重,wordi为词语i在当前时间窗中的词频,max(word)为当前时间窗中最大的词频,公式前面加上0.5,可以保证当max(word)非常大而分子非常小时,使基础权重不会趋近于0,进而减小对后续计算的影响;
其中,OutburstWeight表示词语的突发权重,wordn为当前时间窗内词语i的词频,wordj为过去的某个时间窗中词i的频率,当该公式为正数时表明词语的突发权重,负数表示词语无突发权重。
步骤202:基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种。
由于用户的浏览量、转发量、点赞量、评论量对于词语的突发度会起到加强的作用,通过下列公式进行新闻关注度的计算:
其中win表示某个历史时间窗,avg表示平均,comment为当前时间窗包含词i的新闻文本的评论数,historycomment是历史时间窗中含词i的新闻文本评论总数;forward为当前时间窗包含词i的新闻文本的转发数,historyforward是历史时间窗的含词i的新闻文本转发总数;prize为当前时间窗包含词i的新闻文本的点赞数,historyprize是历史时间窗含词i的新闻文本点赞总数;browse为当前时间窗包含词i的新闻的总浏览量,n为历史时间窗的个数,α,β,χ,δ为权重系数,这些权重系数可以通过多次实验确定,其中,α+β+χ+δ=1。
通过下列公式进行浏览量的计算:
步骤202后,进入步骤203。
步骤203:基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
对实词词语的基础权重、突发权重、实词词语所在新闻的关注度进行加权,通过下列公式进行新闻中突发词语的突发性计算:
Weight=α*BaseWeight+β*OutburstWeight+(1-α-β)*AttentionWeight
其中BaseWeight为基础权重,OutburstWwight为突发权重,AttentionWeight为词语所受新闻影响,α,β为权重比例。
基于以上内容,所述基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,可以包括:对所述实词词语的基础权重、突发权重和关注度加权求和,得到实词词语的突发性;将突发性高于第一阈值的实词词语确定为突发词。
图3为本申请实施例公开的共现相似度矩阵示意图,可结合图3理解下述相关内容。相似度矩阵可以为后续的聚类提供输入,矩阵中存储了突发词集中两两词语之间的共现相似度,共现度由突发词之间的共现性决定,当突发词共现性越高,其共现度越大,因此相似度越大,本申请采用了一种基于词语相对相似度的计算方法,以词语相互条件概率的均值作为突发词的相似度,通过下列公式进行突发词之间的相似度计算:
其中pt是当前时间窗内包含的所有新闻文本,R(wk|wl)表示在wl出现的情况下,wk出现的概率,Pj是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。
图4为本申请实施例公开的确定突发事件的流程图,结合图4所示,上述实施例中,所述对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件,可以包括:
步骤401:对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果。
图5为本申请实施例公开的凝聚是层次聚类的流程示意图,结合图5所示,聚类的过程,可以选取自底向上的凝聚式层次聚类算法,即,首先将所有抽取出来的突发词都看成一个独立的类簇,选定一个合适的阈值并遍历整个类簇随机选择两个满足阈值要求的类簇,将它们进行合并生成新的类簇,直至所有类簇都不满足阈值条件或者仅剩一个类簇,即所有词语都合并到一起。每一次合并都基于离差平方和计算新生成的类簇与其他类簇的相似度。最终将聚类结果产生的每一个类簇作为一个突发事件输出并与新闻相匹配,从而达到突发事件的检测的目的。
由此,所述对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果,可以包括:可以以所述相似度矩阵和所述突发词集作为输入,将所述突发词集中的每个突发词作为初始类簇;重复执行聚类操作,直至所有类簇中任意两个类簇的相似度不高于第三阈值;其中,所述聚类操作包括:遍历所有类簇,在两个类簇的相似度高于所述第三阈值的情况下,将所述两个类簇进行合并,得到新的类簇。
步骤402:基于第二阈值对所述聚类结果进行筛选,并将筛选结果与所述新闻数据集进行匹配,确定匹配成功新闻对应的事件为突发事件。
本申请方案具有对突发事件更精准的挖掘能力;实现过程中考虑到事件传播过程中的点赞数、评论数、转发数以及浏览量对于事件转变成突发事件的促进作用,在上述四种特征的基础上结合TF-IDF(term frequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)改进后的基础权重、突发权重进行突发词提取,全面考虑了突发度的各个影响因素,具有较高准确度。
图6为本申请实施例公开的突发事件检测方法的流程示意图,结合图6所示,首先对已有新闻数据及进行噪音过滤、预处理及本发明提出的突发词提取算法进行突发词提取,并计算词语共现度、构建相似度矩阵及聚类,全面考虑到影响突发度的因素,使得突发事件检测方法具有高准确度。具体的,首先对新闻数据集进行噪音处理、以“天”为单位划分时间窗,对数据进行分词并进行词性过滤、停用词库的处理、新闻词语数量筛选、词频统计等,然后通过基础权重、突发权重及本申请提出的新闻关注度进行突发词提取,以突发词集作为输入进行相似度矩阵的构建,最后使用凝聚式层次聚类算法得到突发事件,实现突发事件检测。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图7为本申请实施例公开的一种突发事件检测装置的结构示意图,参见图7所示,突发事件检测装置70可以包括:
第一处理模块701,用于对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数。
突发性确定模块702,用于基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
矩阵构建模块703,用于对多个突发词组成的突发词集构进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵。
聚类处理模块704,用于对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
本实施例所述突发事件的检测装置,实施过程中考虑到事件传播过程中的新闻展示信息,结合新闻中实词自身的数据特征来综合确定突发词,具有对突发事件更精准的挖掘能力,有助于提升突发事件检测的准确度。
其中,所述突发性确定模块包括:
权重确定模块,用于基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;
关注度确定模块,用于基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;
突发性确定子模块,用于基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
上述突发事件检测装置中各个模块的具体实现以及其他可能的实现方式可参照方法实施例中相应部分的内容介绍,在此不再重复赘述。
上述实施例中的所述的任意一种突发事件检测装置包括处理器和存储器,上述实施例中的第一处理模块、突发性确定模块、矩阵构建模块、聚类处理模块、权重确定模块、关注度确定模块、突发性确定子模块等均作为程序模块存储在存储器中,由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或多个,通过调整内核参数来实现回访数据的处理。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例中所述的突发事件检测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例中所述的突发事件检测方法。
进一步,本实施例提供了一种电子设备,包括处理器以及存储器。其中存储器用于存储所述处理器的可执行指令,所述处理器配置为经由执行所述可执行指令来执行上述实施例中所述的突发事件检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种突发事件检测方法,其特征在于,包括:
对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;
基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;
对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;
对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
2.根据权利要求1所述的突发事件检测方法,其特征在于,所述对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,包括:
对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据;
对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集。
3.根据权利要求2所述的突发事件检测方法,其特征在于,所述对新闻数据集进行噪音过滤和时段划分,得到至少一个时段的滤噪数据,包括:
过滤掉新闻数据集中的链接信息和符号内容,并根据所述新闻数据集中包含新闻的发布时间进行时段划分。
4.根据权利要求2所述的突发事件检测方法,其特征在于,所述对每个时段的所述滤噪数据进行分词处理,并基于第一规则对分词处理得到的词语进行筛选,得到预处理数据集以及对应的词频数据集,包括:
采用分词工具对每个时段的所述滤噪数据进行分词,得到分词结果;
过滤掉所述分词结果中的虚词、停用词以及少于三个词语的新闻数据。
5.根据权利要求1所述的突发事件检测方法,其特征在于,所述基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,包括:
基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;
基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;
基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
6.根据权利要求5所述的突发事件检测方法,其特征在于,所述基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词,包括:
对所述实词词语的基础权重、突发权重和关注度加权求和,得到实词词语的突发性;
将突发性高于第一阈值的实词词语确定为突发词。
7.根据权利要求1所述的突发事件的检测方法,其特征在于,所述对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件,包括:
对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果;
基于第二阈值对所述聚类结果进行筛选,并将筛选结果与所述新闻数据集进行匹配,确定匹配成功新闻对应的事件为突发事件。
8.根据权利要求7所述的突发事件的检测方法,其特征在于,所述对所述相似度矩阵进行凝聚是层次聚类,得到聚类结果,包括:
以所述相似度矩阵和所述突发词集作为输入,将所述突发词集中的每个突发词作为初始类簇;
重复执行聚类操作,直至所有类簇中任意两个类簇的相似度不高于第三阈值;
其中,所述聚类操作包括:遍历所有类簇,在两个类簇的相似度高于所述第三阈值的情况下,将所述两个类簇进行合并,得到新的类簇。
9.一种突发事件检测装置,其特征在于,包括:
第一处理模块,用于对新闻数据集进行第一处理,得到预处理数据集和对应的词频数据集,所述预处理器数据集中包含多个实词词语,所述词频数据集中包含实词词语的出现次数;
突发性确定模块,用于基于所述预处理数据集、所述词频数据集以及实词词语所属新闻的展示信息确定各个实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词;
矩阵构建模块,用于对多个突发词组成的突发词集进行基于词语共现性的相似度计算,构建所述多个突发词之间的相似度矩阵;
聚类处理模块,用于对所述相似度矩阵进行聚类处理,得到聚类结果,并基于所述聚类结果确定突发事件。
10.根据权利要求9所述的突发事件检测装置,其特征在于,所述突发性确定模块包括:
权重确定模块,用于基于所述预处理数据集和所述词频数据集确定所述预处理数据集中每个实词词语的基础权重和突发权重,所述突发权重表征实词词语相对于突发事件关联词语的重要性;
关注度确定模块,用于基于实词词语所属的新闻的展示信息确定该实词词语对应新闻的关注度,所述展示信息至少包括浏览量、转发量、点赞量和评论量中的至少一种;
突发性确定子模块,用于基于实词词语的基础权重、突发权重和关注度确定该实词词语的突发性,并将突发性满足第一条件的实词词语确定为突发词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120270.2A CN113836267A (zh) | 2021-09-24 | 2021-09-24 | 一种突发事件检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111120270.2A CN113836267A (zh) | 2021-09-24 | 2021-09-24 | 一种突发事件检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836267A true CN113836267A (zh) | 2021-12-24 |
Family
ID=78969732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111120270.2A Pending CN113836267A (zh) | 2021-09-24 | 2021-09-24 | 一种突发事件检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836267A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461763A (zh) * | 2022-04-13 | 2022-05-10 | 南京众智维信息科技有限公司 | 一种基于突发词聚类的网络安全事件抽取方法 |
WO2023125589A1 (zh) * | 2021-12-29 | 2023-07-06 | 北京辰安科技股份有限公司 | 突发事件的监测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN111191096A (zh) * | 2019-12-06 | 2020-05-22 | 浙江工业大学 | 全网爱国舆情事件识别及流行度跟踪方法 |
CN112528024A (zh) * | 2020-12-15 | 2021-03-19 | 哈尔滨工程大学 | 一种基于多特征融合的微博突发事件检测方法 |
-
2021
- 2021-09-24 CN CN202111120270.2A patent/CN113836267A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN111191096A (zh) * | 2019-12-06 | 2020-05-22 | 浙江工业大学 | 全网爱国舆情事件识别及流行度跟踪方法 |
CN112528024A (zh) * | 2020-12-15 | 2021-03-19 | 哈尔滨工程大学 | 一种基于多特征融合的微博突发事件检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023125589A1 (zh) * | 2021-12-29 | 2023-07-06 | 北京辰安科技股份有限公司 | 突发事件的监测方法及装置 |
CN114461763A (zh) * | 2022-04-13 | 2022-05-10 | 南京众智维信息科技有限公司 | 一种基于突发词聚类的网络安全事件抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11546433B2 (en) | Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment | |
US11341330B1 (en) | Applied artificial intelligence technology for adaptive natural language understanding with term discovery | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
US20160147866A1 (en) | Processing user profiles | |
CN102750390B (zh) | 新闻网页要素自动提取方法 | |
US20070220063A1 (en) | Event data translation system | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
Thaokar et al. | Test model for summarizing hindi text using extraction method | |
CN102110140A (zh) | 基于网络离散文本的舆情信息分析方法 | |
EP2657853A1 (en) | Webpage information detection method and system | |
CN113836267A (zh) | 一种突发事件检测方法及装置 | |
US20160328657A1 (en) | Complex predicate template collecting apparatus and computer program therefor | |
Arabzadeh et al. | Neural embedding-based specificity metrics for pre-retrieval query performance prediction | |
US20150370781A1 (en) | Extended-context-diverse repeats | |
WO2015004006A1 (en) | Method and computer server system for receiving and presenting information to a user in a computer network | |
US20140101259A1 (en) | System and Method for Threat Assessment | |
CN111651559B (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
US20140012803A1 (en) | Event analysis apparatus, event analysis method, and computer-readable recording medium | |
Hofmann et al. | Predicting the growth of morphological families from social and linguistic factors | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
US9230015B2 (en) | Deriving an interestingness measure for a cluster | |
CN111444347B (zh) | 事件演化关系分析方法及装置 | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |