CN108932311A - 突发事件检测与预测的方法 - Google Patents
突发事件检测与预测的方法 Download PDFInfo
- Publication number
- CN108932311A CN108932311A CN201810635752.3A CN201810635752A CN108932311A CN 108932311 A CN108932311 A CN 108932311A CN 201810635752 A CN201810635752 A CN 201810635752A CN 108932311 A CN108932311 A CN 108932311A
- Authority
- CN
- China
- Prior art keywords
- prediction
- document
- word
- event
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种突发事件检测与预测的方法,包括:数据获取与预处理;文本表示与特征提取;采用ETCBS算法对文本聚类;构建事件生命周期模型。本发明有效克服由于设定单一阈值而产生的事件无法正确归类,忽略事件发展中的讨论内容的重心与关注点变化的问题,提高对新闻事件预测的准确率。本发明结合新闻事件的实际特点对传统算法进行改进,对讨论话题范围广泛的文本分类提升效果明显,以及针对不同发展过程的事件预测更加准确。通过对突发事件进行准确预测,紧急处理突发的自然灾害、事故和公共社会事件等,从而大大降低社会损失具有重要意义。
Description
技术领域
本发明涉及一种话题检测技术与话题跟踪技术。特别是涉及一种突发事件检测与预测的 方法。
背景技术
目前话题检测文本聚类所使用的算法主要分为两类:一类是增量聚类算法。增量聚类是 维持或改变K个簇的结构。增量聚类算法只需要对新的数据进行聚类,不需要重新对所有数 据聚类,因此在处理大量的新数据时算法执行效率高。增量聚类中典型算法为Single-Pass算 法。传统的Single-Pass只设置了单一的固定阈值,现实情况中各类事件文本的相似度最佳聚 类阈值不一定是一样的。因此采用Single-Pass算法对文本分类,当文本之间的相似度比较一 致时,文本分类结果比较准确。但实际上新闻文本信息量巨大,表达方式存在差异,以及随 着事件的进展,重心可能发生变化,因此单一阈值会影响到分类结果的准确性。
另一类文本聚类方法是非增量聚类算法。非增量聚类初始化时将抽取的每个文本作为一 个簇,剩余文本将其划分到与之距离最近的簇中,重新计算聚类的质心,重复这一过程,直 到准则函数收敛。非增量聚类算法包括K-means算法和层次聚类算法等。K-means算法的伸 缩性较好,计算复杂度低。缺点在于需要多次读取全部数据,另外只在处理球形的类时效果 较好。层次聚类算法需要维持一个相似度矩阵,算法时间复杂度髙,在处理大数据集时效率 较低。
目前突发事件预测所使用的方法主要分为两类:一种是基于增长率预测。基于增长率预 测对发展过程与理想能量变化曲线一致的事件预测准确率高,反之则适应性较低。由于新闻 文档的到来时间不具有稳定性,能量值变化与新闻文档的到来呈现不确定性变化,在一阶增 长率呈现明显波动变化的情况下,二阶增长率便具有更高的不确定性,难以进行计算。同时, 对于每个事件从出现到成为热点事件所经历的时间长度不同,因此通过固定的增长率阈值的 方式也会导致那些增长率较低但连续且稳定的热点事件难以被检测出来。
另一类是基于时间序列预测。基于时间序列的生长曲线拟合方法能够直观的观察事物的变 化情况,预测事物的发展趋势,但是由于数据规模、噪声等问题,很容易产生曲线过拟合的 情况。
发明内容
本发明所要解决的技术问题是,提供一种能够提高对新闻事件预测的准确率的突发事件 检测与预测的方法。
本发明所采用的技术方案是:一种突发事件检测与预测的方法,包括如下步骤:
1)数据获取与预处理;
2)文本表示与特征提取;
3)采用ETCBS算法对文本聚类;
4)构建事件生命周期模型。
步骤1)包括:
(1)获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:
(2)对新闻数据进行降噪、去重和编码处理;
(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。
步骤2)包括:
(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量 中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个 位置对应单词的集合;
(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,词频逆文档率的计算公 式如下:
TF-IDF(t,d)=TF(t,d)*IDF(t) (1)
式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率, TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;
(3)文档d1,d2的相似度采用余弦相似度计算公式如下:
Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|) (2)
式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。
步骤3)包括:
(1)初始化文档集合与阈值Thre1、Thre2,设置最大文档相似度为0,输入新文档;
(2)计算新文档与各集合的相似度,记录最大文档相似度与当前集合;
(3)将最大文档相似度与设定的阈值Thre1与Thre2进行比较;如果最大文档相似度大 于Thre1,直接将新文档加入到当前集合中;如果最大文档相似度小于Thre1且大于Thre2, 则计算新文档与当前集合中的所有文档的相似度;如果相似度大于Thre1,则将新文档加入到 当前集合之中,反之,算法终止。
步骤4)包括:
(1)确定预测能量区间[FA:FB],FA处在增长率曲线所在最大值处,FB处于能量值函数 接近最大值处,选取G(x)函数,本发明采用的G(x)函数形式如下式:
G(x)=a*x2+b*x+c (3)
根据预测事件能量曲线函数值及一阶导数值,求得a=-0.225、b=0.315、c=-0.10025,参 数a、b、c反映了G(x)函数变化趋势;
(2)考虑能量变化的时间窗口,确定平滑窗口大小,以及对应权重向量C,对增长率进 行平滑处理,平滑处理公式如下:
其中Tt表示时间窗t处的实际增长率,Ci表示窗口i的增长率在计算中对应的权重;
(3)判断事件最新的能量值是否属于区间[FA:FB],若属于,并且当前时间窗口的增长率 大于G(x)函数值,则预测结果成为热点事件,反之预测结果不为热点事件。
本发明的突发事件检测与预测的方法,有效克服由于设定单一阈值而产生的事件无法正 确归类,忽略事件发展中的讨论内容的重心与关注点变化的问题。另一方面在于改进突发事 件预测中基于增长率预测算法,提高对新闻事件预测的准确率。本发明为突发事件检测和预 测方法提供了一种新的思路。结合新闻事件的实际特点对传统算法进行改进,对讨论话题范 围广泛的文本分类提升效果明显,以及针对不同发展过程的事件预测更加准确。通过对突发 事件进行准确预测,紧急处理突发的自然灾害、事故和公共社会事件等,从而大大降低社会 损失具有重要意义。
附图说明
图1是本发明突发事件检测与预测的方法的流程图;
图2是事件8增长率曲线图;
图3是对图2中的增长率曲线平滑处理后的图。
具体实施方式
下面结合实施例和附图对本发明的突发事件检测与预测的方法做出详细说明。
如图1所示,本发明的突发事件检测与预测的方法,包括如下步骤:
1)数据获取与预处理;包括:
(1)通过网络爬虫获取新闻数据,本发明选取的新闻数据来源有新浪新闻、凤凰资讯和 中新网这三个国内主要新闻门户网站。获取新闻信息包括新闻标题、新闻URL、新闻发布时 间、新闻正文文本内容这四个主要信息:
(2)对新闻数据进行降噪、去重和编码处理;由于本发明采用JavaScript正则表达式匹 配的方法对噪声进行过滤,主要过滤信息包括爬取站点的布局方式、文章的URL地址和 JavaScript脚本代码。去重操作主通过对比新闻的标题、发表事件、正文内容将重复文档删除。 采用UTF-8的编码格式保存新闻文本数据。
(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。本发明 采用北京理工大学张华平博士研制的NLPIR系统进行中文分词。该系统支持多种格式编码, 支持用户自定义词库。分词处理后,本发明采用四川大学机器智能实验室的停用词表、哈工 大停用词表、百度停用词表过滤掉不需要的停用词。
2)文本表示与特征提取;包括:
(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每 个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置 对应单词的集合;向量空间模型的表现形式形如[word1:weight1;word2:weight2;word3:
weight3;:::],即一个词语所在位置对应一个权值,词语也称为特征词,权值也称为该特征词 的权重。
(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,其主要思想是,如果一 个词语出现在少数的文档中,则该词语越能够区分出这些文档,如果一个词语出现在一篇文 档的次数越多,说明该词对于该文档越为重要。词频逆文档率的计算公式如下:
TF-IDF(t,d)=TF(t,d)*IDF(t) (1)
式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率, TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;
(3)本发明通过采用向量进行文本的表示,并采用余弦相似度方法计算文本与文本、文 本与事件之间的相似关系。文档d1,d2的相似度采用余弦相似度计算公式如下:
Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|) (2)
式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。
3)确定了文本的表示模型、特征提取方法以及相似度计算方法后,本发明采用ETCBS 算法对文本聚类;包括:
(1)初始化文档集合与阈值Thre1、Thre2,设置最大文档相似度为0,输入新文档;
(2)计算新文档与各集合的相似度,记录最大文档相似度与当前集合;
(3)将最大文档相似度与设定的阈值Thre1与Thre2进行比较;如果最大文档相似度大 于Thre1,直接将新文档加入到当前集合中;如果最大文档相似度小于Thre1且大于Thre2, 则计算新文档与当前集合中的所有文档的相似度;如果相似度大于Thre1,则将新文档加入到 当前集合之中,反之,算法终止。
4)构建事件生命周期模型;包括:
(1)通过步骤3)将文本聚类,融合生物成长理论,构建出每一个事件的生命周期模型, 如图2所示,根据生命周期模型,确定预测能量区间[FA:FB],FA处在增长率曲线所在最大值 处,FB处于能量值函数接近最大值处,选取G(x)函数,该函数在预测能量区间[FA:FB]上的取 值与理想型增长率函数近似,用于计算一个事件的处在能力值为x时增长率应满足怎样的条 件才具备成为热点事件的可能。本发明采用的G(x)函数形式如下式:
G(x)=a*x2+b*x+c (3)
根据预测事件能量曲线函数值及一阶导数值,求得a=-0.225、b=0.315、c=-0.10025,参 数a、b、c反映了G(x)函数变化趋势;
(2)考虑能量变化的时间窗口,确定平滑窗口大小,以及对应权重向量C,对增长率进 行平滑处理,平滑处理公式如下:
其中Tt表示时间窗t处的实际增长率,Ci表示窗口i的增长率在计算中对应的权重,经 过平滑处理后,增长率的变化更加平稳;图2为事件8增长率曲线,令C=[32,24,16,8,4]时得到图3曲线。经过平滑处理的增长率变化情况能够更好的应用在预测工作中。
(3)判断事件最新的能量值是否属于区间[FA:FB],若属于,并且当前时间窗口的增长率 大于G(x)函数值,则预测结果成为热点事件,反之预测结果不为热点事件。
本发明的突发事件检测与预测的方法,所使用的数据集来源凤凰资讯和新浪新闻,从2017 年3月25日到2017年3月31日的13084篇新闻。采用人工标注的方式,标注了其中的8个 事件。
采用Single-Pass聚类方法设置文本分类阈值为0.18时得到了最佳效果。在ETCBS算法 中,设置阈值Thre1=0.20、Thre2=0.16,得到实验结果与传统Single-Pass聚类方法比较结果 如表1所示。从本发明改进的方法中可以看出,召回率得到明显提升,说明相对于单一阈值 设定,讨论范围比较广泛的事件通过进一步与相似度最大的事件中所有文档进行计算,能够 被正确归到所属类中。但是,这也会导致在精度上有部分损失。在综合评估F上,本发明改 进的方法都得到了较好的结果,并且在8个事件的平均F值得到0.9015的最大值。因此改进 的方法确实能够得到更好的效果。
另外,本发明选取与2017年3月和4月的66807篇新闻文本用于训练Doc2Vec模型,并采用2017年3月25日到2017年3月31日的13084篇新闻文本进行实验和评估。由 Single-Pass算法和ETCBS算法进行聚类的结果可知,在事件召回率和综合评估F上ETCBS 算法明显高于Single-Pass算法,表明本发明改进ETCBS在两种不同的文本表示方式上都有 所作用。
以下对改进的增长率预测方法进行分析。本发明对2017年3月25日到2017年3月31日的新闻进行突发事件预测,得到如表2所示的结果。在预测结果中预测有7个事件将成为热点事件,并且其中的6个事件最终成为了热点事件,说明本发明所提出的改进方法在热点事件预测准确率效果良好。事件1、4、5同时被预测为热点事件与突发事件,事件能量值都有较大增长率,预测结果与实际相符。事件6从事件发生到成为热点事件经过了较长的时间, 说明其成长过程缓慢,不具备较高增长率的条件,不能被预测出是否能够成为热点事件。事 件8最早发生在3月22日,并且迅速得到广泛关注,在25日前已成为热点事件。在此之后 世界各地又发生其它袭击事件,导致该事件的关注度较低,因此未成为热点事件。
综上所述,本发明基于生物成长理论对事件进行跟踪,采用改进的增长率预测方法能够 较好地预测该事件能否成为热点事件与突发事件。与传统增长率设定固定阈值,根据一阶增 长率和二阶增长率方法相比,改进的增长率方法通过对选取区间阈值,并对增长率曲线进行 平滑处理,减小波动锯齿形情况,更适用于新闻事件的实际情况,同时对一些发展过程较长 的热点事件预测准确率有所提高。
表1空间向量表示模型结果
在表1中,采用空间向量模型表示,对比传统Single-Pass聚类与ETCBS算法,可知ETCBS 在召回率和综合评估F上表现良好。
表2预测结果
在表2中,参数设置时间窗口的大小为10min,热点事件的能量阈值为0.9,突发事件的 时间阈值为30小时。在预测结果中预测有7个事件将成为热点事件,并且其中的6个事件最 终成为了热点事件,说明本发明所提出的改进方法在热点事件预测准确率效果良好。
Claims (5)
1.一种突发事件检测与预测的方法,其特征在于,包括如下步骤:
1)数据获取与预处理;
2)文本表示与特征提取;
3)采用ETCBS算法对文本聚类;
4)构建事件生命周期模型。
2.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤1)包括:
(1)获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:
(2)对新闻数据进行降噪、去重和编码处理;
(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。
3.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤2)包括:
(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置对应单词的集合;
(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,词频逆文档率的计算公式如下:
TF-IDF(t,d)=TF(t,d)*IDF(t) (1)
式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率,TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;
(3)文档d1,d2的相似度采用余弦相似度计算公式如下:
Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|) (2)
式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。
4.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤3)包括:
(1)初始化文档集合与阈值Thre1、Thre2,设置最大文档相似度为0,输入新文档;
(2)计算新文档与各集合的相似度,记录最大文档相似度与当前集合;
(3)将最大文档相似度与设定的阈值Thre1与Thre2进行比较;如果最大文档相似度大于Thre1,直接将新文档加入到当前集合中;如果最大文档相似度小于Thre1且大于Thre2,则计算新文档与当前集合中的所有文档的相似度;如果相似度大于Thre1,则将新文档加入到当前集合之中,反之,算法终止。
5.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤4)包括:
(1)确定预测能量区间[FA:FB],FA处在增长率曲线所在最大值处,FB处于能量值函数接近最大值处,选取G(x)函数,本发明采用的G(x)函数形式如下式:
G(x)=a*x2+b*x+c (3)
根据预测事件能量曲线函数值及一阶导数值,求得a=-0.225、b=0.315、c=-0.10025,参数a、b、c反映了G(x)函数变化趋势;
(2)考虑能量变化的时间窗口,确定平滑窗口大小,以及对应权重向量C,对增长率进行平滑处理,平滑处理公式如下:
其中Tt表示时间窗t处的实际增长率,Ci表示窗口i的增长率在计算中对应的权重;
(3)判断事件最新的能量值是否属于区间[FA:FB],若属于,并且当前时间窗口的增长率大于G(x)函数值,则预测结果成为热点事件,反之预测结果不为热点事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635752.3A CN108932311B (zh) | 2018-06-20 | 2018-06-20 | 突发事件检测与预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635752.3A CN108932311B (zh) | 2018-06-20 | 2018-06-20 | 突发事件检测与预测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108932311A true CN108932311A (zh) | 2018-12-04 |
CN108932311B CN108932311B (zh) | 2022-06-03 |
Family
ID=64446111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810635752.3A Active CN108932311B (zh) | 2018-06-20 | 2018-06-20 | 突发事件检测与预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932311B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782342A (zh) * | 2018-12-10 | 2019-05-21 | 禁核试北京国家数据中心 | 一种选择性能较优的地震事件关联检测算法的方法 |
CN110209813A (zh) * | 2019-05-14 | 2019-09-06 | 天津大学 | 一种基于自动编码器的突发事件检测与预测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110688485A (zh) * | 2019-09-26 | 2020-01-14 | 中国人民大学 | 一种基于突发事件的词向量语言模型 |
CN111723136A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格事件分类分级处置的单维聚类分析方法 |
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020073113A1 (en) * | 2000-10-13 | 2002-06-13 | Caraher William Frederick | Computer-implemented collaborative record-keeping system and method |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
-
2018
- 2018-06-20 CN CN201810635752.3A patent/CN108932311B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020073113A1 (en) * | 2000-10-13 | 2002-06-13 | Caraher William Frederick | Computer-implemented collaborative record-keeping system and method |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782342A (zh) * | 2018-12-10 | 2019-05-21 | 禁核试北京国家数据中心 | 一种选择性能较优的地震事件关联检测算法的方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110209813A (zh) * | 2019-05-14 | 2019-09-06 | 天津大学 | 一种基于自动编码器的突发事件检测与预测方法 |
CN110688485A (zh) * | 2019-09-26 | 2020-01-14 | 中国人民大学 | 一种基于突发事件的词向量语言模型 |
CN110688485B (zh) * | 2019-09-26 | 2022-03-11 | 中国人民大学 | 一种基于突发事件的词向量语言模型 |
CN111723136A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格事件分类分级处置的单维聚类分析方法 |
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113515624B (zh) * | 2021-04-28 | 2023-07-21 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108932311B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932311A (zh) | 突发事件检测与预测的方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
Youn et al. | Class dependent feature scaling method using naive Bayes classifier for text datamining | |
US9430562B2 (en) | Classifier indexing | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN104050556A (zh) | 一种垃圾邮件的特征选择方法及其检测方法 | |
US8856123B1 (en) | Document classification | |
CN105183792B (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
Jo | Using K Nearest Neighbors for text segmentation with feature similarity | |
Liu et al. | An improved KNN text classification algorithm based on Simhash | |
Rashid et al. | Automatic Kurdish text classification using KDC 4007 dataset | |
Peng et al. | Emerging topic detection from microblog streams based on emerging pattern mining | |
CN106815605B (zh) | 一种基于机器学习的数据分类方法及设备 | |
Zhang et al. | Medical document clustering using ontology-based term similarity measures | |
CN108596205B (zh) | 基于地域相关因子与稀疏表示的微博转发行为预测方法 | |
Xiao | A Survey of Document Clustering Techniques & Comparison of LDA and moVMF | |
Coleman et al. | One-pass diversified sampling with application to terabyte-scale genomic sequence streams | |
Kamruzzaman et al. | A hybrid learning algorithm for text classification | |
Avigdor-Elgrabli et al. | Structural clustering of machine-generated mail | |
Pandya et al. | Mated: metadata-assisted twitter event detection system | |
Lyu et al. | A comparative study of Chinese patent literature automatic classification based on deep learning | |
Al-Omari | Evaluating the effect of stemming in clustering of Arabic documents | |
CN114153977A (zh) | 一种异常数据检测方法及系统 | |
Gao et al. | HRCE: Detecting Food Security Events in Social Media | |
Uemura et al. | Unsupervised spam detection by document complexity estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |