CN110232149A - 一种热点事件检测方法和系统 - Google Patents
一种热点事件检测方法和系统 Download PDFInfo
- Publication number
- CN110232149A CN110232149A CN201910385776.2A CN201910385776A CN110232149A CN 110232149 A CN110232149 A CN 110232149A CN 201910385776 A CN201910385776 A CN 201910385776A CN 110232149 A CN110232149 A CN 110232149A
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- focus incident
- distance
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 96
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种热点事件检测方法和系统。
背景技术
随着互联网的迅猛发展和社交平台的快速兴起,越来越多的网民成为社交软件的用户。这些用户会在社交平台上分享个人态度,转发评论他人观点,参与事件讨论。与新闻发布不同,用户在社交平台中发布消息并不需要经过他人审核过程,实时性更强。同时,其交互性强的特点使得更多用户参与讨论和转发,有利于事件的快速传播。社交媒体已成为热点事件传播的重要渠道。分析社交媒体中的热点事件可以帮助企业更好的了解舆论走势,为决策提供参考。因此,面向社交媒体的话题和事件检测研究受到广泛关注。由于社交媒体文本口语化强,用词多变等特点,仅依靠文本的统计特征会造成语义损失,降低热点事件的识别准确率。
综上所述,需要提供一种能够提高语义识别程度,提高热点事件的识别准确率的方法与系统。
发明内容
为解决以上问题,本申请提出了一种热点事件检测方法和系统。
一方面,本申请提出一种热点事件检测方法,包括:
对文本进行预处理、分词和向量化,计算文本相似度矩阵;
对文本相似度矩阵进行聚类,得到聚类结果集;
提取聚类结果集中的关键词,计算关键词向量之间的距离;
判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本。
优选地,所述对文本进行预处理、分词和向量化,计算文本相似度矩阵,包括:
对文本进行预处理后,进行分词,得到与各文本对应的多个词和/或词组;
向量化各文本中的各词和/或词组,得到文本向量集合和各文本向量对应的分词集合;
使用各文本向量对应的分词集合计算文本向量集合中的各文本向量之间的距离;
根据各文本向量之间的距离构建文本相似度矩阵。
优选地,所述提取聚类结果集中的关键词,计算关键词向量之间的距离,包括:
使用关键词提取算法提取聚类结果集中的关键词,得到关键词集合;
计算关键词集合中各文档关键词的表示向量,各表示向量组成关键词向量集合;
计算各向量之间的距离,使用所述距离构建聚类相似度矩阵。
优选地,所述判断距离与阈值之间的关系,还包括:
若大于阈值,则将大于阈值的距离对应的聚类结果进行合并;
提取合并后的聚类结果集中的关键词,计算关键词向量之间的距离;
重新判断距离与阈值之间的关系。
优选地,所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本,包括:
去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集;
将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
优选地,在所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本之前,还包括:
构建动词停用表和训练分类器。
优选地,所述构建动词停用表,包括:
采集社交媒体中不对应现实事件的固有热门话题文本数据;
通过分词和词性标注,提取文本数据中的动词;
统计文本数量和动词出现的频率,得到动词在文本中的使用频率;
将使用频率超过预设频率阈值的动词加入停用动词表。
优选地,所述训练分类器,包括:
采集新闻事件标题和新闻专题标题;
使用所述新闻事件标题和新闻专题标题训练分类器。
优选地,所述分类器包括FastText分类器和贝叶斯分类器。
第二方面,本申请提出一种热点事件检测系统,包括:
预处理和分词模块,用于对文本进行预处理、分词;
聚类融合模块,用于对文本中的分词向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
事件判别模块,用于对融合结果集进行分类,得到热点事件关键词和热点事件对应的文本。
本申请的优点在于:在使用聚类算法对社交媒体文本聚类的基础上,提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,通过判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,能够提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种热点事件检测方法的步骤示意图;
图2是本申请提供的一种热点事件检测方法的流程示意图;
图3是本申请提供的一种热点事件检测系统的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种热点事件检测方法,如图1所示,包括:
S101,对文本进行预处理、分词和向量化,计算文本相似度矩阵;
S102,对文本相似度矩阵进行聚类,得到聚类结果集;
S103,提取聚类结果集中的关键词,计算关键词向量之间的距离;
S104,判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
S105,输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本。
所述文本可以包括采集到的多个文本。
所述对文本进行预处理、分词和向量化,计算文本相似度矩阵,包括:
对文本进行预处理后,进行分词,得到与各文本对应的多个词和/或词组;
向量化各文本中的各词和/或词组,得到文本向量集合和各文本向量对应的分词集合;
使用各文本向量对应的分词集合计算文本向量集合中的各文本向量之间的距离;
根据各文本向量之间的距离构建文本相似度矩阵。
所述预处理包括去除文本中包含的HTML标签、停用词、网页URL、@用户名和表情文本等信息。
向量化各文本中的各词和/或词组,得到文本向量集合D={D1,D2,…,Dn}和各文本向量对应的分词集合Dj={w1,w2,…,wn},其中Dj表示文档集中的文档(文本)向量j所对应的分词集合。
向量化公式为:
wi,j表示在文本j中词i出现的权重,ni,j为文本j中词i出现的次数,表示文本j的总词数,N表示总文档数,Ni表示包含词i的文档个数。
距离可以用于表示两个向量之间的相似程度,距离计算公式包括:杰卡德距离(Jaccard Distance)和欧式距离等。
以使用欧式距离公式构建文本相似度矩阵SD为例,欧式距离计算公式如下:
其中,win表示词n在文本i中的权重,wjn表示词n在文本j中的权重。
通过计算两个文本向量中的分词(各词和/或词组)之间的距离,可以得到这两个文本向量之间的距离,使用这些距离构建文本相似度矩阵SD。
使用文本相似度矩阵SD作为聚类算法的输入进行聚类,记聚类结果集为C={C1,C2,…,Cn}。
所述聚类算法包括:近邻传播(Affinity Propagation,AP)聚类算法和基于狄利克雷多项式混合模型的吉布斯采样算法(Gibbs Sampling algorithm for the DirichletMultinomial Mixture model,GSDMM)等。
所述提取聚类结果集中的关键词,计算关键词向量之间的距离,包括:
使用关键词提取算法提取聚类结果集中的关键词,得到关键词集合;
计算关键词集合中各文档关键词的表示向量,各表示向量组成关键词向量集合;
计算各向量之间的距离,使用所述距离构建聚类相似度矩阵。
对聚类结果使用关键词提取算法提取名词和动词作为文本表示关键词,获得关键词集合K={K1,K2,…,Kn}。以使用textRank关键词提取算法为例,textRank计算公式为:
其中,vi、vj和vk是textRank算法中有向带权图的点,wji表示词j和i之间的权重,wjk表示词j和k之间的权重。
词向量可以包含更多的语义信息。通过利用词的上下文信息将词转化为一个低维的实数向量,词义越相近的词在向量空间中的距离越小。以使用词向量加和求平均(词向量相加求和再求平均)的方法,对关键词集合中的元素K={K1,K2,…,Kn}计算文档关键词的表示向量,记为关键词向量集合W={W1,W2,…,Wn},关键词向量集合W中的元素包括多个聚类簇。
计算关键词的表示向量(关键词向量)之间的距离,构建聚类相似度矩阵SC。所述相似度矩阵SC为n×n的矩阵。以关键词向量集合W={W1,W2,W3,W4}为例,则相似度矩阵SC为4×4的矩阵。
距离计算公式包括:杰卡德距离(Jaccard Distance)和余弦距离等。
余弦距离计算公式为:
所述判断距离与阈值之间的关系,还包括:
若大于阈值,则将大于阈值的距离对应的聚类结果进行合并;
提取合并后的聚类结果集中的关键词,计算关键词向量之间的距离;
重新判断距离与阈值之间的关系。
若词向量相似度(关键词向量之间的距离)均不大于(小于等于)阈值δ,则输出融合后聚类结果集(融合结果集)C′={C′1,C′2,…,C′n}。以聚类结果集为C={C1,C2,C3,C4},且此聚类结果集的关键词向量之间的距离均小于等于阈值为例,则输出融合后聚类结果集(融合结果集)C′={C′1,C′2,C′3,C′4},融合结果集C′等于聚类结果集C。
若词向量相似度大于阈值δ,则将词向量相似度大于阈值δ的词向量(关键词向量)对应的聚类结果(聚类结果集中的元素)进行合并,计算合并后的聚类结果集的关键词集合K′={K′1,K′2,…,K′n}。重新计算聚类关键词向量集合并计算向量之间的相似度。以聚类结果集为C={C1,C2,C3,C4},且此聚类结果集的关键词向量之间的距离只有W1和W2大于阈值为例,则合并W1和W2对应的聚类结果,即C1和C2,得到新聚类结果集C={C1,C2,C3},提取新聚类结果集中的关键词,得到新关键词集合K={K1,K2,K3},计算此新关键词集合的关键词向量集合,得到新关键词向量集合W={W1,W2,W3},计算新关键词向量之间的距离,构建新聚类相似度矩阵SC,重新判断聚类相似度矩阵(新聚类相似度矩阵)中的距离是否都小于等于阈值。若还有大于阈值的距离,则重复上述操作,若距离全都小于等于阈值,则输出融合后聚类结果集C′={C′1,C′2,C′3}。
所述融合为融合步骤,包括:关键词向量之间的距离大于阈值δ时,对关键词向量对应的聚类结果进行合并,以及关键词向量之间的距离小于等于阈值δ时,输出关键词向量对应的聚类结果。经过融合步骤之后输出的聚类结果集为融合后聚类结果集,即融合结果集。
所述阈值δ可以设定。
所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本,包括:
去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集;
将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
所述分类器包括:FastText分类器和贝叶斯分类器等。
在所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本之前,还包括:
构建动词停用表和训练分类器。
所述构建动词停用表,包括:
采集社交媒体中不对应现实事件的固有热门话题文本数据;
通过分词和词性标注,提取文本数据中的动词;
统计文本数量和动词出现的频率,得到动词在文本中的使用频率;
将使用频率超过预设频率阈值的动词加入停用动词表。
所述预设频率阈值可以设定。
在网络社区和社交媒体中,用户的发言和讨论除了围绕现实事件之外,还会围绕着个人兴趣开展。例如星座、情感、工作经验交流等话题虽然符合热度特征,但并不能够实际对应现实中的实际发生的热点事件。同时,热门话题和热点事件在词汇使用方面也有所区别。采集社交媒体中不对应现实事件的固有热门话题数据,如“星座”、“学业生活”、“工作经验”等。通过分词和词性标注,提取文本数据中的动词。随后,根据动词出现的频率和文本数量,制定阈值,提出使用频率较高的高频动词,加入停用动词表。所述动词为用户在讨论话题时会使用表达主观情绪的动词,包括:觉得、希望和知道等动词。
所述训练分类器,包括:
采集新闻事件标题和新闻专题标题;
使用所述新闻事件标题和新闻专题标题训练分类器。
新闻文本作为经过人工审核的文本数据可以视为已标注文本。新闻事件标题作为对一篇文章的总结,能够在较短的文本长度内包含事件相关的主要名词和动词。而新闻专题标题则更接近话题,会包含更多的名词性关键词。同时,这两类标题可以通过数据采集手段获得,减少人工标注时间。针对以上特点,可以通过网络爬虫获取新闻事件标题和新闻专题标题,训练事件判别模型(分类器)。
所述分类器包括FastText分类器和贝叶斯分类器等。
如图2所示,对待处理文本F={F1,F2,…,Fn}进行预处理,去除文本中包含的HTML标签、停用词、网页URL、@用户名和表情文本等信息,对预处理后的各文本进行分词,得到与各文本对应的多个词和/或词组,向量化各文本中的各词和/或词组,得到文本向量集合D={D1,D2,…,Dn}和各文本向量对应的分词集合Dj={w1,w2,…,wn}。通过计算两个所有文本向量的之间的距离,得到这两个文本向量之间的距离,计算所有文本向量之间的距离,使用这些距离构建文本相似度矩阵SD,使用文本相似度矩阵SD作为聚类算法的输入进行聚类,记聚类结果集为C={C1,C2,…,Cn}。提取聚类结果集中的关键词,得到关键词集合K={K1,K2,…,Kn},计算关键词集合的关键词向量集合,得到关键词向量集合W={W1,W2,…,Wn}。计算关键词向量之间的距离,构建聚类相似度矩阵SC,判断新聚类相似度矩阵中的距离是否都小于等于阈值。若距离全都小于等于阈值,则输出融合结果集C′={C′1,C′2,…,C′n},若有大于阈值的距离,则合并此距离对应的聚类结果,得到新聚类结果集,计算新的聚类结果集的新聚类相似度矩阵,判断距离是否都小于等于阈值,直到聚类相似度矩阵中的距离全都小于等于阈值,输出融合结果集C′={C′1,C′2,…,C′n}。去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集,将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
分类器将共同包含有多个关键词的各文本分为同一类,此多个关键词即为热点事件关键词,对应一个热点事件。以从8个文本中识别热点事件为例,假设8个文本中有6个文本包括热点事件(实际发生的热点事件),所述6个文本中有2个文本包都含3个关键词,词X、词Y和词Z,另外4个文本都包含5个关键词,词P、词Q、词R、词S和词T。则分类器将词X、词Y和词Z分为同一类,对应一个热点事件A,并将都包含词X、词Y和词Z的2个文本分为同一类,即热点事件A对应的文本;将词P、词Q、词R、词S和词T分为同一类,对应另一个热点事件B,并将都包含词P、词Q、词R、词S和词T的4个文本分为同一类,即热点事件B对应的文本。
热点事件关键词包含各热点事件关键词对应的同义词,即将同义词用一个词进行表述。假设词E和词F为同义词,则在计算关键词向量(在向量化各文本中的各词和/或词组)时,可以算出词E和词F的距离很近,将词F替换为词E,并将包含有词F的文本与包含有词E的文本合并为一个集合(对文本相似度矩阵进行聚类,得到聚类结果集)。
通过网络爬虫获取新闻事件标题和新闻专题标题用于训练事件判别模型。该训练集中包含新闻事件标题3000个,新闻专题标题2300个。并获取某高校论坛2018年12月兴趣讨论板块的60000条数据用于构建停用动词表。文本的测试集数据来自于新浪微博。通过微博搜索接口搜索高校关键词,基于网络爬虫实现高校相关微博数据的获取。选取其中11000条微博进行人工标注,用于验证本文所提出的热点事件检测方法的效果。本数据集(进行人工标注的微博)中共包含8个热点事件及事件相关文本1980条。
微博文本中包含HTML标签、网页URL、@用户名、表情等噪声。在进行事件检测前,对微博数据进行预处理。
如表1所示,为使用传统AP聚类算法识别事件、使用AP聚类算法加合并识别事件和使用本实施例的方法识别事件的识别事件数量图。
表1
方法 | 测试集中包含的事件数 | 识别簇(事件)数 |
传统AP聚类算法识别事件 | 8 | 31 |
AP聚类算法加合并识别事件 | 8 | 17 |
本实施例的方法 | 8 | 10 |
从表1中的数据可以看出,在无预定义簇(事件)数量的情况下,传统AP聚类算法根据文本相似度进行聚类,会识别出远多于实际事件数目的簇。其原因在于,用户在发表对同一事件的观点和态度时,可能会从多角度进行描述。传统基于统计特征的聚类方法无法发现词与词之间的语义相似性。在对聚类结果关键词进行语义相似度比较和合并后,使用AP聚类算法加合并识别事件,其识别事件的数量虽少于传统AP聚类算法所识别出的事件数量,但是对数据集中包含的一些固有热门话题并不能进行较好的区分。本实施例的方法能够更加准确的对聚类簇进行识别,并且在对合并结果进行事件判别后,能够更好的对事件进行识别。
表1中的本实施例的方法使用欧式距离构建文本相似度矩阵SD,使用AP聚类对文本相似度矩阵SD进行聚类,使用textRank关键词提取算法,使用余弦距离计算相似度矩阵SC,使用FastText分类器,聚类结果合并阈值设为0.85,词向量维度设为300。
聚类结果合并阈值和词向量维度使用精确率(Precision Rate)、召回率(RecallRate)和F值(F-Measure)作为评价指标。
召回率(Recall)=系统检索到的相关文件/系统所有相关的文件总数。
精确率(Precision)=系统检索到的相关文件/系统所有检索到的文件总数。
F值是精确率和召回率加权调和平均,P(召回率)和R(精确率)指标有时候会出现的矛盾的情况,这样就需要综合考虑P和R指标,使用F-Measure(又称为F-Score)对P和R指标进行综合考虑。
根据本申请的实施方式,还提出一种热点事件检测系统,如图3所示,包括:
预处理和分词模块101,用于对文本进行预处理、分词;
聚类融合模块102,用于对文本中的分词向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
事件判别模块103,用于对融合结果集进行分类,得到热点事件关键词。
所述聚类融合模块还用于,判断距离与阈值之间的关系,若大于阈值,则将大于阈值的距离对应的聚类结果进行合并;提取合并后的聚类结果集中的关键词,计算关键词向量之间的距离;重新判断距离与阈值之间的关系。
所述事件判别模块包括:动词停用单元和分类单元。
所述动词停用单元,用于去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集。
所述动词停用表的构建,通过采集社交媒体中不对应现实事件的固有热门话题文本数据;对文本数据进行分词和词性标注,提取文本数据中的动词;统计文本数量和动词出现的频率,得到动词在文本中的使用频率;将使用频率超过预设频率阈值的动词加入停用动词表。
在网络社区和社交媒体中,用户的发言和讨论除了围绕现实事件之外,还会围绕着个人兴趣开展。例如星座、情感、工作经验交流等话题虽然符合热度特征,但并不能够实际对应现实中的实际发生的热点事件。同时,热门话题和热点事件在词汇使用方面也有所区别。采集社交媒体中不对应现实事件的固有热门话题数据,如“星座”、“学业生活”、“工作经验”等。通过分词和词性标注,提取文本数据中的动词。随后,根据动词出现的频率和文本数量,制定阈值,提出使用频率较高的高频动词,加入停用动词表。所述动词为用户在讨论话题时会使用表达主观情绪的动词,包括:觉得、希望和知道等动词
所述分类单元使用采集到的新闻事件标题和新闻专题标题进行训练。
所述分类单元,用于将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
本申请的方法中,在使用聚类算法对社交媒体文本聚类的基础上,提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,通过判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,能够提高语义识别程度。使用新闻标题和论坛热门话题短文本构建事件判别模型(分类器),在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种热点事件检测方法,其特征在于,包括:
对文本进行预处理、分词和向量化,计算文本相似度矩阵;
对文本相似度矩阵进行聚类,得到聚类结果集;
提取聚类结果集中的关键词,计算关键词向量之间的距离;
判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本。
2.如权利要求1所述的一种热点事件检测方法,其特征在于,所述对文本进行预处理、分词和向量化,计算文本相似度矩阵,包括:
对文本进行预处理后,进行分词,得到与各文本对应的多个词和/或词组;
向量化各文本中的各词和/或词组,得到文本向量集合和各文本向量对应的分词集合;
使用各文本向量对应的分词集合计算文本向量集合中的各文本向量之间的距离;
根据各文本向量之间的距离构建文本相似度矩阵。
3.如权利要求1所述的一种热点事件检测方法,其特征在于,所述提取聚类结果集中的关键词,计算关键词向量之间的距离,包括:
使用关键词提取算法提取聚类结果集中的关键词,得到关键词集合;
计算关键词集合中各文档关键词的表示向量,各表示向量组成关键词向量集合;
计算各向量之间的距离,使用所述距离构建聚类相似度矩阵。
4.如权利要求1所述的一种热点事件检测方法,其特征在于,所述判断距离与阈值之间的关系,还包括:
若大于阈值,则将大于阈值的距离对应的聚类结果进行合并;
提取合并后的聚类结果集中的关键词,计算关键词向量之间的距离;
重新判断距离与阈值之间的关系。
5.如权利要求1所述的一种热点事件检测方法,其特征在于,所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本,包括:
去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集;
将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
6.如权利要求5所述的一种热点事件检测方法,其特征在于,在所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本之前,还包括:
构建动词停用表和训练分类器。
7.如权利要求6所述的一种热点事件检测方法,其特征在于,所述构建动词停用表,包括:
采集社交媒体中不对应现实事件的固有热门话题文本数据;
通过分词和词性标注,提取文本数据中的动词;
统计文本数量和动词出现的频率,得到动词在文本中的使用频率;
将使用频率超过预设频率阈值的动词加入停用动词表。
8.如权利要求6所述的一种热点事件检测方法,其特征在于,所述训练分类器,包括:
采集新闻事件标题和新闻专题标题;
使用所述新闻事件标题和新闻专题标题训练分类器。
9.如权利要求1所述的一种热点事件检测方法,其特征在于,所述分类器包括FastText分类器和贝叶斯分类器。
10.一种热点事件检测系统,其特征在于,包括:
预处理和分词模块,用于对文本进行预处理、分词;
聚类融合模块,用于对文本中的分词向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
事件判别模块,用于对融合结果集进行分类,得到热点事件关键词和热点事件对应的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385776.2A CN110232149B (zh) | 2019-05-09 | 2019-05-09 | 一种热点事件检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385776.2A CN110232149B (zh) | 2019-05-09 | 2019-05-09 | 一种热点事件检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232149A true CN110232149A (zh) | 2019-09-13 |
CN110232149B CN110232149B (zh) | 2022-03-01 |
Family
ID=67860482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910385776.2A Expired - Fee Related CN110232149B (zh) | 2019-05-09 | 2019-05-09 | 一种热点事件检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232149B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111832815A (zh) * | 2020-07-02 | 2020-10-27 | 山东电力研究院 | 科研热点预测方法及系统 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
CN112650852A (zh) * | 2021-01-06 | 2021-04-13 | 广东泰迪智能科技股份有限公司 | 一种基于命名实体和ap聚类的事件归并方法 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113378565A (zh) * | 2021-05-18 | 2021-09-10 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113779258A (zh) * | 2021-11-10 | 2021-12-10 | 上海蜜度信息技术有限公司 | 公众满意度的分析方法、存储介质及电子设备 |
CN116028631A (zh) * | 2023-03-30 | 2023-04-28 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040181554A1 (en) * | 1998-06-25 | 2004-09-16 | Heckerman David E. | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103902689A (zh) * | 2014-03-26 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、增量聚类方法及相关装置 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN106778817A (zh) * | 2016-11-25 | 2017-05-31 | 杭州中奥科技有限公司 | 一种事件的自动分类方法 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
-
2019
- 2019-05-09 CN CN201910385776.2A patent/CN110232149B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040181554A1 (en) * | 1998-06-25 | 2004-09-16 | Heckerman David E. | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103902689A (zh) * | 2014-03-26 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、增量聚类方法及相关装置 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN106778817A (zh) * | 2016-11-25 | 2017-05-31 | 杭州中奥科技有限公司 | 一种事件的自动分类方法 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
TINGTING HE: "Semi-automatic Hot Event Detection", 《ADVANCED DATA MINING AND APPLICATIONS,SECOND INTERNATIONALCONFERENCE,ADMA 2006》 * |
张佳凡: "基于移动群智数据的城市热点事件感知方法", 《计算机科学》 * |
高扬: "《智能摘要与深度学习》", 30 April 2019, 北京理工大学出版社 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111104511B (zh) * | 2019-11-18 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111832815A (zh) * | 2020-07-02 | 2020-10-27 | 山东电力研究院 | 科研热点预测方法及系统 |
CN111832815B (zh) * | 2020-07-02 | 2023-12-05 | 国网山东省电力公司电力科学研究院 | 科研热点预测方法及系统 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
CN112650852A (zh) * | 2021-01-06 | 2021-04-13 | 广东泰迪智能科技股份有限公司 | 一种基于命名实体和ap聚类的事件归并方法 |
CN113157857B (zh) * | 2021-03-13 | 2023-06-02 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113515624B (zh) * | 2021-04-28 | 2023-07-21 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113378565B (zh) * | 2021-05-18 | 2022-11-04 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
CN113378565A (zh) * | 2021-05-18 | 2021-09-10 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
CN113779258A (zh) * | 2021-11-10 | 2021-12-10 | 上海蜜度信息技术有限公司 | 公众满意度的分析方法、存储介质及电子设备 |
CN116028631A (zh) * | 2023-03-30 | 2023-04-28 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
CN116028631B (zh) * | 2023-03-30 | 2023-07-14 | 粤港澳大湾区数字经济研究院(福田) | 一种多事件检测方法及相关设备 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110232149B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232149A (zh) | 一种热点事件检测方法和系统 | |
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
Mishra et al. | Sentiment analysis of Twitter data: Case study on digital India | |
Chaovalit et al. | Movie review mining: A comparison between supervised and unsupervised classification approaches | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
Jha et al. | Homs: Hindi opinion mining system | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
Yeole et al. | Opinion mining for emotions determination | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Ke et al. | A novel approach for cantonese rumor detection based on deep neural network | |
Ali et al. | Sentiment analysis using unlabeled email data | |
Al-Mahmoud et al. | Arabic text mining a systematic review of the published literature 2002-2014 | |
Maree et al. | Semantic graph based term expansion for sentence-level sentiment analysis | |
Ajallouda et al. | Kp-use: an unsupervised approach for key-phrases extraction from documents | |
Song et al. | Research on Kano model based on online comment data mining | |
Luo et al. | Product review information extraction based on adjective opinion words | |
Gupta et al. | Keyword extraction: a review | |
De Saa et al. | Self-reflective and introspective feature model for hate content detection in sinhala youtube videos | |
CN109902230A (zh) | 一种新闻数据的处理方法及装置 | |
Guadie et al. | Amharic text summarization for news items posted on social media | |
Tian et al. | Research of product ranking technology based on opinion mining | |
Doostmohammadi et al. | Perkey: A persian news corpus for keyphrase extraction and generation | |
Yu et al. | Hot event detection for social media based on keyword semantic information | |
Yusuf et al. | A Technical Review of the State-of-the-Art Methods in Aspect-Based Sentiment Analysis | |
SRIVASTAVA et al. | Text Summarizer Using NLP (Natural Language Processing) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220301 |
|
CF01 | Termination of patent right due to non-payment of annual fee |