CN109145180B - 一种基于增量聚类的企业热点事件挖掘方法 - Google Patents
一种基于增量聚类的企业热点事件挖掘方法 Download PDFInfo
- Publication number
- CN109145180B CN109145180B CN201810680294.5A CN201810680294A CN109145180B CN 109145180 B CN109145180 B CN 109145180B CN 201810680294 A CN201810680294 A CN 201810680294A CN 109145180 B CN109145180 B CN 109145180B
- Authority
- CN
- China
- Prior art keywords
- news
- enterprise
- cluster
- clustering
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Abstract
本发明涉及一种基于增量聚类的企业热点事件挖掘方法,包括以下步骤:通过网络爬虫获取企业网络新闻;对爬取的企业网络新闻进行降噪并存入数据库;从数据库读取企业新闻进行预处理;对预处理后的企业新闻进行聚类分析;对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;从数据库获取所需企业热点事件并以时间为序进行展示。本发明能够为企业或个人提供企业过去发生的热点事件。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种基于增量聚类的企业热点事件挖掘方法。
背景技术
近年来,利用网络新闻进行数据挖掘分析已有很多课题和任务,例如新闻推荐、文本关键词抽取和舆情监测等。对于网络新闻热点话题也已经有很多的研究,普遍采用话题检测与跟踪方法。同样对于企业热点事件的研究,也可以采用类似话题检测与跟踪的方法,这种基于增量聚类的方法能够更加快速准确的将企业热点新闻提取出来,相对于人工查找、排除、选择热点新闻更为高效。但目前针对于企业的网络新闻研究相对较少,因此本发明将利用企业的网络新闻实现企业热点事件的挖掘。
发明内容
本发明所要解决的技术问题是提供一种基于增量聚类的企业热点事件挖掘方法,能够为企业或个人提供企业过去发生的热点事件。
本发明解决其技术问题所采用的技术方案是:提供一种基于增量聚类的企业热点事件挖掘方法,包括以下步骤:
(1)通过网络爬虫获取企业网络新闻;
(2)对爬取的企业网络新闻进行降噪并存入数据库;
(3)从数据库读取企业新闻进行预处理;
(4)对预处理后的企业新闻进行聚类分析;
(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;
(6)从数据库获取所需企业热点事件进行展示。
所述步骤(1)具体包括以下子步骤:
(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;
(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。
所述步骤(3)包括以下子步骤:
(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。
所述所述步骤(4)包括以下子步骤:
(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;
(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;
(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;
(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
所述步骤(5)中所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明能够为企业或个人提供企业过去产生的热点事件,这种基于增量聚类的方法能够更加快速准确的将企业热点事件提取出来,这是一种无监督自动产生企业热点事件的方法,相对于人工查找、排除、选择热点事件更为高效。
附图说明
图1是本发明的整体框架图;
图2是本发明中增量聚类分析的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于增量聚类的企业热点事件的挖掘方法,如图1所示,包括以下步骤:A通过网络爬虫获取企业网络新闻;B对爬取的企业网络新闻进行降噪并存入数据库;C从数据库读取企业新闻进行预处理,预处理包括文本分词、词加权以及特征向量化;D对预处理后的企业新闻进行聚类分析;E对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;F从数据库获取所需企业热点事件并以时间为序在Web页面展示。
其中,步骤A具体包括:
A1.百度新闻关键字搜索所需企业,获得该企业新闻URL,然后放入待抓取新闻URL队列;
A2.从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
A3.解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
步骤B具体包括:基于后期聚类分析对象是是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻。
步骤C具体包括:
C1.从数据库读取所需企业的新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
C2.对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
C3.权重计算完成后,进行特征向量化,使用VSM(Vector Space Model,向量空间模型)对每篇新闻进行特征向量化,最终形成高维向量矩阵。
如图2所示,步骤D具体包括:
D1.将该企业的新闻以发布时间进行排序,以第一篇新闻文本d1为第一个簇c1;
D2.加入新的新闻文本di,计算新闻文本di与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度sim的簇cj,将sim与相似度阈值T比较,若大于T,加入标记的簇cj,重新计算该簇的质心特征向量;若小于T,以新闻文本di创建新的簇。簇的质心特征向量计算方法:
D3.判断是否还有新闻文本需要聚类,若有,继续第D2步;若没有,转到第D4步。
D4.产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
步骤E具体包括:对聚类分析产生热点事件簇提取质心新闻(质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻),质心新闻代表簇核心话题,将质心新闻存入数据库。
在本发明中,利用数据挖掘技术,在企业网络新闻数据基础上,可以快速为企业或个人提供企业过去的发生的热点事件。本发明具有快速高效,贴合需求等优点,可在企业或个人中进行推广和应用,具有较强的社会及商业价值。
Claims (5)
1.一种基于增量聚类的企业热点事件挖掘方法,其特征在于,包括以下步骤:
(1)通过网络爬虫获取企业网络新闻;
(2)对爬取的企业网络新闻进行降噪并存入数据库;
(3)从数据库读取企业新闻进行预处理;
(4)对预处理后的企业新闻进行聚类分析;
(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;其中,所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题;
(6)从数据库获取所需企业热点事件进行展示。
2.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(1)具体包括以下子步骤:
(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;
(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
3.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。
4.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。
5.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述所述步骤(4)包括以下子步骤:
(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;
(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;
(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;
(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810680294.5A CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810680294.5A CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145180A CN109145180A (zh) | 2019-01-04 |
CN109145180B true CN109145180B (zh) | 2021-07-20 |
Family
ID=64802391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810680294.5A Active CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145180B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134847A (zh) * | 2019-05-06 | 2019-08-16 | 北京科技大学 | 一种基于互联网金融信息的热点挖掘方法及系统 |
CN110990574B (zh) * | 2019-12-17 | 2023-05-09 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN111157680B (zh) * | 2019-12-31 | 2021-10-26 | 北京辰安科技股份有限公司 | 室内挥发性物质的泄漏溯源方法及装置 |
CN111309911B (zh) * | 2020-02-17 | 2022-06-14 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN115964499B (zh) * | 2023-03-16 | 2023-05-09 | 北京长河数智科技有限责任公司 | 基于知识图谱的社会治理事件挖掘方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN105825672A (zh) * | 2016-04-11 | 2016-08-03 | 中山大学 | 一种基于浮动车数据的城市指引区域提取方法 |
WO2017139575A1 (en) * | 2016-02-11 | 2017-08-17 | Ebay Inc. | Semantic category classification |
CN108038497A (zh) * | 2017-12-05 | 2018-05-15 | 锐捷网络股份有限公司 | 一种交流电设备的工作状态判定模型建立方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10419245B2 (en) * | 2016-11-29 | 2019-09-17 | Motorola Mobility Llc | Method and apparatus for determining parameters and conditions for line of sight MIMO communication |
-
2018
- 2018-06-27 CN CN201810680294.5A patent/CN109145180B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
WO2017139575A1 (en) * | 2016-02-11 | 2017-08-17 | Ebay Inc. | Semantic category classification |
CN105825672A (zh) * | 2016-04-11 | 2016-08-03 | 中山大学 | 一种基于浮动车数据的城市指引区域提取方法 |
CN108038497A (zh) * | 2017-12-05 | 2018-05-15 | 锐捷网络股份有限公司 | 一种交流电设备的工作状态判定模型建立方法及设备 |
Non-Patent Citations (1)
Title |
---|
无标记训练样本的Web文本分类方法;刘丽珍;《计算机科学》;20061231;第33卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109145180A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
WO2019085236A1 (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN107562742B (zh) | 一种图像数据处理方法及装置 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN101320375B (zh) | 基于用户点击行为的数字图书搜索方法 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
WO2016058267A1 (zh) | 一种基于网站主页特征分析的中文网站分类方法和系统 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN108334489B (zh) | 文本核心词识别方法和装置 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN109918556B (zh) | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
Sihombing et al. | Fake review detection on yelp dataset using classification techniques in machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |