CN109145180A - 一种基于增量聚类的企业热点事件挖掘方法 - Google Patents
一种基于增量聚类的企业热点事件挖掘方法 Download PDFInfo
- Publication number
- CN109145180A CN109145180A CN201810680294.5A CN201810680294A CN109145180A CN 109145180 A CN109145180 A CN 109145180A CN 201810680294 A CN201810680294 A CN 201810680294A CN 109145180 A CN109145180 A CN 109145180A
- Authority
- CN
- China
- Prior art keywords
- news
- cluster
- enterprise
- hot spots
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Abstract
本发明涉及一种基于增量聚类的企业热点事件挖掘方法,包括以下步骤:通过网络爬虫获取企业网络新闻;对爬取的企业网络新闻进行降噪并存入数据库;从数据库读取企业新闻进行预处理;对预处理后的企业新闻进行聚类分析;对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;从数据库获取所需企业热点事件并以时间为序进行展示。本发明能够为企业或个人提供企业过去发生的热点事件。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种基于增量聚类的企业热点事件挖掘方法。
背景技术
近年来,利用网络新闻进行数据挖掘分析已有很多课题和任务,例如新闻推荐、文本关键词抽取和舆情监测等。对于网络新闻热点话题也已经有很多的研究,普遍采用话题检测与跟踪方法。同样对于企业热点事件的研究,也可以采用类似话题检测与跟踪的方法,这种基于增量聚类的方法能够更加快速准确的将企业热点新闻提取出来,相对于人工查找、排除、选择热点新闻更为高效。但目前针对于企业的网络新闻研究相对较少,因此本发明将利用企业的网络新闻实现企业热点事件的挖掘。
发明内容
本发明所要解决的技术问题是提供一种基于增量聚类的企业热点事件挖掘方法,能够为企业或个人提供企业过去发生的热点事件。
本发明解决其技术问题所采用的技术方案是:提供一种基于增量聚类的企业热点事件挖掘方法,包括以下步骤:
(1)通过网络爬虫获取企业网络新闻;
(2)对爬取的企业网络新闻进行降噪并存入数据库;
(3)从数据库读取企业新闻进行预处理;
(4)对预处理后的企业新闻进行聚类分析;
(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;
(6)从数据库获取所需企业热点事件进行展示。
所述步骤(1)具体包括以下子步骤:
(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;
(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。
所述步骤(3)包括以下子步骤:
(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。
所述所述步骤(4)包括以下子步骤:
(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;
(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;
(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;
(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
所述步骤(5)中所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明能够为企业或个人提供企业过去产生的热点事件,这种基于增量聚类的方法能够更加快速准确的将企业热点事件提取出来,这是一种无监督自动产生企业热点事件的方法,相对于人工查找、排除、选择热点事件更为高效。
附图说明
图1是本发明的整体框架图;
图2是本发明中增量聚类分析的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于增量聚类的企业热点事件的挖掘方法,如图1所示,包括以下步骤:A通过网络爬虫获取企业网络新闻;B对爬取的企业网络新闻进行降噪并存入数据库;C从数据库读取企业新闻进行预处理,预处理包括文本分词、词加权以及特征向量化;D对预处理后的企业新闻进行聚类分析;E对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;F从数据库获取所需企业热点事件并以时间为序在Web页面展示。
其中,步骤A具体包括:
A1.百度新闻关键字搜索所需企业,获得该企业新闻URL,然后放入待抓取新闻URL队列;
A2.从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
A3.解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
步骤B具体包括:基于后期聚类分析对象是是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻。
步骤C具体包括:
C1.从数据库读取所需企业的新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
C2.对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
C3.权重计算完成后,进行特征向量化,使用VSM(Vector Space Model,向量空间模型)对每篇新闻进行特征向量化,最终形成高维向量矩阵。
如图2所示,步骤D具体包括:
D1.将该企业的新闻以发布时间进行排序,以第一篇新闻文本d1为第一个簇c1;
D2.加入新的新闻文本di,计算新闻文本di与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度sim的簇cj,将sim与相似度阈值T比较,若大于T,加入标记的簇cj,重新计算该簇的质心特征向量;若小于T,以新闻文本di创建新的簇。簇的质心特征向量计算方法:
上式中,N代表该簇中总新闻文本数,vj代表簇中第j个新闻文本的特征向量,代表计算后簇的平均特征向量,即质心特征向量。
D3.判断是否还有新闻文本需要聚类,若有,继续第D2步;若没有,转到第D4步。
D4.产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
步骤E具体包括:对聚类分析产生热点事件簇提取质心新闻(质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻),质心新闻代表簇核心话题,将质心新闻存入数据库。
在本发明中,利用数据挖掘技术,在企业网络新闻数据基础上,可以快速为企业或个人提供企业过去的发生的热点事件。本发明具有快速高效,贴合需求等优点,可在企业或个人中进行推广和应用,具有较强的社会及商业价值。
Claims (6)
1.一种基于增量聚类的企业热点事件挖掘方法,其特征在于,包括以下步骤:
(1)通过网络爬虫获取企业网络新闻;
(2)对爬取的企业网络新闻进行降噪并存入数据库;
(3)从数据库读取企业新闻进行预处理;
(4)对预处理后的企业新闻进行聚类分析;
(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;
(6)从数据库获取所需企业热点事件进行展示。
2.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(1)具体包括以下子步骤:
(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;
(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
3.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。
4.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。
5.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述所述步骤(4)包括以下子步骤:
(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;
(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;
(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;
(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
6.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(5)中所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810680294.5A CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810680294.5A CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145180A true CN109145180A (zh) | 2019-01-04 |
CN109145180B CN109145180B (zh) | 2021-07-20 |
Family
ID=64802391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810680294.5A Active CN109145180B (zh) | 2018-06-27 | 2018-06-27 | 一种基于增量聚类的企业热点事件挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145180B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134847A (zh) * | 2019-05-06 | 2019-08-16 | 北京科技大学 | 一种基于互联网金融信息的热点挖掘方法及系统 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN111157680A (zh) * | 2019-12-31 | 2020-05-15 | 北京辰安科技股份有限公司 | 室内挥发性物质的泄漏溯源方法及装置 |
CN111309911A (zh) * | 2020-02-17 | 2020-06-19 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN114519163A (zh) * | 2022-02-21 | 2022-05-20 | 江西数易科技有限公司 | 基于正则匹配和Bloom filter的增量新闻URL提取方法 |
CN115964499A (zh) * | 2023-03-16 | 2023-04-14 | 北京长河数智科技有限责任公司 | 基于知识图谱的社会治理事件挖掘方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN105825672A (zh) * | 2016-04-11 | 2016-08-03 | 中山大学 | 一种基于浮动车数据的城市指引区域提取方法 |
WO2017139575A1 (en) * | 2016-02-11 | 2017-08-17 | Ebay Inc. | Semantic category classification |
CN108038497A (zh) * | 2017-12-05 | 2018-05-15 | 锐捷网络股份有限公司 | 一种交流电设备的工作状态判定模型建立方法及设备 |
US20180152325A1 (en) * | 2016-11-29 | 2018-05-31 | Motorola Mobility Llc | Method and apparatus for determining parameters and conditions for line of sight mimo communication |
-
2018
- 2018-06-27 CN CN201810680294.5A patent/CN109145180B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
WO2017139575A1 (en) * | 2016-02-11 | 2017-08-17 | Ebay Inc. | Semantic category classification |
CN105825672A (zh) * | 2016-04-11 | 2016-08-03 | 中山大学 | 一种基于浮动车数据的城市指引区域提取方法 |
US20180152325A1 (en) * | 2016-11-29 | 2018-05-31 | Motorola Mobility Llc | Method and apparatus for determining parameters and conditions for line of sight mimo communication |
CN108038497A (zh) * | 2017-12-05 | 2018-05-15 | 锐捷网络股份有限公司 | 一种交流电设备的工作状态判定模型建立方法及设备 |
Non-Patent Citations (1)
Title |
---|
刘丽珍: "无标记训练样本的Web文本分类方法", 《计算机科学》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134847A (zh) * | 2019-05-06 | 2019-08-16 | 北京科技大学 | 一种基于互联网金融信息的热点挖掘方法及系统 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN110990574B (zh) * | 2019-12-17 | 2023-05-09 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN111157680A (zh) * | 2019-12-31 | 2020-05-15 | 北京辰安科技股份有限公司 | 室内挥发性物质的泄漏溯源方法及装置 |
CN111157680B (zh) * | 2019-12-31 | 2021-10-26 | 北京辰安科技股份有限公司 | 室内挥发性物质的泄漏溯源方法及装置 |
CN111309911A (zh) * | 2020-02-17 | 2020-06-19 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN111309911B (zh) * | 2020-02-17 | 2022-06-14 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN114519163A (zh) * | 2022-02-21 | 2022-05-20 | 江西数易科技有限公司 | 基于正则匹配和Bloom filter的增量新闻URL提取方法 |
CN114519163B (zh) * | 2022-02-21 | 2024-05-03 | 江西数易科技有限公司 | 基于正则匹配和Bloom filter的增量新闻URL提取方法 |
CN115964499A (zh) * | 2023-03-16 | 2023-04-14 | 北京长河数智科技有限责任公司 | 基于知识图谱的社会治理事件挖掘方法及装置 |
CN115964499B (zh) * | 2023-03-16 | 2023-05-09 | 北京长河数智科技有限责任公司 | 基于知识图谱的社会治理事件挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109145180B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145180A (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
WO2019085236A1 (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
US8983971B2 (en) | Method, apparatus, and system for mobile search | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN108241667A (zh) | 用于推送信息的方法和装置 | |
CN104268175B (zh) | 一种数据搜索的装置及其方法 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN109101477A (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN103226576A (zh) | 基于语义相似度的垃圾评论过滤方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN111160019B (zh) | 一种舆情监测的方法、装置及系统 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN111104801B (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
Xin et al. | The implementation of an AI-driven advertising push system based on a NLP algorithm | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN102087648A (zh) | 一种新闻评论页面的爬取方法及系统 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
US20230074771A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |