CN112328792A - 一种基于dbscan聚类算法识别信用事件的优化方法 - Google Patents
一种基于dbscan聚类算法识别信用事件的优化方法 Download PDFInfo
- Publication number
- CN112328792A CN112328792A CN202011238548.1A CN202011238548A CN112328792A CN 112328792 A CN112328792 A CN 112328792A CN 202011238548 A CN202011238548 A CN 202011238548A CN 112328792 A CN112328792 A CN 112328792A
- Authority
- CN
- China
- Prior art keywords
- credit
- news
- text
- dbscan clustering
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本发明公开一种基于DBSCAN聚类算法识别信用事件的优化方法,涉及自然语言处理领域;抓取各类信用新闻的关键信息,预处理信用新闻,获取信用新闻正文的文档向量表示,提取信用新闻正文的关键词,利用DBSCAN聚类方法进行信用新闻的聚类:判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
Description
技术领域
本发明公开一种优化方法,涉及自然语言处理领域,具体地说是一种基于DBSCAN聚类算法识别信用事件的优化方法。
背景技术
信用事件由一系列信用新闻组成,揭示了一个事件发生、传播、结束的全过程,往往时间跨度较大,表述方式多种多样,单纯的文本相似度较低。因此进行自然语言文本处理时,由于输入新闻的话题数难以确定,导致无法确定K值,使得以K-means聚类算法为代表的划分法并不可行。同时新闻文本的数据量往往较大,且新闻的产生源源不断,导致层次法同样不适用于信用新闻聚类任务。而利用DBSCAN聚类算法处理信用新闻时,单纯的利用DBSCAN聚类算法,精确度不高,也不能很好的聚类新闻文本。
发明内容
本发明针对现有技术的问题,提供一种基于DBSCAN聚类算法识别信用事件的优化方法,补充应用与新闻文本聚类时现有DBSCAN聚类方法聚类精确度低的不足,优化新闻文本的聚类效果。
本发明提出的具体方案是:
一种基于DBSCAN聚类算法识别信用事件的优化方法,抓取各类信用新闻的关键信息,
预处理信用新闻,
获取信用新闻正文的文档向量表示,
提取信用新闻正文的关键词,
利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中利用网络爬虫技术从网站抓取各类信用新闻的关键信息。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中预处理信用新闻:滤掉信用新闻中无意义的停用词并将信用新闻进行排序。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中获取信用新闻正文的文档向量表示:对预处理后信用新闻以新闻标题为标签,利用Doc2Vec模型训练,获取信用新闻正文的文档向量。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中提取信用新闻正文的关键词:利用TextRank算法,按照权重提取信用新闻正文中一定数量的关键词,并排除关键词词组中单字词汇。
一种基于DBSCAN聚类算法识别信用事件的优化系统,包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块,
抓取模块抓取各类信用新闻的关键信息,
预处理模块预处理信用新闻,
向量处理模块获取信用新闻正文的文档向量表示,
关键词提取模块提取信用新闻正文的关键词,
聚类模块利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中抓取模块利用网络爬虫技术从网站抓取各类信用新闻的关键信息。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中预处理模块预处理信用新闻:滤掉信用新闻中无意义的停用词并将信用新闻进行排序。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中向量处理模块获取信用新闻正文的文档向量表示:对预处理后信用新闻以新闻标题为标签,利用Doc2Vec模型训练,获取信用新闻正文的文档向量。
优选地,所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中关键词提取模块提取信用新闻正文的关键词:利用TextRank算法,按照权重提取信用新闻正文中一定数量的关键词,并排除关键词词组中单字词汇。
本发明的有益之处是:
本发明提供一种基于DBSCAN聚类算法识别信用事件的优化方法,通过判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类,即利用信用新闻的关键词等补充了DBSCAN聚类方法对新闻文本聚类时的邻域判定依据,完成对信用新闻的聚类工作,提高了新闻聚类的精确性,减少了人工纠误的工作量。同时聚类后的信用事件有利于政府部门及时解读信用热点舆情,分析信用事件影响,维护社会稳定。
附图说明
图1是本发明方法流程示意图。
具体实施方式
信用事件本质上是一个个信用新闻在进行文本聚类后的结果,常用的文本聚类方法有划分法(代表算法K-means算法等)、层次法(代表算法BIRCH算法等)、以及基于密度算法(代表算法DBSCAN算法)等。
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种基于DBSCAN聚类算法识别信用事件的优化方法,抓取各类信用新闻的关键信息,
预处理信用新闻,
获取信用新闻正文的文档向量表示,
提取信用新闻正文的关键词,
利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
本发明方法可使用网络爬虫技术、TextRank文本关键词提取算法、Doc2Vec文档向量模型以及DBSCAN聚类算法,利用信用新闻的发布时间与关键词,补充了DBSCAN聚类算法的邻域判定依据。通过实现该方法,很好的提升了信用新闻的事件聚类效果。
具体应用中,在本发明的一些实施例中,过程如下:
采集信用新闻:利用网络爬虫技术,从各大新闻网站上大批量抓取各类信用新闻的标题、正文、发布时间等关键信息。
信用新闻预处理:对采集的新闻,利用分词技术等,过滤掉文本中无意义的停用词等,并将新闻按照发布时间进行排序。
获取信用新闻正文的向量表示:对预处理后信用新闻以新闻标题为标签,利用Doc2Vec模型训练,获取新闻正文的文档向量。
提取正文的关键词:利用TextRank算法,提取信用新闻正文中权重最大的一定数量的关键词,具体数量可根据实际判定情况进行选择,比如5个,实践过程由于分词算法的局限,部分情况下,单字的权重较大,但并不能很好的表达信用新闻的事件脉络,顾抽取到的关键词词组中需排除掉单字词汇。
利用DBSCAN聚类方法进行聚类,获取聚类结果:
对邻域进行判定时,需同时满足以下三个条件:
由于信用新闻的实时性,信用新闻之间的发布时间间隔在阈值时间以内,才会被认为可能邻接,阈值时间可根据需求进行具体设定,比如3-6个月等等,
新闻的关键词描述了一个新闻的事件脉络,因此当新闻之间的关键词有阈值数量的关键词重合,比如4个及以上重合时,可以直接判定这两条新闻“邻接”,若只有一个或没有关键词相同,则判定为不邻接,
当新闻关键词在阈值数量内一致时,比如两个或三个关键词一致时,此时计算新闻的文档向量之间的欧氏距离,若欧氏距离小于预设的最小半径r,则判定为邻接,反之,则不邻接,
在聚类结束后,将聚类结果中的异常点视为单条新闻的信用事件,其余结果视为多条新闻的信用事件。
例如利用本发明在聚类信用新闻时,DBSCAN聚类算法的半径取1.5,最小点个数取2时,轮廓系数约为0.52354,能够很好的完成对信用新闻的聚类工作,提高了新闻聚类的精确性,减少了人工纠误的工作量。
本发明还提供一种基于DBSCAN聚类算法识别信用事件的优化系统,包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块,
抓取模块抓取各类信用新闻的关键信息,
预处理模块预处理信用新闻,
向量处理模块获取信用新闻正文的文档向量表示,
关键词提取模块提取信用新闻正文的关键词,
聚类模块利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
上述系统内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,上述较佳实施例各流程和各系统结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种基于DBSCAN聚类算法识别信用事件的优化方法,其特征是抓取各类信用新闻的关键信息,
预处理信用新闻,
获取信用新闻正文的文档向量表示,
提取信用新闻正文的关键词,
利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
2.根据权利要求1所述的一种基于DBSCAN聚类算法识别信用事件的优化方法,其特征是利用网络爬虫技术从网站抓取各类信用新闻的关键信息。
3.根据权利要求1或2所述的一种基于DBSCAN聚类算法识别信用事件的优化方法,其特征是预处理信用新闻:滤掉信用新闻中无意义的停用词并将信用新闻进行排序。
4.根据权利要求3所述的一种基于DBSCAN聚类算法识别信用事件的优化方法,其特征是获取信用新闻正文的文档向量表示:对预处理后信用新闻以新闻标题为标签,利用Doc2Vec模型训练,获取信用新闻正文的文档向量。
5.根据权利要求4所述的一种基于DBSCAN聚类算法识别信用事件的优化方法,其特征是提取信用新闻正文的关键词:利用TextRank算法,按照权重提取信用新闻正文中一定数量的关键词,并排除关键词词组中单字词汇。
6.一种基于DBSCAN聚类算法识别信用事件的优化系统,其特征是包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块,
抓取模块抓取各类信用新闻的关键信息,
预处理模块预处理信用新闻,
向量处理模块获取信用新闻正文的文档向量表示,
关键词提取模块提取信用新闻正文的关键词,
聚类模块利用DBSCAN聚类方法进行信用新闻的聚类:
判定信用新闻的邻域,满足信用新闻之间发布时间间隔在阈值时间内,并且信用新闻之间的关键词重合数量在阈值数量内,并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径,则判定信用新闻邻接,否则信用新闻不邻接,完成信用新闻的聚类。
7.根据权利要求6所述的一种基于DBSCAN聚类算法识别信用事件的优化系统,其特征是抓取模块利用网络爬虫技术从网站抓取各类信用新闻的关键信息。
8.根据权利要求6或7所述的一种基于DBSCAN聚类算法识别信用事件的优化系统,其特征是预处理模块预处理信用新闻:滤掉信用新闻中无意义的停用词并将信用新闻进行排序。
9.根据权利要求8所述的一种基于DBSCAN聚类算法识别信用事件的优化系统,其特征是向量处理模块获取信用新闻正文的文档向量表示:对预处理后信用新闻以新闻标题为标签,利用Doc2Vec模型训练,获取信用新闻正文的文档向量。
10.根据权利要求9所述的一种基于DBSCAN聚类算法识别信用事件的优化系统,其特征是关键词提取模块提取信用新闻正文的关键词:利用TextRank算法,按照权重提取信用新闻正文中一定数量的关键词,并排除关键词词组中单字词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238548.1A CN112328792A (zh) | 2020-11-09 | 2020-11-09 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238548.1A CN112328792A (zh) | 2020-11-09 | 2020-11-09 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112328792A true CN112328792A (zh) | 2021-02-05 |
Family
ID=74316440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011238548.1A Pending CN112328792A (zh) | 2020-11-09 | 2020-11-09 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328792A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN115658879A (zh) * | 2022-12-29 | 2023-01-31 | 北京天际友盟信息技术有限公司 | 自动化威胁情报文本聚类方法和系统 |
CN116975539A (zh) * | 2023-08-16 | 2023-10-31 | 杭州火奴数据科技有限公司 | 基于聚类算法的营销数据存储管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
CN109977397A (zh) * | 2019-02-18 | 2019-07-05 | 广州市诚毅科技软件开发有限公司 | 基于词性组合的新闻热点提取方法、系统及存储介质 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和系统 |
CN110399478A (zh) * | 2018-04-19 | 2019-11-01 | 清华大学 | 事件发现方法和装置 |
-
2020
- 2020-11-09 CN CN202011238548.1A patent/CN112328792A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399478A (zh) * | 2018-04-19 | 2019-11-01 | 清华大学 | 事件发现方法和装置 |
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
CN109977397A (zh) * | 2019-02-18 | 2019-07-05 | 广州市诚毅科技软件开发有限公司 | 基于词性组合的新闻热点提取方法、系统及存储介质 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和系统 |
Non-Patent Citations (1)
Title |
---|
张婷: ""新闻报道的交互式时间线系统研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN115658879A (zh) * | 2022-12-29 | 2023-01-31 | 北京天际友盟信息技术有限公司 | 自动化威胁情报文本聚类方法和系统 |
CN116975539A (zh) * | 2023-08-16 | 2023-10-31 | 杭州火奴数据科技有限公司 | 基于聚类算法的营销数据存储管理系统 |
CN116975539B (zh) * | 2023-08-16 | 2024-03-19 | 杭州火奴数据科技有限公司 | 基于聚类算法的营销数据存储管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN112328792A (zh) | 一种基于dbscan聚类算法识别信用事件的优化方法 | |
CN112632292A (zh) | 业务关键词的提取方法、装置、设备及存储介质 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109299480A (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN103942191A (zh) | 一种基于内容的恐怖文本识别方法 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN104866606B (zh) | 一种MapReduce并行化大数据文本分类方法 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
Ye et al. | Syntactic word embedding based on dependency syntax and polysemous analysis | |
KR101092352B1 (ko) | 문장 코퍼스에 대한 영역 자동분류 방법 및 장치 | |
US20230315799A1 (en) | Method and system for extracting information from input document comprising multi-format information | |
TWI396990B (zh) | 引用文獻記錄擷取系統、方法及程式產品 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
Nguyen et al. | Kelabteam: A statistical approach on figurative language sentiment analysis in twitter | |
CN116089610A (zh) | 一种基于行业知识的标签识别方法及装置 | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN109344251A (zh) | 一种基于层分类器和模板匹配的特定文本信息抽取方法 | |
CN115114399A (zh) | 一种基于nlp技术实现文本数据治理预处理的方法 | |
CN114064904A (zh) | 一种用于医疗文本的聚类方法、系统及装置 | |
KR102086642B1 (ko) | 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |