CN112328792A

CN112328792A - 一种基于dbscan聚类算法识别信用事件的优化方法

Info

Publication number: CN112328792A
Application number: CN202011238548.1A
Authority: CN
Inventors: 苏坤雄; 侯光亮
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-05

Abstract

本发明公开一种基于DBSCAN聚类算法识别信用事件的优化方法,涉及自然语言处理领域；抓取各类信用新闻的关键信息，预处理信用新闻，获取信用新闻正文的文档向量表示，提取信用新闻正文的关键词，利用DBSCAN聚类方法进行信用新闻的聚类：判定信用新闻的邻域，满足信用新闻之间发布时间间隔在阈值时间内，并且信用新闻之间的关键词重合数量在阈值数量内，并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径，则判定信用新闻邻接，否则信用新闻不邻接，完成信用新闻的聚类。

Description

一种基于DBSCAN聚类算法识别信用事件的优化方法

技术领域

本发明公开一种优化方法,涉及自然语言处理领域，具体地说是一种基于DBSCAN聚类算法识别信用事件的优化方法。

背景技术

信用事件由一系列信用新闻组成，揭示了一个事件发生、传播、结束的全过程，往往时间跨度较大，表述方式多种多样，单纯的文本相似度较低。因此进行自然语言文本处理时，由于输入新闻的话题数难以确定，导致无法确定K值，使得以K-means聚类算法为代表的划分法并不可行。同时新闻文本的数据量往往较大，且新闻的产生源源不断，导致层次法同样不适用于信用新闻聚类任务。而利用DBSCAN聚类算法处理信用新闻时，单纯的利用DBSCAN聚类算法，精确度不高，也不能很好的聚类新闻文本。

发明内容

本发明针对现有技术的问题，提供一种基于DBSCAN聚类算法识别信用事件的优化方法，补充应用与新闻文本聚类时现有DBSCAN聚类方法聚类精确度低的不足，优化新闻文本的聚类效果。

本发明提出的具体方案是：

一种基于DBSCAN聚类算法识别信用事件的优化方法，抓取各类信用新闻的关键信息，

预处理信用新闻，

获取信用新闻正文的文档向量表示，

提取信用新闻正文的关键词，

利用DBSCAN聚类方法进行信用新闻的聚类：

判定信用新闻的邻域，满足信用新闻之间发布时间间隔在阈值时间内，并且信用新闻之间的关键词重合数量在阈值数量内，并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径，则判定信用新闻邻接，否则信用新闻不邻接，完成信用新闻的聚类。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中利用网络爬虫技术从网站抓取各类信用新闻的关键信息。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中预处理信用新闻：滤掉信用新闻中无意义的停用词并将信用新闻进行排序。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中获取信用新闻正文的文档向量表示：对预处理后信用新闻以新闻标题为标签，利用Doc2Vec模型训练，获取信用新闻正文的文档向量。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化方法中提取信用新闻正文的关键词：利用TextRank算法，按照权重提取信用新闻正文中一定数量的关键词，并排除关键词词组中单字词汇。

一种基于DBSCAN聚类算法识别信用事件的优化系统，包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块，

抓取模块抓取各类信用新闻的关键信息，

预处理模块预处理信用新闻，

向量处理模块获取信用新闻正文的文档向量表示，

关键词提取模块提取信用新闻正文的关键词，

聚类模块利用DBSCAN聚类方法进行信用新闻的聚类：

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中抓取模块利用网络爬虫技术从网站抓取各类信用新闻的关键信息。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中预处理模块预处理信用新闻：滤掉信用新闻中无意义的停用词并将信用新闻进行排序。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中向量处理模块获取信用新闻正文的文档向量表示：对预处理后信用新闻以新闻标题为标签，利用Doc2Vec模型训练，获取信用新闻正文的文档向量。

优选地，所述的一种基于DBSCAN聚类算法识别信用事件的优化系统中关键词提取模块提取信用新闻正文的关键词：利用TextRank算法，按照权重提取信用新闻正文中一定数量的关键词，并排除关键词词组中单字词汇。

本发明的有益之处是：

本发明提供一种基于DBSCAN聚类算法识别信用事件的优化方法，通过判定信用新闻的邻域，满足信用新闻之间发布时间间隔在阈值时间内，并且信用新闻之间的关键词重合数量在阈值数量内，并且信用新闻的文档向量之间的欧氏距离小于预设的最小半径，则判定信用新闻邻接，否则信用新闻不邻接，完成信用新闻的聚类，即利用信用新闻的关键词等补充了DBSCAN聚类方法对新闻文本聚类时的邻域判定依据，完成对信用新闻的聚类工作，提高了新闻聚类的精确性，减少了人工纠误的工作量。同时聚类后的信用事件有利于政府部门及时解读信用热点舆情，分析信用事件影响，维护社会稳定。

附图说明

图1是本发明方法流程示意图。

具体实施方式

信用事件本质上是一个个信用新闻在进行文本聚类后的结果，常用的文本聚类方法有划分法(代表算法K-means算法等)、层次法(代表算法BIRCH算法等)、以及基于密度算法(代表算法DBSCAN算法)等。

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提供一种基于DBSCAN聚类算法识别信用事件的优化方法，抓取各类信用新闻的关键信息，

预处理信用新闻，

获取信用新闻正文的文档向量表示，

提取信用新闻正文的关键词，

利用DBSCAN聚类方法进行信用新闻的聚类：

本发明方法可使用网络爬虫技术、TextRank文本关键词提取算法、Doc2Vec文档向量模型以及DBSCAN聚类算法，利用信用新闻的发布时间与关键词，补充了DBSCAN聚类算法的邻域判定依据。通过实现该方法，很好的提升了信用新闻的事件聚类效果。

具体应用中，在本发明的一些实施例中，过程如下：

采集信用新闻：利用网络爬虫技术，从各大新闻网站上大批量抓取各类信用新闻的标题、正文、发布时间等关键信息。

信用新闻预处理：对采集的新闻，利用分词技术等，过滤掉文本中无意义的停用词等，并将新闻按照发布时间进行排序。

获取信用新闻正文的向量表示：对预处理后信用新闻以新闻标题为标签，利用Doc2Vec模型训练，获取新闻正文的文档向量。

提取正文的关键词：利用TextRank算法，提取信用新闻正文中权重最大的一定数量的关键词，具体数量可根据实际判定情况进行选择，比如5个，实践过程由于分词算法的局限，部分情况下，单字的权重较大，但并不能很好的表达信用新闻的事件脉络，顾抽取到的关键词词组中需排除掉单字词汇。

利用DBSCAN聚类方法进行聚类，获取聚类结果：

对邻域进行判定时，需同时满足以下三个条件：

由于信用新闻的实时性，信用新闻之间的发布时间间隔在阈值时间以内，才会被认为可能邻接，阈值时间可根据需求进行具体设定，比如3-6个月等等，

新闻的关键词描述了一个新闻的事件脉络，因此当新闻之间的关键词有阈值数量的关键词重合，比如4个及以上重合时，可以直接判定这两条新闻“邻接”，若只有一个或没有关键词相同，则判定为不邻接，

当新闻关键词在阈值数量内一致时，比如两个或三个关键词一致时，此时计算新闻的文档向量之间的欧氏距离，若欧氏距离小于预设的最小半径r，则判定为邻接，反之，则不邻接，

在聚类结束后，将聚类结果中的异常点视为单条新闻的信用事件，其余结果视为多条新闻的信用事件。

例如利用本发明在聚类信用新闻时，DBSCAN聚类算法的半径取1.5，最小点个数取2时，轮廓系数约为0.52354，能够很好的完成对信用新闻的聚类工作，提高了新闻聚类的精确性，减少了人工纠误的工作量。

本发明还提供一种基于DBSCAN聚类算法识别信用事件的优化系统，包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块，

抓取模块抓取各类信用新闻的关键信息，

预处理模块预处理信用新闻，

向量处理模块获取信用新闻正文的文档向量表示，

关键词提取模块提取信用新闻正文的关键词，

聚类模块利用DBSCAN聚类方法进行信用新闻的聚类：

上述系统内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，上述较佳实施例各流程和各系统结构中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于DBSCAN聚类算法识别信用事件的优化方法，其特征是抓取各类信用新闻的关键信息，

预处理信用新闻，

获取信用新闻正文的文档向量表示，

提取信用新闻正文的关键词，

利用DBSCAN聚类方法进行信用新闻的聚类：

2.根据权利要求1所述的一种基于DBSCAN聚类算法识别信用事件的优化方法，其特征是利用网络爬虫技术从网站抓取各类信用新闻的关键信息。

3.根据权利要求1或2所述的一种基于DBSCAN聚类算法识别信用事件的优化方法，其特征是预处理信用新闻：滤掉信用新闻中无意义的停用词并将信用新闻进行排序。

4.根据权利要求3所述的一种基于DBSCAN聚类算法识别信用事件的优化方法，其特征是获取信用新闻正文的文档向量表示：对预处理后信用新闻以新闻标题为标签，利用Doc2Vec模型训练，获取信用新闻正文的文档向量。

5.根据权利要求4所述的一种基于DBSCAN聚类算法识别信用事件的优化方法，其特征是提取信用新闻正文的关键词：利用TextRank算法，按照权重提取信用新闻正文中一定数量的关键词，并排除关键词词组中单字词汇。

6.一种基于DBSCAN聚类算法识别信用事件的优化系统，其特征是包括抓取模块、预处理模块、向量处理模块、关键词提取模块及聚类模块，

抓取模块抓取各类信用新闻的关键信息，

预处理模块预处理信用新闻，

向量处理模块获取信用新闻正文的文档向量表示，

关键词提取模块提取信用新闻正文的关键词，

聚类模块利用DBSCAN聚类方法进行信用新闻的聚类：

7.根据权利要求6所述的一种基于DBSCAN聚类算法识别信用事件的优化系统，其特征是抓取模块利用网络爬虫技术从网站抓取各类信用新闻的关键信息。

8.根据权利要求6或7所述的一种基于DBSCAN聚类算法识别信用事件的优化系统，其特征是预处理模块预处理信用新闻：滤掉信用新闻中无意义的停用词并将信用新闻进行排序。

9.根据权利要求8所述的一种基于DBSCAN聚类算法识别信用事件的优化系统，其特征是向量处理模块获取信用新闻正文的文档向量表示：对预处理后信用新闻以新闻标题为标签，利用Doc2Vec模型训练，获取信用新闻正文的文档向量。

10.根据权利要求9所述的一种基于DBSCAN聚类算法识别信用事件的优化系统，其特征是关键词提取模块提取信用新闻正文的关键词：利用TextRank算法，按照权重提取信用新闻正文中一定数量的关键词，并排除关键词词组中单字词汇。