CN113449108B

CN113449108B - 一种基于层级化聚类的金融新闻流突发检测方法

Info

Publication number: CN113449108B
Application number: CN202110734921.0A
Authority: CN
Inventors: 周沧琦; 陈辉; 王慧慧; 杨帆; 王毓祥
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-10-21
Anticipated expiration: 2041-06-30
Also published as: CN113449108A

Abstract

一种基于层级化聚类的金融新闻流突发检测方法，包括：文本的预处理；抽取关键词并构建关键词共现图；采用二分K‑Means算法对关键词聚类，将关键词共现图划分为若干子图，每个子图中的关键词为一个金融主题；通过相似度计算识别每篇金融新闻所属金融主题；构建以每篇金融新闻为节点的无向图，采用二分K‑Means算法对金融新闻聚类，将金融新闻节点无向图划分为若干子图，每个子图中的金融新闻为一个金融事件；通过相似度计算生成故事链；突发事件检测。本发明通过自然语言处理及图论相关技术，对金融新闻进行事件聚类，解决了传统金融突发事件不能将同一事件相关新闻综合考虑的问题，实现了高效准确地检测出金融突发事件，具有一定的工业价值。

Description

一种基于层级化聚类的金融新闻流突发检测方法

技术领域

本发明涉及金融新闻数据挖掘领域，尤其是一种基于层级化聚类的金融新闻流突发检测方法。

背景技术

投资者是金融市场的重要参与者，一旦爆发金融突发事件，将殃及广大投资者。对于金融突发事件的检测，有助于帮助投资者规避风险。

近年来，金融行业相关的舆情呈现“浪涌”态势，出现时间相对集中、信息交互量大，交互次数频繁。金融舆情的产生、扩大和传播对投资者、金融机构、金融业乃至宏观经济运行都会产生重要影响，往往一些小的信用危机，则有可能酿成金融危机事件，因此，对金融舆情进行监测与应对可以把握预期管理的节奏，减少和避免金融舆情危机的爆发。金融行业目前应对突发事件存在以下问题：

1.危机意识薄弱，金融突发事件监控力度不够；

2.金融突发事件应对体系不够完善；

3.金融突发事件发生时网络舆论的引导和处置不够专业。

这些问题也是由于现行对于金融突发事件的监控方法所导致的，当前的方法以专业人员梳理新闻脉络根据潜在规律分析为主。专业人员通常会通过观察宏观、中观(行业)、微观(企业)的新闻事件再根据过去的经验辅助推断可能会发生某个类似的金融突发事件。宏观新闻主要包括以下几种：

1.国际政治军事的大事件。有可能造成国际局势动荡的大事件，都会造成避险资产(黄金、白银、美元、日元、瑞士法郎)的升值，风险资产(尤以股票为甚)的下跌。相反，当国际局势趋于明朗安定的时候，避险资产会下跌，市场风险偏好会增加。

2.国内财政政策。一般减税、大型基建计划推出时会利好股市。

3.国内货币政策。降准、公开市场操作、调整再贴现利率、信贷政策等也会对债市、股市、汇市产生影响。

4.定期发布的宏观经济数据。具体而言，有PPI(生产者物价指数)，CPI(消费者物价指数)，GDP，PMI，美国非农就业人数等。

5.国际经贸协定。

中观的行业新闻包括以下几种：

1.产业政策。例如，医保政策限定药品采购价，医药股大跌。

2.产业自身及其上下游重大技术进展，特别是可能改变行业竞争格局的技术进展。

3.个别的突发新闻。

微观(企业个体、某类商品)新闻主要包括以下几种：

1.大宗商品供需；

2.公司财务报表发布；

3.公司新产品销售状况；

4.公司自身重大风险事件；

5.股东减持、解禁等；

6.公司并购与重组等。

从以上内容可以看出监控金融突发事件需要考虑的新闻数据和要素繁多，仅依靠人力去分析判断无法满足多层次、全方位、全屏全网全时段全天候的金融事件监控力度；无法及时建立应对体系来调查金融新闻舆情传播源头，路径，传播范围；无法低成本的培训大量相关人员快速上手进行金融事件的监控和处理。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种可以高效准确的对金融突发事件进行聚类和识别的方法。

为了解决上述技术问题，本发明公开了一种基于层级化聚类的金融新闻流突发检测方法，包括如下步骤：

步骤S1：文本的预处理；

步骤S2：抽取关键词并构建关键词共现图；

步骤S3：采用二分K-Means算法对关键词聚类，将关键词共现图划分为若干子图，每个子图中的关键词为一个金融主题；

步骤S4：通过相似度计算识别每篇金融新闻所属金融主题；

步骤S5：构建以每篇金融新闻为节点的无向图，采用二分K-Means算法对金融新闻聚类，将金融新闻节点无向图划分为若干子图，每个子图中的金融新闻为一个金融事件；

步骤S6：通过相似度计算生成故事链；

步骤S7：突发事件检测。

步骤S1包括：

步骤S11：通过网络爬虫获取金融新闻文本；

步骤S12：去除金融新闻文本中的非正文冗余内容，包括页面标签和非法字符；

步骤S13：获取金融新闻信息，包括新闻标题、新闻正文和新闻发布时间三个信息；

步骤S14：对金融新闻创建索引。

进一步地，步骤S11中，金融新闻文本数据来源可以包括巨潮资讯(证监会信息披露网站)，同花顺(财经资讯网站)，东方财富(财经资讯网站)，凤凰财经(财经资讯网站)，新浪财经(新浪财经)以及华为，阿里巴巴，腾讯，新城控股等公司官网发布的公告。

进一步地，步骤S14中，对金融新闻清洗后创建关系型数据库存储格式的索引，字段包括新闻编号(唯一标识)，新闻类型，发布时间，新闻来源网站，新闻链接，作者，标题，新闻内容。

步骤S2包括：

步骤S21：对步骤S1中预处理后的数据进行中文分词处理，去除停用词，获得候选词集；

步骤S22：用一定的关键词提取方法从候选词集中提取关键词；

步骤S23：以关键词作为节点，任意两个关键词的共现关系为边构建关键词共现图；

步骤S24：过滤关键词共现图中共现频次小于阈值Thre1以及共现频率小于阈值Thre2的边。

进一步地，步骤S22中，关键词提取方法是：利用TextRank算法将候选词以重要性进行排序，取出排名靠前的若干词；利用KP-Miner算法将候选词以权重进行排序，取出排名靠前的若干词；从两种方法取出的若干词中筛选出较好的关键词。

进一步地，步骤S22中，可采用机器学习代替TextRank算法对关键词进行识别。

进一步地，步骤S24中，阈值Thre1的取值范围是[1,5]，当阈值Thre1＝1时，规模较大的公司如华为所构建的关键词共现图中边的数目大概在10000左右，当阈值 Thre1＝5时，关键词共现图中边的数目大概在2000左右。

优选地，步骤S24中，阈值Thre1＝3。

进一步地，步骤S24中，阈值Thre2的取值范围是[0.05,0.25]，在Thre1＝3的条件下，当阈值Thre2＝0.05时，关键词共现图中边的数目大概在6500左右，当阈值 Thre2＝0.25时，关键词共现图中边的数目大概在2200左右。

优选地，步骤S24中，阈值Thre2＝0.15。

步骤S3包括：

步骤S31：对步骤S2中构建的关键词共现图使用图挖掘算法，得到每个关键词节点表示向量；

步骤S32：训练步骤S31中得到的关键词节点表示向量；

步骤S33：通过二分K-Means算法，将关键词共现图划分为若干个子图，每个子图中的关键词为同一个金融主题。

进一步地，步骤S31中，使用的图挖掘算法为：图表示学习算法Node2vec。

步骤S4包括：

步骤S41：将每个金融主题通过词袋模型表示为向量，构建K-D树；

步骤S42：将每篇金融新闻表示为TF-IDF向量；

步骤S43：通过K-D树最近邻搜索，将每篇金融新闻划分入对应的金融主题，最终所有金融新闻被划分为若干个金融主题。

步骤S5包括：

步骤S51：在一个金融主题下，以每篇金融新闻作为节点，任意两篇金融新闻的相似度作为边的权重相连，构建金融新闻节点无向图；

步骤S52：过滤上述金融新闻节点无向图中相似度小于阈值Thre3的边；

步骤S53：利用TD-IDF加权词向量生成金融新闻节点无向图中每个金融新闻节点表示向量；

步骤S54：训练S53中得到的金融新闻节点表示向量；

步骤S55：通过二分K-Means算法，将金融新闻节点无向图划分为若干个子图，每个子图中的金融新闻为同一个金融事件；

步骤S56：将一个金融事件下所有金融新闻的关键词的并集作为该金融事件的关键词。

进一步地，步骤S51中，计算任意两篇金融新闻的余弦相似度或Jaccard相似度作为边的权重。

进一步地，步骤S52中，阈值Thre3的取值范围是[0.3,0.7]，当阈值Thre3＝0.3时，平均一个金融新闻节点无向图中边的数量为200左右，当阈值Thre3＝0.7时，边的数量为40左右。

优选地，步骤S52中，阈值Thre3＝0.6。

进一步地，步骤S53中，可用图卷机神经网络GCN代替TF-IDF加权词向量来生成无向图节点的向量表示，以词向量作为节点属性向量，相似度作为权值放入图卷机神经网络中，每个节点的表示向量由邻居节点的信息聚合得到。

步骤S6包括：

步骤S61：设定阈值Thre4；

步骤S62：将一个金融事件作为根节点生成故事链；

步骤S63：将一个故事链下所有金融事件的关键词的并集作为该故事链的关键词；

步骤S64：计算新识别出的金融事件的关键词与已生成故事链的关键词之间的相似度，将新识别出的金融事件加入到相似度最高且高于设定阈值Thre4的故事链中，每一件金融事件均为故事链上的一个节点；否则以根节点的形式创建新故事链。

进一步地，步骤S61中，阈值Thre4的取值范围是[0,1]，当阈值Thre4＝0.7时，结果生成的故事链较短但主题集中，当阈值Thre4＝0.5时，结果生成的故事链较长主题比较集中。

优选地，步骤S61中，阈值Thre4＝0.6。

进一步地，步骤S64中，相似度计算方法为Jaccard相似度。

步骤S7包括：

步骤S71：设置一个滑动时间窗口，并计算窗口期内故事链中事件的平均发生频率；

步骤S72：确定阈值Thre5；

步骤S73：判断故事链中最新的窗口期内事件的发生频率是否高于阈值Thre5，若高于，则判定为突发事件，反之不为突发事件。

进一步地，步骤S71中，针对主流金融主体的新闻流数据，滑动时间窗口宽度一般设置为1天。

进一步地，步骤S72中，阈值Thre5的取值范围是[30,100]，当阈值Thre5＝30时，结果出现较多较低的突发事件，当阈值Thre5＝100时，结果中出现典型且主题具有异常性的突发事件。

优选地，步骤S72中，阈值Thre5＝100。

为了便于说明，本发明中约定了下列概念：

候选词：这里是指名词、动词。

故事链：定义为事件序列，该事件序列共享同一主体或相关主体，在时间上从前至后单调递进，反映了一组相关事件或一个事件主题的时间演进过程。

有益效果：本发明的一种基于层级化聚类的金融新闻流突发检测方法，通过自然语言处理及图论相关技术，对金融新闻进行事件聚类生成故事链，解决了传统金融突发事件不能将同一事件相关新闻综合考虑的问题；本申请方法计算复杂度较低，可用于海量金融新闻流式数据中的突发状态检测；有利于净化网络舆论环境，进一步帮助金融企业或机构树立品牌形象、加强声誉风险管理，有效防止负面信息的肆意传播和舆情失控，协助金融企业或机构提高网络舆论引导能力，营造积极向上的舆论环境，为金融企业或机构快速健康发展提供强有力的舆论保障；有利于辅助决策与投资管理，通过收集市场的舆情信息，构建研究知识库、政策模型库和情报研究方法库，建设并不断完善，为金融机构和投资人提供全方位、多层次的和知识服务；具体包括以下几点：

1.通过对关键词共现图划分子图的方法，将金融新闻的文本数据划分为金融事件主题；一方面利用关键词共现图描述金融新闻文本，大大缩小了词典空间，可在相对较小且重要的关键词词典集合上构建金融新闻文本表示；另一方面通过子图划分，能够较好的控制和引入用户需求，灵活处理主题生成。

2.对金融新闻的文本数据，通过计算其向量表示与主题关键词子图的向量表示的相似度来识别新闻所属的主题；通过向量之间的相似度来为金融新闻文本数据分配主题，计算简便，方便实施。

3.通过对每个主题下金融新闻两两预测关系的方式构建新闻关系图谱，使得主题约束了相似金融新闻文本的范围，在一个较小的范围内计算文本相似度，对于复杂度较高的两两相似度计算较为友好。

4.对通过子图划分识别出的金融事件，通过对该事件下所有新闻取并集来生成该金融事件的关键词集合；一方面约束了金融新闻的范围，即只在相关聚类内进行关键词提取，数据规模可控；另一方面由于子图内的新闻主题相似，联合多条相关新闻提取关键词即引入了文档的关联性，可有效避免内容的重复和冗余。

5.通过计算事件与故事链相似度的方式，动态地将事件合并到相应的故事链上，依靠增量添加事件的方法，动态地增长故事链，可以实时处理海量新闻，并从新闻中快速地梳理出新闻主体近期发生的故事链，有利于提高金融事件突发性检测的效率和准确性。

附图说明

图1是本发明所述方法流程示意图；

图2是故事链生成示例；

图3是突发事件检测示例。

具体实施方式

下面结合附图和具体实施方式对本发明的一种基于层级化聚类的金融新闻流突发检测方法做出更进一步的具体说明。

实施例

本实施例在Ubuntu18.04操作系统、Python3编程环境、Intel Core i7-9700CPU、32G 内存、RTX2070GPU的实验环境下，对一个大型金融新闻流数据集进行了充分测试和验证。

如图1所示，一种基于层级化聚类的金融新闻流突发检测方法，包括以下步骤：

步骤S1：文本的预处理；包括：

步骤S11：通过网络爬虫抓取了2019年12月至2020年8月这段时间内，涉及2138 个主要上市公司实体，超过50个可靠金融新闻流来源的共计129,779条数据；数据内容涵盖时间戳、新闻标题、新闻内容、发布次数、URL地址等信息；

步骤S12：通过计算标题编辑距离去除重复新闻；根据时间戳完整性、URL是否可访问去除噪声数据；

步骤S14：对清洗后的金融新闻创建关系型数据库存储格式的索引，字段包括新闻编号(唯一标识)、新闻类型、发布时间、新闻来源网站、新闻链接、作者、标题及新闻内容。

步骤S2：抽取关键词并构建关键词共现图；包括：

步骤S22：通过TextRank和KP-Miner算法，分别对每个主体的全量金融新闻按文本抽取候选词，两种不同方法抽取的结果通过取交集和人工筛选保留可用关键词集合；

步骤S23：根据关键词在同一主体下新闻文本中的共现次数，构建关键词共现图；

步骤S24：过滤关键词共现图中共现频次小于阈值Thre1＝3以及共现频率小于阈值 Thre2＝0.15的边。

步骤S3：采用二分K-Means算法对关键词聚类，将关键词共现图划分为若干子图，每个子图中的关键词为一个金融主题；包括：

步骤S31：利用node2vec算法抽取关键词节点特征，得到每个关键词节点表示向量；

步骤S32：训练步骤S31中得到的关键词节点表示向量；

步骤S33：利用二分k-Means算法，将关键词共现图划分为若干子图，每个子图中的关键词为同一个金融主题。

步骤S4：通过相似度计算识别每篇金融新闻所属金融主题；包括：

步骤S42：将每篇金融新闻表示为TF-IDF向量；

步骤S5：构建以每篇金融新闻为节点的无向图，采用二分K-Means算法对金融新闻聚类，将金融新闻节点无向图划分为若干子图，每个子图中的金融新闻为一个金融事件；包括：

步骤S51：在一个金融主题下，以每篇金融新闻作为节点，任意两篇金融新闻的余弦相似度作为边的权重相连，构建金融新闻节点无向图；

步骤S52：过滤上述金融新闻节点无向图中相似度小于阈值Thre3＝0.6的边；

步骤S54：训练S53中得到的金融新闻节点表示向量；

步骤S6：通过相似度计算生成故事链；包括：

步骤S61：设定阈值Thre4＝0.6；

步骤S62：将一个金融事件作为根节点生成故事链；

步骤S64：计算新识别出的金融事件的关键词与已生成故事链的关键词之间的Jaccard相似度，将新识别出的金融事件加入到相似度最高且高于设定阈值Thre4＝0.6 的故事链中，每一件金融事件均为故事链上的一个节点；否则以根节点的形式创建新故事链。

如图2所示，对新闻总数量排名前200的公司主体进行上述实验，结果显示本发明准确找出多个在时间跨度较大，但内容和主题一致的金融新闻事件，生成了“苹果计划收购自动驾驶初创公司Drive.ai”这一故事链。

步骤S7：突发事件检测；包括：

步骤S71：针对主流金融主体的新闻流数据，滑动时间窗口宽度一般设置为1天，计算窗口期内故事链中事件的平均发生频率；

步骤S72：确定阈值Thre5＝100；

步骤S73：判断故事链中最新的窗口期内事件的发生频率是否高于阈值Thre5＝100，若高于，则判定为突发事件，反之不为突发事件。

突发事件检测结果示例如图3所示，该实例证明本方法能够较准确的实时发现突发时点，即图中ST位置所示。

综上所述，本发明对梳理金融信息脉络、理清重要事件发展过程意义重大；能够较准确的实时发现突发时点，而不需要通过全局视角发现曲线极值点；本实施例证实了所提发明内容的有效性、可实施性及易用性。

本发明提供了一种基于层级化聚类的金融新闻流突发检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于层级化聚类的金融新闻流突发检测方法，其特征在于，包括如下步骤：

步骤S1：金融新闻文本的预处理；

步骤S2：抽取关键词并构建关键词共现图；

步骤S3：采用二分K-Means算法对关键词聚类，将关键词共现图划分为若干子图，每个子图中的关键词为同一个金融主题；

步骤S4：通过相似度计算识别每篇金融新闻所属金融主题；

步骤S6：通过相似度计算生成故事链；

步骤S7：突发事件检测；

步骤S3包括：

步骤S32：训练步骤S31中得到的关键词节点表示向量；

步骤S33：通过二分K-Means算法，将关键词共现图划分为若干个子图，每个子图中的关键词为同一个金融主题；

步骤S4包括：

步骤S42：将每篇金融新闻表示为TF-IDF向量；

步骤S43：通过K-D树最近邻搜索，将每篇金融新闻划分入对应的金融主题，最终所有金融新闻被划分为若干个金融主题；

步骤S6包括：

步骤S61：设定阈值Thre4；

步骤S62：将一个金融事件作为根节点生成故事链；

步骤S64：计算新识别出的金融事件的关键词与已生成故事链的关键词之间的相似度，将新识别出的金融事件加入到相似度最高且高于设定阈值Thre4的故事链中，每一件金融事件均为故事链上的一个节点；否则以根节点的形式创建新故事链；

步骤S7包括：

步骤S72：确定阈值Thre5；

2.根据权利要求1所述的一种基于层级化聚类的金融新闻流突发检测方法，其特征在于，步骤S1包括：

步骤S11：通过网络爬虫获取金融新闻文本；

步骤S14：对金融新闻创建索引。

3.根据权利要求1所述的一种基于层级化聚类的金融新闻流突发检测方法，其特征在于，步骤S2包括：

步骤S22：用关键词提取方法从候选词集中提取关键词；

步骤S24：过滤关键词共现图中共现频率小于阈值Thre1以及共现频率小于阈值Thre2的边。

4.根据权利要求1所述的一种基于层级化聚类的金融新闻流突发检测方法，其特征在于，步骤S5包括：

步骤S54：训练S53中得到的金融新闻节点表示向量；