CN110134847A

CN110134847A - 一种基于互联网金融信息的热点挖掘方法及系统

Info

Publication number: CN110134847A
Application number: CN201910373114.3A
Authority: CN
Inventors: 黄仔琪; 孙振起
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-16

Abstract

本发明提供一种基于互联网金融信息的热点挖掘方法及系统，能够有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程。所述方法包括：从网络上抓取财经新闻；提取每篇新闻的特征向量；根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。本发明涉及数据挖掘领域。

Description

一种基于互联网金融信息的热点挖掘方法及系统

技术领域

本发明涉及数据挖掘领域，特别是指一种基于互联网金融信息的热点挖掘方法及系统。

背景技术

当今金融正处于信息化的时代，金融数据越来越丰富，如何有效分析金融数据，充分发挥金融数据的商业价值，正是金融业迫切需要解决的问题。方兴未艾的数据挖掘技术，正是用于解决大规模数据的处理和有效利用的问题。数据挖掘是指从大型数据库中提取人们感兴趣的知识，这些知识是隐含的、事先不知的、潜在有用的信息。这些被揭示出的有用的信息，可以为决策、市场策划和金融预测等方面提供依据。

网络信息资源是一种数字化资源，与非网络信息资源相比有其独特的特点：

1)数量庞大、增长迅速：互联网是一个集各种信息资源为一体的资源网，由于政府、机构、企业、个人随时都可以在网上发布信息，因此网络资源增长迅速，成为无所不有的庞杂信息源，并具有跨区域、分布广、多语种、高度共享的特点，因此金融领域的热点信息往往蕴含其中；

2)内容丰富、覆盖面广：网络信息资源几乎是无所不包，而且类型丰富多样，覆盖了不同学科、不同领域、不同地区、不同语言的信息，在形式上包括文本、图像、声音、软件、数据库等，看成多媒体、多语种、多类型的混合体，因此，网络信息资源给用户提供了较大的选择余地；

3)信息共享程度高、使用成本低：由于信息储存形式及数据结构具有通用性、开放性和标准化的特点，它在网络信息环境下，时间和空间范围得到了最大程度的延伸和扩展；

4)信息质量参差不齐，有序与无序并存：由于互联网的开放性和自由性，网络信息的发布缺少质量控制和管理机制，网络上的很多资源并没有经过审核，使得网络信息繁杂、混乱，质量参差不齐，给用户选择带来困难，所以基于网络信息的金融热点追踪可以有效对其降噪，帮助用户筛选有价值的金融热点信息。

发明内容

本发明要解决的技术问题是提供一种基于互联网金融信息的热点挖掘方法及系统，以解决现有技术所存在的网络信息资源质量参差不齐，无法确定有价值的金融热点信息的问题。

为解决上述技术问题，本发明实施例提供一种基于互联网金融信息的热点挖掘方法，包括：

从网络上抓取财经新闻；

提取每篇新闻的特征向量；

根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；

对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。

进一步地，所述从网络上抓取财经新闻包括：

通过聚焦网络爬虫，从网络上抓取与预先定义的财经主题相关的网络页面。

进一步地，在提取每篇新闻的特征向量之前，所述方法还包括:

对每篇新闻内容使用结巴分词法进行分词和词性筛选。

进一步地，所述对每篇新闻内容使用结巴分词法进行分词和词性筛选包括：

对新闻内容进行清洗，其中，清洗包括：去重、时间段过滤；

基于预先构建的用户词词典，对清洗后的新闻内容文本进行结巴分词并进行词性标注；

基于预先构建的停用词词典、消除歧义词词典和保留单字词典，过滤掉对话题无关且不影响聚类准确性的词，筛选出具备目标词性的词，其中，所述目标词性包括：名词、动词和简称词性。

进一步地，所述提取每篇新闻的特征向量包括：

根据词性筛选结果，通过词频-逆文本频率算法提取每篇新闻的特征向量。

进一步地，所述提取每篇新闻的特征向量包括：

根据提取的特征向量进行DBSCAN聚类，得到多个新闻簇，其中，DBSCAN表示具有噪声的基于密度的聚类方法。

进一步地，所述对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题包括：

对每个新闻簇中的所有标题通过文本排序算法进行重要程度排序，并获取每个新闻簇中重要程度最高的标题来描述该新闻簇中的热点话题。

进一步地，所述方法还包括：

根据词性筛选结果，通过词嵌入模型进行词向量训练操作；

根据得到的词向量，对每个新闻簇的词汇进行K-均值聚类，得到多个相近词词簇，其中，K表示词簇的数目。

本发明实施例还提供一种基于互联网金融信息的热点挖掘系统，包括：

获取模块，用于从网络上抓取财经新闻；

提取模块，用于提取每篇新闻的特征向量；

第一聚类模块，用于根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；

排序模块，用于对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。

进一步地，所述系统还包括：

筛选模块，用于对新闻内容进行清洗，对清洗后的新闻内容使用结巴分词法进行分词和词性；

训练模块，用于根据词性筛选结果，通过词嵌入模型进行词向量训练操作；

第二聚类模块，用于根据得到的词向量，对每个新闻簇的词汇进行K-均值聚类，得到多个相近词词簇，其中，K表示词簇的数目。

本发明的上述技术方案的有益效果如下：

上述方案中，从网络上抓取财经新闻；提取每篇新闻的特征向量；根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题；这样，通过对从网上抓取到的海量财经新闻进行聚类，得到新闻热点，再对新闻热点中的标题进行重要程度排序，获取热点话题，有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程，帮助投资者及时规避投资风险，也有助于投资者及时抓住难得的投资机会，在投资市场中获利。

附图说明

图1为本发明实施例提供的基于互联网金融信息的热点挖掘方法的流程示意图；

图2为本发明实施例提供的基于互联网金融信息的热点挖掘方法的详细流程示意图；

图3为本发明实施例提供的基于互联网金融信息的热点挖掘系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的网络信息资源质量参差不齐，无法确定有价值的金融热点信息的问题，提供一种基于互联网金融信息的热点挖掘方法及系统。

实施例一

如图1所示，本发明实施例提供的基于互联网金融信息的热点挖掘方法，包括：

S101，从网络上抓取财经新闻；

S102，提取每篇新闻的特征向量；

S103，根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；

S104，对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。

本发明实施例所述的基于互联网金融信息的热点挖掘方法，从网络上抓取财经新闻；提取每篇新闻的特征向量；根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题；这样，通过对从网上抓取到的海量财经新闻进行聚类，得到新闻热点，再对新闻热点中的标题进行重要程度排序，获取热点话题，有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程，帮助投资者及时规避投资风险，也有助于投资者及时抓住难得的投资机会，在投资市场中获利。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，所述从网络上抓取财经新闻包括：

通过聚焦网络爬虫(Focused Crawler)，从网络上抓取与预先定义的财经主题相关的网络页面。

本实施例中，可以通过聚焦网络爬虫，抓取专业财经新闻网站(例如，新浪财经、搜狐财经、新华网财经)的大量财经新闻报道。

本实施例中的聚焦网络爬虫，又称主题网络爬虫(Topical Crawler)，是选择性地爬行那些与预先定义好的财经主题相关页面的网络爬虫。聚焦网络爬虫和通用网络爬虫相比，聚焦网络爬虫只需要爬行与预先定义好的财经主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，在提取每篇新闻的特征向量之前，所述方法还包括:

对每篇新闻内容使用结巴分词法进行分词和词性筛选。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，如图2所示，所述对每篇新闻内容使用结巴分词法进行分词和词性筛选包括：

本实施例中，在新闻相关热点原始数据处理中，中文分词显得格外重要。因为中文语句和西方语句有着很大的不同，在西方的语言表述中，一句话的每个单词间有着空格作为明显的分割符，而中文却没有，汉语中句子是以字串的形式出现的，例如英语“I live inBeijing.”中，“Beijing”一个单词表示北京这个地名，而同样的意思中文表述为“我住在北京”，“北京”一词并没有与其前面的字“在”有着明显的分隔符，在提取新闻的特征向量之前，若不事先将中文语料分词，则会将“北”、“京”二字当作两个词，这样会导致最终的分类效果下降。所以须将将中文语料中文字串转化为词串。

本实施例中，分词主要流程是对新闻进行去重、时间段过滤，然后对新闻内容文本进行jieba分词并词性标注，过滤出名词、动词、简称等目标词性，分词前使用自定义的用户词词典增加分词的准确性，分词后使用停用词词典、消除歧义词词典(简称：消歧词典)、保留单字词典过滤掉对话题无关并且不影响聚类准确性的词，从而得到每篇新闻的词库。例如，对给定的新闻文本T＝[S₁,S₂,…,S_m]，其中，句子 S_i∈T，按照完整句子进行分词和词性筛选，过滤掉停用词、消除歧义词，只保留指定词性的单词，如名词、动词、形容词，即S_i＝[t_i,1,t_i2,…,t_i,n]，其中t_i,j∈S_j是保留后的关键词。

本实施例中的消除歧义是分词的难点之一，主要的歧义有交集歧义、组合歧义和未登录词，例如，

交集歧义：研究/生活/乐趣研究生/活/乐趣

组合歧义：马上/吃饭马/上/吃饭

未登录词：孙振起/来了孙振/起来了

除了这些类型的歧义，还有些语意的理解需要结合上下文语境来完成，这类的分词歧义更加复杂化了分词的过程。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，所述提取每篇新闻的特征向量包括：

根据词性筛选结果，通过词频-逆文本频率(IF-IDF)算法提取每篇新闻的特征向量。

本实施例中，IF-IDF算法的思想是统计每个词出现的词频(TF)，然后再为其附上一个权值参数(IDF)，例如：

假设要统计一篇新闻中的前10个关键词(即：特征)，首先想到的是统计一下新闻中每个词出现的频率(TF)，词频越高，这个词就越重要。但是统计完可能会发现得到的关键词基本都是“的”、“是”、“为”这样没有实际意义的词(停用词)，这个问题的解决方法是，为每个词都加一个权重，像这种停用词，就加一个很小的权重(甚至是置为0)，这个权重就是IDF。

本实施例中，IF-IDF的计算公式表示为：

TF_IDF＝词频(TF)*逆文档频率(IDF)

通过上式可知，TF-IDF的值与该词在文章中出现的频率成正比，与该词在整个语料库中出现的频率成反比，因此可以很好的实现提取文章中关键词的目的。

本实施例中，通过DBSCAN聚类，可以对金融投资作出预测和判断。例如，在证券领域，通过DBSCAN聚类，可以衡量股票的相似程度，进而使投资者准确地了解和把握股票的总体特性，判断股票的发展潜力，确定投资范围和投资价值。

本实施例中，DBSCAN聚类指标分为行业分析指标和公司业绩评价指标两类。行业指标包括每股收益、净资产收益率等，这是股价变动的重要因素。公司业绩评价指标包括盈利能力、偿债能力和资产管理能力等，它能反映公司的业绩和成长能力。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，所述对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题包括：

对每个新闻簇中的所有标题通过文本排序(TextRank)算法进行重要程度排序，并获取每个新闻簇中重要程度最高的标题来描述该新闻簇中的热点话题。

本实施例中的Text Rank算法是一种用于文本的基于图的排序算法，TextRank不需要事先对多篇文档进行学习训练。

在前述基于互联网金融信息的热点挖掘方法的具体实施方式中，进一步地，所述方法还包括：

根据词性筛选结果，通过词嵌入模型进行词向量训练操作；

本实施例中，如图2所示，根据词性筛选结果，通过词嵌入模型进行词向量训练操作；根据得到的词向量，对每个新闻簇(新闻热点)中的词汇进行K-均值聚类，得到多个相近词词簇；这样，通过对某一热点相关词汇的聚类，能够得到热点问题所涉及的人物、行业或组织等信息，有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程，帮助投资者及时规避投资风险，也有助于投资者及时抓住难得的投资机会，在投资市场中获利。

实施例二

本发明还提供一种基于互联网金融信息的热点挖掘系统的具体实施方式，由于本发明提供的基于互联网金融信息的热点挖掘系统与前述基于互联网金融信息的热点挖掘方法的具体实施方式相对应，该基于互联网金融信息的热点挖掘系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述基于互联网金融信息的热点挖掘方法具体实施方式中的解释说明，也适用于本发明提供的基于互联网金融信息的热点挖掘系统的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图3所示，本发明实施例还提供一种基于互联网金融信息的热点挖掘系统，包括：

获取模块11，用于从网络上抓取财经新闻；

提取模块12，用于提取每篇新闻的特征向量；

第一聚类模块13，用于根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；

排序模块14，用于对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。

本发明实施例所述的基于互联网金融信息的热点挖掘系统，从网络上抓取财经新闻；提取每篇新闻的特征向量；根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题；这样，通过对从网上抓取到的海量财经新闻进行聚类，得到新闻热点，再对新闻热点中的标题进行重要程度排序，获取热点话题，有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程，帮助投资者及时规避投资风险，也有助于投资者及时抓住难得的投资机会，在投资市场中获利。

在前述基于互联网金融信息的热点挖掘系统的具体实施方式中，进一步地，所述系统还包括：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于互联网金融信息的热点挖掘方法，其特征在于，包括：

从网络上抓取财经新闻；

提取每篇新闻的特征向量；

2.根据权利要求1所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述从网络上抓取财经新闻包括：

3.根据权利要求1所述的基于互联网金融信息的热点挖掘方法，其特征在于，在提取每篇新闻的特征向量之前，所述方法还包括:

对每篇新闻内容使用结巴分词法进行分词和词性筛选。

4.根据权利要求3所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述对每篇新闻内容使用结巴分词法进行分词和词性筛选包括：

5.根据权利要求3所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述提取每篇新闻的特征向量包括：

6.根据权利要求1所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述提取每篇新闻的特征向量包括：

7.根据权利要求1所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题包括：

8.根据权利要求3所述的基于互联网金融信息的热点挖掘方法，其特征在于，所述方法还包括：

根据词性筛选结果，通过词嵌入模型进行词向量训练操作；

9.一种基于互联网金融信息的热点挖掘系统，其特征在于，包括：

获取模块，用于从网络上抓取财经新闻；

提取模块，用于提取每篇新闻的特征向量；

10.根据权利要求9所述的基于互联网金融信息的热点挖掘系统，其特征在于，所述系统还包括：