CN107403017A

CN107403017A - 一种智能分析实时新闻对金融市场影响的方法

Info

Publication number: CN107403017A
Application number: CN201710674605.2A
Authority: CN
Inventors: 刘川; 梁雪萍
Original assignee: Shanghai Denier Information Technology Co Ltd
Current assignee: Shanghai Denier Information Technology Co Ltd
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2017-11-28

Abstract

本发明涉及基于实时新闻的金融市场分析方法技术领域，具体来说是一种智能分析实时新闻对金融市场影响的方法，对新闻按话题进行分类，并按时间进行词频统计，进行话题的热度分析和预测，构建情绪评价体系，对话题的情绪进行评价，最后检验话题是否导致异常收益率，并对其进行量化分析和分类，排除了人工分析时主观因素的干扰，分析结果更为准确和直观，并且实时搜集新闻信息，更具时效性。

Description

一种智能分析实时新闻对金融市场影响的方法

[技术领域]

本发明涉及基于实时新闻的金融市场分析方法技术领域，具体来说是一种智能分析实时新闻对金融市场影响的方法。

[背景技术]

社会中发生的事件、国家政策以及各方各面的信息都对金融市场的情况变化有着极为重要的影响，而这些事件的信息往往都会通过新闻对社会公众进行发布。现有技术中，主要通过行业分析师撰写相关领域股票的分析文章，对新闻和金融市场之间的关系进行分析，但往往会受其个人主观因素的影响，并且也很难及时高效的作出准确的分析，因此，本发明设计了一种技术方案，基于实时新闻信息，对金融市场的变动进行分析。

[发明内容]

本发明的目的在于解决现有技术的不足，提供一种智能分析实时新闻对金融市场影响的方法，排除了分析师主观因素的影响，通过智能分析能迅速地得出更加准确的分析结果。

为了实现上述目的，设计一种智能分析实时新闻对金融市场影响的方法，其特征在于步骤如下：

a.抓取原始新闻并进行分词，分词后按新闻时间将词划入不同时间窗并进行词频统计，在检测出主题词后根据主题词的相似度将新闻聚类至话题下；

b.评价话题的当前热度，并建立热度预测模型对未来热度进行预测；

c.对新闻中的命名实体进行识别，以得到与话题相关的投资标的；

d.选择研究话题，判断研究话题对相关的投资标的的影响是否明显并量化其影响程度，然后对投资标的的涨跌情况进行分类。

所述的步骤a具体包括：

a1.实时抓取原始新闻，剔除异常的URL地址和异常内容后提取出提取新闻元数据；

a2.将新闻元数据与词库中的词进行逐一匹配，直至将新闻元数据中的所有词分开，按新闻时间将词划入不同的时间窗，对各个时间窗内不同词的词频进行统计，并去掉词频最高和最低的词；

a3.通过词频计算各词在时间窗中的词频变化速率，基于词频变化速率和词频计算词的热度，以热度大于一定值的词以构成主题词库，公式如下:

Vij＝Cij/Cijavg

Pij＝logVij+K*log(Cij/Cjavg)

其中，Pij表示词i在时间窗j中的热度，Vij表示词i在时间窗j中的变化速率，Cij表示词i在时间窗j中的词频，Cijavg表示词i在前j-1个时间窗的平均词频，Cjavg表示时间窗j内的最高词频,K取值在-1～1之间；

a4.将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较，将相似的新闻加入已有话题中，并将该新闻的主题词库与已有话题的主体词库相合并；若不相似，则将该新闻作为一个新话题，并将该新闻的主题词库作为新话题的主体词库，所述的相似度为新闻词频向量和话题词频向量之间的欧式距离,所述的新闻词频向量和话题词频向量由主体词的词频构成，所述的欧式距离小于0.5时判断新闻和话题相似。

所述的步骤b具体包括：

b1.通过每个话题的热度因子计算出话题的当前热度；

b2.建立历史新闻及新闻话题样本库，将样本库拆分为训练集和测试集，基于训练集得到话题热度预测模型，并通过话题热度预测模型预测未来的话题热度值。

所述的热度因子包括数量因子、影响力因子、用户因子和价值因子，

所述的数量因子指话题中新闻的总数量；

所述的影响力因子由话题中新闻的网站来源、作者、是否置顶决定；

所述的用户因子由话题中新闻的阅读量、评论、跟帖等用户反馈决定；

所述的价值因子由话题中新闻的内容的商业价值、市场价值决定；

计算话题当前热度的公式如下：

话题的当前热度＝K1*数量因子+K2*影响力因子+K3*用户因子+K4*价值因子，K1、K2、K3、K4均取值为0.25。

所述的话题热度预测模型通过深度学习方法获得，以话题的热度因子作为话题热度预测模型的输入参数，以未来的话题热度值为话题热度预测模型的输出参数。

所述的步骤c具体包括：

c1.定义用以区分某个词是否属于命名实体的标注集，并对新闻分词后的文本进行标注，得到标注语料；

c2.建立特征模板，所述的特征模板由命名实体及其词性、命名实体前两个词和命名实体后两个词组成；

c3.将特征模板和若干作为训练语料的标注语料输入CRF模型，使用最大似然函数估计模型参数：即先对模型取对数，再通过倒数来求得使该对数函数最大化的参数值；

c4.输入某一命名实体，并将标注语料输入模型，通过识别算法寻找与输入的命名实体相匹配的语料，并将命名实体归入与该命名实体相匹配的语料所属话题的投资标的列表内，所述的识别算法如下：

1)首先初始化变量，判断词的最后一个字与命名实体的最后一个字是否相同；

2)如果是，则将该词从该状态回溯，找到最优状态序列；

3)如果不是，则选择其他的变量最大的词，并进行状态回溯，找到最优状态序列；

4)循环上述步骤，直至所有的词都识别完毕。

所述的命名实体为股票名称中的字词。

所述的步骤d具体包括：

d1.提取金融数据库与研究话题相关的投资标的的信息，并提取研究话题的时间窗日期，计算话题时间窗日期前后相关投资标的收益率，公式如下：

收益率＝(股息+卖出价格－买进价格)/买进价格×100％

比较话题时间窗日期前后的收益率结果，并对结果进行统计显著性检验，以判断研究话题对股价的影响是否明显；

d2.以历史数据为训练集，未来的预测数据为预测集，构建由每日的话题向量和投资标的涨跌情况构成的样本点，对数据根据涨跌情况进行分类成上涨和下跌两类后，通过最大化几何间隔确定最优分类超平面，并利用得到的超平面对预测集中的股票涨跌情况进行分类。

所述的步骤d之前还设有评价话题情绪的步骤，具体如下：

1)衡量报道基调：首先对新闻中每个句子计算其主题相关性，新闻由句子a1，a2，...al组成,句子ai由词语k1，k2，...km组成,句子ai与标题s的相关性为：

Rel(s,ai)＝(∑bs,kn*bi,kn)/[(∑bs,kn)(∑bi,kn)]0.5；

式中bs,kn表示标题s中词语kn在句子中的权重，bi,kn表示句子i中词语kn在句子中的权重,1≤n≤m,1≤i≤l。

然后考察每个句子的情感、位置和特征词属性，句子中含有的情感词越多，其情感属性越高；位于新闻开头和结尾的句子，位置属性高；句子中含有的概括性和阐述观点的词语越多，其特征词属性越高；

对每个句子，将其主题相关性与上述三个属性加权平均，得分最高者作为表明该篇新闻极性的句子；

根据正面、中性、负面三个词库来分类提取上述选择的句子中的短语，作为对该篇新闻分类的依据；

2)衡量报道曝光度：以话题相关新闻的报道数量来衡量曝光度；

3)衡量公众关注度：以话题相关新闻的点击量来衡量公众关注度。

本发明同现有技术相比，其优点在于：对新闻按话题进行分类，并按时间进行词频统计，进行话题的热度分析和预测，构建情绪评价体系，对话题的情绪进行评价，最后检验话题是否导致异常收益率，并对其进行量化分析和分类，排除了人工分析时主观因素的干扰，分析结果更为准确和直观，并且实时搜集新闻信息，更具时效性。

[具体实施方式]

下面对本发明作进一步说明，这种方法的原理对本专业的人来说是非常清楚的。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

步骤a1的具体操作如下：抓取新闻门户、行业门户、财经门户等网站的实时新闻URL地址；根据异常URL特征识别等方法清洗URL地址，剔除异常的URL；实时解析新闻URL地址的原文内容；根据异常内容特征识别等方法清洗原文内容，剔除异常的原文内容。利用正则表达式提取新闻元数据，包括：发表时间、标题、正文、新闻链接、来源网站等。在提取到的文本信息的基础上，对正文内容进行预处理，包括但不限于：利用垃圾段落特征识别等方法，剔除广告、声明等垃圾段落内容；

步骤a2的具体操作如下：

1)分词：首先将文本中的文字与已有的词库中的词逐一匹配，若匹配成功，则将该词与文本分开，将剩余文本与词库中的词再进行匹配。不断循环，直到结束。

2)词频统计：将分词中得到的词按新闻时间划入不同的时间窗，对同一时间窗下的词，得到一个词语表，统计该表的总词数并计算不同词的词频，去掉频率特别高及特别低的词。

示例如下：

假设时间窗长度为2天，那么6月27日和6月28日为同一时间窗，对该时间窗下的词频进行统计并剔除高频和低频的词，结果为：

词	词频
		爱立信	3
将	2
		电信	2
和	2
		业务	2
发展	2
		但	2
全球	2
		VR产业	2
应用	2
		尚	2

步骤a3的具体操作如下：仍以上述两则新闻为例，选择K为0.5，则词的热度为：

步骤a4具体如下：将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较，将相似的新闻加入已有话题中，并将该新闻的主题词库与已有话题的主体词库相合并；若不相似，则将该新闻作为一个新话题，并将该新闻的主题词库作为新话题的主体词库，所述的相似度为新闻词频向量和话题词频向量之间的欧式距离，所述的新闻词频向量和话题词频向量由主体词的词频构成，例如某新闻的4个主题词词频分别为1,2,3,4，则该新闻词频向量即为【1,2.3.4】。

评价话题情绪的提取规则如下，设有正面、中性、负面三个词库，通过词库与表明该篇新闻极性的句子进行比对，以确定其极性：

具体步骤如下：

新闻：“6月21日，中国沈阳·数据开放与应用创新大赛总决赛在沈阳举行，北京大学、同济大学等10个进入总决赛的团队围绕“数据服务沈阳、打造智慧交通”主题提出解决方案，分享了57万元奖金。其中，来自同济大学的“低碳先锋队”凭借“安途”作品摘得桂冠，获得数据创新大奖以及20万元奖金。

作为国家大数据综合应用试验区，沈阳市通过数据开放，吸引各方面智慧推动大数据的创新应用，借鉴国际国内数据创新的有关经验，启动了数据开放与应用创新大赛。其间，共有548人报名参赛，组建了126支参赛团队，作品多集中在行程优化、交通安全、绿色出行、定制出行、空间布局等领域。沈阳市交通、公安、城建、环保、气象、地铁等单位为海内外个人和机构开放了近1TB的26项交通类数据集，并建立了完备的数据提供、数据发布、数据授权的分工机制。”

该新闻中可以表明新闻极性的句子是“中国沈阳·数据开放与应用创新大赛总决赛在沈阳举行。”根据提取规则，可以判断新闻情绪为中性。

步骤C1中的标注集示例如下：

步骤C2中的特征模板如下：

特征模板：

步骤C4具体如下：

给出命名实体为：爱立信，给出一则新闻如下：“爱立信将专注于电信客户和网络。爱立信曾力图推动其媒体、公共事业和运输业务的发展，但希望不幸落空，爱立信不得已选择将重点转回电信公司的销售业务。”

经前述的分词步骤后，得到的新闻分词文本为：“爱立信将专注于电信客户和网络爱立信曾力图推动其媒体公共事业和运输业务的发展但希望不幸落空爱立信不得已选择将重点转回电信公司的销售业务。”

识别算法如下，首先初始化变量，然后将分词文本中的词逐一进行识别，判断上述各词的最后一个字与命名实体的最后一个字是否相同，如果相同，则该词的变量值加1，不同则该词的变量值不变；然后对于最大的词(在此情况下则为变量为1的词)，从当前状态回溯，找到最优状态序列，即确认其有几个字与命名实体相同，继续识别其倒数第二个字是否与命名实体相同，相同则变量加1，不同则变量不变，一直到命名实体中的字都识别完毕，记录下变量的值。如文本中“电信”的最后一个字与命名实体的最后一个字相同，则对这个词从该状态回溯，继续判断与命名实体的倒数第二个字是否相同，不相同则将变量数1记录并返回对其他变量为1的词进行识别；又如文本中“爱立信”的最后一个字与命名实体的最后一个字相同，对这词从该状态回溯，继续判断与命名实体的倒数第二个字是否相同，也相同则再向前回溯，判断与命名实体的倒数第三个字是否相同，发现改词与命名实体完全相同，则记录下变量数3。如此，对文本中的每一个词逐一进行识别。

对倒数第一个字与命名实体不相同的词，计算其可能为命名实体的概率，选择概率最大的词，例如选择字数大于等于命名实体的词，判断其与命名实体的倒数第二个字是否相同，并记录下相应变量的值。

Claims

1.一种智能分析实时新闻对金融市场影响的方法，其特征在于步骤如下：

d.选择研究话题，判断研究话题对相关的投资标的的影响是否明显并分析其影响程度，然后对投资标的的涨跌情况进行分类。

2.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的步骤a具体包括：

Vij＝Cij/Cijavg

Pij＝logVij+K*log(Cij/Cjavg)

其中，Pij表示词i在时间窗j中的热度，Vij表示词i在时间窗j中的变化速率，Cij表示词i在时间窗j中的词频，Cijavg表示词i在前j-1个时间窗的平均词频，Cjavg表示时间窗j内的最高词频，K取值在-1～1之间；

a4.将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较，将相似的新闻加入已有话题中，并将该新闻的主题词库与已有话题的主体词库相合并；若不相似，则将该新闻作为一个新话题，并将该新闻的主题词库作为新话题的主体词库，所述的相似度为新闻词频向量和话题词频向量之间的欧式距离，所述的新闻词频向量和话题词频向量由主体词的词频构成。

3.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的步骤b具体包括：

b1.通过每个话题的热度因子计算出话题的当前热度；

4.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的热度因子包括数量因子、影响力因子、用户因子和价值因子，

所述的数量因子指话题中新闻的总数量；

计算话题当前热度的公式如下：

5.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的话题热度预测模型通过深度学习方法获得，以话题的热度因子作为话题热度预测模型的输入参数，以未来的话题热度值为话题热度预测模型的输出参数。

6.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的步骤c具体包括：

2)如果是，则将该词从该状态回溯，找到最优状态序列；

4)循环上述步骤，直至所有的词都识别完毕。

7.如权利要求7所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的命名实体为股票名称中的字词。

8.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的步骤d具体包括：

收益率＝(股息+卖出价格－买进价格)/买进价格×100％

d3.以历史数据为训练集，未来的预测数据为预测集，构建由每日的话题向量和投资标的涨跌情况构成的样本点，对数据根据涨跌情况进行分类后，通过最大化几何间隔确定最优分类超平面，并利用得到的超平面对预测集中的股票涨跌情况进行分类。

9.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法，其特征在于所述的步骤d之前还设有评价话题情绪的步骤，具体如下：

Rel(s,ai)＝(∑bs,kn*bi,kn)/[(∑bs,kn)(∑bi,kn)]0.5；