CN105740353A

CN105740353A - 个股和文章关联度的计算方法及其系统

Info

Publication number: CN105740353A
Application number: CN201610050955.7A
Authority: CN
Inventors: 陈发君; 黄金才; 刘忠; 程光权; 朱承; 修保新; 陈超; 冯旸赫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-07-06

Abstract

本发明公开了一种个股和文章关联度的计算方法及其系统，系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块。通过每天获取海量财经新闻语料，进行文本数据挖掘，分析实时获取的语料中的个股与文章的关联关系，分析实时获取的语料中的个股情感，按日汇总个股与文章的关联度即个股的热度；使投资者能在统一的入口检索其关注的股票的市场行情资讯，并提供与文章的关联度、情感和股票的历史热度指标供查阅，成为投资者个股行情资讯的检索利器。

Description

个股和文章关联度的计算方法及其系统

技术领域

本发明涉及实体与海量文章的关联分析，尤其涉及个股实体与文章的关联分析方法及其系统。

背景技术

当前对于个股相关资讯的获取主要通过搜索引擎工具检索，这种方法存在以下缺点：

1、噪音大：广告推广链接多，一般情况下广告的搜索结果都是排在靠前位置；语义错误，搜索引擎主要根据关键字获取搜索结果，不是语义层次的，当有歧义时，有很多不准确的结果。

2、度高：对于热点新闻资讯，各大网站都会有报导；很多情况下标题和内容都是一模一样的，但是搜索引擎不会帮你去除重复。

3、缺少关键指标：搜索引擎的结果一般只能说明文章中含有你搜索的关键字(这里是个股)，并没有说明个股与文章的关联度有多大，情感信息(是利好还是利空)，投资者还需要发大量时间和精力取阅读分析才能做出投资决策。

4、没有时间轨迹：搜索引擎没有时间维度，对于投资者关注的股票，只是能获取当前的文章，不能查阅历史热度，不利于投资者的决策选择。

发明内容

针对现有技术存在的缺陷，本发明提出一种个股和文章关联度的计算方法及其系统。通过每天获取海量财经新闻语料，进行文本数据挖掘，分析出个股与文章的关联度，构建个股相关文章列表和历史热度；使投资者能在统一的入口检索其关注的股票的市场行情资讯，并提供与文章的关联度、情感和股票的历史热度指标供查阅，成为投资者个股行情资讯的检索利器。

本发明的技术方案是：

一种个股和文章关联度的计算方法，包括以下步骤：

S1.数据获取

实时的从互联网上爬取获取财经类新闻作为语料并存档入库；

S2.关联度分析

分析实时获取的语料中的个股与文章的关联关系，计算关联度；

S3.热度分析

按日汇总个股与文章的关联度即个股的热度；

S4.情感分析

分析实时获取的语料中的个股情感；

S5.数据存储

将关联度分析、热度分析和情感分析的结果存入mysql数据库中；

S6.数据检索

通过WebService对终端用户提供查询接口，用户输入个股信息，返回个股关联的文章及关联度、个股情感和个股热度信息；

本发明，所述步骤S2中关联度的计算方法为：

S2.1获取语料并区分标题和内容，分词并计算各个词的提及数，这里分词可使用的分词算法有：正向最大匹配分词，反向最大匹配分词，双向最大匹配分词，N-最短路分词，隐马尔科夫模型(HMM)分词，CRF分词等；

S2.2对于个股A和新闻N，其关联度计算如下：

S2.2.1记个股A的代码、同义词、简称、全称在新闻N的标题和内容中出现的次数分别为nat_id、nat_syn、nat_short、nat_long和nct_id、nct_syn、nct_short、nct_long；记股票关键字字典为Stocks；记需要股票代码和简称一块出现的个股字典为codeAndName；

S2.2.2计算个股A和标题的关联度assetTitleRel：

1)如果标题中没有包含股票关键字字典Stocks中的词，并且个股简称和代码没有同时在标题中出现，则assetTitleRel＝(nat_syn+nat_long)*2；

2)如果标题中没有包含股票关键字字典Stocks中的词，并且个股简称和代码同时在标题中出现，assetTitleRel＝(nat_syn+nat_long+nat_id+nat_short)*2；

3)如果标题中包含股票关键字字典Stocks中的词，并且个股A不在codeAndName中，则assetTitleRel＝(nat_syn+nat_long+nat_short)*2；

4)如果标题中包含股票关键字字典Stocks中的词，并且个股A在codeAndName中，同时个股简称和代码没有同时在标题中出现，则assetTitleRel＝(nat_syn+nat_long)*2；

5)如果标题中包含股票关键字字典Stocks中的词，并且个股A在codeAndName中，同时个股简称和代码同时在标题中出现，则assetTitleRel＝(nat_syn+nat_long+nat_id+nat_short)*2；

S2.2.3计算个股A和内容的关联度assetContentRel：

1)如果内容中没有包含股票关键字字典Stocks中的词，并且个股简称和代码没有同时在内容中出现，则assetContentRel＝(nac_syn+nac_long)*2；

2)如果内容中没有包含股票关键字字典Stocks中的词，并且个股简称和代码同时在内容中出现，assetContentRel＝(nac_syn+nac_long+nac_id+nac_short)*2；

3)如果内容中包含股票关键字字典Stocks中的词，并且个股A不在codeAndName中，则assetContentRel＝(nac_syn+nac_long+nac_short)*2；

4)如果内容中包含股票关键字字典Stocks中的词，并且个股A在codeAndName中，同时个股简称和代码没有同时在内容中出现，则assetContentRel＝(nac_syn+nac_long)*2；

5)如果内容中包含股票关键字字典Stocks中的词，并且个股A在codeAndName中，同时个股简称和代码同时在内容中出现，则

assetContentRel＝(nac_syn+nac_long+nac_id+nac_short)*2；

S.2.4个股A和新闻N的关联度assetRel等于个股A与标题关联度加上个股A与内容关联度，即assetRel＝assetTitleRel+assetContentRel。

本发明，步骤S3中热度分析的具体方法为：

S3.1按天统计股票与新闻关联度：对于股票A，在统计日期D有dn篇文章与A关联，其关联度分别为a_d_1,a_d_2,...a_d_dn，则股票A在统计日期D的热度a_d＝a_d_1+a_d_2+..a_d_dn；

S3.2每一天都统计所有股票的当天热度，便可获得历史热度信息。；

本发明，步骤S4中情感分析的具体方法为：

S4.1获取语料并区分标题和内容；

S4.2对于个股A和新闻N，其情感得分计算如下：

S4.2.1记新闻N的标题为Title，内容为Content；将Title和Content分别分词；记正面情感词库为Post,负面情感词库为Neg，情感程度词库为Degree；

S4.2.2计算标题情感得分titleScore：若Title中正面情感词出现pt次，负面情感词出现nt次，则titleScore＝pt-nt；

S4.2.3计算个股A的标题情感得分assetTitleScore：记个股A的同义词、简称、全称、股票代号在标题Title中出现的次数总和为numt；若情感程度词在标题Title中没有出现，则assetTitleScore＝numt；若情感程度词在标题中出现了i次，对应的情感程度分别为d_1，d_2，...d_i；则assetTitleScore＝numt*d_1*d_2*...*d_i；

S4.2.4对于新闻内容Content划分为以子句为单位的序列{subSentence_i,(0<i<＝tSS)}，tSS为新闻内容Content包含的子句个数；记个股A的同义词、简称、全称、股票代号在子句subSentence_i中出现的次数总和为numcss_i次；正面情感词在子句subSentence_i中出现了pcss_i次；负面情感词在子句subSentence_i中出现了ncss_i次；情感程度词在子句subSentence_i中出现了j次，对应的情感程度分别为d_i1，d_i2，...，d_ij；

S4.2.5个股A在子句subSentence_i中的情感得分

assetSubSentenceScore_i＝(pcss_i-ncss_i)*d_i1*...*d_ij；

S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue；设

pc＝pcss_1+pcss_2+...+pcss_tSS，nc＝ncss_1+ncss_2+...+ncss_tSS；则assetNormalValue＝(pc-nc)/(pc+nc)；

S4.2.7计算个股A和新闻N的情感得分assetScore：1)如果个股A在标题中出现，则情感得分为个股A的标题情感得分，即assetScore＝assetTitleScore；2)如果个股A在标题中没有出现，在内容中出现了并且归一化情感值assetNormalValue小于等于0.1，则情感得分为标题情感得分，即assetScore＝titleScore；3)如果个股A在标题中没有出现，在内容中出现了并且归一化情感值assetNormalValue大于0.1，则情感得分为新闻内容中各个子句的情感得分之和，即

assetScore＝assetSubSentenceScore_1+assetSubSentenceScore_2+...+assetSubSentenceScore_tSS；

S4.2.8对于情感得分assetScore如果为正数表示为利好消息，如果为负数表示利空消息。

本发明提供一种个股和文章关联度的计算系统，用于在金融数据分析中，建立个股和文章相关度、情感并分析个股的热度，其能够帮助金融投资者迅速锁定其关注个股的相关文章获取详尽市场信息，给投资者提供投资决策资讯。系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块，

所述数据获取模块实时的从互联网上爬取获取财经类新闻作为语料并存档入库；

所述关联度分析模块与数据获取模块连接，关联度分析模块分析实时获取的语料中的个股与文章的关联关系，计算关联度；

所述情感分析模块与数据获取模块连接，情感分析模块分析实时获取的语料中的个股情感；

所述热度分析模块与关联度分析模块连接，热度分析模块按日汇总个股与文章的关联度即个股的热度；

所述数据存储模块与关联度分析模块、情感分析模块以及热度分析模块连接，数据存储模块将关联度分析、热度分析和情感分析的结果存入mysql数据库中；

所述数据检索模块与数据存储模块连接，数据检索模块通过WebService对终端用户提供查询接口，用户输入个股信息，返回个股关联的文章及关联度、个股情感和个股热度信息。

本发明的有益技术效果：

当投资者关注某些或某只个股时，需要快速准确的获取此个股的相关的信息，以便及时抓住瞬息万变的投资机遇。比如：投资者关注佛山星期六鞋业股份，想知道当前这只个股相关的市场行情，如果去搜索引擎检索出来了一堆不相关的广告链接、重复的新闻等等；也不能简洁明了知道搜索结果的文章跟个股的相关度和利好利空消息，需要一个个去阅读文章才能知道文章是否真的与个股相关、是利好还是利空。本发明致力于帮助投资者处理噪音、重复新闻的过滤并且计算个股与新闻的关联度及情感得分，从而使投资者能够快速高效的检索到个股市场行情咨询的相关文章及相关度和利好利空信息等。

本发明提供的个股与文章的关联度和情感得分是实时的、无噪音的、准确率较高、全面的以及含有历史轨迹的。因为文章是实时获取分析计算结果的；关联度和情感得分是通过独反创的系列算法计算得到的，而非简单的关键字匹配；爬取了各个主要的财经网站文章故做到没有遗漏市场信息，不像搜索引擎由于噪音过大导致无法查阅的全面的信息；统计了历史热度，其历史趋势与个股股价走势结合可以提供给投资者作为趋势关系分析的依据。

附图说明

图1为本发明一种个股和文章关联度的计算系统的功能模块图

图2为本发明的流程图

图3为关联度计算的流程图

图4为情感得分计算流程图

具体实施方式

下面结合附图，对本发明作进一步的说明：

参照图1，一种个股和文章关联度的计算系统，系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块，所述数据获取模块实时的从互联网上爬取获取财经类新闻作为语料并存档入库；所述关联度分析模块与数据获取模块连接，关联度分析模块分析实时获取的语料中的个股与文章的关联关系，计算关联度；所述情感分析模块与数据获取模块连接，情感分析模块分析实时获取的语料中的个股情感；所述热度分析模块与关联度分析模块连接，热度分析模块按日汇总个股与文章的关联度即个股的热度；所述数据存储模块与关联度分析模块、情感分析模块以及热度分析模块连接，数据存储模块将关联度分析、热度分析和情感分析的结果存入mysql数据库中；所述数据检索模块与数据存储模块连接，数据检索模块通过WebService对终端用户提供查询接口，用户输入个股信息，返回个股关联的文章及关联度、个股情感和个股热度信息。

参照图2，一种个股和文章关联度的计算方法包含如下步骤：

a)数据获取：实时的从互联网上爬取财经类新闻作为语料并存档入库。

b)关联度分析：分析实时获取的语料中的个股与文章的关联关系。

c)热度分析：按日汇总个股与文章的关联度即个股的热度。

d)情感分析：分析实时获取的语料中的个股情感。

e)数据存储：将关联度分析、热度分析和情感分析的结果存入mysql数据库中。

f)数据检索：通过WebService对终端用户提供查询接口，用户输入个股信息(个股代码、个股简称或个股全称)，返回个股关联的文章及关联度、个股情感和个股热度信息。

参照图3，为关联度计算的流程图，关联度的计算方法为：

S2.1获取语料并区分标题和内容，使用N-最短路分词并计算各个词的提及数；

S2.2对于个股A和新闻N，其关联度计算如下：

S2.2.2计算个股A和标题的关联度assetTitleRel：

S2.2.3计算个股A和内容的关联度assetContentRel：

assetContentRel＝(nac_syn+nac_long+nac_id+nac_short)*2；

热度分析的具体方法为：

参照图4，为情感得分计算流程图，其具体方法为：

S4.1获取语料并区分标题和内容；

S4.2对于个股A和新闻N，其情感得分计算如下：

S4.2.5个股A在子句subSentence_i中的情感得分为：

assetSubSentenceScore_i＝(pcss_i-ncss_i)*d_i1*...*d_ij；

S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue；设pc＝pcss_1+pcss_2+...+pcss_tSS，nc＝ncss_1+ncss_2+...+ncss_tSS；则assetNormalValue＝(pc-nc)/(pc+nc)；

Claims

1.个股和文章关联度的计算方法，其特征在于，包括以下步骤：

S1.数据获取

S2.关联度分析

S3.热度分析

按日汇总个股与文章的关联度即个股的热度；

S4.情感分析

分析实时获取的语料中的个股情感；

S5.数据存储

S6.数据检索

通过WebService对终端用户提供查询接口，用户输入个股信息，返回个股关联的文章及关联度、个股情感和个股热度信息。

2.根据权利要求1所述的个股和文章关联度的计算方法，其特征在于，所述步骤S2中关联度的计算方法为：

S2.1获取语料并区分标题和内容，分词并计算各个词的提及数；

S2.2对于个股A和新闻N，其关联度计算如下：

S2.2.2计算个股A和标题的关联度assetTitleRel：

S2.2.3计算个股A和内容的关联度assetContentRel：

assetContentRel＝(nac_syn+nac_long+nac_id+nac_short)*2；

3.根据权利要求2所述的个股和文章关联度的计算方法，其特征在于，所述步骤S2.1中分词采用的方法为正向最大匹配分词，反向最大匹配分词，双向最大匹配分词，N-最短路分词，隐马尔科夫模型分词或CRF分词。

4.根据权利要求1所述的个股和文章关联度的计算方法，其特征在于，所述步骤S3中热度分析的具体方法为：

S3.2每一天都统计所有股票的当天热度，便可获得历史热度信息。

5.根据权利要求1所述的个股和文章关联度的计算方法，其特征在于，所述步骤S4中情感分析的具体方法为：

S4.1获取语料并区分标题和内容；

S4.2对于个股A和新闻N，其情感得分计算如下：

S4.2.5个股A在子句subSentence_i中的情感得分为：

assetSubSentenceScore_i＝(pcss_i-ncss_i)*d_i1*...*d_ij；

S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue；设

S4.2.7计算个股A和新闻N的情感得分assetScore：

1)如果个股A在标题中出现，则情感得分为个股A的标题情感得分，即assetScore＝assetTitleScore；

2)如果个股A在标题中没有出现，在内容中出现了并且归一化情感值assetNormalValue小于等于0.1，则情感得分为标题情感得分，即assetScore＝titleScore；

3)如果个股A在标题中没有出现，在内容中出现了并且归一化情感值assetNormalValue大于0.1，则情感得分为新闻内容中各个子句的情感得分之和，即

6.个股和文章关联度的计算系统，其特征在于，包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块，