CN105786962A - 基于新闻传播力的大数据指数分析方法及系统 - Google Patents
基于新闻传播力的大数据指数分析方法及系统 Download PDFInfo
- Publication number
- CN105786962A CN105786962A CN201610029413.1A CN201610029413A CN105786962A CN 105786962 A CN105786962 A CN 105786962A CN 201610029413 A CN201610029413 A CN 201610029413A CN 105786962 A CN105786962 A CN 105786962A
- Authority
- CN
- China
- Prior art keywords
- big data
- news
- data index
- information
- temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Abstract
本发明公开了基于新闻传播力的大数据指数分析方法及系统,本系统包括:搜索模块,搜索模块用于搜索目标网站中的金融资讯,获取资讯热度;初始化模块,用于根据用户输入的配置文件将大数据指数选股模型初始化;大数据因子计算模块,用于根据资讯热度得到大数据因子,分析处理模块,用于在初始化完成后,根据大数据因子建立大数据指数选股模型,在大数据指数选股模型中确定样本股,并通过对样本股进行加权得到大数据指数得到分析结果;结果输出模块,用于将分析结果传送到应用服务器。本发明通过借助网络爬虫搜集各财经网站的金融相关资讯,结合人工采集的基础金融数据,基于大数据指数选股模型为市场提供更多选择指数化的投资标的。
Description
技术领域
本发明属于金融领域,特别涉及基于新闻传播力的大数据指数推荐方法及系统。
背景技术
目前国内已经推出数款大数据系列指数,由南方基金、新浪财经、深证信息公司三强联手,于2014年9月12日正式对外发布的以互联网财经发数据应用为特色的系列指数,目前包含“大数据100指数”(简称:i100,代码:3999415)、“大数据300指数”(简称:i300,代码399416),是国内首个在证券交易所挂牌的大数据系列指数。以其中比较有代表性的i100指数为例介绍。该指数先计算个股的财务因子得分,市场驱动因子得分,新浪大数据得分,然后根据各项得分及因子权重计算个股综合评分,选出排名前100的股票作为样本股,并定期调整样本股,最后根据指数编制规则绘制出大数据指数。
此指数特点:前两个得分计算模式已比较常见,特色之处为新浪大数据得分是根据新浪财经频道下的股票页面访问热度计算单个股票的热度得分、根据财经频道下的新闻报道正负面影响计算单个股票新闻报道得分、根据股票在微博上的正负面文章影响计算单个股票微博得分,综合上述得分并根据历史回测优化结果作为大数据得分。此指数的不足之处在于:新浪财经频道只是众多权威知名网站中的一部分,即使频道点击较高,但针对于整个资讯市场而言采样标准还是相对单一,具有一定的片面性。
发明内容
本发明要解决的技术问题是提供覆盖国内所有权威知名网站财经资讯的资讯热度,并结合了分析师对股票的预测,选出热度较高的股票的大数据指数分析方法,为市场提供更丰富的指数化投资标的。
解决上述技术问题,本发明提供了一种基于新闻传播力的大数据指数分析方法,包括:
搜索目标网站中的金融资讯,获取资讯热度;
根据资讯热度得到大数据因子;
根据用户输入的配置文件将大数据指数选股模型初始化;
初始化完成后,根据所述大数据因子建立大数据指数选股模型,在所述大数据指数选股模型中确定样本股;
通过对样本股进行加权得到大数据指数得到分析结果,将分析结果传送应用到服务器。
更进一步,大数据因子还包括:盈利预测因子,
根据用户配置的基础文件,搜索得到报告文件;
基于报告文件得到预测值;
将所述预测值输入大数据指数选股模型。
更进一步,所述初始化包括:
选择沪深A股,上市时间不小于1年;
和/或,沪深A股中不选择ST股票;
和/或,沪深A股中停牌不超过5天。
更进一步,所述大数据指数选股模型中确定样本股后,调整频率为:月/次、周/次或者季度/次。
更进一步,所述大数据因子包括:
通过搜索目标网站得到的资讯热度因子;
基于搜索目标网站中一个月中的热度总量、7日热度总量、一个月中的热度增长率、7日热度增长率,得到资讯热度因子。
更进一步,所述目标网站为用户配置,或者搜集众多财经门户网站新闻资讯,所述新闻资讯覆盖国内权威知名网站财经资讯。
更进一步,根据所述大数据因子建立大数据指数选股模型包括:
a)通过搜集到的网站新闻资讯,计算出新闻资讯热度值;
b)按照所述新闻资讯与股票的关联度,与新闻资讯热度值结合,计算出个股资讯热度值;
c)根据所述个股资讯热度值将7日内、一个月中的热度值求和,分别得到7日热度总量以及一个月中的热度总量;
d)进而计算得出一月、7日热度总量环比值,得到一个月中的热度增长率和7日热度增长率;
e)将大数据因子中赋予不同权重,并计算出综合得分后,取排名前100的股纳入样本股的范围;
f)在所述样本股的范围内选择并建立大数据指数选股模型。
更进一步,所述新闻资讯热度的计算方法为:
获取新闻来源的重要度、重复资讯数量、新闻重要性的计算参数;
对上述计算参数赋予相应权重,再计算出新闻资讯热度值。
更进一步,所述个股资讯热度的计算方法为:
根据股票与资讯关联度值按给定范围内随机赋值,
然后与新闻资讯热度关联,得出个股资讯热度值。
本发明还提供了一种基于新闻传播力的大数据指数分析系统,包括:
搜索模块,所述搜索模块用于搜索目标网站中的金融资讯,获取资讯热度;
初始化模块,所述初始化模块用于根据用户输入的配置文件将大数据指数选股模型初始化;
大数据因子计算模块,所述大数据因子计算模块用于根据资讯热度得到大数据因子,
分析处理模块,所述分析处理模块用于在初始化完成后,根据所述大数据因子建立大数据指数选股模型,在所述大数据指数选股模型中确定样本股,并通过对样本股进行加权得到大数据指数得到分析结果;
结果输出模块,所述结果输出模块用于将分析结果传送到应用服务器。
本发明的有益效果:
1)本发明中的基于新闻传播力的大数据指数分析方法,样本新闻资讯量相对较多,基本覆盖国内所有权威知名网站财经资讯,范围较广且相对全面,并结合了分析师对股票的预测,选出热度较高的股票,计算出基于新闻传播力的大数据指数,为市场提供更丰富的指数化投资标的。
2)本发明中的基于新闻传播力的大数据指数分析系统,通过借助网络爬虫搜集各财经网站的金融相关资讯,结合人工采集的基础金融数据,按照构建的模型数据库,分析处理数据,得到的结果再按加权综合价格指数编制方式加工编制成指数,为市场提供更多选择指数化的投资标的。
附图说明
图1是本发明一实施例中的基于新闻传播力的大数据指数分析方法流程示意图。
图2是图1中的大数据因子还包括的盈利预测因子获取方式示意图。
图3是图1中的初始化的的两种实现方式示意图。
图4是图1中的大数据因子包括的资讯热度因子获取方式示意图。
图5是图1中根据大数据因子建立大数据指数选股模型的流程示意图。
图6是图5中的新闻资讯热度的计算方法流程图。
图7是图5中的个股资讯热度的计算方法流程图。
图8是本发明一实施例中的基于新闻传播力的大数据指数分析系统结构关系示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
请参考图1,是本发明一实施例中的基于新闻传播力的大数据指数分析方法流程示意图。
其中具体流程包括:
步骤S101开始,方法流程开始于步骤S101。
步骤S102搜索目标网站中的金融资讯,获取资讯热度,本领域技术人员能够明了,所述目标网站为用户配置,用户配置可以采用URL统一资源定位符(UniformResourceLocator)对目标网站进行配置。或者,搜集众多财经门户网站新闻资讯,所述新闻资讯覆盖国内权威知名网站财经资讯,比如有新浪财经、东方财富、中国证券网、网易财经及搜狐财经等。在本实施例中包括但不限于选择上述的新闻资讯覆盖国内权威知名网站财经资讯,比如还可以基于金融类别网站Alexa排名,进行综合考量。
步骤S103根据资讯热度得到大数据因子,所述资讯热度包括但不限于:金融、财经、证券等方面。
步骤S104根据用户输入的配置文件将大数据指数选股模型初始化,用户输入的配置文件可以选择金融方面的不同类型,包括但不限于:选择的股票类型。
步骤S105初始化完成后,根据所述大数据因子建立大数据指数选股模型,在所述大数据指数选股模型中确定样本股,作为本实施例中的优选,所述大数据指数选股模型中确定样本股后,调整频率为:月/次、周/次或者季度/次。比如,i100大数据指数基金与普通指数基金是在互联网公司提供的海量数据的基础上编制的,在选成分股的过程中,融入了对投资者行为的量化分析,因此大数据指数基金应属于策略指数基金的一种。大数据因子往往是捕捉市场热点、投资者情绪的重要指标,因此大数据指数具有更高的时效性,表现成分股调整频率更高、成分股行业分布变化较快等特征。在本实施例中,由于样本新闻资讯量相对较多,基本覆盖国内所有权威知名网站财经资讯,范围较广且相对全面,并结合了分析师对股票的预测,选出热度较高的股票,计算出基于新闻传播力的大数据指数,为市场提供更丰富的指数化投资标的。
步骤S106通过对样本股进行加权得到大数据指数得到分析结果,将分析结果传送到应用服务器。所述应用服务器是指通过各种协议把商业逻辑曝露给客户端的程序。它提供了访问商业逻辑的途径以供客户端应用程序使用。作为本实施例中的优选,可以选择Apache的Tomcat。
请参考图2,是图1中的大数据因子还包括的盈利预测因子获取方式示意图。
盈利预测因子可以通过下述的方式实现:
步骤S201根据用户配置的基础文件,搜索得到报告文件;
步骤S202基于报告文件得到预测值;
步骤S203将所述预测值输入大数据指数选股模型,即是盈利预测因子。作为本实施例中的优选,盈利预测因子计算方式可以:通过搜集分析师近半年撰写的研报,计算分析师对个股净利润增长率的预期均值。所述的研究报告(即研报)的主要来源是券商(即是经营证券交易的公司,或称证券公司。在中国有中信、申银万国、齐鲁、银河、华泰、国信、广发等。其实就是上交所和深交所的代理商)的官方网站和一些其他公开渠道(如一些财经类、论坛类网站等);所述的分析师主要是各券商机构的注册分析师;时间不一定要用近半年的研究报告,也可以用近三月或近一年的研报,但结合自身的情况综合考虑,选择的是近半年的研究报告。所述分析师在研究报告里会对某个上市公司做盈利预测,比如净利润增长率;也有可能存在多个分析师对同一家上市公司进行盈利预测,且可能存在结果不一致,在本实施例中会对近半年数据库中录入的研报进行统计,对同一家公司、同一截止日期、同一科目做的盈利预测计算其平均值。最后计算出来的结果会纳入下一步的计算。
请参考图3,是图1中的初始化的的两种实现方式示意图。
在本实施例中,具体地,所述初始化包括:
步骤S301选择沪深A股,上市时间不小于1年;
或者,步骤S302沪深A股中不选择ST股票;
或者,步骤S303沪深A股中停牌不超过5天。
在本实施例中,具体地,所述初始化包括:
步骤S301选择沪深A股,上市时间不小于1年;
和,步骤S302沪深A股中不选择ST股票;
和,步骤S303沪深A股中停牌不超过5天。
其中,所述的沪深A股,即人民币普通股,是由中国境内公司发行,供境内机构、组织或个人(从2013年4月1日起,境内、港、澳、台居民可开立A股账户)以人民币认购和交易的普通股股票。所述的ST股票,是将对财务状况或其它状况出现异常的上市公司股票交易进行特别处理(Specialtreatment),并在简称前冠以“ST”,因此这类股票称为ST股。ST股的交易规则:1.股票报价日涨跌幅限制为涨幅5%,跌幅5%;2.股票名称改为原股票名前加“ST”,例如“ST钢管”;3.上市公司的中期报告必须经过审计。由于对ST股票实行日涨跌幅度限制为5%,也在一定程度上抑制了庄家的刻意炒作。投资者对于特别处理的股票也要区别对待。具体问题具体分析,有些ST股主要是经营性亏损,那么在短期内很难通过加强管理扭亏为盈。所述的停牌不超过5天,是指停牌是指股票由于某种消息或进行某种活动引起股价的连续上涨或下跌,由证券交易所暂停其在股票市场上进行交易。待情况澄清或企业恢复正常后,再复牌在交易所挂牌交易,且期限不超过5天。
另外,优选地,每月调整一次样本股。在本实施例中可选地,所述大数据指数选股模型中确定样本股后,调整频率为:月/次、周/次或者季度/次。
请参考图4,是图1中的大数据因子包括的资讯热度因子获取方式示意图。
步骤S401搜索目标网站,在本实施例中,搜索目标网站的方式包括但不限于网络爬虫,具体地所述网络爬虫包括:Larbin、Nutch、Heritrix、WebSPHINX、Mercator、PolyBot。本技术人员能够明了,比如,Larbin,可以获取/确定单个金融咨询网站的所有联结,还包括镜像一个金融咨询网站、或者建立url列表群。Nutch,通过WebDB用以存储的是爬虫所抓取网页之间的链接结构信息,WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等,针对金融资讯行业特殊的数据,能够抓取得到更有效的信息。Heritrix,在预定的用于标识某一互联网资源名称的字符串URI中选择一个,之后获取URI进行分析,归档结果,选择已经发现的感兴趣的“A股”URI,加入预定队列,之后再标记已经处理过的URI。比如PolyBot,由一个爬虫管理者,一个或多个下载者,和一个或多个域名系统服务器DNS解析者组成,通过将抽取到的URL被添加到硬盘的一个队列里面,然后使用批处理的模式处理这些URL。
步骤S402基于搜索目标网站中一个月中的热度总量,进一步得到一个月中的热度增长率402。
步骤S403基于搜索目标网站中7日热度总量,进一步得到7日热度增长率403。
请参考图5,是图1中根据大数据因子建立大数据指数选股模型的流程示意图。
步骤S501通过搜集到的网站新闻资讯,计算出新闻资讯热度值;通过获取新闻来源的重要度、重复资讯数量、新闻重要性的计算参数;对上述计算参数赋予相应权重,再计算出新闻资讯热度。
步骤S502按照所述新闻资讯与股票的关联度,与新闻资讯热度值结合,计算出个股资讯热度值;根据股票与资讯关联度值按给定范围内随机赋值,
进一步与新闻资讯热度关联,得出个股资讯热度值。
步骤S503根据所述个股资讯热度值将7日内、一个月中的热度值求和,分别得到7日热度总量以及一个月中的热度总量;
步骤S504进而计算得出一个月、7日热度总量环比值,得到一个月中的热度增长率和7日热度增长率;由于所述环比值=(当前周期数值-上一周期数值)/上一周期数值,相应地,所述热度总量环比值=(当前周期热度总量-上一周期热度总量)/上一周期热度总量。更进一步,一个月中的热度增长率=(当月热度总量-上月热度总量)/上月热度总量*100%,同理7日热度增长率也是如此;
步骤S505将大数据因子中赋予不同权重,并计算出综合得分后,取排名前100的股纳入样本股的范围;
步骤S506在所述样本股的范围内选择并建立大数据指数选股模型。
请参考图6,是图5中的新闻资讯热度的计算方法流程图。
所述新闻资讯热度的计算方法包括如下的步骤:
步骤S601获取新闻来源的重要度计算参数,
步骤S602获取新闻重复资讯数量计算参数,
步骤S603获取新闻重要性计算参数,
步骤S604对上述计算参数赋予相应权重,
步骤S605计算出新闻资讯热度值。
在本实施例中,具体地,所述步骤S601中的新闻来源的重要程度,可按媒体属性划分为4个等级:
财经报刊类为为第一个等级,比如中国证券报,证券日报等;
垂直财经类门户网站为第二个等级,比如东方财富网站,和讯网等;
移动互联网类为第三个等级,比如官方财经微信,微博,雪球等;
综合性门户网站为第四个等级,比如新浪,搜狐等。
在步骤S602中所述重复资讯量,是按同样的资讯在不同网站重复的次数,重复的次数越多,随机分数越高。
在步骤S603中所述新闻重要性,按新闻的重要程度分为三个等级,比如国家政策类新闻或重要媒体头条新闻为第一等级,行业类资讯或产业类资讯为第二等级,其他类资讯为第三等级。
步骤S604中的权重的划分:具体地,在一篇资讯的重要程度很大程度上取决于转载量,所以重复资讯量权重占比最高,新闻来源比较能反应新闻的权威性,新闻来源的权重在重复资讯量之后,权重占比最低则是新闻重要性。
请参考图7,是图5中的个股资讯热度的计算方法流程图。
在本实施例中,个股资讯热度的计算方法包括:
步骤S701根据股票与资讯关联度值按给定范围内随机赋值,
步骤S702与新闻资讯热度关联,得出个股资讯热度值。
所述步骤S701中的股票与资讯的关联度划分为四个等级,分别是高、较高、一般和低四种,比如说一篇资讯主要是针对某一个上市公司的资讯,那么关联程度则是高,如果某篇资讯针对某一个行业的新闻,并提到这个行业的几个公司,则么关联程度则是较高,如果说某篇资讯提到某一领域,有提及几个公司部分业务相关,则关联程度一般,如果说某篇资讯只是提及某个上市公司,业务并无很大关联,则关联程度为低。
所述步骤S701中的所述的随机赋值是指:按关联程度的高低,利用数据库的随机赋值函数在不同的数据区间内给不同的分数,比如关联程度高,则在90~99区间内随机赋值,关联程度较高则在80~89区间内随机赋值,关联程度一般则在70~79区间内随机赋值,关联程度低则在60~69区间内随机赋值。
请参考图8,是本发明一实施例中的基于新闻传播力的大数据指数分析系统结构关系示意图。
在本实施例中,基于新闻传播力的大数据指数分析系统的结构关系如下:
搜索模块801,所述搜索模块801用于搜索目标网站中的金融资讯,获取资讯热度;在本实施例中,所述搜索模块801用于搜索目标网站中的金融资讯,获取资讯热度;其中搜索目标网站的方式包括但不限于网络爬虫,具体地所述网络爬虫包括:Larbin、Nutch、Heritrix、WebSPHINX、Mercator、PolyBot。通过搜集到的网站新闻资讯,计算出新闻资讯热度值;通过获取新闻来源的重要度、重复资讯数量、新闻重要性的计算参数;对上述计算参数赋予相应权重,再计算出新闻资讯热度。在本实施例中,通过借助网络爬虫搜集各财经网站的金融相关资讯,结合人工采集的基础金融数据,按照构建的模型数据库,分析处理数据,得到的结果再按加权综合价格指数编制方式加工编制成指数,为市场提供更多选择指数化的投资标的。
初始化模块802,所述初始化模块802用于根据用户输入的配置文件将大数据指数选股模型初始化;所述用户输入的配置文件为初始化配置文件,比如选择沪深A股,上市时间不小于1年;且沪深A股中不选择ST股票;且沪深A股中停牌不超过5天。又比如,选择沪深A股,上市时间不小于1年;或者,选择沪深A股中不选择ST股票;又或者,选择沪深A股中停牌不超过5天。本发明中的基于新闻传播力的大数据指数分析系统,
大数据因子计算模块804,所述大数据因子计算模块804用于根据资讯热度得到大数据因子,在大数据因子计算模块804中按照步骤S501~步骤S506进行操作:
步骤S501通过搜集到的网站新闻资讯,计算出新闻资讯热度值;通过获取新闻来源的重要度、重复资讯数量、新闻重要性的计算参数;对上述计算参数赋予相应权重,再计算出新闻资讯热度。
步骤S502按照所述新闻资讯与股票的关联度,与新闻资讯热度值结合,计算出个股资讯热度值;根据股票与资讯关联度值按给定范围内随机赋值,进一步与新闻资讯热度关联,得出个股资讯热度值。
步骤S503根据所述个股资讯热度值将7日内、一个月中的热度值求和,分别得到7日热度总量以及一个月中的热度总量;
步骤S504进而计算得出一个月、7日热度总量环比值,得到一个月中的热度增长率和7日热度增长率;由于所述环比值=(当前周期数值-上一周期数值)/上一周期数值,相应地,所述热度总量环比值=(当前周期热度总量-上一周期热度总量)/上一周期热度总量。更进一步,一个月中的热度增长率=(当月热度总量-上月热度总量)/上月热度总量*100%,同理7日热度增长率也是如此;
步骤S505将大数据因子中赋予不同权重,并计算出综合得分后,取排名前100的股纳入样本股的范围;
步骤S506在所述样本股的范围内选择并建立大数据指数选股模型。
分析处理模块805,所述分析处理模块805用于在初始化完成后,根据所述大数据因子建立大数据指数选股模型806,在所述大数据指数选股模型中确定样本股,并通过对样本股进行加权得到大数据指数得到分析结果;大数据因子计算方法:
第一步,通过搜集众多财经门户网站新闻资讯,首先计算出新闻资讯热度,计算方法:取新闻来源重要度、重复资讯数量、新闻重要性并赋予相应权重计算出资讯热度。第二步,先依据新闻资讯与股票的关联度,然后与新闻资讯热度结合,算出个股资讯热度。计算方法:根据股票与资讯关联度值按给定范围内随机赋值,然后与新闻资讯热度关联,得出个股资讯热度值。第三步取第二步计算得出的个股资讯热度值将7日内、一月内求和分别得出7日热度总量和一月热度总量。进而计算得出7日、一月热度总量环比值。综合上述因子,针对不同因子赋予不同权重,计算出综合得分后,取排名前100的股票纳入指数计算样本股范围。在所述大数据指数选股模型中确定样本股,并通过对样本股进行加权得到大数据指数得到分析结果。
结果输出模块803,所述结果输出模块用于将分析结果传送到应用服务器。所述的应用服务器是指通过各种协议把商业逻辑曝露给客户端的程序。它提供了访问商业逻辑的途径以供客户端应用程序使用。应用服务器使用此商业逻辑就像调用对象的一个方法一样。Web应用程序驻留在应用服务器(ApplicationServer)上。应用服务器为Web应用程序提供一种简单的和可管理的对系统资源的访问机制。它也提供低级的服务,如HTTP协议的实现和数据库连接管理。Servlet容器仅仅是应用服务器的一部分。除了Servlet容器外,应用服务器还可能提供其他的JavaEE(EnterpriseEdition)组件,如EJB容器,JNDI服务器以及JMS服务器等。可选择的应用服务器,可包括Apache的Tomcat、IBM的websphere、CauchoTechnology的Resin、Macromedia的JRun、NECWebOTXApplicationServer、JBossApplicationServer、BEA的WebLogic等。其中有些如NECWebOTXApplicationServer、WebLogic、WebSphere不仅仅是Servlet容器,它们也提供对EJB(EnterpriseJavaBeans)、JMS(JavaMessageService)以及其他JavaEE技术的支持。也就是说,本发明的系统能够支持用户在WEB端、APP端上进行访问,为市场提供更多选择指数化的投资标的。
所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于新闻传播力的大数据指数分析方法,其特征在于包括:
搜索目标网站中的金融资讯,获取资讯热度;
根据资讯热度得到大数据因子;
根据用户输入的配置文件将大数据指数选股模型初始化;
初始化完成后,根据所述大数据因子建立大数据指数选股模型,在所述大数据指数选股模型中确定样本股;
通过对样本股进行加权得到大数据指数得到分析结果,将分析结果传送应用到服务器。
2.根据权利要求1所述的基于新闻传播力的大数据指数分析方法,其特征在于,大数据因子还包括:盈利预测因子,
根据用户配置的基础文件,搜索得到报告文件;
基于报告文件得到预测值;
将所述预测值输入大数据指数选股模型。
3.根据权利要求1所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述初始化包括:
选择沪深A股,上市时间不小于1年;
和/或,沪深A股中不选择ST股票;
和/或,沪深A股中停牌不超过5天。
4.根据权利要求1所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述大数据指数选股模型中确定样本股后,调整频率为:月/次、周/次或者季度/次。
5.根据权利要求1所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述大数据因子包括:
通过搜索目标网站得到的资讯热度因子;
基于搜索目标网站中一个月中的热度总量、7日热度总量、一个月中的热度增长率、7日热度增长率,得到资讯热度因子。
6.根据权利要求5所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述目标网站为用户配置,或者搜集众多财经门户网站新闻资讯,所述新闻资讯覆盖国内权威知名网站财经资讯。
7.根据权利要求1所述的基于新闻传播力的大数据指数分析方法,其特征在于,根据所述大数据因子建立大数据指数选股模型包括:
a)通过搜集到的网站新闻资讯,计算出新闻资讯热度值;
b)按照所述新闻资讯与股票的关联度,与新闻资讯热度值结合,计算出个股资讯热度值;
c)根据所述个股资讯热度值将7日内、一个月中的热度值求和,分别得到7日热度总量以及一个月中的热度总量;
d)进而计算得出一月、7日热度总量环比值,得到一个月中的热度增长率和7日热度增长率;
e)将大数据因子中赋予不同权重,并计算出综合得分后,取排名前100的股纳入样本股的范围;
f)在所述样本股的范围内选择并建立大数据指数选股模型。
8.根据权利要求7所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述新闻资讯热度的计算方法为:
获取新闻来源的重要度、重复资讯数量、新闻重要性的计算参数;
对上述计算参数赋予相应权重,再计算出新闻资讯热度值。
9.根据权利要求7所述的基于新闻传播力的大数据指数分析方法,其特征在于,所述个股资讯热度的计算方法为:
根据股票与资讯关联度值按给定范围内随机赋值,
然后与新闻资讯热度关联,得出个股资讯热度值。
10.基于新闻传播力的大数据指数分析系统,其特征在于,包括:
搜索模块,所述搜索模块用于搜索目标网站中的金融资讯,获取资讯热度;
初始化模块,所述初始化模块用于根据用户输入的配置文件将大数据指数选股模型初始化;
大数据因子计算模块,所述大数据因子计算模块用于根据资讯热度得到大数据因子,
分析处理模块,所述分析处理模块用于在初始化完成后,根据所述大数据因子建立大数据指数选股模型,在所述大数据指数选股模型中确定样本股,并通过对样本股进行加权得到大数据指数得到分析结果;
结果输出模块,所述结果输出模块用于将分析结果传送到应用服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610029413.1A CN105786962A (zh) | 2016-01-15 | 2016-01-15 | 基于新闻传播力的大数据指数分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610029413.1A CN105786962A (zh) | 2016-01-15 | 2016-01-15 | 基于新闻传播力的大数据指数分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786962A true CN105786962A (zh) | 2016-07-20 |
Family
ID=56402439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610029413.1A Pending CN105786962A (zh) | 2016-01-15 | 2016-01-15 | 基于新闻传播力的大数据指数分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786962A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025264A (zh) * | 2017-02-13 | 2017-08-08 | 闽南师范大学 | 一种基于新闻大数据的自动选股方法 |
CN107945034A (zh) * | 2017-11-17 | 2018-04-20 | 平安科技(深圳)有限公司 | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108595666A (zh) * | 2018-04-28 | 2018-09-28 | 中译语通科技股份有限公司 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
CN109285070A (zh) * | 2018-08-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 基金的持仓调整方法及装置、存储介质、计算机设备 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187772A1 (en) * | 2002-01-18 | 2003-10-02 | Ron Papka | System and method for predicting security price movements using financial news |
CN103778215A (zh) * | 2014-01-17 | 2014-05-07 | 北京理工大学 | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 |
CN103985055A (zh) * | 2014-05-30 | 2014-08-13 | 西安交通大学 | 一种基于网络分析和多模型融合的股市投资决策方法 |
CN104115178A (zh) * | 2011-11-30 | 2014-10-22 | 汤姆森路透社全球资源公司 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
-
2016
- 2016-01-15 CN CN201610029413.1A patent/CN105786962A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187772A1 (en) * | 2002-01-18 | 2003-10-02 | Ron Papka | System and method for predicting security price movements using financial news |
CN104115178A (zh) * | 2011-11-30 | 2014-10-22 | 汤姆森路透社全球资源公司 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
CN103778215A (zh) * | 2014-01-17 | 2014-05-07 | 北京理工大学 | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 |
CN103985055A (zh) * | 2014-05-30 | 2014-08-13 | 西安交通大学 | 一种基于网络分析和多模型融合的股市投资决策方法 |
Non-Patent Citations (1)
Title |
---|
王群航: ""大数据指基静待时机"", 《中国外汇》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025264A (zh) * | 2017-02-13 | 2017-08-08 | 闽南师范大学 | 一种基于新闻大数据的自动选股方法 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN107945034A (zh) * | 2017-11-17 | 2018-04-20 | 平安科技(深圳)有限公司 | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 |
CN108595666A (zh) * | 2018-04-28 | 2018-09-28 | 中译语通科技股份有限公司 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
CN108595666B (zh) * | 2018-04-28 | 2022-03-29 | 中译语通科技股份有限公司 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
CN109285070A (zh) * | 2018-08-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 基金的持仓调整方法及装置、存储介质、计算机设备 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110458360B (zh) * | 2019-08-13 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105786962A (zh) | 基于新闻传播力的大数据指数分析方法及系统 | |
Xia | Predatory journals and their article publishing charges | |
Chen et al. | E-business adoption research: state of the art | |
Cormier et al. | The relevance of XBRL voluntary disclosure for stock market valuation: The role of corporate governance | |
US20100058210A1 (en) | Online Investing | |
Gan et al. | Online relationship marketing by Singapore hotel websites | |
Ye et al. | Internet big data and capital markets: a literature review | |
Dwivedi et al. | Profiling electronic commerce research published in the journal of electronic commerce research | |
Yin et al. | Are “Internet+” tactics the key to poverty alleviation in China’s rural ethnic minority areas? Empirical evidence from Sichuan Province | |
Alhamad et al. | Decoding significant and Trivial factors Influencing online hotel ratings: The case of Saudi Arabia’s Makkah city | |
Hu et al. | The impact of ultimate ownerships on audit fees: evidence from Chinese listed companies | |
Hwang et al. | Structural change in search engine news service: A social network perspective | |
Al Mustanyir et al. | The population of Saudi Arabia's willingness to pay for improved level of access to healthcare services: A contingent valuation study | |
Msuya et al. | ICT adoption and use in Tanzania SMEs | |
Perez et al. | How to Balance the Outcomes of the Economic Partnership Agreements for Sub‐Saharan African Economies? | |
Muñoz et al. | Measurement of organizational performance in national sport governing bodies domains: A scoping review | |
Deng et al. | The impact of attention heterogeneity on stock market in the era of big data | |
CN109598623A (zh) | 一种金融产品未来收益数据预测方法、装置及系统 | |
Cai et al. | Acquisitions and technology value revision | |
US8392303B2 (en) | Method, system and program product for determining a value of an index | |
Bakker et al. | The Impact of Transformative Agreements on Publication Patterns: An Analysis Based on Agreements from the ESAC Registry | |
Olusola et al. | Comparative analysis of e-commerce in Nigeria: problems, solutions and efficacy | |
CN111651492A (zh) | 一种用于金融在线服务的数据分析方法 | |
Bawuah | Mobile Money and Financial Inclusion: The role of Institutional Quality | |
CN108074182A (zh) | 一种基于搜索次数的股票筛选推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |