CN107480858A - 一种基于股票大数据分析的智能辅助决策系统及方法 - Google Patents

一种基于股票大数据分析的智能辅助决策系统及方法 Download PDF

Info

Publication number
CN107480858A
CN107480858A CN201710558225.2A CN201710558225A CN107480858A CN 107480858 A CN107480858 A CN 107480858A CN 201710558225 A CN201710558225 A CN 201710558225A CN 107480858 A CN107480858 A CN 107480858A
Authority
CN
China
Prior art keywords
data
stock
analysis
unit
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710558225.2A
Other languages
English (en)
Inventor
褚有伟
颜磊
房宋
李瑞明
宋向伟
陈平
裴国东
夏李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ding Ting Information Technology Co Ltd
Original Assignee
Wuhan Ding Ting Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ding Ting Information Technology Co Ltd filed Critical Wuhan Ding Ting Information Technology Co Ltd
Priority to CN201710558225.2A priority Critical patent/CN107480858A/zh
Publication of CN107480858A publication Critical patent/CN107480858A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于股票大数据分析的智能辅助决策系统及方法,包括:用户端和服务端,所述用户端,用以向所述服务端发送自选股的重要事件查询显示的请求,所述服务端,用以输出辅助决策响应在所述用户端的请求,所述服务端包括:数据采集预处理单元、数据清洗单元、数据处理单元、数据分析单元。本发明提供了一种数据覆盖全面、数据挖掘深入、辅助觉得价值更高的基于股票大数据分析的智能辅助决策系统,不仅仅是大事公告,而且还包括了价量、资金、研报、新闻、板块、题材及行业等相关具有参考价值的信息。此外,本系统使得数据挖掘更加深入,能够同时保持对事件的跟踪,直到最终股份上市流通,都能为用户效地提供有智能辅助决策。

Description

一种基于股票大数据分析的智能辅助决策系统及方法
技术领域
本发明涉股票金融领域、计算机软件领域,特别涉及一种基于股票大数据分析的智能辅助决策系统及方法。
背景技术
自选股,是用户把自己看好的股票加入到自己选定的自选股股行中,用时可以看多个股票,比较方便。通过PC端登录客户端后,单击鼠标右键即可回到界面,可察看股票走势。自己选择的股票库。在每个交易软件里都有“自选股”项目,将用户选择的股票代码输入后,该股票的各种数据由软件自动生成。这样一来,用户就不用再在其它地方分散找,从而调阅起来很方便。通过自选股的软件,能够显示即时沪深行情报价、公告、研报等等信息。其中公告大事可以按照如下的方式进行显示:
大事提醒1:
兴业银行(601166)分红股权登记
2016年年报分红:10派6.1元
除权日2017-06-14派息日2017-06-14
大事提醒2:
格力地产(600185)股东大会现场会议登记起始
2017-06-16召开股东大会,股权登记日:2017-06-12,现场会议登记日期:2017-06-13,召开地点:xx市石花西路213号
大事提醒3:
兴业银行(601166)分红除权
2016年年报分红:10派xx元派息日2017-06-14
大事提醒4:
兴业银行(601166)分红派息
2016年年报分红:10派xx元
目前,通过上述自选股的公告大事提醒的方式,能够为投资者提供辅助的决策手段。现有技术中的有部分改进在于:
针对同一自选股,按照时间顺序进行显示:
2017-04-18业绩披露
将于2017-04-18披露《2017年一季报》
2017-04-11股东大会
召开年度股东大会,审议相关议案
2017-03-30融资证券
融资金融xx亿元,融资买入额xx亿元。
但是,在现有技术中,还是存在着如下的缺陷:
1)数据覆盖面太低,目前的数据仅仅是针对部分公告做信息的展示,这些数据的覆盖率较低。
2)数据挖掘不够深入;仅是公告的其中一个类别,也并未做深入的整理和跟踪。具体而言,比如增发,也分为定向或者非定向,继续细分还可以包括:预案,批准,发行及限售解禁等等。这些数据内容的挖掘不足。
3)辅助决策的价值较低;仅仅是告知发生了哪些事件,并未对这类事件做分析预测,比如代表了什么,需要注意什么,是否有类似的事件等等。该些数据预测能力较低,辅助的决策价值不高。
发明内容
本发明要解决的技术问题是,提供了一种数据覆盖全面、数据挖掘深入、辅助觉得价值更高的基于股票大数据分析的智能辅助决策系统。
解决上述技术问题,本发明提供了基于股票大数据分析的智能辅助决策系统,包括:用户端和服务端,
所述用户端,用以向所述服务端发送自选股的重要事件查询显示的请求,
所述服务端,用以输出辅助决策响应在所述用户端的请求,
所述服务端包括:数据采集预处理单元、数据清洗单元、数据处理单元、数据分析单元,
所述数据采集预处理单元,用以根据网络爬虫抓取得到数据并储放至基础数据库,
所述数据清洗单元,用以对所述基础数据库中的数据进行统一结构化处理,
所述数据处理单元,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,
所述数据分析单元,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策。
所述数据清洗单元还包括:标签规则库、结构化处理单元,
所述标签规则库,用以按照标签规则将数据进行分类处理,
所述结构化处理单元,用以对数据进行清洗并统一数据结构。
更进一步,所述数据处理单元包括:内容抽取单元、要闻萃取单元、应用数据库,
所述内容抽取单元,用以按照设定规则从基础数据库中抽取内容,包括但不限于通过正则表达式等规则对数据源进行过滤,将内容抽取所需要的PDF、HTML等信息单独抽取出来。
所述要闻萃取单元,用以按照设定规则从所述抽取内容中抽取出关键内容并归类,比如,可将抓取的年报信息从PDF转化为HTML格式,并根据相似性的规则根据“业绩预降”关键词抽取关键词和句子并保存起来。
所述应用数据库,用以组织和存放上述内容数据。
更进一步,所述数据分析单元包括:要闻模板库、决策因子库,
所述要闻模板库,用以按照智能撰文算法将应用数据库的数据重新排版撰写,由于抽取的句子和词语是相互独立的,比如以“定增预案”来讲,抽取的是“非公开发行数量11005135股”“增发价:27.26元/股”等等,智能撰文除了将上述词语整合成一段话,还会根据增发当天的收盘价来计算当前的盈亏额,用来提供给用户更多的信息。处理思想是:抽取句子以及抽取语句,再将语句整合成文字。
所述决策因子库,用以通过智能分析决策算法对事件进行量化分析解读。比如,可针对MACD指标进行监控,当发现MACD出现顶背离时,除了告诉用户出现顶背离外,还根据历史的回测数据,告诉用户下跌的概率及需要注意的事项。
更进一步,所述服务端还包括:应用数据汇总单元,用以接收多个数据源的数据并按照不同类别储放整理。
更进一步,系统还包括:数据分发展示单元,用以根据接口协议进行通信,并根据不同客户端上的应用场景进行不同展示。上述的通信协议包括但不限于:HTTP、JCE等等。
更进一步,所述服务端包括:WEB端服务器以及应用程序服务器,
所述WEB端服务器,用以向提供Web信息浏览服务,同时支持HTTP协议、HTML文档格式以及URL,并与所述客户端的网络浏览器配合,
所述应用程序服务器,用以提供所述客户端上应用程序的调用方法,并为该应用程序提供商业逻辑。
更进一步,所述数据采集预处理单元中按照如下渠道抓取数据:
{新闻},用以作为股票所对应公司的新闻数据源,
{公告},用以作为上市公司发布的公开宣告数据源,
{研报},用以作为对股票出具的研究报告数据源,
{价量},用以作为股票的资金数据源,
{资金},用以作为股票所对应资金的数据源,
{题材},用以作为具备共同特征的股票组成的群体的数据源。
更进一步,所述用户端包括:PC网页端、PC客户端或者移动手机应用程序端。
基于上述,本发明还提供了基于股票大数据分析的智能辅助决策方法,包括客户端和服务端,进行如下的操作:
S1向所述服务端发送自选股的重要事件查询显示的请求,
S2根据网络爬虫抓取得到数据并储放至基础数据库,
S3对所述基础数据库中的数据进行统一结构化处理,
S4按照内容和/或要闻将数据抽取归类,并录入应用数据库,
S5对所述应用数据库中的数据重新撰写排版以及决策分析,输出辅助决策响应在所述用户端的请求。
本发明的有益效果:
1)采用本发明中系统,由于包括:所述数据采集预处理单元,用以根据网络爬虫抓取得到数据并储放至基础数据库,使得数据覆盖全面,不仅是大事公告,而且还包括了价量、资金、研报、新闻、板块、题材及行业等相关具有参考价值的信息。
2)采用本发明中系统,由于包括:所述数据处理单元,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,使得数据挖掘更加深入,能够同时保持对事件的跟踪,直到最终股份上市流通。
3)采用本发明中系统,由于包括:所述数据分析单元,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策。使得辅助决策具有较高价值,特别针对大部分重要的事件而言,都存在机会和风险,达到既定的规则,即能够对事件进行解析和提供投资建议。
4)采用本发明中系统可全自动化运行,在所述服务端中的数据采集预处理单元、数据清洗单元、数据处理单元以及数据分析单元,从数据抓取、抽取、归类、入库、撰写精要、智能分析、提醒、推送等全部流程全自动化运行。
5)此外,本发明还实现了用户投资教育,对于新手用户,如果发生了某个事件,用户并不熟悉,那么点击帮助即可了解到事件的定义和解答。
附图说明
图1是本发明一实施例中的基于股票大数据分析的智能辅助决策系统结构示意图;
图2是图1中的数据清洗单元结构示意图;
图3是图1中的数据处理单元结构示意图;
图4是图1中的数据分析单元结构示意图;
图5是图1中的一优选实施例中的系统结构示意图;
图6是图1中的另一优选实施例中的系统结构示意图;
图7是图1中的服务端结构示意图;
图8是图1中的数据采集预处理单元的相关数据示意图;
图9是是本发明一实施例中的基于股票大数据分析的智能辅助决策方法流程示意图;
图10是本发明实现流程原理示意图;
图11是本实施例中的系统在客户端上的产品显示界面示意图(自选股页面);
图12是本实施例中的系统在客户端上的产品显示界面示意图(个股详情页面);
图13是本实施例中的系统在客户端上的产品显示界面示意图(独立窗口模式);
图14是本实施例中的系统在客户端上的产品显示界面示意图(用户投资教学和教育)。
具体实施方式
现在将参考一些示例实施例描述本公开的原理。可以理解,这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述,而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。
本申请中的价量包括但不限于:股票的价格、成交量,量比等资金数据。
本申请中的研报包括但不限于:研究机构对股票出具的研究报告。
本申请中的公告包括但不限于:上市公司发布的公开宣告。
本申请中的板块包括但不限于:指拥有某一共同特征的股票组成的群体。
本申请中的题材包括但不限于:指拥有某一共同特征的股票组成的群体,这类特征往往是被所谓的股市庄家炒作。
本申请中的决策因子库包括但不限于:一种将重要事件对股价影响进行量化的方法
本申请中的入库包括但不限于:录入服务器的数据库进行存储
请参考图1是本发明一实施例中的基于股票大数据分析的智能辅助决策系统结构示意图,系统包括:用户端100和服务端200,所述用户端100,用以向所述服务端200发送自选股的重要事件查询显示的请求,所述服务端200,用以输出辅助决策响应在所述用户端100的请求,所述服务端200包括:数据采集预处理单元2001、数据清洗单元2002、数据处理单元2003、数据分析单元2004,所述数据采集预处理单元2001,用以根据网络爬虫抓取得到数据并储放至基础数据库,所述数据清洗单元2002,用以对所述基础数据库中的数据进行统一结构化处理,所述数据处理单元2003,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,所述数据分析单元2004,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策。
所述数据采集预处理单元2001中通过将数据抓取录入基础数据库,通过利用爬虫框架通过各个渠道抓取数据,包括但不限于:公告、价量、研报、资金、题材、新闻等,并录入基础数据库。采用本实施例中系统由于包括:所述数据采集预处理单元2001,用以根据网络爬虫抓取得到数据并储放至基础数据库,使得数据覆盖全面,不仅是大事公告,而且还包括了价量、资金、研报、新闻、板块、题材及行业等相关具有参考价值的信息。
所述数据清洗单元2002中进行数据清洗,可利用标签规则库,将数据统一进行结构化处理,并输出相同格式,从而方便进行下一步处理。作为本实施例中的优选,请参考图2是图1中的数据清洗单元结构示意图,所述数据清洗单元2002还包括:标签规则库20022、结构化处理单元20021,所述标签规则库20022,用以按照标签规则将数据进行分类处理,所述结构化处理单元20021,用以对数据进行清洗并统一数据结构。
所述数据处理单元2003中进行数据处理并录入应用数据库。根据内容抽取规则和要闻萃取规则算法,进行重要内容的抽取归类,再次录入应用数据库。所述的内容抽取算法是一种利用分词技术将文本内容精简话的算法。所述的要闻萃取算法是一种利用关键词提取的技术将文本内容关键语句提取的算法。采用本实施例中系统,由于包括:所述数据处理单元2003,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,使得数据挖掘更加深入,能够同时保持对事件的跟踪,直到最终股份上市流通。作为本实施例中的优选,请参考图3是图1中的数据处理单元结构示意图,所述数据处理单元2003包括:内容抽取单元20031、要闻萃取单元20032、应用数据库20033,所述内容抽取单元20031,用以按照设定规则从基础数据库中抽取内容,所述要闻萃取单元20032,用以按照设定规则从所述抽取内容中抽取出关键内容并归类,所述应用数据库20033,用以组织和存放上述内容数据。
内容抽取算法包括但不限于:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。其中,所述基于正则表达式的网页抽取利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。要详细了解如何利用正则表达式进行网页抽取,只要了解正则表达式的基本用法即可,与网页特征无关。基于CSS选择器的网页抽取,浏览器在收到服务器返回的html源码后,会将网页解析为DOM树。CSS选择器(CSS Selector)是基于DOM树的特征,被广泛用于网页抽取。主流的网页抽取组件Jsoup(Java)和BeautifulSoup(Python)都是基于CSS选择器的。
要闻萃取算法包括但不限于:TF-IDF、基于语义的统计语言模型、TF-IWF文档关键词自动提取算法、基于分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取(SKE)算法、基于朴素贝叶斯模型的中文关键词提取算法等等。
上述基于语义的统计语言模型中,文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
上述TF-IWF文档关键词自动提取算法中,针对现有TF-IWF的领域文档关键词快速提取算法.该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度.对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在O(n)时间内完成.
上述基于分离模型的中文关键词提取算法中,关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
上述基于高维聚类技术的中文关键词提取算法中,关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。
上述基于语义的中文文本关键词提取(SKE)算法中,为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。
上述基于朴素贝叶斯模型的中文关键词提取算法中,提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,因而具有更好的可扩展性。
在所述数据分析单元2004进行数据分析,在一些实施例中,根据要闻模板库的模板,通过智能撰文算法,将应用数据库的数据重新撰写,符合用户阅读习惯。在一些实施例中,根据决策因子库的不同因子,通过智能分析决策算法,进行比对,符合规则后,对事件进行分析解读。采用本实施例中系统,由于包括:所述数据分析单元2004,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策。使得辅助决策具有较高价值,特别针对大部分重要的事件而言,都存在机会和风险,达到既定的规则,即能够对事件进行解析和提供投资建议。作为本实施例中的优选,请参考图4是图1中的数据分析单元结构示意图,所述数据分析单元2003包括:要闻模板库20031、决策因子库20032,所述要闻模板库20031,用以按照智能撰文算法将应用数据库的数据重新排版撰写,所述决策因子库20032,用以通过智能分析决策算法对事件进行量化分析解读。
作为本实施例中的优选,请参考图7是图1中的服务端结构示意图,所述服务端200包括:WEB端服务器300以及应用程序服务器400,所述WEB端服务器300,用以向提供Web信息浏览服务,同时支持HTTP协议、HTML文档格式以及URL,并与所述客户端的网络浏览器配合,所述应用程序服务器400,用以提供所述客户端上应用程序的调用方法,并为该应用程序提供商业逻辑。
作为本实施例中的优选,所述用户端100包括:PC网页端、PC客户端或者移动手机应用程序端。
请参考图5是图1中的一优选实施例中的系统结构示意图,系统包括:用户端100和服务端200,所述用户端100,用以向所述服务端200发送自选股的重要事件查询显示的请求,所述服务端200,用以输出辅助决策响应在所述用户端100的请求,所述服务端200包括:数据采集预处理单元2001、数据清洗单元2002、数据处理单元2003、数据分析单元2004,所述数据采集预处理单元2001,用以根据网络爬虫抓取得到数据并储放至基础数据库,所述数据清洗单元2002,用以对所述基础数据库中的数据进行统一结构化处理,所述数据处理单元2003,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,所述数据分析单元2004,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策,优选地,所述服务端200还包括:应用数据汇总单元2005,用以接收多个数据源的数据并按照不同类别储放整理。应用数据汇总单元2005中服务端接收各个数据源的数据,进行分门别类整理,包括但不限于,新闻、公告、研报、价量、资金、题材等等。
请参考图6是图1中的另一优选实施例中的系统结构示意图,系统包括:用户端100和服务端200,所述用户端100,用以向所述服务端200发送自选股的重要事件查询显示的请求,所述服务端200,用以输出辅助决策响应在所述用户端100的请求,所述服务端200包括:数据采集预处理单元2001、数据清洗单元2002、数据处理单元2003、数据分析单元2004,所述数据采集预处理单元2001,用以根据网络爬虫抓取得到数据并储放至基础数据库,所述数据清洗单元2002,用以对所述基础数据库中的数据进行统一结构化处理,所述数据处理单元2003,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,所述数据分析单元2004,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策,优选地,还包括:数据分发展示单元2005,用以根据接口协议进行通信,并根据不同客户端上的应用场景进行不同展示。上述的通信协议包括但不限于:HTTP协议、JCE协议等等。HTTP协议可支持客户/服务器模式。客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。JCE的API都在javax.crypto包下,核心功能包括:加解密、密钥生成(对称)、MAC生成、密钥协商。
请参考图8是图1中的数据采集预处理单元的相关数据示意图,所述数据采集预处理单元2001中按照如下渠道抓取数据:
{新闻},用以作为股票所对应公司的新闻数据源,
{公告},用以作为上市公司发布的公开宣告数据源,
{研报},用以作为对股票出具的研究报告数据源,
{价量},用以作为股票的资金数据源,
{资金},用以作为股票所对应资金的数据源,
{题材},用以作为具备共同特征的股票组成的群体的数据源。
通过上述的{新闻}、{公告}、{研报}、{价量}、{资金}、{题材}。
请参考图9是是本发明一实施例中的基于股票大数据分析的智能辅助决策方法流程示意图,步骤包括如下:
步骤S1向所述服务端发送自选股的重要事件查询显示的请求,
步骤S2根据网络爬虫抓取得到数据并储放至基础数据库,
步骤S3对所述基础数据库中的数据进行统一结构化处理,
步骤S4按照内容和/或要闻将数据抽取归类,并录入应用数据库,
步骤S5对所述应用数据库中的数据重新撰写排版以及决策分析,输出辅助决策响应在所述用户端的请求。
优选地,上述步骤S3中还包括:
按照标签规则将数据进行分类处理,
对数据进行清洗并统一数据结构。
优选地,上述步骤S4中还包括:
按照设定规则从基础数据库中抽取内容,
按照设定规则从所述抽取内容中抽取出关键内容并归类,
组织和存放上述内容数据。
优选地,上述步骤S5中还包括:
按照智能撰文算法将应用数据库的数据重新排版撰写,
通过智能分析决策算法对事件进行量化分析解读。
优选地,上述步骤还包括:接收多个数据源的数据并按照不同类别储放整理。
优选地,上述步骤还包括:根据接口协议进行通信,并根据不同客户端上的应用场景进行不同展示。
优选地,上述步骤中对所述服务端还进行如下的配置:WEB端服务器以及应用程序服务器,所述WEB端服务器,用以向提供Web信息浏览服务,同时支持HTTP协议、HTML文档格式以及URL,并与所述客户端的网络浏览器配合,所述应用程序服务器,用以提供所述客户端上应用程序的调用方法,并为该应用程序提供商业逻辑。
优选地,上述步骤S2中按照如下渠道抓取数据:
{新闻},用以作为股票所对应公司的新闻数据源,
{公告},用以作为上市公司发布的公开宣告数据源,
{研报},用以作为对股票出具的研究报告数据源,
{价量},用以作为股票的资金数据源,
{资金},用以作为股票所对应资金的数据源,
{题材},用以作为具备共同特征的股票组成的群体的数据源。
优选地,本实施例中的所述用户端被配置为:PC网页端、PC客户端或者移动手机应用程序端。
请参考图10是本发明实现流程原理示意图,基于分布式框架和网络爬虫框架抓取得到:
{新闻},用以作为股票所对应公司的新闻数据源,
{公告},用以作为上市公司发布的公开宣告数据源,
{研报},用以作为对股票出具的研究报告数据源,
{价量},用以作为股票的资金数据源,
{资金},用以作为股票所对应资金的数据源,
{题材},用以作为具备共同特征的股票组成的群体的数据源。
将上述抓取的内容储存至基础数据库。
网络爬虫网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。具体地,包括但不限于,Nutch、Larbin、Heritrix。
对所述基础数据库中的数据进行统一结构化处理,基于标签规则库或者青瓷规则,进行统一结构化处理。
按照内容和/或要闻将数据抽取归类,并录入应用数据库。应用数据库中分别得到要闻模板库、决策因子库,所述要闻模板库,用以按照智能撰文算法将应用数据库的数据重新排版撰写,所述决策因子库,用以通过智能分析决策算法对事件进行量化分析解读。比如,要闻模板库中由于抽取的句子和词语是相互独立的,比如以“定增预案”来讲,抽取的是“非公开发行数量11005135股”“增发价:27.26元/股”等等,智能撰文除了将上述词语整合成一段话,还会根据增发当天的收盘价来计算当前的盈亏额,用来提供给用户更多的信息。又比如,在决策因子库中可针对MACD(指数平滑移动平均线)指标进行监控,当发现MACD出现顶背离时,除了告诉用户出现顶背离外,还根据历史的回测数据,告诉用户下跌的概率及需要注意的事项。当MACD从负数转向正数,是买的信号。当MACD从正数转向负数,是卖的信号。当MACD以大角度变化,表示快的移动平均线和慢的移动平均线的差距非常迅速的拉开,代表了一个市场大趋势的转变。
在所述服务端,输出辅助决策响应在所述用户端的请求
在所述用户端,向所述服务端发送自选股的重要事件查询显示的请求,所述的用户端包括:PC网页端、PC客户端或者移动手机应用程序端。
如图11所示是本实施例中的系统在客户端上的产品显示界面示意图(自选股页面);针对用户在客户端添加的自选股,可实时提醒用户自选股中发生的重要的事件,并告知用户事件的投资价值,辅助其决策。
如图12所示是本实施例中的系统在客户端上的产品显示界面示意图(个股详情页面);用户在客户端可在任一个股页面,浏览到个股最近发生的重要的事件,对个股的近期情况有个大致的了解,对选择股票时有较大帮助。
如图13所示是本实施例中的系统在客户端上的产品显示界面示意图(独立窗口模式);用户在客户端可启动独立模式,那么就不需要一直打开终端。在做其他事情时,只要自选股有重要的事件,第一时间即会提醒。
如图14所示是本实施例中的系统在客户端上的产品显示界面示意图(用户投资教学和教育)股票发生的时间种类是较多的,并不是所有用户都熟悉,故对于一些不熟悉的事件,可点击【帮助】ICON,即可以看到事件的详细解释和说明。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
总体而言,本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施,而其它一些方面可以以固件或软件实施,该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示,但是可以理解本文描述的框、设备、系统、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。
此外,虽然操作以特定顺序描述,但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行,或是要求所有所示的操作被执行以实现期望结果。在一些情形下,多任务或并行处理可以是有利的。类似地,虽然若干具体实现方式的细节在上面的讨论中被包含,但是这些不应被解释为对本公开的范围的任何限制,而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对,在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims (10)

1.基于股票大数据分析的智能辅助决策系统,其特征在于,包括:用户端和服务端,
所述用户端,用以向所述服务端发送自选股的重要事件查询显示的请求,
所述服务端,用以输出辅助决策响应在所述用户端的请求,
所述服务端包括:数据采集预处理单元、数据清洗单元、数据处理单元、数据分析单元,
所述数据采集预处理单元,用以根据网络爬虫抓取得到数据并储放至基础数据库,
所述数据清洗单元,用以对所述基础数据库中的数据进行统一结构化处理,
所述数据处理单元,用以按照内容和/或要闻将数据抽取归类,并录入应用数据库,
所述数据分析单元,用以对所述应用数据库中的数据重新撰写排版以及决策分析,输出结果完成辅助决策。
2.根据权利要求1所述的智能辅助决策系统,其特征在于,所述数据清洗单元还包括:标签规则库、结构化处理单元,
所述标签规则库,用以按照标签规则将数据进行分类处理,
所述结构化处理单元,用以对数据进行清洗并统一数据结构。
3.根据权利要求1所述的智能辅助决策系统,其特征在于,所述数据处理单元包括:内容抽取单元、要闻萃取单元、应用数据库,
所述内容抽取单元,用以按照设定规则从基础数据库中抽取内容,
所述要闻萃取单元,用以按照设定规则从所述抽取内容中抽取出关键内容并归类,
所述应用数据库,用以组织和存放上述内容数据。
4.根据权利要求1所述的智能辅助决策系统,其特征在于,所述数据分析单元包括:要闻模板库、决策因子库,
所述要闻模板库,用以按照智能撰文算法将应用数据库的数据重新排版撰写,
所述决策因子库,用以通过智能分析决策算法对事件进行量化分析解读。
5.根据权利要求1所述的智能辅助决策系统,其特征在于,所述服务端还包括:应用数据汇总单元,用以接收多个数据源的数据并按照不同类别储放整理。
6.根据权利要求1所述的智能辅助决策系统,其特征在于,还包括:数据分发展示单元,用以根据接口协议进行通信,并根据不同客户端上的应用场景进行不同展示。
7.根据权利要求1所述的智能辅助决策系统,其特征在于,所述服务端包括:WEB端服务器以及应用程序服务器,
所述WEB端服务器,用以向提供Web信息浏览服务,同时支持HTTP协议、HTML文档格式以及URL,并与所述客户端的网络浏览器配合,
所述应用程序服务器,用以提供所述客户端上应用程序的调用方法,并为该应用程序提供商业逻辑。
8.根据权利要求1所述的智能辅助决策系统,其特征在于,所述数据采集预处理单元中按照如下渠道抓取数据:
{新闻},用以作为股票所对应公司的新闻数据源,
{公告},用以作为上市公司发布的公开宣告数据源,
{研报},用以作为对股票出具的研究报告数据源,
{价量},用以作为股票的资金数据源,
{资金},用以作为股票所对应资金的数据源,
{题材},用以作为具备共同特征的股票组成的群体的数据源。
9.根据权利要求1所述的智能辅助决策系统,其特征在于,所述用户端包括:PC网页端、PC客户端或者移动手机应用程序端。
10.基于股票大数据分析的智能辅助决策方法,包括客户端和服务端,其特征在于,进行如下的操作:
S1向所述服务端发送自选股的重要事件查询显示的请求,
S2根据网络爬虫抓取得到数据并储放至基础数据库,
S3对所述基础数据库中的数据进行统一结构化处理,
S4按照内容和/或要闻将数据抽取归类,并录入应用数据库,
S5对所述应用数据库中的数据重新撰写排版以及决策分析,输出辅助决策响应在所述用户端的请求。
CN201710558225.2A 2017-07-10 2017-07-10 一种基于股票大数据分析的智能辅助决策系统及方法 Pending CN107480858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710558225.2A CN107480858A (zh) 2017-07-10 2017-07-10 一种基于股票大数据分析的智能辅助决策系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710558225.2A CN107480858A (zh) 2017-07-10 2017-07-10 一种基于股票大数据分析的智能辅助决策系统及方法

Publications (1)

Publication Number Publication Date
CN107480858A true CN107480858A (zh) 2017-12-15

Family

ID=60595088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710558225.2A Pending CN107480858A (zh) 2017-07-10 2017-07-10 一种基于股票大数据分析的智能辅助决策系统及方法

Country Status (1)

Country Link
CN (1) CN107480858A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510393A (zh) * 2018-02-12 2018-09-07 岭尚(上海)科技发展有限公司 基于大数据的智能投顾系统及方法
CN109255014A (zh) * 2018-10-17 2019-01-22 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别方法
CN109299465A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别系统
CN109597986A (zh) * 2018-10-16 2019-04-09 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN109684457A (zh) * 2018-12-27 2019-04-26 清华大学 一种个股公告数据提取的方法及系统
CN109741178A (zh) * 2018-12-07 2019-05-10 广州经传多赢投资咨询有限公司 选股决策系统
CN110059967A (zh) * 2019-04-23 2019-07-26 北京相数科技有限公司 一种应用于城市辅助决策分析的数据处理方法及装置
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110335148A (zh) * 2019-05-31 2019-10-15 上海芯与网络科技有限公司 证券数据并行处理系统及方法
TWI696142B (zh) * 2017-01-18 2020-06-11 富邦綜合證券股份有限公司 金融商品篩選並揭示回測結果方法及系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258034A (zh) * 2013-05-14 2013-08-21 江苏名通信息科技有限公司 一种基于社交媒体的经济金融行为分析系统模型
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258034A (zh) * 2013-05-14 2013-08-21 江苏名通信息科技有限公司 一种基于社交媒体的经济金融行为分析系统模型
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI696142B (zh) * 2017-01-18 2020-06-11 富邦綜合證券股份有限公司 金融商品篩選並揭示回測結果方法及系統
CN108510393A (zh) * 2018-02-12 2018-09-07 岭尚(上海)科技发展有限公司 基于大数据的智能投顾系统及方法
CN109597986A (zh) * 2018-10-16 2019-04-09 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN109255014A (zh) * 2018-10-17 2019-01-22 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别方法
CN109299465A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别系统
CN109741178A (zh) * 2018-12-07 2019-05-10 广州经传多赢投资咨询有限公司 选股决策系统
CN109684457A (zh) * 2018-12-27 2019-04-26 清华大学 一种个股公告数据提取的方法及系统
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110059967A (zh) * 2019-04-23 2019-07-26 北京相数科技有限公司 一种应用于城市辅助决策分析的数据处理方法及装置
CN110335148A (zh) * 2019-05-31 2019-10-15 上海芯与网络科技有限公司 证券数据并行处理系统及方法

Similar Documents

Publication Publication Date Title
CN107480858A (zh) 一种基于股票大数据分析的智能辅助决策系统及方法
US11847106B2 (en) Multi-service business platform system having entity resolution systems and methods
US11748555B2 (en) Systems and methods for machine content generation
Bawack et al. Artificial intelligence in E-Commerce: a bibliometric study and literature review
US20220206993A1 (en) Multi-service business platform system having custom object systems and methods
Ravindran et al. Mastering social media mining with R
Sohrabi et al. A predictive model of tourist destinations based on tourists' comments and interests using text analytics
CN103559207A (zh) 一种基于社交媒体计算的金融行为分析系统
Tito et al. Icdar 2021 competition on document visual question answering
US20230418793A1 (en) Multi-service business platform system having entity resolution systems and methods
CN106294676A (zh) 一种电子商务政务系统的数据检索方法
Zhu et al. Multimodal emotion classification with multi-level semantic reasoning network
Van Donge et al. Future government data strategies: data-driven enterprise or data steward? Exploring definitions and challenges for the government as data enterprise
Singh et al. Applications of machine learning models on yelp data
CN105955961A (zh) 预约信息处理方法和装置
US20230316186A1 (en) Multi-service business platform system having entity resolution systems and methods
CN112905787B (zh) 文本信息处理方法、短信处理方法、电子设备及可读介质
Singh Sentiment analysis of online mobile reviews
Katariya et al. A deep neural network-based approach for fake news detection in regional language
Sangeetha et al. Modelling of E-governance framework for mining knowledge from massive grievance redressal data
Hou et al. Leveraging multidimensional features for policy opinion sentiment prediction
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique
AlSulaim et al. Prediction of Anime Series' Success using Sentiment Analysis and Deep Learning
Guo et al. Intelligent online selling point extraction and generation for e‐commerce recommendation
Rao et al. A method for classifying information in education policy texts based on an improved attention mechanism model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215