CN108647822A - 电子装置、基于研报数据的预测方法和计算机存储介质 - Google Patents
电子装置、基于研报数据的预测方法和计算机存储介质 Download PDFInfo
- Publication number
- CN108647822A CN108647822A CN201810441411.2A CN201810441411A CN108647822A CN 108647822 A CN108647822 A CN 108647822A CN 201810441411 A CN201810441411 A CN 201810441411A CN 108647822 A CN108647822 A CN 108647822A
- Authority
- CN
- China
- Prior art keywords
- prediction
- report
- count
- data
- evidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种电子装置、基于研报数据的预测方法和计算机存储介质。本发明获取第一预设时间区间内预测对象的多份研报数据;对该多份研报数据进行分析处理,以获得每份研报的研报预测数据;将获取的研报预测数据输入至预先建立的预测模型,并将预测模型输出的结果数据作为预测对象的预测值。相较于现有技术,本发明预测模型基于多份历史研报数据训练而成,不仅能够实时的基于研报数据获得更为客观、准确的预测结果,同时还具备效率高、节省人力等优点。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种电子装置、基于研报数据的预测方法和计算机存储介质。
背景技术
研报是券商的研究人员对证券及其相关产品的价值,或者影响其市场价格的因素进行分析,所作出的研究报告。
针对同一预测对象,不同研究团队可能给出不同的结论,若仅参考某一研究团队的结论风险较大,且缺乏准确性与客观性。若要参考该领域多个研究团队的结论,则需要分析海量研报数据,以提炼每份研报的核心信息。目前,研报的分析工作仍依赖人工,其不足之处在于耗时长、效率低、人工成本高,且难以根据研报作出实时的综合预测。
发明内容
本发明的主要目的是提供一种电子装置、基于研报数据的预测方法和计算机存储介质,旨在解决当前基于研报数据的预测方法效率低且难以作出实时预测的问题。
为实现上述目的,本发明提出的一种电子装置,所述电子装置包括存储器和处理器,所述存储器上存储有基于研报数据的预测程序,所述基于研报数据的预测程序被所述处理器执行时实现如下步骤:
获取步骤:获取第一预设时间区间内预测对象的多份研报数据;
分析步骤:根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据;
预测步骤:将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
优选地,所述预先确定的分析规则包括:
基于所述研报数据,提取每份研报对应的研报文本数据;
将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据;
提取每份研报对应的分词数据中的关键词数据;
对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
优选地,在所述预测步骤之前,所述处理器执行所述基于研报数据的预测程序,还实现以下步骤:
采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据;
基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练;
当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。
优选地,所述预测模型包括一层输入层、三层隐藏层及一层输出层,所述三层隐藏层分别为第一隐藏层、第二隐藏层及第三隐藏层;其中:
所述输入层包括N个节点;
所述第一隐藏层包括n1个节点,以所述输入层的连接方式为全连接,所述第一隐藏层的激活函数为Sigmoid函数;
所述第二隐藏层包括n2个节点,与所述第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数;
所述第三隐藏层包括N个节点,与所述第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出;
所述输出层包括1个节点。
优选地,所述N为第二预设时间区间内对所述预测对象所在行业做出研报的研究团队的总数量。
此外,为实现上述目的,本发明提出一种基于研报数据的预测方法,该方法包括步骤:
获取步骤:获取第一预设时间区间内预测对象的多份研报数据;
分析步骤:根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据;
预测步骤:将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
优选地,所述预先确定的分析规则包括:
基于所述研报数据,提取每份研报对应的研报文本数据;
将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据;
提取每份研报对应的分词数据中的关键词数据;
对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
优选地,在所述预测步骤之前,该方法还包括:
采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据;
基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练;
当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。
优选地,所述预测模型包括一层输入层、三层隐藏层及一层输出层,所述三层隐藏层分别为第一隐藏层、第二隐藏层及第三隐藏层;其中:
所述输入层包括N个节点;
所述第一隐藏层包括n1个节点,以所述输入层的连接方式为全连接,所述第一隐藏层的激活函数为Sigmoid函数;
所述第二隐藏层包括n2个节点,与所述第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数;
所述第三隐藏层包括N个节点,与所述第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出;
所述输出层包括1个节点。
此外,为实现上述目的,本发明提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于研报数据的预测程序,所述基于研报数据的预测程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述任一项所述的基于研报数据的预测方法。
本发明获取第一预设时间区间内预测对象的多份研报数据;对该多份研报数据进行分析处理,以获得每份研报的研报预测数据;将获取的研报预测数据输入至预先建立的预测模型,并将预测模型输出的结果数据作为预测对象的预测值。相较于现有技术,本发明预测模型基于多份历史研报数据训练而成,不仅能够实时的基于研报数据获得更为客观、准确的预测结果,同时还具备效率高、节省人力等优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明基于研报数据的预测程序第一实施例的运行环境示意图;
图2为本发明基于研报数据的预测程序第一实施例的程序模块图;
图3为本发明分析模块的细化程序模块示意图;
图4为本发明基于研报数据的预测方法第二实施例的流程示意图;
图5为本发明预先确定的分析规则的细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
此外,本发明提出一种基于研报数据的预测程序。
请参阅图1,是本发明基于研报数据的预测程序10第一实施例的运行环境示意图。
在本实施例中,基于研报数据的预测程序10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如基于研报数据的预测程序10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于研报数据的预测程序10等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。电子装置1的部件11-13通过程序总线相互通信。
请参阅图2,是本发明基于研报数据的预测程序10第一实施例的程序模块图。在本实施例中,基于研报数据的预测程序10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图2中,基于研报数据的预测程序10可以被分割成获取模块101、分析模块102及预测模块103。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述基于研报数据的预测程序10在电子装置1中的执行过程,其中:
获取模块101,用于获取第一预设时间区间内预测对象的多份研报数据。
上述预测对象包括证券走势、行业走势等,通常是指研报的预测标的。例如,设置预测对象为汽车电子公司A公司的证券变动幅度。
上述获取预测对象的研报数据的方法包括:
从研报数据库中下载研报数据,例如,通过Wind(万得)、Bloomberg(彭博)客户端下载。或者,接收用户输入的研报数据,例如,用户将研报纸件进行扫描,并上传研报的扫描文件。或者,通过网络爬虫在信息源获取研报数据,其中,上述网络爬虫可对分布于不同服务器上的网页进行多任务抓取,提高研报数据抓取效率。该网络爬虫框架包括下载器和解析器。下载器负责抓取网页,解析器负责解析网页并入库。所述信息源包括但不限于网站(包括财经网站、新闻网站等)、微博、微信、贴吧、论坛等平台。
分析模块102,用于根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据。
优选地,参照图3,所述分析模块102包括第一提取单元1021、分词单元1022、第二提取单元1023及解析单元1024,其中:
第一提取单元1021,用于基于所述研报数据,提取每份研报对应的研报文本数据。
所述第一提取单元1021具体用于:
判断研报数据的文本数据是否可识别。
若是,则直接基于所述研报数据,提取每份研报对应的研报文本数据。
若否,则将该研报数据进行字符识别处理后,提取所述研报数据对应的研报文本数据。对于部分研报数据(例如,PDF格式的研报数据等),若无法直接识别或编辑其文本数据,则需要对该研报数据进行字符识别处理,例如,通过OCR(Optical CharacterRecognition,光学字符识别)程序对研报数据进行字符识别,以获取每份研报对应的研报文本数据。
分词单元1022,用于将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据。
所述分词单元1022具体用于:
首先,将每份研报对应的研报文本数据进行分句处理(例如,根据字符编码,获取研报文本数据中的标点,根据获取的标点,对研报文本数据进行分句处理,以分割出至少一个分句),获得每份研报对应的分句数据。然后,将所述分句数据进行分词处理,获得每份研报对应的分词数据。
下面以中文文本为例,说明具体的分词方法:
由于中文文本是以字符为单位的文本,因此,可采用基于序列标注的分词方法。例如,在一段文字中,可将每个字按照他们在词中的位置进行标注,常用的标注有以下四个:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入序列标注模型,得到相应的标记序列,再根据标记序列进行分词。常用的中文分词库包括Jieba(结巴)、Yaha(哑哈)、Finalseg等,大多基于CRF(Conditionalrandom field,条件随机场)算法,也有一些基于HMM(HiddenMarkov Model,隐马尔科夫模型)等算法。
第二提取单元1023,用于提取每份研报对应的分词数据中的关键词数据。
所述第二提取单元1023具体用于:
首先,预先设置关键词库。其中,所述关键词库也可由包括关键词的参照表代替。
然后,确定所述分词数据中的分词是否存在于所述关键词库中。当一分词存在于所述关键词库中时,标记所述分词为关键词。
最后,获取所述分词数据中所有关键词数据。可根据需要,将研报中结论性词语设置为关键词。例如,设置“买入”、“增持”、“中性”、“减持”等作为关键词。
解析单元1024,对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
例如,预先设置关键词解析表,查询所述关键词解析表,获得各关键词对应的解析结果,关键词解析表可参照如下示例。
关键词 | 解析结果 |
买入 | 15% |
增持 | 10% |
中性 | 0 |
减持 | -5% |
上述关键词解析表示例仅示出部分关键词及其对应的解析结果,在实际应用当中,关键词远多于以上所列内容,例如,关键词还可包括“强烈推荐”、“推荐”、“观望”、“卖出”、“强烈卖出”等,对于词义相近的词,其解析结果可以相同。此外,上述关键词的解析结果体现的是研报对预测对象未来6个月变动幅度的预测值,正值为上涨幅度,负值为下跌幅度。其中,预测周期以及变动幅度可根据具体的应用场景设定。
预测模块103,用于将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
上述预测模型是基于研报预测数据的历史数据训练而成的模型,该预测模型综合了多家研究机构的预测能力,可输出更为精准的预测值。
在一些实施例中,处理器执行所述基于研报数据的预测程序10时,还实现如下步骤:
根据所述预测对象的预测值,生成预测结论。例如,当预测值大于15%时,生成预测结论“买入”,当预测值在区间[5%,15%]内时,生成预测结论“增持”,当预测值在区间[-5%,5%]内时,生成预测结论“中性”,当预测值小于-5%,生成预测结论“减持”。
优选地,本实施例中,上述基于研报数据的预测程序10还包括模型构建模块(图中未示出),该模型构建模块用于:
首先,采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则(该分析规则与分析模块102执行的分析规则相同,在此不作赘述。)对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据。需要注意的是,本实施例中,由于每份研报的发表时间不同,因此在进行采样时,应当采集一个采样时间区间的样本数据,而不是采集一个采样时刻的样本数据。此外,将样本采集的范围扩大到预测对象所在行业,是为了采集更多样本,以提高预测模型的准确度。
然后,基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练。其中,上述采样时间区间的样本对应的真实值的确定方法包括:
将该采样时间区间样本预测时刻(例如,采样时间区间中点值对应的时间点未来第六个月)预测对象的实际变动幅度作为真实值。
将该采样时间区间样本预测时间区间内(例如,采样时间区间中点值对应的时间点未来六个月内)预测对象的实际变动幅度均值作为真实值。
其中,上述基于神经网络构建的训练模型包括输入层、隐藏层及输出层,其具体的结构可参照如下示例:
所述输入层为一层,包括N个节点,本实施例中,可设置N为第二预设时间区间内,对预测对象所处行业做出过研报的研究团队的总数量。每一条输入应当为一个N维的向量,该向量的值为一采样时间区间内各研究团队发表的研报对应的历史研报预测数据,若一研究团队在该采样时间区间内未针对预测对象或者其所在行业发表研报,则该预测对象对应的节点输入值为0。
在本实施例以外的其他实施例中,上述N也可设置为第二预设时间区间内,对预测对象所处行业做出过研报的研究员的总数量。
所述隐藏层包括第一隐藏层、第二隐藏层及第三隐藏层,其中:
第一隐藏层包括n1(例如,n1=8)个节点,与输入层的连接方式为全连接(FullConnected),所述第一隐藏层的激活函数为Sigmoid函数。
第二隐藏层包括n2(例如,n2=5)个节点,与第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数。
第三隐藏层(也可称为Softmax层)包括N个节点,与第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出,该Softmax函数的表达式如下:
其中,Si为第三隐藏层第i个节点的值经Softmax归一化处理后的输出值,Vi为第三隐藏层第i个节点输入至Softmax函数的值,i∈[1,N],j=1,2,3…,N。
所述输出层为一层,包括1个节点。
上述基于神经网络构建的训练模型的结构仅供参考,可根据具体的应用场景调整训练模型的结构,以达到较优的训练结果。
此外,根据具体应用场景,还可对一些超参数进行调整,例如,可设置训练轮数的值大于2000epoch(迭代次数),在样本较少时,可设置学习率(Learning Rate)的值大于1。
模型的训练方法可采用随机梯度下降法(Stochastic gradient descent,SGD),该训练方法执行速度快,可提高训练效率。当然,根据不同的应用场景,也可采用其他的模型训练方法进行训练,本发明对此不作限定。
最后,当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。在一些实施例中,当训练模型的输出值与真实值之间的误差收敛且损失函数的值大于或等于预设阈值时,调整超参数(例如,隐藏层的节点数、学习率、训练轮数等),并继续进行模型训练直至训练模型的输出值与真实值之间的误差收敛且损失函数的值低于预设阈值,结束模型训练。
需要注意的是,结束模型训练后,将生成的训练模型作为所述预测模型,因此,所述预测模型的结构与结束模型训练后输出的训练模型的结构相同,在此不作赘述。
本实施例获取第一预设时间区间内预测对象的多份研报数据;对该多份研报数据进行分析处理,以获得每份研报的研报预测数据;将获取的研报预测数据输入至预先建立的预测模型,并将预测模型输出的结果数据作为预测对象的预测值。相较于现有技术,本实施例预测模型基于多份历史研报数据训练而成,不仅能够实时的基于研报数据获得更为客观、准确的预测结果,同时还具备效率高、节省人力等优点。
本发明还提出一种基于研报数据的预测方法。
如图4所示,图4为本发明基于研报数据的预测方法第一实施例的流程示意图。
本实施例中,该方法包括:
步骤S10,获取第一预设时间区间内预测对象的多份研报数据。
上述预测对象包括证券走势、行业走势等,通常是指研报的预测标的。例如,设置预测对象为汽车电子公司A公司的证券变动幅度。
上述获取预测对象的研报数据的方法包括:
从研报数据库中下载研报数据,例如,通过Wind(万得)、Bloomberg(彭博)客户端下载。或者,接收用户输入的研报数据,例如,用户将研报纸件进行扫描,并上传研报的扫描文件。或者,通过网络爬虫在信息源获取研报数据,其中,上述网络爬虫可对分布于不同服务器上的网页进行多任务抓取,提高研报数据抓取效率。该网络爬虫框架包括下载器和解析器。下载器负责抓取网页,解析器负责解析网页并入库。所述信息源包括但不限于网站(包括财经网站、新闻网站等)、微博、微信、贴吧、论坛等平台。
步骤S20,根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据。
优选地,参照图5,所述预先确定的分析规则包括:
步骤S21,基于所述研报数据,提取每份研报对应的研报文本数据。
所述步骤S21具体包括:
判断研报数据的文本数据是否可识别。
若是,则直接基于所述研报数据,提取每份研报对应的研报文本数据。
若否,则将该研报数据进行字符识别处理后,提取所述研报数据对应的研报文本数据。对于部分研报数据(例如,PDF格式的研报数据等),若无法直接识别或编辑其文本数据,则需要对该研报数据进行字符识别处理,例如,通过OCR(Optical CharacterRecognition,光学字符识别)程序对研报数据进行字符识别,以获取每份研报对应的研报文本数据。
步骤S22,将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据。
所述步骤S22具体包括:
首先,将每份研报对应的研报文本数据进行分句处理(例如,根据字符编码,获取研报文本数据中的标点,根据获取的标点,对研报文本数据进行分句处理,以分割出至少一个分句),获得每份研报对应的分句数据。然后,将所述分句数据进行分词处理,获得每份研报对应的分词数据。
下面以中文文本为例,说明具体的分词方法:
由于中文文本是以字符为单位的文本,因此,可采用基于序列标注的分词方法。例如,在一段文字中,可将每个字按照他们在词中的位置进行标注,常用的标注有以下四个:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入序列标注模型,得到相应的标记序列,再根据标记序列进行分词。常用的中文分词库包括Jieba(结巴)、Yaha(哑哈)、Finalseg等,大多基于CRF(Conditionalrandom field,条件随机场)算法,也有一些基于HMM(HiddenMarkov Model,隐马尔科夫模型)等算法。
步骤S23,提取每份研报对应的分词数据中的关键词数据。
所述步骤S23具体包括:
首先,预先设置关键词库。其中,所述关键词库也可由包括关键词的参照表代替。
然后,确定所述分词数据中的分词是否存在于所述关键词库中。当一分词存在于所述关键词库中时,标记所述分词为关键词。
最后,获取所述分词数据中所有关键词数据。可根据需要,将研报中结论性词语设置为关键词。例如,设置“买入”、“增持”、“中性”、“减持”等作为关键词。
步骤S24,对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
例如,预先设置关键词解析表,查询所述关键词解析表,获得各关键词对应的解析结果,关键词解析表可参照如下示例。
关键词 | 解析结果 |
买入 | 15% |
增持 | 10% |
中性 | 0 |
减持 | -5% |
上述关键词解析表示例仅示出部分关键词及其对应的解析结果,在实际应用当中,关键词远多于以上所列内容,例如,关键词还可包括“强烈推荐”、“推荐”、“观望”、“卖出”、“强烈卖出”等,对于词义相近的词,其解析结果可以相同。此外,上述关键词的解析结果体现的是研报对预测对象未来6个月变动幅度的预测值,正值为上涨幅度,负值为下跌幅度。其中,预测周期以及变动幅度可根据具体的应用场景设定。
步骤S30,将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
上述预测模型是基于研报预测数据的历史数据训练而成的模型,该预测模型综合了多家研究机构的预测能力,可输出更为精准的预测值。
在一些实施例中,在步骤S30之后,该方法还可包括:
根据所述预测对象的预测值,生成预测结论。例如,当预测值大于15%时,生成预测结论“买入”,当预测值在区间[5%,15%]内时,生成预测结论“增持”,当预测值在区间[-5%,5%]内时,生成预测结论“中性”,当预测值小于-5%,生成预测结论“减持”。
优选地,本实施例中,在步骤S30之前,或者在步骤S10、S20之前,该方法还包括:
首先,采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则(该分析规则与步骤S20中的分析规则相同,在此不作赘述。)对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据。需要注意的是,本实施例中,由于每份研报的发表时间不同,因此在进行采样时,应当采集一个采样时间区间的样本数据,而不是采集一个采样时刻的样本数据。此外,将样本采集的范围扩大到预测对象所在行业,是为了采集更多样本,以提高预测模型的准确度。
然后,基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练。其中,上述采样时间区间的样本对应的真实值的确定方法包括:
将该采样时间区间样本预测时刻(例如,采样时间区间中点值对应的时间点未来第六个月)预测对象的实际变动幅度作为真实值。
将该采样时间区间样本预测时间区间内(例如,采样时间区间中点值对应的时间点未来六个月内)预测对象的实际变动幅度均值作为真实值。
其中,上述基于神经网络构建的训练模型包括输入层、隐藏层及输出层,其具体的结构可参照如下示例:
所述输入层为一层,包括N个节点,本实施例中,可设置N为第二预设时间区间内,对预测对象所处行业做出过研报的研究团队的总数量。每一条输入应当为一个N维的向量,该向量的值为一采样时间区间内各研究团队发表的研报对应的历史研报预测数据,若一研究团队在该采样时间区间内未针对预测对象或者其所在行业发表研报,则该预测对象对应的节点输入值为0。
在本实施例以外的其他实施例中,上述N也可设置为第二预设时间区间内,对预测对象所处行业做出过研报的研究员的总数量。
所述隐藏层包括第一隐藏层、第二隐藏层及第三隐藏层,其中:
第一隐藏层包括n1(例如,n1=8)个节点,与输入层的连接方式为全连接(FullConnected),所述第一隐藏层的激活函数为Sigmoid函数。
第二隐藏层包括n2(例如,n2=5)个节点,与第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数。
第三隐藏层(也可称为Softmax层)包括N个节点,与第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出,该Softmax函数的表达式如下:
其中,Si为第三隐藏层第i个节点的值经Softmax归一化处理后的输出值,Vi为第三隐藏层第i个节点输入至Softmax函数的值,i∈[1,N],j=1,2,3…,N。
所述输出层为一层,包括1个节点。
上述基于神经网络构建的训练模型的结构仅供参考,可根据具体的应用场景调整训练模型的结构,以达到较优的训练结果。
此外,根据具体应用场景,还可对一些超参数进行调整,例如,可设置训练轮数的值大于2000epoch(迭代次数),在样本较少时,可设置学习率(Learning Rate)的值大于1。
模型的训练方法可采用随机梯度下降法(Stochastic gradient descent,SGD),该训练方法执行速度快,可提高训练效率。当然,根据不同的应用场景,也可采用其他的模型训练方法进行训练,本发明对此不作限定。
最后,当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。在一些实施例中,当训练模型的输出值与真实值之间的误差收敛且损失函数的值大于或等于预设阈值时,调整超参数(例如,隐藏层的节点数、学习率、训练轮数等),并继续进行模型训练直至训练模型的输出值与真实值之间的误差收敛且损失函数的值低于预设阈值,结束模型训练。
需要注意的是,结束模型训练后,将生成的训练模型作为所述预测模型,因此,所述预测模型的结构与结束模型训练后输出的训练模型的结构相同,在此不作赘述。
本实施例获取第一预设时间区间内预测对象的多份研报数据;对该多份研报数据进行分析处理,以获得每份研报的研报预测数据;将获取的研报预测数据输入至预先建立的预测模型,并将预测模型输出的结果数据作为预测对象的预测值。相较于现有技术,本实施例预测模型基于多份历史研报数据训练而成,不仅能够实时的基于研报数据获得更为客观、准确的预测结果,同时还具备效率高、节省人力等优点。
进一步地,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于研报数据的预测程序,所述基于研报数据的预测程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任一实施例中的基于研报数据的预测方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种电子装置,所述电子装置包括存储器和处理器,其特征在于,所述存储器上存储有基于研报数据的预测程序,所述基于研报数据的预测程序被所述处理器执行时实现如下步骤:
获取步骤:获取第一预设时间区间内预测对象的多份研报数据;
分析步骤:根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据;
预测步骤:将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
2.如权利要求1所述的电子装置,其特征在于,所述预先确定的分析规则包括:
基于所述研报数据,提取每份研报对应的研报文本数据;
将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据;
提取每份研报对应的分词数据中的关键词数据;
对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
3.如权利要求1或2所述的电子装置,其特征在于,在所述预测步骤之前,所述处理器执行所述基于研报数据的预测程序,还实现以下步骤:
采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据;
基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练;
当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。
4.如权利要求3所述的电子装置,其特征在于,所述预测模型包括一层输入层、三层隐藏层及一层输出层,所述三层隐藏层分别为第一隐藏层、第二隐藏层及第三隐藏层;其中:
所述输入层包括N个节点;
所述第一隐藏层包括n1个节点,以所述输入层的连接方式为全连接,所述第一隐藏层的激活函数为Sigmoid函数;
所述第二隐藏层包括n2个节点,与所述第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数;
所述第三隐藏层包括N个节点,与所述第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出;
所述输出层包括1个节点。
5.如权利要求4所述的电子装置,其特征在于,所述N为第二预设时间区间内对所述预测对象所在行业做出研报的研究团队的总数量。
6.一种基于研报数据的预测方法,其特征在于,该方法包括步骤:
获取步骤:获取第一预设时间区间内预测对象的多份研报数据;
分析步骤:根据预先确定的分析规则,对获取的所述多份研报数据进行分析处理,以获得每份研报的研报预测数据;
预测步骤:将获得的所有研报预测数据输入至预先建立的预测模型,并将所述预测模型输出的结果数据作为所述预测对象的预测值。
7.如权利要求6所述的基于研报数据的预测方法,其特征在于,所述预先确定的分析规则包括:
基于所述研报数据,提取每份研报对应的研报文本数据;
将每份研报对应的研报文本数据进行分词处理,获得每份研报对应的分词数据;
提取每份研报对应的分词数据中的关键词数据;
对每份研报对应的关键词数据进行解析,输出每份研报对应的解析结果作为该研报对应的研报预测数据。
8.如权利要求6或7所述的基于研报数据的预测方法,其特征在于,在所述预测步骤之前,该方法还包括:
采集第二预设时间区间内多个采样时间区间对应的所述预测对象所在行业的历史研报数据,并根据预先确定的分析规则对采集的历史研报数据进行分析处理,以获得每份历史研报对应的历史研报预测数据;
基于神经网络构建训练模型,将每一采样时间区间对应的历史研报预测数据作为该采样时间区间的样本,同时确定各所述采样时间区间的样本对应的真实值,输入各所述采样时间区间的样本及其对应的真实值至所述训练模型进行训练;
当所述训练模型的输出值与所述真实值之间的误差收敛且损失函数的值低于预设阈值时,结束模型训练,并将生成的训练模型作为所述预测模型。
9.如权利要求8所述的基于研报数据的预测方法,其特征在于,所述预测模型包括一层输入层、三层隐藏层及一层输出层,所述三层隐藏层分别为第一隐藏层、第二隐藏层及第三隐藏层;其中:
所述输入层包括N个节点;
所述第一隐藏层包括n1个节点,以所述输入层的连接方式为全连接,所述第一隐藏层的激活函数为Sigmoid函数;
所述第二隐藏层包括n2个节点,与所述第一隐藏层的连接方式为全连接,所述第二隐藏层的激活函数为Sigmoid函数;
所述第三隐藏层包括N个节点,与所述第二隐藏层的连接方式为全连接,所述第三隐藏层中节点的值经Softmax函数归一化处理后输出;
所述输出层包括1个节点。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于研报数据的预测程序,所述基于研报数据的预测程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中的任一项所述的基于研报数据的预测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810441411.2A CN108647822A (zh) | 2018-05-10 | 2018-05-10 | 电子装置、基于研报数据的预测方法和计算机存储介质 |
PCT/CN2018/107508 WO2019214142A1 (zh) | 2018-05-10 | 2018-09-26 | 电子装置、基于研报数据的预测方法、程序和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810441411.2A CN108647822A (zh) | 2018-05-10 | 2018-05-10 | 电子装置、基于研报数据的预测方法和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647822A true CN108647822A (zh) | 2018-10-12 |
Family
ID=63754088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810441411.2A Pending CN108647822A (zh) | 2018-05-10 | 2018-05-10 | 电子装置、基于研报数据的预测方法和计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108647822A (zh) |
WO (1) | WO2019214142A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284504A (zh) * | 2018-10-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报分析方法及装置 |
CN109472498A (zh) * | 2018-11-15 | 2019-03-15 | 陶明 | 一种开放式定量浓缩证券分析报告的跟踪评价及交易系统 |
CN110110295A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110889291A (zh) * | 2019-11-21 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习和区块链的研报评价方法 |
CN113191886A (zh) * | 2021-05-26 | 2021-07-30 | 中国工商银行股份有限公司 | 基于投研报告的投资交易监控方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN106530082A (zh) * | 2016-10-25 | 2017-03-22 | 清华大学 | 基于多机器学习的股票预测方法及系统 |
CN107122351A (zh) * | 2017-05-02 | 2017-09-01 | 灯塔财经信息有限公司 | 一种应用于股票新闻领域的态度倾向分析方法与系统 |
CN107239855A (zh) * | 2017-05-23 | 2017-10-10 | 华中科技大学 | 一种基于lstm模型的股票预测方法和系统 |
-
2018
- 2018-05-10 CN CN201810441411.2A patent/CN108647822A/zh active Pending
- 2018-09-26 WO PCT/CN2018/107508 patent/WO2019214142A1/zh active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284504A (zh) * | 2018-10-22 | 2019-01-29 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报分析方法及装置 |
CN109472498A (zh) * | 2018-11-15 | 2019-03-15 | 陶明 | 一种开放式定量浓缩证券分析报告的跟踪评价及交易系统 |
CN110110295A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110110295B (zh) * | 2019-04-04 | 2023-10-20 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110889291A (zh) * | 2019-11-21 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习和区块链的研报评价方法 |
CN113191886A (zh) * | 2021-05-26 | 2021-07-30 | 中国工商银行股份有限公司 | 基于投研报告的投资交易监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019214142A1 (zh) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647822A (zh) | 电子装置、基于研报数据的预测方法和计算机存储介质 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
Xie et al. | Fault diagnosis for rotating machinery based on convolutional neural network and empirical mode decomposition | |
US20180232204A1 (en) | Intelligent data extraction | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN113705554A (zh) | 图像识别模型的训练方法、装置、设备及存储介质 | |
CN113837308B (zh) | 基于知识蒸馏的模型训练方法、装置、电子设备 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN108920677A (zh) | 问卷调查方法、调查系统及电子设备 | |
CN113722493A (zh) | 文本分类的数据处理方法、设备、存储介质及程序产品 | |
CN111798123A (zh) | 基于人工智能的合规性评价方法、装置、设备及介质 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN113706151A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
KR102574865B1 (ko) | 인공지능 기반 광고 데이터 시각화 시스템 | |
CN101937432A (zh) | 一种按照供需信息进行两方撮合的系统与方法 | |
CN114881129A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN114818708A (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN113918794A (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
WO2017203473A1 (en) | Method and system for determining equity index for a brand | |
CN110472231B (zh) | 一种识别法律文书案由的方法和装置 | |
CN112686053A (zh) | 一种数据增强方法、装置、计算机设备及存储介质 | |
CN116842263A (zh) | 一种智能问答式理财顾问模型的训练处理方法及装置 | |
CN116842195A (zh) | 一种基于知识图谱和大模型自动化生成研报方法 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |
|
RJ01 | Rejection of invention patent application after publication |