CN109598380A - 一种多元实时时序数据预测的方法和系统 - Google Patents

一种多元实时时序数据预测的方法和系统 Download PDF

Info

Publication number
CN109598380A
CN109598380A CN201811466932.XA CN201811466932A CN109598380A CN 109598380 A CN109598380 A CN 109598380A CN 201811466932 A CN201811466932 A CN 201811466932A CN 109598380 A CN109598380 A CN 109598380A
Authority
CN
China
Prior art keywords
data
model
time series
time
exchange rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811466932.XA
Other languages
English (en)
Inventor
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811466932.XA priority Critical patent/CN109598380A/zh
Publication of CN109598380A publication Critical patent/CN109598380A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种多元实时时序数据预测的方法,包括获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;将时间序列数据转化成样本数据集;构建热点集成预测模型,并用样本数据集对模型进行训练;载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果。通过本发明的方法,能够解决传统模型对汇率的长期影响表示力不足,拟合精度低、目前外汇预测局限于对汇率数据的技术面分析并没有考虑宏观经济基本面的影响的问题。

Description

一种多元实时时序数据预测的方法和系统
技术领域
本领域涉及计算机领域,并且更具体地涉及一种多元实时时序数据预测的方法和系统。
背景技术
随着全球浮动汇率制度的合法化和世界经济一体化趋势的加强,外汇作为重要的资本元素,成为了众多资本产品的重要组成,因此对其的预测引起了众多学者和投资人士的关注。但是由于外汇资本对于市场的敏感性和自身完备性,目前尚无法对汇率数据进行直接有效的预测。
对于量化经济而言,对外汇市场的分析和预测通常基于汇率历史数据,采用相应的数据分析手段构建预测模型。但是由于政策、舆论、国际形势等诸多外在“黑天鹅”事件的影响,仅依靠技术面的分析很难把握市场的偶发性跳变和由此引发的长期效应。外汇市场依托宏观经济基本面,就像股票依托企业的微观基本面。能正确地把握经济基本面所反映出的外汇市场热点就能更准确地把握外汇市场资金流向,这对于国家外汇资金储备策略和企业投资交易都具有非常重大的意义。
由于汇率序列是典型的时间序列。因此传统的时间序列分析模型经常被用于模拟汇率的变动,并对其进行预测。其中较为典型的有ARMA模型、ARIMA模型。但是由于以上模型假设干扰时间序列变动的随机项的方差是固定的,这与在实证研究中经济学家所发现的汇率存在的异方差现象不符,无法得到准确的预测结果。此后ARCH和GARCH模型的提出很好地模拟了金融资产序列波动聚集的现象。但是,按照传统时间序列分析理论构建的模型通常阶数较低,而汇率变化具有明显的事件驱动性,关键性事件对汇率的长期影响很容易被模型所忽略。近年来,随着启发式算法的发展,广义自回归神经网络(GRNN)模型、长短时记忆模型(LSTM)、门限循环网络(GRU)等各类机器学习算法也被应用于汇率预测。采用深度学习模型进行端到端学习等价于对一组规则序列随机采样后学习的结果。但是由于金融资产序列具有很强的自相关性和复杂动态特性,单纯采用技术面分析无法直接预测汇率市场的变动。
总体而言,针对汇率预测现有的技术存在以下不足:
1)传统ARCH、GARCH等模型对汇率的长期影响表示力不足,拟合精度低;
2)目前的外汇预测局限于对汇率数据的技术面分析,并没有考虑宏观经济基本面的影响。
3)目前外汇金融分析行业缺少智能化的多元信息融合分析系统。
发明内容
有鉴于此,本发明实施例的目的在于提出一种多元实时时序数据预测的方法和系统,能够解决传统模型对汇率的长期影响表示力不足,拟合精度低、目前外汇预测局限于对汇率数据的技术面分析并没有考虑宏观经济基本面的影响的问题。
基于上述目的,本发明的实施例的一个方面提供了一种多元实时时序数据预测的方法,包括以下步骤:
1)获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
2)读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;
3)将时间序列数据转化成样本数据集;
4)构建热点集成预测模型,并用样本数据集对模型进行训练;
5)载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果。
根据本发明的一个实施例,热点集成预测模型被配置为:首先采用LSTM模型将由1000维词向量构成的新闻数据变长序列映射为1000维的行向量,通过不同大小的卷积和max_pool操作进一步抽取上下文特征得到新闻张量;然后采用BiGRU模型将汇率数据转换为汇率张量,将汇率张量与新闻张量合并后传给输出层。
根据本发明的一个实施例,非结构化的文本数据包括互联网金融资讯,并且结构化的数字数据包括汇率数据。
根据本发明的一个实施例,步骤2)中将历史数据转存成时间内容键值对形式的时间序列数据包括将数据以天为单位进行合并。
根据本发明的一个实施例,步骤3)中将时间序列转化成样本数据集包括对时间序列数据进行分词、归一化、编码和切片操作。
根据本发明的一个实施例,步骤5)中输出结果包括基于Python第三方库matplotlib输出三种汇率特征分布雷达图、回测曲线、误差曲线、箱线图统计分析结果。
本发明的实施例的另一个方面,还提供了一种多元实时时序数据预测的系统,包括:
数据抓取模块,数据抓取模块用于获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
数据读取模块,数据读取模块读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;
数据预处理模块,数据预处理模块将时间序列数据转化成样本数据集;
模型管理模块,模型管理模块用于构建热点集成预测模型,并用样本数据集对模型进行训练;
结果可视化模块,结果可视化模块用于载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果。
根据本发明的一个实施例,非结构化的文本数据包括互联网金融资讯,并且结构化的数字数据包括汇率数据。
根据本发明的一个实施例,数据读取模块配置用于将数据以天为单位进行合并。
根据本发明的一个实施例,数据预处理模块配置用于对时间序列数据进行分词、归一化、编码和切片操作。
本发明具有以下有益技术效果:本发明实施例提供的多元实时时序数据预测的方法和系统,通过获取结构化的数字数据和非结构化二者的文本数据的历史数据,并存入数据库中;读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;将时间序列数据转化成样本数据集;构建热点集成预测模型,并用样本数据集对模型进行训练;载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果的技术方案,能够解决传统模型对汇率的长期影响表示力不足,拟合精度低、目前外汇预测局限于对汇率数据的技术面分析并没有考虑宏观经济基本面的影响的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的多元实时时序数据预测的方法的示意性流程图;
图2为根据本发明一个实施例的系统整体架构的示意图;
图3为根据本发明一个实施例的数据流及处理过程的示意图;
图4为根据本发明一个实施例的移位构建训练样本的示意图;
图5为根据本发明一个实施例的深度神经网络集成预测模型结构的示意图;
图6为根据本发明一个实施例的重叠度计算的示意图;
图7为根据本发明一个实施例的系统功能覆盖和关联关系的示意图;
图8为根据本发明一个实施例的澳元兑美元回测曲线的示意图;
图9为根据本发明一个实施例的澳元兑美元累计误差分布的示意图;
图10为根据本发明一个实施例的澳元兑美元预测误差五日均线的示意图;
图11为根据本发明一个实施例的市场热点雷达图描述的示意图;
图12为根据本发明一个实施例的数据读取模块算法流程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种多元实时时序数据预测的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
1)获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
2)读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;
3)将时间序列数据转化成样本数据集;
4)构建热点集成预测模型,并用样本数据集对模型进行训练;
5)载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果。
通过以上技术方案,能够解决传统模型对汇率的长期影响表示力不足,拟合精度低、目前外汇预测局限于对汇率数据的技术面分析并没有考虑宏观经济基本面的影响的问题。
在本发明的一个优选实施例中,热点集成预测模型被配置为:首先采用LSTM模型将由1000维词向量构成的新闻数据变长序列映射为1000维的行向量,通过不同大小的卷积和max_pool操作进一步抽取上下文特征得到新闻张量;然后采用BiGRU模型将汇率数据转换为形如[n_sample,n_GRU]的汇率张量,将汇率张量与新闻张量合并后传给输出层。
在本发明的一个优选实施例中,非结构化的文本数据包括互联网金融资讯,并且结构化的数字数据包括汇率数据。
在本发明的一个优选实施例中,步骤2)中将历史数据转存成时间内容键值对形式的时间序列数据包括将数据以天为单位进行合并。
在本发明的一个优选实施例中,步骤3)中将时间序列转化成样本数据集包括对时间序列数据进行分词、归一化、编码和切片操作。
在本发明的一个优选实施例中,步骤5)中输出结果包括基于Python第三方库matplotlib输出三种汇率特征分布雷达图、回测曲线、误差曲线、箱线图统计分析结果。
本发明公开了一种多元时序数据预测的方法和系统,其中该方法包含基于数据层、运算层、逻辑层、人机交互层等实现的多元时序数据处理系统四层逻辑架构及硬件系统环境;系统包含用于处理用户实时请求的在线流程,用于对汇率、新闻资讯、图标等结构化和非结构化数据抓取和监测的近线流程以及用于读取本地存储数据、模型,并进行模型训练和更新的离线流程构成;系统通过数据抓取模块实现对选定网页的相关数据进行抓取和保存,并采用数据读取和预处理模块对数据进行分词、停止词删除、字典构建、词编码等过程,以形成可用于模型训练的样本数据集;针对多元数据变长记录特性构建了一种集成预测模型,采用样本集对模型进行训练,并采用模型进行多元时序数据预测。可见,本申请不同于现有单纯采用技术指标和汇率数据实现的外汇市场分析技术,而是通过上述数据抓取、数据处理、预测算法等步骤,从系统架构层面构建了一套基于深度学习的外汇市场热点预测平台,通过对可反应外汇市场热点的三组汇率进行量化分析,构建外汇市场热点描述结构,并在此基础上,通过分析同期外汇市场基本面消息,预测未来外汇市场热点。
本发明所涉及的平台整体框架采用如图2所示的四层架构:
其中数据层包括实时新闻数据库、汇率数据库以及存储新闻和汇率所对应的市场热点类型的历史数据库。运算层根据后期平台运行的实际需求确定,开发阶段采用浪潮NF5288M5 GPU服务器。在逻辑层中包含AI算法资源池、基础模型库以及业务功能模块等结构,AI算法资源池主要包括用于支持各类AI算法的软件包及框架,如Keras、pandas、Sklearn等。基础模型库包含项目实现所需要的基础算法和模型,如CNN、K-means、Word2Vec等开源算法,以及针对本项目设计和开发的各类算法。业务功能模块通过组合调用基础模型库中适合的模型,实现用户语言层面的各类业务,如新闻资讯主题分类、汇率数据预测、市场热点描述等。最上层的用户接口层实现用户与系统的人机交互功能。
系统的软硬件环境和设备包括:
硬件环境:浪潮AGX-2 AI服务器
CPU:Gold 6130 CPU@2.10GHz
显卡:8*Tesla V100,32G显存/卡
软件环境:Ubuntu 16.04.4 LTS操作系统
Python 2.7.12
Keras 2.1.6
NFS文件管理系统
MySQL server 5.5.37数据库或以上版本
本发明所提多元时序数据预测系统包含离线、近线和在线流程三部分,系统的数据流和处理过程如图3所示。
其中近线流程对互联网的新闻、汇率数据信息进行实时监测和抓取,并将其转化为键值对存入本地存储系统。离线流程读取本地存储的汇率和新闻资讯信息,并将其处理为可用于模型输入的样本形式后,传入集成模型进行模型的训练和更新。通过数据回测和A/B检验,最终确定是否将更新的模型推送到在线系统当中。在线流程根据用户的预测请求,从数据库中读取所对应的数据集,采用预处理技术将其转化为模型的输入数据,通过预测模型得到外汇热点的预测结果。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种多元实时时序数据预测的系统的一个实施例,该系统包括:
数据抓取模块,数据抓取模块用于获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
数据读取模块,数据读取模块读取数据库中的历史数据,并将历史数据转存成时间内容键值对形式的时间序列数据;
数据预处理模块,数据预处理模块将时间序列数据转化成样本数据集;
模型管理模块,模型管理模块用于构建热点集成预测模型,并用样本数据集对模型进行训练;
结果可视化模块,结果可视化模块用于载入已训练的模型,用模型处理实时数据流得到推理结果并输出结果。
下面对每个模块进行描述:
1)数据抓取模块(News/currency spider):数据抓取模块用于实时监测并抓取互联网金融资讯和汇率数据,是一个抽象类,并将其存储为键值对。模块接收需要抓取的信息类型(新闻/汇率);需要抓取的网页URL;内容所在的网页深度。基于Python和第三方开发包requests、bs4、re实现对网页数据的爬取和解析,并将数据记录写入数据库中。数据字典如下所示:
表1非结构化数据字典
Property Type e.g.
Date Datetime 2018/7/24 16:24:31
Title Vchar 以史为鉴!油价导致下一次衰退的风险正在上升
Content Vchar
表2结构化数据字典
Property Type e.g.
Date Datetime 2018/7/24 16:24:31
Prop. Float -
Prop. Float -
数据字典对应的数据表和数据库在MySQL中实现。
2)数据读取模块(data_set_helper):由于数据爬虫对新闻资讯和汇率数据的爬去频率不同,因此在数据读取时该模块需要对不同类别数据进行数据对齐,并将数据转存成键值对形式(<时间>,<内容>)。目前,汇率爬虫可按天获取外汇汇率,新闻爬虫每天可抓取数量不等的资讯数据,数据读取模块对资讯数据按天合并,参考图12,具体步骤为:
1)根据输入的文件地址逐条读取记录,若未给定起止日期,则处理文件中所有记录否则执行步骤2);
2)判断起止时间是否合法,包括是否含有非法字符,其实时间是否早于终止时间等。若不合法,抛出输入错误,否则执行步骤3);
3)将日期指针指向起始日期;
4)判断日期指针所指文本记录是否为空。若为空,指针指向下一天;否则执行步骤4);
5)将一天内的新闻数据合并后加入新闻列表;
6)判断日期指针所指汇率记录是否为空,若为空,用前三天汇率均值填充,否则加入到汇率列表中;
7)日期指针加一天;
8)判断日期指针是否大于终止日期,若为否,重复执行步骤4)到7),否则求汇率列表的二阶导数;
9)输出汇率二阶导数列表和新闻列表。
3)数据预处理模块(rate_process/news_process):数据预处理模块将data_set_helper返回的数据处理成适合于模型输入的样本形式。对结构化时间序列数据而言,采用移位方式构成训练样本,见图4。对非结构化时间序列数据而言,预处理过程完成对文本数据的分词、停止词删除、字典构建、词编码(one-hot编码)等过程,以得到可计算的稠密向量。
4)模型管理模块(model_helper):模型管理模块实现模型的构建、训练、保存、加载和部署等功能。其中模型构建子模块用于搭建不同的模型,所有模型共享训练、推理和保存等函数块。在本发明中,为了采用一个模型同时处理汇率和文本两种数据,提出一种热点集成预测模型(Ensemble Model for Hotspot Forecasting,EMHF)。
由于输入的新闻数据为一组变长序列,为了保证在后续的计算图中模型可以自动推断上一层传入的数据维度,需要将输入序列映射为一组定长张量。此外,由于新闻数据序列本身具有上下文相关性,因此这里首先采用输出为1000维的LSTM模型将由1000维词向量构成的变长序列映射为1000维的行向量。再通过不同大小的卷积和max_pool操作进一步抽取上下文特征。
对于汇率数据,采用BiGRU模型将其转换为形如[n_sample,n_GRU]的张量,将其与之前新闻张量合并后一起经过全连接网络,最后传给输出层,输出形如[n_sample,n_feature]的张量。模型整体结构如图5所示。
5)结果可视化模块:结果可视化模块基于Python第三方库matplotlib输出三种汇率特征分布雷达图、回测曲线、误差曲线、箱线图等统计分析结果,以方便用户分析市场热点预测情况。
由于一个时刻的市场热点描述涉及到三个外汇币种,在雷达图中表示为一个三角形。为了避免引入不必要的复杂计算,这里对IoU采用最大最小包络进行近似计算,示意图如图6所示。
根据图6,最大包络的三个顶点Asup、Bsup、Csup分别为三种外汇真实值与预测值中最大的一个,即max(y,yreg)。同理最小相交三角形的三个顶点Ainf、Binf、Cinf为min(y,yreg)。由海伦公式计算两个三角形的面积如下:
其中,pk为对应三角形的周长,ak,bk,ck分别为三条边长。
根据(1),我们定义IoU计算式如下:
IoU=Sinf/Ssup (2)
IoU的取值范围为(0,1]。取值越大表明预测与真实值的吻合度越高。
将模型对测试集样本得到的结果记为y_reg,测试集标签记为y_lab,模型精度可以采用二者的均方差来表示。为了避免某一种外汇预测的差异对精度造成较大的影响,我们将残差除以真实值,用相对误差求mse,用以表征误差百分比,如(3)所示。mse越小,说明模型整体预测性能越高。
以上五个模块的功能覆盖和关联关系如图7所示。
在本发明的一个优选实施例中,根据本发明的一个实施例,非结构化的文本数据包括互联网金融资讯,并且结构化的数字数据包括汇率数据。
在本发明的一个优选实施例中,数据读取模块配置用于将数据以天为单位进行合并。
在本发明的一个优选实施例中,数据预处理模块配置用于对时间序列数据进行分词、归一化、编码和切片操作。
实施例
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
由于全球宏观基本面可以分为:风险情绪、避险情绪、大宗商品等,在货币市场表现为:欧系货币、避险货币、商品货币。其中,避险货币主要是日元,因为日本大量资本外投美国,如果外部经济环境不好,资本会买入日元避险;商品货币主要集中在澳元和加元,因为这两个国家是大众商品的供应国。外汇市场通常体现为这三个热点在轮动。
为了验证本发明所提出的方法的有效性,本实例首先通过数据抓取模块对网站Currency Converter上2017年8月1日至2018年7月31日的美元兑欧元、美元兑澳元、美元兑日元的三种汇率日数据记录和新浪财经网5712条金融资讯记录进行抓取,之后采用采用本发明数据读取模块和数据预处理模块将数据合并成键值对,并转存成样本数据集的形式。之后采用本发明EMHF模型对未来1天的外汇市场情况作出预测,最终通过可视化模块计算热点预测情况并显示。其中,训练数据集占总记录数的80%,其余20%作为测试数据集。模型采用rmsprop优化训练过程,相关参数如下表所示。
表3.3超参数配指标
系统对汇率的可视化预测结果见图8-11(以澳元为例)。
需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。
此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (10)

1.一种多元实时时序数据预测的方法,其特征在于,包括以下步骤:
1)获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
2)读取所述数据库中的所述历史数据,并将所述历史数据转存成时间内容键值对形式的时间序列数据;
3)将所述时间序列数据转化成样本数据集;
4)构建热点集成预测模型,并用所述样本数据集对所述模型进行训练;
5)载入已训练的所述模型,用所述模型处理实时数据流得到推理结果并输出所述结果。
2.根据权利要求1所述的方法,其特征在于,所述热点集成预测模型被配置为:首先采用LSTM模型将由1000维词向量构成的新闻数据变长序列映射为1000维的行向量,通过不同大小的卷积和max_pool操作进一步抽取上下文特征得到新闻张量;然后采用BiGRU模型将汇率数据转换为汇率张量,将所述汇率张量与所述新闻张量合并后传给输出层。
3.根据权利要求1所述的方法,其特征在于,所述非结构化的文本数据包括互联网金融资讯,并且所述结构化的数字数据包括汇率数据。
4.根据权利要求1所述的方法,其特征在于,步骤2)中将所述历史数据转存成时间内容键值对形式的时间序列数据包括将所述数据以天为单位进行合并。
5.根据权利要求1所述的方法,其特征在于,步骤3)中将所述时间序列转化成样本数据集包括对所述时间序列数据进行分词、归一化、编码和切片操作。
6.根据权利要求1所述的方法,其特征在于,步骤5)中输出所述结果包括基于Python第三方库matplotlib输出三种汇率特征分布雷达图、回测曲线、误差曲线、箱线图统计分析结果。
7.一种多元实时时序数据预测的系统,其特征在于,包括:
数据抓取模块,所述数据抓取模块用于获取结构化的数字数据和非结构化的文本数据二者的历史数据,并存入数据库中;
数据读取模块,所述数据读取模块读取所述数据库中的所述历史数据,并将所述历史数据转存成时间内容键值对形式的时间序列数据;
数据预处理模块,所述数据预处理模块将所述时间序列数据转化成样本数据集;
模型管理模块,所述模型管理模块用于构建热点集成预测模型,并用所述样本数据集对所述模型进行训练;
结果可视化模块,所述结果可视化模块用于载入已训练的所述模型,用所述模型处理实时数据流得到推理结果并输出所述结果。
8.根据权利要求7所述的系统,其特征在于,所述非结构化的文本数据包括互联网金融资讯,并且所述结构化的数字数据包括汇率数据。
9.根据权利要求7所述的系统,其特征在于,数据读取模块配置用于将所述数据以天为单位进行合并。
10.根据权利要求9所述的系统,其特征在于,数据预处理模块配置用于对所述时间序列数据进行分词、归一化、编码和切片操作。
CN201811466932.XA 2018-12-03 2018-12-03 一种多元实时时序数据预测的方法和系统 Pending CN109598380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811466932.XA CN109598380A (zh) 2018-12-03 2018-12-03 一种多元实时时序数据预测的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811466932.XA CN109598380A (zh) 2018-12-03 2018-12-03 一种多元实时时序数据预测的方法和系统

Publications (1)

Publication Number Publication Date
CN109598380A true CN109598380A (zh) 2019-04-09

Family

ID=65959517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811466932.XA Pending CN109598380A (zh) 2018-12-03 2018-12-03 一种多元实时时序数据预测的方法和系统

Country Status (1)

Country Link
CN (1) CN109598380A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363289A (zh) * 2019-07-17 2019-10-22 山东浪潮人工智能研究院有限公司 一种基于机器学习的工业蒸汽量预测方法及装置
CN110532681A (zh) * 2019-08-28 2019-12-03 哈尔滨工业大学 基于narx网络-箱线图和常模式提取的燃机异常检测方法
CN110704730A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 基于大数据的产品数据推送方法、系统及计算机设备
CN111767277A (zh) * 2020-07-08 2020-10-13 深延科技(北京)有限公司 数据处理方法和装置
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
TWI754476B (zh) * 2020-11-30 2022-02-01 中華電信股份有限公司 基於集成式學習之障礙診斷系統、方法及電腦可讀媒介
CN115994184A (zh) * 2023-03-23 2023-04-21 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析系统
CN104573003A (zh) * 2015-01-08 2015-04-29 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
CN107392664A (zh) * 2017-07-20 2017-11-24 西南财经大学 基于媒体信息张量监督学习的股票价格波动预测系统及方法
CN108647823A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 基于深度学习的股票数据分析方法和装置
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析系统
CN104573003A (zh) * 2015-01-08 2015-04-29 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
CN107392664A (zh) * 2017-07-20 2017-11-24 西南财经大学 基于媒体信息张量监督学习的股票价格波动预测系统及方法
CN108647823A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 基于深度学习的股票数据分析方法和装置
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363289A (zh) * 2019-07-17 2019-10-22 山东浪潮人工智能研究院有限公司 一种基于机器学习的工业蒸汽量预测方法及装置
CN110532681A (zh) * 2019-08-28 2019-12-03 哈尔滨工业大学 基于narx网络-箱线图和常模式提取的燃机异常检测方法
CN110704730A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 基于大数据的产品数据推送方法、系统及计算机设备
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112069777B (zh) * 2020-06-15 2022-09-30 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN111767277A (zh) * 2020-07-08 2020-10-13 深延科技(北京)有限公司 数据处理方法和装置
TWI754476B (zh) * 2020-11-30 2022-02-01 中華電信股份有限公司 基於集成式學習之障礙診斷系統、方法及電腦可讀媒介
CN115994184A (zh) * 2023-03-23 2023-04-21 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统
CN115994184B (zh) * 2023-03-23 2023-05-16 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统

Similar Documents

Publication Publication Date Title
CN109598380A (zh) 一种多元实时时序数据预测的方法和系统
CN114168716B (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
Zheng et al. Predicting financial enterprise stocks and economic data trends using machine learning time series analysis
Gu et al. Predicting stock prices with finbert-lstm: Integrating news sentiment analysis
Umer et al. Forecasting performance of smooth transition autoregressive (STAR) model on travel and leisure stock index
CN107679987A (zh) 资产配置策略获取方法、装置、计算机设备和存储介质
CN111291925A (zh) 一种基于人工智能的金融市场预测及决策的系统、方法
Janková et al. Type‐2 Fuzzy Expert System Approach for Decision‐Making of Financial Assets and Investing under Different Uncertainty
Alkhodhairi et al. Bitcoin candlestick prediction with deep neural networks based on real time data
CN113554504A (zh) 一种车贷风控模型生成方法、装置及评分卡生成方法
Baboshkin et al. Multi-source model of heterogeneous data analysis for oil price forecasting
Sharma et al. Use of LSTM and ARIMAX algorithms to analyze impact of sentiment analysis in stock market prediction
Zhao et al. Dynamic impacts of online investor sentiment on international crude oil prices
Pawaskar Stock price prediction using machine learning algorithms
Wiiava et al. Stock price prediction with golden cross and death cross on technical analysis indicators using long short term memory
Wang et al. Learning to trade on sentiment
Rajkar et al. Stock market price prediction and analysis
Radzimski et al. Intelligent architecture for comparative analysis of public companies using semantics and XBRL data
Arshad et al. Increasing profitability and confidence by using interpretable model for investment decisions
Fang et al. Practical machine learning approach to capture the scholar data driven alpha in AI industry
KR102596740B1 (ko) 기계학습을 이용한 경제불확실성 뉴스심리에 따른 거시경제적 요인과 주식수익률 예측방법
Bineid et al. CADM: big data to limit creative accounting in Saudi-listed companies
Islam et al. Stock market prediction of Bangladesh using multivariate long short-term memory with sentiment identification.
Shaju et al. Prediction Model for Stock Trading using Combined Long Short Term Memory and Neural Prophet with Regressors.
Anh et al. Transforming Stock Price Forecasting: Deep Learning Architectures and Strategic Feature Engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication