CN117973627A - 数据预测方法、装置、设备、存储介质及程序产品 - Google Patents

数据预测方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117973627A
CN117973627A CN202410257596.7A CN202410257596A CN117973627A CN 117973627 A CN117973627 A CN 117973627A CN 202410257596 A CN202410257596 A CN 202410257596A CN 117973627 A CN117973627 A CN 117973627A
Authority
CN
China
Prior art keywords
data
neural network
prediction
model
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410257596.7A
Other languages
English (en)
Inventor
方睿民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410257596.7A priority Critical patent/CN117973627A/zh
Publication of CN117973627A publication Critical patent/CN117973627A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种数据预测方法、装置、设备、存储介质及程序产品,可以应用于人工智能技术领域、计算机技术领域或金融科技领域。该方法包括:响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据;对初始金融数据进行检测,得到初始金融数据中的异常数据项;采用预设策略对异常数据项进行处理,得到目标金融数据;将目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对目标金融数据进行渐进预测得到的数据预测结果,其中,阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成神经网络预测子模型的组件数目依次增加。

Description

数据预测方法、装置、设备、存储介质及程序产品
技术领域
本公开涉及人工智能技术领域、计算机技术领域或金融科技领域,尤其涉及一种数据预测方法、装置、设备、存储介质及程序产品。
背景技术
随着计算机技术的发展,在计算机上开发的各种数据预测系统逐渐被广泛地应用到金融行业,以对金融行业的产品趋势进行预测,并为相关决策者提供科学依据。在符合法律规定的情况下,数据预测系统在进行预测时,一般会从少部分的数据平台上采集维度较为单一的数据,并根据采集到的数据进行产品价格趋势预测。
在实现本公开发明构思的过程中,发明人发现相关技术中一般会存在以下问题:从数据平台上采集金融数据的过程较为复杂,并且直接根据采集到的金融数据进行预测,一般不对采集到的金融数据进行处理,这至少部分地忽略了由于采集到的金融数据中存在瑕疵数据而导致的数据预测不准确的问题。此外,由于数据预测系统一般依托于服务器实现,复杂的数据采集过程以及直接利用采集到的金融数据进行预测的过程,一般会增加服务器的资源消耗以及内存占用,使得服务器存在资源利用率低以及内存利用率低的问题,同时也降低了数据预测的准确性。
发明内容
鉴于上述问题,本公开提供了一种数据预测方法、装置、设备、存储介质及程序产品。
本公开的一个方面提供了一种数据预测方法,包括:响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,上述数据接口的参数是通过基于上述数据平台的类型进行配置的;对上述初始金融数据进行检测,得到上述初始金融数据中的异常数据项;采用预设策略对上述异常数据项进行处理,得到目标金融数据;将上述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对上述目标金融数据进行渐进预测得到的数据预测结果,其中,上述阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成上述神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
本公开的另一方面还提供了一种数据预测装置,包括:采集模块,用于响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,上述数据接口的参数是通过基于上述数据平台的类型进行配置的;检测模块,用于对上述初始金融数据进行检测,得到上述初始金融数据中的异常数据项;处理模块,用于采用预设策略对上述异常数据项进行处理,得到目标金融数据;第一输入模块,用于将上述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对上述目标金融数据进行渐进预测得到的数据预测结果,其中,上述阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成上述神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
本公开的另一方面还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的数据预测方法。
本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述的数据预测方法。
本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现上述的数据预测方法。
根据本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品,通过响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,对初始金融数据进行检测,得到初始金融数据中的异常数据项;采用预设策略对异常数据项进行处理,得到目标金融数据;将目标金融数据输入到阶梯演变神经网络预测模型中,输出数据预测结果。由于在数据预测过程中,采用了参数化的接口采集数据,只需通过修改接口的参数,就可以实现数据的采集,无需深入底层实现逻辑,数据接口的简化降低了数据采集过程的复杂度。此外,在数据预测过程中,对初始金融数据进行了检测和处理,处理掉了初始金融数据中的异常数据项,实现了对金融数据的优化,保障了金融数据的质量以及数据预测结果的准确率,降低了服务器在进行数据预测过程中,由于异常数据项的存在而导致的高资源消耗以及高内存占用。再次,通过采集多个维度的金融数据,并利用阶梯演变神经网络对金融数据进行渐进预测,提高了得到数据预测结果的准确率。总体上,本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品至少部分地克服了相关技术存在地资源利用率低、内存利用率低以及数据预测准确度低的问题,进而达到了提高资源利用率、内存利用率以及数据预测准确度的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据预测方法和装置的系统架构图;
图2示意性示出了根据本公开实施例的数据预测方法的流程图;
图3示意性示出了根据本公开实施例的阶梯演变神经网络预测模型的模型结构图;
图4示意性示出了根据本公开实施例的得到数据预测结果的架构图;
图5示意性示出了根据本公开另一实施例的数据预测方法的流程图;
图6示意性示出了根据本公开实施例的数据预测装置的结构框图;以及
图7示意性示出了根据本公开实施例的适于实现数据预测方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。并且防止对用户个人信息数据的非法访问,维护用户个人信息安全和网络安全等。
在金融行业中,除了利用数据预测系统外,还采用过以下方式进行产品的价格预测。
基本面分析:该方法涉及分析和评估一个公司或金融环境的基本面,包括财务报表、经济指标、利润状况等。投资者通过分析公司的业务模式和财务状况来预测其未来的股价产品走势。技术分析:该方法基于过去的金融环境价格和交易量数据,通过使用图表模式、趋势线和技术指标(例如移动平均线以及相对强弱指数等)来预测未来价格的方向。该方法的前提条件是金融环境价格包含了所有信息,因此可以通过分析历史价格走势来预测未来动向。波动率分析:该方法关注金融环境价格的波动程度,通过衡量历史波动率来预测未来波动的可能性。这对于制定风险管理策略和投资组合优化非常重要。时间序列分析:该方法使用统计模型(例如自回归模型、移动平均模型和自回归移动平均模型等)来分析时间序列数据,以便预测未来的价格或收益。基于新闻和事件的分析:该方法分析金融环境与新闻、事件和宏观经济指标的关联性,以预测这些事件对金融环境的影响。例如,一家公司发布财务报告、政府发布就业数据等。专家意见和调查:调查和专家意见常被用来获取金融环境的普遍看法,通过这些信息来预测金融环境的未来走势。这可能包括分析师的研究报告、投资者调查等。
但这些方式中依然存在着一些问题。例如难以应对复杂金融环境下的数据预测,导致数据预测存在局限性。又例如信息在金融环境中可能存在不对称,即某些金融环境参与者可能拥有比其他人更多或更准确的信息。这可能导致预测模型难以准确预测数据。又例如部分传统模型可能过度拟合历史数据,尤其是在复杂金融环境中。这导致模型在历史数据上表现良好,但在新数据上的泛化能力较差。又例如传统方法在处理极端事件(长尾事件)时表现不佳,这些事件可能对金融环境产生显著影响。这使得对于投资组合的风险管理变得更加困难。又例如,传统方法可能受限于有限的数据来源和不够及时的数据,这在快速变化的金融环境中可能导致信息滞后,影响模型的准确性。又例如有些先进的模型,尤其是深度学习模型,通常被认为是黑盒模型,难以解释。在金融领域,模型的可解释性对于监管和风险管理至关重要。
此外,由于数据预测系统在采集数据过程中存在的采集过程较复杂,以及采集到的数据直接不进行处理直接参与数据预测等,还导致了服务器存在资源利用率低以及内存利用率低的问题,以及数据预测准确度低的问题。
有鉴于此,本公开实施例需要提供一种更为全面且综合的数据预测,以提高数据预测的准确性,同时提高服务器的资源利用率和内存利用率。具体地,该方法包括:响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,数据接口的参数是通过基于数据平台的类型进行配置的;对初始金融数据进行检测,得到初始金融数据中的异常数据项;采用预设策略对异常数据项进行处理,得到目标金融数据;将目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对目标金融数据进行渐进预测得到的数据预测结果,其中,阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
需要说明的是,本公开实施例确定的数据预测方法和装置可用于人工智能技术领域、计算机技术领域或金融科技领域,也可用于除人工智能技术领域、计算机技术领域或金融科技领域之外的任意领域,本公开实施例对确定的数据预测方法和装置的应用领域不做限定。
图1示意性示出了根据本公开实施例的数据预测方法和装置的系统架构图。
如图1所示,根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104以及服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等,例如发送数据预测请求,或者接收数据预测结果等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如金融数据预测类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所发送的数据预测请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的数据预测请求等数据进行分析等处理,并将处理结果(例如根据数据预测请求获取或生成的数据预测结果、网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据预测方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据预测装置一般可以设置于服务器105中。本公开实施例所提供的数据预测方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据预测装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的系统架构,通过图2~图5对公开实施例的数据预测方法进行详细描述。
图2示意性示出了根据本公开实施例的数据预测方法的流程图。
如图2所示,该实施例的数据预测方法包括操作S210~操作S240。
在操作S210,响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,所述数据接口的参数是通过基于所述数据平台的类型进行配置的。
在操作S220,对所述初始金融数据进行检测,得到所述初始金融数据中的异常数据项。
在操作S230,采用预设策略对所述异常数据项进行处理,得到目标金融数据。
在操作S240,将所述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对所述目标金融数据进行渐进预测得到的数据预测结果,其中,所述阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成所述神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
根据本公开的实施例,数据预测请求例如是预测产品的价格趋势的请求,或者是预测产品的交易数量的请求等。
根据本公开的实施例,电子设备可以是提供足够的计算能力来处理大规模数据的设备,例如服务器设备,多处理器服务器或者云计算平台等。
根据本公开的实施例,数据接口可以是灵活且高度可配置的,不同的数据平台类型,可以设置有不同的接口参数,在需要从不同的数据平台上采集数据时,可以只改变接口的参数实现从不同数据平台上采集数据。该参数化的接口可以是指将接口的关键参数设计成可配置的选项。这些参数可以通过函数参数、命令行参数或配置文件进行设置。通过参数化设计,用户可以轻松地修改接口行为,而无需深入了解底层实现,目地在于将接口尽量简单化,以降低采集数据过程的复杂度。
根据本公开的实施例,数据平台上可以提供有各种公共开放可使用的数据的平台,例如金融交易所、经济研究机构、政府公共数据、社交媒体平台等。
根据本公开的实施例,初始金融数据可以是指从这些交易平台中采集到的数据,例如是股票和证券的历史价格、成交量、国内外的利率、通货膨胀率、就业数据、新闻文章、推文以及评论等。股票和证券的历史价格和成交量等可以作为金融环境历史数据;国内外的利率、通货膨胀率以及就业数据等可以作为宏观经济数据;新闻文章、推文以及评论等可以作为社交媒体数据。需要说明的是,上述采集金融数据的过程以及所采集到的金融数据均是在获得了相关数据提供者的许可下进行的,符合相关法律规定。
根据本公开的实施例,操作S210的目的在于对金融数据进行收集和整合,采集的这些金融数据有助于获得金融环境参与者的情绪和金融环境热度,为后续阶梯演变神经网络预测模型的训练和预测提供社会感知信息,为后续的阶梯演变神经网络预测模型的训练和预测提供充分而全面的信息支持,从而提高金融数据预测的准确性和有效性。
根据本公开的实施例,采集到的初始金融数据可以优化后再输入到阶梯演变神经网络预测模型中,以降低由于异常数据项的存在而使得,阶梯演变神经网络预测模型中在预测时对服务器造成的,高资源消耗以及高内存占用。
具体地,对初始金融数据的优化过程可以包括操作S220~操作S230。
根据本公开的实施例,通过对初始金融数据进行异常数据项检测,可以一些异常数据项,例如缺失值,异常值和重复数据等。
根据本公开的实施例,对这些异常数据项的处理过程例如是删除缺失值所在的行或列、删除异常值、删除重复数据所在的行或列、又或者是填充缺失值,以及修改异常值等。
根据本公开的实施例,S220~操作S230的目的在于,有效地优化了初始数据,为后续的阶梯演变神经网络预测模型提供了高质量的输入数据,从而提升了整体预测模型的性能和准确性。
根据本公开的实施例,对初始金融数据进行优化得到的目标金融数据可以输入到阶梯演变神经网络预测模型,该阶梯演变神经网络预测模型中可以有N个神经网络预测子模型,由于从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成子模型结构的组件数据依次增加,子模型的预测精度依次提升,所以该N个神经网络预测子模型可以实现对目标金融数据的渐进预测,最后通过对这N个神经网络预测子模型的输出结果进行聚合,可以得到数据预测结果。
根据本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品,通过响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,对初始金融数据进行检测,得到初始金融数据中的异常数据项;采用预设策略对异常数据项进行处理,得到目标金融数据;将目标金融数据输入到阶梯演变神经网络预测模型中,输出数据预测结果。由于在数据预测过程中,采用了参数化的接口采集数据,只需通过修改接口的参数,就可以实现数据的采集,无需深入底层实现逻辑,数据接口的简化降低了数据采集过程的复杂度。此外,在数据预测过程中,对初始金融数据进行了检测和处理,处理掉了初始金融数据中的异常数据项,实现了对金融数据的优化,保障了金融数据的质量以及数据预测结果的准确率,降低了服务器在进行数据预测过程中,由于异常数据项的存在而导致的高资源消耗以及高内存占用。再次,通过采集多个维度的金融数据,并利用阶梯演变神经网络对金融数据进行渐进预测,提高了得到数据预测结果的准确率。总体上,本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品至少部分地克服了相关技术存在地资源利用率低、内存利用率低以及数据预测准确度低的问题,进而达到了提高资源利用率、内存利用率以及数据预测准确度的技术效果。
由于对从多源数据中收集的金融数据进行细致和精准的处理,可以以确保数据的质量和适用性,从而降低服务器的资源利用率、内存占用率,以及提高数据预测的准确性。上文只是初步描述了对初始金融数据的优化过程,以下将对该过程进行详细描述。
具体地,优化过程可以包括数据清洗过程。具体地,数据清洗可以是对初始金融数据进行检测并处理,检测并处理初始金融数据中的缺失值、异常值和重复数据,以确保金融数据的完整性和准确性。在处理时,可以采用如下操作:对包括缺失值的行或列进行删除,或者将目标值填充到缺失值的位置处,其中,对于包括缺失值的行或列,目标值包括以下之一:行或列的均值、中位数值、众数值;将初始金融数据中超出初始金融数据标准差的金融数据作为异常值,以及对异常值进行处理;查找并删除包括重复数据的重复行。
可选地,在处理异常数据项时,可以采用Python语言内置的函数库,进行处理。例如,使用dropna()方法删除包含缺失值的行或列。使用fillna()方法填充缺失值,可以选择使用均值、中位数、众数或其他自定义值。使用duplicated()方法查找重复行,并使用drop_duplicates()方法删除重复行。通过计算数据的标准差,将超出阈值的数据点视为异常值,并进行删除或修改的处理。
可选地,在数据清洗环节中还可以包括一致性验证的过程,例如对所述目标金融数据进行一致性验证,得到验证后的金融数据;将所述验证后的金融数据输入到所述阶梯演变神经网络预测模型中,输出所述数据预测结果。
可选地,通过对初始金融数据的一致性进行验证,可以保证各个数据源之间的关联性和可靠性。例如,一种数据源是国家经济状况(例如,国内生产总值数据),另一种数据源可以是股市指数数据(例如,道琼斯工业平均指数)。一般情况下,国家的经济状况(如国内生产总值)与股市表现存在关联。例如,经济增长可能推动股市上涨,而经济衰退可能导致股市下跌。所以可以对初始金融数据中的国内生成总值以及道琼斯工业平均指数的趋势进行一致性验证,在验证通过的情况下,可以继续使用该数据;在验证不通过的情况下,可以查阅相关网站,以确定异常的数据,并对该异常的数据进行删除或修改等。
可选地,该数据优化过程还可以包括归一化和标准化的过程,具体地,上述方法还可以包括如下操作:对初始金融数据执行数据归一化和标准化的操作,得到目标金融数据。
根据本公开的实施例,通过对初始金融数据进行标准化和归一化的操作,可以消除初始金融数据中不同数据源之间的度量单位差异,确保数据的可比性。这有助于防止某些特征在模型训练中占据过大权重,从而提高了模型的鲁棒性。
可选地,该数据优化过程还可以根据不同的金融环境和投资策略的需求进行调整。这意味着数据预测系统能够适应不同类型的金融数据和金融环境情景,从而更好地服务于阶梯演变神经网络预测模型的建立和训练。
例如,对宏观经济金融环境的长期投资策略可能需要处理宏观经济指标,如GDP增长率、通货膨胀率、利率等。对于该种数据的优化过程可以关注如何从不同数据源获取并整合这些宏观经济数据。又例如,对于长期投资,投资者可能需要考虑季节性因素的影响,因此可能需要进行季节性调整。对于该种数据的优化过程可以采用对数据进行季节性调整的方式,以消除季节性影响。
根据本公开的实施例,通过获取多个维度的金融数据,可以综合考虑到多个维度的金融数据对数据预测结果的影响,进而提高数据预测结果的准确度。
根据本公开的实施例,通过对初始金融数据进行处理,得到目标金融数据,可以实现初始金融数据中的异常数据项的删除或修改等,以保障目标金融数据的质量,从而至少部分地克服由于异常数据项的存在导致的服务器高资源消耗以及高内存占用的问题,进而达到提高资源利用率以及节省内存的技术效果。
根据本公开的实施例,阶梯演变神经网络预测模型可以基于对初始金融数据进行优化后得到的目标金融数据,进行数据预测。该模型由于采用了N个神经网络预测子模型对目标金融数据进行渐进预测,从而能够提高得到数据预测结果的准确度。以下,将对该阶梯演变神经网络预测模型的构建、训练以及预测过程进行描述。
可选地,阶梯演变神经网络预测模型可以是通过如下方式构建的:构建N个神经网络预测子模型;根据训练N个神经网络预测子模型得到的训练结果,生成N个神经网络预测子模型的权重参数;基于N个神经网络预测子模型的权重参数,对N个神经网络预测子模型进行聚合,得到阶梯演变神经网络预测模型。
可选地,本公开实施例中的N可以等于3,即构建包括3个神经网络子模型的阶梯演变神经网络预测模型。具体地,构建这三个神经网络子模型的过程可以包括如下操作:基于第一注意力机制的序列模型组件、第一向量转化组件以及第一线性连接组件构建第一个神经网络预测子模型;基于第二注意力机制的序列模型组件、第二向量转化组件、第二线性连接组件以及向量分割组件,构建第二个神经网络预测子模型;基于语言表示模型组件、第三注意力机制的序列模型组件以及第三线性连接组件,构建第三个神经网络预测子模型,其中,第三注意力机制的序列模型组件中的自注意力子组件的数目,大于第一注意力机制的序列模型组件中的自注意力子组件的数目。
图3示意性示出了根据本公开实施例的阶梯演变神经网络预测模型的模型结构图。
如图3所示,阶梯演变神经网络预测模型可以包括第一个神经网络子模型301、第二个神经网络子模型302以及第三个神经网络子模型303。
第一个神经网络子模型301可以包括第一注意力机制的序列模型组件(Transformer模型)3011、第一向量转化组件3012、第一线性连接组件3013以及第一输出层3014。其中,第一注意力机制的序列模型组件3011可以包括6层的编码器组件,每层的编码器组件可以包括6层的第一自注意力子组件3011-1、第一拼接层子组件3011-2、第一线性连接子组件3011-3、第一归一化层子组件3011-4、第一剪枝层子组件3011-5、第二归一化层子组件3011-6。
第二个神经网络子模型302可以包括第二注意力机制的序列模型组件3021、第二向量转化组件3022、第二线性连接组件3023以及第二输出层3024。其中,第二注意力机制的序列模型组件3021中可以包括向量分割子组件。
其中,向量分割子组件可以包括词向量分割层3021-1、位置向量分割层3021-2以及类型向量分割层3021-3。词向量分割层3021-1、位置向量分割层3021-2以及类型向量分割层3021-3可以分别对向量进行分割,以从多维度解释当前的向量信息,例如从词向量角度、位置向量角度以及类型向量角度解释向量信息。
具体地,利用Embedding表示原本的向量,即经过第二向量转化组件3022后的向量;利用Word_Embedding表示信息本身的向量,即词向量;利用Position_Embedding表示每个信息本身的位置向量,即位置向量;利用Type_Embedding表示每个信息本身的类别向量,用于表示每个类别,即类别向量。对向量的具体分割过程可以如公式(1)所示。
其中,Embeddding表示原始信息,WE、Wp、WT分别表示词向量维度、位置向量维度以及类别向量维度这三个维度的矩阵,用于提取词向量维度、位置向量维度以及类别向量维度的信息。之所以引入本公式,时为了在使用注意力序列模型提取特征信息时可以或许更多的相关信息,这对于提升神经网络子模型以及阶梯演变神经网络预测模型的预测能力有一定的帮助。
可选地,第二注意力机制的序列模型组件3021中也可以包括6层的编码器组件,每层的编码器组件可以包括6层的第二自注意力子组件3021-4、第二拼接层子组件3021-5、第二线性连接子组件3021-6、第三归一化层子组件3021-7、第二剪枝层子组件3021-8、第四归一化层子组件3021-9。
第三个神经网络子模型303,可以包括基于语言表示模型组件(Bert模型)3031、第三注意力机制的序列模型组件3032、第三线性连接组件3033以及第三输出层3034。其中,第三注意力机制的序列模型组件3032中可以包括6层的编码器组件,每层编码器组件可以包括12层的第三自注意力子组件3032-1、第三拼接层子组件3032-2、第三线性连接子组件3032-3、第五归一化层子组件3032-4、第三剪枝层子组件3032-5、第六归一化层子组件3032-6。
可选地,基于语言表示模型组件3031可以具有理解上下文信息的能力,这对于神经网络子模型以及阶梯演变神经网络预测模型的预测可以起到一定的积极作用。
可选地,将自注意力子组件增加到12层,可以获得更多的信息,提高神经网络子模型以及阶梯演变神经网络预测模型的预测能力。
可选地,根据第一个神经网络子模型301的第一输出层3014、第二个神经网络子模型302的第二输出层3024以及第三个神经网络子模型303的第三输出层3034可以得到阶梯演变神经网络预测模型的输出层304,该输出层304所输出的结果可以是数据预测结果。
可选地,在上述三个神经网络子模型中,第一向量转化组件3012以及第二向量转换组件3022,可以是用于将向量转换成机器模型能够识别的语言数据。
第一自注意力子组件3011-1、第二自注意力子组件3021-4、以及第三自注意力子组件3032-1可以用于对转换后的语言数据进行特征提取,例如将A提取成a1、a2以及a3这三部分组成。
第一拼接层子组件3011-2、第二拼接层子组件3021-5以及第三拼接层子组件3032-2可以是将特征提取到的数据以矩阵的形式进行拼接,例如|a1,a2,a3|等。
第一线性连接组件3013、第二线性连接组件3023、第三线性连接组件3033、第一线性连接子组件3011-3、第二线性连接子组件3021-6以及第三线性连接子组件3032-3可以用于实现维度转换,例如将256的维度转换为128的维度等。
第一归一化层子组件3011-4、第二归一化层子组件3011-6、第三归一化层子组件3021-7、第四归一化层子组件3021-9、第五归一化层子组件3032-4、以及第六归一化层子组件3032-6可以用于对维度变换后的数据进行格式统一,得到具有统一数据标准的数据,例如将维度变换后的数据都转换成0~1之间的数值,实现数据的等比缩放。
第一剪枝层子组件3011-5、第二剪枝层子组件3021-8以及第三剪枝层子组件3032-5可以用于对数据进行剪枝操作。由于经过上述几步的转换,所得到的数据可以过于冗杂,所以需要进行剪去一些数据,以减小数据量,对数据进行瘦身,进而降低模型在预测时由于数据较多所造成的计算资源的消耗。
可选地,上述阶梯演变神经网络预测模型可以是模层结构以及训练强度逐层递进的模型,每个神经网络子模型逐渐引入更多的层和神经元,使得阶梯演变神经网络预测模型能够具有多变性和普适性,适应更多的预测情况。第一个神经网络子模型得到的数据,输入第二个神经网络子模型;第二个神经网络子模型得到的数据输入到第三个神经网络子模型。在训练时,针对预测错误的数据可以达到加强训练效果的作用,每一次都加强训练预测错误的数据,最终可以整体提升阶梯演变神经网络的预测能力。
可选地,上文描述了神经网络子模型的构建过程,但阶梯演变神经网络预测模型的构建还需要进一步根据神经网络子模型的训练结构确定神经网络子模型的权重参数,根据每个神经网络子模型的权重参数,确定阶梯演变神经网络预测模型。
可选地,根据训练N个神经网络预测子模型得到的训练结果,生成N个神经网络预测子模型的权重参数的过程可以包括如下操作:从数据平台中获取第一训练样本数据集,其中,第一训练样本数据集包括第一样本标签值;将第一训练样本数据集输入到第一个神经网络预测子模型中,得到第一输出结果;将第一输出结果输入到第二个神经网络预测子模型中,得到第二输出结果;将第二输出结果输入到第三个神经网络预测子模型中,得到第三输出结果;利用计算引擎分别确定第一输出结果、第二输出结果以及第三输出结果与第一样本标签值之间的误差率;基于误差率,确定神经网络预测子模型的权重参数。
根据本公开的实施例,利用计算引擎分别确定第一输出结果、第二输出结果以及第三输出结果与第一样本标签值之间的误差率的过程可以包括如下操作:通过第一函数接口,从数据库中调用误差率函数;将第一输出结果、第二输出结果或第三输出结果和第一样本标签值分别输入到误差率函数中,输出与第一输出结果、第二输出结果或第三输出结果分别相对应的误差率。
可选地,误差率函数可以如公式(2)所示。
其中γm表示误差率,m为神经网络子模型,m=1,...,N;表示输出结果和样本标签值不相等;P表示概率。
通过计算两者之间的误差率,可以确定当前神经网络子模型的预测性能,进而赋予当前神经网络子模型的权重参数。具体地,基于误差率,确定神经网络预测子模型的权重参数的过程可以包括如下操作:通过第二函数接口,从数据库中调用权重函数;将误差率输入到权重函数中,输出神经网络预测子模型的权重参数。
可选地,权重函数可以如公式(3)所示。
其中,γm表示由公式(2)获得的误差率,e表示指数函数,αm表示当前模型的权重比例。由公式(3)可得,当神经网络子模型预测误差率过大(例如准确率在85%以下)时,该神经网络子模型的权重参数可以变小,当神经网络子模型的预测误差率较小(例如准确率在85%以上)时,该神经网络子模型的权重参数可以变大。
通过公式(2)和(3)可以确定第一个神经网络预测子模型的权重系数α1、第二个神经网络预测子模型的权重系数α2以及第三个神经网络预测子模型的权重系数α3
可选地,在训练时,第一个神经网络子模型预测错误的数据可以在第二个神经网络子模型中重点预测。具体地,神经网络子模型的预测类似于:y=Kx,其中y是预测值,当样本x预测y错误时,可以加大样本初始权重K的数值,从而加大样本x的比重,用于第二个神经网络子模型的训练。
可选地,第二个神经网络子模型预测错误的数据可以在第三个神经网络子模型中重点预测。例如当x预测y错误时,可以再次加大样本初始权重K的数值,从而再次加大x的比重,用于第三个神经网络预测子模型的训练。此外,第三个神经网络子模型中将自注意力子组件的数目增加到12层,也可以提高神经网络子模型的预测准确度。
通过根据这三个神经网络预测子模型的权重参数,对这三个神经网络预测子模型进行聚合,可以得到阶梯演变神经网络预测模型。该聚合过程可以如公式(4)所示。
其中,其中,αm表示每个神经网络子模型的权重参数,Gm(x)表示每个神经网络子模型的输出结果。通过对三个神经网络子模型的输出结果进行综合考虑,可以充分发挥每个神经网络子模型各自的优势,较大程度提高阶梯演变神经网络预测模型的预测准确能力。
基于上文的描述,将目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对目标金融数据进行渐进预测得到的数据预测结果,包括:将目标金融数据输入到阶梯演变神经网络预测模型中,得到N个神经网络预测子模型的预测结果;根据N个神经网络预测子模型的预测结果与N个神经网络预测子模型的权重参数,生成数据预测结果。
图4示意性示出了根据本公开实施例的得到数据预测结果的架构图。
可选地,以N等于3为例,上述公式(4)可以用于得到数据预测结果。
如图4所示,将目标金融数据输入到第一个神经网络预测模型401中,得到第一输出结果G1(x),将第一输出结果输入到第二个神经网络预测模型402中,得到第二输出结果G2(x),将第二输出结果输入到第三个神经网络预测模型403中,得到第三输出结果G3(x)。再结合第一个神经网络预测子模型的权重系数α1、第二个神经网络预测子模型的权重系数α2以及第三个神经网络预测子模型的权重系数α3,对第一输出结果G1(x)、第二输出结果G2(x)以及第三输出结果G3(x)进行聚合,可以得到数据预测结果,得到的数据预测结果可以是公式(5)得到的结果。该数据预测结果可以通过图表的形式向决策者展示,以便于决策者作者合适的决策。
数据预测结果=α1×G1(x)+α2×G2(x)+α3×G3(x) (5)
根据本公开的实施例,通过利用阶梯演变神经网络预测模型对目标金融数据进行渐进式预测,并得到数据预测结果,进而使得数据预测结果可以是在综合了多个神经网络子模型的输出结果后得到的,从而能够提高得到数据预测结果的准确度。
可选地,本公开实施例还可以对数据预测结果以及阶梯演变神经网络预测模型进行监测与评估,确定潜在风险,确保决策者做出合适的决策。
可选地,可以对数据预测结果进行监测。例如从数据库中调用预测结果风险评估函数;将数据预测结果输入到预测结果风险评估函数中,输出所述数据预测结果的风险值。
可选地,预测结果风险评估函数可以如公式(6)所示。
其中,Var表示风险值,β是置信水平,P可以是与数据预测结果相关联的参数,例如投资组合价值,W是投资组合权重向量。公式(6)用于估计在给定置信水平下投资组合可能面临的最大风险值,一但监测到风险值过大,可以发出警报提醒。通过对模型输出的数据预测结果进行风险监测,帮助数据预测系统的下游系统(例如投资系统)能够及时识别并分析潜在风险因素,例如突发性的波动或不同寻常的投资行为等,进而帮助决策者做出合适的决策。
可选地,还可以对阶梯演变神经网络预测模型进行定期监测与评估。具体地,定期通过参数化的数据接口从数据平台中获取第二训练样本数据集;利用第二训练样本数据集对阶梯演变神经网络预测模型进行评估,得到评估结果;在评估结果表征阶梯演变神经网络预测模型的准确率低于预设阈值的情况下,对阶梯演变神经网络预测模型重新训练。
可选的,所述第二训练样本数据集中包括第二样本标签值;利用第二训练样本数据集对阶梯演变神经网络预测模型进行评估,得到评估结果,包括:获取第二训练样本集中训练样本的数目;将第二训练样本集输入到阶梯演变神经网络预测模型中,得到样本预测结果;根据训练样本的数目、第二样本标签值以及样本预测结果,生成评估结果。
可选地,根据训练样本的数目、第二样本标签值以及样本预测结果,生成评估结果的过程可以如公式(7)所示。
其中,MAPE可以是平均绝对百分比误差,n是第二训练样本集中训练样本的数目,yi表示第二样本标签值,表示相应的神经网络子模型的预测结果。该指标用于评估神经网络子模型的预测准确性,MAPE越低可以表示阶梯演变神经网络预测模型越准确。
可选地,第二训练样本集与第一训练样本集均可以由从数据平台上采集的多维金融数据组成,但第二训练样本集与第一训练样本集的区别可以在于第二训练样本集中的金融数据所对应的日期晚于第一训练样本集中的金融数据所对应的日期。
通过定期对阶梯演变神经网络预测模型进行监测和评估,可以确保该模型的鲁棒性和可靠性,使其能够适应不断变化的金融环境条件。
可选地,在所述评估结果表征所述阶梯演变神经网络预测模型的准确率低于预设阈值(可以根据实际需要进行适应性调整)的情况下,可以对阶梯演变神经网络预测模型重新训练。具体地,可以通过如下方式进行重新训练。
设立了定期的优化周期,通过分析金融环境数据和阶梯演变神经网络预测模型输出的实时性能指标,识别模型可能存在的局限性和不足之处。
其次,进行模型参数调整。对神经网络子模型的结构和,模型参数进行调优。这涵盖了学习率、层数、神经元数量等关键参数的优化,以保持阶梯演变神经网络预测模型的灵活性和对金融环境变化的敏感性。
此外,定期从数据平台获取样本数据,以更新训练样本数据集,确保模型训练所使用的数据集能够反映最新的金融环境情况。这包括整合最新的历史数据、宏观经济指标和社交媒体信息,以确保模型的输入数据具备最新的信息,从而提高模型对当前数据的理解和预测能力。
最后,系统通过定期的模型重新训练,确保阶梯演变神经网络预测模型不仅能够适应当前条件,还能够灵活地适应长期金融环境变化。这个周期性的更新机制保证了模型的时效性和可持续性,使其能够在不断演变的金融环境中保持高度的预测精度。
通过这一重新训练地过程,可以实现对阶梯演变神经网络预测模型的持续优化,使其能够适应金融环境的动态变化,提供更为可靠和实用的预测结果。
图5示意性示出了根据本公开另一实施例的数据预测方法的流程图。
如图5所示,该实施例的数据预测方法可以包括操作S510~操作S550。
在操作S5]0,从数据平台中采集多维的初始金融数据。
在操作S520,对初始金融数据进行优化处理,得到目标金融数据。
在操作S530,将目标金融数据输入到阶梯演变神经网络预测模型中,输出数据预测结果。
在操作S540,对数据预测结果以及阶梯演变神经网络预测模型进行监测和评估。
在操作S550,对阶梯演变神经网络预测模型进行定期优化和重新训练。
根据本公开的实施例,操作S510可以参考操作S210,操作S520可以参考操作S220~操作S230,操作S530可以参考操作S240,操作S540以及操作S550可以参考上文描述的对数据预测结果以及阶梯演变神经网络预测模型进行监测与评估、以及对阶梯演变神经网络预测模型进行重新训练的过程,在此不再赘述。
本公开实施例提供的数据预测方法,通过渐进升级模型的复杂性,训练出阶梯演变神经网络预测模型,可以更好关注到金融环境的非线性,以适应金融环境的多变性。本公开实施例通过整合多维的金融数据,包括历史金融环境数据、宏观经济数据和社交媒体情感等,综合利用多维度信息,提高了阶梯演变神经网络预测模型对金融环境的全面理解和预测能力。阶梯演变神经网络预测模型的渐进升级机制使得模型能够动态学习和适应金融环境的变化,此外,模型定期更新和优化,有效避免了过度拟合历史数据和提高了模型的泛化能力。
本公开实施例提供的数据预测方法可以通过深度学习技术,更好地处理极端事件,提高了对长尾风险的感知和管理能力,使数据预测系统更为健壮。本公开实施例通过定期的模型更新和多维数据的综合利用,有望提高数据的时效性,使阶梯演变神经网络预测模型更及时地反映金融环境变化,增强了数据预测系统或下游系统在实际投资决策中的实用性。本公开实施例还考虑了模型的可解释性,使其在高度复杂的深度学习模型中也能提供一定程度的解释性。这符合金融领域对模型透明度和解释性的需求。此外,通过实时风险管理和监控机制,能够及时识别潜在风险因素,并通过多维数据的分析提供全方位的风险评估,从而提高了数据预测系统的综合风险管理能力。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
基于上述数据预测方法,本公开还提供了一种数据预测装置。以下将结合图6对该装置进行详细描述。
图6示意性示出了根据本公开实施例的数据预测装置的结构框图。
如图6所示,该实施例的数据预测装置600包括采集模块610、检测模块620、处理模块630和第一输入模块640。
采集模块610,用于响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,数据接口的参数是通过基于数据平台的类型进行配置的。
检测模块620,用于对初始金融数据进行检测,得到初始金融数据中的异常数据项。
处理模块630,用于采用预设策略对异常数据项进行处理,得到目标金融数据。
第一输入模块640,用于将目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对目标金融数据进行渐进预测得到的数据预测结果,其中,阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
根据本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品,通过响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,对初始金融数据进行检测,得到初始金融数据中的异常数据项;采用预设策略对异常数据项进行处理,得到目标金融数据;将目标金融数据输入到阶梯演变神经网络预测模型中,输出数据预测结果。由于在数据预测过程中,采用了参数化的接口采集数据,只需通过修改接口的参数,就可以实现数据的采集,无需深入底层实现逻辑,数据接口的简化降低了数据采集过程的复杂度。此外,在数据预测过程中,对初始金融数据进行了检测和处理,处理掉了初始金融数据中的异常数据项,实现了对金融数据的优化,保障了金融数据的质量以及数据预测结果的准确率,降低了服务器在进行数据预测过程中,由于异常数据项的存在而导致的高资源消耗以及高内存占用。再次,通过采集多个维度的金融数据,并利用阶梯演变神经网络对金融数据进行渐进预测,提高了得到数据预测结果的准确率。总体上,本公开实施例提供的数据预测方法、装置、设备、存储介质以及程序产品至少部分地克服了相关技术存在地资源利用率低、内存利用率低以及数据预测准确度低的问题,进而达到了提高资源利用率、内存利用率以及数据预测准确度的技术效果。
根据本公开的实施例,数据预测装置还可以包括构建模块、生成模块和聚合模块。
构建模块,用于构建N个神经网络预测子模型。
生成模块,用于根据训练N个神经网络预测子模型得到的训练结果,生成N个神经网络预测子模型的权重参数。
聚合模块,用于基于N个神经网络预测子模型的权重参数,对N个神经网络预测子模型进行聚合,得到阶梯演变神经网络预测模型。
根据本公开的实施例,构建模块可以包括第一构建子模块、第二构建子模块和第三构建子模块。
第一构建子模块,用于基于第一注意力机制的序列模型组件、第一向量转化组件以及第一线性连接组件构建第一个神经网络预测子模型。
第二构建子模块,用于基于第二注意力机制的序列模型组件、第二向量转化组件以及第二线性连接组件,构建第二个神经网络预测子模型,其中,第二注意力机制的序列模型组件中包括向量分割子组件。
第三构建子模块,用于基于语言表示模型组件、第三注意力机制的序列模型组件以及第三线性连接组件,构建第三个神经网络预测子模型,其中,第三注意力机制的序列模型组件中的自注意力子组件的数目,大于第一注意力机制的序列模型组件中的自注意力子组件的数目。
根据本公开的实施例,生成模块可以包括第一获取子模块、第一输入子模块、第二输入子模块、第三输入子模块、第一确定子模块和第二确定子模块。
第一获取子模块,用于从数据平台中获取第一训练样本数据集,其中,第一训练样本数据集包括第一样本标签值。
第一输入子模块,用于将第一训练样本数据集输入到第一个神经网络预测子模型中,得到第一输出结果。
第二输入子模块,用于将第一输出结果输入到第二个神经网络预测子模型中,得到第二输出结果。
第三输入子模块,用于将第二输出结果输入到第三个神经网络预测子模型中,得到第三输出结果。
第一确定子模块,用于利用计算引擎分别确定第一输出结果、第二输出结果以及第三输出结果与第一样本标签值之间的误差率。
第二确定子模块,用于基于误差率,确定神经网络预测子模型的权重参数。
根据本公开的实施例,第一确定子模块可以包括第一调用单元和第一输入单元。
第一调用单元,用于通过第一函数接口,从数据库中调用误差率函数。
第一输入单元,用于将第一输出结果、第二输出结果或第三输出结果和第一样本标签值分别输入到误差率函数中,输出与第一输出结果、第二输出结果或第三输出结果分别相对应的误差率。
根据本公开的实施例,第二确定子模块可以包括第二调用单元和第二输入单元。
第二调用单元,用于通过第二函数接口,从数据库中调用权重函数。
第二输入单元,用于将误差率输入到权重函数中,输出神经网络预测子模型的权重参数。
根据本公开的实施例,第一输入模块可以包括第四输入子模块和第一生成子模块
第四输入子模块,用于将目标金融数据输入到阶梯演变神经网络预测模型中,得到N个神经网络预测子模型的预测结果。
第一生成子模块,用于根据N个神经网络预测子模型的预测结果与N个神经网络预测子模型的权重参数,生成数据预测结果。
根据本公开的实施例,处理模块可以包括第一处理子模块、第二处理子模块和第三处理子模块。
第一处理子模块,用于对包括缺失值的行或列进行删除,或者将目标值填充到缺失值的位置处,其中,对于包括缺失值的行或列,目标值包括以下之一:行或列的均值、中位数值、众数值。
第二处理子模块,用于将初始金融数据中超出初始金融数据标准差的金融数据作为异常值,以及对异常值进行处理。
第三处理子模块,用于查找并删除包括重复数据的重复行。
根据本公开的实施例,数据预测装置还可以包括验证模块和第二输入模块。
验证模块,用于对目标金融数据进行一致性验证,得到验证后的金融数据。
第二输入模块,用于将验证后的金融数据输入到阶梯演变神经网络预测模型中,输出数据预测结果。
根据本公开的实施例,数据预测装置还可以包括归一化和标准化模块。
归一化和标准化模块,用于对初始金融数据执行数据归一化和标准化的操作,得到目标金融数据。
根据本公开的实施例,数据预测装置还可以包括调用模块和第三输入模块。
调用模块,用于从数据库中调用预测结果风险评估函数。
第三输入模块,用于将数据预测结果输入到预测结果风险评估函数中,输出数据预测结果的风险值。
根据本公开的实施例,数据预测装置还可以包括获取模块、评估模块和重新训练模块。
获取模块,用于定期通过参数化的数据接口从数据平台中获取第二训练样本数据集。
评估模块,用于利用第二训练样本数据集对阶梯演变神经网络预测模型进行评估,得到评估结果。
重新训练模块,用于在评估结果表征阶梯演变神经网络预测模型的准确率低于预设阈值的情况下,对阶梯演变神经网络预测模型重新训练。
根据本公开的实施例,评估模块可以包括第二获取子模块、第五输入子模块和第二生成子模块。
第二获取子模块,用于获取第二训练样本集中训练样本的数目。
第五输入子模块,用于将第二训练样本集输入到阶梯演变神经网络预测模型中,得到样本预测结果。
第二生成子模块,用于根据训练样本的数目、第二样本标签值以及样本预测结果,生成评估结果。
根据本公开的实施例,采集模块610、检测模块620、处理模块630和第一输入模块640中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,采集模块610、检测模块620、处理模块630和第一输入模块640中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,采集模块610、检测模块620、处理模块630和第一输入模块640中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中数据预测装置部分与本公开的实施例中数据预测方法部分是相对应的,数据预测装置部分的描述具体参考数据预测方法部分,在此不再赘述。
图7示意性示出了根据本公开实施例的适于实现数据预测方法的电子设备的方框图。
如图7所示,根据本公开实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至输入/输出(I/O)接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出(I/O)接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的数据预测方法。
在该计算机程序被处理器701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质71 1被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (15)

1.一种数据预测方法,包括:
响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,所述数据接口的参数是通过基于所述数据平台的类型进行配置的;
对所述初始金融数据进行检测,得到所述初始金融数据中的异常数据项;
采用预设策略对所述异常数据项进行处理,得到目标金融数据;
将所述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对所述目标金融数据进行渐进预测得到的数据预测结果,其中,所述阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成所述神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
2.根据权利要求1所述的方法,其中,所述阶梯演变神经网络预测模型是通过如下方式构建的:
构建N个神经网络预测子模型;
根据训练所述N个神经网络预测子模型得到的训练结果,生成所述N个神经网络预测子模型的权重参数;
基于所述N个神经网络预测子模型的权重参数,对所述N个神经网络预测子模型进行聚合,得到所述阶梯演变神经网络预测模型。
3.根据权利要求2所述的方法,其中,在所述N等于3的情况下,所述构建N个神经网络预测子模型,包括:
基于第一注意力机制的序列模型组件、第一向量转化组件以及第一线性连接组件构建第一个神经网络预测子模型;
基于第二注意力机制的序列模型组件、第二向量转化组件以及第二线性连接组件,构建第二个神经网络预测子模型,其中,所述第二注意力机制的序列模型组件中包括向量分割子组件;
基于语言表示模型组件、第三注意力机制的序列模型组件以及第三线性连接组件,构建第三个神经网络预测子模型,其中,所述第三注意力机制的序列模型组件中的自注意力子组件的数目,大于所述第一注意力机制的序列模型组件中的自注意力子组件的数目。
4.根据权利要求3所述的方法,其中,所述根据训练所述N个神经网络预测子模型得到的训练结果,生成所述N个神经网络预测子模型的权重参数,包括:
从所述数据平台中获取第一训练样本数据集,其中,所述第一训练样本数据集包括第一样本标签值;
将所述第一训练样本数据集输入到所述第一个神经网络预测子模型中,得到第一输出结果;
将所述第一输出结果输入到所述第二个神经网络预测子模型中,得到第二输出结果;
将所述第二输出结果输入到所述第三个神经网络预测子模型中,得到第三输出结果;
利用计算引擎分别确定所述第一输出结果、所述第二输出结果以及第三输出结果与所述第一样本标签值之间的误差率;
基于所述误差率,确定所述神经网络预测子模型的权重参数。
5.根据权利要求4所述的方法,其中,所述利用计算引擎分别确定所述第一输出结果、所述第二输出结果以及第三输出结果与所述第一样本标签值之间的误差率,包括:
通过第一函数接口,从数据库中调用误差率函数;
将所述第一输出结果、所述第二输出结果或所述第三输出结果和所述第一样本标签值分别输入到所述误差率函数中,输出与所述第一输出结果、所述第二输出结果或所述第三输出结果分别相对应的误差率。
6.根据权利要求4所述的方法,其中,所述基于所述误差率,确定所述神经网络预测子模型的权重参数,包括:
通过第二函数接口,从数据库中调用权重函数;
将所述误差率输入到所述权重函数中,输出所述神经网络预测子模型的权重参数。
7.根据权利要求2所述的方法,其中,所述将所述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对所述目标金融数据进行渐进预测得到的数据预测结果,包括:
将所述目标金融数据输入到所述阶梯演变神经网络预测模型中,得到N个神经网络预测子模型的预测结果;
根据所述N个神经网络预测子模型的预测结果与所述N个神经网络预测子模型的权重参数,生成所述数据预测结果。
8.根据权利要求1所述的方法,其中,所述异常数据项包括以下至少之一:缺失值、异常值、重复数据;
所述采用预设策略对所述异常数据项进行处理,得到目标金融数据,包括:
对包括所述缺失值的行或列进行删除,或者将目标值填充到所述缺失值的位置处,其中,对于包括所述缺失值的行或列,所述目标值包括以下之一:所述行或列的均值、中位数值、众数值;
将所述初始金融数据中超出初始金融数据标准差的金融数据作为所述异常值,以及对所述异常值进行处理;
查找并删除包括所述重复数据的重复行。
9.根据权利要求1所述的方法,还包括:
从数据库中调用预测结果风险评估函数;
将所述数据预测结果输入到所述预测结果风险评估函数中,输出所述数据预测结果的风险值。
10.根据权利要求1所述的方法,还包括:
定期通过所述参数化的数据接口从所述数据平台中获取第二训练样本数据集;
利用所述第二训练样本数据集对所述阶梯演变神经网络预测模型进行评估,得到评估结果;
在所述评估结果表征所述阶梯演变神经网络预测模型的准确率低于预设阈值的情况下,对所述阶梯演变神经网络预测模型重新训练。
11.根据权利要求10所述的方法,其中,所述第二训练样本数据集中包括第二样本标签值;
所述利用所述第二训练样本数据集对所述阶梯演变神经网络预测模型进行评估,得到评估结果,包括:
获取所述第二训练样本集中训练样本的数目;
将所述第二训练样本集输入到所述阶梯演变神经网络预测模型中,得到样本预测结果;
根据所述训练样本的数目、所述第二样本标签值以及所述样本预测结果,生成所述评估结果。
12.一种数据预测装置,包括:
采集模块,用于响应于数据预测请求,利用电子设备通过参数化的数据接口从数据平台中采集多个维度的初始金融数据,其中,所述数据接口的参数是通过基于所述数据平台的类型进行配置的;
检测模块,用于对所述初始金融数据进行检测,得到所述初始金融数据中的异常数据项;
处理模块,用于采用预设策略对所述异常数据项进行处理,得到目标金融数据;
第一输入模块,用于将所述目标金融数据输入到阶梯演变神经网络预测模型中,输出通过对所述目标金融数据进行渐进预测得到的数据预测结果,其中,所述阶梯演变神经网络预测模型包括N个神经网络预测子模型,从第一个神经网络预测子模型到第N个神经网络预测子模型之间,组成所述神经网络预测子模型的组件数目依次增加,N为大于1的正整数。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~11中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~11中任一项所述的方法。
CN202410257596.7A 2024-03-06 2024-03-06 数据预测方法、装置、设备、存储介质及程序产品 Pending CN117973627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410257596.7A CN117973627A (zh) 2024-03-06 2024-03-06 数据预测方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410257596.7A CN117973627A (zh) 2024-03-06 2024-03-06 数据预测方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN117973627A true CN117973627A (zh) 2024-05-03

Family

ID=90861456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410257596.7A Pending CN117973627A (zh) 2024-03-06 2024-03-06 数据预测方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117973627A (zh)

Similar Documents

Publication Publication Date Title
US10977293B2 (en) Technology incident management platform
US11037080B2 (en) Operational process anomaly detection
CN111401777B (zh) 企业风险的评估方法、装置、终端设备及存储介质
Javaid Ai-driven predictive analytics in finance: Transforming risk assessment and decision-making
CA3053894A1 (en) Defect prediction using historical inspection data
US20210049414A1 (en) Deep graph de-noise by differentiable ranking
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
CN115983900A (zh) 用户营销策略的构建方法、装置、设备、介质和程序产品
Stødle et al. Data‐driven predictive modeling in risk assessment: Challenges and directions for proper uncertainty representation
CN117333012A (zh) 基于数据挖掘的金融风险跟踪管理系统、装置和存储介质
CN117252688A (zh) 一种金融风险评估方法、系统、终端设备及存储介质
CN118429079A (zh) 财务风险判断方法、装置、设备及存储介质
CN114493853A (zh) 信用等级评价方法、装置、电子设备及存储介质
CN114647554A (zh) 分布式管理集群的性能数据监控方法及装置
CN116596662A (zh) 基于企业舆情信息的风险预警的方法、装置、电子设备和介质
Hou Financial Abnormal Data Detection System Based on Reinforcement Learning
CN116664306A (zh) 风控规则的智能推荐方法、装置、电子设备及介质
CN116934341A (zh) 交易风险的评估方法、装置、电子设备和介质
CN116862658A (zh) 信用评估方法、装置、电子设备、介质和程序产品
CN116091249A (zh) 交易风险的评估方法、装置、电子设备和介质
CN115795345A (zh) 信息处理方法、装置、设备及存储介质
Zang Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network
CN114239985A (zh) 汇率预测方法、装置、电子设备及存储介质
CN117973627A (zh) 数据预测方法、装置、设备、存储介质及程序产品
CN114358024A (zh) 日志分析方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination