CN111738852A - 业务数据处理方法、装置和服务器 - Google Patents
业务数据处理方法、装置和服务器 Download PDFInfo
- Publication number
- CN111738852A CN111738852A CN202010563930.3A CN202010563930A CN111738852A CN 111738852 A CN111738852 A CN 111738852A CN 202010563930 A CN202010563930 A CN 202010563930A CN 111738852 A CN111738852 A CN 111738852A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- model
- factor
- factor data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 87
- 238000005096 rolling process Methods 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000000694 effects Effects 0.000 claims abstract description 46
- 238000012216 screening Methods 0.000 claims abstract description 36
- 238000010219 correlation analysis Methods 0.000 claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种业务数据处理方法、装置和服务器,其中,该方法包括:获取目标区域的历史业务数据;先从历史业务数据中提取出多种因子数据,并通过相关性分析,剔除相关性较高且贡献度较小的因子数据,筛选出多种效果较好的因子数据作为目标因子数据;再通过网格算法根据多种目标因子数据,构建多个因子数据组合;根据多个因子数据组合和历史业务数据,通过滚动训练,来建立多个预测模型;再从多个预测模型中确定出用于进行关于目标区域的目标数据的数据处理的目标模型。从而解决了现有方法存在的所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到能高效、准确地预测目标区域的目标数据的趋势变化技术效果。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种业务数据处理方法、装置和服务器。
背景技术
在许多业务场景中,常常需要利用一些已知的业务数据,来预测目标业务数据的变化趋势。例如,在外汇交易场景中,通常需要构建相应的预测模型,并利用该预测模型基于目标区域已知的一些经济数据去预测该区域的外汇牌价趋势。
但是,现有的业务数据处理方法具体实施时,往往存在所建立的预测模型稳定性差、准确度低,且使用时效果不理想的技术问题。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种业务数据处理方法、装置和服务器,以解决解决现有方法中存在的所建立的预测模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到能高效、准确地预测目标区域的目标数据的趋势变化技术效果。
本申请实施例提供了一种业务数据处理方法,包括:
获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;
从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;
通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;
根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
在一个实施例中,所述通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据,包括:
根据所述历史业务数据,确定所述多种因子数据中的各种因子数据分别与所述目标数据的变化趋势;
筛选出变化趋势的相似度大于预设的相似度阈值的多种因子数据作为待定因子数据组;
根据所述历史业务数据,分别确定所述待定因子数据组中的因子数据对目标数据的贡献度;
根据所述贡献度,保留所述待定因子数据组中贡献度最大的因子数据作为目标因子数据。
在一个实施例中,所述通过网格算法根据所述多种目标因子数据,构建多个因子数据组合,包括:
获取并根据参考区域的业务数据,确定适用的因子数据组合中所包含的因子数据的数量;
根据所述适用的因子数据组合中所包含的因子数据的数量,通过网格算法,从多种目标因子数据中抽取相应数量的因子数据,以构建多个因子数据组合。
在一个实施例中,所述根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型,包括:
确定多种匹配的算法模型;
根据所述多种匹配的算法模型和所述多个因子数据组合,构建多个初始模型;
根据历史业务数据,对所述多个初始模型进行滚动训练,以建立多个预测模型。
在一个实施例中,所述根据历史业务数据,对所述多个初始模型进行滚动训练,包括:
按照以下方式对所述多个初始模型中的当前初始模型进行滚动训练:
从所述历史业务数据中提取出与当前初始模型所使用的因子数据组合对应的因子数据作为模型训练数据;
按照预设的时间间隔,将所述模型训练数据分成多个时间段的训练数据;
根据预设的训练规则,利用所述多个时间段的训练数据,对所述当前初始模型进行多轮次的滚动训练,以得到对应的预测模型。
在一个实施例中,所述根据历史业务数据,对所述多个初始模型进行滚动训练,还包括:
根据预设的分配规则,将所述多个初始模型分配给分布式系统中的多个节点服务器;
控制所述多个节点服务器根据所述历史业务数据并行对所分配的初始模型进行滚动训练。
在一个实施例中,通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型后,所述方法还包括:
根据所述目标模型,确定出目标模型所使用的因子数据组合作为目标因子数据组合;
获取目标区域的待处理的业务数据,并从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据;
调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
本申请实施例还提供了一种业务数据处理方法,包括:
获取目标区域的待处理的业务数据,以及目标模型,其中,所述目标模型包括预先通过滚动训练建立得到的用于进行关于目标区域的目标数据的数据处理的预测模型;
根据所述目标模型,确定出目标模型所采用的因子数据组合,作为目标因子数据组合;
从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据;
调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
本申请实施例还提供了一种业务数据处理装置,包括:
获取模块,用于获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;
第一处理模块,用于从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;
第二处理模块,用于通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;
训练模块,用于根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
确定模块,用于通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
本申请实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
在本申请实施例中,通过将相关性分析和网格算法相结合来构建因子数据组合,具体的,先对从目标区域的历史业务数据提取出的多种因子数据进行相关性分析,以从多种因子数据中先剔除掉相关性较高,但贡献度较小的因子数据,筛选并保留下效果较好、贡献度较高的因子数据作为目标因子数据,减少了后续的模型训练的数据处理量;再通过网格算法,构建出多个效果较好,且适用于构建预测模型的因子数据组合;进一步,再根据多个因子数据组合和历史业务数据,通过滚动训练的方式而不是常规的训练方式,进行多轮滚动训练来建立得到多个预测模型,以改善所建立的预测模型在长时间维度上的运行表现,提高预测模型的准确度;最后再从基于上述方式得到的多个预测模型中进一步确定出符合预设要求的效果相对最好的模型作为实际使用的目标模型,并利用该目标模型进行关于目标区域的目标数据的数据处理。从而解决了现有方法中存在的所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到高效、准确地预测目标区域的目标数据的趋势变化技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施方式提供的业务数据处理方法的处理流程图;
图2是根据本申请实施方式提供的业务数据处理方法的处理流程图;
图3是根据本申请实施方式提供的业务数据处理装置的组成结构图;
图4是基于本申请实施例提供的服务器的组成结构示意图;
图5是在一个场景示例中应用本申请实施例提供的业务数据处理方法和装置获得的实施例示意图;
图6是在一个场景示例中应用本申请实施例提供的业务数据处理方法和装置获得的实施例示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
考虑到现有方法大多是依靠技术人员根据业务经验人工选择合适的影响数据作为因子数据;再通过常规的训练方式,利用利用包含有因子数据的历史业务数据训练用于预测目标数据的变化趋势的预测模型,进而通过上述训练好的预测模型来预测目标区域的目标数据。由于上述方法具体实施时,因子数据主要依靠技术人员的业务经验来确定,导致所选择使用因子数据的使用效果往往不够稳定、可靠,容易出现偏差,进而影响所建立的预测模型的准确度和可靠性。
进一步,通过常规的训练方式容易使得训练得到的预测模型存在过拟合的问题,影响预测模型的准确度和使用效果。例如,基于常规的训练方式,会将历史业务数据中占总数量80%的,时间相对靠前的那部分数据作为训练数据,将剩下的占总数据量20%,时间相对靠后的那部分数据作测试数据。在具体训练预测模型时,先只利用上述训练数据进行模型训练;在训练完成后,只利用测试数据对模型进行测试,得到预测模型。这样训练得到预测模型往往会对时间靠前的那部分历史业务数据过拟合,而对时间靠后的那部分历史业务数据拟合不够、误差偏大,使得利用上述预测模型使在对一个长时间维度的数据进行处理来预测目标数据时,容易出现整体表现不理想、稳定性差,预测结果误差相对较大的情况。
可见现有方法具体实施时,往往会存在所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题。
针对产生上述技术问题的根本原因,本申请考虑可以通过将相关性分析和网格算法相结合来构建因子数据组合,具体的,先对从目标区域的历史业务数据提取出的多种因子数据进行相关性分析,以从多种因子数据中剔除相关性较高,且贡献度较小的因子数据,筛选并保留下效果较好的因子数据作为目标因子数据,减少了后续的数据处理量;再通过网格算法,构建出多个效果相对较好,适用于构建预测模型的因子数据组合;进一步,再根据多个因子数据组合和历史业务数据,通过滚动训练的方式而不是常规的训练方式,进行多轮滚动训练来建立得到多个预测模型,以改善所建立的预测模型在长时间维度上的模型表现,提高预测模型的准确度;最后再从基于上述方式得到的多个预测模型中进一步确定出符合预设要求的效果相对最好的模型作为实际使用的目标模型,并利用该目标模型进行关于目标区域的目标数据的数据处理。从而解决了现有方法中存在的所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到高效、准确地预测目标区域的目标数据的趋势变化技术效果。
基于上述思考思路,本申请实施例提供了一种业务数据处理方法。具体请参阅图1所示。本申请实施例提供的业务数据处理方法,具体实施时,可以包括以下内容。
S101:获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据。
在一个实施例中,上述历史业务数据具体可以包括用于描述目标区域预设的历史时间段内相关的业务情况的业务数据。其中,上述业务数据中具体可以包含有因子数据和目标数据。上述目标数据具体可以理解为一种后续需要进行预测的业务数据,上述因子数据具体可以理解为与目标数据存在关联性的业务数据。上述预设的历史时间段具体可以是过去一年,也可以是过去二十年,还可以是过去一周等等。
在一个实施例中,针对不同的业务场景,上述业务数据具体可以是不同类型或者表征不同内容的数据。
在一个实施例中,具体的,例如,在外汇交易的业务场景中,上述目标数据具体可以是目标区域的外汇牌价。上述历史业务数据,具体可以是目标区域的历史经济数据。上述因子数据具体可以是经济数据中能够较为有效地反映经济发展情况的经济指标参数,例如,目标区域的名义GDP、GDP年度涨幅、CPI通胀率、进出口交换比率、外汇储备、外部债务总额所占GDP比率等等。
又例如,在网络购物的业务场景中,上述目标数据具体可以是消费者的针对某商品的成单率,上述因子数据具体可以是与消费者是否购买该商品相关的参数数据,例如,消费者的年龄、职业、月收入、家庭成员等等。
当然,需要说明的是,上述所列举的目标数据、因子数据只是一种示意性说明。具体实施时,根据具体的业务场景和处理需求,上述目标数据、因子数据还可以包括除上述所列举的其他类型的数据。对此,本说明书不作限定。
在一个实施例中,以外汇交易的业务场景为例,具体实施时,可以通过查询目标区域对外公开的历史经济数据,来获取上述目标区域的历史业务数据。
在一个实施例中,为了后续能够更好地预测目标区域的目标数据的变化趋势,还可以获取参考区域的业务数据(包括参考区域的历史业务数据,和/或,参考区域当前的业务数据),以便后续可以综合利用目标区域的历史业务数据和参考区域的业务数据,来更加准确地预测目标区域的目标数据。
其中,上述参考区域具体可以包括与目标区域存在一定相似度或可比性的区域;也可以包括已经建立了关于目标数据的预测模型或已经进行过关于目标数据的预测处理的区域等。
S102:从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据。
在一个实施例中,通过上述方式获取得到的历史业务数据具体可以是一种同时包含有多种因子数据和目标数据的数据集合。具体的,例如,上述历史业务数据具体可以是基于excel文件形式的同时包含有目标区域过去一年的各种经济参数和外汇牌价的统计表格等。因此,具体实施前,可以先对上述历史业务数据进行的提取处理。
在一个实施例中,具体实施时,例如,可以先根据历史业务数据的文件形式,对历史业务数据进行解析;再通过对解析后的历史业务数据进行对象识别,以提取得到多种因子数据。在进行对象识别提取多种因子数据的同时,还可以提取得到历史上的目标数据。
在一个实施中,针对不同的业务场景所提取出的多种因子数据的数量可以存在差异。对于一些比较复杂的业务场景,例如,对于外汇交易的业务场景,可能会提取得到数量较多的多种因子数据。例如,可能会同时提取出30多种不同的因子数据。这时,如果对所提取到的多种因子数据不作区分、筛选,直接用于训练预测模型,势必会增加模型训练过程所涉及到的数据处理量;同时也会降低甚至掩盖掉与目标数据关联度最高的因子数据的影响,导致所建立的预测模型的预测精度较差。正是注意到上述问题,在本实施例中,在提取得到了多种因子数据之后,训练预测模型之前,还会先对多种因子数据进行相关性分析处理,以剔除掉对目标数据的影响相同或近似但贡献度较小的因子数据,而保留下效果较好的因子数据,作为目标因子数据,来参与后续的预测模型的训练。
在一个实施例中,上述通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据,具体实施时,可以包括以下内容:根据所述历史业务数据,确定所述多种因子数据中的各种因子数据分别与所述目标数据的变化趋势;筛选出变化趋势的相似度大于预设的相似度阈值的多种因子数据作为待定因子数据组;根据所述历史业务数据,分别确定所述待定因子数据组中的因子数据对目标数据的贡献度;根据所述贡献度,保留所述待定因子数据组中贡献度最大的因子数据作为目标因子数据。
在本实施例中,具体进行相关性分析时,可以采用基于皮尔森相关性系数的分析方式来对多个因子数据与目标数据的变化趋势之间进行相关性分析。
在本实施例中,以确定一个因子数据与目标数据的变化趋势为例,具体实施时,可以先根据历史业务数据,确定出对应同一个历史时间点时的目标数据和该因子数据;再以该因子数据的数据值为横轴,以目标数据的数据值为纵轴,绘制与各个历史时间点时的目标数据和因子数据对应的坐标点;连接上述坐标点,得到曲线,将该曲线作为该因子数据与目标数据的变化趋势。当然,上述所列举的变化趋势的确定方式只是一种示意性说明。具体实施时,根据具体情况,也可以采用其他合适的方式来确定出因子数据与目标数据的变化趋势。
在本实施例中,在按照上述方式确定出各个因子数据分别与目标数据的变化趋势后,进一步可以将各个因子数据与目标数据的变化趋势两两组合分别比较,以找到与目标数据的变化趋势相同或者相似度较高(即相关性较高)的两个或更多种因子数据,作为待定因子数据组。再针对上述待定因子数据组中的多种因子数据,结合历史业务数据分别上述因子数据对目标数据的贡献度。例如,具体可以计算并将上述待定因子数据组中的多种因子数据分别与目标数据的变化趋势的平均斜率作为贡献度。进而可以根据贡献度的大小,从待定因子数据组中只保留下贡献度最大的因子数据作为参与后续预测模型训练使用的目标因子数据。例如,对于外汇交易业务场景,按照上述方式可以从30多种因子数据中筛选出15种因子数据作为目标因子数据。
从而可以在训练预测模型之前剔除掉与目标因子数据相关性较高但对目标数据的贡献度相对较小的因子数据,减少了后续训练时所涉及的数据处理量。
在一个实施例中,在提取得到多种因子数据后,为了后续能够更加高效、便捷地使用历史业务数据中的因子数据进行预测模型的训练和构建,具体实施时,还可以先对历史业务数据中的多种因子数据进行预处理,得到预处理后的因子数据,后续可以使用预处理后的因子数据来构建训练预测模型。其中,上述预处理具体可以包括:格式转化处理,和/或,时间单位对齐处理等。
其中,上述格式转化处理,具体可以包括:将多种因子数据的数据格式按照预设的转化规则,转化为统一的标准格式。例如,将因子数据的数值以千分位的格式显示,又例如将因子数据中的百分比数值转化为小数格式的数值。上述时间单位对齐处理具体可以包括:确定因子数据的发布周期,将因子数据的发布周期作为该因子数据所对应的时间点单位。后续可以按照该因子数据所对应的时间点单位来确定该因子数据与目标数据的变化趋势等。当然,上述所列举的预处理只是一种示意性说明。具体实施时,根据具体情况和处理需求,还可以引入其他类型的预处理。对此,本说明书不作限定。
S103:通过网格算法根据所述多种目标因子数据,构建多个因子数据组合。
在一个实施例中,通过网格算法根据所述多种目标因子数据,构建多个因子数据组合,具体实施时,可以包括以下内容:获取并根据参考区域的业务数据,确定适用的因子数据组合中所包含的因子数据的数量;根据所述适用的因子数据组合中所包含的因子数据的数量,通过网格算法,从多种目标因子数据中抽取相应数量的因子数据,以构建多个因子数据组合。
例如,在本实施例中,根据参考区域的业务数据,结合目标数据的具体特征,可以确定出效果较好的因子数据组合中因子数据的数量为3或者4。进一步,可以通过网格算法从上述多种目标因子数据,每次抽取相应数量的目标因子数据,构建得到多个因子数据组合。其中,每一个因子数据组合所包含的因子数据存在差异,且每一个因子数据组合所包含的因子数据的数量为3或者4。通过上述方式,可以高效地构建出业务场景中针对目标数据预测效果相对较好的因子数据组合,来参与后续预测模型的构建和训练。
S104:根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型。
在一个实施例中,可以根据多个因子数据,结合相应的匹配的算法模型进行模型装配,得到多个初始模型;再利用历史业务数据,通过对多个初始模型进行滚动训练,以建立得到多个预测模型。
在一个实施例中,上述根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型,具体实施时,可以包括以下内容:确定多种匹配的算法模型;根据所述多种匹配的算法模型和所述多个因子数据组合,构建多个初始模型;根据历史业务数据,对所述多个初始模型进行滚动训练,以建立多个预测模型。
在本实施例中,可以根据目标数据与大部分目标因子数据的变化趋势,预估目标因子数据与大部分目标因子数据的作用关系,再根据上述作用关系确定适合用于构建针对业务场景中预测模型的匹配的算法模型。也可以根据参考区域的业务数据,结合目标数据的具体特点等,确定出适合用于构建针对业务场景中预测模型的匹配的算法模型。
在本实施例中,上述匹配的算法模型具体可以包括:逻辑回归算法、朴素贝叶斯算法、决策树、KNN等等。当然,上述所列举的匹配的算法模型只是一种示意性说明。具体实施时,根据具体情况和处理需求,还可以引入其他类型的机器学习匹配的算法模型作为上述匹配的算法模型来构建初始模型。
具体的,可以将每一个因子数据组合分别和一个匹配的算法模型组合,再进行装配,得到对应的初始模型。例如,有2个因子数据组合,分别为:1号组合和2号组合,以及2个匹配的算法模型,分别为:A模型和B模型。在构建初始模型时,可以将1号组合与A模型装配在一起,配置相应的协议和参数,得到第一初始模型;将1号组合与B模型装配在一起,配置相应的协议和参数,得到第二初始模型;将2号组合与A模型装配在一起,配置相应的协议和参数,得到第三初始模型;将2号组合与B模型装配在一起,配置相应的协议和参数,得到第四初始模型,从而可以构建得到4个不同的初始模型。当然,上述所列举的构建初始模型的方式只是一种示意性说明。具体实施时,还可以采用其他合适的构建方式来根据因子数据组合和匹配的算法模型来构建相应的初始模型。
在一个实施例中,上述根据历史业务数据,对所述多个初始模型进行滚动训练,具体实施实施,可以包括以下内容:按照以下方式对所述多个初始模型中的当前初始模型进行滚动训练:从所述历史业务数据中提取出与当前初始模型所使用的因子数据组合对应的因子数据作为模型训练数据;按照预设的时间间隔,将所述模型训练数据分成多个时间段的训练数据;根据预设的训练规则,利用所述多个时间段的训练数据,对所述当前初始模型进行多轮次的滚动训练,以得到对应的预测模型。
在本实施例中,上述当前初始模型具体可以理解为多个初始模型中当前正在训练的任意一个初始模型。
在本实施例中,具体的,例如,以初始模型W作为当前初始模型为例,可以将历史业务数据按照时间的先后顺序划分为3段,分别记为:第一段历史业务数据、第二段历史业务数据、第三段历史业务数据,分别对应三个不同的时间段。其中,上述各段历史业务数据所包含的业务数据的时间段跨度等于预设的时间间隔。确定出初始模型W所采用的因子数据组合,再根据该因子数据组合分别从第一段历史业务数据、第二段历史业务数据、第三段历史业务数据中提取出所对应时间段的因子数据,作为三份模型训练数据,分别记为:N1、N2、N3。其中,上述三份模型训练数据具体还可以包含有所对应的时间段的目标数据。
具体训练时,可以先利用N1训练初始模型W,得到训练后的初始模型,记为W1。再利用W1预测第二时间段的目标数据,得到第二时间段的目标数据的预测结果。从第二段历史业务数据中提取出第二时间段真实的目标数据,将第二时间段真实的目标数据与第二时间段的目标数据的预测结果进行比较,得到差异值,并根据该差异值调整W1的模型参数,得到调整后的模型W1-2。再利用N2训练W1-2得到训练后的模型,记为W2。类似的,利用W2预测第三时间段的目标数据,得到第三时间段的目标数据的预测结果。从第三段历史业务数据中提取出第三时间段真实的目标数据,将第三时间段真实的目标数据与第三时间段的目标数据的预测结果进行比较,得到差异值,并根据该差异值调整W2的模型参数,得到调整后的模型W2-2。再利用N3训练W2-2得到训练后的模型,记为W3,将上述W3确定由初始模型W训练得到的预测模型。
通过上述滚动训练的方式来训练初始模型,得到对应的预测模型,可以在训练的过程中,根据不同时间段的数据特点,有针对性地对模型进行调整,使得模型能够同时较好地学习不同时间段的数据变化规律,避免出现模型对某个时间段的数据过拟合的现象,使得所得到的预测模型在具体应用于较长时间维度的数据处理时,也能有较好的表现,得到较好的预测效果。
在一个实施例中,为了提高模型的训练效率,具体实施时,还可以利用分布式系统,通过并行计算的方式,同时对多个初始模型进行滚动训练。
在一个实施例中,上述根据历史业务数据,对所述多个初始模型进行滚动训练,具体实施时,可以包括以下内容:根据预设的分配规则,将所述多个初始模型分配给分布式系统中的多个节点服务器;控制所述多个节点服务器根据所述历史业务数据并行对所分配的初始模型进行滚动训练。
在本实施例中,通过上述方式可以通过控制多个节点服务器同时并行地训练多个初始模型,从而可以避免现有方法采用基于串行的方式来进行模型训练,从而可以提高模型的训练效率。
S105:通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
在一个实施例中,在通过模型训练得到多个预测模型后,还可以对上述多个预测模型进行测评,根据测评结果从多个预测模型中进一步筛选出表现最好的,例如,预测目标数据的准确度最高的预测模型作为符合预设要求的预测模型,进而将该模型确定为目标模型,后续可以利用目标模型来进行关于目标区域的目标数据的预测的等数据处理。
在一个实施例中,具体对预测模型进行测评时,可以将测试数据作为模型输入分别输入至多个预测模型中,并运行预测模型,得到对应的预测结果。再将各个预测模型的预测结果与测试数据中的目标数据进行比较,根据比较结果对多个预测模型进行打分。根据各个预测模型的得分,将得分最高的预测模型确定为符合预设要求的目标模型。
在一个实施例中,在通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型后,所述方法还包括:根据所述目标模型,确定出目标模型所使用的因子数据组合作为目标因子数据组合;获取目标区域的待处理的业务数据,并从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据;调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
具体的,例如,在确定出目标模型后,可以获取目标区域本年度的业务数据。进一步,可以根据目标模型所采用的因子数据组合,从目标区域本年度的业务数据中提取出与上述因子数据组合所包含的因子数据对应的因子数据,例如,本年度目标区域的名义GDP、GDP年度涨幅、CPI通胀率等宏观经济指标作为模型输入,输入至目标模型。再运行目标模型,得到对应的模型输出,进而根据模型输入,预测出目标区域的本年度的外汇牌价,进一步可以得到目标区域的外汇牌价的变化趋势,进而可以根据上述预测结果进行关于目标区域的投资策略的设计,并根据上述投资策略来运行处理关于目标区域的资金数据。
在本申请实施例中,相较于现有方法,通过将相关性分析和网格算法相结合来构建因子数据组合,具体的,先对从目标区域的历史业务数据提取出的多种因子数据进行相关性分析,以从多种因子数据中剔除相关性较高,且贡献度较小的因子数据,筛选并保留下效果较好的因子数据作为目标因子数据,减少了后续的数据处理量;再通过网格算法,构建出多个效果相对较好,适用于构建预测模型的因子数据组合;进一步,再根据多个因子数据组合和历史业务数据,通过滚动训练的方式而不是常规的训练方式,进行多轮滚动训练来建立得到多个预测模型,以改善所建立的预测模型在长时间维度上的模型表现,提高预测模型的准确度;最后再从基于上述方式得到的多个预测模型中进一步确定出符合预设要求的效果相对最好的模型作为实际使用的目标模型,并利用该目标模型进行关于目标区域的目标数据的数据处理。从而解决了现有方法中存在的所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到高效、准确地预测目标区域的目标数据的趋势变化技术效果。
参阅图2所示,本申请实施例还提供了另一种业务数据处理方法,具体实施时,可以包括以下内容。
S201:获取目标区域的待处理的业务数据,以及目标模型,其中,所述目标模型包括预先通过滚动训练建立得到的用于进行关于目标区域的目标数据的数据处理的预测模型。
S202:根据所述目标模型,确定出目标模型所采用的因子数据组合,作为目标因子数据组合。
S203:从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据。
S204:调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
在本实施例中,可以利用上述方式建立的目标模型来高效、准确地进行相应的业务场景中的数据处理,预测出目标区域的目标数据。
基于同一发明构思,本申请实施例中还提供了一种业务数据处理装置,如下面的实施例所述。由于业务数据处理装置解决问题的原理与业务数据处理方法相似,因此业务数据处理装置的实施可以参见业务数据处理方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。请参阅图3所示,是本申请实施例提供的业务数据处理装置的一种组成结构图,该装置具体可以包括:获取模块301、第一处理模块302、第二处理模块303、训练模块304和确定模块305,下面对该结构进行具体说明。
获取模块301,具体可以用于获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;
第一处理模块302,具体可以用于从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;
第二处理模块303,具体可以用于通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;
训练模块304,具体可以用于根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
确定模块305,具体可以用于通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,在本说明书中,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
此外,在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
从以上的描述中,可以看出,本申请实施例提供的业务数据处理装置,可以有效地解决现有方法中存在的所建立的目标模型准确度低、稳定性差,使用时数据处理效果不理想的技术问题,达到高效、准确地预测目标区域的目标数据的趋势变化技术效果。
本说明书实施例还提供一种服务器,参阅图4所示,所述服务器包括网络通信端口401、处理器402以及存储器403,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口401,具体可以用于获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据。
所述处理器402,具体可以用于从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
所述存储器403,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口401可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器402可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器403可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本申请实施例还提供了一种基于业务数据处理方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(RandomAccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
在一个具体实施场景示例中,可以应用本申请实施例的提供业务数据处理方法和装置来准确地预测目标区域(一个新兴市场区域)的外汇牌价趋势,以配合投资系统,更好地为用户进行外汇投资决策。
在本场景示例中,为了解决新兴市场外汇投资方面存在的经验模型无法解释、量化模型效果不佳、量化模型构建耗时过久等诸多方面存在的问题,提出了一种基于滚动算法和并行计算的新兴市场外汇牌价趋势预测方案,对整体因子(即因子数据组合)的筛选、模型构建、并行计算提高模型产出提供了完整的技术方案,同时具备可扩展、高复用等企业级性能指标。具有如下优点:
1、通过滚动算法(即滚动训练)替代传统模型构建方案,使得整体模型获得动态和自学习能力,使得模型在不同训练集下参数非固定,提升模型在长时间因子维度(如30年)上的稳定性。
2、采用相关性系数分析和网格算法相结合,进行因子动态筛选。通过相关性分析可以使得相似因子合并,有效降低模型无效因子数,提高模型构建效率和准确度。通过网格算法可以全面确定不同因子组合在整体模型下的趋势预测表现,通过分析比较即可获得整体表现最佳的因子组合,形成有效的趋势预测模型。
3、相较于传统的单节点因子构件模型,采用分布式节点水平拆分,实现并行模型构建和计算,可以将原来历史数据分析能力从原来的5年延伸至50年,处理时效则从原数十小时,降低至1小时内。对于量化研究效率和准确率,均有极大的提升。
具体实施时,可以参阅图5所示,构建与投资系统对接的数据处理系统。该数据处理系统可以包括:因子管理装置1、因子筛选装置2、模型构建装置3、并行计算装置4、模型发布装置5、信号发送装置6。其中,因子管理装置1分别与因子筛选装置2、信号发送装置6相连。模型构建装置3分别与因子筛选装置2、并行计算装置4相连。模型发布装置5分别与并行计算装置4和信号发送装置6相连。
具体的,因子管理装置1负责因子(即因子数据)的输入和处理,并将格式化后的因子发送给因子筛选装置2进行因子筛选。筛选装置2通过筛选和网格化处理后得到并将的因子组合(即因子数据组合)发送给模型构建装置3。模型构建装置3选择相应的机器学习模型(即匹配的算法模型),结合因子筛选装置2输入的因子组合,建立滚动训练模型,并且发送给并行计算装置4。并行计算装置4将滚动模型进行节点分配和运行,并将执行结果发送给模型发布装置5。模型发布装置5在所有网格模型执行结束后,筛选最优模型结果和因子组合发布最终趋势预测模型(即目标模型)。信号发送装置6根据趋势预测所需因子和最终趋势预测模型,生成关于目标区域外汇牌价的趋势预测结果,并将该趋势预测结果发送给外部投资系统。投资系统再根据上述趋势预测结果,确定相应的针对目标区域的外汇投资策略。
在本实施例中,上述因子管理装置1可以包括因子输入单元11、因子格式化单元12、因子组装单元13和因子存储单元14。
具体实施实施,因子管理装置1主要通过因子输入单元11获得外部历史因子的导入,用户通过因子输入单元11实现存量因子数据(例如,目标区域的历史业务数据)的导入。因子输入单元11主要包括excel文件导入、excel文件解析、因子对象识别等。用户可以通过IE浏览器实现因子数据excel文件的上传导入。因子格式化单元12负责实现数据因子的格式化处理,如金融数字的千分位显示,百分比数据转换为小数形式等。因子组装单元13负责实现因子数据对象的组合,保证每天所有因子都有对应数据列,如GDP以年维度的数据、非农以月维度的数据、转换为每日维度的模型因子。因子存储单元14负责实现将因子结果保存供后续模型使用。
在本实施例中,因子筛选装置2可以包括因子相关性分析单元21、因子网格分析单元22、因子筛选结果存储单元23。
具体实施时,因子筛选装置2主要通过相关性分析单元21剔除相关性特别高的因子,这些因子往往在模型构建中发挥相似的作用,剔除相似度高的因子可以提高模型构建效率和准确率。相关性分析是统计学中常见的算法,可以使用皮尔森相关性系数来计算。因子网格分析单元22负责将相关性分析单元21筛选后的因子库进行排列组合,形成不同的因子组合。所有因子组合保存到因子筛选结果存储单元23,提供给后续模型构建使用。
在本实施例中,模型构建装置3可以包括模型算法装配单元31、模型因子装配单元32、模型滚动计算单元33和模型执行结果存储单元34。
具体实施时,模型构建装置3主要通过模型算法装配单元31装备合适的机器学习算法,如逻辑回归、朴素贝叶斯算法等。模型因子装配单元32将因子筛选装置2产出的因子组合引入模型,并通过模型滚动计算单元33构建滚动训练模型。滚动模型按天维度执行,每次将历史N1天(如365天)的数据用作训练集,预测N2(如180)天后的新兴市场外汇牌价走势,模型每天滚动执行,通过比对N2天后实际走势即可知道模型在当天的趋势预测结果是否正确。在滚动运行N3天后,即可知道模型在当前因子组合下的准确率。滚动模型对象保存在模型执行结果存储单元34中,滚动模型实际运行在并行计算装置4中。
在本实施例中,并行计算装置4可以包括任务收录装置41、任务调度装置42、任务执行装置43和任务结构存储装置44。
具体实施时,并行计算装置4主要负责运行模型构建装置3生成的滚动模型。首先通过任务收录装置41接收模型执行结果存储单元34中的模型对象并创建并行工作任务,通过任务调度装置42分配给具体的任务执行装置43,任务执行的结果存储在任务结构存储装置44中供系统后续使用。并行计算装置4主要解决python环境伪多线程的问题。在python环境中任务的执行必然是同步串行处理的,因此在模型构建因子达到一定年限时构建效率非常低下,如构建5年以上的因子模型往往需要数十小时的时间。通过并行处理装置将有效的降低模型构建时间,因子跨度可以达到50年,并且分析时间可以压缩到1小时内。
在本实施例中,模型发布装置5可以包括模型评分单元51、模型筛选单元52、模型组装单元53、模型存储单元54。
具体实施时,模型发布装置5可以将因子筛选结果存储单元23中的所有因子组合通过并行计算装置4执行,并通过模型评分单元51对所有因子组合构建的滚动模型(即预测模型)进行打分,模型筛选单元52会将打分结果最高,也就是模型趋势预测效果最佳的滚动模型所对应的因子组合发送给模型组装单元53,模型组装单元53将最佳因子组合生成的模型(即目标模型)存储到模型存储单元54。供后续信号发送装置6使用。
在本实施例中,信号发送装置6可以包括预测因子接收单元61、模型接收单元62、模型执行单元63、信号发送单元64。
具体实施时,信号发送装置6主要通过因子接收单元61从因子管理装置1获取模型需要使用的历史因子数据。通过模型接收单元62接收模型存储单元54保存的最佳因子组合构建的趋势预测模型,通过模型执行单元63预测未来的新兴市场外汇牌价走势,并将预测结果通过信号发送单元64发送给外部投资系统。
投资系统根据所得到的新兴市场外汇牌价走势,智能地制定合适的投资策略,对目标区域新兴市场进行外汇业务的投资处理。
参阅图6所示,可以应用上述数据处理系统进行基于滚动算法和并行计算的新兴市场外汇牌价趋势预测。具体实施时,可以包括以下内容。
步骤S601:通过因子管理装置1导入因子数据,在格式化和组装后保存在因子管理装置1中。
步骤S602:因子导入后进入因子筛选阶段。因子筛选阶段是提高模型执行效率和模型有效性的必备阶段。通过因子筛选阶段,将耦合度(或者相关性)高的无效因子剔除,将不同因子进行排列组合,为滚动模型构建提供不同的因子组合。
步骤S603:因子筛选阶段后进入模型构建阶段,模型构建阶段创新机器学习模型对象,加载S102因子构建阶段的因子组合并交由S104步骤的并行计算阶段执行。
步骤S604:该步骤主要用于分配模型在实际节点的运行,通过同步转异步的任务调度和运行方式提高模型构建效率。并将模型运行结果保存。只要S102阶段生成的因子组合没有执行完成,S103和S104阶段将一直重复执行。
步骤S605:该步骤为模型发布阶段,直到所有因子组合运行完成后,该步骤会选择预测结果最好的因子组合构建趋势预测模型,并通过因子管理装置1导入所需的因子,预测新兴市场外汇牌价的未来走势,并将预测结果发送给外部投资系统。
通过上述场景示例,验证了本申请实施例提供的业务数据处理方法和装置充分利用了滚动算法、网格算法、并行计算,优化了新兴市场外汇趋势预测模型,提高了机器学习模型稳定性、准确性和构建的效率,使得外汇新兴市场领域的投资趋势预测变得可能。基于上述方法和装置,可以建立一套稳定、高准确率的新兴市场领域的外汇牌价趋势预测模型;降低了业务人员在新兴市场领域外汇牌价趋势预测的工作成本;提供了一种具有可解释性的新兴市场领域外汇牌价预测策略,可以作为理财投资产品的一部分销售;为新兴市场领域的外汇交易建立了一整套标准的趋势预测工作流程。在不同新兴市场国家间可以低成本,切换实现不同币种对的趋势预测;提供了更为准确、高效的策略分析能力,采用机器学习、滚动算法,提供更准确、高效的历史数据分析,从而提升策略趋势预测以及市场行情判断的能力。
尽管本申请内容中提到不同的具体实施例,但是,本申请并不局限于必须是行业标准或实施例所描述的情况等,某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例,仍然可以属于本申请的可选实施方案范围之内。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的实施方式包括这些变形和变化而不脱离本申请。
Claims (11)
1.一种业务数据处理方法,其特征在于,包括:
获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;
从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;
通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;
根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
2.根据权利要求1所述的方法,其特征在于,所述通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据,包括:
根据所述历史业务数据,确定所述多种因子数据中的各种因子数据分别与所述目标数据的变化趋势;
筛选出变化趋势的相似度大于预设的相似度阈值的多种因子数据作为待定因子数据组;
根据所述历史业务数据,分别确定所述待定因子数据组中的因子数据对目标数据的贡献度;
根据所述贡献度,保留所述待定因子数据组中贡献度最大的因子数据作为目标因子数据。
3.根据权利要求1所述的方法,其特征在于,所述通过网格算法根据所述多种目标因子数据,构建多个因子数据组合,包括:
获取并根据参考区域的业务数据,确定适用的因子数据组合中所包含的因子数据的数量;
根据所述适用的因子数据组合中所包含的因子数据的数量,通过网格算法,从多种目标因子数据中抽取相应数量的因子数据,以构建多个因子数据组合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型,包括:
确定多种匹配的算法模型;
根据所述多种匹配的算法模型和所述多个因子数据组合,构建多个初始模型;
根据历史业务数据,对所述多个初始模型进行滚动训练,以建立多个预测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据历史业务数据,对所述多个初始模型进行滚动训练,包括:
按照以下方式对所述多个初始模型中的当前初始模型进行滚动训练:
从所述历史业务数据中提取出与当前初始模型所使用的因子数据组合对应的因子数据作为模型训练数据;
按照预设的时间间隔,将所述模型训练数据分成多个时间段的训练数据;
根据预设的训练规则,利用所述多个时间段的训练数据,对所述当前初始模型进行多轮次的滚动训练,以得到对应的预测模型。
6.根据权利要求4所述的方法,其特征在于,所述根据历史业务数据,对所述多个初始模型进行滚动训练,还包括:
根据预设的分配规则,将所述多个初始模型分配给分布式系统中的多个节点服务器;
控制所述多个节点服务器根据所述历史业务数据并行对所分配的初始模型进行滚动训练。
7.根据权利要求1所述的方法,其特征在于,在通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型后,所述方法还包括:
根据所述目标模型,确定出目标模型所使用的因子数据组合作为目标因子数据组合;
获取目标区域的待处理的业务数据,并从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据;
调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
8.根据权利要求1所述的方法,其特征在于,在外汇交易的业务场景中,所述目标数据包括目标区域的外汇牌价,所述历史业务数据包括目标区域的历史经济数据。
9.一种业务数据处理方法,其特征在于,包括:
获取目标区域的待处理的业务数据,以及目标模型,其中,所述目标模型包括预先通过滚动训练建立得到的用于进行关于目标区域的目标数据的数据处理的预测模型;
根据所述目标模型,确定出目标模型所采用的因子数据组合,作为目标因子数据组合;
从所述目标区域的待处理的业务数据中提取得到与所述目标因子数据组合对应的因子数据,作为输入数据;
调用所述目标模型根据所述输入数据进行数据处理,以确定出目标区域的目标数据的预测结果。
10.一种业务数据处理装置,其特征在于,包括:
获取模块,用于获取目标区域的历史业务数据,其中,所述历史业务数据包括目标区域在预设的历史时间段的多种因子数据和目标数据;
第一处理模块,用于从所述历史业务数据中提取出多种因子数据,并通过相关性分析,从所述多种因子数据中筛选出多种目标因子数据;
第二处理模块,用于通过网格算法根据所述多种目标因子数据,构建多个因子数据组合;
训练模块,用于根据所述多个因子数据组合和所述历史业务数据,通过滚动训练,建立多个预测模型;
确定模块,用于通过模型测评,从所述多个预测模型中确定出预测效果符合预设要求的预测模型作为目标模型,其中,所述目标模型用于进行关于目标区域的目标数据的数据处理。
11.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010563930.3A CN111738852B (zh) | 2020-06-19 | 2020-06-19 | 业务数据处理方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010563930.3A CN111738852B (zh) | 2020-06-19 | 2020-06-19 | 业务数据处理方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738852A true CN111738852A (zh) | 2020-10-02 |
CN111738852B CN111738852B (zh) | 2023-10-20 |
Family
ID=72650156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010563930.3A Active CN111738852B (zh) | 2020-06-19 | 2020-06-19 | 业务数据处理方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738852B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395329A (zh) * | 2020-11-17 | 2021-02-23 | 平安普惠企业管理有限公司 | 业务数据的处理方法、装置、设备及存储介质 |
CN112667679A (zh) * | 2020-12-17 | 2021-04-16 | 中国工商银行股份有限公司 | 数据关系的确定方法、装置和服务器 |
CN112669985A (zh) * | 2020-12-30 | 2021-04-16 | 华南师范大学 | 基于多源大数据深度学习的传染病协同预测方法和机器人 |
CN113359573A (zh) * | 2021-06-30 | 2021-09-07 | 华能澜沧江水电股份有限公司 | 一种大坝安全智能预测方法及其装置 |
CN114202123A (zh) * | 2021-12-14 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 业务数据预测方法、装置、电子设备及存储介质 |
CN114331063A (zh) * | 2021-12-17 | 2022-04-12 | 江苏中智系统集成工程有限公司 | 应用于智慧水务的大数据可视化处理方法及系统 |
CN116029578A (zh) * | 2022-08-17 | 2023-04-28 | 深圳市沃享科技有限公司 | 服务对象业务水平检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034502A (zh) * | 2018-09-04 | 2018-12-18 | 中国光大银行股份有限公司信用卡中心 | 反欺诈预测方法及装置 |
CN110033312A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 房价预测模型的生成方法、装置、设备及存储介质 |
CN110322347A (zh) * | 2019-04-25 | 2019-10-11 | 北京科技大学 | 一种长短期策略多因子量化投资方法及装置 |
-
2020
- 2020-06-19 CN CN202010563930.3A patent/CN111738852B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034502A (zh) * | 2018-09-04 | 2018-12-18 | 中国光大银行股份有限公司信用卡中心 | 反欺诈预测方法及装置 |
CN110033312A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 房价预测模型的生成方法、装置、设备及存储介质 |
CN110322347A (zh) * | 2019-04-25 | 2019-10-11 | 北京科技大学 | 一种长短期策略多因子量化投资方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395329A (zh) * | 2020-11-17 | 2021-02-23 | 平安普惠企业管理有限公司 | 业务数据的处理方法、装置、设备及存储介质 |
CN112667679A (zh) * | 2020-12-17 | 2021-04-16 | 中国工商银行股份有限公司 | 数据关系的确定方法、装置和服务器 |
CN112667679B (zh) * | 2020-12-17 | 2024-02-13 | 中国工商银行股份有限公司 | 数据关系的确定方法、装置和服务器 |
CN112669985A (zh) * | 2020-12-30 | 2021-04-16 | 华南师范大学 | 基于多源大数据深度学习的传染病协同预测方法和机器人 |
CN112669985B (zh) * | 2020-12-30 | 2023-08-04 | 华南师范大学 | 基于多源大数据深度学习的传染病协同预测方法和机器人 |
CN113359573A (zh) * | 2021-06-30 | 2021-09-07 | 华能澜沧江水电股份有限公司 | 一种大坝安全智能预测方法及其装置 |
CN114202123A (zh) * | 2021-12-14 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 业务数据预测方法、装置、电子设备及存储介质 |
CN114331063A (zh) * | 2021-12-17 | 2022-04-12 | 江苏中智系统集成工程有限公司 | 应用于智慧水务的大数据可视化处理方法及系统 |
CN116029578A (zh) * | 2022-08-17 | 2023-04-28 | 深圳市沃享科技有限公司 | 服务对象业务水平检测方法、装置、电子设备及存储介质 |
CN116029578B (zh) * | 2022-08-17 | 2023-10-10 | 深圳市沃享科技有限公司 | 服务对象业务水平检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111738852B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738852B (zh) | 业务数据处理方法、装置和服务器 | |
CN110222880B (zh) | 业务风险的确定方法、模型训练方法和数据处理方法 | |
CN107578332A (zh) | 一种推荐现金商品的方法、装置、设备及存储介质 | |
CN111737125B (zh) | 量化交易的行情数据的生成方法、装置和服务器 | |
CN109118012B (zh) | 一种工业动态多维度能耗成本预测方法、系统、存储介质和终端 | |
US20140258175A1 (en) | Generating Personalized Investment Recommendations | |
CN107832291A (zh) | 人机协作的客服方法、电子装置及存储介质 | |
CN111695938B (zh) | 产品推送方法及系统 | |
CN112801775A (zh) | 客户信用评价方法及装置 | |
CN112732786A (zh) | 金融数据处理方法、装置、设备及存储介质 | |
Hwang et al. | On multiple‐class prediction of issuer credit ratings | |
CN112862013A (zh) | 一种量化交易策略的问题诊断方法及装置 | |
CN113158124A (zh) | 基于人工智能的数据处理方法、装置及存储介质 | |
CN116170330A (zh) | 业务套餐的推荐方法、装置及电子设备 | |
CN111724176A (zh) | 店铺流量调节方法、装置、设备及计算机可读存储介质 | |
CN114742657A (zh) | 一种投资目标规划方法和系统 | |
US20200202444A1 (en) | Servicing a plurality of rived longevity-contingent instruments | |
KR102153834B1 (ko) | 확정치 및 추정치 기반의 데이터 정량화 방법 | |
Niknya et al. | Financial distress prediction of Tehran Stock Exchange companies using support vector machine | |
US20200090280A1 (en) | Servicing a plurality of longevity-contingent assets with shared liabilities | |
CN113421014A (zh) | 一种目标企业确定方法、装置、设备和存储介质 | |
CN111709623A (zh) | 高性能计算环境评价方法、装置、电子设备及存储介质 | |
US20200184551A1 (en) | Servicing a plurality of rived longevity-contingent assets | |
US20210241375A1 (en) | Asset utilization optimization communication system and components thereof | |
US20200242698A1 (en) | Servicing a plurality of rived longevity-contingent instruments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |