CN117648552B - 一种基于云计算的量化数据处理方法 - Google Patents

一种基于云计算的量化数据处理方法 Download PDF

Info

Publication number
CN117648552B
CN117648552B CN202311750776.0A CN202311750776A CN117648552B CN 117648552 B CN117648552 B CN 117648552B CN 202311750776 A CN202311750776 A CN 202311750776A CN 117648552 B CN117648552 B CN 117648552B
Authority
CN
China
Prior art keywords
model parameter
parameter vector
search
model
quantitative data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311750776.0A
Other languages
English (en)
Other versions
CN117648552A (zh
Inventor
陈家馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Century Frontier Quantitative Technology Co ltd
Original Assignee
Shenzhen Century Frontier Quantitative Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Century Frontier Quantitative Technology Co ltd filed Critical Shenzhen Century Frontier Quantitative Technology Co ltd
Priority to CN202311750776.0A priority Critical patent/CN117648552B/zh
Publication of CN117648552A publication Critical patent/CN117648552A/zh
Application granted granted Critical
Publication of CN117648552B publication Critical patent/CN117648552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于云计算的量化数据处理方法,属于云计算以及量化数据处理技术领域,通过采用深度学习算法以及采用多层次搜索算法对量化数据分析模型进行参数优化,从而实现对历史数据的学习,形成可以处理量化数据的规则,再通过该规则对量化数据进行处理,从而实现量化数据的自动化处理,不仅能够有效地提高量化数据的分析效率,还能够消除人为分析带来的误差。

Description

一种基于云计算的量化数据处理方法
技术领域
本发明属于云计算以及量化数据处理技术领域,具体涉及一种基于云计算的量化数据处理方法。
背景技术
量化数据一般是指用数值表示的数据,在各行各业中都存在量化数据。通常,为了提升企业生产的效率,常常会由专门的职能部门对量化数据进行分析(例如,对生产过程中设备运行参数进行采集,以分析生产是否异常;又例如,对海量交易数据进行分类,从而可以使工作人员根据分类类别能够快速进行决策以及策略优化),从而实现数据分类或者产生决策建议,以辅助领导进行生产调度决策,或者实现生产参数优化。
但是,采用职能部门对量化数据进行分析,不仅仅存在效率低下的问题,还会因为人员的差异,导致最终的数据分类、分析结果不同。
发明内容
本发明提供一种基于云计算的量化数据处理方法,用以解决现有技术中存在的问题。
一种基于云计算的量化数据处理方法,包括:
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中;
在云服务器中构建量化数据分析模型,并采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上;
调度云服务器上部署的量化数据分析模型对预处理之后的量化数据进行分析处理,得到基于云计算的量化数据处理结果。
进一步地,通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中,包括:
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行缺失值处理、异常值处理以及归一化处理,得到初始处理之后的量化数据;
将初始化之后的量化数据统一存储为预设数据结构,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中。
进一步地,在云服务器中构建量化数据分析模型,包括:构建深度学习模型,并将构建的深度学习模型作为量化数据分析模型。
进一步地,采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上,包括:
初始化量化数据分析模型的模型参数,得到模型参数向量,并重复获取多个模型参数向量,得到种群;
获取历史数据以及历史数据对应的标签数据,并采用历史数据以及历史数据对应的标签数据,获取每个模型参数向量对应的适应度值;
针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量;
针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量;
针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量;
针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量;
根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群;
针对新种群,获取每个模型参数向量对应的适应度值,并根据每个模型参数向量对应的适应度值获取最优模型参数向量;
判断是否满足算法终止条件,若是,则输出最优模型参数向量,否则返回局部搜索的步骤;
将输出的最优模型参数向量作为量化数据分析模型的最终模型参数,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上。
进一步地,针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量,包括:
针对每个模型参数向量,生成一个随机向量为:(Δxi,1,Δxi,2,....,Δxi,d,...,Δxi,D),其中,Δxi,d表示第i个模型参数向量中第d维参数对应的随机参数,i=1,2,…,L,L表示模型参数向量的总数,d=1,2,…,D,D表示模型参数向量中参数总维度,且Δxi,d按各0.5的概率随机为αt或者-αt,αt表示第t次优化过程中的自适应步长;
获取第i个模型参数向量的伪梯度为:
其中,表示第i个模型参数向量中第d维参数对应的为梯度,f(*)表示适应度函数,表示第t次优化过程中的第i个模型参数向量,表示随机向量;
根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1,并根据自适应步长αt+1以及第i个模型参数向量的伪梯度对第i个模型参数向量进行局部搜索为:
其中,表示第t次优化过程中的第i个模型参数向量中第d维参数,表示对应的局部搜索值;
判断局部搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该局部搜索,得到局部搜索之后的模型参数向量,否则直接将原有的模型参数向量作为局部搜索之后的模型参数向量。
进一步地,根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1为:
其中,α0表示初始步长,π表示圆周率,T表示最大优化次数。
进一步地,针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量,包括:
以当前优化次数t为基础,获取变动视野为:
其中,βt表示第t次优化过程中的变动视野,βt+1表示第t+1次优化过程中的变动视野,且变动视野初始值为β0,e表示自然常数;
根据变动视野βt+1,获取平衡搜索范围为:
其中,lbi,d表示第i个模型参数向量中第d维参数的平衡搜索下界,ubi,d表示第i个模型参数向量中第d维参数的平衡搜索上界,表示局部搜索之后的第i个模型参数向量中第d维参数;
根据平衡搜索范围,对局部搜索之后的模型参数向量进行平衡搜索为:
其中,rand(0,1)表示(0,1)之间的随机数,表示平衡搜索之后的
判断平衡搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该平衡搜索,得到平衡搜索之后的模型参数向量,否则直接将局部搜索之后的模型参数向量作为平衡搜索之后的模型参数向量。
进一步地,针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量,包括:
根据所有平衡搜索之后的模型参数向量,获取种群的平均位置为 中每一维参数为其他所有模型参数向量在同维参数的平均值;
根据种群的平均位置对平衡搜索之后的模型参数向量进行全局搜索为:
其中,表示全局搜索之后的模型参数向量,rand(xmin,xmax)表示(xmin,xmax)之间的随机数,xmin表示全局搜索区间下限,xmax表示全局搜索区间上限,表示平均位置中第d维参数;
判断全局搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该全局搜索,得到全局搜索之后的模型参数向量,否则直接将平衡搜索之后的模型参数向量作为全局搜索之后的模型参数向量。
进一步地,针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量为:
其中,γi表示第i个全局搜索之后的模型参数向量对应的个体扩展数量,ξ(*)表示取整函数,fi表示第i个全局搜索之后的模型参数向量对应的适应度值,fmax表示全局搜索之后的模型参数向量对应的最大适应度值,fmin表示全局搜索之后的模型参数向量对应的最小适应度值,Smax表示预设的最大扩展整数,Smin表示预设的最小扩展整数。
进一步地,根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群,包括:
针对每个全局搜索之后的模型参数向量,以正态分布在模型参数向量周围产生与个体扩展数量相等的多个新模型参数向量;
其中,σt表示标准差,且σt=((T-t)h/(Th))*(σcz)+σz,h表示非线性调和指数,σc表示标准差起始值,σz表示标准差终止值;
将新模型参数向量与全局搜索之后的模型参数向量进行融合,得到融合种群,并保留融合种群中适应度值最大的L个模型参数向量,得到新种群。
本发明提供的一种基于云计算的量化数据处理方法,通过采用深度学习算法以及采用多层次搜索算法对量化数据分析模型进行参数优化,从而实现对历史数据的学习,形成可以处理量化数据的规则,再通过该规则对量化数据进行处理,从而实现量化数据的自动化处理,不仅能够有效地提高量化数据的分析效率,还能够消除人为分析带来的误差。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的一种基于云计算的量化数据处理方法的流程图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于云计算的量化数据处理方法,包括:
S1、通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中。
量化数据可以为数字数据(如交易数据、设备运行数据等),也可以为图像数据等等。目标数据源用于表征待分析的数据源,通过固定的采样频率,可以对某个时间段内的数据进行采集,并自动化的分析出对应的分类结果。例如:对图像数据进行分析,可以实现零件分类、产品表面缺陷识别(如玻璃、车漆面的缺陷识别)等等分类结果;或者,对某条生产线的设备运行参数进行分析,从而可以实现设备是否正常运行的分类;又或者,对交易数据进行分析,从而获取不同的预设决策分析,基于云计算的量化交易数据处理能大幅提高数据处理速度和分析效率,使投资者能够在关键时刻更快地做出交易决策。
S2、在云服务器中构建量化数据分析模型,并采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上。
云计算具有强大的计算性能,通过在云服务器中构建量化数据分析模型,能够快速地对量化数据进行分析,从而提高数据分析处理效率。虽然云计算具有强大的计算性能,但是在部署量化数据分析模型的过程中,需要耗费大量的资源进行模型优化,且优化效果不佳的话,会导致后续计算机资源以及算力的浪费,因此,本发明实施例提出了多层次搜索算法,能够有效地提升优化速度以及优化效果,从而有效地节约了计算机资源。
S3、调度云服务器上部署的量化数据分析模型对预处理之后的量化数据进行分析处理,得到基于云计算的量化数据处理结果。
优化之后的量化数据分析模型具备对量化数据处理分析的能力,因此可以调度优化之后的量化数据分析模型进行数据自动处理,从而提高数据处理效率。
可选的,为了提高识别准确率(如图像分类准确率),还可以根据数据对量化数据分析模型的参数进行更新,从而进一步地优化模型。
本发明提供的一种基于云计算的量化数据处理方法,通过采用深度学习算法以及采用多层次搜索算法对量化数据分析模型进行参数优化,从而实现对历史数据的学习,形成可以处理量化数据的规则,再通过该规则对量化数据进行处理,从而实现量化数据的自动化处理,不仅能够有效地提高量化数据的分析效率,还能够消除人为分析带来的误差。
在本实施例中,通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中,包括:
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行缺失值处理、异常值处理以及归一化处理,得到初始处理之后的量化数据;
将初始化之后的量化数据统一存储为预设数据结构,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中。
对量化数据进行归一化处理,保证了数据的识别速率,从而节约了计算机处理资源。值得说明的是,不论是用于优化量化数据分析模型的量化数据,都应当处理为统一数据长度以及统一数据结构,从而保证量化数据分析模型能够正常识别量化数据。例如:对图像数据进行分类时,需要处理为统一尺寸。
在本实施例中,在云服务器中构建量化数据分析模型,包括:构建深度学习模型,并将构建的深度学习模型作为量化数据分析模型。
可选的,当量化数据为数值数据时,可以将量化数据组成向量,并采用BP(BackPropagation,反向传播)神经网络、BRF(Radial Basis Function,径向基函数)神经网络等等深度学习模型作为量化数据分析模型,从而实现对向量数据的识别。也可以将量化数据按照固定格式组装为矩阵数据,采用卷积神经网络作为量化数据分析模型,从而实现对向量数据的识别。值得说明的是,当量化数据为图像时,相当于限定了数据输入形式,需要采用能够识别图像数据的深度学习模型构建量化数据分析模型。
在本实施例中,采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上,包括:
初始化量化数据分析模型的模型参数,得到模型参数向量,并重复获取多个模型参数向量,得到种群。
例如,在量化数据分析模型的模型参数上限与模型参数下限之间,随机生成模型参数,从而可以得到模型参数向量。
获取历史数据以及历史数据对应的标签数据,并采用历史数据以及历史数据对应的标签数据,获取每个模型参数向量对应的适应度值。
将历史数据作为输入,将历史数据对应的标签数据作为期望输出,可以获取量化数据分析模型的误差函数值,从而可以将误差函数值的负数作为适应度值。按照此方法,逐一或者并行获取每个模型参数向量对应的适应度值即可。
针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量。
针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量。
针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量。
针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量。
根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群。
针对新种群,获取每个模型参数向量对应的适应度值,并根据每个模型参数向量对应的适应度值获取最优模型参数向量。
判断是否满足算法终止条件,若是,则输出最优模型参数向量,否则返回局部搜索的步骤。
可选的,判断是否满足算法终止条件可以包括:判断当前优化次数是否大于最大优化次数,若是,则满足算法终止条件,否则不满足算法终止条件。
将输出的最优模型参数向量作为量化数据分析模型的最终模型参数,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上。
在现有技术中,常常采用梯度下降法、粒子群算法等算法对深度学习模型进行训练,不仅仅训练速度慢,还存在训练效果差的问题,从而导致计算机资源大量浪费。因此,本发明实施例提出了多层次搜索算法对量化数据分析模型进行参数优化,以解决现有技术中存在的问题,提升量化数据的分类能力。
在本实施例中,针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量,包括:
针对每个模型参数向量,生成一个随机向量为:(Δxi,1,Δxi,2,....,Δxi,d,...,Δxi,D),其中,Δxi,d表示第i个模型参数向量中第d维参数对应的随机参数,i=1,2,…,L,L表示模型参数向量的总数,d=1,2,…,D,D表示模型参数向量中参数总维度,且Δxi,d按各0.5的概率随机为αt或者-αt,αt表示第t次优化过程中的自适应步长;
获取第i个模型参数向量的伪梯度为:
其中,表示第i个模型参数向量中第d维参数对应的为梯度,f(*)表示适应度函数,表示第t次优化过程中的第i个模型参数向量,表示随机向量;
根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1,并根据自适应步长αt+1以及第i个模型参数向量的伪梯度对第i个模型参数向量进行局部搜索为:
其中,表示第t次优化过程中的第i个模型参数向量中第d维参数,表示对应的局部搜索值;
通过自适应步长进行搜索,不仅能够不断改变搜索方向,还能够不断改变搜索步长,从而实现局部范围内的精细搜索,更有助于寻找到最优值。
判断局部搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该局部搜索,得到局部搜索之后的模型参数向量,否则直接将原有的模型参数向量作为局部搜索之后的模型参数向量。
局部搜索往往不影响算法的全局性,因此本发明实施例引入贪心算法对局部搜索进行贪心选择,从而提升算法的收敛速度。
在本实施例中,根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1为:
其中,α0表示初始步长,π表示圆周率,T表示最大优化次数。
在本实施例中,针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量,包括:
以当前优化次数t为基础,获取变动视野为:
其中,βt表示第t次优化过程中的变动视野,βt+1表示第t+1次优化过程中的变动视野,且变动视野初始值为β0,e表示自然常数;
根据变动视野βt+1,获取平衡搜索范围为:
其中,lbi,d表示第i个模型参数向量中第d维参数的平衡搜索下界,ubi,d表示第i个模型参数向量中第d维参数的平衡搜索上界,表示局部搜索之后的第i个模型参数向量中第d维参数;
根据平衡搜索范围,对局部搜索之后的模型参数向量进行平衡搜索为:
其中,rand(0,1)表示(0,1)之间的随机数,表示平衡搜索之后的
判断平衡搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该平衡搜索,得到平衡搜索之后的模型参数向量,否则直接将局部搜索之后的模型参数向量作为平衡搜索之后的模型参数向量。
通过设置变动视野βt+1进行平衡搜索,可以在算法前期拥有一个比较大的搜索范围,从而提升算法的全局搜索能力,随着算法的进行。变动视野βt+1逐渐缩小,从而逐渐缩小搜索范围,从而使算法拥有局部精细搜索的能力。并且平衡搜索的随机性更强,能够进一步实现局部区域的全面探索。
在本实施例中,针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量,包括:
根据所有平衡搜索之后的模型参数向量,获取种群的平均位置为 中每一维参数为其他所有模型参数向量在同维参数的平均值;
根据种群的平均位置对平衡搜索之后的模型参数向量进行全局搜索为:
其中,表示全局搜索之后的模型参数向量,rand(xmin,xmax)表示(xmin,xmax)之间的随机数,xmin表示全局搜索区间下限,xmax表示全局搜索区间上限,表示平均位置中第d维参数;
判断全局搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该全局搜索,得到全局搜索之后的模型参数向量,否则直接将平衡搜索之后的模型参数向量作为全局搜索之后的模型参数向量。
虽然平衡搜索具备一定的全局搜索作用,但是随着算法地进行衰减,因此本发明实施例引入全局搜索,能够使算法始终具备全局搜索能力,从而提升收敛效果。
可选的,在全局搜索时,当全局搜索之后的第i个模型参数向量对应的适应度未增大时,也可以以预设的概率接收全局搜索,从而避免算法停滞。
在本实施例中,针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量为:
其中,γi表示第i个全局搜索之后的模型参数向量对应的个体扩展数量,ξ(*)表示取整函数,fi表示第i个全局搜索之后的模型参数向量对应的适应度值,fmax表示全局搜索之后的模型参数向量对应的最大适应度值,fmin表示全局搜索之后的模型参数向量对应的最小适应度值,Smax表示预设的最大扩展整数,Smin表示预设的最小扩展整数。
由于高维数学问题难以求解,因此本发明实施例提出了一种种群扩展策略,通过在模型参数向量附近的固定区域内生成多个均匀分布的新个体,并采用优胜劣汰的方法进行抉择,能够有效地提升收敛速度以及局部搜索精度。
在本实施例中,根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群,包括:
针对每个全局搜索之后的模型参数向量,以正态分布在模型参数向量周围产生与个体扩展数量相等的多个新模型参数向量;
其中,σt表示标准差,且σt=((T-t)h/(Th))*(σcz)+σz,h表示非线性调和指数,σc表示标准差起始值,σz表示标准差终止值;
将新模型参数向量与全局搜索之后的模型参数向量进行融合,得到融合种群,并保留融合种群中适应度值最大的L个模型参数向量,得到新种群。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中,该程序在执行时,包括如下步骤:此时引出相应的方法步骤,所述的存储介质可以是ROM/RAM、磁碟、光盘等等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于云计算的量化数据处理方法,其特征在于,包括:
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中;
在云服务器中构建量化数据分析模型,并采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上;
调度云服务器上部署的量化数据分析模型对预处理之后的量化数据进行分析处理,得到基于云计算的量化数据处理结果;
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行预处理,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中,包括:
通过网络爬虫爬取目标数据源中的量化数据,对爬取的量化数据进行缺失值处理、异常值处理以及归一化处理,得到初始处理之后的量化数据;
将初始化之后的量化数据统一存储为预设数据结构,得到预处理之后的量化数据,并将预处理之后的量化数据存储于云服务器中;
在云服务器中构建量化数据分析模型,包括:构建深度学习模型,并将构建的深度学习模型作为量化数据分析模型;
采用多层次搜索算法对量化数据分析模型进行参数优化,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上,包括:
初始化量化数据分析模型的模型参数,得到模型参数向量,并重复获取多个模型参数向量,得到种群;
获取历史数据以及历史数据对应的标签数据,并采用历史数据以及历史数据对应的标签数据,获取每个模型参数向量对应的适应度值;
针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量;
针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量;
针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量;
针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量;
根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群;
针对新种群,获取每个模型参数向量对应的适应度值,并根据每个模型参数向量对应的适应度值获取最优模型参数向量;
判断是否满足算法终止条件,若是,则输出最优模型参数向量,否则返回局部搜索的步骤;
将输出的最优模型参数向量作为量化数据分析模型的最终模型参数,得到优化之后的量化数据分析模型,并将优化之后的量化数据分析模型部署于云服务器上。
2.根据权利要求1所述的基于云计算的量化数据处理方法,其特征在于,针对每个模型参数向量,采用固定视野以及自适应步长的局部搜索方法对模型参数向量进行局部搜索,并根据模型参数向量对应的适应度值对局部搜索过程进行控制,获取局部搜索之后的模型参数向量,包括:
针对每个模型参数向量,生成一个随机向量为:(Δxi,1,Δxi,2,....,Δxi,d,...,Δxi,D),其中,Δxi,d表示第i个模型参数向量中第d维参数对应的随机参数,i=1,2,…,L,L表示模型参数向量的总数,d=1,2,…,D,D表示模型参数向量中参数总维度,且Δxi,d按各0.5的概率随机为αt或者-αt,αt表示第t次优化过程中的自适应步长;
获取第i个模型参数向量的伪梯度为:
其中,表示第i个模型参数向量中第d维参数对应的为梯度,f(*)表示适应度函数,表示第t次优化过程中的第i个模型参数向量,表示随机向量;
根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1,并根据自适应步长αt+1以及第i个模型参数向量的伪梯度对第i个模型参数向量进行局部搜索为:
其中,表示第t次优化过程中的第i个模型参数向量中第d维参数,表示对应的局部搜索值;
判断局部搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该局部搜索,得到局部搜索之后的模型参数向量,否则直接将原有的模型参数向量作为局部搜索之后的模型参数向量。
3.根据权利要求2所述的基于云计算的量化数据处理方法,其特征在于,根据预设固定视野β0获取第t+1次优化过程中的自适应步长αt+1为:
其中,α0表示初始步长,π表示圆周率,T表示最大优化次数。
4.根据权利要求3所述的基于云计算的量化数据处理方法,其特征在于,针对局部搜索之后的模型参数向量,采用变动视野的全局平衡搜索方法对模型参数向量进行平衡搜索,并根据模型参数向量对应的适应度值对平衡搜索过程进行控制,获取平衡搜索之后的模型参数向量,包括:
以当前优化次数t为基础,获取变动视野为:
其中,βt表示第t次优化过程中的变动视野,βt+1表示第t+1次优化过程中的变动视野,且变动视野初始值为β0,e表示自然常数;
根据变动视野βt+1,获取平衡搜索范围为:
其中,lbi,d表示第i个模型参数向量中第d维参数的平衡搜索下界,ubi,d表示第i个模型参数向量中第d维参数的平衡搜索上界,表示局部搜索之后的第i个模型参数向量中第d维参数;
根据平衡搜索范围,对局部搜索之后的模型参数向量进行平衡搜索为:
其中,rand(0,1)表示(0,1)之间的随机数,表示平衡搜索之后的
判断平衡搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该平衡搜索,得到平衡搜索之后的模型参数向量,否则直接将局部搜索之后的模型参数向量作为平衡搜索之后的模型参数向量。
5.根据权利要求4所述的基于云计算的量化数据处理方法,其特征在于,针对平衡搜索之后的模型参数向量,采用种群信息融合的全局搜索方法对模型参数向量进行全局搜索,并根据模型参数向量对应的适应度值对全局搜索过程进行控制,获取全局搜索之后的模型参数向量,包括:
根据所有平衡搜索之后的模型参数向量,获取种群的平均位置为 中每一维参数为其他所有模型参数向量在同维参数的平均值;
根据种群的平均位置对平衡搜索之后的模型参数向量进行全局搜索为:
其中,表示全局搜索之后的模型参数向量,rand(xmin,xmax)表示(xmin,xmax)之间的随机数,xmin表示全局搜索区间下限,xmax表示全局搜索区间上限,表示平均位置中第d维参数;
判断全局搜索之后的第i个模型参数向量对应的适应度是否增大,若是,则接受该全局搜索,得到全局搜索之后的模型参数向量,否则直接将平衡搜索之后的模型参数向量作为全局搜索之后的模型参数向量。
6.根据权利要求5所述的基于云计算的量化数据处理方法,其特征在于,针对全局搜索之后的模型参数向量,重新获取模型参数向量的适应度值,并根据适应度值获取个体扩展数量为:
其中,γi表示第i个全局搜索之后的模型参数向量对应的个体扩展数量,ξ(*)表示取整函数,fi表示第i个全局搜索之后的模型参数向量对应的适应度值,fmax表示全局搜索之后的模型参数向量对应的最大适应度值,fmin表示全局搜索之后的模型参数向量对应的最小适应度值,Smax表示预设的最大扩展整数,Smin表示预设的最小扩展整数。
7.根据权利要求6所述的基于云计算的量化数据处理方法,其特征在于,根据个体扩展数量,采用正态分布方法产生多个新模型参数向量,并将新模型参数向量与全局搜索之后的模型参数向量进行融合,再采用优胜劣汰的方法抉择出新种群,包括:
针对每个全局搜索之后的模型参数向量,以正态分布在模型参数向量周围产生与个体扩展数量相等的多个新模型参数向量;
其中,σt表示标准差,且σt=((T-t)h/(Th))*(σcz)+σz,h表示非线性调和指数,σc表示标准差起始值,σz表示标准差终止值;
将新模型参数向量与全局搜索之后的模型参数向量进行融合,得到融合种群,并保留融合种群中适应度值最大的L个模型参数向量,得到新种群。
CN202311750776.0A 2023-12-18 2023-12-18 一种基于云计算的量化数据处理方法 Active CN117648552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311750776.0A CN117648552B (zh) 2023-12-18 2023-12-18 一种基于云计算的量化数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311750776.0A CN117648552B (zh) 2023-12-18 2023-12-18 一种基于云计算的量化数据处理方法

Publications (2)

Publication Number Publication Date
CN117648552A CN117648552A (zh) 2024-03-05
CN117648552B true CN117648552B (zh) 2025-02-25

Family

ID=90045049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311750776.0A Active CN117648552B (zh) 2023-12-18 2023-12-18 一种基于云计算的量化数据处理方法

Country Status (1)

Country Link
CN (1) CN117648552B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法
CN109614445A (zh) * 2018-04-24 2019-04-12 杨豫森 一种数据宝系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578178B (zh) * 2017-09-11 2018-08-28 合肥工业大学 基于变邻域搜索和引力搜索混合算法的调度方法及系统
CN108520272B (zh) * 2018-03-22 2020-09-04 江南大学 一种改进苍狼算法的半监督入侵检测方法
CN114511021A (zh) * 2022-01-27 2022-05-17 浙江树人学院(浙江树人大学) 基于改进乌鸦搜索算法的极限学习机分类算法
CN116596021A (zh) * 2023-05-11 2023-08-15 国网新疆电力有限公司信息通信公司 基于改进的麻雀搜索算法的模型参数优化方法、装置
CN117094446A (zh) * 2023-09-05 2023-11-21 阿牧网云(北京)科技有限公司 基于深度学习的奶牛产奶量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法
CN109614445A (zh) * 2018-04-24 2019-04-12 杨豫森 一种数据宝系统及方法

Also Published As

Publication number Publication date
CN117648552A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
US20240303494A1 (en) Method for few-shot unsupervised image-to-image translation
WO2021136365A1 (zh) 基于机器学习模型的应用开发方法、装置及电子设备
CN116976640B (zh) 自动化业务生成方法、装置、计算机设备及存储介质
CN109902192B (zh) 基于无监督深度回归的遥感图像检索方法、系统、设备及介质
CN111476285A (zh) 一种图像分类模型的训练方法及图像分类方法、存储介质
Barman et al. Transfer learning for small dataset
US20190228297A1 (en) Artificial Intelligence Modelling Engine
Valarmathi et al. Hybrid deep learning algorithms for dog breed identification—a comparative analysis
Ren et al. DeepQSC: A GNN and attention mechanism-based framework for QoS-aware service composition
Hegazy et al. A mapreduce fuzzy techniques of big data classification
CN119227889A (zh) 一种零售行业库存管理与需求预测系统
US11429858B2 (en) Deep learning experiment content generation based on single design
CN117648552B (zh) 一种基于云计算的量化数据处理方法
CN119918582B (zh) 基于多专家模型下的用户任务处理方法、装置、设备以及介质
CN114936598A (zh) 跨域小样本学习方法、学习系统、电子设备及存储介质
CN120069936A (zh) 基于ai大模型的营销数据分析方法及系统
CN116757425B (zh) 基于多维边权图注意力强化学习的工件加工调度的控制方法
CN119227761A (zh) 一种可组织模块化神经架构搜索方法及系统
Parthasarathy Enhanced case-based reasoning with hybrid clustering and evolutionary algorithms for multi-class workload forecasting in autonomic database systems
CN115035325A (zh) 一种半导体制造工业的全视角视觉检测方法及装置
Li et al. Fast distributed stochastic Nesterov gradient descent algorithm for image classification
CN120181093B (zh) 一种社交网络群体分类方法、系统、设备和存储介质
Balaram et al. Enterprise risk forecasting in human resource management in cloud computing using cascaded block visual modelling, artificial hummingbird guided graph attention networks
US12474964B1 (en) Centralized parameter management for automatic execution of parameterized instructions
Хотінь et al. Convolutional neural network for dog breed recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant