CN116701925A - 信息化资源数据处理方法、装置和计算机设备 - Google Patents

信息化资源数据处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN116701925A
CN116701925A CN202310520046.5A CN202310520046A CN116701925A CN 116701925 A CN116701925 A CN 116701925A CN 202310520046 A CN202310520046 A CN 202310520046A CN 116701925 A CN116701925 A CN 116701925A
Authority
CN
China
Prior art keywords
acquisition
data
increment
rule
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310520046.5A
Other languages
English (en)
Inventor
陈俊东
张哲�
吴欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Digital Enterprise Technology Guangdong Co ltd
Original Assignee
China Southern Power Grid Digital Enterprise Technology Guangdong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Digital Enterprise Technology Guangdong Co ltd filed Critical China Southern Power Grid Digital Enterprise Technology Guangdong Co ltd
Priority to CN202310520046.5A priority Critical patent/CN116701925A/zh
Publication of CN116701925A publication Critical patent/CN116701925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种信息化资源数据方法、装置、计算机设备和存储介质,应用于大数据技术领域。所述方法包括:响应于数据采集指令,获取原始采集规则;抽取所述原始采集规则中的原始采集项、并归集,得到采集项集合;将所述采集项集合输入至深度学习模型进行预测,得到预测采集项;根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集。采用本方法能够避免了主观因素对采集规则形成的限制,拓宽了采集指令所涵盖的采集规则的数量,进而涵盖了更大的采集范围,提高了信息数据资源的处理效率。

Description

信息化资源数据处理方法、装置和计算机设备
技术领域
本申请涉及大数据技术领域,特别是涉及一种信息化资源数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在互联网时代,对传统工业社会的信息化建设,是实现工业社会转型的重要方式,信息化建设有利于传统办公方式向新型信息化办公的转变,提升社会的整体效率。
针对数据的采集、分析以及存储过程,传统的技术方案通过设置交互展示界面,提供数据展示和交互功能,并设置中间层数据样式界面用于组织数据,进行数据内容的展示和分析。
然而,面对海量的数据内容,传统的技术方案在处理海量的数据内容时,尤其是在获取目标数据内容的过程中,传统的查询、查找方式,查询时受主观因素的限制,导致信息化资源数据的处理效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种高效的信息化资源数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种信息化资源数据处理方法。所述方法包括:
响应于数据采集指令,获取原始采集规则;
抽取所述原始采集规则中的原始采集项、并归集,得到采集项集合;
将所述采集项集合输入至深度学习模型进行预测,得到预测采集项;
根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集。
在其中一个实施例中,所述深度学习模型的训练过程,包括:
获取历史数据、以及所述历史数据对应的历史采集规则;
提取所述历史采集规则中的历史采集项;
提取所述历史采集项的数据特征;
将所述数据特征输入至待训练的深度学习模型、并对历史采集项进行分类预测,得到历史数据采集类别;
通过所述历史数据与所述历史数据采集类别进行对比校验;
根据校验结果对所述深度学习模型进行模型参数调整,得到所述深度学习模型。
在其中一个实施例中,所述基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集,包括:
获取所述数据采集指令中的数据采集地址;
根据所述数据采集地址确定数据采集的源文件;
根据所述预测采集规则集群中的预测采集项构建正则表达式,通过所述正则表达式对所述源文件中的噪音数据进行过滤;
根据过滤后的源文件数据获取所述资源数据集。
在其中一个实施例中,所述方法还包括:
获取历史数据的数据游动范围,根据所述数据游动范围生成约束条件;
根据所述约束条件对所述预测采集规则集群进行约束,通过约束后的所述预测采集规则集群获取所述资源数据集。
在其中一个实施例中,所述数据游动范围包括数值游动范围以及增量游动范围;
所述获取历史数据的数据游动范围,包括:
获取随机游动模型,设置所述随机游动模型的随机冲击值;
将所述历史数据输入至所述随机游动模型,与所述随机冲击值进行求和,得到数值游动范围;
根据预设周期获取所述历史数据对应的数值增量;
将所述数值增量输入至所述随机游动模型,与所述随机冲击值进行求和,得到增量游动范围。
在其中一个实施例中,所述数值增量包括百分比增量以及连续复合增量;
所述根据预设周期获取所述历史数据对应的数值增量,通过随机游动模型将所述数值增量与随机冲击值进行求和,得到增量游动范围,包括:
所述根据预设周期获取所述历史数据对应的数值增量包括:
根据预设周期获取所述历史数据;
提取所述历史数据中产生数值增量后的历史数据和产生数值增量前的历史数据;
将产生数值增量后的历史数据与产生数值增量前的历史数据作商得到所述百分比增量;
对所述百分比增量进行对数运算,得到所述连续复合增量;
所述将所述数值增量输入至所述随机游动模型,与所述随机冲击值进行求和,得到增量游动范围,包括:
将所述百分比增量以及所述连续复合增量输入至所述随机游动模型;
通过随机游动模型将所述百分比增量以及连续复合增量之间的最大值与随机冲击值求和,得到增量游动范围。
第二方面,本申请还提供了一种信息化资源数据处理装置。所述装置包括:
规则获取模块,响应于数据采集指令,获取原始采集规则;
规则拆分模块,抽取所述原始采集规则中的原始采集项、并归集,得到采集项集合;
规则学习模块,将所述采集项集合输入至深度学习模型进行预测,得到预测采集项;
规则扩展模块,根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
数据采集模块,基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原始采集规则,拆分所述原始采集规则的原始采集项,汇集所述原始采集项得到采集项集合;
将所述采集项集合输入至深度学习模型进行预测,输出得到预测采集项;
根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
响应于数据采集指令,通过所述预测采集规则集群,获取资源数据集。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原始采集规则,拆分所述原始采集规则的原始采集项,汇集所述原始采集项得到采集项集合;
将所述采集项集合输入至深度学习模型进行预测,输出得到预测采集项;
根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
响应于数据采集指令,通过所述预测采集规则集群,获取资源数据集。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取原始采集规则,拆分所述原始采集规则的原始采集项,汇集所述原始采集项得到采集项集合;
将所述采集项集合输入至深度学习模型进行预测,输出得到预测采集项;
根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
响应于数据采集指令,通过所述预测采集规则集群,获取资源数据集。
上述信息化资源数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过对采集规则所包含采集项进行学习预测,基于预测采集项形成采集规则集群,响应于响应的数据采集指令能够实现对数据内容的自动拾取与采集,提高了采集效率;并且方法基于对采集项层级的深度学习形成新的采集规则,基于采集指令中所携带的数据采集地址,能够更加快速地对数据采集指令进行响应;深度学习模型能够基于已有的采集规则的采集项进行学习并预测得到新的采集规则,一定程度上避免了主观因素对采集规则形成的限制,拓宽了采集指令所涵盖的采集规则的数量,进而涵盖了更大的采集范围,提高了信息数据资源的处理效率。
附图说明
图1为一个实施例中信息化资源数据处理方法的应用环境图;
图2为一个实施例中信息化资源数据处理方法的流程示意图;
图3为一个实施例中深度学习模型训练步骤的流程示意图;
图4为一个实施例中信息化资源数据处理装置的结构框图;
图5为一个实施例中登录过程的流程示意图;
图6为一个实施例中自动查询的流程示意图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的信息化资源数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。在该应用环境中,终端102通过人机交互的方式获取得到数据采集指令,并响应于该指令从服务器104中获取得到原始采集规则;需要说明的是,实施例中还可以基于数据采集指令构建得到新的原始采集规则。形成采集规则之后,依据采集规则进行资源数据采集,并且将新构建的采集规则在服务器104进行存储。进一步的,终端102可以针对服务器104存储的原始采集规则进行学习,从而形成包含更多接近或者类似的采集规则的集群。实施例中具体学习的过程,首先是针对原始采集规则中所包含的采集项进行抽取,将抽取得到的采集项进行归集得到采集项集合。然后,将采集项集合输入至深度学习模型中进行分类预测,从而得到不同种类的预测采集项。依据得到的预测采集项对相同种类下的采集项进行扩充,从而得到多个关联或类似的采集规则,并以此形成采集规则集群。最后,根据形成的采集集群、以及数据采集指令携带的数据采集地址进行资源数据采集,得到资源数据集。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种信息化资源数据处理方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤202,响应于数据采集指令,获取原始采集规则。
其中,数据采集指令可以包括基于索引、查询以及分析等操作形成的数据集采集指令。原始采集规则是根据数据采集指令中具体的指令内容进行拆解分析得到的采集规则;采集规则中可以保护数据采集地址、数据量、数据周期以及其他约束条件的属性字段。
示例性的,以金融资产数据为例,实施例中响应于资产收齐情况的数据采集执行,形成对应的原始采集规则,在采集规则中对数据种类或数据采集地址进行了约束,即采集数据种类可以包括资产金额、存款周期以及收益数据等等,数据采集地址可以包括具体的目标账户。
步骤204,抽取原始采集规则中的原始采集项、并归集,得到采集项集合。
其中,原始采集项是指构成原始采集规则属性字段中的各个要素,属性字段包括但不限于采集地址的属性字段、数据名称的属性字段以及数据有效周期的属性字段等等,若干的属性字段形成了采集规则的约束条件。
在实施例中,在根据数据采集指令形成的原始采集规则,将原始采集规则中包含的各个属性字段进行拆分,并对每个属性字段下的具体内容进行抽取,形成原始采集项,根据属性字段作为划分依据,将原始采集项进行归集整合,得到采集项集合。
步骤206,将采集项集合输入至深度学习模型进行预测,得到预测采集项。
其中,深度学习模型包括但不限于卷积神经网络、支持向量机以及随机森林等模型。
示例性的,实施例中可以将整合形成的采集项集合输入至完成后的卷积神经网络模型,通过卷积神经网络对采集项进行分类预测;例如,在针对采集规则的采集地址的属性字段的分类预测过程中,将采集地址中域名存在相似的采集项进行归类,得到域名类似的预测采集项,即在该采集地址类别下的采集项,可以指向同一个采集地址。需要说明的是,实施例中在构建深度学习模型时,可以结合必要的自然语言处理的相关编码器以及译码器,从而实现从语义层面对采集项的内容进行分析,并进一步基于语义进行分类预测。
步骤208,根据预测采集项对原始采集规则进行扩充,形成预测采集规则集群。
其中,预测采集规则集群由若干存在相同或者类似的采集项的采集规则组成。
示例性的,在实施例中,通过深度学习模型进行采集项的学习得到若干语义相同或者近似的采集项之后,在保持原始采集规则的其他采集项不发生变化的情况下,通过语义相同或者近似的采集项的替换,得到若干相似或者近似的采集规则,并将得到的采集规则进行整合形成采集规则集群。
步骤210,基于数据采集指令携带的数据采集地址、并通过预测采集规则集群,获取资源数据集。
其中,数据采集地址是数据的具体来源,其来源包括但不限于数据平台提供的数据访问接口、开源数据库以及开源网站等。资源数据集是由若干资源数据整合形成的数据集合,其中资源数据包括但不限于金融资产数据、物联网设备资源数据等。
示例性的,实施例中的数据采集指令中所携带的数据采集地址为具体的网页链接,实施例可以根据这一网页链接进行解析得到网页的源文件,在通过预测采集规则集群中多则采集规则确定了数据采集的具体要求以及约束的情况下,从该源文件中进行资源数据采集,并将采集得到资源数据进行整合形成资源数据集。
上述信息化资源数据处理方法中,通过对采集规则所包含采集项进行学习预测,基于预测采集项形成采集规则集群,响应于响应的数据采集指令能够实现对数据内容的自动拾取与采集,提高了采集效率;并且方法基于对采集项层级的深度学习形成新的采集规则,基于采集指令中所携带的数据采集地址,能够更加快速地对数据采集指令进行响应;深度学习模型能够基于已有的采集规则的采集项进行学习并预测得到新的采集规则,一定程度上避免了主观因素对采集规则形成的限制,拓宽了采集指令所涵盖的采集规则的数量,进而涵盖了更大的采集范围,提高了信息数据资源的利用率。
在一个实施例中,如图3所示,深度学习模型的训练过程,包括:
步骤302,获取历史数据、以及历史数据对应的历史采集规则。
其中,历史采集规则可以是指存储在服务器、数据库等存储空间中预先生成或者加载的采集规则,其规则结构与原始采集规则相同,即同样由一定数量的采集项所构成。历史数据是指通过历史采集规则进行采集,并存储在服务器或者终端本地的信息化资源数据。
示例性的,实施例中可以通过采集规则进行采集得到数据进行关联性标记,例如将形成数据记录,数据记录中包括了采集得到的具体数据内容、以及采集规则的ID;进而在进行历史采集规则以及历史数据的调用过程中,可以基于数据记录中的ID与采集规则的ID进行匹配索引,得到相关联的历史数据和历史采集规则。
步骤304,提取历史采集规则中的历史采集项。
其中,历史采集项与原始采集项相同,是指构成历史采集规则属性字段中的各个要素,属性字段包括但不限于采集地址的属性字段、数据名称的属性字段以及数据有效周期的属性字段等等。
示例性的,在获取得到一定数量的历史采集规则之后,将历史采集规则中所包括的各个属性字段进行拆分,并对每个属性字段下的具体内容进行提取,得到历史采集项。
步骤306,提取历史采集项的数据特征。
其中,数据特征可以是指用于描述一个历史采集项的数据组合,该数据组合方式可以是特征向量的组合。
示例性的,实施例中在提取得到历史采集项之后,对历史采集项进行向量化处理得到对应的特征向量。实施例通过主成分分析方式,将n维的特征向量映射到k个维度的空间中,且k<n,所得到的k个维度的特征向量是全新的正交特征,这k维特征称为主成分,是重新构造出来的k维特征。
步骤308,将数据特征输入至待训练的深度学习模型、并对历史采集项进行分类预测,得到历史数据采集类别。
示例性的,在实施例中可以选卷积神经网络作为深度学习模型进行分类预测。在训练的过程中需要预先构建一个待训练的卷积神经网络模型,该模型中可以预设多个卷积层、多个池化层以及softmax层;进一步地,设置各个层级之间的局部连接以及权值共享,同事需要对卷积核的初始化以及卷积步幅等超参数进行设置。在完成了模型的初步搭建以及设置之后,将提取得到的特征数据输入至卷积神经网络模型之中进行逐层运算,最后输出得到采集项类别预测的概率,即完成了一轮次的训练过程。需要说明的是,在实施例中也通过模型中的卷积层完成数据特征的提取。
步骤310,通过历史数据与历史数据采集类别进行对比校验。
步骤312,根据校验结果对深度学习模型进行模型参数调整,得到深度学习模型。
示例性的,在实施例中在通过训练输出对历史数据采集类别的预测之后,可以根据历史数据与历史数据采集规则之间的关联性标记,历史数据采集类别的准确性进行验证。实施例中可以将历史数据采集类别中的采集性进行逐一组合形成采集规则,并根据形成的采集规则进行数据采集,将采集得到的数据与历史数据进行对比并记录偏差,当偏差大于预设的偏差阈值时,则需要对该深度学习模型进行参数调整,调整的方式包括但不限于层级的调整以及层级之前权重值的调整;直至偏差不大于预设的偏差阈值,则完成深度学习模型的训练和调整过程。
本实施例中,通过构建深度学习模型以及对深度学习模型进行训练,引导模型能够准确、快速的对采集项进行分类预测,从而提高数据采集的效率。
在一个实施例中,方法中基于数据采集指令携带的数据采集地址、并通过预测采集规则集群,获取资源数据集的步骤,可以包括如下步骤:
步骤一,根据数据采集地址确定数据采集的源文件。
步骤二,根据预测采集规则集群中的预测采集项构建正则表达式,通过正则表达式对源文件中的噪音数据进行过滤。
步骤三,根据过滤后的源文件数据获取资源数据集。
其中,正则表达式是一种用于形成规则或者约束条件的文本内容,用于检索、替换那些符合某个模式或规则的数据内容。
示例性的,实施例中在通过采集规则集群以及数据采集地址对某一网页文件进行解析,并分析得到其源文件,从其源文件中采集得到一定规模的资源数据。但是由于源文件中可能存在其他无用的、冗余的缓存数据等,对与本实施例而言都可能称为噪音数据,因此实施例中通过预先构建的正则表达式对噪音数据进行剔除。实施例中的正则表达式可以对所要采集资源数据的格式进行严格限制,从而剔除存在格式缺陷的数据值,例如,可以通过正则表达式剔除资源数据中存在无意义符号、空行或者存在大量空值的资源数据。
实施例通过正则表达式对采集到的资源数据进行初步的筛选和清理,以提高资源数据的可用性,提高资源数据采集的效率。
在一个实施例中,方法还可以通过对采集规则集群附加约束条件的方式,进行资源数据的获取,这一附加约束的数据处理方式还包括如下步骤:
步骤一,获取历史数据的数据游动范围,根据数据游动范围生成约束条件。
步骤二,根据约束条件对预测采集规则集群进行约束,通过约束后的预测采集规则集群获取资源数据集。
其中,数据游动范围可以是指资源数据的数据值在周期内的变化范围。
以金融资产数据的采集与分析过程为例,实施例中所存储的历史数据位价格数据,即资产i在时刻t的价格为Pt。根据价格数据,实施例可以通过计算确定该资产的单期净收益和复利收益,即资产数据的游动范围。根据单期净收益和复利收益构建该资产的未来收益变动模型,通过未来收益变动模型形成采集规则的约束,在这一约束的基础上,将通过新生成的预测采集规则集群获取得到当前最新的资产价格数据中,通过这一未来收益变动模型能够更为直接的得到资产未来的收益数据。
实施例中通过对预测采集规则集群进行约束的方式,从而能够更加直接且快速地获取得到部分无法直接获取得到的资源数据内容,提高了数据采集的效率。
在一个实施例中,数据游动范围包括数值游动范围以及增量游动范围。方法中获取历史数据的数据游动范围的过程,可以包括如下步骤:
步骤一,获取随机游动模型,设置随机游动模型的随机冲击值;
步骤二,将历史数据输入至随机游动模型,与随机冲击值进行求和,得到数值游动范围;
步骤三,根据预设周期获取历史数据对应的数值增量;
步骤四,将数值增量输入至随机游动模型,与随机冲击值进行求和,得到增量游动范围。
其中,随机游动模型是用于描述不具有任何规律可循的时间序列模型,随机冲击值包括但不限于白噪声序列。另外,实施例中的数值游动范围可以是指数据值自身的随机游动范围;增量游动范围是指数据值的增量大小的变化情况。
以金融资产数据的采集与分析过程为例,实施例中数值游动范围可以是指单项金融资产价格随机游动范围,且单项金融资产价格随机游动模型满足如下计算式:
Pt=+Pt-1t
其中,Pt为资产i在时刻t的价格,μ表示金融资产在t期本金加利息和,t为存款周期,σεt为t期的存款风险指数,并且,风险指数σεt满足如下的计算式:
另外,实施例中数值游动范围可以是指单项金融资产收益率随机游动范围,且单项金融资产收益率随机游动模型满足如下计算式:
rt=+rt-1t
其中,rt为t期的连续复利收益。实施例中在构建得到单项金融资产价格随机游动模型以及单项金融资产收益率随机游动模型后,可以将两个模型共同作为金融资产未来收益变动的模型,并共同确定增量游动范围。
除此之外,方法中将数值增量输入至随机游动模型,与随机冲击值进行求和,得到增量游动范围这一过程,可以包括如下步骤:
步骤一,将百分比增量以及连续复合增量输入至随机游动模型。
步骤二,通过随机游动模型将百分比增量以及连续复合增量之间的最大值与随机冲击值求和,得到增量游动范围。
示例性的,基于随机游动模型,可以通过采集单期收益,计算连续复利收益;采集连续复利收益和百分比收益,计算各自收益数值,与未来收益作比较,并选取最大的收益方式,计算收益率随机游动范围,并以此提供收益最优的数据参考。
在一个实施例中,数值增量包括百分比增量以及连续复合增量。方法中根据预设周期获取历史数据对应的数值增量这一过程,可以包括如下步骤:
步骤一,根据预设周期获取历史数据。
步骤二,提取历史数据中产生数值增量后的历史数据和产生数值增量前的历史数据。
步骤三,将产生数值增量后的历史数据与产生数值增量前的历史数据作商得到百分比增量。
步骤四,对百分比增量进行对数运算,得到连续复合增量。
示例性的,同样以金融资产数据的采集与分析过程为例,实施例中,产生数值增量后的历史数据和产生数值增量前的历史数据分别是指存储在数据库中的价格数据以及收益数据;其中,收益数据包括但不限于净收益、毛收益以及复利收益等。实施例中首先获取资产i在时刻t的价格为Pt,且不分红利,资产i从t-1到t期的单期净收益定义满足如下计算式:
毛收益定义为1+t,由时期t-k+1到t的毛收益定义满足如下计算式:
其中,Rt(k)为复利收益。进一步地,多个单期收益的算术平均值和几何平均值计算满足如下计算式:
其中,AM(k)为单期收益的算术平均值,GM(k)为单期收益的几何平均值。进一步的,连续复利收益满足如下计算式:
另一方面,资产i有周期性的红利支付,t期的红利支付为D,此时的百分比收益定义满足如下计算式:
连续复利收益定义为:
rt=n(Pt+t)-nPt-1
实施例中可以采集账户名下资产金额和存款周期,计算单期净收益、毛收益和复利收益;然后采集单期收益,计算连续复利收益;采集连续复利收益和百分比收益,计算各自收益数值,与未来收益作比较,提供收益最优的数据参考。
综上,本申请实施例获取输入数据流,形成初步的数据采集框架,系统后续在该框架上持续完善;规则学习模块控制系统通过预先设计的分析规则,进行数据的分析和学习,为后续自主收集数据做准备;在规则学习的基础上,根据学习产生的新的采集规则,自主收集外界数据流,不断完善数据库。实施例在规则学习的过程中,首先采集规则,选择采集项,随后提取采集项的数据特征,将对应的数据归类,归类完毕后,对数据项进行采集测试,验证数据是否准确,若是,继续采集下一个数据项,若否,则重新选择采集项。在形成了新的采集规则之后,数据开始智能采集,随后设置采集项目,检测采集的数据是否准确,不准确的数据重新进行归类计算,直至准确,随后对检测正确的所有数据进行归类和过滤。实施例可以通过自主学习和挖掘,并对接收到的数据进行归类和过滤,降低冗余和单一数据对系统的影响,减少从业者的工作压力,提高工作效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的信息化资源数据处理方法的信息化资源数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个信息化资源数据处理装置实施例中的具体限定可以参见上文中对于信息化资源数据处理方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种信息化资源数据处理装置400,包括:规则获取模块401、规则拆分模块402、规则学习模块403、规则扩展模404块以及数据采集模块405,其中:
规则获取模块401,响应于数据采集指令,获取原始采集规则;
规则拆分模块402,抽取原始采集规则中的原始采集项、并归集,得到采集项集合;
规则学习模块403,将采集项集合输入至深度学习模型进行预测,得到预测采集项;
规则扩展模块404,根据预测采集项对原始采集规则进行扩充,形成预测采集规则集群;
数据采集模块405,基于数据采集指令携带的数据采集地址、并通过预测采集规则集群,获取资源数据集。
示例性的,规则获取模块401通过人机交互的方式获取得到数据采集指令,并响应于该指令获取得到原始采集规则;形成采集规则之后,依据采集规则进行资源数据采集,并且将新构建的采集规则进行存储。规则拆分模块402针对原始采集规则中所包含的采集项进行抽取,将抽取得到的采集项进行归集得到采集项集合。规则学习模块403将采集项集合输入至深度学习模型中进行分类预测,从而得到不同种类的预测采集项。规则扩展模块404依据得到的预测采集项对相同种类下的采集项进行扩充,从而得到多个关联或类似的采集规则,并以此形成采集规则集群。最后,数据采集模块405根据形成的采集规则集群、以及数据采集指令携带的数据采集地址进行资源数据采集,得到资源数据集。
实施例中的信息化资源数据处理装置基于对采集项层级的深度学习形成新的采集规则,基于采集指令中所携带的数据采集地址,能够更加快速地对数据采集指令进行响应;深度学习模型能够基于已有的采集规则的采集项进行学习并预测得到新的采集规则,一定程度上避免了主观因素对采集规则形成的限制,拓宽了采集指令所涵盖的采集规则的数量,进而涵盖了更大的采集范围,提高了信息数据资源的利用率。
在一个实施例中,规则学习模块还可以用于获取历史数据、以及历史数据对应的历史采集规则,提取历史采集规则中的历史采集项,然后提取历史采集项的数据特征,将数据特征输入至待训练的深度学习模型、并对历史采集项进行分类预测,得到历史数据采集类别,通过历史数据与历史数据采集类别进行对比校验,再根据校验结果对深度学习模型进行模型参数调整,得到深度学习模型。
在一个实施例中,数据采集模块还可以根据数据采集地址确定数据采集的源文件,根据预测采集规则集群中的预测采集项构建正则表达式,通过正则表达式对源文件中的噪音数据进行过滤,再根据过滤后的源文件数据获取资源数据集。
在一个实施例中,规则学习模块还可以获取历史数据的数据游动范围,根据数据游动范围生成约束条件,并根据约束条件对预测采集规则集群进行约束,通过约束后的预测采集规则集群获取资源数据集。
在一个实施例中,数据游动范围包括数值游动范围以及增量游动范围。装置中的规则学习模块还可以获取随机游动模型,设置随机游动模型的随机冲击值,将历史数据输入至随机游动模型,与随机冲击值进行求和,得到数值游动范围,根据预设周期获取历史数据对应的数值增量,将数值增量输入至随机游动模型,与随机冲击值进行求和,得到增量游动范围。
在一个实施例中,数值增量包括百分比增量以及连续复合增量。装置中的规则学习模块还可以根据预设周期获取历史数据,提取历史数据中产生数值增量后的历史数据和产生数值增量前的历史数据,将产生数值增量后的历史数据与产生数值增量前的历史数据作商得到百分比增量,再对百分比增量进行对数运算,得到连续复合增量。
在一个实施例中,规则学习模块可以将百分比增量以及连续复合增量输入至随机游动模型,再通过随机游动模型将百分比增量以及连续复合增量之间的最大值与随机冲击值求和,得到增量游动范围。
在一个实施例中,装置还可以包括登录模块和提交模块。
其中,登录模块用于登录用户信息,用户将用户名和密码输入后,经系统查询合格,操作系统才向用户展示;用户在使用时,通过输入用户名和密码进入查询界面,查询结果为否时,提示用户名或密码输入错误,用户重新输入,直至二者输入正确,系统查询结果为是,用户进入系统界面,单个用户对应一个用户名和密码,如图5所示,操作步骤包括:
步骤一:当前用户打开系统登录界面,填写用户名和密码信息,点击“登录”按钮。
步骤二:系统根据所填写的用户名到服务器数据库中进行用户名和密码是否正确的查询和判断。如果查询失败,则系统弹出“用户名或密码错误”的对话框,然后返回步骤一。如果查询成功,则进入步骤三。
步骤三:登录金融数据分析系统的主界面。
提交模块用于提交身份验证完毕的用户发出的查询指令,并将输入的指令转化为系统可识别的代码。如图6所示,用户的ID信息识别通过后,查询指令才能通过计算机发送至系统内部,经过代码转换,需要查询的指令被赋予一个专属快捷键,此快捷键自动备份在系统内部,用户下次查询时,直接点击快捷键,即可完成对应的操作,简化查询流程,提高系统的处理和响应速度。
上述信息化资源数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息化资源数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息化资源数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
响应于数据采集指令,获取原始采集规则;
抽取原始采集规则中的原始采集项、并归集,得到采集项集合;
将采集项集合输入至深度学习模型进行预测,得到预测采集项;
根据预测采集项对原始采集规则进行扩充,形成预测采集规则集群;
基于数据采集指令携带的数据采集地址、并通过预测采集规则集群,获取资源数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取历史数据、以及历史数据对应的历史采集规则;提取历史采集规则中的历史采集项;提取历史采集项的数据特征;将数据特征输入至待训练的深度学习模型、并对历史采集项进行分类预测,得到历史数据采集类别;通过历史数据与历史数据采集类别进行对比校验;根据校验结果对深度学习模型进行模型参数调整,得到深度学习模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据数据采集地址确定数据采集的源文件,根据预测采集规则集群中的预测采集项构建正则表达式,通过正则表达式对源文件中的噪音数据进行过滤,再根据过滤后的源文件数据获取资源数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取历史数据的数据游动范围,根据数据游动范围生成约束条件,并根据约束条件对预测采集规则集群进行约束,通过约束后的预测采集规则集群获取资源数据集。
在一个实施例中,数据游动范围包括数值游动范围以及增量游动范围。处理器执行计算机程序时还实现以下步骤:
获取随机游动模型,设置随机游动模型的随机冲击值,将历史数据输入至随机游动模型,与随机冲击值进行求和,得到数值游动范围,根据预设周期获取历史数据对应的数值增量,将数值增量输入至随机游动模型,与随机冲击值进行求和,得到增量游动范围。
在一个实施例中,数值增量包括百分比增量以及连续复合增量。处理器执行计算机程序时还实现以下步骤:
根据预设周期获取历史数据,提取历史数据中产生数值增量后的历史数据和产生数值增量前的历史数据,将产生数值增量后的历史数据与产生数值增量前的历史数据作商得到百分比增量,再对百分比增量进行对数运算,得到连续复合增量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将百分比增量以及连续复合增量输入至随机游动模型,再通过随机游动模型将百分比增量以及连续复合增量之间的最大值与随机冲击值求和,得到增量游动范围。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种信息化资源数据处理方法,其特征在于,所述方法包括:
响应于数据采集指令,获取原始采集规则;
抽取所述原始采集规则中的原始采集项、并归集,得到采集项集合;
将所述采集项集合输入至深度学习模型进行预测,得到预测采集项;
根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集。
2.根据权利要求1所述的方法,其特征在于,所述深度学习模型的训练过程,包括:
获取历史数据、以及所述历史数据对应的历史采集规则;
提取所述历史采集规则中的历史采集项;
提取所述历史采集项的数据特征;
将所述数据特征输入至待训练的深度学习模型、并对历史采集项进行分类预测,得到历史数据采集类别;
通过所述历史数据与所述历史数据采集类别进行对比校验;
根据校验结果对所述深度学习模型进行模型参数调整,得到所述深度学习模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集,包括:
根据所述数据采集地址确定数据采集的源文件;
根据所述预测采集规则集群中的预测采集项构建正则表达式,通过所述正则表达式对所述源文件中的噪音数据进行过滤;
根据过滤后的源文件数据获取所述资源数据集。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取历史数据的数据游动范围,根据所述数据游动范围生成约束条件;
根据所述约束条件对所述预测采集规则集群进行约束,通过约束后的所述预测采集规则集群获取所述资源数据集。
5.根据权利要求4所述的方法,其特征在于,所述数据游动范围包括数值游动范围以及增量游动范围;
所述获取历史数据的数据游动范围,包括:
获取随机游动模型,设置所述随机游动模型的随机冲击值;
将所述历史数据输入至所述随机游动模型,与所述随机冲击值进行求和,得到数值游动范围;
根据预设周期获取所述历史数据对应的数值增量;
将所述数值增量输入至所述随机游动模型,与所述随机冲击值进行求和,得到增量游动范围。
6.根据权利要求5所述的方法,其特征在于,所述数值增量包括百分比增量以及连续复合增量;
所述根据预设周期获取所述历史数据对应的数值增量包括:
根据预设周期获取所述历史数据;
提取所述历史数据中产生数值增量后的历史数据和产生数值增量前的历史数据;
将产生数值增量后的历史数据与产生数值增量前的历史数据作商得到所述百分比增量;
对所述百分比增量进行对数运算,得到所述连续复合增量;
所述将所述数值增量输入至所述随机游动模型,与所述随机冲击值进行求和,得到增量游动范围,包括:
将所述百分比增量以及所述连续复合增量输入至所述随机游动模型;
通过随机游动模型将所述百分比增量以及连续复合增量之间的最大值与随机冲击值求和,得到增量游动范围。
7.一种信息化资源数据处理装置,其特征在于,所述装置包括:
规则获取模块,响应于数据采集指令,获取原始采集规则;
规则拆分模块,抽取所述原始采集规则中的原始采集项、并归集,得到采集项集合;
规则学习模块,将所述采集项集合输入至深度学习模型进行预测,得到预测采集项;
规则扩展模块,根据所述预测采集项对所述原始采集规则进行扩充,形成预测采集规则集群;
数据采集模块,基于所述数据采集指令携带的数据采集地址、并通过所述预测采集规则集群,获取资源数据集。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310520046.5A 2023-05-09 2023-05-09 信息化资源数据处理方法、装置和计算机设备 Pending CN116701925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310520046.5A CN116701925A (zh) 2023-05-09 2023-05-09 信息化资源数据处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310520046.5A CN116701925A (zh) 2023-05-09 2023-05-09 信息化资源数据处理方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN116701925A true CN116701925A (zh) 2023-09-05

Family

ID=87838312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310520046.5A Pending CN116701925A (zh) 2023-05-09 2023-05-09 信息化资源数据处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN116701925A (zh)

Similar Documents

Publication Publication Date Title
CN109446341A (zh) 知识图谱的构建方法及装置
CN114372573B (zh) 用户画像信息识别方法、装置、计算机设备和存储介质
US11928616B2 (en) Method and system for hierarchical forecasting
EP4322031A1 (en) Recommendation method, recommendation model training method, and related product
CN114647465B (zh) 多通道注意力图神经网络聚类的单体程序拆分方法及系统
Wang et al. Trust-aware collaborative filtering with a denoising autoencoder
CN111178986B (zh) 用户-商品偏好的预测方法及系统
US20230306035A1 (en) Automatic recommendation of analysis for dataset
Zhang et al. Gaussian metric learning for few-shot uncertain knowledge graph completion
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN118468061B (zh) 一种算法自动匹配及参数优化方法及系统
Boopathy et al. Predictive analytics with data visualization
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN115730143A (zh) 基于任务对齐元学习和增广图的推荐系统、方法、终端及介质
Bertrand et al. A novel multi-perspective trace clustering technique for IoT-enhanced processes: a case study in smart manufacturing
Song et al. Marrying dialogue systems with data visualization: Interactive data visualization generation from natural language conversations
CN116701925A (zh) 信息化资源数据处理方法、装置和计算机设备
Alshara [Retracted] Multilayer Graph‐Based Deep Learning Approach for Stock Price Prediction
CN115345687A (zh) 一种跨网站商品对齐方法及装置
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统
CN117951457B (zh) 基于生物炭的负碳产品碳减排量核算方法及系统
US20230368086A1 (en) Automated intelligence facilitation of routing operations
Liu et al. Intelligent Mining Method of Enterprise Management Information Based on ID3 Decision Tree Algorithm
US20230368085A1 (en) Automated intelligence facilitation of routing operations
US20240211750A1 (en) Developer activity modeler engine for a platform signal modeler

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination