CN114971711A - 业务数据处理方法、装置、设备及存储介质 - Google Patents

业务数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114971711A
CN114971711A CN202210579699.6A CN202210579699A CN114971711A CN 114971711 A CN114971711 A CN 114971711A CN 202210579699 A CN202210579699 A CN 202210579699A CN 114971711 A CN114971711 A CN 114971711A
Authority
CN
China
Prior art keywords
service
data
prediction
target
income
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210579699.6A
Other languages
English (en)
Inventor
李晓雄
卓陈朋
吴燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202210579699.6A priority Critical patent/CN114971711A/zh
Publication of CN114971711A publication Critical patent/CN114971711A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种业务数据处理方法、装置、设备及存储介质。本方法包括:对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过历史收益数据对业务的风险和收益进行预测,解决了业务数据的配置预测准确率低的技术问题。

Description

业务数据处理方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种业务数据处理方法、装置、设备及存储介质。
背景技术
国内保险公司保费收入作为其主要利润增长点将随着国际化大趋势以及监管政策和制度完善逐渐退出历史舞台,很多发达国家保险公司保费规模增速常常入不敷出,甚至偶然出现负增长,加上各种新型保险公司的加入和刺激,因此以野蛮保费规模扩张带动公司净利润增长将成为历史。随着国内环境及国家金融制度优越性完善,保险公司今后必然走上以保费投资收入为主要利润来源之路,而净投资收入净利润是投资收入的重中之重。然而,目前的业务配置方案大多是静态的,即各类业务的投资比例是固定的常数,没有根据市场的变化和投资期限进行动态调整。
然而,目前的业务配置方案大多是静态的,即各类业务的投资比例是固定的常数,没有根据市场的变化和投资期限进行动态调整。所以要对公司的业务进行更合理的配置,通过业务配置动态调整实现公司收益最大化。由于投资类产品本身涉及到的特征参数数量非常之多,并且具有很强的时效性。因此,如何将各类业务的收益与风险在基于短期预测前提下实现长期收益率预测,解决在已知主业务情况下对业务配置进行收益预测的准确度低成了本领域技术人员需要解决的技术问题。
发明内容
本发明的主要目的在于解决现有技术中对于业务数据的配置预测准确率较低的问题。
本发明第一方面提供了业务数据处理方法,包括:收集企业业务的历史收益数据;解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述业务预设的预测信息和所述业务的业务风险值,确定所述业务的收益影响因子;对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
可选地,在本发明第一方面的第一种实现方式中,在所述收集企业业务的历史收益数据之前,还包括:确定企业中的业务以及所述业务的业务属性信息;确定所述业务属性信息对应的属性值,并以所述属性值为节点建立业务数据树,对企业中的所有业务进行分类展示。
可选地,在本发明第一方面的第二种实现方式中,所述根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数包括:基于所述成本特征数据,确定不同的特征参数组合;根据预设的聚类算法,根据所述不同的特征参数组合对所述业务进行聚类,确定所述不同的特征参数组合分别对应的聚类结果;根据所述聚类结果,从所述成本特征数据中筛选出用于分析所述业务的特征参数。
可选地,在本发明第一方面的第三种实现方式中,在所述根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数之前,还包括:对所述业务树中的业务节点进行风险扫描,得到所述业务节点下的各业务的漏洞信息以及所述各业务的配置信息;根据所述漏洞信息和所述配置信息,确定所述业务的漏洞风险值和配置风险值;根据预设安全权重系数,对所述业务的漏洞风险值和所述业务的配置风险值进行加权计算,得到所述业务的业务风险值。
可选地,在本发明第一方面的第四种实现方式中,所述对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率包括:对所述收益影响因子在多个评估时刻的数值进行降维处理,获得多组收益组合在每个所述评估时刻的组合数值;对所述多组收益组合在每个评估时刻的组合数值进行预测处理,得到各类业务的收益率的概率。
可选地,在本发明第一方面的第五种实现方式中,在所述将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据之前,还包括:确定与所述业务的特征参数对应的特征值;将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型。
可选地,在本发明第一方面的第六种实现方式中,所述将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型包括:将所述业务划分为不同的业务组合;根据预设的聚类算法和所述特征参数,对所述不同的业务组合进行聚类,得到多个聚类簇;根据所述聚类簇的统计特征,分别从所述多个聚类簇中筛选出所述统计特征最优的聚类簇;基于选择的所述聚类簇中的各个业务的历史收益数据和所述特征参数的特征值,搭建GA-BP神经网络模型;将所述业务的历史收益数据输入预设GA-BP神经网络模型进行训练直到所述GA-BP神经网络模型收敛,得到收益预测模型。
本发明第二方面提供了一种业务数据处理装置,包括:收集模块,用于收集企业业务的历史收益数据;提取模块,用于解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;聚类模块,用于根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述成本特征参数确定所述目标业务的收益影响因子;降维模块,用于对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;预测模块,用于将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;生成模块,用于对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
可选地,在本发明第二方面的第一种实现方式中,所述业务数据处理装置还包括:第一确定模块,用于确定企业中的目标业务以及所述目标业务的业务属性信息;展示模块,用于确定所述业务属性信息对应的属性值,并以所述属性值为节点建立业务数据树,对企业中的所有所述目标业务进行分类展示。
可选地,在本发明第二方面的第二种实现方式中,所述提取模块具体用于:基于所述成本特征数据,确定不同的特征参数组合;根据预设的聚类算法,根据所述不同的特征参数组合对所述业务进行聚类,确定所述不同的特征参数组合分别对应的聚类结果;根据所述聚类结果,从所述成本特征数据中筛选出用于分析所述目标业务的特征参数。
可选地,在本发明第二方面的第三种实现方式中,所述业务数据处理装置还包括:扫描模块,用于对所述业务树中的业务节点进行风险扫描,得到所述业务节点下的各业务的漏洞信息以及所述各业务的配置信息;第二确定模块,用于根据所述漏洞信息和所述配置信息,确定所述目标业务的漏洞风险值和配置风险值;计算模块,用于根据预设安全权重系数,对所述目标业务的漏洞风险值和所述业务的配置风险值进行加权计算,得到所述目标业务的业务风险值。
可选地,在本发明第二方面的第四种实现方式中,所述降维模块具体用于:对所述收益影响因子在多个评估时刻的数值进行降维处理,获得多组收益组合在每个所述评估时刻的组合数值;对所述多组收益组合在每个评估时刻的组合数值进行预测处理,得到各类业务的收益率的概率。
可选地,在本发明第二方面的第五种实现方式中,所述业务数据处理装置还包括:第三确定模块,用于确定与所述业务的特征参数对应的特征值;训练模块,用于将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型。
可选地,在本发明第二方面的第六种实现方式中,所述训练模块包括:划分单元,用于将所述业务划分为不同的业务组合;聚类单元,用于根据预设的聚类算法和所述特征参数,对所述不同的业务组合进行聚类,得到多个聚类簇;筛选单元,用于根据所述聚类簇的统计特征,分别从所述多个聚类簇中筛选出所述统计特征最优的聚类簇;搭建单元,用于基于选择的所述聚类簇中的各个业务的历史收益数据和所述特征参数的特征值,搭建GA-BP神经网络模型;训练单元,用于将所述业务的历史收益数据输入预设GA-BP神经网络模型进行训练直到所述GA-BP神经网络模型收敛,得到收益预测模型。
本发明第三方面提供了业务数据处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行上述的业务数据处理方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的业务数据处理方法的步骤。
本发明提供的技术方案中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
附图说明
图1为本发明提供的业务数据处理方法的第一个实施例示意图;
图2为本发明提供的业务数据处理方法的第二个实施例示意图;
图3为本发明提供的业务数据处理方法的第三个实施例示意图;
图4为本发明提供的业务数据处理方法的第四个实施例示意图;
图5为本发明提供的业务数据处理方法的第五个实施例示意图;
图6为本发明提供的业务数据处理装置的第一个实施例示意图;
图7为本发明提供的业务数据处理装置的第二个实施例示意图;
图8为本发明提供的业务数据处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供的业务数据处理方法、装置、设备及存储介质,先通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
本发明的说明书和权利要求书及上述附中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中业务数据处理方法的第一个实施例包括:
101、收集企业业务的历史收益数据;
本实施例中,历史收益数据可以从数据管理服务器或者数据库中查询获得,历史收益数据包括各下游用户的历史消费数据和企业的历史成本数据。
历史消费数据可以包括但不限于:消费业务和消费金额;企业的历史成本数据可以包括但不限于:成本业务和成本金额。
消费业务记载了消费金额产生的对应业务的信息,比如业务咨询费、服务费、产品货款等等,以炼厂企业为例,消费业务可以如:0号柴油、92号汽油、95号汽油等等。消费金额就是指下游用户每一笔消费的金额,即对于企业来说就是入账金额。对于本例来说,下游用户可以是从炼厂购买成品油的油站等。成本业务记载了成本支出对应的业务信息,比如人员工资、某设备维修费、某设备维护费、某设备采购费、税金等等。成本金额就是指每一笔成本支出的金额。
102、解析历史收益数据,提取出其中的目标业务和目标业务对应的消费特征数据和成本特征数据;
本实施例中,不同消费业务、不同成本业务的发生次数均有多有少,消费金额、成本金额的金额大小也各不相同。在本发明的收益预测方法中,采取了先识别重要业务再根据重要业务进行收益预测的方法。
识别重要业务的方式可以有多种,在本例中优选的采用下面两种方式中的任一种。
第一种,根据每个业务对应的累计金额与全部业务总金额的比例来衡量各业务对于整体的影响程度,将金额较大的业务作为重要业务,即提取出来作为用于收益预测的业务。
具体的,对消费金额按照对应的消费业务进行统计,计算每个消费业务统计得到的累计消费金额与总消费金额的比例,将所得比例超出第三预设比例的消费业务确定为用于收益预测的业务;以及,对成本金额按照对应的成本业务进行统计,计算每个成本业务统计得到的累计成本金额与总成本金额的比例,将所得比例超出第四预设比例的成本业务确定为用于收益预测的业务。第三和第四预设比例可以根据实际情况合理设定,比如设置5%或者3%,即单项累计金额占比高于总金额5%或3%的都会被识别为用于收益预测的业务,而对于该比例以下的,则认为对整体影响不大,将其忽略。
第二种,根据每个业务的发生次数占比全部业务总发生次数的比例来衡量各业务对于整体的影响程度,将发生次数较多的业务作为重要业务,即提取出来作为用于收益预测的业务。
具体的,对消费业务的发生次数进行统计,将统计得到发生次数占比消费业务的总发生次数超出第一预设比例的消费业务确定为用于收益预测的业务;以及,对成本业务的发生次数进行统计,将统计得到发生次数占比成本业务的总发生次数超出第二预设比例的成本业务确定为用于收益预测的业务。同样的,第一和第二预设比例可以根据实际情况合理设定,比如设置5%或者3%,即一个业务发生次数的占比高于5%或3%的都会被识别为用于收益预测的业务,而对于该比例以下的,则认为对整体影响不大,将其忽略。
当然,还可以综合考虑以上两项,可以将两项都符合的选出作为用于收益预测的业务。确定出业务后,从历史收益数据中提取与业务相关的发生金额、发生次数以及发生时间。当业务为影响收益的消费业务和/或成本业务时,可以按照此业务近2~3个经营周期内的加权平均值作为此业务下一经营周期的消费特征数据/成本特征数据。消费特征数据和成本特征数据是为了进行下一经营周期的收益预测所计算出的基数,对于纯消费业务而言,成本特征数据为0,对于纯成本业务而言,消费特征数据为0。
当然,对具体的消费特征数据/成本特征数据的计算方式不做限定。
103、根据预设的聚类算法,对成本特征数据进行聚类处理,得到目标业务的成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;
本实施例中,业务可以是股票产品,还可以社保产品,还可以是其他产品。为了便于进行示例说明,接下来以股票产品进行阐述。该股票产品可以是一只股票产品,还可是多只股票产品对应的混合股票产品。上述特征参数是基于数据库中保存的股票量价数据以及公司基本面数据确认的。其中,上述特征参数可以包括但不限于下述参数:技术参数、统计参数、希尔伯特-黄变换(Hilbert-Huang Transform,HHT)时频谱参数、时域特征、频域特征、小波包时频幅度谱特征。
值得说明的是,本申请提供的投资数据管理方法可以运行于搭载Hadoop以及Spark的服务器集群上,并可以使用HDFS/Hive分布式储存以及Spark分布式计算。有关Hadoop以及Spark集群的部署方法可以采用现有技术中的任一种方式,在此不再赘述。
其中,本申请可以预先将业务的相关标识信息等从MYSQL数据库通过SQOOP转储到HDFS文件系统,其中包括业务的编号,业务对应股票组合的股票代码。在每日收盘后,当日数据获取完毕时,可以设置定时计划任务定时运行以存储相应业务的标识信息。另外,本申请还可以将当日生成的待业务与数据库中的相关内容进行比较,若上述待业务并未出现在现有的数据库中,则赋予该待投业务品新的标识信息,并添加到上述数据库中。若上述待业务已经出现在现有的数据库中,则不做处理。最后,本申请随着待业务的规模变大,还可以更新上述数据库或者其他辅助数据库,以便Spark数据处理时使用。
本实施例中,可以根据客户端的当前扫描需求,对业务树中设定位置处的业务或业务节点进行风险扫描,进行风险扫描所需的业务登录用户名和密码以及扫描模板的类型等信息可以从保存的业务数据表中获取。
进一步地,所述风险扫描装置在得到对应的业务的漏洞信息或配置信息之后,可以通过保存的业务数据表中的业务管理员的名称和邮箱地址,将得到的该业务(或该业务节点下的各业务)的漏洞信息或配置信息发送给对应的客户端或业务管理员,由相应的业务管理员对发现的该业务(或该业务节点下的各业务)的漏洞进行修复或该业务(或该业务节点下的各业务)的配置信息进行调整。
104、对收益影响因子在不同评估时刻的数值进行降维处理,得到所有目标业务的收益率对应的概率;
本实施例中,可以根据客户端的当前扫描需求,对业务树中设定位置处的业务或业务节点进行风险扫描,进行风险扫描所需的业务登录用户名和密码以及扫描模板的类型等信息可以从保存的业务数据表中获取。
进一步地,所述风险扫描装置在得到对应的业务的漏洞信息或配置信息之后,可以通过保存的业务数据表中的业务管理员的名称和邮箱地址,将得到的该业务(或该业务节点下的各业务)的漏洞信息或配置信息发送给对应的客户端或业务管理员,由相应的业务管理员对发现的该业务(或该业务节点下的各业务)的漏洞进行修复或该业务(或该业务节点下的各业务)的配置信息进行调整。
105、将消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据预测结果和概率,计算目标业务在未来预设时间段内的收益预测数据;
本实施例中,基于历史收益数据以及特征参数的特征值训练收益预测模型。其中,上述收益预测模型是采用机器学习的方法训练得到的,有多种方法可以实现,本实施例中的收益预测模型是预测模型,也即是可以采用分类方法或者回归方法具体进行实现。
业务的预测信息可以具体根据业务的不同,通过不同渠道、方式或计算方法获得。比如,人员工资的预测信息,可以参考相关部门发布的薪资调整幅度指导意见或者预测信息获得。又如,成品油的售价,可以根据原油市场期货价格的变化趋势得到预测信息。影响系数,可以理解为对成本业务/消费业务的影响变化比例。
比如相关职能部门给出的预测,下一年度某地职工平均工资上涨5%,所对应的是成本业务,则其消费特征数据为0,消费特征数据和成本特征数据的差值为负,企业可以以此数据作为依据,确定人员工资这一业务的影响系数为105%,将影响系数与差值相乘,得到该业务的收益预测值(负值)。此外在得到影响系数为105%之后,还可以根据企业实际情况再在这一数据基础上进行进一步调整,比如企业自行规定在相关职能部门指导/预测数据基础上再增加3%,那么就以108%作为最终的影响系数。
又如,根据期货市场预测,0号柴油为消费业务,成本特征数据为0,消费特征数据和成本特征数据的差值为正,当其售价在下一年度平均上涨11%,企业可以以此数据作为依据,确定0号柴油这一业务的影响系数为111%,也可以根据企业实际情况再做进一步调整,将0号柴油这一项的影响系数与差值相乘得到下年同期该业务的收益预测值(正值)。
当一个业务既为消费业务又为成本业务时,按照上述流程分别计算其消费特征数据和成本特征数据的差值及该业务的影响系数,再相乘,得到最终的该业务的预测收益。
106、分别对所有目标业务的收益预测数据进行统计,生成业务配置结果,并将业务配置结果发送至预设客户端。
本实施例中,将各个业务的收益预测值进行汇总即可得到企业的预测收益。以上方法通过对历史收益数据和对收益发生影响的业务进行收集、分析,从而对未来的收益预期数据进行科学合理的测算。在此基础上,还可以进一步的确定企业的预测收益是否达到了目标收益,通过收益预测方法对企业运营产生参考和指导作用。
目标收益往往是企业预先确定的,在获得目标收益的基础上,确定通过上述方法得到的企业的预测收益是否达到目标收益;如果达到了,那么表明在企业正常运作情况下,较大概率的能够达到目标,如果没有,则需要调整企业运营,使之能够达到目标。
在本实施例中,如果预测收益没有达到目标收益,则对各个业务的收益预测值进行分析,从各个业务中识别影响预测收益未达到目标收益的关键业务。例如选出影响系数最高的几个成本业务和影响系数最低的几个消费业务为影响预测收益未达到目标收益的关键业务。然后根据关键业务和关键业务的预测信息,以及关键业务对应的消费特征数据和/或成本特征数据进行分析处理,生成分析结果。减少后续数据处理量,并通过降维处理获得多组主成分组合的组合数据预测收益率的概率,以根据该收益率的概率为用户配置业务,在计算收益率的概率时无需人为干预,准确率和计算效率更高。
本实施例中,其中,具体使用如下方式获得各类业务的收益率的概率:先根据历史数据获得预测模型,再使用多组主成分组合在每个评估时刻的组合数值预测获得各类业务的预测价格,最后统计各类业务的预测价格获得各类业务的收益率。在获得各类业务的预测模型时,先获得多组主成分组合在每个历史时刻的组合数值和每类业务在历史时刻的价格,再进行数据拟合获得每类业务的预测模型。
所获得的每类业务的预测模型为多元时间序列模型,可以分析不同时间序列的动态相关性,从而得到更准确的预测。获得多组主成分组合在每个历史时刻的组合数值具体包括:针对每个业务价格影响因子,获取业务价格影响因子在多个历史时刻的数值。对所有业务价格影响因子在所有历史时刻的数值进行降维处理。在获得每类业务的预测模型后,针对每类业务,使用该类业务的预测模型对多组主成分组合在所有评估时刻的组合数值进行预测获得该类业务的多个预测价格,对该类业务的多个预测价格进行统计获得该类业务的收益率的概率。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
请参阅图2,本发明实施例中业务数据处理方法的第二个实施例包括:
201、确定企业中的目标业务以及目标业务的业务属性信息;
本实施例中,确定系统中的各业务后,可以采用自动扫描的方式或接收客户端发送的补充登记信息或修改信息的方式来确定各业务的业务属性信息;具体地,所述业务属性信息至少包括以下信息中的一种或多种:业务风险值(默认为安全)、业务的操作系统类型、业务所有者信息以及业务所在部门信息等。
进一步地,所述业务属性信息还可以包括业务的标记名称、业务登录用户名和密码、业务管理员的名称和邮箱地址、业务的实际用途以及根据业务的安全重要性所设定的业务的安全权重信息等,本发明实施例对此不作任何限定。
需要说明的是,对于系统中的各业务来说,对于同一业务属性信息,各资产可能具有相同或不同的业务属性信息属性值,本发明实施例对此不作任何限定。例如,对于业务的操作系统类型这一业务属性信息来说,系统中的业务A的操作系统类型可能为A,系统中的业务B的操作系统类型可能为B,系统中的业务C的操作系统类型可能为C,即系统中业务A、业务B以及业务C三者的同属于操作系统类型这一业务属性信息的属性值各不相同。
进一步地,所述风险扫描装置在确定系统中的各业务以及各业务的业务属性信息之后,可以将确定的各业务以及各业务的业务属性信息以业务数据表(host表)的形式进行存储,并在该业务数据表中标明各业务的ID(身份标识)字段以及任一业务的各业务属性信息对应的字段等内容。
202、确定业务属性信息对应的属性值,并以属性值为节点建立业务数据树,对企业中的所有目标业务进行分类展示;
本实施例中,根据客户端当前所需要的业务分类情况和分类标准建立不同的业务节点展示方式,例如,若客户端需要按照业务的操作系统类型这一业务属性信息对各业务进行分类展示时,则可以根据确定的各业务中同属于业务的操作系统类型这一业务属性信息的不同属性值(例如,操作系统A、操作系统B、操作系统C等),对各业务进行分类,并按照以该业务属性信息的各不同属性值为业务节点的业务树的形式,将各业务进行分类展示。
具体地,所得到的业务树的根节点可以为业务的操作系统类型这一业务属性信息,根节点下的各子节点可以为该业务属性信息的不同属性值(该业务属性信息的不同属性值可以从业务数据表中获得),而任一子节点下的各叶子节点则为同属于该子节点所对应的业务属性信息属性值的各个业务。
进一步地,所述风险扫描装置在进行业务分类展示时,可以只展示以业务属性信息的不同属性值为业务节点的业务树框架,本发明实施例对此不作任何限定。
进一步地,所述风险扫描装置还可以按照业务所有者信息、业务所在部门信息以及业务风险值等业务属性信息对各业务进行分类展示,本发明实施例对此不作任何限定。
203、收集企业业务的历史收益数据;
204、解析历史收益数据,提取出其中的目标业务和目标业务对应的消费特征数据和成本特征数据;
205、基于成本特征数据,确定不同的特征参数组合;
本实施例中,首先通过预设个数确定对应于特征参数组合的个数,然后通过迭代尝试不同的特征参数组合对待评估投业务品进行聚类,确定不同的特征参数组合分别对应的聚类结果,最后基于聚类后得到的各个聚类簇的统计特征之间的差异性,从不同的特征参数组合中选择一种使得差异性最大的特征参数组合作为目标特征参数。
206、根据预设的聚类算法,根据不同的特征参数组合对业务进行聚类,确定不同的特征参数组合分别对应的聚类结果;
本实施例中,聚类算法是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
本实施例中,聚类算法主要有如下几种,比如:划分法。划分法(partitioningmethods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:
(1)每一个分组至少包含一个数据纪录;
(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);
对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。
大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法等。
207、根据聚类结果,从成本特征数据中筛选出用于分析目标业务的特征参数;
本实施例中,在通过比较各个聚类簇的统计特征后,确定每个聚类簇与其他聚类簇之间的差异性,若差异性比较大,则表明该聚类簇比较显著,可以从不同的特征参数组合选取出对应的特征参数组合,若差异性比较小,则表明该聚类簇不显著,则将对应的特征参数组合舍弃掉。
208、对收益影响因子在不同评估时刻的数值进行降维处理,得到所有目标业务的收益率对应的概率;
209、将消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据预测结果和概率,计算目标业务在未来预设时间段内的收益预测数据;
210、分别对所有目标业务的收益预测数据进行统计,生成业务配置结果,并将业务配置结果发送至预设客户端。
本实施例中步骤203-204、208-210与第一实施例中的步骤101-102、104-106类似,此处不再赘述。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
请参阅图3,本发明实施例中业务数据处理方法的第三个实施例包括:
301、收集企业业务的历史收益数据;
302、解析历史收益数据,提取出其中的目标业务和目标业务对应的消费特征数据和成本特征数据;
303、对业务树中的业务节点进行风险扫描,得到业务节点下的各业务的漏洞信息以及各业务的配置信息;
本实施例中,可以根据客户端的当前扫描需求,对业务树中设定位置处的业务或业务节点进行风险扫描,进行风险扫描所需的业务登录用户名和密码以及扫描模板的类型等信息可以从保存的业务数据表中获取;再有,风险扫描装置在得到对应的业务(或业务节点下的各业务)的漏洞信息或配置信息。
304、根据漏洞信息和配置信息,确定目标业务的漏洞风险值和配置风险值;
本实施例中,分别根据得到的该业务的漏洞信息以及配置信息,确定该业务的漏洞风险值和配置风险值,并根据该业务的安全权重系数,对确定的该业务的漏洞风险值、配置风险值进行加权计算,并将计算得到的加权结果作为该业务的业务风险值。
需要说明的是,各业务的安全权重系数需要根据实际情况进行设定,本发明实施例对此不作任何限定。
进一步地,针对任一业务,根据得到的该业务的漏洞信息,确定该业务的漏洞风险值,可以包括:
确定该业务的属于不同危险等级的漏洞数量,并根据确定的该业务的各危险等级的漏洞数量以及各危险等级漏洞的安全权重系数,对该业务的各危险等级的漏洞数量进行加权运算,得到该业务的漏洞加权值,并根据该漏洞加权值所在数值区间,确定该业务的漏洞风险值;或者,将将漏洞加权值作为该业务的漏洞风险值。其中,各危险等级漏洞的安全权重系数可以根据实际情况进行设定,本发明实施例对此不作任何限定。
例如,假定将该业务的各漏洞的危险等级划分为高、中、低三种,且确定的该业务的高危漏洞的数量为L、中危漏洞的数量为M、低危漏洞的数量为N(所述L、M、N均为正整数),同时,假定高危漏洞的安全权重系数为0.6、中危漏洞的安全权重系数为0.3、低危漏洞的安全权重系数为0.1,则所得到的该业务的漏洞加权值F可以表示为:F=0.6L+0.3M+0.1N。
305、根据预设安全权重系数,对目标业务的漏洞风险值和业务的配置风险值进行加权计算,得到目标业务的业务风险值;
本实施例中,在得到该业务的漏洞加权值F后,可以根据该漏洞加权值F所在数值区间,按照设定的规则,确定该业务的漏洞风险值。例如,若该漏洞加权值F大于设定的第一阈值,可认为该业务的漏洞风险值为高,若该漏洞加权值F小于设定的第一阈值且大于设定的第二阈值,可认为该业务的漏洞风险值为中,若该漏洞加权值小于设定的第二阈值,可认为该业务的漏洞风险值为低;其中,所述第一阈值大于第二阈值,且第一阈值和第二阈值可以根据实际情况进行调整,本发明实施例对此不作任何限定。
进一步地,由于配置风险是由业务的系统配置问题所导致的风险,以业务的密码配置为例,若用户将业务的密码长度配置过短或过简单,则可认为该资产存在较高的配置风险,即该业务对应的配置风险值较高;因此,在本发明各实施例中,根据得到的该业务的配置信息,确定该业务的配置风险值。
根据得到的该业务的配置信息的复杂程度,确定该配置信息对应的安全等级,并根据该安全等级的高低或该安全等级对应的安全权重系数的高低,确定该业务的配置风险值。
其中,各安全等级对应的安全权重系数可以根据实际情况进行设定,本发明实施例对此不作任何限定。
306、根据预设的聚类算法,对成本特征数据进行聚类处理,得到目标业务的成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;
307、对收益影响因子在不同评估时刻的数值进行降维处理,得到所有目标业务的收益率对应的概率;
308、将消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据预测结果和概率,计算目标业务在未来预设时间段内的收益预测数据;
309、分别对所有目标业务的收益预测数据进行统计,生成业务配置结果,并将业务配置结果发送至预设客户端。
本实施例中步骤301-302、306-309与第一实施例中的步骤101-102、103-106类似,此处不再赘述。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
请参阅图4,本发明实施例中业务数据处理方法的第四个实施例包括:
401、收集企业业务的历史收益数据;
402、解析历史收益数据,提取出其中的目标业务和目标业务对应的消费特征数据和成本特征数据;
403、根据预设的聚类算法,对成本特征数据进行聚类处理,得到目标业务的成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;
404、对收益影响因子在多个评估时刻的数值进行降维处理,获得多组收益组合在每个评估时刻的组合数值;
本实施例中,服务器在获得配置请求后,获取多个影响业务价格波动的业务价格影响因子。例如:原油价格、国家宏观调控政策等。获取每个业务价格在每个评估时刻的具体数值。评估时刻包括当前时刻和/或历史时刻,且历史时刻距离当前时刻比较近。例如:当前时刻是3月4号8时,评估时刻可以是3月3号的0时到3月4号8时这32个时刻。
此处需要说明的是,若影响因子是政策类影响因子,该类影响因子的数值表示政策导向。例如:国家宏观调控政策的数值范围是1-5,国家宏观调控政策放宽,该因子的数值可以为4或5,根据放宽力度确定具体数值。国家宏观调控政策缩紧,该因子的数值可以为1或2,根据缩紧力度确定具体数值。
从所有业务价格影响因子中选择目标影响因子,基于所选择的目标影响因子在不同评估时刻的数值进行降维处理,获得一组主成分组合在不同评估时刻的组合数值。通过重复执行上述步骤多次,即可获得多组主成分组合在不同评估时刻的组合数值。其中,从多个业务价格影响因子中随机选择多个目标影响因子。例如:有50个业务价格影响因子,从中选择48业务价格影响因子作为目标影响因子。根据多个业务价格影响因子在多个评估时刻的数值确定多个目标影响因子在各个评估时刻的数值。
将所有目标影响因子在一个评估时刻的数值作为一个评估时刻的样本数据,对每个评估时刻的样本数据进行降维处理,获得一组主成分在每个评估时刻的组合数据。
405、对多组收益组合在每个评估时刻的组合数值进行预测处理,得到各类业务的收益率的概率;
本实施例中,其中,主成分组合是对业务价格影响因子进行降维后得到的。主成分组合中各个主成分能够影响各类业务的价格,进而可以根据主成分组合在各个评估时刻的组合数值预测各类业务的收益率的概率。
具体采用如下方式获得一类业务的收益率的概率:根据每一组主成分组合在所有评估时刻的组合数字预测一类业务的价格,也就是每一组主成分组合可以获得一类业务的价格,再对所获得该类业务的价格进行统计,即可获得该类业务的收益率的概率。例如:获得股票的收益率的概率,获得100组主成分组合,根据一组主成分组合在24个评估时刻的组合数值预测得到股票的预测价格,通过遍历100组主成分组合,即可获得100个股票的预测价格,对100个股票的预测价格进行统计获得股票的收益率的概率。
406、将消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据预测结果和概率,计算目标业务在未来预设时间段内的收益预测数据;
407、分别对所有目标业务的收益预测数据进行统计,生成业务配置结果,并将业务配置结果发送至预设客户端。
本实施例中步骤401-403、406-407与第一实施例中的步骤101-103、105-106类似,此处不再赘述。
在本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
请参阅图5,本发明实施例中业务数据处理方法的第五个实施例包括:
501、收集企业业务的历史收益数据;
502、解析历史收益数据,提取出其中的目标业务和目标业务对应的消费特征数据和成本特征数据;
503、根据预设的聚类算法,对成本特征数据进行聚类处理,得到目标业务的成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;
504、对收益影响因子在不同评估时刻的数值进行降维处理,得到所有目标业务的收益率对应的概率;
505、确定与业务的特征参数对应的特征值;
本实施例中,为了确保在对特征参数进行完整选取的同时,还能够排除其他非相关特征参数的干扰因素,本实施例还根据预设的聚类算法从预设个数的特征参数中选取了对应的目标特征参数,进一步地,确定所述目标特征参数对应的特征值。
506、将业务划分为不同的业务组合;
本实施例中,通过预设个数确定对应于特征参数组合的个数,然后通过迭代尝试不同的特征参数组合对待评估投业务品进行聚类,确定不同的特征参数组合。
507、根据预设的聚类算法和特征参数,对不同的业务组合进行聚类,得到多个聚类簇;
本实施例中,不同的特征参数组合分别对应的聚类结果,最后基于聚类后得到的各个聚类簇的统计特征之间的差异性,从不同的特征参数组合中选择一种使得差异性最大的特征参数组合作为特征参数。
在通过比较各个聚类簇的统计特征后,确定每个聚类簇与其他聚类簇之间的差异性,若差异性比较大,则表明该聚类簇比较显著,可以从不同的特征参数组合选取出对应的特征参数组合,若差异性比较小,则表明该聚类簇不显著,则将对应的特征参数组合舍弃掉,得到多个聚类簇。
508、根据聚类簇的统计特征,分别从多个聚类簇中筛选出统计特征最优的聚类簇;
本实施例中,将待评估投业务品划分为不同的待评估投业务品组合,然后根据使用筛选出的特征参数集对不同的待评估投业务品组合进行聚类,得到多个聚类簇,然后基于聚类后的每个聚类簇的统计特征,从多个聚类簇中选择一个对应的统计特征最优的聚类簇。
509、基于选择的聚类簇中的各个业务的历史收益数据和特征参数的特征值,搭建GA-BP神经网络模型;
本实施例中,BP神经网络中的BP为Back Propagation的简写。具体地,搭建GA-BP神经网络模型的输入层将刺激传递给隐藏层,隐藏层通过神经元之间联系的强度(权重)和传递规则(激活函数)将刺激传到输出层,输出层整理隐藏层处理的后的刺激产生最终结果。若有正确的结果,那么将正确的结果和产生的结果进行比较,得到误差,再逆推对神经网中的链接权重进行反馈修正,从而来完成学习的过程。这就是BP神经网的反馈机制,也正是BP(Back Propagation)名字的来源:运用向后反馈的学习机制,来修正神经网中的权重,最终达到输出正确结果的目的。
510、将业务的历史收益数据输入预设GA-BP神经网络模型进行训练直到GA-BP神经网络模型收敛,得到收益预测模型;
本实施例中,将待评估投业务品划分为不同的待评估投业务品组合,然后根据使用筛选出的特征参数集对不同的待评估投业务品组合进行聚类,得到多个聚类簇,然后基于聚类后的每个聚类簇的统计特征,从多个聚类簇中选择一个对应的统计特征最优的聚类簇,最后将筛选出的特征参数集下的特征值作为收益预测模型的输入特征,将任一个待评估投业务品的历史收益数据作为收益预测模型的输入结果,训练得到对应于该任一个待评估投业务品的收益预测模型。
其中,本实施例可以采用神经网络模型作为收益预测模型,模型训练阶段也就是训练神经网络模型中一些未知的参数信息的过程。之后,就可以基于该收益预测模型为用户提供收益预测服务此时只需要将用户提供的特征参数集的特征值输入到训练好的收益预测模型中即可。
本实施例在将待评估投业务品划分为不同的待评估投业务品组合之前,还根据用户自定义参数,对待评估投业务品进行过滤。
具体的,本实施例中的用户自定义参数,可以是最短交易天数、相对大盘胜率、历史平均绝对收益、历史最大回撤、历史夏普比率、组合所包含上市公司平均年净利润增幅等参数中的一种或多种。通过输入一个或多个参数过滤条件,即可对待评估投业务品进行初步过滤,得到符合条件的精简待评估投业务品。例如,可以设定过去250个交易日中,以每7个交易日为滑窗,每7个交易日的收益率均高于沪深300等相关过滤参数筛选出相应的待评估投业务品,进一步提高后续模型训练的效率。
511、将消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据预测结果和概率,计算目标业务在未来预设时间段内的收益预测数据;
512、分别对所有目标业务的收益预测数据进行统计,生成业务配置结果,并将业务配置结果发送至预设客户端。
本实施例中步骤501-504、511-512与第一实施例中的步骤101-106类似,此处不再赘述。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
上面对本发明实施例中业务数据处理方法进行了描述,下面对本发明实施例中业务数据处理装置进行描述,请参阅图6,本发明实施例中业务数据处理装置的第一个实施例包括:
收集模块601,用于收集企业业务的历史收益数据;
提取模块602,用于解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;
聚类模块603,用于根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述成本特征参数确定所述目标业务的收益影响因子;
降维模块604,用于对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;
预测模块605,用于将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;
生成模块606,用于对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
请参阅图7,本发明实施例中业务数据处理装置的第二个实施例,该业务数据处理装置具体包括:
收集模块601,用于收集企业业务的历史收益数据;
提取模块602,用于解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;
聚类模块603,用于根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述成本特征参数确定所述目标业务的收益影响因子;
降维模块604,用于对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;
预测模块605,用于将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;
生成模块606,用于对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
在本实施例中,所述业务数据处理装置还包括:
第一确定模块607,用于确定企业中的目标业务以及所述目标业务的业务属性信息;
展示模块608,用于确定所述业务属性信息对应的属性值,并以所述属性值为节点建立业务数据树,对企业中的所有所述目标业务进行分类展示。
在本实施例中,所述聚类模块603具体用于:
基于所述成本特征数据,确定不同的特征参数组合;
根据预设的聚类算法,根据所述不同的特征参数组合对所述业务进行聚类,确定所述不同的特征参数组合分别对应的聚类结果;
根据所述聚类结果,从所述成本特征数据中筛选出用于分析所述目标业务的特征参数。
在本实施例中,所述业务数据处理装置还包括:
扫描模块609,用于对所述业务树中的业务节点进行风险扫描,得到所述业务节点下的各业务的漏洞信息以及所述各业务的配置信息;
第二确定模块610,用于根据所述漏洞信息和所述配置信息,确定所述目标业务的漏洞风险值和配置风险值;
计算模块611,用于根据预设安全权重系数,对所述目标业务的漏洞风险值和所述业务的配置风险值进行加权计算,得到所述目标业务的业务风险值。
在本实施例中,所述降维模块604具体用于:
对所述收益影响因子在多个评估时刻的数值进行降维处理,获得多组收益组合在每个所述评估时刻的组合数值;
对所述多组收益组合在每个评估时刻的组合数值进行预测处理,得到各类业务的收益率的概率。
在本实施例中,所述业务数据处理装置还包括:
第三确定模块612,用于确定与所述业务的特征参数对应的特征值;
训练模块613,用于将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型。
本实施例中,所述训练模块613包括:
划分单元6131,用于将所述业务划分为不同的业务组合;
聚类单元6132,用于根据预设的聚类算法和所述特征参数,对所述不同的业务组合进行聚类,得到多个聚类簇;
筛选单元6133,用于根据所述聚类簇的统计特征,分别从所述多个聚类簇中筛选出所述统计特征最优的聚类簇;
搭建单元6134,用于基于选择的所述聚类簇中的各个业务的历史收益数据和所述特征参数的特征值,搭建GA-BP神经网络模型;
训练单元6135,用于将所述业务的历史收益数据输入预设GA-BP神经网络模型进行训练直到所述GA-BP神经网络模型收敛,得到收益预测模型。
本发明实施例中,通过对收集的历史收益数据进行解析,得到目标业务和目标业务对应的消费特征数据和成本特征数据;根据预设的聚类算法对成本特征数据进行聚类处理,得到成本特征参数,并根据成本特征参数确定目标业务的收益影响因子;对收益影响因子进行降维处理,得到目标业务的收益率对应概率;将消费特征数据输入预设收益预测模型进行预测,并根据得到的预测结果和概率,计算目标业务在预设时间段内的收益预测数据;对收益预测数据进行统计,生成业务配置结果。本发明通过对历史收益数据和对收益发生影响的按照项目进行分析,进而对未来的收益预期数据进行测算,再汇总得到整体的预测收益信息,解决了业务数据的配置预测准确率低的技术问题。
上面图6和图7从模块化功能实体的角度对本发明实施例中的业务数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中业务数据处理设备进行详细描述。
图8是本发明实施例提供的业务数据处理设备的结构示意图,该业务数据处理设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对业务数据处理设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在业务数据处理设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的业务数据处理方法的步骤。
业务数据处理设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的业务数据处理设备结构并不构成对本申请提供的业务数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述业务数据处理方法的步骤。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种业务数据处理方法,其特征在于,所述业务数据处理方法包括:
收集企业业务的历史收益数据;
解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;
根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述成本特征参数确定所述目标业务的收益影响因子;
对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;
将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;
对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
2.根据权利要求1所述的业务数据处理方法,其特征在于,在所述收集企业业务的历史收益数据之前,还包括:
确定企业中的目标业务以及所述目标业务的业务属性信息;
确定所述业务属性信息对应的属性值,并以所述属性值为节点建立业务数据树,对企业中的所有所述目标业务进行分类展示。
3.根据权利要求1所述的业务数据处理方法,其特征在于,所述根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数包括:
基于所述成本特征数据,确定不同的特征参数组合;
根据预设的聚类算法,根据所述不同的特征参数组合对所述业务进行聚类,确定所述不同的特征参数组合分别对应的聚类结果;
根据所述聚类结果,从所述成本特征数据中筛选出用于分析所述目标业务的特征参数。
4.根据权利要求1所述的业务数据处理方法,其特征在于,在所述根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数之前,还包括:
对所述业务树中的业务节点进行风险扫描,得到所述业务节点下的各业务的漏洞信息以及所述各业务的配置信息;
根据所述漏洞信息和所述配置信息,确定所述目标业务的漏洞风险值和配置风险值;
根据预设安全权重系数,对所述目标业务的漏洞风险值和所述业务的配置风险值进行加权计算,得到所述目标业务的业务风险值。
5.根据权利要求1所述的业务数据处理方法,其特征在于,所述对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率包括:
对所述收益影响因子在多个评估时刻的数值进行降维处理,获得多组收益组合在每个所述评估时刻的组合数值;
对所述多组收益组合在每个评估时刻的组合数值进行预测处理,得到各类业务的收益率的概率。
6.根据权利要求1所述的业务数据处理方法,其特征在于,在所述将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据之前,还包括:
确定与所述业务的特征参数对应的特征值;
将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型。
7.根据权利要求6所述的业务数据处理方法,其特征在于,所述将所述业务的历史收益数据和所述特征参数对应的特征值输入预设GA-BP神经网络模型进行训练,直到所述GA-BP神经网络模型收敛,得到收益预测模型包括:
将所述业务划分为不同的业务组合;
根据预设的聚类算法和所述特征参数,对所述不同的业务组合进行聚类,得到多个聚类簇;
根据所述聚类簇的统计特征,分别从所述多个聚类簇中筛选出所述统计特征最优的聚类簇;
基于选择的所述聚类簇中的各个业务的历史收益数据和所述特征参数的特征值,搭建GA-BP神经网络模型;
将所述业务的历史收益数据输入预设GA-BP神经网络模型进行训练直到所述GA-BP神经网络模型收敛,得到收益预测模型。
8.一种业务数据处理装置,其特征在于,所述业务数据处理装置包括:
收集模块,用于收集企业业务的历史收益数据;
提取模块,用于解析所述历史收益数据,提取出其中的目标业务和所述目标业务对应的消费特征数据和成本特征数据;
聚类模块,用于根据预设的聚类算法,对所述成本特征数据进行聚类处理,得到所述目标业务的成本特征参数,并根据所述成本特征参数确定所述目标业务的收益影响因子;
降维模块,用于对所述收益影响因子在不同评估时刻的数值进行降维处理,得到所有所述目标业务的收益率对应的概率;
预测模块,用于将所述消费特征数据输入预先训练好的收益预测模型进行预测,得到预测结果,并根据所述预测结果和所述概率,计算所述目标业务在未来预设时间段内的收益预测数据;
生成模块,用于对所述目标业务的收益预测数据进行统计,生成业务配置结果,并将所述业务配置结果发送至预设客户端。
9.一种业务数据处理设备,其特征在于,所述业务数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行如权利要求1-7中任一项所述的业务数据处理方法的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的业务数据处理方法的各个步骤。
CN202210579699.6A 2022-05-26 2022-05-26 业务数据处理方法、装置、设备及存储介质 Pending CN114971711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210579699.6A CN114971711A (zh) 2022-05-26 2022-05-26 业务数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210579699.6A CN114971711A (zh) 2022-05-26 2022-05-26 业务数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114971711A true CN114971711A (zh) 2022-08-30

Family

ID=82955217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210579699.6A Pending CN114971711A (zh) 2022-05-26 2022-05-26 业务数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114971711A (zh)

Similar Documents

Publication Publication Date Title
US20180260891A1 (en) Systems and methods for generating and using optimized ensemble models
CN104321794B (zh) 一种使用多维评级来确定一实体的未来商业可行性的系统和方法
CN107993143A (zh) 一种信贷风险评估方法及系统
CN108388974A (zh) 基于随机森林和决策树的优质客户优化识别方法及装置
CN111738843B (zh) 一种使用流水数据的量化风险评价系统和方法
CN117151870B (zh) 一种基于客群画像行为分析方法及系统
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
Zhou et al. Corporate communication network and stock price movements: insights from data mining
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
CN111738819A (zh) 表征数据筛选方法、装置和设备
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价系统
CN114187125A (zh) 理赔案件分流方法、装置、设备及存储介质
Wang Research on bank marketing behavior based on machine learning
CN116523301A (zh) 基于电商大数据进行风险评级预测的系统
Liu Design of XGBoost prediction model for financial operation fraud of listed companies
CN114971711A (zh) 业务数据处理方法、装置、设备及存储介质
Murad et al. Application Engineer Selection using Simple Additive Weighting Method Approach
Bidyuk et al. The algorithm for predicting the cryptocurrency rate taking into account the influence of posts of a group of famous people in social networks
Popeangă Data mining smart energy time series
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN111951099A (zh) 一种信用卡发卡模型及其运用方法
CN114443409A (zh) 支付业务系统监控方法、装置和设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination