CN116541565A - 数据图表生成方法、装置、电子设备及存储介质 - Google Patents

数据图表生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116541565A
CN116541565A CN202310829604.6A CN202310829604A CN116541565A CN 116541565 A CN116541565 A CN 116541565A CN 202310829604 A CN202310829604 A CN 202310829604A CN 116541565 A CN116541565 A CN 116541565A
Authority
CN
China
Prior art keywords
data
generating
weak classifier
chart
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310829604.6A
Other languages
English (en)
Inventor
康贝贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202310829604.6A priority Critical patent/CN116541565A/zh
Publication of CN116541565A publication Critical patent/CN116541565A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及金融图表生成领域,揭露一种数据图表生成方法,包括:响应请求,根据请求获取历史数据;对历史数据进行分类生成类别数据,将类别数据划分为第一训练集、第一测试集;将第一训练集划分为至少两个子训练集,将两个子训练集导入第一预测模型中的各个弱分类器中进行预测,并监测输出的预测值;当监测到预测值的总和等于第一测试集的标签数值时生成目标预测模型,利用目标预测模型计算待计算对象的目标预测值,将目标预测值生成数据图表并反馈至用户。本发明应用在金融安全、保险等领域中,对历史数据快速、准确地生成预测未来时间段的数据图表,提高制定业务策略的准确性,提高处理金融业务数据的速度。

Description

数据图表生成方法、装置、电子设备及存储介质
技术领域
本发明涉及金融图表生成领域,尤其涉及一种数据图表生成方法、装置、电子设备及存储介质。
背景技术
在金融科技领域中,基于历史数据生成预期的数据图表,根据数据图表来制定业务策略是企业非常重要的一项工作。
例如,在农业保险领域中,利用历史数据分析来制定业务策略时,需要大量的工作人员获取到某个角度的历史数据统计,然后由工作人员凭借自己的工作经验给出指定维度下的数据,对未来时间段做预测分析。
这种传统的制定业务策略的方法对于工作人员的专业要求过高,已无法满足从海量的历史数据中提取有用的信息,并加以分析和快速制定出数据图表。
因此,如何快速、准确地生成数据图表是一个亟待解决的问题。
发明内容
鉴于以上内容,有必要提供一种数据图表生成方法,其目的在于对数据快速、准确地生成数据图表。
本发明提供的数据图表生成方法,包括:
响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;
对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集;
根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值;
当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
可选的,所述根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据,包括:
根据所述请求的预设时间段,从预设数据库中获取预设数量的业务订单,作为所述历史数据。
可选的,所述对所述历史数据进行分类处理,生成至少两种类别数据,包括:
根据所述历史数据的属性,对所述历史数据进行分类,生成至少一种类别数据,所述属性包括地区机构、季节、险种、标的、是否理赔及是否再保中的至少一种属性。
可选的,所述将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值,包括:
获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值;
利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代。
可选的,所述获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值,包括:
A10、将所述子训练集导入所述第一弱分类器进行预测,得到所述第一弱分类器输出的第一预测值;
A20、获取所述第一测试集的标签数值作为所述第一弱分类器的第一目标值,计算所述第一目标值与所述第一预测值的第一差值,并将所述第一差值作为所述第一预测模型的第二弱分类器的目标值。
可选的,所述利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代,包括:
A30、将所述子训练集导入所述第二弱分类器进行预测,得到所述第二弱分类器输出的第二预测值;
A40、计算所述第二预测值与所述第一预测值的第二差值,作为所述第一预测模型的第三弱分类器的目标值;
A50、对除了所述第一、二个弱分类器之外的弱分类器执行步骤A30-A40进行迭代预测,直至监测到各个弱分类器输出的预测值的总和等于所述第一测试集的标签数值时,停止所述迭代预测。
可选的,所述基于所述目标预测值生成数据图表,包括:
根据待计算数据的属性,将对应的目标预测值导入至预设图表模板中的对应位置,生成所述数据图表。
为了解决上述问题,本发明还提供一种数据图表生成装置,所述装置包括:
获取模块,用于响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;
划分模块,用于对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集;
监测模块,用于根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值;
图表生成模块,用于当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的数据图表生成程序,所述数据图表生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述数据图表生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据图表生成程序,所述数据图表生成程序可被一个或者多个处理器执行,以实现上述数据图表生成方法。
相较现有技术,本发明通过响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集。通过多个角度对历史数据进行分类处理,减少大量的工作人员去获取到某个角度的历史数据统计的工作量。
根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值。通过划分合适的子训练集,不断的训练基于交叉验证的第一预测模型,释放大量的工作人员的人员成本投入和减少对工作人员的专业要求性的依赖。
当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。将目标预测值生成数据图表将,为决策者带来直观、简洁、智能的预测数据参考,可对农业保险的业务人员给出未来决策的数据参考。
本发明可以应用在金融安全、保险等领域中,对历史数据快速、准确地生成预测未来时间段的数据图表,提高制定业务策略的准确性,提高处理金融业务数据的速度。
附图说明
图1为本发明一实施例提供的数据图表生成方法的流程示意图;
图2为本发明一实施例提供的数据图表生成装置的模块示意图;
图3为本发明一实施例提供的实现数据图表生成方法的电子设备的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在金融科技领域中,基于历史数据生成预期的数据图表,根据数据图表来制定业务策略是企业非常重要的一项工作。
本发明提供一种数据图表生成方法,可以支持金融数据、农业保险等的应用场景。
对于常规的农业保险系统而言,基于农业保险系统历史大数据从地区、季节、险种、标的、理赔、再保等多个角度分门别类的预测各类各地区农业保险的业务量,这不仅需要大量经验丰富的业务员人力投入,还需要开发人员基于历史数据汇总导出报表。
本发明通过对历史数据划分成合适的子训练集,不断的训练基于交叉验证的第一预测模型,释放大量的工作人员的人员成本投入和减少对工作人员的专业要求性的依赖,将目标预测值生成数据图表将,为决策者带来直观、简洁、智能的预测数据参考,可对农业保险的业务人员给出未来决策的数据参考。使得目标预测模型应用于农业保险系统具备数据智能预测的能力。
本发明的数据图表生成方法可以应用于金融数据、农业保险的数据分析,也可以应用于银行机构,证券机构等场景,提高制定业务策略的准确性,提高处理金融业务数据的速度。
参照图1所示,为本发明一实施例提供的数据图表生成方法的流程示意图。该方法由电子设备执行。
本实施例中,数据图表生成方法包括:
S1、响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据。
在本实施例中,用户生成数据图表的请求包括生成数据图表的对应的历史数据、待计算对象。
历史数据可以是金融机构的数据库的金融类型数据,也可以是其它交易平台的数据库的交易类型数据。在此并不限定。
数据图表是一种预测未来时间段的业务量的可视化图表,用于给企业制定业务策略的信息。
本发明将以例子H进行举例说明(并不作任何场景限定):
例如,在2023年1月1日,用户A通过网络登录了金融机构的农业保险系统中的生成数据图表的界面,在该界面选择2021年1月1日到2022年12月30日,将这24个月的金融数据作为历史数据的计算对象,以及选择2023年1月1日到2023年3月30日,这3个月作为生成数据图表的待计算对象,根据这些选择后的信息生成数据图表的请求,将该请求发送金融机构的服务器进行处理。
也就是说,以历史数据作为计算对象,来预测待计算对象在未来时间段的可能产生的业务数据。
在一个实施例中,所述根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据,包括:
根据所述请求的预设时间段,从预设数据库中获取预设数量的业务订单,作为所述历史数据。
预设时间段是指用户在请求中包含使用的历史数据的时间段。
延续上述例子H, 预设时间段是用户A在农业保险系统中,选择2021年1月1日到2022年12月30日,这24个月作为预设时间段。
从农业保险系统的数据库获取这24个月内产生的全部农业保险订单,这些业保险订单对于农业保险的业务人员,可以给出未来决策的数据参考。
可以获取预设数量(例如,每个月获取1000单,一共24000单,或者前12个月获取20000单,后12个月获取4000单,对于获取的数量和方法不作限定)的农业保险订单,作为历史数据。
农业保险是专为农业生产者在从事种植业、林业、畜牧业和渔业生产过程中,对遭受自然灾害、意外事故疫病、疾病等保险事故所造成的经济损失提供保障的一种赔偿保险。
这些历史数据的每张订单包含了地区机构、季节、险种、标的、是否理赔、是否再保等属性。
在步骤S1中,响应用户生成数据图表的请求,只需要用户登录金融机构能够获取金融机构的数据库的多个角度的业务订单。
可以减少大量的工作人员去获取到某个角度的历史数据统计的工作量。
S2、对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集。
在本实施例中,根据历史数据的属性(属性包括以下至少之一:地区机构、季节、险种、标的、是否理赔及是否再保)对历史数据进行分类,可以生成以下至少之一:不同地区机构、不同季节、不同险种、不同标的、是否理赔、是否再保的类别数据;
将分类后的类别数据按预设比例(例如8:2)或随机划分为第一训练集、第一测试集。
在一个实施例中,所述对所述历史数据进行分类处理,生成至少两种类别数据,包括:
根据所述历史数据的属性,对所述历史数据进行分类,生成至少一种类别数据,所述属性包括地区机构、季节、险种、标的、是否理赔及是否再保中的至少一种属性。
在一个实施例中,在所述生成至少两种类别数据之后,该方法还包括:
对所述类别数据进行标签处理并存储至预设数据库数据库。
将分类后的类别数据进行标记标签处理,并存储于数据库中,利用有标签数据能够提高生成数据图表的准确率和减少模型的训练时间。
延续上述例子H,例如,对历史数据进行分类出了不同地区机构的类别数据、是否理赔的类别数据、是否再保的类别数据等
以不同地区机构的类别数据将这24月划分不同时间段(按离当前时间点划分24个月、18个月、12个月、6个月、3个月),分别统计在不同时间段的各个地区机构的承保业务数量,例如,统计出山东地区机构在上述不同时间段的承保业务数量为(5000、3800、3600、2800、1500),为每张订单标记上地区机构的标签和对应时间段的标签,例如,对农业保险订单A标记上山东地区机构的标签、承保业务数量标签和属于12个月(时间段)的标签。
在一个实施例中,所述将所述类别数据划分为第一训练集、第一测试集,包括:
基于预设机器学习库的分割函数,将所述请求的预设时间段划分为至少两个子时间段,所述第一子时间段的发生时间段早于所述第二子时间段的发生时间段;
根据所述第一子时间段确定出所述类别数据的第一训练集,及根据所述第二子时间段确定出所述类别数据的第一测试集。
在一个实施例中,所述预设机器学习库为scikit-learn学习库,所述分割函数为train_test_split函数。
预设机器学习库的功能包括分类、回归、聚类、数据降维、模型选择、数据预处理。本实施例是利用预设机器学习库的分类功能中的决策树对数据进行预处理。
分割函数能够将类别数据按照用户的需要指定划分为训练集和测试集。可以避免手动划分带来效率低的问题,也可以避免随机划分的不确定性的问题。
延续上述例子H,例如,用户A在分割函数的界面中输入划分要求和时间点等信息,将这24月内的类别数据再划分为两个子时间段,将第一子时间段(2021年1月1日到2021年12月30日)的分类数据划分为第一训练集,将第二子时间段(2022年1月1日到2022年12月30日)的分类数据划分为第一测试集,从而实现用户对类别数据的准确、快速的划分。
在步骤S2中,通过预设机器学习库对类别数据的准确、快速的划分,可以避免手动划分带来效率低的问题,也可以避免随机划分的不确定性的问题。
S3、根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值。
在本实施例中,预置的划分策略是指将第一训练集按照月或季节划分成多个子训练集。
延续上述例子H, 第一训练集为2021年1月1日到2021年12月30日的分类数据,可以按照季节进行划分:
2021年1月1日到2021年3月30日的数据为第一子训练集;
2021年1月1日到2021年6月30日的数据为第二子训练集;
2021年1月1日到2021年9月30日的数据为第三子训练集;
2021年1月1日到2021年12月30日的数据为第四子训练集;
也就是说,各个子训练集中的部分数据是重复或有交集时间段的,也是本发明相对于现有技术(各个训练集或子训练集的数据不重复的)的区别,利用各个子训练集中的重复数据提高数据之间关联性和过渡性,能够帮助第一预测模型中的各个弱分类器的迭代预测更加准确。
然后,将第一子训练集依次导入第一预测模型的1-N个弱分类器中;
将第二子训练集依次导入第一预测模型的1-N个弱分类器中;由此类推进行导入各个子训练集,并监测各个弱分类器输出的预测值。
在一个实施例中,在所述,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测之前,该方法还包括:
基于预设机器学习库的随机搜索算法对初始预测模型的超参数进行优化,得到所述第一预测模型。
所述超参数包括最小样本数量、最大深度、特征个数、学习率、基评估器的数量及附属样本。
初始预测模型(GBDT算法模型,全称Gradient Boosting Decision Tree)是一种广泛用于分类、回归和推荐系统中排序任务的机器学习算法。
利用预设机器学习库的随机搜索算法(Randomized-Search CV)对初始预测模型的超参数进行以下优化:
min_samples_split=[];min_samples_leaf=[];max_depth=[];max_features=[];learning_rate=[];n_estimators=[];subsamples=[];
其中,min_samples_split为设置结点的最小样本数量,当样本数量可能小于此值时,结点将不会在划分。
min_samples_leaf为叶节点必须有的最小样本数量。
max_depth为最大深度。
max_features为限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。
learning_rate为学习率。
n_estimators为是控制森林中树木的数量,即基评估器的数量。
Subsamples为附属样本/子样本。
Randomized-SearchCV主要对GBDT算法模型的弱分类器CART回归树的max_depth、min_samples_split、min_samples_leaf、max_feature进行调节,使得GBDT算法模型中的弱分类器更优,从而提升对于农险系统的预测准确率。
在一个实施例中,所述将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值,包括:
获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值;
利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代。
把生成的各时间段的子训练集,串行的导入弱分类器,通过第一预测模型把所有弱分类器的结果相加等于测试集的标签数值,然后下一个弱分类器去拟合误差函数对预测值的残差(残差就是预测值与真实值之间的误差)。
在一个实施例中,所述获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值,包括:
A10、将所述子训练集导入所述第一弱分类器进行预测,得到所述第一弱分类器输出的第一预测值;
A20、获取所述第一测试集的标签数值作为所述第一弱分类器的第一目标值,计算所述第一目标值与所述第一预测值的第一差值,并将所述第一差值作为所述第一预测模型的第二弱分类器的目标值。
在一个实施例中,所述利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代,包括:
A30、将所述子训练集导入所述第二弱分类器进行预测,得到所述第二弱分类器输出的第二预测值;
A40、计算所述第二预测值与所述第一预测值的第二差值,作为所述第一预测模型的第三弱分类器的目标值;
A50、对除了所述第一、二个弱分类器之外的弱分类器执行步骤A30-A40进行迭代预测,直至监测到各个弱分类器输出的预测值的总和等于所述第一测试集的标签数值时,停止所述迭代预测。
第一测试集的标签数值是指第一测试集的各个标签值之和,例如,农业保险订单A标记有山东地区机构的标签、承保业务数量标签和属于12个月(时间段)的标签,通过预设转换方式将这些标签转换数字序列得到农业保险订单A的标签数值。
延续上述例子H,将第一子训练集依次导入第一预测模型的1-N个弱分类器中,将第二子训练集依次导入第一预测模型的1-N个弱分类器中;由此类推进行导入,并监测各个弱分类器输出的预测值。
那么利用第一训练集为2021年1月1日到2021年12月30日的分类数据,来预测2022年的3个月、6个月、9个月及2022全年的数据。
在步骤S3中,根据第一测试集(即2022年1月1日到2022年12月30日的类别数据)对应的标签数值,来判断第一预测模型的各个弱分类器输出的预测值的总和是否准确。
通过划分合适的子训练集,不断的训练基于交叉验证的GBDT算法模型,实现在农业保险系统基于多维度的数据图表生成方法。释放大量的工作人员的人员成本投入和减少对工作人员的专业要求性的依赖,并可对农业保险的业务人员给出未来决策的数据参考。
S4、当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
在本实施例中,当监测到所有的预测值的总和等于测试集的标签数值时,生成目标预测模型基于农业保险系统的历史大数据训练得来的,也是基于从地区机构、季节、险种、标的、是否理赔、是否再保等多个角度、多个类别的农业保险的业务量训练得来的。
延续上述例子H,利用目标预测模型计算请求中的待计算对象(2023年1月1日到2023年3月30日)的目标预测值,将输出的目标预测值生成数据图表,将数据图表通过农业保险系统的界面显示给用户观看来制定相应的业务策略,使得农业保险系统具备数据智能预测的能力。
从而用户可以在界面选择未来时间的预测结果进行自由切换观看,例如,选择2023年1月1日到2023年2月30日的预测结果,或者选择切换2023年1月20日到2023年3月10日的预测结果。
在一个实施例中,在所述利用所述目标预测模型计算所述待计算对象的目标预测值之后,该方法还包括:
将所述目标预测值存储至所述数据库并进行归档。
为了提高下次生成数据图表的效率和节省服务器的运行资源,在用户重新要观看数据图表时,目标预测值存储至数据库,基于用户登录农业保险系统的帐号对其观看过的目标预测值进行归档,减少用户的等待时间。
在一个实施例中,所述基于所述目标预测值生成数据图表,包括:
根据待计算数据的属性,将对应的目标预测值导入至预设图表模板中的对应位置,生成所述数据图表。
待计算数据的属性是指生成数据图表的项目。例如,用户想要数据图表生成的项目有地区机构、季节、险种、标的、是否理赔、是否再保等属性。那么,将得到的目标预测值各个对应数据导入至预设图表模板中的对应位置,生成数据图表。
在步骤S4中,将目标预测值生成数据图表将,为决策者带来直观、简洁、智能的预测数据参考,简化业务人员的系统使用体验以及释放开发人员人力。
在步骤S1-S4中,通过对历史数据划分成合适的子训练集,不断的训练基于交叉验证的第一预测模型,释放大量的工作人员的人员成本投入和减少对工作人员的专业要求性的依赖,将目标预测值生成数据图表将,为决策者带来直观、简洁、智能的预测数据参考,可对农业保险的业务人员给出未来决策的数据参考。使得目标预测模型应用于农业保险系统具备数据智能预测的能力。
如图2所示,为本发明一实施例提供的数据图表生成装置的模块示意图。
本发明所述数据图表生成装置100可以安装于电子设备中。根据实现的功能,所述数据图表生成装置100可以包括获取模块110、划分模块120、监测模块130及图表生成模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据。
划分模块120,用于对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集。
监测模块130,用于根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值。
图表生成模块140,用于当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
在一个实施例中,所述根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据,包括:
根据所述请求的预设时间段,从预设数据库中获取预设数量的业务订单,作为所述历史数据。
在一个实施例中,所述对所述历史数据进行分类处理,生成至少两种类别数据,包括:
根据所述历史数据的属性,对所述历史数据进行分类,生成至少一种类别数据,所述属性包括地区机构、季节、险种、标的、是否理赔及是否再保中的至少一种属性。
在一个实施例中,所述将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值,包括:
获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值;
利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代。
在一个实施例中,所述获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值,包括:
A10、将所述子训练集导入所述第一弱分类器进行预测,得到所述第一弱分类器输出的第一预测值;
A20、获取所述第一测试集的标签数值作为所述第一弱分类器的第一目标值,计算所述第一目标值与所述第一预测值的第一差值,并将所述第一差值作为所述第一预测模型的第二弱分类器的目标值。
在一个实施例中,所述利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代,包括:
A30、将所述子训练集导入所述第二弱分类器进行预测,得到所述第二弱分类器输出的第二预测值;
A40、计算所述第二预测值与所述第一预测值的第二差值,作为所述第一预测模型的第三弱分类器的目标值;
A50、对除了所述第一、二个弱分类器之外的弱分类器执行步骤A30-A40进行迭代预测,直至监测到各个弱分类器输出的预测值的总和等于所述第一测试集的标签数值时,停止所述迭代预测。
在一个实施例中,所述基于所述目标预测值生成数据图表,包括:
根据待计算数据的属性,将对应的目标预测值导入至预设图表模板中的对应位置,生成所述数据图表。
如图3所示,为本发明一实施例提供的实现数据图表生成方法的电子设备的结构示意图。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有数据图表生成程序10,所述数据图表生成程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及数据图表生成程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的数据图表生成程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据图表生成程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据图表生成程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;
对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集;
根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值;
当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
具体地,所述处理器12对上述数据图表生成程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有数据图表生成程序10,所述数据图表生成程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述数据图表生成方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据图表生成方法,其特征在于,所述方法包括:
响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;
对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集;
根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值;
当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
2.如权利要求1所述的数据图表生成方法,其特征在于,所述根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据,包括:
根据所述请求的预设时间段,从预设数据库中获取预设数量的业务订单,作为所述历史数据。
3.如权利要求1或2所述的数据图表生成方法,其特征在于,所述对所述历史数据进行分类处理,生成至少两种类别数据,包括:
根据所述历史数据的属性,对所述历史数据进行分类,生成至少一种类别数据,所述属性包括地区机构、季节、险种、标的、是否理赔及是否再保中的至少一种属性。
4.如权利要求1所述的数据图表生成方法,其特征在于,所述将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值,包括:
获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值;
利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代。
5.如权利要求4所述的数据图表生成方法,其特征在于,所述获取当前分类器预设的目标值与所述当前弱分类器对划分后的子训练集输出的预测值的差值,包括:
A10、将所述子训练集导入所述第一弱分类器进行预测,得到所述第一弱分类器输出的第一预测值;
A20、获取所述第一测试集的标签数值作为所述第一弱分类器的第一目标值,计算所述第一目标值与所述第一预测值的第一差值,并将所述第一差值作为所述第一预测模型的第二弱分类器的目标值。
6.如权利要求5所述的数据图表生成方法,其特征在于,所述利用下一个弱分类器拟合预设误差函数以对所述差值的残差进行迭代,包括:
A30、将所述子训练集导入所述第二弱分类器进行预测,得到所述第二弱分类器输出的第二预测值;
A40、计算所述第二预测值与所述第一预测值的第二差值,作为所述第一预测模型的第三弱分类器的目标值;
A50、对除了所述第一、二个弱分类器之外的弱分类器执行步骤A30-A40进行迭代预测,直至监测到各个弱分类器输出的预测值的总和等于所述第一测试集的标签数值时,停止所述迭代预测。
7.如权利要求1所述的数据图表生成方法,其特征在于,所述基于所述目标预测值生成数据图表,包括:
根据待计算数据的属性,将对应的目标预测值导入至预设图表模板中的对应位置,生成所述数据图表。
8.一种数据图表生成装置,其特征在于,所述装置包括:
获取模块,用于响应用户生成数据图表的请求,根据所述请求的待计算对象从预设数据库获取生成所述数据图表的历史数据;
划分模块,用于对所述历史数据进行分类处理,生成至少两种类别数据,将所述类别数据划分为第一训练集、第一测试集;
监测模块,用于根据预置的时间划分策略,将所述第一训练集划分为有交集时间段的至少两个子训练集,将所述两个子训练集分别导入第一预测模型中的各个弱分类器中进行迭代预测,并监测各个弱分类器输出的预测值;
图表生成模块,用于当监测到所有预测值的总和等于所述第一测试集的标签数值时,生成目标预测模型,利用所述目标预测模型计算所述待计算对象的目标预测值,基于所述目标预测值生成数据图表,将所述数据图表反馈至用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的数据图表生成程序,所述数据图表生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的数据图表生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据图表生成程序,所述数据图表生成程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的数据图表生成方法。
CN202310829604.6A 2023-07-07 2023-07-07 数据图表生成方法、装置、电子设备及存储介质 Pending CN116541565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310829604.6A CN116541565A (zh) 2023-07-07 2023-07-07 数据图表生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310829604.6A CN116541565A (zh) 2023-07-07 2023-07-07 数据图表生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116541565A true CN116541565A (zh) 2023-08-04

Family

ID=87458274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310829604.6A Pending CN116541565A (zh) 2023-07-07 2023-07-07 数据图表生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116541565A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140639A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于机器学习的报表生成方法、装置和计算机设备
CN112597745A (zh) * 2020-12-23 2021-04-02 深圳赛安特技术服务有限公司 一种智能图表的生成方法、装置、计算机系统及可读存储介质
KR20230000410A (ko) * 2021-06-24 2023-01-02 주식회사 이노핀 주가 변동 분포를 예측하는 장치, 방법 및 컴퓨터 프로그램

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140639A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于机器学习的报表生成方法、装置和计算机设备
CN112597745A (zh) * 2020-12-23 2021-04-02 深圳赛安特技术服务有限公司 一种智能图表的生成方法、装置、计算机系统及可读存储介质
KR20230000410A (ko) * 2021-06-24 2023-01-02 주식회사 이노핀 주가 변동 분포를 예측하는 장치, 방법 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
WO2021052031A1 (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
US9087306B2 (en) Computer-implemented systems and methods for time series exploration
US8121875B2 (en) Comparing taxonomies
CN105894183B (zh) 项目评价方法及装置
CN107810500A (zh) 数据质量分析
EP3686756A1 (en) Method and apparatus for grouping data records
CN112100219B (zh) 基于数据库查询处理的报表生成方法、装置、设备和介质
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
CN110909970A (zh) 信用评分方法和装置
CN111881158A (zh) 一种管理报表数据处理方法、装置、计算机系统及可读存储介质
US20230092559A1 (en) Systems and methods for unstructured data processing
CN116579804A (zh) 一种节假日商品销量预测方法、装置及计算机存储介质
CN117223016A (zh) 行业特定的机器学习应用
CN115237724A (zh) 基于人工智能的数据监控方法、装置、设备及存储介质
CN110650170A (zh) 用于推送信息的方法和装置
WO2021033338A1 (ja) 分析システム、装置、制御方法、及びプログラム
CN109522309A (zh) 一种基于审计系统采购信息记录异常值处理方法
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN116541565A (zh) 数据图表生成方法、装置、电子设备及存储介质
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113312482A (zh) 问题分类方法、装置、电子设备及可读存储介质
CN113450208A (zh) 贷款风险变动预警、模型训练方法和装置
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination