CN111402068A - 基于大数据的保费数据分析方法、装置及存储介质 - Google Patents

基于大数据的保费数据分析方法、装置及存储介质 Download PDF

Info

Publication number
CN111402068A
CN111402068A CN202010110994.8A CN202010110994A CN111402068A CN 111402068 A CN111402068 A CN 111402068A CN 202010110994 A CN202010110994 A CN 202010110994A CN 111402068 A CN111402068 A CN 111402068A
Authority
CN
China
Prior art keywords
data
analysis
premium
sets
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010110994.8A
Other languages
English (en)
Other versions
CN111402068B (zh
Inventor
许家幸
陈真
汪海祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010110994.8A priority Critical patent/CN111402068B/zh
Publication of CN111402068A publication Critical patent/CN111402068A/zh
Application granted granted Critical
Publication of CN111402068B publication Critical patent/CN111402068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及大数据技术,揭露了一种基于大数据的保费数据分析方法,包括:获取样本数据集并进行特征分析,对特征分析得到的样本特征集进行过滤并对过滤得到的数据集进行指标评价,生成包括划分函数、训练函数、拟合函数的保费数据分析模型;利用划分函数分别对待分析用户的至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集;利用训练函数对至少两个特征集进行训练,得到至少两个训练集;利用拟合函数对至少两个训练集进行拟合,将拟合得到的分析集组合,得到保费分析结果。本发明还提出一种基于大数据的保费数据分析装置、电子设备以及存储介质。本发明可以提高保费数据分析模型对数据分析的精准度,进而提高保费数据的合理性。

Description

基于大数据的保费数据分析方法、装置及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的保费数据分析方法、装置、电子设备及可读存储介质。
背景技术
随着大数据的发展,金融保险行业迎来了革命性的变化,金融机构的保费定价开始从人工核算转向了智能化。
现有技术中,用于保费定价的数据分析模型,需要通过人工进行筛选操作,包括确定定价计划、决定产品价格以及建立精算假设,通过数据回归算法构造数据分析模型。因此当客户进行投保时,将客户的相关数据输入至数据分析模型中进行分析,需要极大的依赖于人工,导致存在数据分析模型对数据分析精准度不高,进而容易产生保费定价不恰当的问题。
发明内容
本发明提供一种基于大数据的保费数据分析方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高保费数据分析模型对数据分析的精准度,进而提高保费数据的合理性。
为实现上述目的,本发明提供的一种基于大数据的保费数据分析方法,包括:
获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,所述样本数据集包含样本用户的数据;
对所述样本特征集进行过滤,得到过滤数据集;
对所述过滤数据集进行指标评价,生成保费数据分析模型,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集;
利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集;
利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
可选地,所述通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集包括:
将所述样本数据集中的文本和数字进行分组归类,生成文本标签集和数字标签集;
计算所述文本标签集中文本的权重,得到文本权重集;
计算所述数字标签集中数字的权重,得到数字权重集;
将所述文本权重集和所述数字权重集组合,得到样本特征集。
可选地,所述对所述样本特征集进行过滤,包括:
利用主成分分析法对所述样本特征集进行过滤。
可选地,所述对所述过滤数据集进行指标评价,包括:
调用均方对数误差函数对所述过滤数据集进行指标评价,所述均方对数误差函数为:
Figure BDA0002389555250000021
其中,t∈(1,N),N表示所述过滤数据集中的数据总数,yt表示所述过滤数据集中的数据值,ft表示预设的标准值。
可选地,所述利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集包括:
将所述至少两类保费相关数据集分别划分成M*M的矩阵;
将所述矩阵进行特征分解,生成至少两个特征值和至少两个特征向量;
将所述至少两个特征值和所述至少两个特征向量归类组合,得到至少两个特征集。
可选地,所述将所述矩阵进行特征分解,包括:
利用矩阵相似对角化将所述矩阵进行特征分解。
可选地,所述将所述至少两个分析集进行组合,包括:
利用主数据管理方案将所述至少两个分析集进行组合。
为了解决上述问题,本发明还提供一种基于大数据的保费数据分析装置,所述装置包括:
模型训练模块,用于获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,对所述样本特征集进行过滤,得到过滤数据集,对所述过滤数据集进行指标评价,生成保费数据分析模型,所述样本数据集包含样本用户的数据,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
数据获取模块,用于获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
数据处理模块,用于利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集,利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集,利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
数据分析模块,用于将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述中任意一项所述的基于大数据的保费数据分析方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述中任意一项所述的基于大数据的保费数据分析方法。
本发明实施例获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集;对所述样本特征集进行过滤,得到过滤数据集;通过对样本数据集进行特征分析和过滤,可以有效提高样本数据的有效性和准确性,消除多余数据对模型构建的影响,进而提高模型对数据分析的精准度;进一步地,对所述过滤数据集进行指标评价,生成保费数据分析模型;将获取待分析用户的初始数据集通过所述保费数据分析模型进行分析,得到对所述用户的保费分析结果,通过高精准度的保费数据分析模型,可以对数据进行高效的分析,得到精准的分析结果,从而实现提高保费数据分析模型对数据分析的精准度,进而提高保费数据的合理性的目的。
附图说明
图1为本发明一实施例提供的基于大数据的保费数据分析方法的流程示意图;
图2为本发明一实施例提供的基于大数据的保费数据分析装置的模块示意图;
图3为本发明一实施例提供的实现基于大数据的保费数据分析方法的电子设备的内部结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1所示,为本发明一实施例提供的基于大数据的保费数据分析方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于大数据的保费数据分析方法包括:
S1、获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,所述样本数据集包含样本用户的数据。
详细地,本发明实施例从数据仓库中获取样本数据集,所述样本数据集包含但不限于用户的身份数据、车辆数据以及投保数据,本发明实施例中使用的数据挖掘算法为随机森林算法,所述随机森林算法是一个包含多个决策树的分类器,并且分类器输出的类别是由个别树输出的类别的众数而定。所述随机森林算法在当前所有算法中,具有极好的准确率,能够处理具有高维特征的输入样本,并且不需要降维,在生成过程中,能够获取到内部生成误差的一种无偏估计。
进一步地,所述通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集包括:
将所述样本数据集中的文本和数字进行分组归类,生成文本标签集和数字标签集;
计算所述文本标签集中文本的权重,得到文本权重集;
计算所述数字标签集中数字的权重,得到数字权重集;
将所述文本权重集和所述数字权重集组合,得到样本特征集。
本发明实施例中,将样本数据集中不同用户的数据进行分组归类,生成文本标签集和数字标签集,进而通过权重计算得到文本权重集和数字权重集,将文本权重集和数字权重集组合,得到不同用户的分析特征结果,所有用户的分析特征结果组成分析特征集。
例如:样本数据集中包括王五的数据,具体包括:姓名王五,性别男,年龄20岁,年收入20万,车辆型号为宝马X5,车辆估值60万,投保方案101,投保价格为1万,将王五的信息以数据类型进行分组归类,得到文本标签集和数字标签集,文本标签集包括姓名项、性别项、年龄项、年收入项、车辆型号项、车辆估值项、投保方案项以及投保价格项,数字标签集包括:X、X、2020、X、60、101以及1,计算王五的数据项名称和数值占文本标签集和数字标签集的比重,得到王五的分析特征结果。
S2、对所述样本特征集进行过滤,得到过滤数据集。
本发明实施例利用主成分分析法对所述样本特征集进行过滤。
详细地,当随机变量两两之间具有较强的线性相关时,表示变量之间包含了比较多的共同信息,如果将共同信息提取出来,而不损失过多原变量的信息,则可以达到简化问题的目的。因此,所述主成分分析法寻找多维数据当中变异最大的且正交的几个方向,通常要小于原始特征的维数,将特征投影到这几个方向形成的空间当中,这样可以保留数据的多数变异,而将变异较小的剩余方向忽略,并以投影后的数据作为新特征,可以有效提高数据分析的准确性。
本发明实施例中,在所述样本特征集中寻找数据变异最大的方向,在该方向的所有正交方向上寻找剩余变异最大的方向,以此类推,这些“方向”被称为主成分,以向量的形式表示,然后按照各主成分方向可解释的数据变异的多少来决定要保留几个主成分,最后将数据投影到主成分上形成新的坐标值,该值就是新的特征值。
例如:经过数据预处理后,得到的样本特征集包含年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据,通过所述主成分分析法对所述样本特征集进行过滤,得到年收入项、车辆估值项、投保方案项以及投保价格项四个特征的过滤数据集。
S3、对所述过滤数据集进行指标评价,生成保费数据分析模型,所述保费数据分析模型包括划分函数、训练函数、拟合函数。
详细地,本发明实施例调用均方对数误差函数对所述过滤数据集进行指标评价,所述均方对数误差函数为:
Figure BDA0002389555250000061
其中,t∈(1,N),N表示所述过滤数据集中的特征总数,yt表示所述过滤数据集中的特征值,ft表示预设的标准值。
例如,通过对所述过滤数据集中的数据(如年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据)进行计算,输出结果值,通过将该结果值与预设的平均值进行比较,将比较结果进行分类存储,将分类存储的数据进行拟合训练,生成保费数据分析模型,所述保费数据分析模型包括划分函数、训练函数、拟合函数,该保费数据分析模型用于用户的投保方案进行分析。
例如:将王五的年收入项、车辆估值项、投保方案项以及投保价格项中的数字进行计算,将计算结果与预设的平均值进行比较,比如,王五的年收入项数据低于预设的年收入项数据平均值,类别设为第一类;王五的车辆估值项数据高于预设的车辆估值项数据平均值,类别设为第二类;王五的投保价格项数据等于预设的投保价格项数据平均值,类别设为第三类,统计王五的类别总数并按类别进行存储,将所述过滤数据集中所有用户的年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据进行计算,输出多个结果值,通过将多个结果值与预设的平均值进行比较,将多个比较结果进行分类存储,将分类存储的数据进行拟合训练,生成多个数据关系函数,得到保费数据分析模型,保费数据分析模型中的多个数据关系函数包括但不限于划分函数、训练函数、拟合函数。
S4、获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集。
较佳地,本发明实施例获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集,所述至少两项保费相关数据集包含但不限于用户的身份数据、车辆数据以及投保数据。
S5、利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集。
详细地,所述S5包括:
将所述至少两类保费相关数据集分别划分成M*M的矩阵;
将所述矩阵进行特征分解,生成至少两个特征值和至少两个特征向量;
将所述至少两个特征值和所述至少两个特征向量归类组合,得到至少两个特征集。
本发明实施例中,所述矩阵相似对角化包括:如果一个m阶矩阵A中有m个线性无关的特征向量,那么矩阵A与由矩阵A中特征值所组成的对角矩阵相似。所述矩阵相似对角化可以快速提取矩阵中的特征值和特征向量。所述划分函数可为df.iloc函数,所述划分函数的计算公式为:
X,Y=df.iloc[:,:4]
其中,X表示所述至少两个特征集中第一特征集的数据,Y表示所述所述至少两个特征集中第二特征集的数据;
例如,X表示所述至少两个特征集中车辆特征集的数据,Y表示所述至少两个特征集中投保特征集的数据。
S6、利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集。
本发明实施例中,所述训练函数可以为split函数,所述训练函数的计算公式为:
X_train,Y_train=train_test_split(X,Y,test_size=0.3)
其中,X表示所述至少两个训练集中第一训练集的数据,Y表示所述至少两个训练集中第二训练集中的数据;
例如,X表示所述至少两个训练集中车辆训练集的数据,Y表示所述至少两个训练集中投保训练集的数据。
S7、利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集。
本发明实施例中,所述拟合函数可以为clf.fit函数,所述训练函数的计算公式为:
X_Train,Y_Train=clf.fit(X_train,Y_train)
其中,X_Train表示所述至少两个分析集中第一分析集的数据,Y_Train表示所述至少两个分析集中第二分析集的数据;
例如,X_Train表示所述至少两个分析集中车辆分析集的数据,Y_Train表示所述至少两个分析集中投保分析集的数据。
S8、将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
本发明实施例利用主数据管理方案将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
所述主数据管理方案通过一组规则、流程、技术和解决方案,实现对用户数据一致性、完整性、相关性和精确性的有效管理,从而为所有用户提供准确一致的数据。
例如:将所述至少两个分析集中的车辆分析集和投保分析集,利用主数据管理方案中预定的规则和流程进行组合,得到对所述用户的保费分析结果。
本发明实施例获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集;对所述样本特征集进行过滤,得到过滤数据集;通过对样本数据集进行特征分析和过滤,可以有效提高样本数据的有效性和准确性,消除多余数据对模型构建的影响,进而提高模型对数据分析的精准度;进一步地,对所述过滤数据集进行指标评价,生成保费数据分析模型;将获取待分析用户的初始数据集通过所述保费数据分析模型进行分析,得到对所述用户的保费分析结果,通过高精准度的保费数据分析模型,可以对数据进行高效的分析,得到精准的分析结果,从而实现提高保费数据分析模型对数据分析的精准度,进而提高保费数据的合理性的目的。
如图2所示,是本发明基于大数据的保费数据分析装置的功能模块图。
本发明所述基于大数据的保费数据分析装置100可以安装于电子设备中。根据实现的功能,所述基于大数据的保费数据分析装置可以包括模型训练模块101、数据获取模块102、数据处理模块103和数据分析模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述模型训练模块101,用于获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,对所述样本特征集进行过滤,得到过滤数据集,对所述过滤数据集进行指标评价,生成保费数据分析模型,所述样本数据集包含样本用户的数据,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
所述数据获取模块102,用于获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
所述数据处理模块103,用于利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集,利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集,利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
所述数据分析模块104,用于将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
详细地,所述基于大数据的保费数据分析装置各模块的具体实施步骤如下:
所述模型训练模块101获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,对所述样本特征集进行过滤,得到过滤数据集,对所述过滤数据集进行指标评价,生成保费数据分析模型,所述样本数据集包含样本用户的数据,所述保费数据分析模型包括划分函数、训练函数、拟合函数。
详细地,本发明实施例从数据仓库中获取样本数据集,所述样本数据集包含但不限于用户的身份数据、车辆数据以及投保数据,本发明实施例中使用的数据挖掘算法为随机森林算法,所述随机森林算法是一个包含多个决策树的分类器,并且分类器输出的类别是由个别树输出的类别的众数而定。所述随机森林算法在当前所有算法中,具有极好的准确率,能够处理具有高维特征的输入样本,并且不需要降维,在生成过程中,能够获取到内部生成误差的一种无偏估计。
进一步地,所述通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集包括:
将所述样本数据集中的文本和数字进行分组归类,生成文本标签集和数字标签集;
计算所述文本标签集中文本的权重,得到文本权重集;
计算所述数字标签集中数字的权重,得到数字权重集;
将所述文本权重集和所述数字权重集组合,得到样本特征集。
本发明实施例中,将样本数据集中不同用户的数据进行分组归类,生成文本标签集和数字标签集,进而通过权重计算得到文本权重集和数字权重集,将文本权重集和数字权重集组合,得到不同用户的分析特征结果,所有用户的分析特征结果组成分析特征集。
例如:样本数据集中包括王五的数据,具体包括:姓名王五,性别男,年龄20岁,年收入20万,车辆型号为宝马X5,车辆估值60万,投保方案101,投保价格为1万,将王五的信息以数据类型进行分组归类,得到文本标签集和数字标签集,文本标签集包括姓名项、性别项、年龄项、年收入项、车辆型号项、车辆估值项、投保方案项以及投保价格项,数字标签集包括:X、X、2020、X、60、101以及1,计算王五的数据项名称和数值占文本标签集和数字标签集的比重,得到王五的分析特征结果。
本发明实施例利用主成分分析法对所述样本特征集进行过滤。
详细地,当随机变量两两之间具有较强的线性相关时,表示变量之间包含了比较多的共同信息,如果将共同信息提取出来,而不损失过多原变量的信息,则可以达到简化问题的目的。因此,所述主成分分析法寻找多维数据当中变异最大的且正交的几个方向,通常要小于原始特征的维数,将特征投影到这几个方向形成的空间当中,这样可以保留数据的多数变异,而将变异较小的剩余方向忽略,并以投影后的数据作为新特征,可以有效提高数据分析的准确性。
本发明实施例中,在所述样本特征集中寻找数据变异最大的方向,在该方向的所有正交方向上寻找剩余变异最大的方向,以此类推,这些“方向”被称为主成分,以向量的形式表示,然后按照各主成分方向可解释的数据变异的多少来决定要保留几个主成分,最后将数据投影到主成分上形成新的坐标值,该值就是新的特征值。
例如:经过数据预处理后,得到的样本特征集包含年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据,通过所述主成分分析法对所述样本特征集进行过滤,得到年收入项、车辆估值项、投保方案项以及投保价格项四个特征的过滤数据集。
详细地,本发明实施例调用均方对数误差函数对所述过滤数据集进行指标评价,所述均方对数误差函数为:
Figure BDA0002389555250000111
其中,t∈(1,N),N表示所述过滤数据集中的特征总数,yt表示所述过滤数据集中的特征值,ft表示预设的标准值。
本发明实施例中,通过对所述过滤数据集中的数据(如年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据)进行计算,输出结果值,通过将该结果值与预设的平均值进行比较,将比较结果进行分类存储,将分类存储的数据进行拟合训练,生成保费数据分析模型,所述保费数据分析模型包括划分函数、训练函数、拟合函数,该保费数据分析模型用于用户的投保方案进行分析。
例如:将王五的年收入项、车辆估值项、投保方案项以及投保价格项中的数字进行计算,将计算结果与预设的平均值进行比较,比如,王五的年收入项数据低于预设的年收入项数据平均值,类别设为第一类;王五的车辆估值项数据高于预设的车辆估值项数据平均值,类别设为第二类;王五的投保价格项数据等于预设的投保价格项数据平均值,类别设为第三类,统计王五的类别总数并按类别进行存储,将所述过滤数据集中所有用户的年收入项、车辆估值项、投保方案项以及投保价格项四个特征的数据进行计算,输出多个结果值,通过将多个结果值与预设的平均值进行比较,将多个比较结果进行分类存储,将分类存储的数据进行拟合训练,生成多个数据关系函数,得到保费数据分析模型,保费数据分析模型中的多个数据关系函数包括但不限于划分函数、训练函数、拟合函数。
所述数据获取模块102获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集。
较佳地,本发明实施例获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集,所述至少两项保费相关数据集包含但不限于用户的身份数据、车辆数据以及投保数据。
所述数据处理模块103利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集,利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集,利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集。
详细地,利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集包括:
将所述至少两类保费相关数据集分别划分成M*M的矩阵;
将所述矩阵进行特征分解,生成至少两个特征值和至少两个特征向量;
将所述至少两个特征值和所述至少两个特征向量归类组合,得到至少两个特征集。
本发明实施例中,所述矩阵相似对角化包括:如果一个m阶矩阵A中有m个线性无关的特征向量,那么矩阵A与由矩阵A中特征值所组成的对角矩阵相似。所述矩阵相似对角化可以快速提取矩阵中的特征值和特征向量。所述划分函数可为df.iloc函数,所述划分函数的计算公式为:
X,Y=df.iloc[:,:4]
其中,X表示所述至少两个特征集中第一特征集的数据,Y表示所述所述至少两个特征集中第二特征集的数据;
例如,X表示所述至少两个特征集中车辆特征集的数据,Y表示所述至少两个特征集中投保特征集的数据。
本发明实施例中,所述训练函数可以为split函数,所述训练函数的计算公式为:
X_train,Y_train=train_test_split(X,Y,test_size=0.3)
其中,X表示所述至少两个训练集中第一训练集的数据,Y表示所述至少两个训练集中第二训练集中的数据;
例如,X表示所述至少两个训练集中车辆训练集的数据,Y表示所述至少两个训练集中投保训练集的数据。
本发明实施例中,所述拟合函数可以为clf.fit函数,所述训练函数的计算公式为:
X_Train,Y_Train=clf.fit(X_train,Y_train)
其中,X_Train表示所述至少两个分析集中第一分析集的数据,Y_Train表示所述至少两个分析集中第二分析集的数据;
例如,X_Train表示所述至少两个分析集中车辆分析集的数据,Y_Train表示所述至少两个分析集中投保分析集的数据。
所述数据分析模块104将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
本发明实施例利用主数据管理方案将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。所述主数据管理方案通过一组规则、流程、技术和解决方案,实现对用户数据一致性、完整性、相关性和精确性的有效管理,从而为所有用户提供准确一致的数据。
例如:将所述至少两个分析集中的车辆分析集和投保分析集,利用主数据管理方案中预定的规则和流程进行组合,得到对所述用户的保费分析结果。
本发明实施例获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集;对所述样本特征集进行过滤,得到过滤数据集;通过对样本数据集进行特征分析和过滤,可以有效提高样本数据的有效性和准确性,消除多余数据对模型构建的影响,进而提高模型对数据分析的精准度;进一步地,对所述过滤数据集进行指标评价,生成保费数据分析模型;将获取待分析用户的初始数据集通过所述保费数据分析模型进行分析,得到对所述用户的保费分析结果,通过高精准度的保费数据分析模型,可以对数据进行高效的分析,得到精准的分析结果,从而实现提高保费数据分析模型对数据分析的精准度,进而提高保费数据的合理性的目的。
如图3所示,是本发明实现基于大数据的保费数据分析方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于大数据的保费数据分析程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于大数据的保费数据分析系统的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于大数据的保费数据分析程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于大数据的保费数据分析系统12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,所述样本数据集包含样本用户的数据;
对所述样本特征集进行过滤,得到过滤数据集;
对所述过滤数据集进行指标评价,生成保费数据分析模型,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集;
利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集;
利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于大数据的保费数据分析方法,其特征在于,所述方法包括:
获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,其中,所述样本数据集包含样本用户的数据;
对所述样本特征集进行过滤,得到过滤数据集;
对所述过滤数据集进行指标评价,生成保费数据分析模型,其中,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集;
利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集;
利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
2.如权利要求1所述的基于大数据的保费数据分析方法,其特征在于,所述通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集包括:
将所述样本数据集中的文本和数字进行分组归类,生成文本标签集和数字标签集;
计算所述文本标签集中文本的权重,得到文本权重集;
计算所述数字标签集中数字的权重,得到数字权重集;
将所述文本权重集和所述数字权重集组合,得到样本特征集。
3.如权利要求1所述的基于大数据的保费数据分析方法,其特征在于,所述对所述样本特征集进行过滤,包括:
利用主成分分析法对所述样本特征集进行过滤。
4.如权利要求1所述的基于大数据的保费数据分析方法,其特征在于,所述对所述过滤数据集进行指标评价,包括:
调用均方对数误差函数对所述过滤数据集进行指标评价,所述均方对数误差函数为:
Figure FDA0002389555240000021
其中,t∈(1,N),N表示所述过滤数据集中的数据总数,yt表示所述过滤数据集中的数据值,ft表示预设的标准值。
5.如权利要求1所述的基于大数据的保费数据分析方法,其特征在于,所述利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集包括:
将所述至少两类保费相关数据集分别划分成M*M的矩阵;
将所述矩阵进行特征分解,生成至少两个特征值和至少两个特征向量;
将所述至少两个特征值和所述至少两个特征向量归类组合,得到至少两个特征集。
6.如权利要求5所述的基于大数据的保费数据分析方法,其特征在于,所述将所述矩阵进行特征分解,包括:
利用矩阵相似对角化将所述矩阵进行特征分解。
7.如权利要求1至6任一项所述的基于大数据的保费数据分析方法,其特征在于,所述将所述至少两个分析集进行组合,包括:
利用主数据管理方案将所述至少两个分析集进行组合。
8.一种基于大数据的保费数据分析装置,其特征在于,所述装置包括:
模型训练模块,用于获取样本数据集,通过数据挖掘算法对所述样本数据集进行特征分析,得到样本特征集,对所述样本特征集进行过滤,得到过滤数据集,对所述过滤数据集进行指标评价,生成保费数据分析模型,所述样本数据集包含样本用户的数据,所述保费数据分析模型包括划分函数、训练函数、拟合函数;
数据获取模块,用于获取待分析用户的初始数据集,所述初始数据集包括至少两项保费相关数据集;
数据处理模块,用于利用所述划分函数分别对所述至少两类保费相关数据集进行特征矩阵划分,得到至少两个特征集,利用所述训练函数对所述至少两个特征集进行训练,得到至少两个训练集,利用所述拟合函数对所述至少两个训练集进行拟合,得到至少两个分析集;
数据分析模块,用于将所述至少两个分析集进行组合,得到对所述用户的保费分析结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于大数据的保费数据分析方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于大数据的保费数据分析方法。
CN202010110994.8A 2020-02-22 2020-02-22 基于大数据的保费数据分析方法、装置及存储介质 Active CN111402068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010110994.8A CN111402068B (zh) 2020-02-22 2020-02-22 基于大数据的保费数据分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010110994.8A CN111402068B (zh) 2020-02-22 2020-02-22 基于大数据的保费数据分析方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111402068A true CN111402068A (zh) 2020-07-10
CN111402068B CN111402068B (zh) 2023-07-25

Family

ID=71432748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010110994.8A Active CN111402068B (zh) 2020-02-22 2020-02-22 基于大数据的保费数据分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111402068B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860661A (zh) * 2020-07-24 2020-10-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN112231746A (zh) * 2020-09-10 2021-01-15 杭州锘崴信息科技有限公司 联合数据分析方法、装置、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030176931A1 (en) * 2002-03-11 2003-09-18 International Business Machines Corporation Method for constructing segmentation-based predictive models
CN107766929A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 模型分析方法及装置
US20190114716A1 (en) * 2017-10-16 2019-04-18 Mitchell International, Inc. Methods for analyzing insurance data and devices thereof
CN110674020A (zh) * 2019-09-02 2020-01-10 平安科技(深圳)有限公司 App智能推荐方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030176931A1 (en) * 2002-03-11 2003-09-18 International Business Machines Corporation Method for constructing segmentation-based predictive models
CN107766929A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 模型分析方法及装置
US20190114716A1 (en) * 2017-10-16 2019-04-18 Mitchell International, Inc. Methods for analyzing insurance data and devices thereof
CN110674020A (zh) * 2019-09-02 2020-01-10 平安科技(深圳)有限公司 App智能推荐方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘彦保;王文发;王文东;: "基于聚类分析策略的Web文本挖掘方法" *
王智平: "数据挖掘在保险客户数据中的应用研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860661A (zh) * 2020-07-24 2020-10-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN111860661B (zh) * 2020-07-24 2024-04-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN112231746A (zh) * 2020-09-10 2021-01-15 杭州锘崴信息科技有限公司 联合数据分析方法、装置、系统及计算机可读存储介质
CN112231746B (zh) * 2020-09-10 2024-02-02 杭州锘崴信息科技有限公司 联合数据分析方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN111402068B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN112883190A (zh) 文本分类方法、装置、电子设备及存储介质
CN112231586A (zh) 基于迁移学习的课程推荐方法、装置、设备及介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN113592019A (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN113435202A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN111402068B (zh) 基于大数据的保费数据分析方法、装置及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN116662839A (zh) 基于多维智能采集的关联大数据聚类分析方法及装置
CN111475541A (zh) 数据决策方法、装置、电子设备及存储介质
CN114708461A (zh) 基于多模态学习模型的分类方法、装置、设备及存储介质
CN113656690B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN111460293A (zh) 信息推送方法、装置及计算机可读存储介质
CN111652281B (zh) 信息数据的分类方法、装置及可读存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN114722789A (zh) 数据报表集成方法、装置、电子设备及存储介质
CN114841165A (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN114996386A (zh) 业务角色识别方法、装置、设备及存储介质
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN114187096A (zh) 基于用户画像的风险评估方法、装置、设备及存储介质
CN113298530A (zh) 基于行情数据分类的交易配置方法、装置、设备及介质
CN113449002A (zh) 车辆推荐方法、装置、电子设备及存储介质
CN113590845A (zh) 基于知识图谱的文献检索方法、装置、电子设备及介质
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
CN112966013B (zh) 知识展示方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant