CN110377617A - 数据处理方法、装置、计算机设备及存储介质 - Google Patents
数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110377617A CN110377617A CN201910501837.7A CN201910501837A CN110377617A CN 110377617 A CN110377617 A CN 110377617A CN 201910501837 A CN201910501837 A CN 201910501837A CN 110377617 A CN110377617 A CN 110377617A
- Authority
- CN
- China
- Prior art keywords
- data
- isolated island
- product
- contract
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012546 transfer Methods 0.000 claims abstract description 20
- 239000000047 product Substances 0.000 claims description 189
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 16
- 229910052701 rubidium Inorganic materials 0.000 claims description 10
- IGLNJRXAVVLDKE-UHFFFAOYSA-N rubidium atom Chemical compound [Rb] IGLNJRXAVVLDKE-UHFFFAOYSA-N 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 5
- 239000006227 byproduct Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、装置、计算机设备及存储介质,所述方法包括:获取历史产品数据;采用大数据计算引擎对历史产品数据进行计算,得到产品基础契约年份;将产品基础契约年份进行排序,得到产品基础契约年份序列;通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;将孤岛起点和孤岛终点的差值最大作为匹配条件,得到孤岛数量,将孤岛数量确定为连续未履行契约年数。上述数据处理方法提高了连续未履行契约年数计算的效率,解决了缺少客户连续未履行契约数据参考导致的资源转移额度计算准确性低的问题,使得保费计算更加精准。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
随着社会经济以及科学技术的快速发展,汽车作为代步工具已经成为大众化产品,其数量逐年递增,从而使车险的保单也越来越多,并且车主每年都需要购买车险。
基于现在国家对车险费改情况,对部分机构放开策略,各保险公司可自行对保费定价,同时,面对海量的车险保单数据,保险业务人员只能看到当前客户的当年出险情况,缺少客户连续未出险数据的参考,因此,难以对客户的保费进行精准的定价,降低了客户续保率,影响保险公司收益。
发明内容
本发明实施例提供一种数据处理方法、装置、计算机设备及存储介质,以解决缺少客户连续未履行契约数据参考导致的资源转移额度计算准确性低的问题。
一种数据处理方法,包括:
获取历史产品数据;
采用大数据计算引擎对所述历史产品数据进行计算,得到产品基础契约年份;
将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为所述连续未履行契约年数。
一种数据处理装置,包括:
历史数据获取模块,用于获取历史产品数据;
基础年份获取模块,用于采用大数据计算引擎对所述历史产品数据进行计算,得到产品基础契约年份;
年份序列获取模块,用于将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
孤岛数据计算模块,用于通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
未出险年数计算模块,用于将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为所述连续未履行契约年数。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法。
上述数据处理方法、装置、计算机设备及存储介质中,首先,获取历史产品数据;然后,采用大数据计算引擎对所述历史产品数据进行计算,得到产品基础契约年份,由于历史产品数据海量,因此产品基础契约年份的计算量也大,且都是重复计算,因此通过大数据计算引擎的迭代优化计算,能够快速准确地计算产品基础契约年份;接着,将所述产品基础契约年份进行排序,得到产品基础契约年份序列,由于产品基础契约年份序列中的元素的顺序具有规律,以便后续对该产品基础契约年份序列进行更加准确高效的计算;进而,通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;最后,将孤岛起点和孤岛终点的差值最大作为匹配条件,匹配孤岛起点和所述孤岛终点,得到孤岛数量,将孤岛数量确定为连续未履行契约年数。提高了连续未履行契约年数的效率和准确率,同时由于采用了大数据计算引擎,保证了计算的速度,进而大大提高了连续未履行契约年数的计算效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据处理方法的应用环境示意图;
图2是本发明实施例提供的数据处理方法一示例图;
图3是本发明实施例提供的数据处理方法的另一示例图;
图4是本发明实施例提供的数据处理方法的另一示例图;
图5是本发明实施例提供的数据处理方法的另一示例图;
图6是本发明实施例提供的数据处理方法的另一示例图;
图7是本发明实施例提供的数据处理装置的一原理框图;
图8是本发明实施例提供的数据处理装置的另一原理框图;
图9是本发明实施例提供的数据处理装置的另一原理框图;
图10是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的数据处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的历史产品数据,然后采用大数据计算引擎对历史产品数据进行计算,得到产品基础契约年份;将产品基础契约年份进行排序,得到产品基础契约年份序列;进而通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;最后,将孤岛起点和孤岛终点的差值最大作为匹配条件,匹配孤岛起点和所述孤岛终点,得到孤岛数量,将孤岛数量确定为连续未履行契约年数。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:获取历史产品数据。
其中,历史产品数据是指包含用户在投保期间与出险相关的数据,如历史承保年份、出险地点或者出险时间等数据。具体地,可以从保险系统的后台数据库中获取历史产品数据,也可以通过爬虫技术从保险网页中获取历史产品数据,还可以通过数据采集接口采集历史产品数据或者通过大数据平台获取历史产品数据。
需要说明的是,历史产品数据随着时间的推移会发生变化,因此,为了保证历史产品数据的准确性和全面性,本实施例通过采用更新的方式使得历史产品数据更加全面,对后续计算提供参考,其中的更新方式可以是定时更新,也可以是实时更新。实时更新可以在有新的出险数据产生时触发历史产品数据的更新环节,定时更新可以通过设置一个更新周期的方式来进行历史产品数据的定时更新,例如:每24小时进行一次历史产品数据的更新。优选地,本实施例中采用爬虫技术获取历史产品数据,使得历史产品数据得到更新,从而确保了历史产品数据的全面性和准确性,同时由于历史产品数据包含海量数据,因此,采用爬虫技术获取历史产品数据更加方便高效,以便后续对历史产品数据进行进一步地处理。
S20:采用大数据计算引擎对历史产品数据进行计算,得到产品基础契约年份。
在本实施例中,产品基础契约年份为历史产品数据的出险年份,也即保险保单发生理赔的时间中对应的年份,如用户A的保险保单发生理赔的时间为2014年6月7日,其中对应的产品基础契约年份为2014年。
其中,大数据计算引擎是指对大数据进行收集、存储、计算、挖掘和管理,并通过深度学习技术和数据建模技术,使数据具有"智能"一种计算框架,包括但不限于Spark。Spark是一种开源集群计算环境,启用了内存分布数据集,不仅能够提供交互式查询,还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。创建Spark从而支持分布式数据集上的迭代作业,可以在Hadoop文件系统中并行运行,通过第三方集群框架(Mesos)能够实现大数据的计算,用于构建大型的、低延迟的数据分析应用程序。
具体地,采用大数据计算引擎Spark对历史产品数据建立弹性分布式数据集(RDD),从RDD中,利用分区剪枝(input pruning)的特性查询到历史产品数据中与理赔相关的理赔信息,从理赔信息中,提取出产品基础契约年份。示例性地,某一历史产品数据为“险种:车险、出险地点:广东深圳、出险时间:2018年6月10日”,对历史产品数据建立弹性分布式数据集,从该弹性分布式数据集中查询出理赔信息“出险地点:广东深圳、出险时间:2018年6月10日”,从理赔信息中,提取出产品基础契约年份“2018”。可以理解地,由于历史产品数据海量,因此产品基础契约年份的计算量也大,且都是重复计算,因此通过大数据计算引擎的迭代优化计算,能够快速准确地计算产品基础契约年份。
S30:将产品基础契约年份进行排序,得到产品基础契约年份序列。
其中,产品基础契约年份序列是指将产品基础契约年份数值作为元素按照预定顺序排列形成的一组数据。如车辆C的产品基础契约年份分别为2012、2013、2016和2018,那么该产品基础契约年份序列可以是{2012,2013,2016,2018},也可以是{2018,2016,2013,2012}。具体地,通过数组sort方法按照产品基础契约年份数值从大到小顺序或者从小到大的顺序进行排序,得到产品基础契约年份序列。可以理解地,由于产品基础契约年份序列中的元素的顺序具有规律,从而方便后续对该产品基础契约年份序列进行更加准确高效的计算。
S40:通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点。
其中,孤岛起点和孤岛终点为孤岛算法中的基础数据,用于计算孤岛的数量。其中的孤岛算法(Number of Islands)是指对数组中元素进行连续性检测的算法,具体地,根据元素在数值大小上的连续性,首先确定海域和陆地,计算有多少个孤岛,将孤岛的数量确定为连续未履行契约年数,可以采用基于python的孤岛算法也可以采用基于SQL查询的孤岛算法。优选地,本实施例中采用基于SQL查询的孤岛算法。
其中,SQL子查询(subquery)是指查询指令中嵌套一个或者多个查询指令的查询方式。间断之前的元素的查找可以通过对产品基础契约年份序列中每个值减少一个间隔(如1)要找的元素值是否存在产品基础契约年份序列的元素中,例如通过SQL子查询找出间断之后的元素ida:select ida-1 as start_range,(select min(b.id)from tbl as bwhere b.id>a.id)-1as end_range from tbl a where not exists(select 1 from tblas b where b.id=a.id+1)and id<(select max(id)from tbl)。与此同时,间断之后的元素的查找可以通过对产品基础契约年份序列中每个值增加一个间隔(如1)要找的元素值是否存在产品基础契约年份序列的元素中,例如通过SQL子查询找出间断之后的元素idb:select idb+1 as start_range from tbl as a where not exists(select 1 from tblas b where b.id=a.id+1)and id<(select max(id)from tbl),通过SQL子查询语句中,能够准确方便地找出孤岛起点和孤岛终点。本步骤中,本实施例中,通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点,能够准确方便地找出孤岛起点和孤岛终点。
S50:将孤岛终点和孤岛起点的差值最大作为匹配条件,匹配孤岛起点和孤岛终点,得到孤岛数量,将孤岛数量确定为连续未履行契约年数。
其中,连续未履行契约年数是指没有出险或者发生理赔(比如交通事故,出现理赔)的连续年数,用于更精细的对客户的来年保费进行定价,可以理解地,连续未履行契约年数越长,未来所需要交的标准保费会越低。
具体地,将孤岛起点和孤岛终点的差值最大作为匹配条件是指将每一对应的孤岛起点和孤岛终点各自对应的元素值进行相减,得到差值,并将差值中数值最大值确定为孤岛数量,即连续未履行契约年数。继续以步骤S41’中的孤岛起点ida1、ida2、…idan和对应的孤岛终点idb1、idb2、…idbn为例,孤岛起点和孤岛终点的差值分别为idb1i-da1、idb2-ida2、…idbn-idan,若idb2-ida2最大,则idb2-ida2即为连续未履行契约年数。保证了连续未履行契约年数的准确性。
本步骤中,通过孤岛算法计算出客户连续多少年没有出险,通过孤岛算法,快速准确的确定孤岛数量,也即连续未履行契约年数,从而能及时把最新的数据提供给销售系统,提高了连续未履行契约年数的效率和准确率,同时由于采用了大数据计算引擎,保证了计算的速度,进而大大提高了连续未履行契约年数的计算效率。
本实施例中,首先,获取历史产品数据;然后,采用大数据计算引擎对所述历史产品数据进行计算,得到产品基础契约年份,由于历史产品数据海量,因此产品基础契约年份的计算量也大,且都是重复计算,因此通过大数据计算引擎的迭代优化计算,能够快速准确地计算产品基础契约年份;接着,将所述产品基础契约年份进行排序,得到产品基础契约年份序列,由于产品基础契约年份序列中的元素的顺序具有规律,以便后续对该产品基础契约年份序列进行更加准确高效的计算;进而通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;最后,将孤岛起点和孤岛终点的差值最大作为匹配条件,匹配孤岛起点和所述孤岛终点,得到孤岛数量,将孤岛数量确定为连续未履行契约年数,提高了连续未履行契约年数的效率和准确率,同时由于采用了大数据计算引擎,保证了计算的速度,进而大大提高了连续未履行契约年数的计算效率。
在一实施例中,如图3所示,步骤S20中,采用大数据计算引擎对历史产品数据进行计算,得到产品基础契约年份,具体包括如下步骤:
S21:通过sqoop工具将历史产品数据的增量数据导入src层。
其中,sqoop是Apache顶级项目,用于在hadoop和关系数据库中传递数据。通过sqoop工具可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。增量数据是指用户保单信息在预设的时间段进行更新后的用户保单信息,具体地,可以通过更新时间对数据库进行查询获取用户保单信息的增量数据,也可以采用sqoop直接创建一个sqoop job,通过sqoop job获取用户保单信息的增量数据。src层是数据仓库的一个层级,预设时间段内的增量的镜像数据保留在该数据层级。导入方式有sqoop支持的全量数据导入和增量数据导入两种,同时可以指定数据是否以并发形式导入。优选地,本实施例中采用增量导入的方式对新增的历史产品数据进行导入到src层,从而保证海量历史产品数据的全面性。
S22:获取预设的产品关键词对应的主键作为目标主键。
其中,预设的产品关键词是指预先设定的能够反映发生理赔的关键词,如出险时间、出险地点、理赔金额等关键词。具体地,本步骤中的产品关键词为出险时间,主键是表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,目标主键是指能够确定理赔信息的记录,如“出险时间:2018年6月10日、出险地点:深圳罗湖”,本步骤中的主键为src层中的标识用户理赔信息的字段。可以理解地,当历史产品数据存在与预设的理赔关键词对应的数据时,表明该历史产品数据对应的保单存在出险情况,因此,能够获取预设的理赔关键词对应的主键作为出险主键,进而能够准确地获取到出险数据,如产品基础契约年份等。
S23:按照目标主键对src层中的数据进行除重处理,得到数据镜像。
其中,除重是指对src层级的外部表中在若干字段上存在相同的多条记录进行删除,只保留其中一条记录的操作,可以理解地,增量同步数据(incre)和存量数据(store)冲突时,默认增量数据为最新的,并且无论增量数据表,还是存量数据表,通过除重处理使得表内没有重复字段。数据镜像就是为同一份数据保留两个以上的在线拷贝。以两个镜像磁盘为例,所有写操作需要在两个独立的磁盘上进行;当两个磁盘都正常工作时,数据可以从任一磁盘读取;如果其中任一个磁盘失效,则数据可以从另外的一个正常工作的磁盘读出,从而保证正常数据存取业务能够持续进行。例如,当目标主键为出险时间和出险地点时,按照目标主键对src层中的数据进行除重处理后生成数据镜像为出险地点和出险时间的组合的出险数据,如“2018年6月10日、深圳罗湖”。具体地,按照目标主键对src层中的数据进行除重处理,生成数据镜像,以便后续根据该镜像数据进行进一步处理。
S24:以预设的时间关键词作为查询条件,从数据镜像中获取对应的时间数据,并采用年份提取的正则表达式从时间数据中提取产品基础契约年份。
其中,预设的时间关键词是指预先设定的用于查询用户需要信息的关键词语。可以理解地,本步骤中用户需要的信息为时间数据中的年份数据,即产品基础契约年份,因此,以预设的时间关键词作为查询条件,能够在数据镜像中获取到与出险时间对应的时间数据,然后采用年份提取的正则表达式提取出产品基础契约年份。其中的年份提取的正则表达式为“/^(1949|19[5-9]\d|20\d{2}|2100)$/”。通过从数据镜像中提取出对应的时间数据,并从出险数据中获取产品基础契约年份,去除了重复信息,保证了产品基础契约年份准确性,同时使得产品基础契约年份计算更加快速准确。
本实施例中,首先,通过sqoop工具将历史产品数据的增量数据导入src层,从而保证海量历史产品数据的全面性;然后,获取预设的产品关键词对应的主键作为目标主键;接着,按照目标主键对src层中的数据进行除重处理,得到数据镜像,以便后续根据该镜像数据进行进一步处理;最后,以预设的时间关键词作为查询条件,从数据镜像中提取出对应的时间数据,并采用年份提取的正则表达式从时间数据中获取产品基础契约年份,去除了重复信息,保证了产品基础契约年份准确性,同时使得产品基础契约年份计算更加快速准确。
在一实施例中,如图4所示,步骤S40中,在将产品基础契约年份进行排序,得到产品基础契约年份序列之后,该数据处理方法还包括:
S61:遍历搜索产品基础契约年份序列,将有数字间隔的元素标记为海域,并将不存在数字间隔的元素标记为陆地。
其中,不存在数字间隔的元素是指数值上连续的元素,如1和2,本步骤中的不存在数字间隔的元素是指在数值大小上差值为1的元素。其中,有数字间隔是指相邻元素在数值上不连续,如1和3,其中还有数字间隔元素数值2。遍历搜索是指依序对元素进行查询的操作,用于提取出符合条件的元素的一类搜索算法。具体地,从产品基础契约年份序列最左边的第一个元素开始遍历,提取出与之相邻的存在数字间隔的元素,将其标记为一个海域,将不存在数字间隔的元素标记为陆地。以便后续根据孤岛理论对产品基础契约年份序列进行连通区域计算。
S62:根据海域和陆地计算孤岛数量,将孤岛数量确定为连续未履行契约年数。
其中,具体地,从产品基础契约年份序列的最左边的第一个元素开始遍历,当遍历到有数字间隔时,将其作为海域,同时将元素更新为0,并以该点进行扩展,扩展方式为左右两个方向,扩展到的陆地(即值为1)将其值更新为0。给定一个二位数组,其中0代表海域,1代表陆地,判断有多少个孤岛被海域隔开。假定二位数组左右相邻位置都是0,根据海域和陆地的位置,计算海域的连通区域的最大值即为孤岛的数量,也即连续未履行契约年数。从而高效准确地计算得到连续未履行契约年数的大小。
本实施例中,遍历搜索产品基础契约年份序列,提取有数字间隔的元素标记为海域,并将不存在数字间隔的元素标记为陆地,根据海域和陆地计算孤岛数量,将孤岛数量确定为连续未履行契约年数,从而高效准确地计算得到连续未履行契约年数的大小。
在一实施例中,如图5所示,步骤S10中,获取历史产品数据,具体包括如下步骤:
S11:获取目标网页。
其中,目标网页是指与保险行业相关的网页,如XX保险官网。具体地,可以通过read()方法读取目标网页的网址,向getHtml()函数传递一个网址,并把整个页面下载下来,得到目标网页的页面。
S12:采用网页分析器对目标网页中的信息进行提取,得到目标信息。
其中,预设的正则表达式是一种字符串匹配和处理规则,用于提取网页中的信息。预设的正则表达式包括但不限于Python正则表达式。目标信息是指与正则表达式匹配的网页信息。该目标信息可以是保险保单号、出险地点或者保险保额等信息。
具体地,从目标网页中过滤与预设的正则表达式匹配的信息,然后提取该信息,进而得到目标信息。可以理解地,通过采用预设的正则表达式对目标网页中的信息进行提取,提高了目标信息的准确性。
S13:解析目标信息,得到历史产品数据。
具体地,解析目标信息具体过程为:首先通过爬虫解析库中的解析模块对目标信息进行数据分析,再通过路径表达式提取解析后的目标信息,并将解析后的目标信息保存在数据库中,得到理赔信息。其中的爬虫解析库可以是BeautifulSoup解析库,也可以是lxml解析库。可以理解地,通过解析目标信息,可以快速准确地获取到历史产品数据。
本实施例中,首先,获取目标网页;然后,采用预设的正则表达式对目标网页中的信息进行提取,提高了目标信息的准确性;最后,解析目标信息,得到历史产品数据,从而快速准确地获取到历史产品数据。
在一实施例中,如图6所示,在步骤S40之后,即在通过孤岛算法对产品基础契约年份序列进行计算,得到连续未履行契约年数之后,还包括如下步骤:
S71:获取基准资源转移额度。
其中,基准资源转移额度是指根据不同的承保责任范围设定的不同的基准保费,用于对计算保险的标准保费提供参考。具体地,基准资源转移额度可以根据用户购买的不同的保险设定不同的基准保费。
S72:根据基准资源转移额度和连续未履行契约年数,按照如下公式进行计算得到标准资源转移额度:
S=min{x/m,x*α};
其中,S为标准资源转移额度,min{}表示取大括号中元素最小值,x为基准资源转移额度,α为基准资源转移额度的预设的调节系数,且1≥α≥0.5,m为连续未履行契约年数。
其中,标准资源转移额度是指用户实际需要缴纳的保费金额。具体地,首先比较基准资源转移额度除以连续未履行契约年数与基准资源转移额度与预设的调节系数的乘积,即比较x/m和x*α的大小,将二者中数值较小的值确定为标准资源转移额度。可以理解地,通过计算公式S=min{x/m,x*α},计算得到的标准资源转移额度充分考虑了连续未履行契约年数对标准资源转移额度计算结果的影响,当连续未履行契约年数越大(m≥2时),标准资源转移额度越小。同时将基准资源转移额度与调节系数乘积得到的值,以及基准资源转移额度除以连续未履行契约年数得到值,这二者中的较小值作为标准资源转移额度,使得标准资源转移额度计算更加合理,进而有利于提高用户续保率。
本实施例中,获取基准保费,根据基准资源转移额度和连续未履行契约年数按照公式S=min{x/m,x*α}计算得到标准资源转移额度,使得标准资源转移额度计算更加合理,进而有利于提高用户续保率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据处理装置,该数据处理装置与上述实施例中数据处理方法一一对应。如图7所示,该数据处理装置包括历史数据获取模块10、产品基础契约年份获取模块20、年份序列获取模块30、孤岛数据计算模块40和未出险年数计算模块50。各功能模块详细说明如下:
历史数据获取模块10,用于获取历史产品数据;
基础年份获取模块20,用于采用大数据计算引擎对历史产品数据进行计算,得到产品基础契约年份;
年份序列获取模块30,用于将产品基础契约年份进行排序,得到产品基础契约年份序列;
孤岛数据计算模块40,用于通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
未出险年数计算模块50,用于将孤岛起点和孤岛终点的差值最大作为匹配条件,匹配孤岛起点和所述孤岛终点,得到孤岛数量,将孤岛数量确定为连续未履行契约年数。
优选地,如图8所示,基础年份获取模块20包括数据导入单元21、主键获取单元22、数据镜像获取单元23和基础年份提取单元24。
数据导入单元21,用于通过sqoop工具将历史产品数据的增量数据导入src层;
主键获取单元22,用于获取预设的产品关键词对应的主键作为目标主键;
数据镜像获取单元23,用于按照目标主键对src层中的数据进行除重处理,得到数据镜像;
基础年份提取单元24,用于以预设的时间关键词作为查询条件,从数据镜像中获取对应的时间数据,并采用年份提取的正则表达式从时间数据中提取产品基础契约年份。
优选地,如图9所示,数据处理装置还包括年份查找模块61和连续未出险年数确定模块62。
年份查找模块61,用于遍历搜索产品基础契约年份序列,将有数字间隔的元素标记为海域,并将不存在数字间隔的元素标记为陆地;
连续未出险年数确定模块62,用于根据海域和陆地计算孤岛数量,将孤岛数量确定为连续未履行契约年数。
优选地,历史数据获取模块包括网页获取单元、信息提取单元和产品数据获取单元。
网页获取单元,用于获取目标网页;
信息提取单元,用于采用网页分析器对目标网页中的信息进行提取,得到目标信息;
产品数据获取单元,用于解析目标信息,得到历史产品数据。优选地,数据处理装置还包括基准保费获取模块和标准保费计算模块。
基准保费获取模块,用于获取基准资源转移额度;
标准保费计算模块,用于根据基准资源转移额度和连续未履行契约年数,按照如下公式进行计算得到标准资源转移额度:
S=min{x/m,x*α};
其中,S为标准基准资源转移额度,min{}表示取大括号中元素最小值,x为基准基准资源转移额度,α为基准基准资源转移额度的预设的调节系数,且1≥α≥0.5,m为连续未履行契约年数。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据处理方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取历史产品数据;
采用大数据计算引擎从所述历史产品数据提取产品基础契约年份;
将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为连续未履行契约年数。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取历史产品数据;
采用大数据计算引擎从所述历史产品数据提取产品基础契约年份;
将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为连续未履行契约年数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取历史产品数据;
采用大数据计算引擎从所述历史产品数据提取产品基础契约年份;
将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从所述产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为连续未履行契约年数。
2.如权利要求1所述的数据处理方法,其特征在于,所述采用大数据计算引擎从所述历史产品数据提取产品基础契约年份,包括:
通过sqoop工具将所述历史产品数据的增量数据导入src层;
获取预设的产品关键词对应的主键作为目标主键;
按照所述目标主键对src层中的数据进行除重处理,得到数据镜像;
以预设的时间关键词作为查询条件,从所述数据镜像中获取对应的时间数据,并采用年份提取的正则表达式从所述时间数据中提取产品基础契约年份。
3.如权利要求1所述的数据处理方法,其特征在于,在所述将所述产品基础契约年份进行排序,得到产品基础契约年份序列之后,所述数据处理方法还包括:
遍历搜索所述产品基础契约年份序列,将有数字间隔的元素标记为海域,并将不存在数字间隔的元素标记为陆地;
根据所述海域和所述陆地计算孤岛数量,将所述孤岛数量确定为所述连续未履行契约年数。
4.如权利要求1所述的数据处理方法,其特征在于,所述获取历史产品数据,包括:
获取目标网页;
采用网页分析器对所述目标网页中的信息进行提取,得到目标信息;
解析所述目标信息,得到所述历史产品数据。
5.如权利要求1所述的数据处理方法,其特征在于,在所述将所述孤岛数量确定为所述连续未履行契约年数之后,所述数据处理方法还包括:
获取基准资源转移额度;
根据所述基准资源转移额度和所述连续未履行契约年数,按照如下公式进行计算得到标准资源转移额度:
S=min{x/m,x*α};
其中,S为所述标准资源转移额度,min{}表示取大括号中元素最小值,x为所述基准资源转移额度,α为基准资源转移额度的预设的调节系数,且1≥α≥0.5,m为所述连续未履行契约年数。
6.一种数据处理装置,其特征在于,所述数据处理装置包括:
历史数据获取模块,用于获取历史产品数据;
基础年份获取模块,用于采用大数据计算引擎对所述历史产品数据进行计算,得到产品基础契约年份;
年份序列获取模块,用于将所述产品基础契约年份进行排序,得到产品基础契约年份序列;
孤岛数据计算模块,用于通过SQL子查询的方式从产品基础契约年份序列中找出间断之后的元素,作为孤岛起点,并通过SQL子查询的方式从产品基础契约年份序列中找出间断之前的元素,作为孤岛终点;
未出险年数计算模块,用于将所述孤岛起点和所述孤岛终点的差值最大作为匹配条件,匹配所述孤岛起点和所述孤岛终点,得到孤岛数量,将所述孤岛数量确定为连续未履行契约年数。
7.如权利要求6所述的基于数据处理装置,其特征在于,所述产品基础契约年份获取模块,包括:
数据导入单元,用于通过sqoop工具将所述历史产品数据的增量数据导入src层;
主键获取单元,用于获取预设的理赔关键词对应的主键作为出险主键;
数据镜像获取单元,用于按照所述出险主键对src层中的数据进行除重处理,得到数据镜像;
基础年份提取单元,用于以预设的时间关键词作为查询条件,从所述数据镜像中获取对应的时间数据,并采用年份提取的正则表达式从所述时间数据中提取产品基础契约年份。
8.如权利要求6所述的基于数据处理装置,其特征在于,所述所述数据处理装置还包括:
年份查找模块,用于遍历搜索所述产品基础契约年份序列,将有数字间隔的元素标记为海域,并将不存在数字间隔的元素标记为陆地;
连续未出险年数确定模块,用于根据所述海域和所述陆地计算孤岛数量,将所述孤岛数量确定为所述连续未履行契约年数。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501837.7A CN110377617B (zh) | 2019-06-11 | 2019-06-11 | 数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501837.7A CN110377617B (zh) | 2019-06-11 | 2019-06-11 | 数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377617A true CN110377617A (zh) | 2019-10-25 |
CN110377617B CN110377617B (zh) | 2024-02-02 |
Family
ID=68250050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910501837.7A Active CN110377617B (zh) | 2019-06-11 | 2019-06-11 | 数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377617B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177087A (zh) * | 2021-05-12 | 2021-07-27 | 微民保险代理有限公司 | 信息的提示方法、装置、设备及计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1745392A (zh) * | 2002-12-10 | 2006-03-08 | 通乐宝公司 | 内容创建、分发、交互和监视系统 |
US20120209948A1 (en) * | 2010-12-03 | 2012-08-16 | Salesforce.Com, Inc. | Method and system for providing information to a mobile handheld device from a database system |
CN103067219A (zh) * | 2011-12-19 | 2013-04-24 | 微软公司 | 矫正分布式系统中遭破坏的序列值 |
CN103729679A (zh) * | 2005-02-03 | 2014-04-16 | 西门子公司 | 识别神经网络的数据源的系统和方法 |
US20140351233A1 (en) * | 2013-05-24 | 2014-11-27 | Software AG USA Inc. | System and method for continuous analytics run against a combination of static and real-time data |
CN106919783A (zh) * | 2017-01-20 | 2017-07-04 | 上海海洋大学 | 一种浮标数据的多目标关联度划分处理方法 |
CN109189723A (zh) * | 2018-07-05 | 2019-01-11 | 中国科学院遥感与数字地球研究所 | 一种分布式卫星数据中心多源遥感数据处理方法 |
-
2019
- 2019-06-11 CN CN201910501837.7A patent/CN110377617B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1745392A (zh) * | 2002-12-10 | 2006-03-08 | 通乐宝公司 | 内容创建、分发、交互和监视系统 |
CN103729679A (zh) * | 2005-02-03 | 2014-04-16 | 西门子公司 | 识别神经网络的数据源的系统和方法 |
US20120209948A1 (en) * | 2010-12-03 | 2012-08-16 | Salesforce.Com, Inc. | Method and system for providing information to a mobile handheld device from a database system |
CN103067219A (zh) * | 2011-12-19 | 2013-04-24 | 微软公司 | 矫正分布式系统中遭破坏的序列值 |
US20140351233A1 (en) * | 2013-05-24 | 2014-11-27 | Software AG USA Inc. | System and method for continuous analytics run against a combination of static and real-time data |
CN106919783A (zh) * | 2017-01-20 | 2017-07-04 | 上海海洋大学 | 一种浮标数据的多目标关联度划分处理方法 |
CN109189723A (zh) * | 2018-07-05 | 2019-01-11 | 中国科学院遥感与数字地球研究所 | 一种分布式卫星数据中心多源遥感数据处理方法 |
Non-Patent Citations (1)
Title |
---|
景晗等: ""基于MapReduce和HBase的海量网络数据处理"", 《科学技术与工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177087A (zh) * | 2021-05-12 | 2021-07-27 | 微民保险代理有限公司 | 信息的提示方法、装置、设备及计算机可读介质 |
CN113177087B (zh) * | 2021-05-12 | 2024-05-24 | 微民保险代理有限公司 | 信息的提示方法、装置、设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110377617B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12001439B2 (en) | Information service for facts extracted from differing sources on a wide area network | |
US10580095B2 (en) | Method and system for water production and distribution control | |
CA2834107C (en) | Method and system for a pre-shopping reservation system with increased search efficiency | |
US20080222086A1 (en) | Live profile | |
CN112131295B (zh) | 基于Elasticsearch的数据处理方法及设备 | |
Malensek et al. | Galileo: A framework for distributed storage of high-throughput data streams | |
CN115033595B (zh) | 基于超级节点的查询语句处理方法、系统、装置和介质 | |
US20240161198A1 (en) | Custom data | |
CN110377617A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN106547898A (zh) | 一种分布式数据库的数据处理方法及装置 | |
US20070198465A1 (en) | Live profile | |
US8417594B2 (en) | Dimension-based financial reporting using multiple combinations of dimensions | |
US10191973B1 (en) | Patent analytics using mapreduce clustering | |
Wojtowicz et al. | Cost-effective dynamic optimisation for multi-cloud queries | |
CN1577337A (zh) | 用于表示和计算量度之间的关系的系统和方法 | |
Henker et al. | Hephaistos: a management system for massive order book data from multiple centralized crypto exchanges with an internal unified order book | |
Alzogbi et al. | Towards distributed multi-model learning on apache spark for model-based recommender | |
Rahman et al. | Optimizing and enhancing performance of database engine using data clustering technique | |
US10672078B1 (en) | Scoring of insurance data | |
Hristoski et al. | Developing a B2C e-Commerce graph Database Model from a Relational Schema | |
CN118606570A (zh) | 地址检索方法、装置、存储介质及计算机设备 | |
CN105335489A (zh) | 一种事故报警查询优化方法 | |
Hristoski et al. | Developing a B2C e-Commerce Graph Data Model from a Relational Schema | |
Rahman et al. | Development of a framework to reduce overhead on database engine through data distribution | |
Vithya | Design Of Dynamic Based Personalized Recommender System For Web Users Using Big Data Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |