CN109491973A

CN109491973A - 电子装置、保单变化数据分布式分析方法及存储介质

Info

Publication number: CN109491973A
Application number: CN201811119396.6A
Authority: CN
Inventors: 丁志勇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-03-19

Abstract

本发明提出一种保单数据分布式分析方法，该方法包括：当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；将抓取的保单数据直接上传至HDFS中进行存储；基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。此外，本发明还提出一种电子装置及计算机可读存储介质。

Description

电子装置、保单变化数据分布式分析方法及存储介质

技术领域

本发明涉及保单数据处理领域，尤其涉及一种电子装置、保单变化数据分布式分析方法及存储介质。

背景技术

随着人们保险意识的增强，保险公司的业务类型也变得越来越广泛，通常，保险公司为了准确地了解市场需求并根据市场需求做出对应的发展规划策略，就需要定期统计出保单数据的变化轨迹，也即需要分析筛选出发生变化的保单数据以及保单数据发生变化的原因。

目前，要从海量的保单数据中分析筛选出发生变化的保单数据以及保单数据发送变化的原因，需要耗费大量的时间，且在处理过程中容易出现计算机资源耗尽，而无法支持大规模运算的问题。因此，寻求一种快速高效的保单分析方法是亟待解决的问题。

发明内容

有鉴于此，本发明提出一种电子装置、保单变化数据分布式分析方法及存储介质，能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。

首先，为实现上述目的，本发明提出一种电子装置，所述电子装置包括存储器、及与所述存储器连接的处理器，所述处理器用于执行所述存储器上存储的保单变化数据分布式分析程序，所述保单变化数据分布式分析程序被所述处理器执行时实现如下步骤：

A1、当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

A2、将抓取的保单数据直接上传至HDFS中进行存储；

A3、基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

A4、基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

优选地，所述步骤A3包括：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

根据自定义的分区数生成RDD,对HDFS文件进行读取，以得到多个临时数据表；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

优选地，所述分区因子包括保单数据文件对象，构成保单数据文件对象的数据表的起始位置，构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机；所述在spark平台中启动spark驱动，并自定义Spark的分区因子的步骤包括：

在spark平台中启动spark驱动，构造保单数据文件对象，所述保单数据文件对象包括文件头的开始位置对应的保单号以及文件头的结束位置对应的保单号；

基于所述文件头的开始位置对应的保单号和结束位置对于的保单号确定保单数据文件对象的数据表的起始位置、保单数据文件对象的数据表的长度以及该保单数据文件所在的主机。

优选地，所述步骤A4包括：

分别获取多个临时数据表生成的RDD；

基于预定义的保单字段分别遍历存储在RDD中的保单数据，以得到发生变化的保单数据，所述预定义的保单字段包括保单的变化状态，所述保单的变化状态包括脱退单、新增单、状态变化单、信息变化单。

优选地，所述保单信息包括保单标识信息、保单生成时间、保单险种类别、保单变化因子。

此外，为实现上述目的，本发明提出一种保单变化数据分布式分析方法，所述方法包括如下步骤：

S1、当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

S2、将抓取的保单数据直接上传至HDFS中进行存储；

S3、基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

S4、基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

优选地，所述步骤S3包括：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

优选地，所述步骤S4包括：

分别获取多个临时数据表生成的RDD；

此外，为了解决上述技术问题，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有保单变化数据分布式分析程序，所述保单变化数据分布式分析程序可被至少一个处理器执行，以使所述至少一个处理器执行如上所述的保单变化数据分布式分析方法的步骤。

本发明所提出的电子装置、保单变化数据分布式分析方法及存储介质，通过设定预定义的时间，当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；将抓取的保单数据直接上传至HDFS中进行存储；基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。

附图说明

图1是本发明提出的电子装置一可选的硬件架构的示意图；

图2是本发明电子装置一实施例中保单变化数据分布式分析程序的程序模块示意图；

图3是本发明保单变化数据分布式分析方法较佳实施例的实施流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明提出的电子装置一可选的硬件架构示意图。本实施例中，电子装置10可包括，但不仅限于，可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-14的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11至少包括一种类型的计算机可读存储介质，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器11可以是电子装置10的内部存储单元，例如电子装置10的硬盘或内存。在另一些实施例中，存储器11也可以是电子装置10的外包存储设备，例如电子装置10上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器11还可以既包括电子装置10的内部存储单元也包括其外包存储设备。本实施例中，存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件，例如保单变化数据分布式分析程序等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中，处理器12用于运行存储器11中存储的程序代码或者处理数据，例如运行的保单变化数据分布式分析程序等。

网络接口13可包括无线网络接口或有线网络接口，网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。

通信总线14用于实现组件11-13之间的通信连接。

图1仅示出了具有组件11-14以及保单变化数据分布式分析程序的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，电子装置10还可以包括用户接口(图1中未示出)，用户接口可以包括显示器、输入单元比如键盘，其中，用户接口还可以包括标准的有线接口、无线接口等。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED触摸器等。进一步地，显示器也可称为显示屏或显示单元，用于显示在电子装置10中处理信息以及用于显示可视化的用户界面。

可选地，在一些实施例中，电子装置10还可以包括音频单元(音频单元图1中未示出)，音频单元可以在电子装置10处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将接收的或者存储的音频数据转换为音频信号；进一步地，电子装置10还可以包括音频输出单元，音频输出单元将音频单元转换的音频信号输出，而且音频输出单元还可以提供与电子装置10执行的特定功能相关的音频输出(例如呼叫信号接收声音、消息接收声音等等)，音频输出单元可以包括扬声器、蜂鸣器等等。

可选地，在一些实施例中，电子装置10还可以包括警报单元(图中未示出)，警报单元可以提供输出已将事件的发生通知给电子装置10。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或者视频输出之外，警报单元可以以不同的方式提供输出以通知事件的发生。例如，警报单元可以以震动的形式提供输出，当接收到呼叫、消息或一些其他可以使电子装置10进入通信模式时，警报单元可以提供触觉输出(即，振动)以将其通知给用户。

在一实施例中，存储器11中存储的保单变化数据分布式分析程序被处理器12执行时，实现如下操作：

A，当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

由于保险业务存在不可预期的变化，例如，出现脱退单、理赔单或者失效单等，因此在一定的时间段内，保险公司需要对保单变化数据进行分析，以方便公司决策层对公司后续的发展做出合理的规划。在本实施例中，通过设定一预定义的时间，当到达所述预定义的时间后，从预先确定的数据库中获取当月的保单信息。具体地，所述预定义的时间可以是每个月的最后一天的任意时刻，也可以是每个月中指定的一天的任意时刻，例如可以为每个月4号的凌晨2点。进一步地，所述预先确定的数据库中存储有当月保单信息的数据表。具体地，保单信息包括保单标识信息、保单生成时间、保单险种类别、保单变化因子等。数据库可以是SQL Server(微软公司推出的一款关系型数据库管理系统)数据库。

B，将抓取的保单数据直接上传至HDFS中进行存储；

具体地，HDFS是Hadoop分布式文件系统，是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS和现有的分布式文件系统有很多共同点，但同时，HDFS和其他的分布式文件系统的区别也是很明显的。具体地，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，能够降低开发成本，同时HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

C，基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

具体地，所述步骤C包括如下步骤：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

根据自定义的分区数生成RDD(Spark的分布式数据集HadoopRDD，也称为Resilient Distributed Dataset，弹性分布式数据集),对HDFS文件进行读取，以得到多个临时数据表；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

具体地，在本实施例中，自定义的spark的分区因子包括构造保单数据文件对象，构成保单数据文件对象的数据表的起始位置，构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机。进一步地，构造的保单数据文件对象包括文件头的开始位置对应的保单号。所述在spark平台中启动spark驱动，并自定义Spark的分区因子的步骤包括：

进一步地，RDD(Resilient Distributed Datasets),是弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建，然而这些限制使得实现容错的开销很低。在使用的过程中，RDD可以看作是Spark的一个对象，它本身运行于内存中，如读文件是一个RDD，对文件计算是一个RDD，结果集也是一个RDD，不同的分片、数据之间的依赖、key-value类型的map数据都可以看做RDD。

D，基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

具体地，所述步骤D包括如下步骤：

分别获取多个临时数据表生成的RDD；

基于预定义的保单字段分别遍历存储在RDD中的保单数据，以得到发生变化的保单数据。具体地，所述预定义的保单字段包括保单的变化状态，例如脱退单、新增单、状态变化单、信息变化单等。其中，脱退单指的是由于投保人自身的原因，在本月已经退保的保单；新增单指的是本月新增加的保单；状态变化单指的是保单状态发生了变化的保单，其中保单状态包括例如缴费有效、交清有效、保费减额、失效、豁免等；信息变化单指的是被保人基本信息发生变化的保单，例如曾用名变更、住址变更、联系方式变更等。

由上述实施例可知，本发明提出的电子装置，通过设定预定义的时间，并在达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；将抓取的保单数据直接上传至HDFS中进行存储；基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。

此外，本发明的保单变化数据分布式分析程序依据其各部分所实现的功能不同，可用具有相同功能的程序模块进行描述。请参阅图2所示，是本发明电子装置一实施例中保单变化数据分布式分析程序的程序模块示意图。本实施例中，保单变化数据分布式分析程序依据其各部分所实现的功能的不同，可以被分割成抓取模块201、上传模块202、分区模块203以及分析模块204。由上面的描述可知，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述保单变化数据分布式分析程序在电子装置10中的执行过程。所述模块201-204所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

抓取模块201用于当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

上传模块202用于将抓取的保单数据直接上传至HDFS中进行存储；

分区模块203用于基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

分析模块204用于基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

此外，本发明还提出一种保单变化数据分布式分析方法，请参阅图3所示，所述保单变化数据分布式分析方法包括如下步骤：

S301，当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

S302，将抓取的保单数据直接上传至HDFS中进行存储；

S303，基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

具体地，所述步骤C包括如下步骤：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

S304，基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

具体地，所述步骤D包括如下步骤：

分别获取多个临时数据表生成的RDD；

由上述事实施例可知，本发明提出的保单变化数据分布式分析方法，通过设定预定义的时间，当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；将抓取的保单数据直接上传至HDFS中进行存储；基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有保单变化数据分布式分析程序，所述保单变化数据分布式分析程序被处理器执行时实现如下操作：

当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；

将抓取的保单数据直接上传至HDFS中进行存储；

基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；

基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。

本发明计算机可读存储介质的具体实施过程，与上述电子装置以及保单变化数据分布式分析方法的具体实施过程类似，在此不再赘述。

由上面分析可知，本发明计算机可读存储介质，通过设定预定义的时间，当达到预定义的时间后，从预先确定的数据库中抓取预先存储的当月保单数据；将抓取的保单数据直接上传至HDFS中进行存储；基于spark平台对存储在HDFS中的保单数据进行分区处理，以得到多个临时数据表，并将得到的多个临时数据表缓存在分布式内存中；基于spark平台对得到的多个临时数据表中的保单数据进行分析，以得到对所有临时表中的保单变化数据的分析结果，将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中，快速地分析出保单发生变化的数据，提高保单数据分析的效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子装置，其特征在于，所述电子装置包括存储器、及与所述存储器连接的处理器，所述处理器用于执行所述存储器上存储的保单变化数据分布式分析程序，所述保单变化数据分布式分析程序被所述处理器执行时实现如下步骤：

A2、将抓取的保单数据直接上传至HDFS中进行存储；

2.如权利要求1所述的电子装置，其特征在于，所述步骤A3包括：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

3.如权利要求2所述的电子装置，其特征在于，所述分区因子包括保单数据文件对象，构成保单数据文件对象的数据表的起始位置，构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机；所述在spark平台中启动spark驱动，并自定义Spark的分区因子的步骤包括：

4.如权利要求1所述的电子装置，其特征在于，所述步骤A4包括：

分别获取多个临时数据表生成的RDD；

5.如权利要求1-4任一所述的电子装置，其特征在于，所述保单信息包括保单标识信息、保单生成时间、保单险种类别、保单变化因子。

6.一种保单变化数据分布式分析方法，其特征在于，所述方法包括如下步骤：

S2、将抓取的保单数据直接上传至HDFS中进行存储；

7.如权利要求6所述的保单变化数据分布式分析方法，其特征在于，所述步骤S3包括：

在spark平台中启动spark驱动，并自定义Spark的分区因子；

将得到的多个临时数据表以RDD形式缓存在分布式内存中。

8.如权利要求7所述的保单变化数据分布式分析方法，其特征在于，

所述分区因子包括保单数据文件对象，构成保单数据文件对象的数据表的起始位置，构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机；所述在spark平台中启动spark驱动，并自定义Spark的分区因子的步骤包括：

9.如权利要求8所述的保单变化数据分布式分析方法，其特征在于，所述步骤S4包括：

分别获取多个临时数据表生成的RDD；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有保单变化数据分布式分析程序，所述保单变化数据分布式分析程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求6-9中任一项所述的保单变化数据分布式分析方法的步骤。