CN110008250B

CN110008250B - 基于数据挖掘的社保数据处理方法、装置和计算机设备

Info

Publication number: CN110008250B
Application number: CN201910171606.4A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2024-03-15
Anticipated expiration: 2039-03-07
Also published as: CN110008250A; WO2020177365A1

Abstract

本申请涉及一种基于数据挖掘的社保数据处理方法、装置和计算机设备。所述方法包括：接收终端发送的资源获取请求，资源获取请求包括请求类型和请求信息；根据资源获取请求和请求信息获取多个社保数据，社保数据包括多个字段数据；对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量；根据请求类型获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据；将分析结果数据推送至对应的终端。采用本方法能够有效对社保数据进行挖掘，并有效地提高社保数据的分析效率和准确率。

Description

基于数据挖掘的社保数据处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于数据挖掘的社保数据处理方法、装置和计算机设备。

背景技术

随着经济的飞速发展，社会保险成为了民生经济的重要组成部分。随着计算机技术的不断发展，社会保险人员登记、社会保险金征收、社会保险金偿付等各个业务流程已经全部实现网络化和信息化，社保业务系统也积累了大量的社保数据。

现有的对社保数据进行挖掘的方式中，大多的只是对社保数据进行查询以及简单的数据处理，对这些大量的社保数据没有进行更深层次的分析和挖掘。且大量的社保数据具有数据量大，信息度繁杂冗余，在对大量的社保数据进行挖掘和分析时，大量的社保数据极易存在挖掘度深度不够、流程混乱等情况，导致数据挖掘的效率和准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效挖掘出社保数据中有价值的信息，并有效地提高社保数据的分析效率和准确率的基于数据挖掘的社保数据处理方法、装置和计算机设备。

一种基于数据挖掘的社保数据处理方法，所述方法包括：

接收终端发送的资源获取请求，所述资源获取请求包括请求类型和请求信息；

根据所述资源获取请求和请求信息获取多个社保数据，所述社保数据包括多个字段数据；

对所述社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；

根据预设算法计算多个特征向量之间的相似度，提取出所述相似度达到预设阈值的特征向量；

根据所述请求类型获取预设的数据分析模型，通过所述数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据；

将所述分析结果数据推送至对应的终端。

在其中一个实施例中，所述对所述社保数据对应的多个字段数据进行向量化的步骤，包括：获取预设的语料库，根据所述社保数据从所述语料库中获取相关联的语料数据；获取预设的向量训练模型，通过所述向量训练模型对所述社保数据和所述语料数据进行词向量计算和训练，得到对应的多个词向量；根据预设算法将所述词向量转换为对应的特征向量。

在其中一个实施例中，所述根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量步骤，包括：根据预设的目标函数计算多个特征向量的多个维度值；根据预设的距离算法和所述维度值计算多个特征向量之间的相似度；提取出所述相似度达到预设阈值的特征向量。

在其中一个实施例中，通过所述数据分析模型对提取的特征向量进行分析的步骤，包括：通过所述数据分析模型计算出多个特征向量的分布值和字段饱和度；对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量；根据预设的语义分析算法，对提取出的特征向量进行分析，得到特征向量的权重；根据所述特征向量的分布值和字段饱和度以及权重进行分析，得到所述特征向量对应多个类型的指标数据和对应的数值；根据所述多个类型的指标数据和对应的数值生成分析结果数据。

在其中一个实施例中，所述分析结果数据中包括多个类型的指标数据和对应的数值，所述方法还包括：根据所述指标数据和对应的数值生成对应的指标分析数据；将所述指标分析数据按照预设方式生成对应的分析视图数据；对所述分析视图数据添加事件类型标识和对应的接口调用参数；将所述分析视图数据推送至对应的终端。

一种基于数据挖掘的社保数据处理装置，所述装置包括：

请求接收模块，用于接收终端发送的资源获取请求，所述资源获取请求包括请求类型和请求信息；

数据获取模块，用于根据所述资源获取请求和请求信息获取多个社保数据，所述社保数据包括多个字段数据；

特征提取模块，用于对所述社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；根据预设算法计算多个特征向量之间的相似度，提取出所述相似度达到预设阈值的特征向量；

数据分析模块，用于根据所述请求类型获取预设的数据分析模型，通过所述数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据；

数据推送模块，用于将所述分析结果数据推送至对应的终端。

在其中一个实施例中，所述特征提取模块还用于根据预设的目标函数计算多个特征向量的多个维度值；根据预设的距离算法和所述维度值计算多个特征向量之间的相似度；提取出所述相似度达到预设阈值的特征向量。

在其中一个实施例中，所述数据分析模块还用于通过所述数据分析模型计算出多个特征向量的分布值和字段饱和度；对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量；根据预设的语义分析算法，对提取出的特征向量进行分析，得到特征向量的权重；根据所述特征向量的分布值和字段饱和度以及权重进行分析，得到所述特征向量对应多个类型的指标数据和对应的数值；根据所述多个类型的指标数据和对应的数值生成分析结果数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于数据挖掘的社保数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于数据挖掘的社保数据处理方法的步骤。

上述基于数据挖掘的社保数据处理方法、装置和计算机设备，服务器接收终端发送的资源获取请求后，根据资源获取请求和携带的请求信息获取多个社保数据，社保数据中包括了多个字段数据。服务器进而对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量。服务器根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。服务器进一步获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据，并将分析结果数据推送至对应的终端。通过对大量的社保数据进行特征提取和筛查，并利用数据分析模型提取出的有价值的特征向量进行分析，由此能够有效地挖掘出社保数据中有价值的信息，进而有效地提高了社保数据的分析效率和准确率。

附图说明

图1为一个实施例中基于数据挖掘的社保数据处理方法的应用场景图；

图2为一个实施例中基于数据挖掘的社保数据处理方法的流程示意图；

图3为一个实施例中对社保数据对应的多个字段数据进行向量化步骤的流程示意图；

图4为一个实施例中通过数据分析模型对提取的特征向量进行分析的步骤的流程示意图；

图5为一个实施例中基于数据挖掘的社保数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于数据挖掘的社保数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102可以向服务器发送资源获取请求，资源获取请求包括请求类型和请求信息。服务器104接收终端发送的资源获取请求后，根据资源获取请求和携带的请求信息获取多个社保数据，社保数据中包括了多个字段数据。服务器104进而对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量。服务器104根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。服务器进一步获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据，并将分析结果数据推送至对应的终端102。通过对大量的社保数据进行特征提取和筛查，并利用数据分析模型提取出的有价值的特征向量进行分析，由此能够有效地挖掘出社保数据中有价值的信息，进而有效地提高了社保数据的分析效率和准确率。

在一个实施例中，如图2所示，提供了一种基于数据挖掘的社保数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收终端发送的资源获取请求，资源获取请求包括请求类型和请求信息。

用户可以通过对应的终端输入相关的字段信息，并向服务器发送数据分析请求，资源获取请求可以是获取对社保数据进行分析后的结果数据。资源获取请求中携带了请求类型和请求信息，其中，请求类型可以是获取的资源数据的类型，例如社保类的分析数据。请求信息可以是用户输入的字段信息，例如可以是社保数据的范围、时间区间等字段信息。

步骤204，根据资源获取请求和请求信息获取多个社保数据，社保数据包括多个字段数据。

社保数据可以是社会保险数据，例如可以包括养老保险数据、医疗保险数据、失业保险数据、工伤保险数据以及生育保险数据等。服务器接收到终端发送的资源获取请求后，根据资源获取请求和请求信息从本地数据库或第三方数据库中获取多个社保数据。例如，当请求信息中获取的社保数据的范围为某个企业时，服务器则获取该企业对应的社保数据。社保数据中包括了多个字段数据，例如姓名、性别、年龄、地区、所属企业、缴费时长、缴费金额等字段信息。

步骤206，对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量。

服务器获取多个社保数据后，对社保数据对应的多个字段数据进行向量化。具体地，服务器可以获取预设的语料库，并根据社保数据从语料库中获取相关联的语料数据。服务器进一步获取预设的向量训练模型，例如，向量训练模型可以是基于word2 vec的神经网络模型。服务器则将社保数据和获取的相关联的语料数据输入至向量训练模型中，进而通过向量训练模型结合相关联的语料数据对社保数据进行词向量计算和训练，得到社保数据对应的多个词向量，并根据预设算法将词向量转换为对应的特征向量。由此能够得到多个字段数据对应的特征向量。

步骤208，根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。

服务器得到多个字段数据对应的特征向量后，根据预设算法计算出多个特征向量之间的相似度。具体地，服务器可以首先根据预设的目标函数计算多个特征向量的多个维度值，其中，维度值可以是每个特征向量对应不同维度的特征值。服务器进一步跟进预设的距离算法和特征向量的维度值计算多个特征向量之间的相似度，进而提取出相似度达到预设阈值的特征向量。

步骤210，根据请求类型获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据。

服务器提取出特征向量后，则进一步根据请求类型获取对应预设的数据分析模型，其中，数据分析模型中可以包括多个不同类型的数据分析模块，例如参保缴费率、缴费基数分析、企业经营状况等多个类型的指标数据分析模块。通过数据分析模型对提取的特征向量进行分析。

具体地，服务器可以首先用过数据分析模型计算出多个特征向量的分布值和字段饱和度，其中分布值可以是特征向量对应的字段数据的值，字段饱和度可以是特征向量和字段数据对应多个预设指标数据的值的饱和程度。服务器进一步通过数据分析模型对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量。服务器则根据预设的语义分析算法对提取出的特征向量进行语义分析，得到每个特征向量的权重，即特征向量的重要程度值。服务器进而根据特征向量的分布值、字段饱和度以及权重对多个特征向量进行分析，得到特征向量对应多个类型的指标数据和数值。服务器进而根据每个特征向量对应多个类型的指标数据和对应的数值生成分析结果数据。

步骤212，将分析结果数据推送至对应的终端。

服务器生成分析结果数据后，则将分析结果数据推送至对应的终端。进一步地，服务器还可以将分析结果数据生成预设格式的视图数据，并将生成的视图数据推送至对应的终端，由此可以使得用户能够清楚地了解分析结果数据。

例如，当获取到的社保数据为某个企业或某个区域的社保数据时，则对获取的多个社保数据进行挖掘分析，可以有效地分析出参保缴费率、缴费基数分析、企业经营状况等指标数据。通过对大量的社保数据进行特征提取和筛查，并利用数据分析模型提取出的有价值的特征向量进行分析，由此能够有效地挖掘和分析出社保数据中有价值的信息，由此有效地提高了社保数据的分析效率和准确率。

上述基于数据挖掘的社保数据处理方法中，服务器接收终端发送的资源获取请求后，根据资源获取请求和携带的请求信息获取多个社保数据，社保数据中包括了多个字段数据。服务器进而对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量。服务器根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。服务器进一步获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据，并将分析结果数据推送至对应的终端。通过对大量的社保数据进行特征提取和筛查，并利用数据分析模型提取出的有价值的特征向量进行分析，由此能够有效地挖掘出社保数据中有价值的信息，进而有效地提高了社保数据的分析效率和准确率。

在一个实施例中，如图3所示，对社保数据对应的多个字段数据进行向量化的步骤，具体包括以下内容：

步骤302，获取预设的语料库，根据社保数据从所述语料库中获取相关联的语料数据。

终端可以向服务器发送资源获取请求，资源获取请求中携带了请求类型和请求信息。服务器接收终端发送的资源获取请求请求后，根据资源获取请求和请求信息从本地数据库或第三方数据库中获取对应的多个社保数据，社保数据中包括多个字段数据。

服务器获取多个社保数据后，进而获取预设的语料库。其中，语料库可以是预先设置的包括多种与社保相关的词汇或语句的语料库。

步骤304，获取预设的向量训练模型，通过向量训练模型对社保数据和语料数据进行词向量计算和训练，得到对应的多个词向量。

步骤306，根据预设算法将词向量转换为对应的特征向量。

服务器进一步获取预设的向量训练模型，将社保数据和语料数据输入至向量训练模型中，例如，向量训练模型可以是基于word2 vec的神经网络模型。通过向量训练模型对社保数据和预料数据进行计算和训练，得到多个社保数据对应的词向量。例如，通过词向量的训练，每个字都可以训练得到n维空间中的一个向量，如当n取2维时，则“身”对应向量是[0.5365654,0.726268]，对应的“份”对应的词向量可能是[0.52222458,0.7511456]，这两个向量的cos值也就是余弦距离非常近，对应到语义空间中的距离非常近，则表示“身份”是成词的。如果n取100，则每个字转化成100维度的向量。通过词向量模型对社保数据进行向量化，能够准确有效地提取出社保数据中的词向量。

服务器提取出社保数据中的词向量后，则进一步根据预设算法将词向量转换为对应的特征向量。例如，可以利用预设的向量表示法将词向量转换为对应的特征向量。由此能够有效地提取出社保数据对应的特征向量。

在一个实施例中，根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量步骤，包括：根据预设的目标函数计算多个特征向量的多个维度值；根据预设的距离算法和维度值计算多个特征向量之间的相似度；提取出相似度达到预设阈值的特征向量。

服务器对社保数据对应的多个字段数据进行向量化，由此得到多个字段数据对应的特征向量。服务器则进一步根据预设算法计算多个特征向量之间的相关性。具体地，服务器可以根据预设的目标函数计算多个特征向量的多个维度值，并根据预设的距离算法和维度值计算多个特征向量之间的相似度，进而提取出相似度达到预设阈值的特征向量。例如，预设的距离算法可以为欧式距离算法。

其中，欧式距离函数的计算公式可以如下：

目标函数的表达式可以为：

B_k＝argmin(P(A_i,B_i))

通过目标函数使得P(A_i,B_i)的值最小。对Max、Min、Mean三个维度的值进行抽取，Max就是抽取向量同一个维度的最大值，例如0.5>0.2>0.1(第一维度),0.7>0.5>0.2(第二维度)，则Max对应的就是[0.5,0.7]，同样的Min对应的就是[0.1,0.2],Mean均值对应的就是[0.8/3,1.4/3]，然后再将这三个向量横向连接起来，通过3*n维度的向量来表示。例如当n取2时，身表示为[0.5,0.2]，份表示为[0.1,0.7]，证表示为[0.2,0.5]。因此通过Max、Min、Mean三个维度的抽取，Max就是抽取向量同一个维度的最大值，如0.5>0.2>0.1(第一维度),0.7>0.5>0.2(第二维度)，则Max对应的就是[0.5,0.7]，同样的Min对应的就是[0.1,0.2],mean均值对应的就是[0.8/3,1.4/3]，然后再将这三个向量横向连接起来，因此短文本“身份证”就可以用[0.5,0.7,0.1,0.2,0.8/3,1.4/3]这一个6个维度的向量来表示。同样的，如果短文本是“保险说明”，同样也可以用一个6个维度的向量来表示。因此无论是长度为多少的短文本，都可以通过3*n维度的向量来表示。文本之间的相似度，则可以通过对多个文本的多个维度对应的向量的欧式距离进行计算，就可以得到文本的相似度结果。

服务器计算出多个特征向量之间的相似度后，则进一步提取出相似度达到预设阈值的特征向量。通过预设的目标函数和距离算法计算多个特征向量之间的相似度，进而提取出相似度达到预设阈值的特征向量，由此能够有效地提取对社保数据进行特征提取。

在一个实施例中，服务器获取预设的数据分析模型之前，还需要对构建出数据分析模型。具体地，服务器可以预先获取大量的社保数据，对社保数据进向量化后，对社保数据进行特征提取。具体地，服务器可以通过预设的聚类算法对多个特征向量进行聚类分析，计算出特征向量之间的相关性以及每个特征向量的权重，进而提取达到预设阈值的特征向量。服务器进而根据提取出的特征向量和对应的权值按照预设算法构建数据分析模型。其中，数据分析模型中可以包括多个不同类型的数据分析模块，例如参保缴费率、缴费基数分析、企业经营状况等多个类型的指标数据分析模块。通过对社保数据进行分析和特征提取，并利用提取出的有价值的特征向量构建数据分析模型，由此能够有效地提高数据分析模型的准确率。

在一个实施例中，如图4所示，通过数据分析模型对提取的特征向量进行分析的步骤，具体包括以下内容：

步骤402，通过数据分析模型计算出多个特征向量的分布值和字段饱和度。

步骤404，对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量。

服务器对社保数据对应的多个字段数据进行向量化，由此得到多个字段数据对应的特征向量。服务器进而根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。

服务器对社保数据进行特征提取，提取出对应的特征向量后，则进一步根据资源获取请求中的请求类型获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析。具体地，服务器获取预设的数据分析模型后，将提取出的字段数据对应的特征向量输入至数据分析模型中，通过数据分析模型计算出字段数据的分布值和字段饱和度，并对字段数据进行统计筛查，提取达到预设饱和值的特征向量。其中，分布值可以是特征向量对应的字段数据的值。

例如，当某一个字段是年龄时，字段数据的分布值可以是10-20、20-30、30-40等每一个年龄段的人数分布。字段饱和度可以是特征向量和字段数据对应多个预设指标数据的值的饱和程度，例如输入数据可能会存在一些不饱和的情况，如说有一些字段是空的，则字段数据的字段饱和度就比较低。因此，服务器需要对字段数据对应的特征向量进行统计探查进行二次字段筛选。

步骤406，根据预设的语义分析算法，对提取出的特征向量进行分析，得到特征向量的权重。

步骤408，根据特征向量的分布值和字段饱和度以及权重进行分析，得到特征向量对应多个类型的指标数据和对应的数值。

步骤410，根据多个类型的指标数据和对应的数值生成分析结果数据。

服务器对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量后，进一步根据预设的语义分析算法，对提取出的字段数据进行分析，得到字段数据对应的权值，即重要程度值。

服务器则根据字段数据的分布值和字段饱和度以及重要程度值进行分析，得到多个类型的指标数据和对应的数值，并根据多个类型的指标数据和对应的数值生成对应的分析结果数据。通过数据分析模型对提取的字段数据进行分析，由此有效地分析出社保数据对应的分析结果数据。

例如，语义分析可以是基于用户输入的字段与真实字段之间的匹配关系，请求信息中即包括用户输入的字段。如基于社保大数据上千维度的字段，包括脱敏身份证号、身高、体重、社保脱敏账号、社保属性等等，而用户可能只对自己特定的几个字段感兴趣。因此，用户只用输入感兴趣的字段，服务器则通过对提取出的社保数据对应的特征向量进语义分析，分析出数据集中与用户输入的感兴趣字段相关的字段信息，并计算出特征向量对应的权重，进而获取相关联的字段信息。如果用户输入了一个较为模糊的感兴趣字段时，如“赔付”，而“赔付”中包含了年赔付次数、赔付金额、赔付原因等信息。

其中，数据分析模型中可以包括多个不同类型的数据分析模块，例如参保缴费率、缴费基数分析、企业经营状况等多个类型的指标数据分析模块。服务器进而根据特征向量的分布值、字段饱和度以及权重对多个特征向量进行分析，得到特征向量对应多个类型的指标数据和数值。服务器进而根据每个特征向量对应多个类型的指标数据和对应的数值生成分析结果数据。服务器生成分析结果数据后，则将分析结果数据推送至对应的终端。通过对大量的社保数据进行特征提取和筛查，并利用数据分析模型提取出的有价值的特征向量进行分析，由此能够有效地挖掘和分析出社保数据中有价值的信息，由此有效地提高了社保数据的分析效率和准确率。

在一个实施例中，分析结果数据中包括多个类型的指标数据和对应的数值，该方法还包括：根据指标数据和对应的数值生成对应的指标分析数据；将指标分析数据按照预设方式生成对应的分析视图数据；对分析视图数据添加事件类型标识和对应的接口调用参数；将分析视图数据推送至对应的终端。

服务器接收终端发送的资源获取请求请求后，根据资源获取请求和请求信息从本地数据库或第三方数据库中获取对应的多个社保数据，社保数据中包括多个字段数据。服务器则对社保数据对应的多个字段数据进行向量化，由此得到多个字段数据对应的特征向量。服务器进而根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量。

服务器对社保数据进行特征提取，提取出对应的特征向量后，则进一步根据资源获取请求中的请求类型获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，其中，数据分析模型中可以包括多个不同类型的数据分析模块，例如参保缴费率、缴费基数分析、企业经营状况等多个类型的指标数据分析模块。服务器进而根据特征向量的分布值、字段饱和度以及权重对多个特征向量进行分析，得到特征向量对应多个类型的指标数据和数值。服务器进而根据每个特征向量对应多个类型的指标数据和对应的数值生成分析结果数据。

服务器通过对社保数据进行挖掘分析得到对应的分析结果数据后，分析结果数据中包括多个类型的指标数据和对应的数值。服务器还可以进一步根据指标数据类型将分析结果数据生成对应的多个指标类型的指标分析数据。服务器还可以将多个指标类型的模块数据按照预设方式分别生成对应可视化的分析视图数据。具体地，服务器可以根据请求类型获取预设的集成函数，根据分析结果数据中的多个预设时序参数和对应的预测值通过集成函数集成对应的视图资源数据，并对视图资源数据添加事件类型标识和对应的接口调用参数。例如，预设的集成函数可以为python可视化函数，可以利用直方图可视化函数、分布密度、热度图等可视化函数嵌入集成对应的视图数据，通过嵌套函数能够绘制出对应的可视化图像。

服务器根据分析结果数据中的多个类型的指标数据和对应的数值通过集成函数集成对应的分析视图数据后，进一步对分析视图数据添加事件类型标识和对应的接口调用参数，并集成对应的类进行存储。以利于服务器或终端对生成的分析视图数据进行调用，由此使得服务器或终端再次获取相关联的社保分析数据或分析视图数据时，可以直接根据事件类型标识和对应的接口调用参数调用挖掘分析出的数据，进而提高了对社保数据的分析效率和利用价值。

服务器生成对应的分析视图数据后，则将分析视图数据发送至对应的终端，以使得对应的终端可以有效地根据挖掘出的社保数据结合对应的业务进行进一步分析，由此能够有效地对挖掘分析后的分析数据进行利用，从而有效提高了社保数据的挖掘效率和分析效率。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于数据挖掘的社保数据处理装置，包括：请求接收模块502、数据获取模块504、特征提取模块506、数据分析模块508和数据推送模块510，其中：

请求接收模块502，用于接收终端发送的资源获取请求，资源获取请求包括请求类型和请求信息；

数据获取模块504，用于根据资源获取请求和请求信息获取多个社保数据，社保数据包括多个字段数据；

特征提取模块506，用于对社保数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量；

数据分析模块508，用于根据请求类型获取预设的数据分析模型，通过数据分析模型对提取的特征向量进行分析，得到对应的分析结果数据；

数据推送模块510，用于将分析结果数据推送至对应的终端。

在一个实施例中，特征提取模块506还用于获取预设的语料库，根据社保数据从语料库中获取相关联的语料数据；获取预设的向量训练模型，通过向量训练模型对社保数据和语料数据进行词向量计算和训练，得到对应的多个词向量；根据预设算法将词向量转换为对应的特征向量。

在一个实施例中，特征提取模块506还用于根据预设的目标函数计算多个特征向量的多个维度值；根据预设的距离算法和维度值计算多个特征向量之间的相似度；提取出相似度达到预设阈值的特征向量。

在一个实施例中，数据分析模块508还用于通过数据分析模型计算出多个特征向量的分布值和字段饱和度；对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量；根据预设的语义分析算法，对提取出的特征向量进行语义分析，得到特征向量的权重；根据特征向量的分布值和字段饱和度以及权重进行分析，得到特征向量对应多个类型的指标数据和对应的数值；根据多个类型的指标数据和对应的数值生成分析结果数据。

在一个实施例中，分析结果数据中包括多个类型的指标数据和对应的数值，该装置还包括视图数据生成模块，用于根据指标数据和对应的数值生成对应的指标分析数据；将指标分析数据按照预设方式生成对应的分析视图数据；对分析视图数据添加事件类型标识和对应的接口调用参数；将分析视图数据推送至对应的终端。

关于基于数据挖掘的社保数据处理装置的具体限定可以参见上文中对于基于数据挖掘的社保数据处理方法的限定，在此不再赘述。上述基于数据挖掘的社保数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储社保数据、语料库和分析结果数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的基于数据挖掘的社保数据处理方法的步骤。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于数据挖掘的社保数据处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于数据挖掘的社保数据处理方法，所述方法包括：

接收终端发送的资源获取请求，所述资源获取请求包括请求类型和请求信息；所述请求类型是获取的资源数据的类型，所述请求信息是输入的目标企业；

当所述请求类型用于指示获取社保数据时，根据所述资源获取请求和请求信息获取所述目标企业的多个社保数据，每个所述社保数据包括多个字段数据；

对于每个社保数据，对所述社保数据对应的多个字段数据进行向量化，得到所述社保数据的多个字段数据对应的特征向量；

根据所述请求类型获取预设的数据分析模型；

通过所述数据分析模型计算出多个特征向量的分布值和字段饱和度；

对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量；

根据预设的语义分析算法，对提取出的特征向量进行分析，得到特征向量的权重；

根据所述特征向量的分布值和字段饱和度以及权重进行分析，得到所述特征向量对应多个类型的指标数据和对应的数值；

根据所述多个类型的指标数据和对应的数值生成分析结果数据；

将所述分析结果数据推送至对应的终端。

2.根据权利要求1所述的方法，其特征在于，所述对所述社保数据对应的多个字段数据进行向量化的步骤，包括：

获取预设的语料库，根据所述社保数据从所述语料库中获取相关联的语料数据；

获取预设的向量训练模型，通过所述向量训练模型对所述社保数据和所述语料数据进行词向量计算和训练，得到对应的多个词向量；

根据预设算法将所述词向量转换为对应的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据预设算法计算多个特征向量之间的相似度，提取出相似度达到预设阈值的特征向量步骤，包括：

根据预设的目标函数计算多个特征向量的多个维度值；

根据预设的距离算法和所述维度值计算多个特征向量之间的相似度；

提取出所述相似度达到预设阈值的特征向量。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述分析结果数据中包括多个类型的指标数据和对应的数值，所述方法还包括：

根据所述指标数据和对应的数值生成对应的指标分析数据；

将所述指标分析数据按照预设方式生成对应的分析视图数据；

对所述分析视图数据添加事件类型标识和对应的接口调用参数；

将所述分析视图数据推送至对应的终端。

5.一种基于数据挖掘的社保数据处理装置，所述装置包括：

请求接收模块，用于接收终端发送的资源获取请求，所述资源获取请求包括请求类型和请求信息；所述请求类型是获取的资源数据的类型，所述请求信息是输入的目标企业；

数据获取模块，用于当所述请求类型用于指示获取社保数据时，根据所述资源获取请求和请求信息获取所述目标企业的多个社保数据，每个所述社保数据包括多个字段数据；

特征提取模块，用于对于每个社保数据，对所述社保数据对应的多个字段数据进行向量化，得到所述社保数据的多个字段数据对应的特征向量；根据预设算法计算多个特征向量之间的相似度，提取出所述相似度达到预设阈值的特征向量；

数据分析模块，用于根据所述请求类型获取预设的数据分析模型，通过所述数据分析模型计算出多个特征向量的分布值和字段饱和度；对多个特征向量进行统计筛查，提取达到预设饱和值的特征向量；根据预设的语义分析算法，对提取出的特征向量进行分析，得到特征向量的权重；根据所述特征向量的分布值和字段饱和度以及权重进行分析，得到所述特征向量对应多个类型的指标数据和对应的数值；根据所述多个类型的指标数据和对应的数值生成分析结果数据；

6.根据权利要求5所述的装置，其特征在于，所述特征提取模块，还用于获取预设的语料库，根据所述社保数据从所述语料库中获取相关联的语料数据；获取预设的向量训练模型，通过所述向量训练模型对所述社保数据和所述语料数据进行词向量计算和训练，得到对应的多个词向量；根据预设算法将所述词向量转换为对应的特征向量。

7.根据权利要求5所述的装置，其特征在于，所述特征提取模块还用于根据预设的目标函数计算多个特征向量的多个维度值；根据预设的距离算法和所述维度值计算多个特征向量之间的相似度；提取出所述相似度达到预设阈值的特征向量。

8.根据权利要求5至7任一项所述的装置，其特征在于，所述分析结果数据中包括多个类型的指标数据和对应的数值，所述装置还包括：

视图数据生成模块，用于根据所述指标数据和对应的数值生成对应的指标分析数据；将所述指标分析数据按照预设方式生成对应的分析视图数据；对所述分析视图数据添加事件类型标识和对应的接口调用参数；将所述分析视图数据推送至对应的终端。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。