CN114860797B

CN114860797B - 一种数据的衍生处理方法

Info

Publication number: CN114860797B
Application number: CN202210256778.3A
Authority: CN
Inventors: 殷光强; 李超; 唐飞; 侯少麒; 陈勇生; 林若希
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2023-05-26
Anticipated expiration: 2042-03-16
Also published as: CN114860797A

Abstract

本发明涉及大数据应用技术领域，尤其涉及一种数据的衍生处理方法，包括基于原子属性信息依次建立层级数据簇，令这些层级数据簇为显性数据簇；基于显性数据簇挖掘原子间的隐性信息，并通过隐性信息建立隐性数据簇；将隐性数据簇更新至显性数据簇所在的数据库；更具所需关注的属性信息获取数据库中的高频原子，并引入热源注意力机制和双向门控循环网络对高频数据进行处理，进一步结合任务场景的对高频原子进行相关性分析，并基于相关性对高频原子进行排序。本技术方案能够高效地将海量数据进行处理，同时能够有效降低大数据算法的时间复杂度，兼顾数据挖掘的深度，在保障原有大数据系统功能的同时，还能够给各相关部门管理人物信息规划新的思路。

Description

一种数据的衍生处理方法

技术领域

本发明涉及大数据应用技术领域，尤其涉及一种数据的衍生处理方法。

背景技术

在信息技术和网络技术的推动下，人们的生活发生了翻天覆地的变化。大数据、云计算、物联网等现代技术正在不断改变着人们的生活，人们在使用这些技术的过程中，也不断地产生着数据，并且，这些数据不再是简单的文本和结构化的小样本数据，而是伴随有图像、音频、视频等非结构化的海量数据，当今社会已经进入大数据时代。

与传统数据相比，大数据具有数据量更大、种类繁多、增长速度快、价值密度低等特点。各业务系统每天产生着大量、非结构化的数据，也是大数据的一种，各业务大数据在帮助各企业部门了解业务需求情况、针对性提供产品服务方面起着至关重要的作用。当前，随着社会经济的发展和人口流动性的增加，消费者在不同时间、不同场合的需求存在较大差异。由于信息共享不畅，企业很难分析消费者真实的需求；同时，通过手机、电视、电脑等媒体，消费者浏览的信息量增加，他们对不同出行、购物、饮食的方案优缺点了解增多，形成了一套属于自己的消费观念，这些都显著地增加了企业对消费者进行需求分析的难度。为了更精准的为消费者提供服务，提高对资源的利用以及服务效率，企业需要充分利用大数据技术，寻找自动分析数据、自动分类数据、自动汇总数据、自动发现和描述趋势、自动识别异常，这些都催生了数据挖掘的诞生。简而言之，数据挖掘从大量数据中提取或挖掘知识。

通过以上所述，现有的各业务大数据挖掘系统主要面临以下几个问题：1.大数据量大繁多，不能够有效地获取有价值的数据；2.人群基数大，大数据算法处理起来需要大量的时间成本；3.消费者的接触的信息量增加，企业直接获取用户需求难度增加；4.消费者在不同时间、不同场合的需求存在较大差异，企业难以准确进行智能推荐。

发明内容

本发明的目的在于根据上述各业务大数据挖掘系统面临的问题，提出一种数据的衍生处理方法，一方面能够高效地将海量数据进行处理，同时能够有效降低大数据算法的时间复杂度，另一方面还能够兼顾数据挖掘的深度。两者相结合，在保障原有大数据系统功能的同时，还能够给各相关部门管理人物信息规划新的思路，提高智能推荐的效率。本发明解决上述技术问题所采用的技术方案如下：

一种数据的衍生处理方法，包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析；

S1，所述显性数据簇的生成：根据数据的属性对原始数据进行若干次分类，并基于每次分类结果依次建立层级数据簇，称任意层级数据簇中的每单个数据为原子，这些层级数据簇为显性数据簇，将所有显性数据簇存入数据库；

S2，所述隐性数据簇的生成：获取相同或不同显性数据簇中不同原子的隐性信息，并基于隐性信息对不同显性数据簇中不同原子进行划分，以形成隐性数据簇；

S3，所述数据簇的处理：将隐性数据簇更新至显性数据簇所在的数据库；

S4，所述相关性分析：获取数据库中所有与任务场景的原子，并根据原子与任务场景的相关性，对所有原子进行排序。

优选的，所述显性数据簇的生成过程中，所述原始数据来自于相关部门的业务数据库，且业务数据库包括人力资源管理数据库。

优选的，所述显性数据簇的生成包括以下步骤：

S11，获取原始数据的属性信息；

S12，基于属性信息，在原始数据的若干属性中选择一种属性作为第一属性；

S13，以第一属性为依据，对原始数据进行分类，并基于分类结果建立若干一级数据组，称所有一级数据组为所述层级数据簇中的一级数据簇，称一级数据簇中的每单个数据为原子，每单个一级数据簇中的原子具有相同的第一属性；

S14，根据业务场景确定迭代阈值n，并基于迭代阈值对原子进行n次发散衍生，且n≥1；其中，原子发散衍生包括以下步骤：

S14-1，基于属性信息选择第m+1属性，以第m+1属性为依据，对隶属于相同或不同的m级数据簇中的原子进行分类，并基于分类结果建立若干m+1级数据组，称所有 m+1级数据组为所述层级数据簇中的m+1级数据簇；其中，m为当前发散衍生的次数， n≥m≥1；

S14-2，判断m是否大于n；若m≤n，则令m＝m+1后，回到步骤S14-1；若m＞n，则停止对原子的发散衍生。

优选的，所述隐性信息是基于显性数据簇生成后，根据不同原子之间除所述属性信息以外的相关性而产生的隐性属性。

优选的，所述步骤S4中，获取数据库中所有与任务场景的原子包括以下步骤：

S41-1，根据任务场景确定需要关注的属性信息；

S41-2，根据需要关注的属性信息提取所述数据库中的高频原子，所述高频原子即为整个数据库中出现次数相对较多的原子。

优选的，所述步骤S4中，对所有原子进行排序包括以下步骤：

S42-1，引入热源注意力机制和双向门控循环网络；利用热源注意力机制对所述高频原子进行初步处理，以将注意力集中到所需关注的属性信息上；利用双向门控循环网络进行对所述高频原子二次处理，以选择性地忽略原子无需关注的属性信息对任务的影响；

S42-2，将热源注意力机制和双向门控循环网络的处理结果进行汇总，基于汇总结果结合实际情况获取高频原子与业务的相关性；

S42-3，根据高频原子与业务的相关性对原子进行排序。

本发明的有益效果：

本发明针对目前的社会大数据环境，提出了一种数据的衍生处理方法，其中包含了一种原始数据的高效划分方式，能够高效地将海量数据进行处理，同时能够有效降低大数据算法的时间复杂度，结合对隐性关系的挖掘，兼顾数据挖掘的深度，在保障原有大数据系统功能的同时，还能够给各相关部门管理人物信息规划新的思路，提高智能推荐的效率，进一步大幅降低了数据处理量和业务复杂度。

附图说明

图1为本技术方案的实施流程如图。

具体实施方式

为使发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本发明的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种数据的衍生处理方法，主要是针对人物数据的处理，包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析；

S1，所述显性数据簇的生成：根据数据的属性对原始数据进行若干次分类，其中，原始数据来自于相关部门(如学校、企业以及其他社会相关部门)的业务数据库，且业务数据库包括人力资源管理数据库。并基于每次分类结果依次建立层级数据簇，称任意层级数据簇中的每单个数据为原子，这些层级数据簇为显性数据簇，将所有显性数据簇存入数据库。具体包括以下步骤：

S11，获取原始数据的属性信息，如人物数据的属性包括姓名、年龄、性别、学历、婚姻状态、社会关系、出行信息等；

S12，基于属性信息，在原始数据的若干属性中选择一种属性作为第一属性，如选择姓名；

S13，以第一属性为依据，对原始数据进行分类，并基于分类结果建立若干一级数据组，称所有一级数据组为所述层级数据簇中的一级数据簇，称一级数据簇中的每单个数据为原子，每单个一级数据簇中的原子具有相同的第一属性，即每单个一级数据簇中的原子具有相同的姓名；

S14，根据业务场景确定迭代阈值n，并基于迭代阈值对原子进行n次发散衍生，且n≥1；其中，所述业务场景如学校、企业以及其他相关部门，业务场景所涉及的数据量越大，所述迭代阈值n越大，具体可根据实际需求而任意设置；另外，原子发散衍生包括以下步骤：

S14-1，基于属性信息选择第m+1属性，以第m+1属性为依据，对隶属于相同或不同的m级数据簇中的原子进行分类，并基于分类结果建立若干m+1级数据组，称所有 m+1级数据组为所述层级数据簇中的m+1级数据簇；其中，m为当前发散衍生的次数， n≥m≥1。列如n＝2，则有：

可选择原子的社会关系作为第二属性，获取原子所处的社会关系，根据原子的不同属性，分别创立相应的属性列表；然后对各个属性列表中统计有社会关系的属性信息进行分类，例如将通话记录、微信记录等划分为人际关系属性；统计经常联系的次数，以判断人际关系的亲密度，然后可建立相应的模型自动判断人际关系，例如妻子、朋友、父母、同事等，相同或不同二级数据簇中具有相同社会关系的原子划分到一个新的数据簇中，且称该数据簇为二级数据簇；

可选择出行信息作为第三属性，获取原子所处的出行信息，根据原子的不同属性，分别创立相应的属性列表；对各个属性列表中统计有出行信息的属性信息进行分类，例如将飞机、高铁、轮船等划分为出行信息；然后将相同或不同二级数据簇中具有相同出行信息的原子划分到一个新的数据簇中，且称该数据簇为三级数据簇；

S2，所述隐性数据簇的生成：获取相同或不同显性数据簇中不同原子的隐性信息，并基于隐性信息对不同显性数据簇中不同原子进行划分，以形成隐性数据簇；具体的，所述隐性信息是基于显性数据簇生成后，根据不同原子之间除所述属性信息(步骤S1 中所获取的原始数据的属性信息)以外的相关性而产生的隐性属性。具体的，步骤S1 中所获取的原始数据的属性信息是根据人物数据的特征而整理的基本属性，是大部分甚至所有人物数据都具备的属性，如某一奖项只有少部分原子获得，而在显性数据簇形成之前还不知道该奖项的存在，待显性数据簇形成以后，相关原子基于该奖项产生联系，则可认为该奖项为隐性信息。

S3，所述数据簇的处理：将隐性数据簇更新至显性数据簇所在的数据库。

S4，所述相关性分析：获取数据库中所有与任务场景的原子，并根据原子与任务场景的相关性，对所有原子进行排序。具体的：

S41-1，根据任务场景确定需要关注的属性信息，如某学校需要进行相关学习调研，可关注：

年级：**年级；

成绩：**期末考试；

参赛情况：**数学竞赛(隐性信息)；

获奖情况：**进步奖(隐性信息)。

S41-2，根据需要关注的属性信息提取所述数据库中的高频原子，所述高频原子即为整个数据库中出现次数相对较多的原子，在本实施例中，则需要关注数据库中的四个数据簇(包括显性数据簇和隐性数据簇)，相关原子最多出现四次，最少出现一次，则可以将出现三次和四次的原子都作为高频原子，优选的，将出现四次的原子作为高频原子。

S42-1，引入热源注意力机制和双向门控循环网络；利用热源注意力机制对所述高频原子进行初步处理，以将注意力集中到所需关注的属性信息上；利用双向门控循环网络进行对所述高频原子二次处理，以选择性地忽略原子无需关注的属性信息对任务的影响。其中，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。为引入注意力机制的模型，其编码器是一个RNN，它接受输入序列(x₁,x₂,…,x_t)，其中t是输入序列的长度，并将其编码为固定长度的向量 (h₁,h₂,…,h_t)。解码器也是一个RNN，它以一个固定长度的向量ht作为输入，生成一个输出序列(y₁,y₂,…,y_tt)，其中tt是输出序列的长度，在每个位置t，ht和st分别表示编码器和解码器的隐状态。网络网络结构中的注意力模块负责自动学习注意力权重α_ij，它可以自动捕h_i(编码器隐藏状态，我们称之为候选状态)和s_j(解码器隐藏状态，我们称之为查询状态)之间的相关性。然后，这些注意力权重用于构建内容向量C，该向量作为输入传递给解码器。在每个解码位置j，内容向量c_j是编码器所有隐藏状态及其相应注意权的加权和。

注意力权重是通过在体系结构中加入一个额外的前馈神经网络来学习的。该前馈网络学习一个特殊的注意权α_ij，作为两种状态h(i)和s(j-1)s(j-1)的函数。简单地说，就是用这两种状态作为神经网络的输入，进而学习α_ij关于他们的函数。

双向门控循环网络中的门控机制可以用来控制记忆单元中的信息有多少需要保留，有多少需要丢弃，新的状态信息又有多少需要保存到记忆单元中等。这使得门控循环神经网络可以学习跨度相对较长的依赖关系，而不会出现梯度消失和梯度爆炸的问题。如果从数学的角度来理解，一般结构的循环神经网络中，网络的状态h_t和h_t-1之间是非线性的关系，并且参数W在每个时间步共享，这是导致梯度爆炸和梯度消失的根本原因。门控循环神经网络解决问题的方法就是在状态h_t和h_t-1之间添加一个线性的依赖关系，从而避免梯度消失或梯度爆炸的问题。在经典的循环神经网络中，状态的传输，是从前往后的，但是在有些任务中，某些时刻的输出不仅和之前状态有关，也与之后的状态有关，这就需要双向循环神经网络来解决这类问题。

S42-3，将热源注意力机制和双向门控循环网络的处理结果进行汇总，基于汇总结果结合实际情况获取高频原子与业务的相关性。

S42-4，根据高频原子与业务的相关性对原子进行排序。

Claims

1.一种数据的衍生处理方法，其特征在于：包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析；

S1，所述显性数据簇的生成：根据数据的属性对原始数据进行若干次分类，并基于每次分类结果依次建立层级数据簇，称任意层级数据簇中的每单个数据为原子，这些层级数据簇为显性数据簇，将所有显性数据簇存入数据库；具体的，所述显性数据簇的生成包括以下步骤：

S11，获取原始数据的属性信息；所述原始数据来自于相关部门的业务数据库，且业务数据库包括人力资源管理数据库；属性信息包括姓名、年龄、性别、学历、婚姻状态、社会关系、出行信息；

S14-1，基于属性信息选择第m+1属性，以第m+1属性为依据，对隶属于相同或不同的m级数据簇中的原子进行分类，并基于分类结果建立若干m+1级数据组，称所有m+1级数据组为所述层级数据簇中的m+1级数据簇；其中，m为当前发散衍生的次数，n≥m≥1；包括当n=2时，则有：

选择原子的社会关系作为第二属性，获取原子所处的社会关系，根据原子的不同属性，分别创立相应的属性列表；然后对各个属性列表中统计有社会关系的属性信息进行分类，通过建立相应的模型自动判断人际关系；相同或不同二级数据簇中具有相同社会关系的原子划分到一个新的数据簇中，且称该数据族为二级数据簇；

选择原子的出行信息作为第三属性，获取原子所处的出行信息，根据原子的不同属性，分别创立相应的属性列表；对各个属性列表中统计有出行信息的属性信息进行分类，然后将相同或不同二级数据簇中具有相同出行信息的原子划分到一个新的数据簇中，且称该数据簇为三级数据簇；

S14-2，判断m是否大于n；若m≤n，则令m=m+1后，回到步骤S14-1；若m＞n，则停止对原子的发散衍生；

S2，所述隐性数据簇的生成：获取相同或不同显性数据簇中不同原子的隐性信息，并基于隐性信息对不同显性数据簇中不同原子进行划分，以形成隐性数据簇；其中，所述隐性信息是基于显性数据簇生成后，根据不同原子之间除所述属性信息以外的相关性而产生的隐性属性；

S4，所述相关性分析：获取数据库中所有与任务场景相关的原子，并根据原子与任务场景的相关性，对所有原子进行排序。

2.如权利要求1所述一种数据的衍生处理方法，其特征在于，所述步骤S4中，获取数据库中所有与任务场景相关的原子包括以下步骤：

S41-1，根据任务场景确定需要关注的属性信息；

3.如权利要求2所述一种数据的衍生处理方法，其特征在于，所述步骤S4中，对所有原子进行排序包括以下步骤：

S42-3，根据高频原子与业务的相关性对原子进行排序。