CN110888888A

CN110888888A - 人员关系分析方法、装置、电子设备及存储介质

Info

Publication number: CN110888888A
Application number: CN201911268593.9A
Authority: CN
Inventors: 周鹏; 许宏波; 蒋娟; 陈士聪; 齐攀; 范根长; 梁豪辉
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-03-17

Abstract

本申请提供一种人员关系分析方法、装置、电子设备及存储介质。基于Spark计算引擎，获取待分析的数据集，该待分析的数据集包含多个待分析人员的出行数据；调用所述Spark计算引擎对该待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。如此，实现根据多个人员的出行数据分析挖掘出多个人员之间的隐性关系。

Description

人员关系分析方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种人员关系分析方法、装置、电子设备及存储介质。

背景技术

随着大数据技术的发展，知识图谱广泛应用于各个行业中，而图谱的构建则成为各企业应用知识图谱的关键环节。

图谱的构建通常以实体与实体之间的关系或者实体的行为事件为主体。目前，对于图谱关系的提取，大多数都是通过数据清洗融合，从数据源中抽取显性关系，如父子关系、人车关系等等。但显性关系往往并不能满足行业方面的业务需求，在很多的业务场景中，需要在海量数据中构建图谱的隐性关系，如同住同行关系等。

发明内容

为了克服现有技术中的至少一个不足，本申请实施例的目的之一在于提供一种人员关系分析方法，应用于配置有Spark计算引擎的分布式计算系统，所述方法包括：

获取待分析的数据集，所述待分析的数据集包含多个待分析人员的出行数据；

调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。

可选地，所述分布式计算系统包括主计算节点和多个从计算节点；所述调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据的步骤，包括：

针对每个从计算节点，对获取到的子数据集进行Map运算，获得对应的第一键值对数据，所述子数据集经由所述待分析的数据集分割获得；

将所述第一键值对数据进行分组获得第二键值对数据，使得相同键值的第一键值对数据归为一类；

将所述第二键值对数据发送给所述主计算节点；

所述主计算节点将获取自各从计算节点的第二键值对数据进行分组获得第三键值对数据；

所述主计算节点根据用户选取的算法模型对所述第三键值对数据进行分析，获得所述多个待分析人员之间的人际关系数据。

可选地，所述从计算节点的内存中分配预设大小的数组空间，所述数组空间用于存储将所述第一键值对数据进行分组的过程中的中间结果。

可选地，所述获取待分析的数据集的步骤，包括：

获取用户配置的数据索引信息；

根据所述数据索引信息从数据源获取所述待分析的数据集。

可选地，所述数据源包括非结构化存储的文本数据。

可选地，所述数据索引信息包括位置索引信息以及筛选条件，所述根据所述数据索引信息从数据源获取所述待分析的数据集的步骤包括：

根据所述位置索引信息从所述数据源获取待筛选数据；

根据所述筛选条件对所述待筛选数据进行清洗获得所述待分析的数据集。

可选地，所述分布式计算系统包括分布式文件系统HDFS(Hadoop DistributedFile System，分布式文件系统)以及数据仓库工具Hive，所述待筛选数据存储在所述HDFS中，所述Hive存储有所述待筛选数据的索引表；

所述根据所述筛选条件对所述待筛选数据进行清洗获得所述待分析的数据集的步骤包括：

根据所述筛选条件生成对应的结构化查询语言SQL(Structured QueryLanguage，结构化查询语言)；

通过所述Hive解析所述SQL，对所述HDFS中的待筛选数据进行筛选，获得所述待分析的数据集。

本生申请实施例的目的之二在于提供一种人员关系分析装置，应用于配置有Spark计算引擎的分布式计算系统，所述人员关系分析装置包括数据获取模块以及关系计算模块；

所述数据获取模块用于获取待分析的数据集，所述待分析的数据集包含多个待分析人员的出行数据；

所述关系计算模块用于调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。

本申请实施例的目的之三在于提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述电子设备执行所述机器可执行指令时，实现所述人员关系分析方法。

本申请实施例的目的之四在于提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述人员关系分析方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供一种人员分析方法、装置、电子设备及存储介质。通过Spark计算引擎对多个人员的出行数据进行计算，获得多个人员之间的关系，可以实现根据多个人员的出行数据分析挖掘出多个人员之间的隐性关系。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的主计算节点或者从计算节点的硬件结果示意图；

图2为本申请实施例提供的人员关系分析方法的步骤流程图；

图3为本申请实施例提供的宾馆入住数据的示意图；

图4为本申请实施例提供的数据预处理流程示意图；

图5为本申请实施例提供的人员关系分析装置的结构示意图。

图标：120-存储器；130-处理器；140-通信单元；1101-数据获取模块；1102-关系计算模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如背景技术中所介绍，显性关系往往并不能满足行业方面的业务需求，在很多的业务场景中，需要在海量数据中构建图谱的隐性关系。

有鉴于此，本申请实施例提供一种人员关系分析方法，应用于配置有Spark计算引擎的分布式计算系统。该分布式计算系统包括主计算节点以及多个从计算节点。

请参照图1，为本申请实施例提供的该计算节点或从计算节点的硬件结构示意图，包括存储器120、处理器130、通信单元140。

所述存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，所述存储器120可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。所述通信单元140用于通过所述网络收发数据。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器130等。

请参照图2，图2为应用于分布式计算系统的人员分析方法的流程图，以下将对所述方法包括各个步骤进行详细阐述。

步骤S100，获取待分析的数据集，所述待分析的数据集包含多个待分析人员的出行数据。

步骤S200，调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。

如此，本申请实施例提供一种人员分析方法、装置、电子设备及存储介质。通过Spark计算引擎对多个人员的出行数据进行计算，获得多个人员之间的关系。实现根据多个人员的出行数据分析发掘出多个人员之间的隐性关系。

其中，在调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据时候。针对每个从计算节点，对获取到的子数据集进行Map运算，获得对应的第一键值对数据，所述子数据集经由所述待分析的数据集分割获得。

该从计算节点将所述第一键值对数据进行分组获得第二键值对数据，使得相同键值的第一键值对数据归为一类；并将所述第二键值对数据发送给所述主计算节点；

所述主计算节点将获取自各从计算节点的第二键值对数据进行分组获得第三键值对数据。

进一步的，所述主计算节点根据用户选取的算法模型对所述第三键值对数据进行分析，获得所述多个待分析人员之间的人际关系数据。

具体的，该分布式计算系统将待分析的数据集分割成预设大小的子数据集，交由各从计算节点做Map运算。值得说明的是分割该待分析的数据集可以由主计算节点、从计算节点或者其他与分布式计算系统中的任意计算节点电性连接的电子设备完成。

例如，请参照图3，在一种可能的示例中，该待分析的数据集为1G大小的宾馆入住数据。若从阶段节点的数据为5，则该分布式计算系统将1G的待分析的数据集分割成204.8M的子数据集，分别交由各从计算节点做Map计算。

具体的，各从计算节点以“宾馆名称+宾馆代码+入住日期”作为第一键值对数据的Key值，以“房间号+入住时间+退房时间+身份证号”作为第一键值对的Value值。如此，将该住宾馆入住数据转换成第一键值对数据。

基于该第一键值对数据中的Key值，对住宾馆入住数据进行分组获得第二键值对数据。请再次参照图3，其中以“A酒店+A+2019.1.1”为Key值的数据有如下两条：

“A酒店+A+2019.1.1：801+2019.1.120:00:00+2019.1.2 9:00:00+111”

“A酒店+A+2019.1.1：801+2019.1.1 20:05:00+2019.1.2 9:00:00+333”

各从计算节点将该第二键值对数据发送给主计算节点，使得主计算节点根据第二键值对数据做进一步的分组，获得第三键值对数据。

该主计算节点根据用户选取的算法模型，对第三键值对数据进行分析，获得宾馆入住数据中人员之间的关系。应理解，该分布式计算系统预设有大量的算法模型，以便于用户选取使用。

例如，基于对该宾馆入住数据进行分析获得的第三键值对数据，分析其value值中相同房间号的入住时间以及退房时间，继而挖掘出人员之间的隐性的人际关系。

如此，各从计算节点将第一键值对数据进行分组之后，再发送给主计算节点，可以减轻主计算节点的计算压力。

可选地，该从计算节点将所述第一键值对数据进行分组获得第二键值对数据，使得相同键值的第一键值对数据归为一类的步骤。作为一种可能的实施方式，通过重写实现的createCombiner()，mergeValue()，mergeCombiner()三个函数，用以完成该分组的过程。

应理解，函数createCombiner()，mergeValue()，mergeCombiner()为Spark框架所提供，在分组的过程中需要调用上述函数。Spark所提供的上述函数，在函数执行时使用预设的集合类型的数据结构存储计算过程的中间数据，预设的集合类型需要提供一定的存储空间用以存储索引信息。然而，在实际使用过程，待分析的数据集的容量达到PB、EB、ZB、YB、BB、NB甚至DB界别。应理解：

1PB(Petabyte)＝1024TB；1EB(Exabyte)＝1024PB；1ZB(Zettabyte)＝1024EB；1YB(Yottabyte)＝1024ZB；1BB(Brontobyte)＝1024YB；1NB(NonaByte)＝1024BB；1DB(DoggaByte)＝1024NB。

因此，在待分析的数据集的容量达到一定程度之后，会使用大量的存储空间用以存储索引信息。本申请实施中，重写上述三个函数，使得从计算节点在运算过程中在内存中开设预设大小的数组区域，用于存储该中间结果。由于数组相较于其他集合类型的数据结构，不需要存储用于索引集合内部数据的索引信息，继而可以节约存储资源。

其中，在分组过程中，从极端节点需要选取一个目标键值对数据，将该目标键值对数据依次与其他第一键值对数据进行匹配，查找Key值相同的第一键值对数据。为了减少不必要的匹配次数，以提高匹配效率，将目标键值对数据与未被选取作为目标简直对数据的第一键值对数据进行比较。

可选地，请参照图4，针对获取待分析的数据集合的步骤包括数据源适配以及数据预处理等阶段。

针对数据源适配，该分布式计算系统获取用户配置的数据索引信息；根据所述数据索引信息从数据源获取所述待分析的数据集。

应理解，在实际场景中，需要面对个多种类型的数据源。例如，MySQL、Oracle或者非结构化存储的文本数据。各数据源中存储有大量的数据，其中有部分数据并不是本申请实施例计算分析的对象，即本申请实施例中的多个待分析人员的出行数据。

本申请实施例中，该索引信息包括位置索引信息以及筛选条件。该分布式计算系统根据所述位置索引信息从所述数据源获取待筛选数据；根据所述筛选条件对所述待筛选数据进行清洗获得所述待分析的数据集。

例如，该位置索引信息可是存储待分析人员的出行数据的数据库名称以及表名称。以宾馆入住数据为例，该筛选条件可以是除预设时间段以外的数据。如此，相较于现有技术中，将数据源中的数据读入到HDFS中，然后再HDFS中做进一步的筛选。本申请实施例所提供的根据位置索引信息直接读取对应的待分析人员的出行数据，可以提高数据读取的效率。

应理解，该所述分布式计算系统包括HDFS以及Hive，所述待筛选数据存储在所述HDFS中，所述Hive存储有所述待筛选数据的索引表。

该分布式计算系统根据所述位置索引信息从所述数据源获取待筛选数据存储到HDFS中，并在Hive建立待筛选数据的索引表。

针对数据预处理，该分布式计算系统根据所述筛选条件生成对应的SQL语句；通过所述Hive解析所述SQL语句，对所述HDFS中的待筛选数据进行筛选，获得所述待分析的数据集。

考虑到部分用户并不会使用SQL语句，为了减少这部分用户的学习成本。该分布式系统获取用户基于预设规则编写的筛选条件，解析该筛选条件生成对应的SQL语句，并通过所述Hive解析所述SQL语句，对所述HDFS中的待筛选数据进行筛选，获得所述待分析的数据集。该分布式系统获取该待分析的数据集，用以进行大数据分析。

同时，与MapReduce相比，得益于Spark在迭代计算和内存计算上的优势，减少了冗余磁盘读写和多次资源申请释放的过程。Spark中RDD(Resilient Distributed Datasets,弹性分布式数据集)结构的引入、RDD计算模型之间的转换和action的触发、底层DAGScheduler对作业stage的划分、从计算节点在分组过程的优化以及Spark资源参数的合理配置，都极大地减少了计算性能上的开销。

在实际的项目生产环境下，实验数据表明通过对预设数量的人员的出行数做人际关系挖掘计算。在相同的计算机资源环境下，较MapReduce，Spark计算引擎不仅在执行效率平均提高了4.7倍，平均资源消耗仅占24％。同时，人际关系的挖掘结果的准确命中率也有极大的提高。

可选地，本申请实施例中，该分布式计算系统配置有多个用于计算人际关系的计算模型，用以提供给用户使用。同时，部分计算模型提供了配置接口，使得用户可以根据实际使用场景自定义对应的参数，继而降低了用户的使用门槛。即非专业的开发人员，也方便高效地使用本申请实施例提供的分布式计算系统。

如此，降低了用户的学习成本，提高了用户体验。

本申请实施例还提供一种人员关系分析装置，应用于配置有Spark计算引擎的分布式计算系统。请参照图5，从功能上划分，所述人员关系分析装置包括数据获取模块1101以及关系计算模块1102；

所述数据获取模块1101用于获取待分析的数据集，所述待分析的数据集包含多个待分析人员的出行数据。

在本申请实施例中，该数据获取模块1101用于执行图2中的步骤S100，关于该数据获取模块1101的详细描述可以参考步骤S100的详细描述。

所述关系计算模块1102用于调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。

在本申请实施例中，该关系计算模块1102用于执行图2中的步骤S200，关于该关系计算模块1102的详细描述可以参考步骤S200的详细描述。

本申请实施例还提供一种电子设备，所述电子设备包括处理器130和存储器120，所述存储器120存储有能够被所述处理器130执行的机器可执行指令，所述电子设备执行所述机器可执行指令时，实现所述人员关系分析装置。应理解，该电子设备可是单个计算机设备，还可以是多台计算机组成的计算机集群。

本申请实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器130执行时实现所述人员关系分析装置。

综上所述，本申请实施例提供一种人员分析方法、装置、电子设备及存储介质。通过Spark计算引擎对多个人员的出行数据进行计算，获得多个人员之间的关系。实现根据多个人员的出行数据分析挖掘出多个人员之间的隐性关系。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人员关系分析方法，其特征在于，应用于配置有Spark计算引擎的分布式计算系统，所述方法包括：

2.根据权利要求1所述的人员关系分析方法，其特征在于，所述分布式计算系统包括主计算节点和多个从计算节点；所述调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据的步骤，包括：

将所述第二键值对数据发送给所述主计算节点；

3.根据权利要求2所述的人员关系分析方法，其特征在于，所述从计算节点的内存中分配预设大小的数组空间，所述数组空间用于存储将所述第一键值对数据进行分组的过程中的中间结果。

4.根据权利要求1所述的人员关系分析方法，其特征在于，所述获取待分析的数据集的步骤，包括：

获取用户配置的数据索引信息；

根据所述数据索引信息从数据源获取所述待分析的数据集。

5.根据权利要求4所述的人员关系分析方法，其特征在于，所述数据源包括非结构化存储的文本数据。

6.根据权利要求4所述的人员关系分析方法，其特征在于，所述数据索引信息包括位置索引信息以及筛选条件，所述根据所述数据索引信息从数据源获取所述待分析的数据集的步骤包括：

根据所述位置索引信息从所述数据源获取待筛选数据；

7.根据权利要求6所述的人员关系分析方法，其特征在于，所述分布式计算系统包括分布式文件系统HDFS以及数据仓库工具Hive，所述待筛选数据存储在所述HDFS中，所述Hive存储有所述待筛选数据的索引表；

根据所述筛选条件生成对应的构化查询语言SQL；

8.一种人员关系分析装置，其特征在于，应用于配置有Spark计算引擎的分布式计算系统，所述人员关系分析装置包括数据获取模块以及关系计算模块；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述电子设备执行所述机器可执行指令时，实现如权利要求1-7中任一项所述的人员关系分析方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的人员关系分析方法。