CN107808223B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN107808223B
CN107808223B CN201610808702.1A CN201610808702A CN107808223B CN 107808223 B CN107808223 B CN 107808223B CN 201610808702 A CN201610808702 A CN 201610808702A CN 107808223 B CN107808223 B CN 107808223B
Authority
CN
China
Prior art keywords
dimension
relation
relationship
weight
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610808702.1A
Other languages
English (en)
Other versions
CN107808223A (zh
Inventor
管国辰
林武康
刘中军
张仪
叶波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201610808702.1A priority Critical patent/CN107808223B/zh
Publication of CN107808223A publication Critical patent/CN107808223A/zh
Application granted granted Critical
Publication of CN107808223B publication Critical patent/CN107808223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了数据处理方法及装置。该方法包括:获得多个人员对象分别在各个预定关系类型下的业务数据;根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量;将每两个人员对象所对应的关系维度向量转换为上层维度向量;将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值。通过本方案,可以解决每个关系维度与其他所有关系维度具有较高耦合性的问题。

Description

数据处理方法及装置
技术领域
本发明涉及大数据分析技术领域,特别是涉及数据处理方法及装置。
背景技术
人际关系是人们生活中不可或缺的一部分,同时也是相关部门掌握某些人员的社会关系的重要依据,因此,为了充分了解人员对象的人际关系,存在人员对象的关系强度的计算需求。
现有技术中,在确定某一区域范围(如小区范围、公司范围、大楼等)内的人员对象之间的整体关系强度时,首先基于数据源获得各个人员对象在各个预定关系类型(如组织关系类型、邮件类型、门禁类型、停车类型、通话类型等)下的业务数据,然后计算各个预定关系类型所对应的关系强度,对各个预定关系类型所对应的关系强度按照各自所对应的预设权重值进行加权处理,得到整体关系强度,各自所对应的预设权重通过训练样本得到。
但是,当需要增加一个关系维度(即增加一个预定关系类型),或减少一个关系维度(即减少一个预定关系类型),所有关系维度所对应的预设权重需要被调整,即重新通过训练样本得到各个预定关系类型所对应的预设权重,调整数据量较大。也就是说,每个关系维度与其他所有关系维度具有依赖关系,耦合性较高。
发明内容
本发明实施例的目的在于提供数据处理方法及装置,以解决每个关系维度与其他所有关系维度具有较高耦合性的问题。具体技术方案如下:
第一方面,本发明实施例所提供的一种数据处理方法,包括:
获得多个人员对象分别在各个预定关系类型下的业务数据;
根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,所述关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,所述上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值;
将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;
其中,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值。
可选的,本发明实施例所提供的数据处理方法,还包括:
基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络,其中,所述关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
可选的,所述关系网络为平面形态的关系网络;
或者,
所述关系网络为球体形态的关系网络,其中,所述球体形态的关系网络包括可视区域与不可视区域,所述可视区域中所展示的部分关系网络的透明度低于所述不可视区域中所展示的部分关系网络的透明度。
可选的,所述球体形态的关系网络具有动态展示效果,其中,所述动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系。
可选的,所述上层维度向量包括角色关系、空间关系和媒体行为三类上层维度。
可选的,本发明实施例所提供的数据处理方法,还包括:
以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
可选的,本发明实施例所提供的数据处理方法,还包括:
当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练所述第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
可选的,各个关系维度权重以预设的上层维度权重为基础采用梯度性下降法对训练样本训练所得的值。
第二方面,本发明实施例所提供的数据处理装置,包括:
业务数据获得模块,用于获得多个人员对象分别在各个预定关系类型下的业务数据;
关系维度向量计算模块,用于根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,所述关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
上层维度向量确定模块,用于将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,所述上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值;
整体关系强度值确定模块,用于将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;
其中,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值。
可选的,本发明实施例所提供的数据处理装置,还包括:
关系网络生成模块,用于基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络,其中,所述关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
可选的,所述关系网络为平面形态的关系网络;
或者,
所述关系网络为球体形态的关系网络,其中,所述球体形态的关系网络包括可视区域与不可视区域,所述可视区域中所展示的部分关系网络的透明度低于所述不可视区域中所展示的部分关系网络的透明度。
可选的,所述球体形态的关系网络具有动态展示效果,其中,所述动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系。
可选的,所述上层维度向量包括角色关系、空间关系和媒体行为三类上层维度。
可选的,本发明实施例所提供的数据处理装置,还包括:
第一权重训练模块,用于以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
可选的,本发明实施例所提供的数据处理装置,还包括:
变化状态确定模块,用于当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
第二权重训练模块,用于以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练所述第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
可选的,各个关系维度权重以预设的上层维度权重为基础采用梯度性下降法对训练样本训练所得的值。
本发明实施例中,将关系维度向量转换为上层维度向量,即将至少一个关系维度对应到唯一的上层维度上,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值,且每一上层维度所对应的关系维度权重的和均相同,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值,这样每个关系维度仅仅依赖于所在上层维度上的其他关系维度,在关系维度发生变化时,只需训练所增加或减少的关系维度所在上层维度中各个关系维度所对应的关系维度权重,避免了对其他所有关系维度的关系维度权重的重训练,因此,可以解决每个关系维度与其他所有关系维度具有较高耦合性的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的数据处理方法的流程图;
图2为本发明实施例所提供的数据处理方法的另一流程图;
图3为所采集到的园区数据的数据关系示意图;
图4为本发明实施例所提供的数据处理装置的结构示意图;
图5为本发明实施例所提供的数据处理装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中每个关系维度与其他所有关系维度具有较高耦合性的问题,本发明实施例提供了数据处理方法及装置。
下面对本发明实施例所提供的数据处理方法进行介绍。
需要说明的是,本发明实施例所提供的数据处理方法的执行主体可以为数据处理装置。具体的,该数据处理装置可以为专门的数据处理软件,也可以为现有数据处理软件中的插件,这都是合理的。
如图1所示,本发明实施例所提供的一种数据处理方法,可以包括:
S101,获得多个人员对象分别在各个预定关系类型下的业务数据;
其中,为了确定某一区域范围(如小区范围、公司范围、大楼等)内的人员对象之间的整体关系强度,该数据处理装置可以首先获得该区域范围内的多个人员对象分别在各个预定关系类型下的业务数据,进而执行后续的处理。
可以理解的是,为了保证所确定出的整体关系强度的全面性,通常需要基于至少两个预定关系类型的业务数据,其中,该至少两个预定关系类型可以为:组织关系类型、邮件记录类型、门禁记录类型、停车记录类型、通话次数类型、通话时间类型等中的至少两个,当然并不局限于此。具体的,该组织关系类型下的业务数据可以指人员对象所处的部门、所担任的职位等能够表明人员对象的身份的数据信息,也可以为人员对象所在的楼层、房间等能够表明人员对象的生活或工作区域的数据信息;所述邮件记录类型下的业务数据可以为人员对象的邮件发送记录和邮件接收记录中的至少一种记录;所述门禁记录类型下的业务数据可以为人员对象对某一门禁区域的刷卡记录;所述停车记录类型下的业务数据可以为人员对象在某一停车区域的停车记录;通话时间类型下的业务数据可以为人员对象与通话对象之间的通话时长记录;通过次数类型下的业务数据为人员对象与通话对象的通话次数。需要强调的是,上述所给出的各个预定关系类型仅仅是作为示例性说明,并不应该构成对本发明实施例的限定,具体的预定关系类型可以根据实际情况自行设定。
另外,可以采用现有技术获得多个人员对象分别在各个预定关系类型下的业务数据,举例而言:可以将源数据经过ETL转换为多个人员对象分别在各个预定关系类型下的业务数据,进而后续利用该业务数据计算关系强度值以及确定关系维度向量其中,ETL为英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。需要强调的是,上述所给出的具体实现方式:将源数据经过ETL转换为多个人员对象分别在各个预定关系类型下的业务数据,仅仅作为示例性说明,并不应该构成对本发明实施例的限定。
S102,根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量;
其中,该关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值。
在获得各个预定关系类型下的业务数据后,由于为了确定每两个人员对象之间的整体关系强度,因此,可以首先根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量。
其中,关系维度向量中,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值,具体的,任一预定关系类型下相应两个人员对象的关系强度值:可以根据该相应两个人员对象在该预定关系类型下的业务数据确定出。
需要强调的是,根据两个人员对象在预定关系类型下的业务数据来确定在该预定关系类型下该两个人员对象的关系强度值的具体实现方式,可以采用现有技术中的任一种实现方式,由于本发明的发明点不在于此,因此,对此本发明实施例不做限定。
S103,将每两个人员对象所对应的关系维度向量转换为上层维度向量;
其中,该上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值。其中,每一上层维度所对应的各个关系维度权重为归一化后的值,举例而言:上层维度A对应关系维度a、b和c,关系维度a对应关系维度权重x1,关系维度b对应关系维度权重y1,关系维度c对应关系维度权重z1,其中,x1+y1+z1=1,此时,上层维度A的维度值为:x1*(关系维度a的维度值)+y1*(关系维度b的维度值)+z1*(关系维度c的维度值);上层维度B对应关系维度e和f,关系维度e对应关系维度权重x2,关系维度f对应关系维度权重y2,其中,x2+y2=1,此时,上层维度B的维度值为:x2*(关系维度e的维度值)+y2*(关系维度f的维度值)。
在计算得到每两个人员对象所对应的关系维度向量后,为了避免每个关系维度与其他所有关系维度具有较高耦合性,并不是直接对关系维度向量中每个关系维度,按照所对应关系维度权重进行加权处理从而得到整体关系强度,而是,将每两个人员对象所对应的关系维度向量转换为上层维度向量,即将各个关系维度划分到不同的上层维度中。
举例而言:对于关系维度向量(关系维度a,关系维度b,关系维度c,关系维度d,关系维度e,关系维度f,关系维度g)而言,可以将其转换为上层维度向量(上层维度A,上层维度B,上层维度C),其中,上层维度A对应有关系维度a、b和c,上层维度B对应有关系维度d和e,上层维度C对应有关系维度f和g;上层维度A对应的维度值为:对关系维度a、b和c的维度值按照所对应关系维度权重加权所得的值,关系维度a、b和c的关系维度权重为归一化后的值,其中,关系维度a、b和c的关系维度权重之和为1,所谓对关系维度a、b和c的维度值按照所对应关系维度权重加权即为:将关系维度a、b和c的维度值与各自所对应关系维度权重相乘,并将所得的乘积结果进行求和;类似的,上层维度B对应的维度值为:对关系维度d和e的维度值按照所对应关系维度权重加权所得的值,关系维度d和e的关系维度权重为归一化后的值,其中,关系维度d和e的关系维度权重之和为1,所谓对关系维度d和e的维度值按照所对应关系维度权重加权即为:将关系维度d和e的维度值与各自所对应关系维度权重相乘,并将所得的乘积结果进行求和;类似的,上层维度C对应的维度值为:对关系维度f和g的维度值按照所对应关系维度权重加权所得的值,关系维度f和g的关系维度权重为归一化后的值,其中,关系维度f和g的关系维度权重之和为1,所谓的对关系维度f和g的维度值按照所对应关系维度权重加权即为:将关系维度f和g的维度值与各自所对应关系维度权重相乘,并将所得的乘积结果进行求和。
另外,需要强调的,每一关系维度所对应的上层维度可以根据实际应用场景所设定,举例而言:假设上层维度为角色关系、空间关系和媒体行为三个维度,6个关系维度为:组织关系类型、邮件记录类型、门禁记录类型、停车记录类型、通话次数类型和通话时间类型所对应的关系维度,在一种具体实现方式中,角色关系可以包括组织关系类型所对应的关系维度,空间关系可以包括门禁记录类型和停车记录类型所对应的关系维度,媒体行为可以包括:邮件记录类型、通话次数类型和通话时间类型所对应的关系维度;在另一种具体实现方式中,角色关系可以包括组织关系类型和通话时间类型所对应的关系维度,空间关系可以包括门禁记录类型和停车记录类型所对应的关系维度,媒体行为可以包括:邮件记录类型和通话次数类型所对应的关系维度,这都是合理的。也就是说,在预定关系类型确定的情况下,上层维度向量可以自行定义,且上层维度向量中各个上层维度所包括的关系维度也可以自行定义。
S104,将该上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;
在确定出上层维度向量后,可以将该上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值。需要强调的是,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值。举例而言:上层维度向量中包括上层维度A、上层维度B和上层维度C,上层维度A对应的上层维度权重为x0,上层维度B对应的上层维度权重为y0,上层维度C对应的上层维度权重为z0,x0+y0+z0=1,整体关系强度值为:x0*(上层维度A的维度值)+y0*(上层维度B的维度值)+z0*(上层维度C的维度值)。
需要强调的是,由于每一上层维度所对应的各个关系维度权重为归一化后的值,且各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值,这样,每一上层维度所对应的关系维度的关系维度权重仅仅受到本上层维度内的其他关系维度的影响,与其他上层维度的关系维度无关,从而使得在关系维度发生变化时,只需训练所增加或减少的关系维度所在上层维度中各个关系维度所对应的关系维度权重。可以理解的是,训练样本可以为整体关系强度值已知的多组人员对象。需要强调的是,在具体应用时,每一上层维度所对应的关系维度权重为归一化后的值即和均为1,各个预设的上层维度权重为归一化后的值即之和为1。并且,各个上层维度的上层维度权重为预先设定的值,各个关系维度权重为以该预先设定的值为基础对训练样本训练所得的值,也就是说,在将上层维度权重设定之后,通过预定的训练方法对训练样本进行训练,得到各个上层维度所包括的关系维度的关系维度权重,而当增加或减少关系维度时,上层维度权重不变,所增加或减少的关系维度所在的上层维度以外的其他上层维度对应的关系维度权重不变,通过预定的训练方法对训练样本进行训练,得到所增加或减少的关系维度所在上层维度下的各个关系维度的新的关系维度权重,这样,增加或减少关系维度时,所需训练得到的关系维度权重的数量大大减少。
本发明实施例中,将关系维度向量转换为上层维度向量,即将至少一个关系维度对应到唯一的上层维度上,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值,且每一上层维度所对应的关系维度权重的和均相同,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值,这样每个关系维度仅仅依赖于所在上层维度上的其他关系维度,在关系维度发生变化时,只需训练所增加或减少的关系维度所在上层维度中各个关系维度所对应的关系维度权重,避免了对其他所有关系维度的关系维度权重的重训练,因此,可以解决每个关系维度与其他所有关系维度具有较高耦合性的问题。
在一种具体实现方式中,为了直观展示出各个关系对象之间的整体关系强度,如图2所示,本发明实施例所提供的一种数据处理方法,还可以包括如下步骤:
S105,基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成各个人员对象的关系网络。
其中,该关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
其中,人员对象的标识信息可以为人员对象的名称、昵称或其他能够唯一标识人员对象的信息。每两个节点之间的连接线的属性值可以为长度、粗细、颜色深浅等等,并且,可以预先设定整体关系强度值与属性值之间的对应关系,在确定出每两个人员对象之间的整体关系强度值后,可以基于预设的对应关系来确定相应节点之间的连接线的属性值,对于具体的预设的对应关系,本发明实施例在此不做限定。
具体的,在一种具体实现方式中,所述关系网络为平面形态的关系网络。需要强调的是,平面形态的关系网络可以采用现有技术中任一种平面网络生成方式来实现,在此不做赘述。
具体的,在另一种具体实现方式中,为了保证节点与节点之间连接线的清晰度以及完整性,该关系网络为球体形态的关系网络,其中,该球体形态的关系网络包括可视区域与不可视区域,该可视区域中所展示的部分关系网络的透明度低于该不可视区域中所展示的部分关系网络的透明度。另外,该球体形态的关系网络可以具有动态展示效果,其中,该动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系;并且,通过点击球体形态的关系网络中的节点可以查看该节点对应人员的详细信息,例如:在各个预定类型下的业务数据,或者,与其他节点详细的关系数据。需要强调的是,球体形态的关系网络可以采用现有技术中任一种球体网络生成方式来生成,在此不做限定。
更进一步的,本发明实施例所提供的数据处理方法,还可以包括如下步骤:
以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
具体的,对训练样本训练各个关系维度权重的过程可以发生在S101之前,当然只要保证被利用时,关系维度权重是确定的,便是可行的。其中,可以采用现有技术中的梯度下降法,以预设的上层维度权重为基础,对训练样本训练各个关系维度权重,当然并不局限于此。其中,梯度下降法的计算过程为沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值),关于利用梯度下降法,以预设的上层维度权重为基础,对训练样本训练各个关系维度权重的具体过程,本发明实施例对此不做限定。
更进一步的,本发明实施例所提供的数据处理方法,还可以包括:
当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练该第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
可见,在关系维度发生变化时,上层维度的上层维度权重和第二上层维度所包括的关系维度的关系维度权重不变,只需训练所增加或减少的关系维度所在上层维度中各个关系维度所对应的关系维度权重,避免了对其他所有关系维度的关系维度权重的重训练。
下面以确定园区A内人员对象的整体关系强度为例,对本发明实施例所提供的数据处理方法进行介绍。
一、源数据收集:
1、根据调研,采集到该园区A内的5类数据,具体数据内容如图3所示。
2、对所采集到的数据进行转换清洗和编码,得到如下表1所示的预定关系类型和Hbase中数据存储格式:
Figure BDA0001111291850000121
表1
3、调研园区A内的人员对象,抽取部分对人员对象,作为训练样本,并利用训练样本训练得到关系维度权重,其中,训练样本中人员对象之间的整体关系强度值被人为给定。具体过程如下:
首先,根据所获得的业务数据,计算训练样本中每两个人员对象所对应的关系维度向量,该关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
具体的,各个预定关系类型下的相应两个人员对象的关系强度值的计算方式如下:
(1)组织关系类型下,人员对象P1和P2的关系强度值的计算过程可以如下:
在相同部门路径下:
若P1,P2具有相同的上级主管,定义关系强度d1;
若P1是P2的直接主管(反之亦然),定义关系强度d2;
若P1与P2同级,但不是同一个主管,定义关系强度d3;
其他,定义关系强度d4。
(2)邮件记录类型和通话次数类型下,人员对象P1和P2的关系强度值的计算过程可以如下:
同一邮件编号(通话编号,下同)下的人员对象,两两记一次邮件通信,记(p1,p2)=1,在给定周期T内,人员对象p1和p2邮件次数x(p1,p2)为:
x(p1,p2)=count(p1,p2)
a为设定的最少邮件次数,b为设定的关系强度值为1时的邮件次数,则人员对象p1和p2的关系强度计算d(p1,p2)如下:
Figure BDA0001111291850000131
(3)门禁记录类型和停车记录类型下,人员对象P1和P2的关系强度值的计算过程可以如下:
对同一门禁设备id或者车库入口id,在一定时间内(例如5分钟)刷卡的人员对象,两两之间记一次刷卡记录,以下计算方式等同于:上述的邮件记录类型和通话次数类型下,人员对象P1和P2的关系强度值的计算方式,在此不做赘述。
(4)通话时间类型下,人员对象P1和P2的关系强度值的计算过程可以如下:
对同一通话编号下的通话员工,记录通话时长,记(p1,p2)=通话时长,在给定周期T内,人员对象p1和p2通话总时长x为:x(p1,p2)=sum(p1,p2),以下计算方式等同于:上述的邮件记录类型和通话次数类型下,人员对象P1和P2的关系强度值的计算方式,在此不做赘述。
其次,将训练样本中每两个人员对象所对应的关系维度向量转换为上层维度向量,上层维度向量包括:角色关系、空间关系和媒体行为三个上层维度,其中,角色关系包括组织关系所对应的关系维度,空间关系包括停车记录和门禁记录所对应的关系维度,媒体行为包括邮件记录、通话时间和通话次数所对应的关系维度。其中,每一上层维度的维度值的计算公式如下:
h(x)=∑wi*di(P1,p2)
其中,h(x)为上层维度x的维度值,di(P1,p2)为该上层维度所包括关系维度i的维度值(即所对应预定关系类型下人员对象P1和P2之间的关系强度值),wi为关系维度i所对应的关系维度权重且属于未知值,其中,每一上层维度所包括的关系维度的关系维度权重之和为1;
整体关系强度的计算公式为:
D(P1,p2)=wroleh(xrole)+wmediah(xmedia)+wactionh(xaction),其中,设定关系角色、媒体行为、空间关系的上层维度权重为(wrole,wmedia,waction),且满足wrole+wmedia+waction=1。
再次,基于预先给定的训练样本中人员对象之间的整体关系强度、上层维度权重以及各个关系维度的维度值,利用梯度下降法,训练各个关系维度的关系维度权重wi。
二、园区A内人员对象间的整体关系强度值计算:
在利用训练样本确定出关系维度权重wi后,可以计算园区A内两两人员对象之间的整体关系强度值,具体过程如下:
获得多个人员对象分别在各个预定关系类型下的业务数据,其中,预定关系类型如表1所示,具体为:组织关系类型、邮件记录类型、门禁记录类型、停车记录类型、通话次数类型和通话时间类型;
根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,关系维度向量中各个关系维度的维度值的具体计算方式为上述对训练样本训练关系维度权重过程中的相应的计算方式,在此不做赘述;
将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,与对训练样本训练关系维度权重过程类似,上层维度向量包括:角色关系、空间关系和媒体行为三个上层维度,角色关系包括组织关系类型所对应的关系维度,空间关系包括停车记录和门禁记录类型所对应的关系维度,媒体行为包括邮件记录、通话时间和通话次数所对应的关系维度。并且,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所确定出的所对应关系维度权重wi加权后所得的值;
将该上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权(即wrole,wmedia和waction),得到每两个人员对象所对应的整体关系强度值,其中,上层维度权重为预先设定的权重值。
进一步的,当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练该第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
三、关系网络生成:
基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络。
可见,通过上述过程,可以得到园区A内的人员对象的整体关系强度以及关系网络,并且,每个关系维度与其他所有关系维度耦合性较低。
相应于上述方法实施例,本发明实施例还提供了数据处理装置,如图4所示,可以包括:
业务数据获得模块410,用于获得多个人员对象分别在各个预定关系类型下的业务数据;
关系维度向量计算模块420,用于根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,所述关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
上层维度向量确定模块430,用于将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,所述上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值;
整体关系强度值确定模块440,用于将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;
其中,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值。
本发明实施例中,将关系维度向量转换为上层维度向量,即将至少一个关系维度对应到唯一的上层维度上,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值,且每一上层维度所对应的关系维度权重的和均相同,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值,这样每个关系维度仅仅依赖于所在上层维度上的其他关系维度,在关系维度发生变化时,只需训练所增加或减少的关系维度所在上层维度中各个关系维度所对应的关系维度权重,避免了对其他所有关系维度的关系维度权重的重训练,因此,可以解决每个关系维度与其他所有关系维度具有较高耦合性的问题。
在一种具体实现方式中,如图5所示,本发明实施例所提供的数据处理装置还可以包括:
关系网络生成模块450,用于基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络,其中,所述关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
具体的,所述关系网络为平面形态的关系网络;
或者,
所述关系网络为球体形态的关系网络,其中,所述球体形态的关系网络包括可视区域与不可视区域,所述可视区域中所展示的部分关系网络的透明度低于所述不可视区域中所展示的部分关系网络的透明度。
可选的,所述球体形态的关系网络具有动态展示效果,其中,所述动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系。
具体的,所述上层维度向量包括角色关系、空间关系和媒体行为三类上层维度。
在一种具体实现方式中,本发明实施例所提供的数据处理装置,还包括:
第一权重训练模块,用于以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
在一种具体实现方式中,本发明实施例所提供的数据处理装置,还包括:
变化状态确定模块,用于当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
第二权重训练模块,用于以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练所述第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
具体的,各个关系维度权重以预设的上层维度权重为基础采用梯度性下降法对训练样本训练所得的值。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获得多个人员对象分别在各个预定关系类型下的业务数据;
根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,所述关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,所述上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值;
将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;其中,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值;
当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练所述第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络,其中,所述关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
3.根据权利要求2所述的方法,其特征在于,所述关系网络为平面形态的关系网络;
或者,
所述关系网络为球体形态的关系网络,其中,所述球体形态的关系网络包括可视区域与不可视区域,所述可视区域中所展示的部分关系网络的透明度低于所述不可视区域中所展示的部分关系网络的透明度。
4.根据权利要求3所述的方法,其特征在于,所述球体形态的关系网络具有动态展示效果,其中,所述动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述上层维度向量包括角色关系、空间关系和媒体行为三类上层维度。
6.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
7.根据权利要求1-4任一项所述的方法,其特征在于,各个关系维度权重以预设的上层维度权重为基础采用梯度性下降法对训练样本训练所得的值。
8.一种数据处理装置,其特征在于,包括:
业务数据获得模块,用于获得多个人员对象分别在各个预定关系类型下的业务数据;
关系维度向量计算模块,用于根据所获得的业务数据,计算每两个人员对象所对应的关系维度向量,其中,所述关系维度向量中的每一关系维度唯一对应一个预定关系类型,每一关系维度的维度值为所对应预定关系类型下相应两个人员对象的关系强度值;
上层维度向量确定模块,用于将每两个人员对象所对应的关系维度向量转换为上层维度向量,其中,所述上层维度向量中的每一上层维度唯一对应至少一个关系维度,每一上层维度的维度值为:对相应至少一个关系维度的维度值,按照所对应关系维度权重加权后所得的值;
整体关系强度值确定模块,用于将所述上层维度向量所包括的上层维度的维度值,按照所对应预设的上层维度权重加权,得到每两个人员对象所对应的整体关系强度值;其中,各个上层维度权重为归一化后的值,每一上层维度所对应的各个关系维度权重为归一化后的值,各个关系维度权重为以预设的上层维度权重为基础对训练样本训练所得的值;
变化状态确定模块,用于当增加预定关系类型或减少预定关系类型时,确定所增加预定关系类型或减少预定关系类型所在的第一上层维度;
第二权重训练模块,用于以预设的上层维度权重和第二上层维度所对应的关系维度权重为基础,对训练样本训练所述第一上层维度当前所包括的关系维度的关系维度权重,其中,第二上层维度为所述第一上层维度以外的上层维度。
9.根据权利要求8所述的装置,其特征在于,还包括:
关系网络生成模块,用于基于每两个人员对象的整体关系强度值和每两个人员对象的标识信息,生成所述各个人员对象的关系网络,其中,所述关系网络中,每一个节点唯一对应一个人员对象,每个节点的节点标识为相应人员对象的标识信息,每两个节点之间的连接线的属性值基于所对应人员对象的整体关系强度值确定。
10.根据权利要求9所述的装置,其特征在于,所述关系网络为平面形态的关系网络;
或者,
所述关系网络为球体形态的关系网络,其中,所述球体形态的关系网络包括可视区域与不可视区域,所述可视区域中所展示的部分关系网络的透明度低于所述不可视区域中所展示的部分关系网络的透明度。
11.根据权利要求10所述的装置,其特征在于,所述球体形态的关系网络具有动态展示效果,其中,所述动态展示效果为:随着球体的旋转,球体表面动态浮现人员对象的关联关系。
12.根据权利要求8-11任一项所述的装置,其特征在于,所述上层维度向量包括角色关系、空间关系和媒体行为三类上层维度。
13.根据权利要求8-11任一项所述的装置,其特征在于,还包括:
第一权重训练模块,用于以预设的上层维度权重为基础,对训练样本训练各个关系维度权重。
14.根据权利要求8-11任一项所述的装置,其特征在于,各个关系维度权重以预设的上层维度权重为基础采用梯度性下降法对训练样本训练所得的值。
CN201610808702.1A 2016-09-08 2016-09-08 数据处理方法及装置 Active CN107808223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610808702.1A CN107808223B (zh) 2016-09-08 2016-09-08 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610808702.1A CN107808223B (zh) 2016-09-08 2016-09-08 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN107808223A CN107808223A (zh) 2018-03-16
CN107808223B true CN107808223B (zh) 2021-04-20

Family

ID=61575896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610808702.1A Active CN107808223B (zh) 2016-09-08 2016-09-08 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107808223B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544190B (zh) * 2018-05-29 2022-07-05 杭州海康威视数字技术股份有限公司 一种确定人员特征的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN103995909A (zh) * 2014-06-17 2014-08-20 东南大学成贤学院 一种基于三维关系强度模型的在线用户关系测量及分类方法
CN105069145A (zh) * 2015-08-20 2015-11-18 中国科学院计算技术研究所 用于确定社交网络用户关系强度的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143159A1 (en) * 2005-12-16 2007-06-21 Dillard Robin A R System and method for outcomes-based delivery of services

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN103995909A (zh) * 2014-06-17 2014-08-20 东南大学成贤学院 一种基于三维关系强度模型的在线用户关系测量及分类方法
CN105069145A (zh) * 2015-08-20 2015-11-18 中国科学院计算技术研究所 用于确定社交网络用户关系强度的方法及系统

Also Published As

Publication number Publication date
CN107808223A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
Darvish et al. A Comparative Study of Density Field Estimation for Galaxies: New Insights into the Evolution of Galaxies with Environment in COSMOS out to z∼ 3
CN103164416B (zh) 一种用户关系的识别方法及设备
JP5951802B2 (ja) ユーザーのパーソナルコンテキストを識別および分析するためのシステムおよび方法
Ma et al. Synthetic population generation with multilevel controls: A fitness‐based synthesis approach and validations
CN102971054A (zh) 用于显示虚拟现实服务的用户的虚拟化身在其中演化的虚拟世界的方法
CN108985954A (zh) 一种建立各标识的关联关系的方法以及相关设备
CN108090805A (zh) 一种信息推送方法、终端及存储介质
CN109600344A (zh) 识别风险群体的方法、装置及电子设备
CN110675069B (zh) 地产行业客户签约风险预警方法、服务器及存储介质
CN103345552A (zh) 电力ict通信网可靠性的评估方法及系统
CN107808223B (zh) 数据处理方法及装置
Zhang et al. A unified framework for epidemic prediction based on poisson regression
CN107767155B (zh) 一种评估用户画像数据的方法及系统
Musal et al. Bayesian spatial modeling of HIV mortality via zero‐inflated Poisson models
Ghavamifar et al. The comparison of different e-readiness assessment tools
Wang et al. Arima model estimated by particle swarm optimization algorithm for consumer price index forecasting
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
JP2021033773A (ja) 対象地域の不動産の稼働率を推定するプログラム、装置及び方法
JP7102910B2 (ja) 情報提示システム、情報提示方法、およびプログラム
KR101928822B1 (ko) 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법
Sinnott et al. Estimating micro-populations through social media analytics
Clarke et al. Defining hospital catchment areas using multiscale community detection: a case study for planned orthopaedic care in England
CN107767278B (zh) 社群层次结构构建方法和装置
CN110458743B (zh) 基于大数据分析的社区治理方法、装置、设备及存储介质
KR102640123B1 (ko) 빅데이터의 비식별화 처리방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant