CN110751568A - 一种人员关系亲密度分析方法及装置 - Google Patents

一种人员关系亲密度分析方法及装置 Download PDF

Info

Publication number
CN110751568A
CN110751568A CN201810805366.4A CN201810805366A CN110751568A CN 110751568 A CN110751568 A CN 110751568A CN 201810805366 A CN201810805366 A CN 201810805366A CN 110751568 A CN110751568 A CN 110751568A
Authority
CN
China
Prior art keywords
matching
person
data source
matched
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810805366.4A
Other languages
English (en)
Other versions
CN110751568B (zh
Inventor
徐龙
张舟
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Beacon Wisdom Star Technology Co Ltd
Original Assignee
Wuhan Beacon Wisdom Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Beacon Wisdom Star Technology Co Ltd filed Critical Wuhan Beacon Wisdom Star Technology Co Ltd
Priority to CN201810805366.4A priority Critical patent/CN110751568B/zh
Publication of CN110751568A publication Critical patent/CN110751568A/zh
Application granted granted Critical
Publication of CN110751568B publication Critical patent/CN110751568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种人员关系亲密度分析方法及装置,方法包括:获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。应用本发明实施例,提高了人员关系分析的效率和准确度。

Description

一种人员关系亲密度分析方法及装置
技术领域
本发明涉及海量数据关联分析领域,尤其涉及一种人员关系亲密度分析方法及装置。
背景技术
随着大数据时代的到来,各种数据呈爆炸式增长,在进行业务处理时,可能需要分析分散在各个系统中的数据,如何对各系统中的海量数据进行关联处理,快速找到与待匹配人员相关联的人员信息成为了行业内研究的热点。
采用现有的人员关系亲密度分析方法,业务分析人员可能需要手动将不同系统中的数据源导出来,手动关联到一起,人工进行比对,从而查找出在各系统中与待匹配人员相关联的各关系人员信息。这种方式不仅效率低下,而且非常容易出错,增加了人员关系的分析难度。
因此有必要设计一种新的人员关系亲密度分析方法,以克服上述问题。
发明内容
本发明的目的在于克服现有技术之缺陷,提供了一种人员关系亲密度分析方法及装置,以实现提高人员关系分析的效率和准确度。
本发明是这样实现的:
第一方面,本发明提供一种人员关系亲密度分析方法,所述方法包括:
获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可选的,获取数据仓库中存储的各数据源,包括:
实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,
接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
可选的,数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种。
可选的,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
可选的,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
可选的,采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
Figure BDA0001738049740000031
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
可选的,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
可选的,在获取数据仓库中存储的数据源后,所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
第二方面,本发明提供一种人员关系亲密度分析装置,所述装置包括:
获得模块,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
本发明具有以下有益效果:应用本发明实施例,获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可见,应用本发明实施例,数据仓库可以对各数据源进行统一存储,并且各数据源均已进行数据清洗处理,从而提高了人员关系分析的准确度,按照匹配度的大小进行排序,将匹配度大于预设阈值的同时间人员作为匹配结果,提高了人员关系分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的人员关系亲密度分析方法的一种流程示意图;
图2为本发明实施例提供的人员关系亲密度分析装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,本发明所提供的人员关系亲密度分析方法可以应用于电子设备,其中,在具体应用中,该电子设备可以为计算机、个人电脑、平板、手机等等,这都是合理的。
参见图1,本发明实施例提供一种人员关系亲密度分析方法,方法包括如下步骤:
S101、获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;
其中,数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件。
一种实现方式中,获取数据仓库中存储的各数据源,可以为:实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,另一种实现方式中,也可以为:接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
预设时间点和预设固定时长可以事先设定,假设预设固定时长为1小时,则每隔1小时,从数据仓库抽取各数据源;假设预设时间点为9:00、12:00、17:00,则每到达每日的9:00、12:00、17:00时,从数据仓库抽取各数据源。
另外,在其他实施方式中,还可以由单独的抽取服务器或者抽取服务器集群每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源,并将抽取到的各数据源发送给电子设备,单独的抽取服务器或者抽取服务器集群可以为独立于电子设备和数据仓库的第三方。
数据仓库存储的数据源可以包括:从FTP(File Transfer Protocol,文件传输协议)服务器下载的数据源、从关系型数据库读取的数据源以及从WebService(Web服务)服务器下载的数据源中的至少一种。
FTP服务器可以是安装了FTP应用程序的服务器,WebService服务器可以是安装了WebService应用程序的服务器,关系型数据库是建立在关系模型基础上的数据库,可以借助于集合代数等数学概念和方法来处理关系型数据库中的数据。FTP服务器可以存储用户上传的数据源,从而数据仓库可以从FTP服务器下载数据源,例如购票管理系统可以将购票数据上传到FTP服务器,从而,数据仓库可以从FTP服务器下载购票数据,WebService服务器可以实时获取一些数据,例如摄像头实时采集的数据,用户的上网数据等等,关系型数据库可以是Oracle、Sybase、Microsoft SQL Server、Microsoft Access、MySQL等中的至少一种。关系型数据库可以是运行于电子设备中的数据库,也可以是运行于独立于电子设备的其他设备。每一数据源中可以有一张或多张数据表,数据表可以包括:户籍数据表、住宿数据表、铁路购票数据表、民航购票数据表、网吧上网数据表、汽车购票数据表等等。
各数据源最初可以存储于不同的服务器中,例如,户籍数据表和住宿数据表最初可以存储于关系型数据库中,铁路购票数据表、民航购票数据表、网吧上网数据表、汽车购票数据表最初可以存储于FTP服务器,摄像头实时监控的车辆数据可以存储于WebService服务器,进而数据仓库所处的服务器可以从不同的服务器中获取数据源,并将所获取的各数据源统一存储在一个数据仓库中,或者,在其他实现方式中,还有由单独的数据抽取服务器或者抽取服务器从不同的服务器中获取数据源,并将所获取的各数据源发送给数据仓库所处的服务器,从而数据仓库可以统一存储各数据源,数据抽取服务器可以独立于数据仓库所处的服务器。
具体的,数据仓库可以为Hive,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以提供简单的SQL(Structured QueryLanguage,结构化查询语言)查询功能,可以将SQL语句转换为MapReduce(一种编程模型)任务进行运行。
一种实现方式中,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
增量抽取可以只抽取自上次抽取以来各数据源中新增或修改的数据,增量抽取可以避免抽取到重复的数据,提高了抽取效率,提高了数据仓库的存储空间利用率。
在其他实现方式中,也可以采用全量抽取方式,从数据仓库抽取各数据源,全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据仓库中抽取出来,并转换成自己可以识别的格式,全量抽取方式的实现过程比较简单。
具体的,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
基于二叉树生成SQL语句,具体可以为:将二叉树左节点所表征的待匹配人员的身份标识作为标识字段值、二叉树根节点所表征的同时间匹配条件作为筛选条件、二叉树右节点所表征的目标数据源一并填充至预设的SQL语句模型,生成SQL语句。
每个数据源都可以设置有标识字段,标识字段可以唯一的标识每条数据记录,各数据表都可以用身份证号码字段作为标识字段,或者可以用预设的编号作为标识字段,预设的SQL语句模型可以为事先设计好的一段程序代码,并且该程序代码可以事先设置标识字段,在获得标识字段值(即待匹配人员的身份标识)后,可以直接将标识字段值赋给该标识字段,具体的,该程序代码可以存储于电子设备,在得到二叉树以后,可以直接将待匹配人员的身份标识、目标数据源以及同时间匹配条件填充到该程序代码中,即可生成SQL语句。
同时间匹配条件可以根据需求事先设定,本发明对同时间匹配条件的设定方式不做限定,例如,同时间匹配条件可以为:出发时间和待匹配人员的出发时间的差值在预设范围内,或者,到达时间和待匹配人员的到达时间的差值在预设范围内,预设范围可以根据需求事先设置,例如,可以为20分钟、30分钟、40分钟等等,另外,同时间匹配条件还可以为:出发时间和待匹配人员的出发时间的相同,或者到达时间和待匹配人员的到达时间的相同。通过设定同时间匹配条件,可以得到目标数据源中与待匹配人员处于同一时间段的人员。
示例性的,假设目标数据源为铁路购票数据表,待匹配人员的身份标识为420103123456789,同时间匹配条件为:出发时间和待匹配人员的出发时间的差值在30分钟内,或者,到达时间和待匹配人员的到达时间的差值在30分钟内,预设的SQL语句模型包括:select*from a where buyer_id_card_no=’b’order by create_time desc;select*from a where(start_time>’T1-30分钟’and start_time<’T1+30分钟’)or(arrive_time>’T2-30分钟’and arrive_time<’T2+30分钟’);其中,a表示目标数据源,b表示待匹配人员的身份标识,T1表示待匹配人员的出发时间,T2表示待匹配人员的到达时间,where后面的表示筛选条件;则生成的SQL语句包括:SQL语句一、select*from train_ticket wherebuyer_id_card_no=’420103123456789’order by create_time desc,其中,train_ticket为铁路购票数据表的表名,通过执行SQL语句一,可以得到待匹配人员的火车购票记录列表,并可以循环遍历每条记录,得到每条记录的出发时间start_time和到达时间arrive_time,假设所得到的待匹配人员的出发时间T1和到达时间T2分别是:2018-01-0109:00:00和2018-01-01 14:00:00,则得到SQL语句二、select*from train_ticket where(start_time>’2018-01-01 08:30:00’and start_time<’2018-01-01 09:30:00’)or(arrive_time>’2018-01-01 13:30:00’and arrive_time<’2018-01-01 14:30:00’),然后执行SQL语句二,可以得到同时间人员,即铁路购票数据表中出发时间和T1的差值在30分钟内,或者到达时间和T2的差值在30分钟内的人员。
另外,若同时间匹配条件为:出发时间和待匹配人员的出发时间的相同,执行SQL语句所得的各个同时间人员的出发时间需要和待匹配人员的出发时间的相同,例如,汽车购票数据表中待匹配人员的出发时间是2018年6月5号,则汽车购票数据表中出发时间也为2018年6月5号的人员就是与待匹配人员符合同时间匹配条件的人员。
可以采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
Figure BDA0001738049740000101
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
第一预设值和第二预设值可以根据需要事先设定,本发明对具体数值不做限定,例如,第一预设值和第二预设值可以分别为1和0,或者,可以分别为2和1,或者,3和4等等。
另外,在其他实现方式中,还可以采用其他计算公式,例如计算公式还可以为:
Figure BDA0001738049740000102
匹配模型可以根据需求预先设置,例如,可以包括同户籍匹配模型、汽车同行匹配模型、同上网匹配模型、同住宿匹配模型、火车同行匹配模型、航班同行匹配模型等中的至少两种。
示例性的,通过执行同户籍匹配模型,可以得到户籍数据表中与待匹配人员在同一时间段、且与待匹配人员的户籍唯一标识号相同的人员;通过执行汽车同行匹配模型,可以得到汽车购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的同乘人员,通过执行同上网匹配模型,可以得到网吧上网数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的上网人员,通过执行同住宿匹配模型,可以得到住宿数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的住宿人员;通过执行火车同行匹配模型,可以得到铁路购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的乘车人员;通过执行航班同行匹配模型,可以得到与待匹配人员在同一时间段、且匹配度大于预设阈值的乘机人员。
预设阈值可以事先设定,每个匹配模型可以对应一个预设阈值,不同匹配模型对应的预设阈值可以不同,或者,也可以每个匹配模型对应的均为同一个预设阈值,本发明对此不做限定,例如,每个匹配模型可以对应的预设阈值可以分别为1、2、3、4、5,也可以均为1。
每个匹配模型可以关联一个或多个数据源,对于不同的匹配模型,可以事先针对不同的数据源设置不同的匹配字段,例如,若火车同行匹配模型关联的数据表为铁路购票数据表,则可以预先设置火车同行匹配模型的匹配字段包括:火车始发地、到达地、购票地、车次以及车厢号等等。从而,执行火车同行匹配模型,可以得到铁路购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的乘车人员。
数据清洗处理可以发现并纠正数据文件中可识别的错误,纠正的错误可以包括检查数据一致性,处理无效值和缺失值等,可以采用现有的数据清洗工具执行数据清洗处理,数据清洗工具包括Integrity和Trillum等,通过对数据源进行数据清洗处理,提高了数据仓库中存储的数据源的准确度和可靠性。
S102、按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
对各匹配度的大小进行排序,进而将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,提高了获得匹配结果的效率。
具体的,可以采用升序方式排序,也可以采用降序方式排序。
为了便于用户查看,一种实现方式中,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
数据源中可以存储多条数据记录,每条数据记录都可以用标识字段唯一标识,各匹配结果的数据记录可以是:以各匹配结果的身份标识为标识值的数据记录,具体显示方式可以为滚动显示或者列表显示等等,还可以按照匹配度大小的升序顺序,依次显示各数据记录,或者,也可以按照匹配度大小的降序顺序,依次显示各数据记录。
为了进一步提高数据处理效率,一种实现方式中,在获取数据仓库中存储的数据源后,所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
电子设备可以提供人机交互界面,界面中可以包括模型选择下拉框、输入框和确认按钮,用户可以通过模型选择下拉框选择匹配模型,并可以通过输入框输入待匹配人员的身份标识,并可以在输入完成后,点击确认按钮,从而电子设备可以在检测到确认按钮被点击后,生成用户分析指令,该用户分析指令中可以包括待匹配人员的身份标识和用户所选的匹配模型的标识,从而可以将具有用户所选匹配模型标识的匹配模型确定为用户分析指令所针对的目标匹配模型。
在其他实现方式中,人机交互界面还可以包括结果显示区,从而可以在结果显示区显示目标数据源中存储的各匹配结果的数据记录。
在一种实现方式中,电子设备可以为ElasticSearch服务器集群中的主节点,ElasticSearch是一个基于Lucene(全文搜索引擎)的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎。
ElasticSearch服务器集群中的主节点在获取数据仓库中存储的数据源后,可以采用分布式存储方式,将各数据源均匀/随机地分散到集群中的各个从节点,每当由新的从节点加入或者删除时,主节点会在从节点间重新均匀/随机地分配数据,以达到分布式储存的目的。
另外,在接收到用户分析指令后,主节点可以生成分析任务,进而可以采用分布式计算方式,将分析任务分配给从节点,从而,接到分析任务的从节点可以基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;并可以将各匹配度的大小发送给主节点,进而,主节点可以按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果;或者,从节点还可以按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,进而直接将匹配结果返回给主节点。
通过采用分布式存储方式和分布式计算方式,提高了系统的存储能力和计算能力,加快了数据处理的速度。
可见,应用本发明实施例提供的技术方案,使得对海量数据处理变得更加高效。通过对各数据源的原始数据进行数据清洗处理,并将清洗后的数据整合到数据仓库,提高了人员关系分析的准确度,通过建立匹配模型,实现将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,从而提高了人员关系分析的效率。
与上述的方法实施例相对应,本发明实施例还提供一种人员关系亲密度分析装置。
参见图2,图2为本发明实施例所提供的一种人员关系亲密度分析装置的结构示意图,装置包括:
获得模块201,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块202,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可见,应用本发明实施例提供的技术方案,使得对海量数据处理变得更加高效。通过对各数据源的原始数据进行数据清洗处理,并将清洗后的数据整合到数据仓库,提高了人员关系分析的准确度,通过建立匹配模型,实现将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,从而提高了人员关系分析的效率。
可选的,所述获得模块201获取数据仓库中存储的各数据源,具体为:
实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
可选的,数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种。
可选的,所述获得模块201从数据仓库抽取各数据源,具体为:
采用增量抽取方式,从数据仓库抽取各数据源。
可选的,所述获得模块201基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体为:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
可选的,所述获得模块201采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
Figure BDA0001738049740000151
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
可选的,所述装置还包括显示模块,用于:
在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,显示目标数据源中存储的各匹配结果的数据记录。
可选的,所述装置还包括存储模块,用于在获取数据仓库中存储的数据源后,采用分布式存储方式,存储各数据源;
所述获得模块基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体为:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种人员关系亲密度分析方法,其特征在于,所述方法包括:
获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,所述目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
2.根据权利要求1所述的方法,其特征在于,获取数据仓库中存储的各数据源,包括:
实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,
接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
3.根据权利要求1所述的方法,其特征在于,数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种。
4.根据权利要求2所述的方法,其特征在于,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
5.根据权利要求1所述的方法,其特征在于,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
6.根据权利要求5所述的方法,其特征在于,采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
Figure FDA0001738049730000021
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
7.根据权利要求1所述的方法,其特征在于,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
8.根据权利要求1所述的方法,其特征在于,在获取数据仓库中存储的数据源后,所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
9.一种人员关系亲密度分析装置,其特征在于,所述装置包括:
获得模块,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,所述目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
CN201810805366.4A 2018-07-20 2018-07-20 一种人员关系亲密度分析方法及装置 Active CN110751568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810805366.4A CN110751568B (zh) 2018-07-20 2018-07-20 一种人员关系亲密度分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810805366.4A CN110751568B (zh) 2018-07-20 2018-07-20 一种人员关系亲密度分析方法及装置

Publications (2)

Publication Number Publication Date
CN110751568A true CN110751568A (zh) 2020-02-04
CN110751568B CN110751568B (zh) 2024-04-30

Family

ID=69274785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810805366.4A Active CN110751568B (zh) 2018-07-20 2018-07-20 一种人员关系亲密度分析方法及装置

Country Status (1)

Country Link
CN (1) CN110751568B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024940A1 (en) * 2007-07-18 2009-01-22 Sas Institute Inc. Systems And Methods For Generating A Database Query Using A Graphical User Interface
US20110314027A1 (en) * 2008-11-03 2011-12-22 China Mobile Communications Corporation Index building, querying method, device, and system for distributed columnar database
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法
CN103646110A (zh) * 2013-12-26 2014-03-19 中国人民银行征信中心 自然人基本身份信息匹配方法
US9002824B1 (en) * 2012-06-21 2015-04-07 Pivotal Software, Inc. Query plan management in shared distributed data stores
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
US20150339376A1 (en) * 2012-08-02 2015-11-26 Artificial Solutions Iberia SL Natural language data analytics platform
CN105160039A (zh) * 2015-10-13 2015-12-16 四川携创信息技术服务有限公司 一种基于大数据的查询方法
CN105653559A (zh) * 2014-11-28 2016-06-08 国际商业机器公司 用于在数据库中进行搜索的方法和装置
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN106919606A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于树结构实现sql查询条件的方法和系统
CN106951913A (zh) * 2017-02-13 2017-07-14 上海优刻得信息科技有限公司 进行数据交换的方法,云平台和系统
CN107615277A (zh) * 2015-03-26 2018-01-19 卡斯维尔公司 用于查询数据源的系统和方法
CN107862047A (zh) * 2017-11-08 2018-03-30 爱财科技有限公司 基于多个数据源的自然人数据处理方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024940A1 (en) * 2007-07-18 2009-01-22 Sas Institute Inc. Systems And Methods For Generating A Database Query Using A Graphical User Interface
US20110314027A1 (en) * 2008-11-03 2011-12-22 China Mobile Communications Corporation Index building, querying method, device, and system for distributed columnar database
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法
US9002824B1 (en) * 2012-06-21 2015-04-07 Pivotal Software, Inc. Query plan management in shared distributed data stores
US20150339376A1 (en) * 2012-08-02 2015-11-26 Artificial Solutions Iberia SL Natural language data analytics platform
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
CN103646110A (zh) * 2013-12-26 2014-03-19 中国人民银行征信中心 自然人基本身份信息匹配方法
CN105653559A (zh) * 2014-11-28 2016-06-08 国际商业机器公司 用于在数据库中进行搜索的方法和装置
CN107615277A (zh) * 2015-03-26 2018-01-19 卡斯维尔公司 用于查询数据源的系统和方法
CN105160039A (zh) * 2015-10-13 2015-12-16 四川携创信息技术服务有限公司 一种基于大数据的查询方法
CN106919606A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于树结构实现sql查询条件的方法和系统
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN106951913A (zh) * 2017-02-13 2017-07-14 上海优刻得信息科技有限公司 进行数据交换的方法,云平台和系统
CN107862047A (zh) * 2017-11-08 2018-03-30 爱财科技有限公司 基于多个数据源的自然人数据处理方法和系统

Also Published As

Publication number Publication date
CN110751568B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN109241141B (zh) 深度学习的训练数据处理方法和装置
CN109376205B (zh) 挖掘地址兴趣点关系的方法、装置、设备及存储介质
CN108108821A (zh) 模型训练方法及装置
CN109919437B (zh) 一种基于大数据的智慧旅游目标匹配方法和系统
Lin et al. Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths
CN108573268A (zh) 图像识别方法和装置、图像处理方法和装置及存储介质
CN107918618B (zh) 数据处理方法及装置
US20170109633A1 (en) Comment-comment and comment-document analysis of documents
CN112559923A (zh) 网址资源推荐方法、装置、电子设备及计算机存储介质
CN110717097A (zh) 业务推荐方法、装置、计算机设备和存储介质
CN114626735A (zh) 催收案件分配方法、装置、设备及计算机可读存储介质
Sik et al. Implementation of a geographic information system with big data environment on common data model
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN113706253A (zh) 实时产品推荐方法、装置、电子设备及可读存储介质
CN109949090B (zh) 客户推荐方法、装置、电子设备及介质
CN110751568B (zh) 一种人员关系亲密度分析方法及装置
CN109858363B (zh) 一种狗鼻纹特征点的检测方法、装置、系统及存储介质
CN111222923A (zh) 一种判断潜在客户的方法及装置、电子设备和存储介质
CN107391728B (zh) 数据挖掘方法以及数据挖掘装置
CN114841165A (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN113435970B (zh) 基于生物信息的产品推荐方法、装置、电子设备及介质
CN111242723B (zh) 用户子女情况判断方法、服务器及计算机可读存储介质
CN111163425B (zh) 基于lbs轨迹的身份识别方法、电子装置及可读存储介质
CN114268559A (zh) 基于tf-idf算法的定向网络检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant