CN110751568B - 一种人员关系亲密度分析方法及装置 - Google Patents
一种人员关系亲密度分析方法及装置 Download PDFInfo
- Publication number
- CN110751568B CN110751568B CN201810805366.4A CN201810805366A CN110751568B CN 110751568 B CN110751568 B CN 110751568B CN 201810805366 A CN201810805366 A CN 201810805366A CN 110751568 B CN110751568 B CN 110751568B
- Authority
- CN
- China
- Prior art keywords
- matching
- person
- time
- matched
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 20
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 15
- 230000004308 accommodation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种人员关系亲密度分析方法及装置,方法包括:获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。应用本发明实施例,提高了人员关系分析的效率和准确度。
Description
技术领域
本发明涉及海量数据关联分析领域,尤其涉及一种人员关系亲密度分析方法及装置。
背景技术
随着大数据时代的到来,各种数据呈爆炸式增长,在进行业务处理时,可能需要分析分散在各个系统中的数据,如何对各系统中的海量数据进行关联处理,快速找到与待匹配人员相关联的人员信息成为了行业内研究的热点。
采用现有的人员关系亲密度分析方法,业务分析人员可能需要手动将不同系统中的数据源导出来,手动关联到一起,人工进行比对,从而查找出在各系统中与待匹配人员相关联的各关系人员信息。这种方式不仅效率低下,而且非常容易出错,增加了人员关系的分析难度。
因此有必要设计一种新的人员关系亲密度分析方法,以克服上述问题。
发明内容
本发明的目的在于克服现有技术之缺陷,提供了一种人员关系亲密度分析方法及装置,以实现提高人员关系分析的效率和准确度。
本发明是这样实现的:
第一方面,本发明提供一种人员关系亲密度分析方法,所述方法包括:
获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可选的,获取数据仓库中存储的各数据源,包括:
实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,
接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
可选的,数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种。
可选的,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
可选的,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
可选的,采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
可选的,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
可选的,在获取数据仓库中存储的数据源后,所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
第二方面,本发明提供一种人员关系亲密度分析装置,所述装置包括:
获得模块,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
本发明具有以下有益效果:应用本发明实施例,获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可见,应用本发明实施例,数据仓库可以对各数据源进行统一存储,并且各数据源均已进行数据清洗处理,从而提高了人员关系分析的准确度,按照匹配度的大小进行排序,将匹配度大于预设阈值的同时间人员作为匹配结果,提高了人员关系分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的人员关系亲密度分析方法的一种流程示意图;
图2为本发明实施例提供的人员关系亲密度分析装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,本发明所提供的人员关系亲密度分析方法可以应用于电子设备,其中,在具体应用中,该电子设备可以为计算机、个人电脑、平板、手机等等,这都是合理的。
参见图1,本发明实施例提供一种人员关系亲密度分析方法,方法包括如下步骤:
S101、获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;
其中,数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件。
一种实现方式中,获取数据仓库中存储的各数据源,可以为:实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,另一种实现方式中,也可以为:接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
预设时间点和预设固定时长可以事先设定,假设预设固定时长为1小时,则每隔1小时,从数据仓库抽取各数据源;假设预设时间点为9:00、12:00、17:00,则每到达每日的9:00、12:00、17:00时,从数据仓库抽取各数据源。
另外,在其他实施方式中,还可以由单独的抽取服务器或者抽取服务器集群每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源,并将抽取到的各数据源发送给电子设备,单独的抽取服务器或者抽取服务器集群可以为独立于电子设备和数据仓库的第三方。
数据仓库存储的数据源可以包括:从FTP(File Transfer Protocol,文件传输协议)服务器下载的数据源、从关系型数据库读取的数据源以及从WebService(Web服务)服务器下载的数据源中的至少一种。
FTP服务器可以是安装了FTP应用程序的服务器,WebService服务器可以是安装了WebService应用程序的服务器,关系型数据库是建立在关系模型基础上的数据库,可以借助于集合代数等数学概念和方法来处理关系型数据库中的数据。FTP服务器可以存储用户上传的数据源,从而数据仓库可以从FTP服务器下载数据源,例如购票管理系统可以将购票数据上传到FTP服务器,从而,数据仓库可以从FTP服务器下载购票数据,WebService服务器可以实时获取一些数据,例如摄像头实时采集的数据,用户的上网数据等等,关系型数据库可以是Oracle、Sybase、Microsoft SQL Server、Microsoft Access、MySQL等中的至少一种。关系型数据库可以是运行于电子设备中的数据库,也可以是运行于独立于电子设备的其他设备。每一数据源中可以有一张或多张数据表,数据表可以包括:户籍数据表、住宿数据表、铁路购票数据表、民航购票数据表、网吧上网数据表、汽车购票数据表等等。
各数据源最初可以存储于不同的服务器中,例如,户籍数据表和住宿数据表最初可以存储于关系型数据库中,铁路购票数据表、民航购票数据表、网吧上网数据表、汽车购票数据表最初可以存储于FTP服务器,摄像头实时监控的车辆数据可以存储于WebService服务器,进而数据仓库所处的服务器可以从不同的服务器中获取数据源,并将所获取的各数据源统一存储在一个数据仓库中,或者,在其他实现方式中,还有由单独的数据抽取服务器或者抽取服务器从不同的服务器中获取数据源,并将所获取的各数据源发送给数据仓库所处的服务器,从而数据仓库可以统一存储各数据源,数据抽取服务器可以独立于数据仓库所处的服务器。
具体的,数据仓库可以为Hive,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以提供简单的SQL(Structured QueryLanguage,结构化查询语言)查询功能,可以将SQL语句转换为MapReduce(一种编程模型)任务进行运行。
一种实现方式中,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
增量抽取可以只抽取自上次抽取以来各数据源中新增或修改的数据,增量抽取可以避免抽取到重复的数据,提高了抽取效率,提高了数据仓库的存储空间利用率。
在其他实现方式中,也可以采用全量抽取方式,从数据仓库抽取各数据源,全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据仓库中抽取出来,并转换成自己可以识别的格式,全量抽取方式的实现过程比较简单。
具体的,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
基于二叉树生成SQL语句,具体可以为:将二叉树左节点所表征的待匹配人员的身份标识作为标识字段值、二叉树根节点所表征的同时间匹配条件作为筛选条件、二叉树右节点所表征的目标数据源一并填充至预设的SQL语句模型,生成SQL语句。
每个数据源都可以设置有标识字段,标识字段可以唯一的标识每条数据记录,各数据表都可以用身份证号码字段作为标识字段,或者可以用预设的编号作为标识字段,预设的SQL语句模型可以为事先设计好的一段程序代码,并且该程序代码可以事先设置标识字段,在获得标识字段值(即待匹配人员的身份标识)后,可以直接将标识字段值赋给该标识字段,具体的,该程序代码可以存储于电子设备,在得到二叉树以后,可以直接将待匹配人员的身份标识、目标数据源以及同时间匹配条件填充到该程序代码中,即可生成SQL语句。
同时间匹配条件可以根据需求事先设定,本发明对同时间匹配条件的设定方式不做限定,例如,同时间匹配条件可以为:出发时间和待匹配人员的出发时间的差值在预设范围内,或者,到达时间和待匹配人员的到达时间的差值在预设范围内,预设范围可以根据需求事先设置,例如,可以为20分钟、30分钟、40分钟等等,另外,同时间匹配条件还可以为:出发时间和待匹配人员的出发时间的相同,或者到达时间和待匹配人员的到达时间的相同。通过设定同时间匹配条件,可以得到目标数据源中与待匹配人员处于同一时间段的人员。
示例性的,假设目标数据源为铁路购票数据表,待匹配人员的身份标识为420103123456789,同时间匹配条件为:出发时间和待匹配人员的出发时间的差值在30分钟内,或者,到达时间和待匹配人员的到达时间的差值在30分钟内,预设的SQL语句模型包括:select*from a where buyer_id_card_no=’b’order by create_time desc;select*from a where(start_time>’T1-30分钟’and start_time<’T1+30分钟’)or(arrive_time>’T2-30分钟’and arrive_time<’T2+30分钟’);其中,a表示目标数据源,b表示待匹配人员的身份标识,T1表示待匹配人员的出发时间,T2表示待匹配人员的到达时间,where后面的表示筛选条件;则生成的SQL语句包括:SQL语句一、select*from train_ticket wherebuyer_id_card_no=’420103123456789’order by create_time desc,其中,train_ticket为铁路购票数据表的表名,通过执行SQL语句一,可以得到待匹配人员的火车购票记录列表,并可以循环遍历每条记录,得到每条记录的出发时间start_time和到达时间arrive_time,假设所得到的待匹配人员的出发时间T1和到达时间T2分别是:2018-01-0109:00:00和2018-01-01 14:00:00,则得到SQL语句二、select*from train_ticket where(start_time>’2018-01-01 08:30:00’and start_time<’2018-01-01 09:30:00’)or(arrive_time>’2018-01-01 13:30:00’and arrive_time<’2018-01-01 14:30:00’),然后执行SQL语句二,可以得到同时间人员,即铁路购票数据表中出发时间和T1的差值在30分钟内,或者到达时间和T2的差值在30分钟内的人员。
另外,若同时间匹配条件为:出发时间和待匹配人员的出发时间的相同,执行SQL语句所得的各个同时间人员的出发时间需要和待匹配人员的出发时间的相同,例如,汽车购票数据表中待匹配人员的出发时间是2018年6月5号,则汽车购票数据表中出发时间也为2018年6月5号的人员就是与待匹配人员符合同时间匹配条件的人员。
可以采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
第一预设值和第二预设值可以根据需要事先设定,本发明对具体数值不做限定,例如,第一预设值和第二预设值可以分别为1和0,或者,可以分别为2和1,或者,3和4等等。
另外,在其他实现方式中,还可以采用其他计算公式,例如计算公式还可以为:
匹配模型可以根据需求预先设置,例如,可以包括同户籍匹配模型、汽车同行匹配模型、同上网匹配模型、同住宿匹配模型、火车同行匹配模型、航班同行匹配模型等中的至少两种。
示例性的,通过执行同户籍匹配模型,可以得到户籍数据表中与待匹配人员在同一时间段、且与待匹配人员的户籍唯一标识号相同的人员;通过执行汽车同行匹配模型,可以得到汽车购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的同乘人员,通过执行同上网匹配模型,可以得到网吧上网数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的上网人员,通过执行同住宿匹配模型,可以得到住宿数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的住宿人员;通过执行火车同行匹配模型,可以得到铁路购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的乘车人员;通过执行航班同行匹配模型,可以得到与待匹配人员在同一时间段、且匹配度大于预设阈值的乘机人员。
预设阈值可以事先设定,每个匹配模型可以对应一个预设阈值,不同匹配模型对应的预设阈值可以不同,或者,也可以每个匹配模型对应的均为同一个预设阈值,本发明对此不做限定,例如,每个匹配模型可以对应的预设阈值可以分别为1、2、3、4、5,也可以均为1。
每个匹配模型可以关联一个或多个数据源,对于不同的匹配模型,可以事先针对不同的数据源设置不同的匹配字段,例如,若火车同行匹配模型关联的数据表为铁路购票数据表,则可以预先设置火车同行匹配模型的匹配字段包括:火车始发地、到达地、购票地、车次以及车厢号等等。从而,执行火车同行匹配模型,可以得到铁路购票数据表中与待匹配人员在同一时间段、且匹配度大于预设阈值的乘车人员。
数据清洗处理可以发现并纠正数据文件中可识别的错误,纠正的错误可以包括检查数据一致性,处理无效值和缺失值等,可以采用现有的数据清洗工具执行数据清洗处理,数据清洗工具包括Integrity和Trillum等,通过对数据源进行数据清洗处理,提高了数据仓库中存储的数据源的准确度和可靠性。
S102、按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
对各匹配度的大小进行排序,进而将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,提高了获得匹配结果的效率。
具体的,可以采用升序方式排序,也可以采用降序方式排序。
为了便于用户查看,一种实现方式中,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
数据源中可以存储多条数据记录,每条数据记录都可以用标识字段唯一标识,各匹配结果的数据记录可以是:以各匹配结果的身份标识为标识值的数据记录,具体显示方式可以为滚动显示或者列表显示等等,还可以按照匹配度大小的升序顺序,依次显示各数据记录,或者,也可以按照匹配度大小的降序顺序,依次显示各数据记录。
为了进一步提高数据处理效率,一种实现方式中,在获取数据仓库中存储的数据源后,所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
电子设备可以提供人机交互界面,界面中可以包括模型选择下拉框、输入框和确认按钮,用户可以通过模型选择下拉框选择匹配模型,并可以通过输入框输入待匹配人员的身份标识,并可以在输入完成后,点击确认按钮,从而电子设备可以在检测到确认按钮被点击后,生成用户分析指令,该用户分析指令中可以包括待匹配人员的身份标识和用户所选的匹配模型的标识,从而可以将具有用户所选匹配模型标识的匹配模型确定为用户分析指令所针对的目标匹配模型。
在其他实现方式中,人机交互界面还可以包括结果显示区,从而可以在结果显示区显示目标数据源中存储的各匹配结果的数据记录。
在一种实现方式中,电子设备可以为ElasticSearch服务器集群中的主节点,ElasticSearch是一个基于Lucene(全文搜索引擎)的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎。
ElasticSearch服务器集群中的主节点在获取数据仓库中存储的数据源后,可以采用分布式存储方式,将各数据源均匀/随机地分散到集群中的各个从节点,每当由新的从节点加入或者删除时,主节点会在从节点间重新均匀/随机地分配数据,以达到分布式储存的目的。
另外,在接收到用户分析指令后,主节点可以生成分析任务,进而可以采用分布式计算方式,将分析任务分配给从节点,从而,接到分析任务的从节点可以基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;并可以将各匹配度的大小发送给主节点,进而,主节点可以按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果;或者,从节点还可以按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,进而直接将匹配结果返回给主节点。
通过采用分布式存储方式和分布式计算方式,提高了系统的存储能力和计算能力,加快了数据处理的速度。
可见,应用本发明实施例提供的技术方案,使得对海量数据处理变得更加高效。通过对各数据源的原始数据进行数据清洗处理,并将清洗后的数据整合到数据仓库,提高了人员关系分析的准确度,通过建立匹配模型,实现将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,从而提高了人员关系分析的效率。
与上述的方法实施例相对应,本发明实施例还提供一种人员关系亲密度分析装置。
参见图2,图2为本发明实施例所提供的一种人员关系亲密度分析装置的结构示意图,装置包括:
获得模块201,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块202,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
可见,应用本发明实施例提供的技术方案,使得对海量数据处理变得更加高效。通过对各数据源的原始数据进行数据清洗处理,并将清洗后的数据整合到数据仓库,提高了人员关系分析的准确度,通过建立匹配模型,实现将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,从而提高了人员关系分析的效率。
可选的,所述获得模块201获取数据仓库中存储的各数据源,具体为:
实时或每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源;或者,接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源。
可选的,数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种。
可选的,所述获得模块201从数据仓库抽取各数据源,具体为:
采用增量抽取方式,从数据仓库抽取各数据源。
可选的,所述获得模块201基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体为:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度。
可选的,所述获得模块201采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=(x1,x2,...,xn)表示目标匹配模型中预设的各匹配字段,xi表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,diff(xi)为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,diff(xi)为第二预设值。
可选的,所述装置还包括显示模块,用于:
在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,显示目标数据源中存储的各匹配结果的数据记录。
可选的,所述装置还包括存储模块,用于在获取数据仓库中存储的数据源后,采用分布式存储方式,存储各数据源;
所述获得模块基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体为:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种人员关系亲密度分析方法,其特征在于,所述方法应用于电子设备,所述方法包括:
由单独的抽取服务器或者抽取服务器集群每隔预设固定时长或每到达预设时间点从数据仓库抽取各数据源,并将抽取到的各数据源发送给电子设备,单独的抽取服务器或者抽取服务器集群为独立于电子设备和数据仓库的第三方;
或者,
接收数据仓库每隔预设固定时长或每到达预设时间点发送的各数据源;
数据仓库存储的数据源包括:从FTP服务器下载的数据源、从关系型数据库读取的数据源以及从WebService服务器下载的数据源中的至少一种;
在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,具体为:将二叉树左节点所表征的待匹配人员的身份标识作为标识字段值、二叉树根节点所表征的同时间匹配条件作为筛选条件、二叉树右节点所表征的目标数据源一并填充至预设的SQL语句模型,生成SQL语句;
执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度;
其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,所述目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果;
所述方法还包括采用分布式存储方式,存储各数据源;
基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,包括:
采用分布式计算方式,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;
所述电子设备为ElasticSearch服务器集群中的主节点,ElasticSearch服务器集群中的主节点在获取数据仓库中存储的数据源后,采用分布式存储方式,将各数据源均匀或随机地分散到集群中的各个从节点,每当有新的从节点加入或者删除时,主节点会在从节点间重新均匀或随机地分配数据,以达到分布式储存的目的;
在接收到用户分析指令后,主节点生成分析任务,进而采用分布式计算方式,将分析任务分配给从节点,接到分析任务的从节点基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度;并将各匹配度的大小发送给主节点,主节点按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果;或者,从节点按照匹配度的大小进行升序排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果,进而直接将匹配结果返回给主节点。
2.根据权利要求1所述的方法,其特征在于,从数据仓库抽取各数据源,包括:
采用增量抽取方式,从数据仓库抽取各数据源。
3.根据权利要求1所述的方法,其特征在于,采用以下计算公式,计算各同时间人员与待匹配人员之间的匹配度:
;
其中,对于任一同时间人员,D表示该同时间人员与待匹配人员之间的匹配度,以向量X=()表示目标匹配模型中预设的各匹配字段,/>表示第i个匹配字段,当该同时间人员与待匹配人员的第i个匹配字段匹配成功时,/>为第一预设值,当该同时间人员与待匹配人员的第i个匹配字段匹配不成功时,/>为第二预设值。
4.根据权利要求1所述的方法,其特征在于,在将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果之后,所述方法还包括:
显示目标数据源中存储的各匹配结果的数据记录。
5.一种人员关系亲密度分析装置,其特征在于,所述装置用于实现权利要求1-4任一项所述方法,所述装置包括:
获得模块,用于获取数据仓库中存储的各数据源,在获得用户分析指令后,从预设的至少两个匹配模型中确定用户分析指令所针对的目标匹配模型,基于用户分析指令中待匹配人员的身份标识执行目标匹配模型,得到目标数据源中各同时间人员与待匹配人员之间的匹配度,具体包括:
将待匹配人员的身份标识作为左节点,将目标数据源作为右节点,将预设的同时间匹配条件作为根节点,得到二叉树;
基于二叉树生成SQL语句,具体为:将二叉树左节点所表征的待匹配人员的身份标识作为标识字段值、二叉树根节点所表征的同时间匹配条件作为筛选条件、二叉树右节点所表征的目标数据源一并填充至预设的SQL语句模型,生成SQL语句;
执行SQL语句,得到目标数据源中与待匹配人员符合预设的同时间匹配条件的人员,作为各同时间人员;
计算各同时间人员与待匹配人员之间的匹配度;
其中,所述数据仓库用于存储已进行数据清洗处理的各数据源,所述目标数据源为目标匹配模型所关联的数据源,同时间人员与待匹配人员符合预设的同时间匹配条件;
排序模块,用于按照匹配度的大小进行排序,将目标数据源中匹配度大于预设阈值的同时间人员作为匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805366.4A CN110751568B (zh) | 2018-07-20 | 2018-07-20 | 一种人员关系亲密度分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805366.4A CN110751568B (zh) | 2018-07-20 | 2018-07-20 | 一种人员关系亲密度分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751568A CN110751568A (zh) | 2020-02-04 |
CN110751568B true CN110751568B (zh) | 2024-04-30 |
Family
ID=69274785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810805366.4A Active CN110751568B (zh) | 2018-07-20 | 2018-07-20 | 一种人员关系亲密度分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751568B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN103646110A (zh) * | 2013-12-26 | 2014-03-19 | 中国人民银行征信中心 | 自然人基本身份信息匹配方法 |
US9002824B1 (en) * | 2012-06-21 | 2015-04-07 | Pivotal Software, Inc. | Query plan management in shared distributed data stores |
CN104731814A (zh) * | 2013-12-23 | 2015-06-24 | 北京宸瑞科技有限公司 | 数据灵活比对分析系统及方法 |
CN105160039A (zh) * | 2015-10-13 | 2015-12-16 | 四川携创信息技术服务有限公司 | 一种基于大数据的查询方法 |
CN105653559A (zh) * | 2014-11-28 | 2016-06-08 | 国际商业机器公司 | 用于在数据库中进行搜索的方法和装置 |
CN106484877A (zh) * | 2016-10-14 | 2017-03-08 | 东北大学 | 一种基于hdfs的文件检索系统 |
CN106919606A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于树结构实现sql查询条件的方法和系统 |
CN106951913A (zh) * | 2017-02-13 | 2017-07-14 | 上海优刻得信息科技有限公司 | 进行数据交换的方法,云平台和系统 |
CN107615277A (zh) * | 2015-03-26 | 2018-01-19 | 卡斯维尔公司 | 用于查询数据源的系统和方法 |
CN107862047A (zh) * | 2017-11-08 | 2018-03-30 | 爱财科技有限公司 | 基于多个数据源的自然人数据处理方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7908266B2 (en) * | 2007-07-18 | 2011-03-15 | Sas Institute Inc. | Systems and methods for automatically creating an SQL join expression |
CN101727465B (zh) * | 2008-11-03 | 2011-12-21 | 中国移动通信集团公司 | 分布式列存储数据库索引建立、查询方法及装置与系统 |
US10489433B2 (en) * | 2012-08-02 | 2019-11-26 | Artificial Solutions Iberia SL | Natural language data analytics platform |
-
2018
- 2018-07-20 CN CN201810805366.4A patent/CN110751568B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
US9002824B1 (en) * | 2012-06-21 | 2015-04-07 | Pivotal Software, Inc. | Query plan management in shared distributed data stores |
CN104731814A (zh) * | 2013-12-23 | 2015-06-24 | 北京宸瑞科技有限公司 | 数据灵活比对分析系统及方法 |
CN103646110A (zh) * | 2013-12-26 | 2014-03-19 | 中国人民银行征信中心 | 自然人基本身份信息匹配方法 |
CN105653559A (zh) * | 2014-11-28 | 2016-06-08 | 国际商业机器公司 | 用于在数据库中进行搜索的方法和装置 |
CN107615277A (zh) * | 2015-03-26 | 2018-01-19 | 卡斯维尔公司 | 用于查询数据源的系统和方法 |
CN105160039A (zh) * | 2015-10-13 | 2015-12-16 | 四川携创信息技术服务有限公司 | 一种基于大数据的查询方法 |
CN106919606A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于树结构实现sql查询条件的方法和系统 |
CN106484877A (zh) * | 2016-10-14 | 2017-03-08 | 东北大学 | 一种基于hdfs的文件检索系统 |
CN106951913A (zh) * | 2017-02-13 | 2017-07-14 | 上海优刻得信息科技有限公司 | 进行数据交换的方法,云平台和系统 |
CN107862047A (zh) * | 2017-11-08 | 2018-03-30 | 爱财科技有限公司 | 基于多个数据源的自然人数据处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110751568A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704411B (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
US10296837B2 (en) | Comment-comment and comment-document analysis of documents | |
CN104915426B (zh) | 信息排序方法、用于生成信息排序模型的方法及装置 | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN112035741A (zh) | 基于用户体检数据的预约方法、装置、设备及存储介质 | |
CN104679827A (zh) | 一种基于大数据的公开信息关联方法及挖掘引擎 | |
CN113220657B (zh) | 数据处理方法、装置及计算机设备 | |
CN111681085A (zh) | 商品推送方法、装置、服务器及可读存储介质 | |
CN112559923A (zh) | 网址资源推荐方法、装置、电子设备及计算机存储介质 | |
CN107077500A (zh) | 提取类似的群组元素 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN111858922A (zh) | 服务方信息查询方法、装置、电子设备以及存储介质 | |
Sik et al. | Implementation of a geographic information system with big data environment on common data model | |
CN110990651A (zh) | 地址数据处理方法、装置、电子设备及计算机可读介质 | |
CN114637726A (zh) | 数据处理方法、装置及存储介质 | |
CN112836146B (zh) | 一种基于网络消息的地理空间坐标信息获取方法及装置 | |
KR102243794B1 (ko) | 데이터 통합 장치 및 데이터 통합 방법 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN110751568B (zh) | 一种人员关系亲密度分析方法及装置 | |
CN104298786B (zh) | 一种图像检索方法及装置 | |
CN111008320A (zh) | 数据处理方法、装置及电子设备 | |
CN110895582A (zh) | 一种数据处理的方法和设备 | |
CN114841165A (zh) | 用户数据分析及展示方法、装置、电子设备及存储介质 | |
CN111125472B (zh) | 结果回溯方法、装置、电子设备及存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |