CN110737848A - 用户工作单位的挖掘处理方法、装置及电子设备 - Google Patents

用户工作单位的挖掘处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110737848A
CN110737848A CN201810720372.XA CN201810720372A CN110737848A CN 110737848 A CN110737848 A CN 110737848A CN 201810720372 A CN201810720372 A CN 201810720372A CN 110737848 A CN110737848 A CN 110737848A
Authority
CN
China
Prior art keywords
user
wifi
work unit
working
unit information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810720372.XA
Other languages
English (en)
Inventor
杨敬
彭继东
杨胜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810720372.XA priority Critical patent/CN110737848A/zh
Publication of CN110737848A publication Critical patent/CN110737848A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种用户工作单位的挖掘处理方法、装置及电子设备,所述方法包括:根据用户的历史定位数据,得到所述用户的第一工作单位信息;根据所述用户的网络接入情况,得到所述用户的第二工作单位信息;对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。该方法不仅同时基于多路线索来确定用户的工作单位,并且考虑了每种路线的准确度权值,从而使得所得出的用户的工作单位的准确性得到极大提升。

Description

用户工作单位的挖掘处理方法、装置及电子设备
技术领域
本发明实施例涉及计算机技术,尤其涉及一种用户工作单位的挖掘处理方法、装置及电子设备。
背景技术
随着互联网技术的不断发展,用户可以通过互联网完成各种各样的操作,以满足自身各种各样的需求。通过挖掘海量用户在互联网上的海量数据并进行数据分析,可以得到大量有价值的用户信息,这些信息在企业营销、企业风控以及个人风控等各领域都具有重要的价值。其中,用户数据挖掘例如可以是挖掘用户的工作单位。
现有技术中,可以基于用户的位置信息确定用户的工作单位。例如,统计用户在工作时间段内所处的位置,根据所统计出的位置信息确定用户的工作单位。
但是,使用现有技术无法保证得出的用户的工作单位的准确性。
发明内容
本发明实施例提供一种用户工作单位的挖掘处理方法、装置及电子设备,用于提升用户工作单位挖掘时的准确度。
本发明实施例第一方面提供一种用户工作单位的挖掘处理方法,所述用户工作单位用于互联网应用,所述方法包括:
根据用户的历史定位数据,得到所述用户的第一工作单位信息;
根据所述用户的网络接入情况,得到所述用户的第二工作单位信息;
对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。
进一步的,所述根据用户的历史定位数据,得到所述用户的第一工作单位信息,包括:
获取所述用户的历史定位数据,所述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次;
将所述用户的历史定位数据输入到预先建立的用户工作地模型中,得到所述用户的第一工作单位的坐标;
将所述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到所述用户的第一工作单位信息,其中,所述单位区域地理围栏代表单位所在区域边界。
进一步的,所述将所述用户的历史定位数据输入到预先建立的用户工作地模型中之前,还包括:
获取网络用户的历史定位数据,并收集工作地位置数据;
对所述历史定位数据进行聚类,得到至少两个用户位置簇;
以所述工作地位置数据为样本,并以网络用户在所述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立所述用户工作地模型。
进一步的,所述根据所述用户的网络接入情况,得到所述用户的第二工作单位信息,包括:
获取所述用户的无线保真WIFI接入历史数据,所述WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置;
针对所接入的各个WIFI,根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI;
根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
进一步的,所述根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI,包括:
将所述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
进一步的,所述将所述WIFI接入历史数据输入到预先建立的WIFI分类模型之前,还包括:
收集用户所属单位以及用户接入WIFI的信息;
根据所收集到的信息,建立工作WIFI样本;
根据WIFI的用户接入行为数据以及所述WIFI周边环境信息,提取所述WIFI的特征,并根据所述WIFI的特征建立WIFI分类模型。
进一步的,所述根据所述用户的网络接入情况,得到所述用户的第二工作单位信息,包括:
根据多个用户访问同一IP地址的IP接入历史数据,确定用户群;
根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息。
进一步的,所述根据多个用户访问同一IP地址的IP接入历史数据,确定用户群,包括:
针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数;
针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数;
对所述无向图进行聚类,得到聚类后的用户群。
进一步的,所述根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息,包括:
收集所述用户群中各用户所接入的WIFI信息;
从所述WIFI信息中选择与所述用户群关联度最高的WIFI;
若所述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
进一步的,所述对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位,包括:
将所述第一工作单位信息的打分结果和对应的加权值进行乘积,得到所述第一工作单位信息的得分;
将所述第二工作单位信息的打分结果和对应的加权值进行乘积,得到所述第二工作单位信息的得分;
对所述第一工作单位信息的得分以及所述第二工作单位信息的得分进行由高到底排序;
确定得分最高的工作单位信息对应的工作单位为所述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为所述用户的工作单位,其中,N为大于零的整数。
本发明实施例第二方面提供一种用户工作单位的挖掘处理装置,所述用户工作单位用于互联网应用,所述装置包括:
第一处理模块,用于根据用户的历史定位数据,得到所述用户的第一工作单位信息;
第二处理模块,用于根据所述用户的网络接入情况,得到所述用户的第二工作单位信息;
融合模块,用于对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。
进一步的,所述第一处理模块具体用于:
获取所述用户的历史定位数据,所述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次;
将所述用户的历史定位数据输入到预先建立的用户工作地模型中,得到所述用户的第一工作单位的坐标;
将所述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到所述用户的第一工作单位信息,其中,所述单位区域地理围栏代表单位所在区域边界。
进一步的,所述第一处理模块具体还用于:
获取网络用户的历史定位数据,并收集工作地位置数据;
对所述历史定位数据进行聚类,得到至少两个用户位置簇;
以所述工作地位置数据为样本,并以网络用户在所述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立所述用户工作地模型。
进一步的,所述第二处理模块具体用于:
获取所述用户的无线保真WIFI接入历史数据,所述WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置;
针对所接入的各个WIFI,根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI;
根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
进一步的,所述第二处理模块具体还用于:
将所述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
进一步的,所述第二处理模块具体还用于:
收集用户所属单位以及用户接入WIFI的信息;
根据所收集到的信息,建立工作WIFI样本;
根据WIFI的用户接入行为数据以及所述WIFI周边环境信息,提取所述WIFI的特征,并根据所述WIFI的特征建立WIFI分类模型。
进一步的,所述第二处理模块具体还用于:
根据多个用户访问同一IP地址的IP接入历史数据,确定用户群;
根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息。
进一步的,所述第二处理模块具体还用于:
针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数;
针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数;
对所述无向图进行聚类,得到聚类后的用户群。
进一步的,所述第二处理模块具体还用于:
收集所述用户群中各用户所接入的WIFI信息;
从所述WIFI信息中选择与所述用户群关联度最高的WIFI;
若所述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
进一步的,所述融合模块具体用于:
将所述第一工作单位信息的打分结果和对应的加权值进行乘积,得到所述第一工作单位信息的得分;
将所述第二工作单位信息的打分结果和对应的加权值进行乘积,得到所述第二工作单位信息的得分;
对所述第一工作单位信息的得分以及所述第二工作单位信息的得分进行由高到底排序;
确定得分最高的工作单位信息对应的工作单位为所述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为所述用户的工作单位,其中,N为大于零的整数。
本发明实施例第三方面提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。
本发明实施例第四方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面所述的方法步骤。
本发明实施例所述提供的用户工作单位的挖掘处理方法、装置及电子设备,首先根据用户的历史定位数据以及用户的网络接入情况分别得到第一工作单位信息和第二工作单位信息,进而对所得到的第一工作单位信息和第二工作单位信息进行加权融合,从而得到用户的工作单位,在此过程中不仅同时基于多路线索来确定用户的工作单位,并且考虑了每种路线的准确度权值,从而使得所得出的用户的工作单位的准确性得到极大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户工作单位的挖掘处理方法的应用场景图;
图2为本发明实施例提供的用户工作单位的挖掘处理方法实施例一的流程示意图;
图3为本发明实施例提供的用户工作单位的挖掘处理方法实施例二的流程示意图;
图4为本发明实施例提供的用户工作单位的挖掘处理方法实施例三的流程示意图;
图5为本发明实施例提供的用户工作单位的挖掘处理方法实施例四的流程示意图;
图6为本发明实施例提供的用户工作单位的挖掘处理方法实施例五的流程示意图;
图7为本发明实施例提供的用户工作单位的挖掘处理方法实施例六的流程示意图;
图8为本发明实施例提供的用户工作单位的挖掘处理方法实施例七的流程示意图;
图9为本发明实施例提供的用户工作单位的挖掘处理方法实施例八的流程示意图;
图10为本发明实施例提供的用户工作单位的挖掘处理装置实施例一的模块结构图;
图11为本发明实施例提供的电子设备的实体框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中基于用户的位置信息确定用户的工作单位,无法保证得出的用户的工作单位的准确性。例如,假设统计等方法得出用户在工作时间段内所处的位置为某栋写字楼,但是,该写字楼内有多个企业,因此,仅根据用户位于该写字楼并不能获知用户的工作单位具体是哪个,因此,无法保证所得出的工作单位的准确性。
本发明实施例基于上述问题,提出一种用户工作单位的挖掘处理方法,根据用户的历史定位数据以及用户的网络接入情况分别得到第一工作单位信息和第二工作单位信息,进而对所得到的第一工作单位信息和第二工作单位信息进行加权融合,从而得到用户的工作单位,从而实现同时基于多路线索来确定用户的工作单位,从而使得所得出的用户的工作单位的准确性得到极大提升。
图1为本发明实施例提供的用户工作单位的挖掘处理方法的应用场景图,如图1所示,该方法可以应用于任何需要使用用户工作单位的业务场景中,例如企业营销、企业风控、个人风控等。由服务器从互联网挖掘的用户数据,服务器再基于这些用户数据,使用本发明实施例所涉及的方法挖掘用户的工作单位。进而,服务器所挖掘出的用户的工作单位再作为各业务场景的输入。示例性的,某购物中心需要结合用户的工作单位向用户推送活动信息,则可以将购物中心的会员管理系统接入服务器,由服务器向购物中心的会员管理系统提供用户的工作单位。
图2为本发明实施例提供的用户工作单位的挖掘处理方法实施例一的流程示意图,该方法的执行主体可以为上述的服务器,如图1所示,该方法包括:
S201、根据用户的历史定位数据,得到该用户的第一工作单位信息。
其中,用户的历史定位数据可以包括用户在预设的历史时段内所处的位置的信息,该位置的信息包括位置标识、在位置上逗留的时长、时段分布、频次等。
其中,位置标识例如可以为经纬度。
可选的,上述第一工作单位信息可以是工作单位的名称以及对该结果的打分等。
示例性的,通过对某个用户的历史定位数据得出该用户的工作单位为单位A,打分结果为70分。其中,打分结果代表了结果的准确概率。
S202、根据上述用户的网络接入情况,得到上述用户的第二工作单位信息。
其中,用户的网络接入情况可以包括用户的无线保真(Wireless Fidelity,简称WIFI)接入情况和/或用户的IP接入情况等。
可选的,上述第二工作单位信息可以是工作单位的名称以及对该结果的打分等。
S203、对上述第一工作单位信息和上述第二工作单位信息进行加权融合,确定上述用户的工作单位。
可选的,上述第一工作单位信息和上述第二工作单位信息是在历史定位数据和网络接入情况这两个路线下分别得出的工作单位结果,而这两个路线从准确度上来说,在客观上具有一定的差别。因此,两个路线本身可以具有特定的权值。
示例性的,可以预先通过数据分析确定历史定位数据这个路线的权值为0.4,WIFI接入情况的权值为0.6,进而,在经过上述步骤得到第一工作单位信息和第二工作单位信息之后,根据第一工作单位信息对应的打分与该路线的权值,以及第二工作单位信息对应的打分与该路线的权值,可以得出最终的用户的工作单位。
本实施例中,首先根据用户的历史定位数据以及用户的网络接入情况分别得到第一工作单位信息和第二工作单位信息,进而对所得到的第一工作单位信息和第二工作单位信息进行加权融合,从而得到用户的工作单位,在此过程中不仅同时基于多路线索来确定用户的工作单位,并且考虑了每种路线的准确度权值,从而使得所得出的用户的工作单位的准确性得到极大提升。
在上述实施例的基础上,本实施例涉及根据用户的历史定位数据得到第一工作单位信息的过程。
图3为本发明实施例提供的用户工作单位的挖掘处理方法实施例二的流程示意图,如图3所示,上述步骤S201包括:
S301、获取上述用户的历史定位数据,上述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次。
可选的,可以通过采集一个用户在互联网上的操作记录来获取用户的历史定位数据,例如,以用户的手机号码为线索,搜集该号码对应的用户帐户在过去一段时间内的历史定位数据。
可选的,上述逗留的时长可以指用户在预设的历史时段内在该上述一位置上逗留的总时长,或者,也可以是每天的平均时长等。
上述日内时段分布,是指用户位于上述一位置的时段,例如用户固定在每天的8点至19点位于该一位置上。
上述频次例如可以是用户在预设的历史时段内出现在该位置的天数,天数越多,则表示频率越高。
S302、将上述用户的历史定位数据输入到预先建立的用户工作地模型中,得到上述用户的第一工作单位的坐标。
可选的,上述用户工作地模型的输入为上述步骤S301所得到的历史定位数据,输出为用户的工作单位坐标以及对应的概率。
示例性的,假设向上述用户工作地模型输入了某用户过去一个月的历史定位数据,包括用户所处的多个位置的标识,以及针对每个位置,在该位置上逗留的时长、用户位于该位置的时段以及频次,则上述用户工作地模型可以输出该用户的工作地坐标以及对应的概率。
S303、将上述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到上述用户的第一工作单位信息,其中,上述单位区域地理围栏代表单位所在区域边界。
可选的,上述单位区域地理围栏可以预先通过互联网数据抓取或用户标注的方式来建立,通过这种方式,可以建立大量的单位区域地理围栏数据,即可以为每个单位建立该单位所对应的单位区域地理围栏。
可选的,在将上述第一工作单位的坐标与上述单位区域地理围栏数据进行匹配时,可以判断上述第一工作单位的坐标是否落入了上述单位区域地理围栏的范围内,若是,则可以确定上述单位区域地理围栏所对应的单位即为上述用户的工作单位。
可选的,在上述步骤S302中,用户工作地模型在输出用户的第一工作单位的坐标时,会同时输出属于该坐标的概率。同时,在上述步骤S303中,在将上述第一工作单位的坐标与单位区域地理围栏进行匹配时,也可以输出一个匹配度,例如,如果第一工作单位的坐标正好落在单位区域地理围栏的中心位置,则匹配度高,如果第一工作单位的坐标落在单位区域地理围栏中靠近边缘的位置,则匹配度高。结合上述步骤S302所输出的概率以及上述步骤S303所输出的匹配度,可以确定最终所得出的第一工作单位信息的打分。
示例性的,如果上述概率高于80%,并且匹配度高于80%,则所得出的第一工作单位信息的打分为85分。如果上述概率高于80%,并且匹配度低于80%,则所得出的第一工作单位信息的打分为80分。
在上述实施例的基础上,本实施例涉及在使用用户工作地模型之前建立用户工作地模型的过程。
图4为本发明实施例提供的用户工作单位的挖掘处理方法实施例三的流程示意图,如图4所示,在上述步骤S302之前,还包括:
S401、获取网络用户的历史定位数据,并收集工作地位置数据。
上述工作地位置数据可以采用数据标注的方式来获得。
S402、对上述历史定位数据进行聚类,得到至少两个用户位置簇。
同一个用户在一段时间内所位于的位置较多,因此,本步骤中,根据各位置的相关性(例如位置之间的距离小于一定阈值),对历史定位数据进行聚类,从而可以得到至少两个用户位置簇。每个用户位置簇可能包括多个位置。
S403、以上述工作地位置数据为样本,并以网络用户在上述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立上述用户工作地模型。
在上述实施例的基础上,本实施例涉及根据用户的网络接入情况得到第二工作单位信息的过程。
可选的,可以根据用户的WIFI接入情况得到第二工作单位信息,也可以根据用户的IP接入情况得到第二工作单位信息。在具体实施过程中,这两种方式可以单独实施,或者,也可以结合实施。
以下首先说明根据用户WIFI接入情况得到第二工作单位信息的过程。
图5为本发明实施例提供的用户工作单位的挖掘处理方法实施例四的流程示意图,如图5所示,上述步骤S202包括:
S501、获取上述用户的WIFI接入历史数据,该WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置。
其中,WIFI的标识可以指WIFI的名称。接入时间可以指用户连接到该WIFI时的时间。接入频次例如可以是用户在预设的历史时间内接入该WIFI的次数。WIFI所处位置为WIFI对应的地理位置。
S502、针对所接入的各个WIFI,根据上述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI。
用户在预设的历史时段内所连接的WIFI可能有多个,因此,需要针对每个所连接的WIFI,逐个判断这些WIFI是否为工作WIFI。
可选的,可以基于预先建立的WIFI分类模型来判断WIFI是否为工作WIFI。
具体的,将上述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
其中,该WIFI分类模型的输入为上述WIFI接入历史数据,输出为该WIFI是否为工作WIFI的分类结果以及该结果的概率信息。
S503、根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定上述所接入的工作WIFI所对应的工作单位信息。
其中,工作WIFI与工作单位信息之间的映射关系,可以预先通过互联网上的公开信息来挖掘或获取。进而,示例性的,可以通过映射表格的形式来保存工作WIFI与工作单位信息之间的映射关系。
本步骤中,在经过上述步骤得到用户的工作WIFI后,可以在工作WIFI与工作单位信息的映射表中查找该工作WIFI对应的工作单位信息,进而得到用户的第二工作单位信息。
在上述步骤S502中,如果是通过预先建立的WIFI分类模型确定用户的工作WIFI,则可以得到工作WIFI对应的概率值。进而,在上述步骤S503中,在根据工作WIFI与工作单位信息的映射关系查找工作WIFI时,也可以到一个匹配度。例如,如果工作WIFI的名称、位置与映射表中的某个WIFI完全一致,则匹配度为100%,如果工作WIFI的名称与映射表中的某个WIFI的名称相同,位置之间具有预设的距离,则匹配度为90%。进而,结合上述步骤S502所输出的概率以及上述步骤S503所输出的匹配度,可以确定最终所得出的第二工作单位信息的打分。
示例性的,如果上述概率高于80%,并且匹配度高于90%,则所得出的第一工作单位信息的打分为85分。如果上述概率高于80%,并且匹配度低于90%,则所得出的第一工作单位信息的打分为80分。
在上述实施例的基础上,本实施例涉及建立上述WIFI分类模型的过程。
图6为本发明实施例提供的用户工作单位的挖掘处理方法实施例五的流程示意图,如图6所示,在将WIFI接入历史数据输入预先建立的WIFI分类模型之前,还包括:
S601、收集用户所属单位以及用户接入WIFI的信息。
示例性的,可以预先通过用户在互联网上的各类注册信息等来收集用户所属工作单位以及用户接入WIFI的信息。
S602、根据所收集到的信息,建立工作WIFI样本。
S603、根据WIFI的用户接入行为数据以及WIFI周边环境信息,提取WIFI的特征,并根据WIFI的特征建立WIFI分类模型。
其中,上述WIFI的用户接入行为数据包括用户接入WIFI的时间、接入时间以及接入频次等,上述WIFI周边环境信息例如可以包括兴趣点(Point of Interest,简称POI)类型分布情况、POI密度等。
以下为根据用户IP接入情况得到第二工作单位信息的过程。
图7为本发明实施例提供的用户工作单位的挖掘处理方法实施例六的流程示意图,如图7所示,上述步骤S202包括:
S701、根据多个用户访问同一IP地址的IP接入历史数据,确定用户群。
在前述的实施例中,可以基于一个用户的历史定位数据或者WIFI接入情况来确定该用户的工作单位信息,而本实施例中,可以基于多个用户行为的共性来挖掘用户的工作单位信息。
本步骤中,首先根据多个用户访问同一IP地址的IP接入历史数据,确定用户群。
其中,上述IP接入历史数据可以包括用户所接入IP的IP地址、接入时间等。
在一种可选的实施方式中,可以通过如下方式确定用户群:
首先,针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数。
其中,该预设时间间隔为一个较短的时间间隔,即首先统计有哪些用户在较短的时间间隔内在同一个IP上出现行为的次数。
其次,针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数。
进而,对所述无向图进行聚类,得到聚类后的用户群。
S702、根据上述用户群所接入的WIFI,确定上述用户群中的用户的第二工作单位信息。
可选的,得到聚类后的用户群之后,可以采集用户群中的用户所接入的WIFI,再根据每个用户所接入的WIFI,确定用户群中各用户的第二工作单位信息。
在上述实施例的基础上,本实施例涉及根据用户群所接入的WIFI确定用户第二工作单位信息的过程。
图8为本发明实施例提供的用户工作单位的挖掘处理方法实施例七的流程示意图,如图8所示,上述步骤S702包括:
S801、收集上述用户群中各用户所接入的WIFI信息。
其中,上述各用户所接入的WIFI信息可以包括WIFI名称、接入时间、接入时长、接入频次、WIFI所在位置等。
S802、从上述WIFI信息中选择与上述用户群关联度最高的WIFI。
可选的,如果上述用户群中超过预设数量的用户都接入过某个WIFI,则可以确定该WIFI为与上述用户群关联度最高的WIFI。
需要说明的是,与上述用户群关联度最高的WIFI可能为一个,也可能为多个。
S803、若上述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
判断上述关联度最高的WIFI是否为工作WIFI,以及根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息的具体过程,可以参照前述步骤S502-S503,此处不再赘述。
在上述实施例的基础上,本实施例涉及对第一工作单位信息和第二工作单位信息进行加权融合确定用户的工作单位的过程。
图9为本发明实施例提供的用户工作单位的挖掘处理方法实施例八的流程示意图,如图9所示,上述步骤S203包括:
S901、将上述第一工作单位信息的打分结果和对应的加权值进行乘积,得到上述第一工作单位信息的得分。
S902、将上述第二工作单位信息的打分结果和对应的加权值进行乘积,得到上述第二工作单位信息的得分。
S903、对上述第一工作单位信息的得分以及上述第二工作单位信息的得分进行由高到底排序。
S904、确定得分最高的工作单位信息对应的工作单位为上述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为上述用户的工作单位。
其中,N为大于零的整数。
可选的,针对同一个用户,可以分别通过前述的方法得到一个或多个第一工作单位信息,以及一个或多个第二工作单位信息,每个工作单位信息对应一个打分结果,同时,每个路线本身具有一个权重,即加权值。
在本实施例中,针对同一个用户,首先将通过前述方法所得到的第一工作单位的打分结果与该路线的加权值进行乘积,得到一个或多个得分,再将通过前述方法所得到的第二工作单位的打分结果与该路线的加权值进行乘积,再得到一个或多个得分。进而,将所得到的所有得分进行排序。进而,可以选择得分最高的一个或N个工作单位信息所对应的工作单位作为用户最终的工作单位。
图10为本发明实施例提供的用户工作单位的挖掘处理装置实施例一的模块结构图,如图10所示,该装置包括:
第一处理模块1001,用于根据用户的历史定位数据,得到所述用户的第一工作单位信息。
第二处理模块1002,用于根据所述用户的网络接入情况,得到所述用户的第二工作单位信息。
融合模块1003,用于对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。
该装置用于实现前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
另一实施例中,第一处理模块1001具体用于:
获取所述用户的历史定位数据,所述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次;
将所述用户的历史定位数据输入到预先建立的用户工作地模型中,得到所述用户的第一工作单位的坐标;
将所述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到所述用户的第一工作单位信息,其中,所述单位区域地理围栏代表单位所在区域边界。
另一实施例中,第一处理模块1001具体还用于:
获取网络用户的历史定位数据,并收集工作地位置数据;
对所述历史定位数据进行聚类,得到至少两个用户位置簇;
以所述工作地位置数据为样本,并以网络用户在所述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立所述用户工作地模型。
另一实施例中,第二处理模块1002具体用于:
获取所述用户的无线保真WIFI接入历史数据,所述WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置;
针对所接入的各个WIFI,根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI;
根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
另一实施例中,第二处理模块1002具体还用于:
将所述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
另一实施例中,第二处理模块1002具体还用于:
收集用户所属单位以及用户接入WIFI的信息;
根据所收集到的信息,建立工作WIFI样本;
根据WIFI的用户接入行为数据以及所述WIFI周边环境信息,提取所述WIFI的特征,并根据所述WIFI的特征建立WIFI分类模型。
另一实施例中,第二处理模块1002具体还用于:
根据多个用户访问同一IP地址的IP接入历史数据,确定用户群;
根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息。
另一实施例中,第二处理模块1002具体还用于:
针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数;
针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数;
对所述无向图进行聚类,得到聚类后的用户群。
另一实施例中,第二处理模块1002具体还用于:
收集所述用户群中各用户所接入的WIFI信息;
从所述WIFI信息中选择与所述用户群关联度最高的WIFI;
若所述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
另一实施例中,融合模块1003具体用于:
将所述第一工作单位信息的打分结果和对应的加权值进行乘积,得到所述第一工作单位信息的得分;
将所述第二工作单位信息的打分结果和对应的加权值进行乘积,得到所述第二工作单位信息的得分;
对所述第一工作单位信息的得分以及所述第二工作单位信息的得分进行由高到底排序;
确定得分最高的工作单位信息对应的工作单位为所述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为所述用户的工作单位,其中,N为大于零的整数。
图11为本发明实施例提供的电子设备的实体框图,该电子设备可以为服务器,如图11所示,该电子设备包括:
存储器1101,用于存储程序指令。
处理器1002,用于调用并执行存储器1101中的程序指令,执行上述方法实施例中的方法步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (22)

1.一种用户工作单位的挖掘处理方法,其特征在于,所述用户工作单位用于互联网应用,所述方法包括:
根据用户的历史定位数据,得到所述用户的第一工作单位信息;
根据所述用户的网络接入情况,得到所述用户的第二工作单位信息;
对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。
2.根据权利要求1所述的方法,其特征在于,所述根据用户的历史定位数据,得到所述用户的第一工作单位信息,包括:
获取所述用户的历史定位数据,所述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次;
将所述用户的历史定位数据输入到预先建立的用户工作地模型中,得到所述用户的第一工作单位的坐标;
将所述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到所述用户的第一工作单位信息,其中,所述单位区域地理围栏代表单位所在区域边界。
3.根据权利要求2所述的方法,其特征在于,所述将所述用户的历史定位数据输入到预先建立的用户工作地模型中之前,还包括:
获取网络用户的历史定位数据,并收集工作地位置数据;
对所述历史定位数据进行聚类,得到至少两个用户位置簇;
以所述工作地位置数据为样本,并以网络用户在所述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立所述用户工作地模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户的网络接入情况,得到所述用户的第二工作单位信息,包括:
获取所述用户的无线保真WIFI接入历史数据,所述WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置;
针对所接入的各个WIFI,根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI;
根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI,包括:
将所述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
6.根据权利要求5所述的方法,其特征在于,所述将所述WIFI接入历史数据输入到预先建立的WIFI分类模型之前,还包括:
收集用户所属单位以及用户接入WIFI的信息;
根据所收集到的信息,建立工作WIFI样本;
根据WIFI的用户接入行为数据以及所述WIFI周边环境信息,提取所述WIFI的特征,并根据所述WIFI的特征建立WIFI分类模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述用户的网络接入情况,得到所述用户的第二工作单位信息,包括:
根据多个用户访问同一IP地址的IP接入历史数据,确定用户群;
根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息。
8.根据权利要求7所述的方法,其特征在于,所述根据多个用户访问同一IP地址的IP接入历史数据,确定用户群,包括:
针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数;
针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数;
对所述无向图进行聚类,得到聚类后的用户群。
9.根据权利要求8所述的方法,其特征在于,所述根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息,包括:
收集所述用户群中各用户所接入的WIFI信息;
从所述WIFI信息中选择与所述用户群关联度最高的WIFI;
若所述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
10.根据权利要求7所述的方法,其特征在于,所述对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位,包括:
将所述第一工作单位信息的打分结果和对应的加权值进行乘积,得到所述第一工作单位信息的得分;
将所述第二工作单位信息的打分结果和对应的加权值进行乘积,得到所述第二工作单位信息的得分;
对所述第一工作单位信息的得分以及所述第二工作单位信息的得分进行由高到底排序;
确定得分最高的工作单位信息对应的工作单位为所述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为所述用户的工作单位,其中,N为大于零的整数。
11.一种用户工作单位的挖掘处理装置,其特征在于,所述用户工作单位用于互联网应用,所述装置包括:
第一处理模块,用于根据用户的历史定位数据,得到所述用户的第一工作单位信息;
第二处理模块,用于根据所述用户的网络接入情况,得到所述用户的第二工作单位信息;
融合模块,用于对所述第一工作单位信息和所述第二工作单位信息进行加权融合,确定所述用户的工作单位。
12.根据权利要求11所述的装置,其特征在于,所述第一处理模块具体用于:
获取所述用户的历史定位数据,所述历史定位数据包含用户在一位置上逗留的时长、日内时段分布以及频次;
将所述用户的历史定位数据输入到预先建立的用户工作地模型中,得到所述用户的第一工作单位的坐标;
将所述第一工作单位的坐标与单位区域地理围栏数据进行匹配,得到所述用户的第一工作单位信息,其中,所述单位区域地理围栏代表单位所在区域边界。
13.根据权利要求12所述的装置,其特征在于,所述第一处理模块具体还用于:
获取网络用户的历史定位数据,并收集工作地位置数据;
对所述历史定位数据进行聚类,得到至少两个用户位置簇;
以所述工作地位置数据为样本,并以网络用户在所述至少两个用户位置簇上停留的时长、日内时段分布以及频次作为特征,建立所述用户工作地模型。
14.根据权利要求11所述的装置,其特征在于,所述第二处理模块具体用于:
获取所述用户的无线保真WIFI接入历史数据,所述WIFI接入历史数据包括所接入的WIFI的标识、接入时间、接入时长,接入频次以及WIFI所处位置;
针对所接入的各个WIFI,根据所述WIFI接入历史数据确定所接入的WIFI中所包含的工作WIFI;
根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
15.根据权利要求14所述的装置,其特征在于,所述第二处理模块具体还用于:
将所述WIFI接入历史数据输入到预先建立的WIFI分类模型中,得到各WIFI是否是工作WIFI的分类结果。
16.根据权利要求15所述的装置,其特征在于,所述第二处理模块具体还用于:
收集用户所属单位以及用户接入WIFI的信息;
根据所收集到的信息,建立工作WIFI样本;
根据WIFI的用户接入行为数据以及所述WIFI周边环境信息,提取所述WIFI的特征,并根据所述WIFI的特征建立WIFI分类模型。
17.根据权利要求11-16任一项所述的装置,其特征在于,所述第二处理模块具体还用于:
根据多个用户访问同一IP地址的IP接入历史数据,确定用户群;
根据所述用户群所接入的WIFI,确定所述用户群中的用户的第二工作单位信息。
18.根据权利要求17所述的装置,其特征在于,所述第二处理模块具体还用于:
针对不同行政区划以及不同IP类型,统计多个用户在预设时间间隔内访问同一IP的行为次数;
针对每个行政区划以及每种IP类型,分别建立以用户为顶点的无向图,其中,顶点之间的权重为两个用户在预设时间范围内访问同一IP的行为次数;
对所述无向图进行聚类,得到聚类后的用户群。
19.根据权利要求18所述的装置,其特征在于,所述第二处理模块具体还用于:
收集所述用户群中各用户所接入的WIFI信息;
从所述WIFI信息中选择与所述用户群关联度最高的WIFI;
若所述关联度最高的WIFI为工作WIFI,则根据所接入的工作WIFI的标识,以及工作WIFI与工作单位信息之间的映射关系,确定所述所接入的工作WIFI所对应的工作单位信息。
20.根据权利要求17所述的装置,其特征在于,所述融合模块具体用于:
将所述第一工作单位信息的打分结果和对应的加权值进行乘积,得到所述第一工作单位信息的得分;
将所述第二工作单位信息的打分结果和对应的加权值进行乘积,得到所述第二工作单位信息的得分;
对所述第一工作单位信息的得分以及所述第二工作单位信息的得分进行由高到底排序;
确定得分最高的工作单位信息对应的工作单位为所述用户的工作单位,或者,确定得分排序前N个工作单位信息分别对应的工作单位为所述用户的工作单位,其中,N为大于零的整数。
21.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行权利要求1-10任一项所述的方法步骤。
22.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1-10任一项所述的方法步骤。
CN201810720372.XA 2018-07-03 2018-07-03 用户工作单位的挖掘处理方法、装置及电子设备 Pending CN110737848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810720372.XA CN110737848A (zh) 2018-07-03 2018-07-03 用户工作单位的挖掘处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810720372.XA CN110737848A (zh) 2018-07-03 2018-07-03 用户工作单位的挖掘处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110737848A true CN110737848A (zh) 2020-01-31

Family

ID=69234333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810720372.XA Pending CN110737848A (zh) 2018-07-03 2018-07-03 用户工作单位的挖掘处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110737848A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置
CN104965876A (zh) * 2015-06-12 2015-10-07 微梦创科网络科技(中国)有限公司 一种基于位置信息进行用户工作单位挖掘的方法及装置
CN105550248A (zh) * 2015-11-26 2016-05-04 小米科技有限责任公司 用户信息挖掘方法及装置
CN105978722A (zh) * 2016-05-11 2016-09-28 腾讯科技(深圳)有限公司 用户属性挖掘方法及装置
CN106547894A (zh) * 2016-11-03 2017-03-29 浙江夏农信息技术有限公司 基于移动通信信令大数据挖掘职住位置标签的系统及方法
CN106792514A (zh) * 2016-11-30 2017-05-31 南京华苏科技有限公司 基于信令数据的用户职住地分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置
CN104965876A (zh) * 2015-06-12 2015-10-07 微梦创科网络科技(中国)有限公司 一种基于位置信息进行用户工作单位挖掘的方法及装置
CN105550248A (zh) * 2015-11-26 2016-05-04 小米科技有限责任公司 用户信息挖掘方法及装置
CN105978722A (zh) * 2016-05-11 2016-09-28 腾讯科技(深圳)有限公司 用户属性挖掘方法及装置
CN106547894A (zh) * 2016-11-03 2017-03-29 浙江夏农信息技术有限公司 基于移动通信信令大数据挖掘职住位置标签的系统及方法
CN106792514A (zh) * 2016-11-30 2017-05-31 南京华苏科技有限公司 基于信令数据的用户职住地分析方法

Similar Documents

Publication Publication Date Title
US10281284B2 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
US10474727B2 (en) App recommendation using crowd-sourced localized app usage data
US8542637B2 (en) Clustering crowd-sourced data for determining beacon positions
CN111177222B (zh) 模型测试方法、装置及计算设备、存储介质
CN111212383B (zh) 区域常住人口数量的确定方法、装置、服务器和介质
KR20190139130A (ko) 피셀 알고리즘을 이용하여 실시간 유동 인구 데이터의 제공이 가능한 유동인구 정보 분석 방법
CN111294730B (zh) 一种网络问题投诉信息处理的方法及装置
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
JP6756744B2 (ja) 位置情報提供方法及び装置
CN110298687B (zh) 一种区域吸引力评估方法及设备
CN111459723B (zh) 终端数据处理系统
CN108182240B (zh) 兴趣点新增率预测模型训练及预测方法、装置及存储介质
US10959041B1 (en) Traffic analysis of mobile phones partitioned by geohash
CN110012436B (zh) 用户位置确定方法、装置、设备及计算机可读存储介质
CN112465565B (zh) 一种基于机器学习的用户画像预测的方法及装置
Benkhelifa et al. Framework for mobile devices analysis
CN110619090B (zh) 一种区域吸引力评估方法及设备
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN110737848A (zh) 用户工作单位的挖掘处理方法、装置及电子设备
CN107801418B (zh) 利用地图检索记录的流动人口推算装置及方法
CN111611337B (zh) 终端数据处理系统
CN112235723B (zh) 定位方法、装置、电子设备及计算机可读存储介质
Filipponi et al. Sampling design and analysis using geo-referenced data
CN111611336B (zh) 终端数据处理系统
CN107729446B (zh) 地图电话甄别方法、装置、服务器及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131