CN104965876B - 一种基于位置信息进行用户工作单位挖掘的方法及装置 - Google Patents

一种基于位置信息进行用户工作单位挖掘的方法及装置 Download PDF

Info

Publication number
CN104965876B
CN104965876B CN201510321017.1A CN201510321017A CN104965876B CN 104965876 B CN104965876 B CN 104965876B CN 201510321017 A CN201510321017 A CN 201510321017A CN 104965876 B CN104965876 B CN 104965876B
Authority
CN
China
Prior art keywords
unit
user
information
identification information
work unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510321017.1A
Other languages
English (en)
Other versions
CN104965876A (zh
Inventor
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201510321017.1A priority Critical patent/CN104965876B/zh
Publication of CN104965876A publication Critical patent/CN104965876A/zh
Application granted granted Critical
Publication of CN104965876B publication Critical patent/CN104965876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置,所述方法包括:根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。本方案从用户历史位置信息库中,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位。

Description

一种基于位置信息进行用户工作单位挖掘的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于位置信息进行用户工作单位挖掘的方法及装置。
背景技术
在互联网信息技术中,所谓用户工作单位挖掘:在不知道用户的工作单位的情况下,根据用户的关系或行为数据对其工作单位进行预测的方法。
现有技术一的技术方案目前的方法主要是通过提取用户自填信息获得,用户使用社交网络时,需要填写注册信息,用户会填写自己的工作单位信息。通过对该部分信息进行去噪声后,获得用户的工作单位信息。具体流程如下:搜集用户填写的工作单位信息——去噪声——用户单位信息,其中,去噪声包括去除一些无意义或明显不是工作单位的信息,如家里蹲、联系QQ号等。目前的方法至少存在以下几方面缺点:1、用户自填工作单位信息随意度比较高,且缺乏有效方法检验其填写正确性,导致用户工作单位信息准确率度低。2、用户工作单位信息在注册时通常不是必填信息,大量用户并不会填写当前的工作单位信息,导致用户工作单位信息覆盖率低,可用性不强。3、用户经常变更工作单位,且用户在变更其工作单位时,往往不会更新其注册资料,导致注册信息不是其最新工作单位信息,导致信息的时效性和可用性降低。
现有技术二的技术方案,在目前的社交网络中,有一些用户被其他用户打上单位标签,方法二对统计用户被打上的所有单位标签,选择数量最多的单位标签作为用户的工作单位。具体步骤如下:1、选择一个用户,并获取该用户所有被其他用户打上的单位标签;2、遍历该用户的单位标签,对相应的标签计数器增1;3、选择最大的标签计数器所在的标签作为用户的工作单位;4、如果还有其他用户,转到1。其缺点为:1、仅有一些名人或高管会被打上单位标签,90%以上的人无相关标签,因而覆盖率不够。2、标签未标注时间,因而无法体现出用户最新的工作单位,导致信息的时效性和可用性降低。
发明内容
本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置,以提高用户工作单位挖掘的准确性。
一方面,本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的方法,所述方法包括:
根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。
另一方面,本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的装置,所述装置包括:
位置信息获取单元,用于根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
单位标识确定单元,用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
分析挖掘单元,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。
上述技术方案具有如下有益效果:本方案从用户历史位置信息库中,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位,因而即使那些未在注册信息中填写单位信息的,或者填写错误的单位地址的,都可以通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用户单位,解决了用户最新的工作单位挖掘问题,具有较强的实效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图;
图2为本发明实施例一种基于位置信息进行用户工作单位挖掘的装置结构示意图;
图3为本发明实施例位置信息获取单元结构示意图;
图4为本发明实施例单位标识确定单元结构示意图;
图5为本发明实施例分析挖掘单元结构示意图;
图6为本发明第一应用实例计算框架示意图;
图7为本发明第二应用实例计算框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在社交网络中,对用户进行准确的画像是实施个性化推荐的关键,而用户所在工作单位的挖掘是用户画像(UP,User Profile,通过一系列的属性对用户进行描述,属性包括但不限于性别、年龄、职业、行业、兴趣等。有了用户的属性描述后,就相当于对用户基本情况有了一定的了解)的重要部分,挖掘出了用户的所在工作单位,就可以在社交网络中,推荐该单位的其他同事供该用户所关注,能够明显提高推荐的认可率,进而提升其在社交网络中的参与度和活跃度。
如图1所示,为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图,所述方法包括:
101、根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
102、根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
103、利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。
优选的,所述位置信息为经纬度信息,所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间;所述根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,包括:使用位置投影方法,将所述GPS经纬度信息转换成对应的格子标识信息;所述格子为16级格子,或18级格子,不同级别的格子代表不同的地域范围;所述位置投影方法包括:墨卡托投影方法,高斯投影方法。
进一步地,优选的,所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:针对每一个格子,分别执行如下处理:选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各个工作单位对应的人数,记为count(corp);确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识信息;其中,c=1,r=0.2;
所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息,包括:统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
或者,优选的,所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网络地址信息;所述根据用户历史位置信息库,选择一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,包括:通过用户网络访问日志,统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息,所述用户网络访问日志格式为用户账号+网络地址信息+访问时间。
进一步地,优选的,所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:针对每一个网络地址,分别执行如下处理:选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人数;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址;确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息;其中,c_2=1,r_2=0.2;
所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息,包括:统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
对应于上述方法实施例,如图2所示,为本发明实施例一种基于位置信息进行用户工作单位挖掘的装置结构示意图,所述装置包括:
位置信息获取单元21,用于根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
单位标识确定单元22,用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
分析挖掘单元23,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。
优选的,所述位置信息为经纬度信息,所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间;如图3所示,为本发明实施例位置信息获取单元结构示意图,所述位置信息获取单元21包括:
第一位置信息获取单元211,用于使用位置投影方法,将所述GPS经纬度信息转换成对应的格子标识信息;所述格子为16级格子,或18级格子,不同级别的格子代表不同的地域范围;所述位置投影方法包括:墨卡托投影方法,高斯投影方法。
进一步地,优选的,如图4所示,为本发明实施例单位标识确定单元结构示意图,所述单位标识确定单元22,包括:第一单位标识确定单元221,用于针对每一个格子,分别执行如下处理:选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各个工作单位对应的人数,记为count(corp);确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识信息;其中,c=1,r=0.2;
如图5所示,为本发明实施例分析挖掘单元结构示意图,所述分析挖掘单元23,包括:第一分析挖掘单元231,用于统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
或者,优选的,所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网络地址信息;如图3所示,所述位置信息获取单元21包括:第二位置信息获取单元212,用于通过用户网络访问日志,统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息,所述用户网络访问日志格式为用户账号+网络地址信息+访问时间。
进一步地,优选的,如图4所示,所述单位标识确定单元22,包括:第二单位标识确定单元222,用于针对每一个网络地址,分别执行如下处理:选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人数;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址;确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息;其中,c_2=1,r_2=0.2;
如图5所示,所述分析挖掘单元23,包括:第二分析挖掘单元232,用于统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
本发明实施例上述技术方案具有如下有益效果:本方案从用户历史位置信息库中,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位,因而即使那些未在注册信息中填写单位信息的,或者填写错误的单位地址的,都可以通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用户单位,解决了用户最新的工作单位挖掘问题,具有较强的实效性。
以下结合应用实例对本发明实施例上述技术方案进行详细说明:
第一应用实例:
本发明应用实例旨在统计用户在工作时间的位置信息挖掘用户所在的工作单位,即先计算出用户在工作时间里的所有位置信息,再挖掘出单位所在的位置信息,最后通过统计出用户出现次数最多的单位,作为用户的当前工作单位。
如图6所示,为本发明第一应用实例计算框架示意图,具体步骤如下:
步骤1:用户工作时间所在的位置信息计算。
该步骤可以细分为如下两个步骤:
1.1 根据用户历史位置信息库(社交网络软件会定期记录用户所处的位置),统计一设定的统计时间段(如过去一个月)内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,工作时间可以定义为每个工作日的早上9点到晚上6点,我们只选择该段时间内所有用户的位置信息。历史位置信息库格式可以为用户账号+GPS经纬度信息+访问时间。
1.2 使用墨卡托投影算法将上述步骤中的经纬度位置信息转换成对应的格子标识信息,不同级别的格子代表不同的地域范围(16级格子的范围约为500米),可以根据精度选择格子级别,格子级别越高,精度越高。在实施过程中,可以选择18级格子。
步骤2:用户单位位置计算。
该步骤主要用于推断单位所处的格子,针对每一个格子,分别执行如下处理,具体步骤如下:
2.1 选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各个工作单位对应的人数,记为count(corp);(若注册信息为A公司的人数为10人,则count(A)=10);
2.2 确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;
2.3 定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识信息。
在实施过程中,根据精确度要求选择不同的c和r,可以选择c=1,r=0.2。经过该步骤后,我们可以获得到所有格子标识信息对应的工作单位标识信息。
步骤3:用户单位计算
该步骤可以分为以下几个子步骤:
3.1 基于步骤1,统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内所在的不同工作单位的次数;
3.2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
例如:
步骤1:搜集用户在工作时间的位置。如下表所示(为便于说明,仅选取部分数据):
步骤2:用户单位所在格子计算。
需要对步骤1中的结果进行统计,计算出每一个格子所对应的单位。先统计过去一段时间工作时间位于该格子的人数,
根据上述步骤统计出该地址中使用人数最多的单位,单位名为corp,人数为count。
定义单位人数比rate=max_count/all_count。
根据过滤规则,上述三个格子均满足all_count>1,rate>0.2。所以可以判定出1321001210132122、1321001210132300为新浪网所处的格子,1321001210110333为百度所处的格子。
步骤3:用户单位计算
用户ID 用户的可能单位 用户在该格子出现的天数
1906271640 新浪网 4
1906271640 百度 1
1806281641 新浪网 3
1706281643 新浪网 5
1706281643 百度 1
1105281642 新浪网 4
1000281652 百度 2
1010291658 百度 2
1111291657 百度 1
根据投票,选择出现次数最多的单位作为用户的当前工作单位。
用户ID 用户单位 用户处于该格子的天数
1906271640 新浪网 5
1806281641 新浪网 3
1706281643 新浪网 5
1105281642 新浪网 4
1000281652 百度 2
1010291658 百度 2
1111291657 百度 1
本发明应用实例所述方案通过在单位所处格子里出现的人群作为该单位的可能员工,因而即使那些未在注册信息中填写单位信息的,但出现在单位格子里用户(如用户1105281642),填写错误的单位地址(如用户1806281641、1111291657)都可以通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间所处的位置来计算用户单位,解决了挖掘出用户最新的工作单位问题,具有较强的时效性。本发明应用实例主要通过用户工作时间曾经去过的位置、推算用户单位位置、推算用户所在单位等三个步骤完成用户工作单位的挖掘。本发明应用实例通过用户上网的位置信息来挖掘用户的工作单位,包括用户单位位置计算、用户单位的标识。本发明中使用的位置投影方法,包括但不限于墨卡托投影,高斯投影等。
第二应用实例:
本发明应用实例中的所述用户历史位置信息库包括用户网络访问日志,所述位置信息不局限于GPS经纬度地理位置,还包括网络位置信息(如:IP地址)。本发明应用实例旨在用户在工作时间访问社交网络时使用的网络地址信息挖掘出用户所在的工作单位,即先计算出用户在工作时间里的所使用的所有网络地址信息,再挖掘出工作单位经常使用的网络地址,最后通过统计出用户出现次数最多的单位,作为用户的当前工作单位。
2.2 本发明或者实用新型提供的完整技术方案(发明或者实用新型方案)
如图7所示,为本发明第二应用实例计算框架示意图,具体步骤如下:
具体步骤如下:
步骤1:计算用户工作时间曾经使用过的网络地址。
该步骤需要通过用户网络访问日志(社交网络软件服务器端会记录用户使用软件时所用的网络地址),统计统计所述设定的统计时间段内(如过去一个月)出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息,工作时间可以定义为每个工作日的早上9点到晚上6点,我们只分析该段时间内所有用户使用软件时的网络地址信息,在执行该步骤时,我们需要去除所有无效IP地址,无效IP地址包括环回地址(如127.0.0.1),局域网地址(如10.*.*.*,192.168.*.*,172.16~31.*.*);同时,我们要对日志中的用户使用IP进行按天去重,即同一天,获取到某用户重复使用相同IP地址时,只取第一次。用户网络访问日志格式为用户账号+网络地址信息+访问时间。
步骤2:用户单位网络地址计算。
该步骤主要用于推断单位所经常使用的网络地址,针对每一个网络地址,分别执行如下处理,具体步骤如下:
2-1 选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人数;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址;
2-2 确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;
2-3 定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息。
在实施过程中,根据精确度要求选择不同的c_2和r_2,可以选择c_2=1,rate_2=0.2。经过该步骤后,我们可以获得到所有网络地址信息对应的工作单位标识信息。
步骤3:用户单位计算
该步骤可以分为以下几个子步骤
3-1 基于步骤1,统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同工作单位的次数。
3-2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
例如:
步骤1:搜集用户在办公室时间访问社交网络时曾经使用的网络地址。如下表所示(为便于说明,仅选取部分数据):
用户ID 网络地址 上网时间 用户自填单位
1906271640 61.172.201.235 2015-03-05 10:03:00 新浪网
1906271640 61.172.201.235 2015-03-06 10:05:00 新浪网
1906271640 61.172.201.240 2015-03-09 10:05:00 新浪网
1906271640 61.172.201.240 2015-03-10 10:06:00 新浪网
1906271640 115.239.210.28 2015-03-11 10:03:00 新浪网
1806281641 61.172.201.240 2015-03-06 10:02:00 百度
1806281641 61.172.201.240 2015-03-07 10:05:00 百度
1806281641 61.172.201.235 2015-03-09 10:02:00 百度
1706281643 61.172.201.240 2015-03-05 10:03:00 新浪网
1706281643 61.172.201.240 2015-03-06 10:03:00 新浪网
1706281643 61.172.201.235 2015-03-09 10:03:00 新浪网
1706281643 61.172.201.235 2015-03-10 10:03:00 新浪网
1706281643 115.239.210.28 2015-03-11 10:03:00 新浪网
1105281642 61.172.201.240 2015-03-06 10:03:00 未填写
1105281642 61.172.201.240 2015-03-09 10:03:00 未填写
1105281642 61.172.201.235 2015-03-10 10:03:00 未填写
1105281642 61.172.201.235 2015-03-11 10:03:00 未填写
1000281652 115.239.210.28 2015-03-10 10:03:00 百度
1000281652 115.239.210.28 2015-03-11 10:03:00 百度
1010291658 115.239.210.28 2015-03-10 10:03:00 百度
1010291658 115.239.210.28 2015-03-11 10:03:00 百度
1111291657 115.239.210.28 2015-03-11 10:03:00 搜狐网
步骤2:用户单位网络地址计算。
需要对步骤1中的结果进行统计,计算出每一个网络地址所对应的单位。先统计过去一段时间工作时间使用该网络地址的人数,
根据上述步骤统计出该地址中使用人数最多的单位,单位名为corp_2,人数为count_2。
定义单位人数比rate_2=max_count_2/all_count_2。
根据过滤规则,上述三个网络地址均满足all_count_2>1,rate_2>0.2。所以可以判定出61.172.201.235、61.172.201.240为新浪网的网络地址,115.239.210.28为百度的IP地址。
步骤3:用户单位计算
根据投票,选择出现次数最多的单位作为用户的当前工作单位。
本发明应用实例所述方案将所有使用过某单位的网络地址上网的用户作为该单位的可能员工,因而即使那些未在注册信息中填写单位信息的,但使用过单位网络地址上网的用户(如用户1105281642),填写错误的单位地址(如用户1806281641、1111291657)都可以通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间经常使用的网络地址来计算用户单位,解决了用户最新的工作单位挖掘问题,具有较强的实效性。本发明应用实例主要通过计算用户工作时间曾经使用过的网络地址、推算用户单位网络地址、推算用户所在单位等三个步骤完成用户工作单位的挖掘,目前尚未发现有替代方案实现本发明的目的。本发明应用实例通过用户上网的网络地址来挖掘用户的工作单位,包括用户单位网络地址计算、用户单位的标识。另外本发明中使用的网络地址是用户上网时的唯一网络标识,包括但不限于IPv4/v6,ATM(Asynchronous Transfer Mode,异步传输模式)地址等。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于位置信息进行用户工作单位挖掘的方法,其特征在于,所述方法包括:
根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息;
所述位置信息为全球定位系统GPS经纬度信息;
所述根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,包括:
使用位置投影方法,将所述GPS经纬度信息转换成对应的格子标识信息;
所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:
针对每一个格子,分别执行如下处理:
选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各个工作单位对应的人数,记为count(corp);
确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;
定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识信息;其中,c=1,r=0.2。
2.如权利要求1所述方法,其特征在于,
所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间;所述格子为16级格子,或18级格子,不同级别的格子代表不同的地域范围;所述位置投影方法包括:墨卡托投影方法,高斯投影方法。
3.如权利要求2所述方法,其特征在于,
所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息,包括:
统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
4.一种基于位置信息进行用户工作单位挖掘的方法,其特征在于,所述方法包括:
根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息;
所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网络地址信息;
所述根据用户历史位置信息库,选择一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,包括:
通过用户网络访问日志,统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息;
所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:
针对每一个网络地址,分别执行如下处理:
选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人数;
确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;
定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息;其中,c_2=1,r_2=0.2。
5.如权利要求4所述方法,其特征在于,
所述用户网络访问日志格式为用户账号+网络地址信息+访问时间;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址。
6.如权利要求5所述方法,其特征在于,
所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息,包括:
统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
7.一种基于位置信息进行用户工作单位挖掘的装置,其特征在于,所述装置包括:
位置信息获取单元,用于根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
单位标识确定单元,用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
分析挖掘单元,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息;
所述位置信息为全球定位系统GPS经纬度信息;
所述位置信息获取单元包括:
第一位置信息获取单元,用于使用位置投影方法,将所述GPS经纬度信息转换成对应的格子标识信息;
所述单位标识确定单元,包括:
第一单位标识确定单元,用于针对每一个格子,分别执行如下处理:选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各个工作单位对应的人数,记为count(corp);确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识信息;其中,c=1,r=0.2。
8.如权利要求7所述装置,其特征在于,
所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间;所述格子为16级格子,或18级格子,不同级别的格子代表不同的地域范围;所述位置投影方法包括:墨卡托投影方法,高斯投影方法。
9.如权利要求8所述装置,其特征在于,
所述分析挖掘单元,包括:
第一分析挖掘单元,用于统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
10.一种基于位置信息进行用户工作单位挖掘的装置,其特征在于,所述装置包括:
位置信息获取单元,用于根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;
单位标识确定单元,用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;
分析挖掘单元,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息;
所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网络地址信息;
所述位置信息获取单元包括:
第二位置信息获取单元,用于通过用户网络访问日志,统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息;
所述单位标识确定单元,包括:
第二单位标识确定单元,用于针对每一个网络地址,分别执行如下处理:选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人数;确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息;其中,c_2=1,r_2=0.2。
11.如权利要求10所述装置,其特征在于,
所述用户网络访问日志格式为用户账号+网络地址信息+访问时间;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址。
12.如权利要求11所述装置,其特征在于,
所述分析挖掘单元,包括:
第二分析挖掘单元,用于统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。
CN201510321017.1A 2015-06-12 2015-06-12 一种基于位置信息进行用户工作单位挖掘的方法及装置 Active CN104965876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510321017.1A CN104965876B (zh) 2015-06-12 2015-06-12 一种基于位置信息进行用户工作单位挖掘的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510321017.1A CN104965876B (zh) 2015-06-12 2015-06-12 一种基于位置信息进行用户工作单位挖掘的方法及装置

Publications (2)

Publication Number Publication Date
CN104965876A CN104965876A (zh) 2015-10-07
CN104965876B true CN104965876B (zh) 2018-11-27

Family

ID=54219913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510321017.1A Active CN104965876B (zh) 2015-06-12 2015-06-12 一种基于位置信息进行用户工作单位挖掘的方法及装置

Country Status (1)

Country Link
CN (1) CN104965876B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527221A (zh) * 2016-06-22 2017-12-29 北京宸信征信有限公司 一种基于分析对象当前地理位置的行为分析方法
CN110737848A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用户工作单位的挖掘处理方法、装置及电子设备
CN111126653B (zh) * 2018-11-01 2022-06-17 百度在线网络技术(北京)有限公司 用户职住地预测方法、装置及存储介质
CN111127064B (zh) * 2018-11-01 2023-08-25 百度在线网络技术(北京)有限公司 用户社会属性的确定方法、装置与电子设备
CN109783597B (zh) * 2019-01-29 2020-12-29 江苏满运软件科技有限公司 确定司机固定位置的方法、装置、电子设备、存储介质
CN110472200B (zh) * 2019-07-29 2023-10-27 深圳市中兴新云服务有限公司 一种基于表单的数据处理方法、装置及电子设备
CN112836114A (zh) * 2019-11-22 2021-05-25 上海哔哩哔哩科技有限公司 一种识别用户人群的方法以及装置
CN110990244B (zh) * 2019-12-03 2023-09-01 秒针信息技术有限公司 目标设备标识确定方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279889A (zh) * 2011-08-29 2011-12-14 百度在线网络技术(北京)有限公司 一种基于地理信息的问题推送方法及系统
CN104156489A (zh) * 2014-08-29 2014-11-19 北京嘀嘀无限科技发展有限公司 基于司机轨迹进行司机常驻点挖掘的方法
CN104182495A (zh) * 2014-08-13 2014-12-03 墨仕(厦门)电子商务有限公司 一种基于场景的社交网络位置信息匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152651B2 (en) * 2004-10-15 2015-10-06 Celeritasworks, Llc Ticket entry systems and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279889A (zh) * 2011-08-29 2011-12-14 百度在线网络技术(北京)有限公司 一种基于地理信息的问题推送方法及系统
CN104182495A (zh) * 2014-08-13 2014-12-03 墨仕(厦门)电子商务有限公司 一种基于场景的社交网络位置信息匹配方法
CN104156489A (zh) * 2014-08-29 2014-11-19 北京嘀嘀无限科技发展有限公司 基于司机轨迹进行司机常驻点挖掘的方法

Also Published As

Publication number Publication date
CN104965876A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
CN104965876B (zh) 一种基于位置信息进行用户工作单位挖掘的方法及装置
Perles-Ribes et al. Economic crisis and tourism competitiveness in Spain: permanent effects or transitory shocks?
US11755675B2 (en) Method and apparatus for managing region tag
Shi et al. Human mobility patterns in different communities: a mobile phone data-based social network approach
CN106453357A (zh) 一种网络购票异常行为的识别方法、系统及设备
CN106202028B (zh) 一种地址信息识别方法及装置
Tang et al. A network Kernel Density Estimation for linear features in space–time analysis of big trace data
Zhao et al. The effect of temporal sampling intervals on typical human mobility indicators obtained from mobile phone location data
CN107404408A (zh) 一种虚拟身份关联识别方法及装置
CN104199848B (zh) 一种不同域下用户数据的关联方法和装置
CN101990003A (zh) 一种基于ip地址属性的用户行为监控系统与方法
Kim et al. An analysis on movement patterns between zones using smart card data in subway networks
CN108281012B (zh) 交通流量数据的显示方法、装置、存储介质及电子装置
CN107820214A (zh) 一种基于时间地理学的用户轨迹分析系统
CN108307318A (zh) 一种用户信息获取方法及装置,电子设备
Yoo et al. Quality of hybrid location data drawn from GPS‐enabled mobile phones: Does it matter?
CN104184601B (zh) 用户在线时长的获取方法及装置
CN110457626A (zh) 一种异常访问请求筛选方法及装置
CN108268445A (zh) 一种处理地址信息的方法及装置
CN104281646B (zh) 基于微博数据的城市内涝检测方法
Jiang et al. A collective human mobility analysis method based on data usage detail records
CN108345662A (zh) 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN109344173A (zh) 数据管理方法和装置、数据结构
CN110110155A (zh) 基于元社会关系圈的人物知识图谱属性获取方法及装置
CN109309664A (zh) 一种浏览器指纹探测行为监测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant