CN110781256B - 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 - Google Patents
基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 Download PDFInfo
- Publication number
- CN110781256B CN110781256B CN201910817668.8A CN201910817668A CN110781256B CN 110781256 B CN110781256 B CN 110781256B CN 201910817668 A CN201910817668 A CN 201910817668A CN 110781256 B CN110781256 B CN 110781256B
- Authority
- CN
- China
- Prior art keywords
- poi
- feature vector
- input feature
- mapping
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 195
- 238000013507 mapping Methods 0.000 claims abstract description 156
- 238000013145 classification model Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims description 73
- 230000000875 corresponding effect Effects 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000000586 desensitisation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Remote Sensing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供基于发送位置数据确定与Wi‑Fi相匹配的POI的方法及装置,该方法包括:接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,共现关系对包括连接的Wi‑Fi和POI;对于所述共现关系对中的Wi‑Fi和POI,基于包含Wi‑Fi和/或POI的第一发送位置数据,得到相关统计信息;将相关统计信息映射为输入特征向量,输入到机器分类模型,得到该Wi‑Fi和POI的关联度;根据不同共现关系对中的Wi‑Fi和POI的关联度,确定与不同Wi‑Fi相匹配POI。本发明采用发送位置数据对机器分类模型训练,能够有效的补充无法通过名称相似度进行判定Wi‑Fi与POI是否相匹配的问题。
Description
技术领域
本发明涉及移动通信技术领域,特别涉及基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置。
背景技术
现代社会中,利用无线局域网Wi-Fi信号进行数据传输的频率越来越高,其中Wi-Fi设备分为移动Wi-Fi设备和固定Wi-Fi设备,固定的Wi-Fi设备多为商户、学校、居民区等POI(Point of Interest,兴趣点)实体的附属设备,其位置基本固定,也大部分和POI有对应关系;移动Wi-Fi设备多为移动终端或其他移动设备开设的热点,位置不固定,且和POI没有对应关系。
在用户确认接受移动终端中的位置共享协议的情况下,经过对数据的去隐私化后,可以得到各用户在使用相关APP时获得的数据脱敏位置信息,所述数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。基于上述数据脱敏位置信息,可以在宏观层面上可以对各Wi-Fi设备上存在的连接行为进行统计,基于这类统计信息可以对Wi-Fi进行分析和分类,通过Wi-Fi的类别(例如家庭Wi-Fi,服务型商区Wi-Fi,公司Wi-Fi等),可以对对象行为进行分析,实现对不同业务场景下的用户群进行发掘。
用户发送位置时选择的POI和当时连接的Wi-Fi记为一次共现关系,根据用户的共现关系数据,筛选出POI和当时连接的Wi-Fi相匹配的共现关系数据,根据筛选出的共现关系数据中的POI分析对象行为。
通过连接的Wi-Fi名称和选择的POI名称之间的语义相似度,是判断是否匹配最为普遍的方法。此方法根据WI-Fi的位置找到周边一定范围内的POI,计算Wi-Fi名称与这些POI名称的相似值,找到相似度最大的且大于一定阈值的POI作为匹配结果。
现有的Wi-Fi、POI匹配方法只适用于Wi-Fi命名比较规范、与POI名称相关的场景,当Wi-Fi名称杂乱无章、与POI名称没有明显关系时无法通过此方法进行关联。
发明内容
本发明提供了基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置,用于解决现有名称匹配方法只适用于Wi-Fi命名比较规范、与POI名称相关的场景,通过提取微信发送位置数据中连接Wi-Fi和POI的共现关系的统计信息作为特征,经过模型训练,可以有效的关联名称上没有明确关系的Wi-Fi和POI。
本发明的第一方面提供基于发送位置数据确定与Wi-Fi相匹配的POI的方法,包括:
接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI。
本发明的第二方面提供基于发送位置数据确定与Wi-Fi相匹配的POI的装置,该装置包括以下几个模块:
终端发送位置数据提取模块,用于接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
相关统计信息获取模块,用于对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
关联度确定模块,用于将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
匹配确定模块,用于根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI。
可选地,匹配确定模块确定与不同Wi-Fi相匹配POI,包括:
根据不同共现关系对中的Wi-Fi和POI的关联度,对于不同Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
可选地,所述机器分类模型为利用历史时间段内的第二发送位置数据得到的训练样本进行训练得到的分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对。
可选地,关联度确定模块利用训练样本训练得到分类模型,包括:
对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的第二发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
可选地,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤,包括如下至少一种:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,统计得到所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
可选地,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
可选地,将与Wi-Fi相关统计信息映射为第二输入特征向量包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
可选地,将与所述POI相关统计信息映射为第三输入特征向量包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
可选地,关联度确定模块利用历史时间段内的第二发送位置数据得到的训练样本,包括:
从历史时间段内的第二发送位置数据提取共现关系对;
在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高的POI所在的共现关系为相匹配的共现关系对,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对。
本发明的第三方面提供基于发送位置数据确定与Wi-Fi相匹配的POI的装置,所述装置包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述存储器中的计算机程序,用于执行如下步骤:
可选地,所述处理器确定与不同Wi-Fi相匹配POI,包括:
根据不同共现关系对中的Wi-Fi和POI的关联度,对于任一Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
可选地,所述机器分类模型为利用历史时间段内的第二发送位置数据得到的训练样本进行训练得到的分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对。
可选地,所述处理器利用训练样本训练得到分类模型,包括:
对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的第二发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
可选地,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
可选地,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
可选地,将与Wi-Fi相关统计信息映射为第二输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
可选地,将与所述POI相关统计信息映射为第三输入特征向量,包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
可选地,所述处理器利用历史时间段内的第二发送位置数据得到的训练样本,包括:
从历史时间段内的第二发送位置数据提取共现关系对;
在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高的POI所在的共现关系为相匹配的共现关系对,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对。
本发明的第四方面提供一种计算机程序介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述的基于发送位置数据确定与Wi-Fi相匹配的POI的方法。
利用本发明提供的基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置,具有以下有益效果:
本发明提供的方法通过机器分类模型可以建立Wi-Fi和POI的映射关系,根据用户连接、扫描Wi-Fi的情况,提取特征数据利用机器分类模型进行预测,可以确定连接的Wi-Fi和POI是否匹配,从而可以确定用户连接的与Wi-Fi相匹配的POI,从而可以确定对象行为,对对象行为进行更精确的分析。
附图说明
图1为基于发送位置数据确定与Wi-Fi相匹配的POI的方法结构示意图;
图2为微信发送位置时连接的Wi-Fi示意图;
图3为微信发送位置时选择的POI示意图;
图4为基于发送位置数据确定与Wi-Fi相匹配的POI的模型训练过程的流程图;
图5为基于发送位置数据确定与Wi-Fi相匹配的POI的方法系统流程图;
图6为基于发送位置数据确定与Wi-Fi相匹配的POI的方法与模型训练总流程图;
图7为基于发送位置数据确定与Wi-Fi相匹配的POI的装置模块示意图;
图8为基于发送位置数据确定与Wi-Fi相匹配的POI的装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
1)兴趣点(Point of Interest,POI),POI为地理信息系统中的某个地标、景点,用以标识出该地所代表的政府部门、商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示)等处所;
2)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域;机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术;
3)逻辑回归,又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域;如实施例所述,判断Wi-Fi与POI的关联度得分;以匹配度分析为例,选择至少两组共现Wi-Fi与POI,一组为匹配组,一组是非匹配组,两组数据具有不同关联度得分等。因此因变量就为是否匹配,值为“是”或“否”,自变量就可以包括很多了,如POI名称、Wi-Fi名称、POI距离、Wi-Fi地址等;自变量既可以是连续的,也可以是分类的。然后通过逻辑回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是影响匹配度的因素;
4)对象画像,对象画像又称对象角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,对象画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来;作为实际用户的虚拟代表,对象画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
下面结合说明书附图对本发明实施例作进一步详细描述。应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
参见图1,为基于发送位置数据确定与Wi-Fi相匹配的POI的方法示意图,其中终端103接收Wi-Fi设备102发出的Wi-Fi信号,在终端103接收Wi-Fi信号并需要发送位置信息,如利用打车软件发送当前位置时,选择相应的兴趣点POI并发送,因此终端的发送位置数据包括:选择的兴趣点POI的ID、选择的兴趣点POI的类别、选择的兴趣点POI的经纬度、以及选择的兴趣点POI距离终端定位位置的距离,在发出这些发送位置数据后,会由服务器101进行发送位置数据的接收,终端103向服务器发送的位置数据还包括终端设备的基本信息,包括终端上用户的设备ID、终端实时定位坐标,以及设备在接收Wi-Fi信号时会获取到连接Wi-Fi的ID、连接Wi-Fi的时间戳,将上述信息发送给服务器101,服务器101从发送位置数据中可以确定终端选择的兴趣点的信息、终端设备的基本信息以及Wi-Fi的信息。
其中上述终端可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备以及5G网络中的移动台或者未来演进的公共陆地移动网(Public LandMobile Network,PLMN)网络中的订阅设备等。
终端发送位置信息时选择的POI和当时连接的Wi-Fi记为一次共现关系,本实施例称该POI和Wi-Fi为共现关系对,下面给出Wi-Fi、POI共现的一组示例,图2为微信发送位置时连接的Wi-Fi,图3为微信发送位置时选择的POI,则此Wi-Fi XX(拼音)-Staff Wi-Fi和POI XX(中文)科技(北京)有限公司为一次共现,其中XX代表企业名称。
终端发送位置时连接的Wi-Fi和选择的POI在一定概率上有匹配关系,即该Wi-Fi属于在该POI部署的Wi-Fi。
为了克服现有技术中利用名称确定匹配度的方式,当Wi-Fi名称杂乱无章、与POI名称没有明显关系时无法通过此方法进行关联的问题,本发明提供了基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置,提取终端发送位置数据中连接Wi-Fi和POI的共现关系的统计信息作为特征,经过模型训练得到机器分类模型,使用此机器分类模型来确定终端在连接Wi-Fi时发出的兴趣点POI的关联度,根据关联度来判定Wi-Fi与兴趣点的是否匹配,可以有效的判定名称上没有明确关系的Wi-Fi和POI是否相匹配。
本发明利用历史时间段内的发送位置数据得到训练样本,利用训练样本进行训练得到机器分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对,如图4所示,基于发送位置数据确定与Wi-Fi相匹配的POI的具体模型训练过程如下:
步骤S401,获取历史时间段内的发送位置数据,并对发送位置数据进行筛选;
上述历史时间段,可以之前一个月或其他时间段,获取历史时间段内的不同终端的发送位置数据。
如前所述,发送位置数据包括终端选所连接的Wi-Fi的基本信息、关于选择的兴趣点的基本信息以及终端设备的基本信息,其中所述的Wi-Fi基本信息包括:连接Wi-Fi的ID、连接Wi-Fi的时间戳、连接Wi-Fi所在的经纬度,所述的Wi-Fi ID以数字地址方式来显示,连接Wi-Fi的时间戳包括至少一个连接Wi-Fi的时间点和至少一个断开连接的时间点,所述的Wi-Fi的经纬度可以是固定Wi-Fi也可以是移动Wi-Fi,其中移动Wi-Fi的经纬度获取至少一个经纬度存在经纬度数组中。
关于选择的兴趣点的基本信息包括:发送的兴趣点的ID、兴趣点的类别、兴趣点的经纬度、以及兴趣点距离用户定位位置的距离。其中发送的兴趣点的ID可以用数字组合的方式来表示,如[1,0,0,0,0,…]表示兴趣点的类别为公司,ID为对于类别下细化的数字组合方式,所述的兴趣点距离用户定位位置的距离,为终端在发出该兴趣点的时候终端的位置点距离兴趣点的直线距离。
所述的不同终端设备的基本信息包括:终端上用户的设备ID、终端实时定位坐标,其中终端上用户的设备ID为终端中的IMEI或MEID号码,所述的终端实时定位坐标为终端设备在连接Wi-Fi发送兴趣点时的地图坐标。
本发明实施例中需要从发送位置数据中获取至少如下的数据:
终端上用户的设备ID;终端发送位置数据时的定位位置;终端选择的POI;终端连接的Wi-Fi。
对发送位置数据进行筛选时,保留有用户的设备ID、定位位置、选择的POI位置在定位位置100米范围内、连接了固定Wi-Fi的发送位置数据。
本实施例中对于终端uk一次连接Wi-Fi wi发送POI pj行为记为序对(wi,pj)的一次共现,称为共现关系对,(wI,pj)的共现次数记为nij,不同连接着wi发送过pj的终端去重数量记为(wi,pj)的终端数uij。
步骤S402,从筛选后的发送位置数据中提取训练样本,该训练样本包括从第二发送位置数据中提取Wi-Fi和POI相匹配的共现关系对,及从第一发送位置数据中提取Wi-Fi和POI不相匹配的共现关系对;
从筛选后的发送位置数据中提取不同的共现关系对作为训练样本,在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高且高于设定阈值的POI所在的共现关系为相匹配的共现关系对,将相匹配的共现关系对作为正样本,基于Wi-Fi只能映射到一个POI上的原则,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对,将不相匹配的共现关系对作为负样本。
例如,对于图2和图3中的示例,wi“XX(拼音)-StaffWi-Fi”和pj“XX(中文)科技(北京)有限公司”有共现关系,即曾经有用户连接“XX(拼音)-StaffWi-Fi”发送过“XX(中文)科技(北京)有限公司”的位置,根据名称的匹配关系,标注此共现关系(wi,pj)为正样本;同时,也有终端曾经连接wi发送过pj之外的其他POI,比如”北京大学”、”XX景点”、”管式翅吧”等,由于一个Wi-Fi至多只能映射到一个POI上,因此这些映射关系(wi,pj-)都为负样本,(pj-)为任意pj以外的POI。
步骤S403,对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息,从而构造兴趣点与Wi-Fi的关联特征并作为机器分类模型的输入特征;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤包括如下至少一种:
基于同时包含所述Wi-Fi和POI的发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
上述三个输入特征向量可以同时存在,也可以组合选取,下面以任一共现关系对(wi,pj)为例,说明如何构造输入特征向量进行更详细的说明。
1)与(wi,pj)相关的第一输入特征向量
该第一输入特征向量包括如下至少一种:
将连接wi并选择pj的共现总次数映射为第一输入特征向量,即(wi,pj)关系对的共现次数,其中任一终端连接wi时发送的pj的动作记做一次;
将连接wi并选择pj的共现总终端数映射为第一输入特征向量,即多少不同终端曾经连接wi发送pj,也称共现人次,其中不同终端指的是不同终端设备ID或不同账号;
将连接wi并选择pj的共现总天数映射为第一输入特征向量,即不同终端连接该wi发送pj的天数,其中天数的计算可以为在当日有至少一次连接wi发送pj,则天数计数加1;
将连接所述wi并选择所述pj的不同终端中,所统计的终端所在位置与pj的平均距离映射为第一输入特征向量,其中平均距离为发送pj的位置点距离终端设备位置点之间的直线距离的平均值。
例如,向量[10,5,14,50.0]表示有5个终端在14天内连接wi发送过10次pj的位置,这些终端发送位置时与pj的平均距离为50米。
2)与wi相关的第二输入特征向量
其中第二输入特征向量包括如下至少一种:
将连接wi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接wi并选择任一POI的共现关系中映射为第二输入特征向量,不同POI的总数量;
将连接wi并选择任一POI的共现总次数中映射为第二输入特征向量,连接wi并选择pj的共现总次数所占的比例。
例如,向量[30,6,0.333]表示有历史上连接wi发送位置的行为总共有30次,这些发送位置行为总共覆盖了6个POI,发送pj占连接wi的发送行为中的比例为0.333。
3)与pj相关的第三输入特征向量
该第三输入特征向量包括如下至少一种:
将连接任一Wi-Fi并选择pj的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择pj的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择pj的共现总次数中,连接wi并选择pj的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
例如,向量[15,6,0.667,1,0,0,0,0,…]表示历史上发送pi位置总共有15次,发送pj时的Wi-Fi去重后共计有6个,连接wi的发送行为占发送pj行为的比例为0.667此,[1,0,0,0,0,…]表示POI的类别为公司。
其中POI的类别信息用one-hot编码来表示,其中one-hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。其中one-hot编码采用特征数字化,具体为利用N位状态寄存器来对N个状态进行编码,每个状态都由独立的寄存器位,并且在任意时候只有一位有效。
例如[1,0,0,0,0]表示兴趣点的类别为公司类,[0,1,0,0,0]表示兴趣点的类别为景点类等。
地点特征:[“公司”,“景点”",“学校”,“医院”,“商场”](这里N=5)所述的N的范围可以为大于0的任一整数,N的值代表可以区分的兴趣点类别数量。
公司=>10000;景点=>01000;学校=>00100;医院=>00010;商场=>00001;
所以,当一个兴趣点类别为“公司”的时候,完整的特征数字化的结果为:
[1,0,0,0,0,0]。
步骤S404,将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
对于正样本,匹配对应的关联度大于一定的阈值,例如关联度为80以上的数值,对于负样本,不匹配对于的关联度的取值低于一定的阈值,例如低于60,具体的关联度可以在上述范围内随机生成或采用其他方式确定。
上述共现关系对连接XX(拼音)-Staff发送“XX(中文)科技(北京)有限公司”,为最相匹配的POI,根据该包含该Wi-Fi与POI的共现关系对数据,确定其关联度为90,对于连接XX(英文)-Staff的其他POI,如“北京大学”、“XX景点”、“管式翅吧”等等,其关联度可以是40、30、20等,根据输入特征和关联度对机器分类模型进行训练。
其中上述输入特征向量可以以数组或向量的方式存储在服务器中
其中机器分类模型的分类方法可以为线性回归、多项式回归、岭回归、lasso回归、弹性网络回归等,其中详细的回归算法该领域的技术应当知晓,在此处不再进行详述。
实施例2
基于本发明实施例训练的机器分类模型,本发明实施例提供基于发送位置数据确定与Wi-Fi相匹配的POI的方法,如图5所示,包括以下步骤:
步骤S501,接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
发送位置数据的具体内容参见上述实施例的描述,这里不再重述。
基于接收不同终端上报的发送位置数据,将不同共现行为对应的共现关系对提取出来进行关联度的预测。
步骤S502,对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
Wi-Fi和/或POI的相关统计信息的具体方式,同上述机器分类模型训练中的相关同统计信息确定方式,内容如下,具体相应的说明和可能的实施方式这里不再重述。
所述Wi-Fi和/或POI的相关统计信息,包括如下至少一种:
基于同时包含所述Wi-Fi和POI的第一发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的所有终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
所述将与Wi-Fi相关统计信息映射为第二输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
将与所述POI相关统计信息映射为第三输入特征向量,包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
步骤S503,将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
对于不同共现关系对,将其相关统计信息对应的向量作为输入特征,输入到机器分类模型,利用该机器分类模型预测该共现关系对中Wi-Fi和POI的关联度。
步骤S504,根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI。
基于上述机器分类模型,可以得到不同共现关系对中的Wi-Fi和POI的关联度,基于Wi-Fi只能映射到一个POI上的原则,根据不同共现关系对中的Wi-Fi和POI的关联度,对于任一Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
在确定与Wi-Fi相匹配的POI后,不同的包含该Wi-Fi但包含其他POI的共现关系对,均未不相匹配的共现关系对。
如图6所示为本发明实施例基于发送位置数据确定与Wi-Fi相匹配的POI的方法详细流程图,在实施例中,预先对分类模型进行训练,训练完成后基于分类模型进行Wi-Fi与POI关联度匹配,具体流程如下:
步骤S601,获取在历史时间段中发送位置数据;
步骤S602,对于发送位置数据进行筛选,保留有用户的设备ID、定位位置、选择的POI位置在定位位置预设距离范围内、连接了固定Wi-Fi的发送位置数据;
步骤S603,从筛选后的发送位置数据中提取共现关系对作为训练样本;
步骤S604,对于共现关系对中不同Wi-Fi,将与该Wi-Fi名称匹配度最高且高于设定阈值的POI所在的共现关系对记做正样本;
步骤S605,基于Wi-Fi只能映射到一个POI上的原则,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对;
步骤S606,对于共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
步骤S607,将相关统计信息映射为输入特征向量;
其中输入特征向量包括上述实施例中第一输入特征向量、第二输入特征向量、第三输入特征向量的任一或任多组合;
步骤S608,将上述输入特征向量作为输入特征,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练,得到分类模型。
在得到上述训练后的分类模型后,之后的基于发送位置数据确定与Wi-Fi相匹配的兴趣点POI的方法步骤为:
步骤S609,获取历史时间段内的发送位置数据;
这里的历史时间段不同于模型训练中的历史时间段,具体指完成模型训练之后一段时间。
步骤S610,对发送位置数据进行筛选,保留有用户的设备ID、定位位置、选择的POI位置在定位位置预设距离范围内、连接了固定Wi-Fi的发送位置数据;
步骤S611,从筛选后的发送位置数据中提取确定不同共现关系对;
步骤S612,对于共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
步骤S613,将所述相关统计信息映射为输入特征向量作为输入特征,输入到机器分类模型;
其中输入特征向量包括上述实施例中第一输入特征向量、第二输入特征向量、第三输入特征向量的任一或任多组合;
步骤S614,利用机器分类模型得到该共现关系对中该Wi-Fi和POI的关联度大小。
步骤S615,根据不同共现关系对中的Wi-Fi和POI的关联度,对于任一Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
步骤S616,若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
其中针对性的对人群投放,例如用户经常连接某家咖啡厅的Wi-Fi并通过微信发出某咖啡厅地址信息的POI,通过连接Wi-Fi的时长和发送定阈值可以是在服务器中预先设定的,或由机器分类模型经训练计算出一种根据训练模型变化的阈值。
例如,连接上述XX(拼音)-Staff的Wi-Fi发送“XX(中文)科技(北京)有限公司”POI的共现关系对,其输入特征向量经机器训练模型计算后,得到关联度得分为90,设定的阈值的得分为80,则判断该XX(拼音)-Staff的Wi-Fi和“XX(中文)科技(北京)有限公司”相匹配。
基于本发明实施例1提供的机器分类模型和实施例2的基于发送位置数据确定与Wi-Fi相匹配的POI的方法,本实施例可以通过用户在使用终端时,通过利用终端上应用程序提取用户连接的发送位置数据信息与当前Wi-Fi和POI兴趣点的信息,从而根据获取到的信息确定Wi-Fi和POI是否匹配,建立与各个Wi-Fi相匹配的POI的映射关系,通过建立的映射关系和终端连接、扫描Wi-Fi的情况判断终端到访POI的情况,从而建立起用户线下到访数据库,提取用户的POI到访偏好等画像,例如火锅店、银行、酒吧、咖啡厅等,为基于位置的广告投放和内容推荐提供大量的位置场景数据,便于结合不同的广告投放需求POI距离实际距离可以判断出该用户的偏好,如用户连接了一小时以上的咖啡厅Wi-Fi且用户距离咖啡厅POI实际距离小于100米,则判断该用户喜好的地址有咖啡厅,将该用户喜好纳入到相关的数据库中,当咖啡厅内有相关活动时,可以通过手机中各类APP向用户推荐实时的活动。
通过本实施例提供的方法能够有效的补充无法通过基本名称进行匹配的Wi-Fi、POI,进而分析出Wi-Fi与POI映射关系,从而完善用户在线下时访问及涉及的POI的覆盖程度,同时还能够丰富用户在线下到访的各个POI对应的地址的对象画像,使得可以有针对性的向有不同需求的用户人群分类分地点的投放不同广告和相关商业信息等,提高了用户操作体验。
实施例3
如图7所示为本发明实施例提供了基于发送位置数据确定与Wi-Fi相匹配的POI的装置,该装置包括以下几个模块:
终端发送位置数据提取模块701,接收不同基于不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
相关统计信息获取模块702,用于对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
关联度确定模块703,用于将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
匹配确定模块704,用于根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI。
可选地,匹配确定模块704确定与不同Wi-Fi相匹配POI,包括:
根据不同共现关系对中的Wi-Fi和POI的关联度,对于不同Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
可选地,所述机器分类模型为利用历史时间段内的第二发送位置数据得到的训练样本进行训练得到的分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对。
可选地,关联度确定模块703利用训练样本训练得到分类模型,包括:
对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的第二发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
可选地,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
可选地,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
可选地,将与Wi-Fi相关统计信息映射为第二输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
可选地,将与所述POI相关统计信息映射为第三输入特征向量,包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
可选地,关联度确定模块603利用历史时间段内的第二发送位置数据得到的训练样本,包括:
从历史时间段内的第二发送位置数据提取共现关系对;
在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高的POI所在的共现关系为相匹配的共现关系对,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对。
实施例4
如图8所示为本发明实施例提供基于发送位置数据确定与Wi-Fi相匹配的POI的装置,所述装置包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述存储器中的计算机程序,用于执行如下步骤:
接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取确定不同共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
对于所述共现关系对中得Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI。
该基于发送位置数据确定与Wi-Fi相匹配的兴趣点POI匹配判定的装置可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)801(例如,一个或一个以上处理器)和存储器802,一个或一个以上存储应用程序804或数据805的存储介质803(例如一个或一个以上海量存储设备)。其中,存储器802和存储介质803可以是短暂存储或持久存储。存储在存储介质803的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地,中央处理器801可以设置为与存储介质803通信,在装置800上执行存储介质803中的一系列指令操作。
装置800还可以包括一个或一个以上电源806,一个或一个以上有线或无线网络接口807,一个或一个以上输入输出接口808,和/或,一个或一个以上操作系统809,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等。
可选地,所述处理器确定与不同Wi-Fi相匹配POI,包括:
根据不同共现关系对中的Wi-Fi和POI的关联度,对于任一Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
可选地,所述机器分类模型为利用历史时间段内的第二发送位置数据得到的训练样本进行训练得到的分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对。
可选地,所述处理器利用训练样本训练得到分类模型,包括:
对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的第二发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
可选地,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量。
可选地,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
可选地,将与Wi-Fi相关统计信息映射为第二输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
可选地,将与所述POI相关统计信息映射为第三输入特征向量,包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
可选地,所述处理器利用历史时间段内的第二发送位置数据得到的训练样本,包括:
从历史时间段内的第二发送位置数据提取共现关系对;
在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高的POI所在的共现关系为相匹配的共现关系对,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对。
实施例5
本发明实施例还提供一种计算机程序介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述的基于发送位置数据确定与Wi-Fi相匹配的POI的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.基于发送位置数据确定与Wi-Fi相匹配的POI的方法,其特征在于,包括:
接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI;
其中,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量;
其中,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
2.根据权利要求1所述的方法,其特征在于,确定与不同Wi-Fi相匹配POI,包括:
根据不同共现关系对中的Wi-Fi和POI的关联度,对于任一Wi-Fi,确定与该Wi-Fi共现的不同POI中,关联度最大值对应的POI;
若所述关联度最大值高于设定阈值,确定该Wi-Fi与所述关联度最大值对应的POI相匹配,否则确定该Wi-Fi不存在相匹配的POI。
3.根据权利要求1所述的方法,其特征在于,所述机器分类模型为利用历史时间段内的第二发送位置数据得到的训练样本进行训练得到的分类模型,所述训练样本包括Wi-Fi和POI相匹配的共现关系对,及Wi-Fi和POI不相匹配的共现关系对。
4.根据权利要求3所述的方法,其特征在于,利用训练样本训练得到分类模型,包括:
对于训练样本的共现关系对,基于包含该共现关系对中Wi-Fi和/或POI的第二发送位置数据,得到该训练样本中Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,将该训练样本中Wi-Fi和POI的匹配/不匹配对应的关联度作为输出特征,对机器分类模型进行训练。
5.根据权利要求1~4任一所述的方法,其特征在于,将与Wi-Fi相关统计信息映射为第二输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择任一POI的共现总次数映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现关系中,不同POI的总数量映射为第二输入特征向量;
将连接所述Wi-Fi并选择任一POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第二输入特征向量。
6.根据权利要求1~4任一所述的方法,其特征在于,将与所述POI相关统计信息映射为第三输入特征向量,包括如下至少一个步骤:
将连接任一Wi-Fi并选择所述POI的共现总次数映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现关系中,不同Wi-Fi的总数量映射为第三输入特征向量;
将连接任一Wi-Fi并选择所述POI的共现总次数中,连接所述Wi-Fi并选择所述POI的共现总次数所占的比例映射为第三输入特征向量;
将所述POI的类别信息映射为第三输入特征向量。
7.根据权利要求3所述的方法,其特征在于,利用历史时间段内的第二发送位置数据得到的训练样本,包括:
从历史时间段内的第二发送位置数据提取共现关系对;
在包含任一Wi-Fi的不同共现关系对中,确定与该Wi-Fi名称匹配度最高的POI所在的共现关系为相匹配的共现关系对,其他的包含该Wi-Fi的共现关系对为不相匹配的共现关系对。
8.基于发送位置数据确定与Wi-Fi相匹配的POI的装置,其特征在于,该装置包括以下几个模块:
终端发送位置数据提取模块,用于接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
相关统计信息获取模块,用于对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
关联度确定模块,用于将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
匹配确定模块,用于根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI;
其中,将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量;
其中,将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
9.基于发送位置数据确定与Wi-Fi相匹配的POI的装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述存储器中的计算机程序,用于执行如下步骤:
接收不同终端上报的第一发送位置数据,从所述第一发送位置数据中提取共现关系对,所述共现关系对包括终端连接的Wi-Fi和选择的POI;
对于所述共现关系对中的Wi-Fi和POI,基于包含该Wi-Fi和/或该POI的第一发送位置数据,得到该Wi-Fi和/或POI的相关统计信息;
将所述相关统计信息映射为输入特征向量,输入到机器分类模型,得到该共现关系对中该Wi-Fi和POI的关联度;
根据不同共现关系对中的Wi-Fi和POI的关联度,确定与不同Wi-Fi相匹配POI;
其中,所述将所述相关统计信息映射为输入特征向量,包括如下至少一个步骤:
基于同时包含所述Wi-Fi和POI的第一发送位置数据/第二发送位置数据,得到与共现行为相关统计信息,将所述共现行为相关统计信息映射为第一输入特征向量;
基于包含所述Wi-Fi共现关系对的第一发送位置数据/第二发送位置数据,得到与所述Wi-Fi相关统计信息,将与Wi-Fi相关统计信息映射为第二输入特征向量;
基于包含所述POI共现关系对的第一发送位置数据/第二发送位置数据,得到与所述POI相关统计信息,将与所述POI相关统计信息映射为第三输入特征向量;
其中,所述将所述共现行为相关统计信息映射为第一输入特征向量,包括如下至少一个步骤:
将连接所述Wi-Fi并选择所述POI的共现总次数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总终端数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的共现总天数映射为第一输入特征向量;
将连接所述Wi-Fi并选择所述POI的不同终端中,所统计的终端所在位置与所述POI的平均距离映射为第一输入特征向量。
10.一种计算机程序介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1~7任一项所述的基于发送位置数据确定与Wi-Fi相匹配的POI的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817668.8A CN110781256B (zh) | 2019-08-30 | 2019-08-30 | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817668.8A CN110781256B (zh) | 2019-08-30 | 2019-08-30 | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781256A CN110781256A (zh) | 2020-02-11 |
CN110781256B true CN110781256B (zh) | 2024-02-23 |
Family
ID=69384038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910817668.8A Active CN110781256B (zh) | 2019-08-30 | 2019-08-30 | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781256B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111954175B (zh) * | 2020-08-25 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种兴趣点到访判别方法和相关装置 |
CN112235714B (zh) * | 2020-10-13 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的poi定位方法、装置、计算机设备及介质 |
CN116184312B (zh) * | 2022-12-22 | 2023-11-21 | 泰州雷德波达定位导航科技有限公司 | 一种基于语义Wi-Fi的室内众源指纹库构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713663A (zh) * | 2009-11-18 | 2012-10-03 | 高通股份有限公司 | 使用无线信号的位置确定 |
CN103945007A (zh) * | 2014-05-08 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN106303955A (zh) * | 2016-08-05 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 用于对无线热点和poi进行匹配的方法和装置 |
CN107277772A (zh) * | 2017-07-07 | 2017-10-20 | 北京三快在线科技有限公司 | 一种无线接入点定位方法及装置,计算机可读存储介质 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN110012426A (zh) * | 2019-04-11 | 2019-07-12 | 北京百度网讯科技有限公司 | 消亡poi的确定方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016098457A1 (ja) * | 2014-12-17 | 2016-06-23 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2019
- 2019-08-30 CN CN201910817668.8A patent/CN110781256B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713663A (zh) * | 2009-11-18 | 2012-10-03 | 高通股份有限公司 | 使用无线信号的位置确定 |
CN103945007A (zh) * | 2014-05-08 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN106303955A (zh) * | 2016-08-05 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 用于对无线热点和poi进行匹配的方法和装置 |
CN107277772A (zh) * | 2017-07-07 | 2017-10-20 | 北京三快在线科技有限公司 | 一种无线接入点定位方法及装置,计算机可读存储介质 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN110012426A (zh) * | 2019-04-11 | 2019-07-12 | 北京百度网讯科技有限公司 | 消亡poi的确定方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
Practical simulation of virtual crowds using points of interest;Matti Pouke等;《Computers,Environment and urban systems》;第57卷;118-129 * |
基于无线感知的用户群体画像的研究;田继伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;I136-288 * |
Also Published As
Publication number | Publication date |
---|---|
CN110781256A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291888B (zh) | 基于机器学习统计模型的入住酒店附近生活推荐系统方法 | |
CN110781256B (zh) | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 | |
CN109241454B (zh) | 一种将社交网络和图像内容融合的兴趣点推荐方法 | |
JP6569313B2 (ja) | 施設特性を更新する方法、施設をプロファイリングする方法、及びコンピュータ・システム | |
CN104537552B (zh) | 通过计算机实现的信息推荐方法及装置 | |
Jeong et al. | Integrating buildings into a rural landscape using a multi-criteria spatial decision analysis in GIS-enabled web environment | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
CN104143005A (zh) | 一种相关搜索系统及方法 | |
CN111191133B (zh) | 业务搜索处理方法、装置及设备 | |
CN112214677B (zh) | 一种兴趣点推荐方法、装置、电子设备及存储介质 | |
CN108712712A (zh) | 无线保真WiFi网络关联信息显示方法及装置 | |
CN110874437A (zh) | 一种基于多重兴趣点对排序的个性化兴趣点推荐方法 | |
CN107133689B (zh) | 一种位置标记方法 | |
CN113779429A (zh) | 交通拥堵态势预测方法、装置、设备及存储介质 | |
CN116738066A (zh) | 乡村旅游服务推荐方法、装置、电子设备及存储介质 | |
CN116823535B (zh) | 一种基于多模态大模型的行程规划及智能导览系统 | |
CN110096609A (zh) | 房源搜索方法、装置、设备及计算机可读存储介质 | |
CN110569418A (zh) | 学历信息验证方法以及装置 | |
CN107766881B (zh) | 一种基于基础分类器的寻路方法、设备及存储设备 | |
CN114154085A (zh) | 一种信息推荐方法、装置、设备及存储介质 | |
He et al. | POI Alias Discovery in Delivery Addresses using User Locations | |
Sun et al. | Urban region function mining service based on social media text analysis | |
CN111523614A (zh) | 小区相似判断方法及装置 | |
Ntalianis et al. | Feelings’ Rating and Detection of Similar Locations, Based on Volunteered Crowdsensing and Crowdsourcing | |
JP6052129B2 (ja) | 質疑応答システム、質疑応答装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |