CN105787074A - 基于用户线下lbs轨迹结合线上浏览行为的大数据系统 - Google Patents

基于用户线下lbs轨迹结合线上浏览行为的大数据系统 Download PDF

Info

Publication number
CN105787074A
CN105787074A CN201610118095.6A CN201610118095A CN105787074A CN 105787074 A CN105787074 A CN 105787074A CN 201610118095 A CN201610118095 A CN 201610118095A CN 105787074 A CN105787074 A CN 105787074A
Authority
CN
China
Prior art keywords
data
user
online
big data
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610118095.6A
Other languages
English (en)
Inventor
李敬塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Baimi Life Co Ltd
Original Assignee
Shenzhen Baimi Life Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Baimi Life Co Ltd filed Critical Shenzhen Baimi Life Co Ltd
Priority to CN201610118095.6A priority Critical patent/CN105787074A/zh
Publication of CN105787074A publication Critical patent/CN105787074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于用户线下LBS轨迹结合线上浏览行为的大数据系统,它涉及网络技术领域;它具体的操作步骤为:步骤一:建立Wi‑Fi提供上网环境:在全国各地商业及居民区域铺设商用Wi‑Fi供用户上网功能;步骤二:路由器开启Wi‑Fi数据采集功能;步骤三:上传上网场所资料;步骤四:后台系统的建立;步骤五:上传路由器采集数据;步骤六:数据的挖掘分析与聚合;步骤七:建立数据集市供各应用场景使用;本发明弥补传统大数据系统数据缺失而无法形成数据闭环的缺陷,使分析的用户画像更精准,数据使用场景范围更广泛、数据使用成本更低。

Description

基于用户线下 LBS 轨迹结合线上浏览行为的大数据系统
技术领域:
本发明涉及网络技术领域,具体涉及一种基于用户线下LBS轨迹结合线上浏览行为的大数据系统。
背景技术:
传统的大数据是通过用户海量网上行为轨迹进行的客观分析,而不是主观引导判断,大部分用户85%的时间都活动在线下,传统大数据拥有非常多的隐性成本,看起来很美,但是其实大部分的数据只有20%的数据量是有足够的数据样本做大数据的,其它的地方都非常稀缺,例如:如果一个人每天或每周都购物网站,那么就很容易猜到他要什么,但是一年才上1至2次购物网站购买的人,大数据怎么能知道这个人到底要什么;像这样缺少闭环的大数据,正因为大部份数据都没有足够数据样本,太多数据需要填补的缺失值,而这些缺失值是线上数据无法填补的(例如:大量的缺失值存在于数据集市中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论),那么就导致数据应用率低、隐性成本高,不能满足高效精准数据利用的刚性需求。假如:有个系统可以把用户经常活动的区域、喜欢逛什么地方、人缘关系、家庭成员、喜欢的品牌结合线上数据(消费分层是什么、喜欢什么品牌的衣服、支付能力怎么样,消费频率等等)这样就能把数据形成闭环,使数据最大化利用。再例如:某酒店生意火爆准备再开张一个分店,那么通常都是通过第三方机构或者自己组建团队经过一轮又一轮的人工走访,观察商业环境周围人流量,接下来以人为主观性的判断所选地址是否适合开酒吧,因为没有实际的、可量化的载体可参照,这样其实就是非常浪费资源、成本非常高并且达不到预期效果的,再来看像这种场景化的需求,网上的数据没法支持这样的应用场景的。假如:有个系统可以查询,哪个商业街往常人流量有多少,人流量当中又大约有多少客户喜欢夜生活和逛酒吧,这样就更能支撑这个商业街是否适合开酒吧。类拟于这种线下商业强需求的有很多,如:医院急诊室、传统电视、景区、汽车销售、私家停车场、儿童游乐场等等都需要有线下的数据支持。
发明内容:
本发明的目的在于针对现有技术的缺陷和不足,提供基于用户线下LBS轨迹结合线上浏览行为的大数据系统。
为了解决背景技术所存在的问题,本发明的基于用户线下LBS轨迹结合线上浏览行为的大数据系统,它具体的操作步骤为:
步骤一:建立Wi-Fi提供上网环境:在全国各地商业及居民区域铺设商用Wi-Fi供用户上网功能;
步骤二:路由器开启Wi-Fi数据采集功能:
(2.1)、Wi-Fi设备开启上网旁录功能或在h5网页中插入收集数据的js脚本,上网旁录及js脚本负责收集用户的上网信息,并对当次收集的冗余数据进行过滤;
(2.2)、Wi-Fi设备开启嗅探功能,WIFI模块所发出的无线广播信号进行设备的感知,记录用户的访问行为和轨迹,通过手机MAC地址所采集用户线下行为轨迹;
步骤三:上传上网场所资料(所述上网场所为线下商户):路由铺设时,上传路由铺设的场所详细地理位置、场所名称、门牌照片、场所场景图片、地址、联系人、联系方式,将这些信息通过app上传至后台系统,后台系统将临时创建商户维一标识;
步骤四:后台系统的建立:
(4.1)、后台系统通过铺设的路由上报的心跳信息与商户信息匹配,将两者建立隶属关系;
(4.2)、后台系统管理人员对步骤三中上传的商户信息进行信息准确性核对及编辑;
步骤五:上传路由器采集数据:将步骤二中采集到的上网浏览数据以及设备相关信息上传到云端服务器;
本发明的商用Wi-Fi通过portal页面验证方式(所述portal页面验证方式,包含但不仅限于:手机短信、微信、QQ等验证方式),验证上网用户安全性及用户数据唯一完整性,记录用户上网时间/下线时间、设备相关信息;
步骤六:数据的挖掘分析与聚合:
百米大数据系统根据步骤五及其它数据来源,再结合步骤三中的数据进行数据来源归类、数据收集、数据组织、数据转化/存储、模型构建、数据分析、预测处理,并大量使用机器学习与人工智能算法,对庞大的观测数据进行挖掘分析与聚合;根据分析聚合后的用户数据,结合场所业态、区域属性数据为用户标注所属标签形成完整的用户画像,并存储于数据库中;所述数据库采用开源的面向列的分布式数据库;
步骤七:建立数据集市供各应用场景使用:数据组织过程中对数据进行解析、清洗、重构,并填补缺失值;然后对通过数据准备的非结构化、半结构化的数据处理成机器语言或索引;将结构化数据进行数据过滤,最后进行数据抽取,将数据融合形成一个新数据集提供给各应用场景系统。
本发明有益效果为:弥补传统大数据系统数据缺失而无法形成数据闭环的缺陷,使分析的用户画像更精准,数据使用场景范围更广泛、数据使用成本更低。
附图说明:
图1为本发明的结构示意图。
具体实施方式:
下面结合附图,对本发明作进一步的说明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
如图1所示,本具体实施方式采用如下技术方案:它具体的操作步骤为:
步骤一:建立Wi-Fi提供上网环境:在全国各地商业及居民区域铺设商用Wi-Fi供用户上网功能;
步骤二:路由器开启Wi-Fi数据采集功能:
(2.1)、Wi-Fi设备开启上网旁录功能或者在h5网页中插入收集数据的js脚本,上网旁录及js脚本负责收集用户的上网信息,并对当次收集的冗余数据进行过滤;
(2.2)、Wi-Fi设备开启嗅探功能,WIFI模块所发出的无线广播信号进行设备的感知,记录用户的访问行为和轨迹,通过手机MAC地址所采集用户线下行为轨迹,比如喜欢逛什么地方,一周逛几次;
步骤三:上传上网场所资料(所述上网场所为线下商户):路由铺设时,上传路由铺设的场所详细地理位置、场所名称、门牌照片、场所场景图片、地址、联系人、联系方式,将这些信息通过app上传至后台系统,后台系统将临时创建商户维一标识(商户ID 也叫网关ID);
步骤四:后台系统的建立:
(4.1)、后台系统通过铺设的路由上报的心跳信息与商户信息匹配,将两者建立隶属关系(商家1 : N路由);
(4.2)、后台系统管理人员对步骤三中上传的商户信息进行信息准确性核对及编辑;
步骤五:上传路由器采集数据:将步骤二中采集到的上网浏览数据以及设备相关信息上传到云端服务器;
本发明的商用Wi-Fi通过portal页面验证方式,验证上网用户安全性及用户数据唯一完整性(普通认证:后台验证用户是否为黑名单用户,是黑名单用户那么拦截该用户不能上网,不是黑名单用户,那么服务器与路由器间为用户建立唯一鉴权码token;短信认证:通过发短信的形式验证用户合法性,合法则为用户建立唯一鉴权码token,不合法即拦截该用户不能上网;微信认证:通过走微信鉴权,鉴权成功则为用户建立唯一鉴权码token;QQ、360、Wi-Fi万能钥匙验证…),记录用户上网时间/下线时间、设备相关信息;
步骤六:数据的挖掘分析与聚合:
百米大数据系统根据步骤五及其它数据来源,再结合步骤三中的数据(当前上网场所)进行数据来源归类(来源主要包含:Wi-Fi嗅探、用户终端设备信息、所在场所信息、当前上网记录信息)、数据收集(数据主要包含:业务数据、LOG日志文件、消息/事件、拓展部门线下采集)、数据组织、数据转化/存储、模型构建、数据分析、预测处理并大量使用机器学习与人工智能算法对庞大的观测数据进行挖掘分析与聚合;根据分析聚合后的用户数据,结合场所业态、区域属性数据为用户标注所属标签形成完整的用户画像,并存储于数据库中;所述数据库采用开源的面向列的分布式数据库;
步骤七:建立数据集市供各应用场景使用:由于元数据中有噪声数据、冗余数据及缺失值等,数据组织过程中对数据进行解析、清洗、重构,并填补缺失值以提高待挖掘数据的质量;然后对通过数据准备的非结构化、半结构化的数据处理成机器语言或索引,如:上网记录、Wi-Fi嗅探、LOG日志资料等转换成加权逻辑或是模糊逻辑,并且不同的词语映射到标准的值;将结构化数据进行数据过滤,提炼出有意义数据,剔除无效数据以提高分析效率。最后进行数据抽取,即检测数据的相关性和关联性:关联的数据表现出更多的特定用户活动特征,关联的数据本身也可以用于个性化服务,例如:从用户上网的数据和时间数据的关联性中,可能会发现用户生活习惯及上网频率;将数据融合形成一个新数据集提供给各应用场景系统。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.基于用户线下LBS轨迹结合线上浏览行为的大数据系统,其特征在于:它具体的操作步骤为:
步骤一:建立Wi-Fi提供上网环境:在全国各地商业及居民区域铺设商用Wi-Fi供用户上网功能;
步骤二:路由器开启Wi-Fi数据采集功能:
(2.1)、Wi-Fi设备开启上网旁录功能或在h5网页中插入收集数据的js脚本,上网旁录及js脚本负责收集用户的上网信息,并对当次收集的冗余数据进行过滤;
(2.2)、Wi-Fi设备开启嗅探功能,WIFI模块所发出的无线广播信号进行设备的感知,记录用户的访问行为和轨迹,通过手机MAC地址所采集用户线下行为轨迹;
步骤三:上传上网场所资料:路由铺设时,上传路由铺设的场所详细地理位置、场所名称、门牌照片、场所场景图片、地址、联系人、联系方式,将这些信息通过app上传至后台系统,后台系统将临时创建商户维一标识;
步骤四:后台系统的建立:
(4.1)、后台系统通过铺设的路由上报的心跳信息与商户信息匹配,将两者建立隶属关系;
(4.2)、后台系统管理人员对步骤三中上传的商户信息进行信息准确性核对及编辑;
步骤五:上传路由器采集数据:将步骤二中采集到的上网浏览数据以及设备相关信息上传到云端服务器;
步骤六:数据的挖掘分析与聚合:
百米大数据系统根据步骤五及其它数据来源,再结合步骤三中的数据进行数据来源归类、数据收集、数据组织、数据转化/存储、模型构建、数据分析、预测处理并大量使用机器学习与人工智能算法对庞大的观测数据进行挖掘分析与聚合;根据分析聚合后的用户数据,结合场所业态、区域属性数据为用户标注所属标签形成完整的用户画像,并存储于数据库中;所述数据库采用开源的面向列的分布式数据库;
步骤七:建立数据集市供各应用场景使用:数据组织过程中对数据进行解析、清洗、重构,并填补缺失值;然后对通过数据准备的非结构化、半结构化的数据处理成机器语言或索引;将结构化数据进行数据过滤,最后进行数据抽取,将数据融合形成一个新数据集提供给各应用场景系统。
CN201610118095.6A 2016-03-01 2016-03-01 基于用户线下lbs轨迹结合线上浏览行为的大数据系统 Pending CN105787074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610118095.6A CN105787074A (zh) 2016-03-01 2016-03-01 基于用户线下lbs轨迹结合线上浏览行为的大数据系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610118095.6A CN105787074A (zh) 2016-03-01 2016-03-01 基于用户线下lbs轨迹结合线上浏览行为的大数据系统

Publications (1)

Publication Number Publication Date
CN105787074A true CN105787074A (zh) 2016-07-20

Family

ID=56387829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610118095.6A Pending CN105787074A (zh) 2016-03-01 2016-03-01 基于用户线下lbs轨迹结合线上浏览行为的大数据系统

Country Status (1)

Country Link
CN (1) CN105787074A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327408A (zh) * 2016-11-02 2017-01-11 浙江天地人科技有限公司 一种电子门牌及房屋人员管理系统
CN106339912A (zh) * 2016-09-21 2017-01-18 深圳市百米生活股份有限公司 一种场景化的用户需求触发机制
CN106911801A (zh) * 2017-04-18 2017-06-30 北京梅泰诺通信技术股份有限公司 关联用户信息的方法及信息推送系统
CN106910136A (zh) * 2017-02-23 2017-06-30 北京小米移动软件有限公司 为家庭画像的方法及装置、系统
CN106933991A (zh) * 2017-02-24 2017-07-07 陈晶 一种面向智能终端的深度分析与用户画像系统及方法
CN106991159A (zh) * 2017-03-30 2017-07-28 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107451861A (zh) * 2017-07-27 2017-12-08 中兴软创科技股份有限公司 一种大数据下用户上网特征识别的方法
CN107481093A (zh) * 2017-07-21 2017-12-15 北京京东尚科信息技术有限公司 个性化店铺预测方法和装置
CN107767168A (zh) * 2017-09-19 2018-03-06 神策网络科技(北京)有限公司 用户行为数据处理方法及装置、电子设备和存储介质
CN107801202A (zh) * 2017-10-31 2018-03-13 广东思域信息科技有限公司 一种基于WiFi接入的用户画像方法
CN108347698A (zh) * 2018-02-07 2018-07-31 山东合天智汇信息技术有限公司 一种线上线下活动轨迹分析方法、装置及系统
WO2018223672A1 (zh) * 2017-06-07 2018-12-13 北京小度信息科技有限公司 数据处理方法及装置
CN117155803A (zh) * 2023-09-01 2023-12-01 广东九博科技股份有限公司 一种面向多层次场景的路由器及其自适应优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN105005876A (zh) * 2015-08-13 2015-10-28 沈阳思哲数据技术有限公司 客户行为采集分析系统的使用方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN105005876A (zh) * 2015-08-13 2015-10-28 沈阳思哲数据技术有限公司 客户行为采集分析系统的使用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹兰 等: "大数据时代手机LBS应用的广告传播策略", 《南方论刊》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339912A (zh) * 2016-09-21 2017-01-18 深圳市百米生活股份有限公司 一种场景化的用户需求触发机制
CN106327408B (zh) * 2016-11-02 2024-05-28 广州云芯信息科技有限公司 一种电子门牌及房屋人员管理系统
CN106327408A (zh) * 2016-11-02 2017-01-11 浙江天地人科技有限公司 一种电子门牌及房屋人员管理系统
CN106910136A (zh) * 2017-02-23 2017-06-30 北京小米移动软件有限公司 为家庭画像的方法及装置、系统
CN106933991A (zh) * 2017-02-24 2017-07-07 陈晶 一种面向智能终端的深度分析与用户画像系统及方法
CN106991159B (zh) * 2017-03-30 2018-07-24 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN106991159A (zh) * 2017-03-30 2017-07-28 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN106911801A (zh) * 2017-04-18 2017-06-30 北京梅泰诺通信技术股份有限公司 关联用户信息的方法及信息推送系统
CN106911801B (zh) * 2017-04-18 2019-12-10 北京梅泰诺通信技术股份有限公司 关联用户信息的方法及信息推送系统
WO2018223672A1 (zh) * 2017-06-07 2018-12-13 北京小度信息科技有限公司 数据处理方法及装置
CN107481093A (zh) * 2017-07-21 2017-12-15 北京京东尚科信息技术有限公司 个性化店铺预测方法和装置
CN107451861B (zh) * 2017-07-27 2021-12-28 浩鲸云计算科技股份有限公司 一种大数据下用户上网特征识别的方法
CN107451861A (zh) * 2017-07-27 2017-12-08 中兴软创科技股份有限公司 一种大数据下用户上网特征识别的方法
CN107767168A (zh) * 2017-09-19 2018-03-06 神策网络科技(北京)有限公司 用户行为数据处理方法及装置、电子设备和存储介质
CN107801202A (zh) * 2017-10-31 2018-03-13 广东思域信息科技有限公司 一种基于WiFi接入的用户画像方法
CN108347698A (zh) * 2018-02-07 2018-07-31 山东合天智汇信息技术有限公司 一种线上线下活动轨迹分析方法、装置及系统
CN108347698B (zh) * 2018-02-07 2020-11-06 山东合天智汇信息技术有限公司 一种线上线下活动轨迹分析方法、装置及系统
CN117155803A (zh) * 2023-09-01 2023-12-01 广东九博科技股份有限公司 一种面向多层次场景的路由器及其自适应优化方法
CN117155803B (zh) * 2023-09-01 2024-03-12 广东九博科技股份有限公司 一种面向多层次场景的路由器及其自适应优化方法

Similar Documents

Publication Publication Date Title
CN105787074A (zh) 基于用户线下lbs轨迹结合线上浏览行为的大数据系统
Scellato et al. Distance matters: geo-social metrics for online social networks
Crooks et al. User-generated big data and urban morphology
CN103635953B (zh) 使用用户特定内容增强可视数据流的系统
CN103647800B (zh) 推荐应用资源的方法及系统
CN101990003B (zh) 一种基于ip地址属性的用户行为监控系统与方法
CN106447573A (zh) 一种基于公共设施差异性的空间可达性分析方法及装置
Robertson et al. Digital government
CN109450920A (zh) 一种异常账号检测方法及装置
Nespeca et al. Towards coordinated self-organization: An actor-centered framework for the design of disaster management information systems
CN108462888A (zh) 用户电视及上网行为的智能关联分析方法及系统
CN106354797B (zh) 数据推荐方法和装置
Peng et al. Perceiving Beijing’s “city image” across different groups based on geotagged social media data
Carver et al. Accessing Geographical Information Systems over the World Wide Web: Improving public participation in environmental decision‐making
CN107341693A (zh) 旅游用户筛选的方法和旅游用户筛选的系统
Grubesic The broadband provision tensor
CN109657025A (zh) 现场勘察信息收集系统及现场勘察管理系统
WO2018014872A1 (zh) 一种以mac码为主键的数据整合方法
Janzen et al. Estimating long-distance travel demand with mobile phone billing data
Wang et al. On the comparative use of social media data and survey data in prioritizing ecosystem services for cost-effective governance
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
Schröder-Bergen et al. De/colonizing OpenStreetMap? Local mappers, humanitarian and commercial actors and the changing modes of collaborative mapping
Yu et al. A data-driven perspective for sensing urban functional images: Place-based evidence in Hong Kong
CN102271331A (zh) 一种检测业务提供商sp站点可靠性的方法及系统
CN106056515A (zh) 一种社区网格事件聚类特征的提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720