CN108345661B - 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统 - Google Patents

一种基于大规模Embedding技术的Wi-Fi聚类方法及系统 Download PDF

Info

Publication number
CN108345661B
CN108345661B CN201810096348.3A CN201810096348A CN108345661B CN 108345661 B CN108345661 B CN 108345661B CN 201810096348 A CN201810096348 A CN 201810096348A CN 108345661 B CN108345661 B CN 108345661B
Authority
CN
China
Prior art keywords
vector
embedding
data
clustering
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810096348.3A
Other languages
English (en)
Other versions
CN108345661A (zh
Inventor
张宇
李雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810096348.3A priority Critical patent/CN108345661B/zh
Publication of CN108345661A publication Critical patent/CN108345661A/zh
Application granted granted Critical
Publication of CN108345661B publication Critical patent/CN108345661B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大规模Embedding技术的Wi‑Fi聚类方法及系统,主要是通过将用户对Wi‑Fi的连接行为按时间序列化,在经过滑动窗口的进行加窗处理以及负采样后,得到一组Local Context和Global Context,输入到一个三层神经网络中,来预测滑动窗口下一个Wi‑Fi出现的概率,而输入层到隐藏层之间的权值矩阵则为Wi‑Fi的Embedding向量,该向量能有效的表征Wi‑Fi的特点;再利用该Embedding向量作为特征采用传统的聚类算法进行聚类,可得到较好的聚类效果。本发明可充分学习到每个Wi‑Fi的一个唯一的向量表达,使相同场景下的Wi‑Fi能得到相近的向量表达;能使模型较快得到收敛,对大规模的数据训练和测试在性能上有较大提高。

Description

一种基于大规模Embedding技术的Wi-Fi聚类方法及系统
技术领域
本发明涉及机器学习技术领域,尤其是指一种基于大规模Embedding技术的Wi-Fi聚类方法及系统。
背景技术
随着互联网行业的迅猛发展,无线网络走进每家每户,通过一个无线路由器,在这个无线路由器的点播覆盖的有效范围都可以采用Wi-Fi连接方式进行联网,几乎所有的智能手机、平板电脑和笔记本电脑都支持Wi-Fi上网,是当今使用最广泛的一种无线网络传输技术,它几乎应用在各个地方,在网络媒体中,由于无线网络的频段在世界范围内是无需任何电信运营执照的,因此WLAN无线设备提供了一个世界范围内可以使用的,费用极其低廉且数据带宽极高的无线空中接口;用户可以在Wi-Fi覆盖区域内快速浏览网页,随时随地接听拨打电话。而其它一些基于WLAN的宽带数据应用,如流媒体、网络游戏等功能更是值得用户期待;有了Wi-Fi功能,打长途电话(包括国际长途)、浏览网页、收发电子邮件、音乐下载、数码照片传递等,再无需担心速度慢和花费高的问题。Wi-Fi技术与蓝牙技术一样,同属于在办公室和家庭中使用的短距离无线技术;在日常休闲中,无线网络的覆盖范围在国内越来越广泛,高级宾馆、豪华住宅区、飞机场以及咖啡厅之类的区域都有Wi-Fi接口;当旅游、办公时,就可以在这些场所使用掌上设备可以尽情网上冲浪了;厂商只要在机场、车站、咖啡店、图书馆等人员较密集的地方设置“热点”,并通过高速线路将因特网接入上述场所。这样,由于“热点”所发射出的电波可以达到距接入点半径数10米至100米的地方,用户只要将支持Wi-Fi的笔记本电脑或PDA或手机或psp或ipodtouch等拿到该区域内,即可高速接入因特网,当然,在家也可以买无线路由器设置局域网然后可以痛快的无线上网;
随着无线网络的发展,伴随着出现一些商业化产品,比如,Wi-Fi万能钥匙、Wi-Fi管家此类APP,在这类APP中,通过记录共享无线网络的帐号密码信息,使更多人能够享受无线网络带来的便利,与此同时,由于此类APP能够获取无线路由器的相关信息,通过用户的连接无线网络的情况以及无线网络本身的一些信息联合使用些相关数据挖掘和机器学习算法,能够深度挖掘出更多的信息,来达到商业化的效果,比如,利用在此APP平台上用户对无线网络的连接情况,可以将不同的无线网络环境进行聚类,区分出购物商场、餐厅、咖啡馆、电影院、图书馆、酒店、家庭、机场等不同的Wi-Fi环境场景,通过区分不同的无线环境,可以针对用户所处的环境场所,进行相关的推荐,以更大程度的方便用户,例如,当用户位于商场的无线场景时,可以对用户推荐相应的商店,当用户位于餐厅的环境场所时,可以推荐食物相关的产品,从而可以实现产品的商业化,达到平台、用户、商家三赢的良性循环。
由于无线网络的发展和普及,用户数量的激增,数据量出现剧烈增长,随着数据量的增大,导致传统的聚类算法迭代收敛过慢,算法性能不佳,无法满足工业生产条件的情况,同时,在现有的传统的聚类算法中,需要大量的人力去做特征工程,而算法的表现很大程度上取决于特征,因此,需要多方面的数据来支撑算法,而仅仅通过无线网络本身的数据提取出来的特征不足以支撑应用要求;此时,基于分布式的计算平台和计算框架能够很好的解决数据量大导致算法性能不佳的问题,采用分布式存储HDFS做数据存储、分布式平台Spark做数据处理,采用分布式计算框架PS-Lite做算法迭代计算,使算法实现的速度呈现数以100倍的增长,大规模Embedding技术能够很好的规避数据不全面会导致算法模型效果不佳,需要大量人力做特征工程的问题,通过简单的用户行为数据,就能够学习到每一个Wi-Fi的一个向量表达,使每一个Wi-Fi之间的关系较好的存储在表达向量中,从而能够实现良好的聚类效果。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于大规模Embedding技术的Wi-Fi聚类方法及系统,可充分学习到每个Wi-Fi的一个唯一的向量表达,使相同场景下的Wi-Fi能够得到相近的向量表达,有一定的泛化性能;通过使用基于PS-Lite分布式计算框架能够使模型较快的得到收敛,对大规模的数据的训练和测试在性能上有较大提高。
为实现上述目的,本发明所提供的技术方案,如下:
一种基于大规模Embedding技术的Wi-Fi聚类方法,首先,将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列,统计每个用户连接过的Wi-Fi的数量的分布情况,分析筛选出合理的样本序列,将样本中出现过的Wi-Fi进行统计得到一个字典,使每个Wi-Fi有一个唯一的标识,随机选取字典中一部分的Wi-Fi人工标注其类别;然后,将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,联合局部信息和全局信息作为一组训练的样本,输入到一个三层神经网络模型中,预测该窗口后面一个Wi-Fi出现的概率,学习到的输入层与隐藏层之间的权重作为Wi-Fi的新的向量;其次,在人工标注的Wi-Fi类别下使用学习到的Wi-Fi向量计算类内平均余弦相似度和类间平均余弦相似度,设定一个阈值,比较两个余弦相似度的差异程度,当这个差别超过这个阈值,即说明这个训练的向量有效,并将学习到的向量使用TSNE和Tensorboard可视化,直接观察相同类别的Wi-Fi向量的聚拢程度;最后,根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数,将学习到的Wi-Fi的向量输入到Kmeans聚类算法中进行聚类得到每一个Wi-Fi的类别;
所述方法流程按如下具体步骤执行:
1)数据样本整理
1.1)进行数据处理,将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列,统计每个用户连接过的Wi-Fi数量以及其分布,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,然后将样本随机抽取一部分作为训练集,其余部分作为测试集;
1.2)将出现过的Wi-Fi进行统计,制成字典,根据字典将每一个Wi-Fi进行One-Hot独热编码;选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别,来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi;
2)设计一个大规模Embedding方法,具体实现按以下步骤实现:
2.1)整理Embedding方法的数据样本,将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,连个局部信息和全局信息作为一组训练的样本,将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签;
2.2)采用一个三层神经网络模型将Wi-Fi进行Embedding,使其映射到一个高维空间,将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中,该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵,将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元,将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中,得到的值即为预测的窗口后面Wi-Fi出现的概率,使用AUC、LogLoss等评价指标计算预测误差,再使用反向传播的方式更新迭代每一层的参数直到收敛;根据这个三层神经网络,即Embedding映射关系,将每一个Wi-FiEmbedding成一个高维空间的向量,使每一个向量与Wi-Fi一一对应,并保留其对应Wi-Fi的特征;
3)对学习到的Embedding向量进行评估,首先,在已标注的类别下对学习到的Wi-Fi的新的向量,在同一个类别下计算两两之间的余弦相似度,得到每个类别下的平均余弦相似度,然后,再计算不同类别下的Wi-Fi的平均余弦相似度,设定一个阈值,当类内类间比小于这个阈值时,就可以认为该Embedding向量有好的表达效果;将学习到的Wi-FiEmbedding之后的向量用PCA等方式降维,再作为输入用TSNE和Tensorboard进行可视化,直接观察向量的聚拢效果;
4)对学习到的向量用Kmeans方法进行聚类,具体实现按以下具体步骤执行:
4.1)确定要聚类的类别K,从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点;
4.2)分别计算其余每个样本点到这K个聚类中心点的距离,选择最近的一个聚类中心点与其为同一类别;
4.3)对于4.2)中同一类别的所样本点,通过求平均样本点的方法重新选择其聚类中心点,重复4.2)的步骤直到所有的样本点的内容不再发生改变;
4.4)多次重复以上步骤选择最优的聚类结果。
一种基于大规模Embedding技术的Wi-Fi聚类系统,包括:
数据处理模块,包括方法样本数据抽取单元和样本数据处理单元;所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据如UserID、连接Wi-Fi时间、Wi-FiID等;所述样本数据处理单元用于将抽取出的数据整理成样本的形式,通过Spark读取样本数据抽取模块中数据,将每个用户连接过的Wi-Fi按照时间顺序整理成序列;
算法实现模块,基于分布式计算框架参数服务器PS-Lite,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算;
评估模块,该评估模块主要分为两部分,一部分是对学习到的向量的一个量化的评估,将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度,通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣;另一部分是对学习到的向量的一个可视化,首先通过降维的方式,将学习到的向量,其向量的长度往往是上百维,降维到二至三维,然后使用不同的可视化方式将其展现出来,可以直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。
本发明与现有技术相比,具有如下优点与有益效果:
1、采用分布式方式进行数据预处理,在现实中,数据的数量达到TB、PB数量集的时候,数据的存储、处理以及计算都将面临的考验,采用分布式的数据存储HDFS,将大数据分散的存储在不同的相对廉价的机器上,解决了集中式存储需要大容量、高价格机器的需求,同时基于HDFS分布式存储数据自动保存副本,副本丢失后自己恢复,有较高的容错性;而基于Spark分布式的数据处理,能够提高数据处理的速度,Spark的内存计算可以将RDD常驻内存,减少磁盘IO的开销,能够提高数据处理的性能。
2、使用了一个新的大规模Embedding的方法,该方法参考word2vec算法进行了改进,在使用了局部信息的同时加入了全局信息,预测时引入更多的信息,使该方法有更好的效果,同时,在引入全局信息时,采用了随机采样的方式,提高了低频Wi-Fi训练时的权重,达到强正则的效果,使该方法有较好的泛化性能。该方法本身可以运用的场景非常广泛,对于序列化的行为数据类型,甚至社交关系相关的图型的数据类型都可以采用类似的方式做Embedding处理;并且,相较于传统的聚类算法,该方法不要求全面的数据来提取特征,仅仅需要用户的一个行为序列数据就可以学习到Embedding到高维空间的向量的表达,同时节省了大量的人工特征工程时间;由于学习到的向量具有数值意义,可以通过学习到的Wi-Fi向量,通过用户的行为序列,将序列中的Wi-Fi的向量进行平均可以得到每个用户的一个向量的表达,这样可以对用户有一个新的类别特征,这样的需求在很多场景下都有积极的意义。
附图说明
图1为基于大规模Embedding技术的Wi-Fi聚类样本数据处理流程图。
图2为基于大规模Embedding技术的Wi-Fi聚类方法框架图。
图3为基于大规模Embedding技术的Wi-Fi聚类方法的评估流程图。
图4为分布式计算框架Parameter Sever的原理图。
图5为基于大规模Embedding技术的Wi-Fi聚类系统总体方案示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于大规模Embedding技术的Wi-Fi聚类方法,具体是:在数据处理方面,如图1所示,从客户端后台数据中抽取出相关的字段,将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列,统计每个用户连接过的Wi-Fi的数量的分布情况,分析筛选出合理的样本序列,将样本中出现过的Wi-Fi进行统计得到一个字典,使每个Wi-Fi有一个唯一的标识,随机选取字典中一部分的Wi-Fi人工标注其类别;方法框架上,如图2所示,将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,联合局部信息和全局信息作为一组训练的样本,预测该窗口后面一个Wi-Fi出现的概率,学习到的权重作为Wi-Fi的新的向量;其次,在方法性能评估方面,除了采用常用的损失函数直接对方法模型的准确度进行评估,还引入的新的评估方式直接对学习到的向量进行评估,如图3所示,在人工标注的Wi-Fi类别下使用学习到的Wi-Fi向量计算类内平均余弦相似度和类间平均余弦相似度,设定一个阈值,比较两个余弦相似度的差异程度,当这个差别小于这个阈值,即可认为这个训练的向量有效,同时,将学习到的向量使用TSNE和Tensorboard可视化,直接观察相同类别的Wi-Fi向量的聚拢程度;最后,将评估结果合格的向量输入到Kmeans聚类算法中,根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数,通过聚类算法使得具有相同属性的Wi-Fi能够归为同一个类别。
该方法的实现基于分布式框架PS-Lite,如图4所示,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算。
基于大规模Embedding技术的Wi-Fi聚类方法的处理流程具体如下:
步骤1,数据样本整理
步骤1.1,进行数据处理,将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列,统计每个用户连接过的Wi-Fi数量以及其分布,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,然后将样本随机抽取一部分作为训练集,其余部分作为测试集。
步骤1.2,将出现过的Wi-Fi进行统计,制成字典,根据字典将每一个Wi-Fi进行One-Hot独热编码;选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别,其来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi。
步骤2,设计一个大规模Embedding方法,具体实现按以下步骤实现:
步骤2.1,整理Embedding方法的数据样本,将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,连个局部信息和全局信息作为一组训练的样本,将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签。
步骤2.2,采用一个三层神经网络模型将Wi-Fi进行Embedding,使其映射到一个高维空间,将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中,该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵,将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元,将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中,得到的值即为预测的窗口后面Wi-Fi出现的概率,使用AUC、LogLoss等评价指标计算预测误差,再使用反向传播的方式更新迭代每一层的参数直到收敛;根据这个三层神经网络,即Embedding映射关系,将每一个Wi-FiEmbedding成一个高维空间的向量,使每一个向量与Wi-Fi一一对应,并保留其对应Wi-Fi的特征。
步骤3,对学习到的Embedding向量进行评估,首先,在已标注的类别下对学习到的Wi-Fi的新的向量,在同一个类别下计算两两之间的余弦相似度,得到每个类别下的平均余弦相似度,然后,再计算不同类别下的Wi-Fi的平均余弦相似度,设定一个阈值,当类内类间比小于这个阈值时,就可以认为该Embedding向量有好的表达效果;将学习到的Wi-FiEmbedding之后的向量用PCA等方式降维,再作为输入用TSNE和Tensorboard进行可视化,直接观察向量的聚拢效果。
步骤4,对学习到的向量用Kmeans方法进行聚类,具体实现按以下具体步骤执行:
步骤4.1,确定要聚类的类别K,从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点;
步骤4.2,分别计算其余每个样本点到这K个聚类中心点的距离,选择最近的一个聚类中心点与其为同一类别;
步骤4.3,对于步骤4.2中同一类别的所样本点,通过求平均样本点的方法重新选择其聚类中心点,重复步骤4.2的步骤直到所有的样本点的内容不再发生改变;
步骤4.4,多次重复以上步骤选择最优的聚类结果。
基于大规模Embedding技术,一方面相较于传统的聚类算法,降低了对数据全面性的要求,同时省去了大量人工的特征工程,在数据处理阶段能够省时省力;另一方面方法本身的复杂度仅仅基于字典数量,并且由于基于word2vec之上,可以非常有效的训练出较好的模型,再加上全局信息使方法本身带有强正则,有很好的泛化能力。
基于上述的基于大规模Embedding技术,本实施例提供的一种基于大规模Embedding技术的Wi-Fi聚类系统,由数据处理模块、算法实现模块以及评估模块组成。
数据处理模块,包括方法样本数据抽取单元和样本数据处理单元;所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据如UserID、连接Wi-Fi时间、Wi-FiID等;所述样本数据处理单元用于将抽取出的数据整理成样本的形式,通过Spark读取样本数据抽取模块中数据,将每个用户连接过的Wi-Fi按照时间顺序整理成序列。
算法实现模块,基于分布式计算框架参数服务器PS-Lite,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算。
评估模块,该评估模块主要分为两部分,一部分是对学习到的向量的一个量化的评估,将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度,通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣;另一部分是对学习到的向量的一个可视化,首先通过降维的方式,将学习到的向量,其向量的长度往往是上百维,降维到二至三维,然后使用不同的可视化方式将其展现出来,可以直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。
本发明通过Embedding的方式得到每个Wi-Fi的一个向量的表达,然后直接对向量进行聚类;如图4所示,描述了Embedding技术的原理,相对于传统的聚类算法,使用Embedding技术具备以下优点:(1)降低了对数据要求,仅仅需要用户的一个行为数据,而传统的聚类算法往往需要更加全面的多方位的数据;(2)不需要进行人工的特征工程,只需将用户的行为数据按时间顺利序列化即可;(3)该方法基于word2vec算法,能训练出高效的模型;(4)方法本身带有强正则,有较好的泛化性能。因此针对大数据的聚类场景,基于Embedding的方式能够更加高性能。
本发明的特点还在于借助分布式HDFS、Spark、PS-Lite的高性能、易扩展的特点采用了基于内存计算的Spark计算框架以及PS-Lite的参数服务器进行迭代数据处理和数据计算,有效的提高的数据处理时间,参数迭代更新速度,保证了海量Wi-Fi数据的高效的预处理和模型的高性能计算。
为了测试本发明的应用效果,将这一技术应用到了Wi-Fi万能钥匙的用户数据上。通过Wi-Fi万能钥匙,用户可以连接到附近其他用户分享过的Wi-Fi,从而实现Wi-Fi的共享,而该平台可以通过对Wi-Fi的聚类,得到Wi-Fi所在场景,可以针对用户所在场景做相关的推荐,从而实现平台的自负盈亏,由于该应用数据类型毕竟单一,无法涉及到更多的用户信息和场景信息,使用传统的聚类算法很难达到一个良好的可以的工业化的效果,该方法通过用户的连接情况组成时间序列,然后通过训练将每一个Wi-Fi得到一个相应的向量表达,通过该向量能够唯一的标识Wi-Fi信息,摈弃了传统的聚类算法对数据全面性的要求,以及耗时费力的人工特征工程,而完成Wi-Fi的聚类,从而可以达到一个良好的聚类效果,Wi-Fi聚类总体方案如图5所示,该模型通过使用分布式的Spark框架,HDFS存储以及基于PS-Lite的计算框架,完整的实现了数据获取模块、数据处理模块、算法实现模块、评估模块一整套方法的流程,该模型通过使用量化和可视化两种不同的方式将学习到的向量进行评估,能够无论从数据上还是从图像上对方法可行性进行分析。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于:首先进行数据样本整理,将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列,统计每个用户连接过的Wi-Fi的数量的分布情况,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,将样本中出现过的Wi-Fi进行统计得到一个字典,根据字典将每一个Wi-Fi进行One-Hot独热编码,随机选取字典中一部分的Wi-Fi根据Wi-Fi来源场景人工标注其场景类别作为这个Wi-Fi的类别;然后,将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,当前窗口后面一个Wi-Fi标注为局部信息和全局信息的样本标签;联合局部信息样本和全局信息样本作为一组大规模Embedding的训练样本;通过一个三层神经网络模型将Wi-Fi进行Embedding映射到一个高维空间,使每一个Wi-Fi在高维空间有一个向量与其一一对应,且该高维向量能保存其对应Wi-Fi的特征,该三层神经网络模型通过输入一组训练样本,预测该样本标签出现的概率,学习到的输入层与隐藏层之间的权重即为Embedding到高维空间的新的向量;其次,在人工标注的Wi-Fi类别下使用Embedding的Wi-Fi高维向量计算类内平均余弦相似度和类间平均余弦相似度,设定一个阈值,比较两个余弦相似度的差异程度,当这个差别超过这个阈值,即认为这个训练的向量有效,并将Embedding的向量使用TSNE和Tensorboard可视化,直接观察相同类别的Wi-Fi向量的聚拢程度;最后,根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数,将学习到的Wi-Fi的向量输入到Kmeans聚类算法中进行聚类得到每一个Wi-Fi的类别。
2.根据权利要求1所述的一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于,包括以下步骤:
1)数据样本整理
1.1)进行数据处理,将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列,统计每个用户连接过的Wi-Fi数量以及其分布,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,然后将样本随机抽取一部分作为训练集,其余部分作为测试集;
1.2)将出现过的Wi-Fi进行统计,制成字典,根据字典将每一个Wi-Fi进行One-Hot独热编码;选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别,来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi;
2)设计一个大规模Embedding方法,具体实现按以下步骤实现:
2.1)整理Embedding方法的数据样本,将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,联合局部信息和全局信息作为一组训练的样本,将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签;
2.2)采用一个三层神经网络模型将Wi-Fi进行Embedding,使其映射到一个高维空间,将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中,该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵,将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元,将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中,得到的值即为预测的窗口后面Wi-Fi出现的概率,使用AUC、LogLoss这些评价指标计算预测误差,再使用反向传播的方式更新迭代每一层的参数直到收敛;根据这个三层神经网络,即Embedding映射关系,将每一个Wi-Fi Embedding成一个高维空间的向量,使每一个向量与Wi-Fi一一对应,并保留其对应Wi-Fi的特征;
3)对学习到的Embedding向量进行评估,首先,在已标注的类别下对学习到的Wi-Fi的新的向量,在同一个类别下计算两两之间的余弦相似度,得到每个类别下的平均余弦相似度,然后,再计算不同类别下的Wi-Fi的平均余弦相似度,设定一个阈值,当类内类间比小于这个阈值时,就认为该Embedding向量有好的表达效果;将学习到的Wi-Fi Embedding之后的向量用PCA方式降维,再作为输入用TSNE和Tensorboard进行可视化,直接观察向量的聚拢效果;
4)对学习到的向量用Kmeans方法进行聚类,具体实现按以下具体步骤执行:
4.1)确定要聚类的类别K,从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点;
4.2)分别计算其余每个样本点到这K个聚类中心点的距离,选择最近的一个聚类中心点与其为同一类别;
4.3)对于4.2)中同一类别的所样本点,通过求平均样本点的方法重新选择其聚类中心点,重复4.2)的步骤直到所有的样本点的内容不再发生改变;
4.4)多次重复以上步骤选择最优的聚类结果。
3.一种使用权利要求1或2所述聚类方法的聚类系统,其特征在于,包括:
数据处理模块,包括方法样本数据抽取单元和样本数据处理单元;所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据,包括UserID、连接Wi-Fi时间、Wi-FiID;所述样本数据处理单元用于将抽取出的数据整理成样本的形式,通过Spark读取样本数据抽取模块中数据,将每个用户连接过的Wi-Fi按照时间顺序整理成序列;
算法实现模块,基于分布式计算框架参数服务器PS-Lite,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算;
评估模块,该评估模块主要分为两部分,一部分是对学习到的向量的一个量化的评估,将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度,通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣;另一部分是对学习到的向量的一个可视化,首先通过降维的方式,将学习到的向量,其向量的长度上百维,降维到二至三维,然后使用不同的可视化方式将其展现出来,能够直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。
CN201810096348.3A 2018-01-31 2018-01-31 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统 Expired - Fee Related CN108345661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810096348.3A CN108345661B (zh) 2018-01-31 2018-01-31 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810096348.3A CN108345661B (zh) 2018-01-31 2018-01-31 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统

Publications (2)

Publication Number Publication Date
CN108345661A CN108345661A (zh) 2018-07-31
CN108345661B true CN108345661B (zh) 2020-04-28

Family

ID=62961005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810096348.3A Expired - Fee Related CN108345661B (zh) 2018-01-31 2018-01-31 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统

Country Status (1)

Country Link
CN (1) CN108345661B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612153B (zh) * 2019-02-22 2024-06-14 华为技术有限公司 训练模型的方法和装置
CN109918162B (zh) * 2019-02-28 2021-11-02 集智学园(北京)科技有限公司 一种可学习的海量信息高维图形交互式展示方法
CN110798467B (zh) * 2019-10-30 2021-10-08 腾讯科技(深圳)有限公司 目标对象识别方法、装置、计算机设备及存储介质
CN111148185A (zh) * 2019-12-11 2020-05-12 上海众源网络有限公司 建立用户关系的方法及装置
CN112699099B (zh) * 2020-12-30 2024-06-04 中电科普天科技股份有限公司 用户投诉数据库扩充方法、装置及存储介质
CN112765339B (zh) * 2021-01-21 2022-10-04 山东师范大学 一种基于强化学习的个性化图书推荐方法及系统
CN113283486B (zh) * 2021-05-14 2022-08-02 杭州云深科技有限公司 一种基于wifi的设备类型确定方法、电子设备及存储介质
CN113642610B (zh) * 2021-07-15 2024-04-02 南京航空航天大学 一种分布式异步主动标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105044662A (zh) * 2015-05-27 2015-11-11 南京邮电大学 一种基于wifi信号强度的指纹聚类多点联合室内定位方法
CN106228185A (zh) * 2016-07-20 2016-12-14 武汉盈力科技有限公司 一种基于神经网络的通用图像分类识别系统及方法
CN106470435A (zh) * 2015-08-18 2017-03-01 腾讯科技(深圳)有限公司 识别WiFi群的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316338A1 (en) * 2016-04-29 2017-11-02 Hewlett Packard Enterprise Development Lp Feature vector generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105044662A (zh) * 2015-05-27 2015-11-11 南京邮电大学 一种基于wifi信号强度的指纹聚类多点联合室内定位方法
CN106470435A (zh) * 2015-08-18 2017-03-01 腾讯科技(深圳)有限公司 识别WiFi群的方法及系统
CN106228185A (zh) * 2016-07-20 2016-12-14 武汉盈力科技有限公司 一种基于神经网络的通用图像分类识别系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于参数服务器ps-lite的大规模Embedding系统的研究与实现";李雯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215(第2018年12期);I138-1822 *

Also Published As

Publication number Publication date
CN108345661A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108345661B (zh) 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统
TWI623842B (zh) Image search and method and device for acquiring image text information
Li et al. An improved collaborative filtering recommendation algorithm and recommendation strategy
CN103189836B (zh) 用于对图数据流中的对象分类的方法
Zhao et al. Predicting taxi and uber demand in cities: Approaching the limit of predictability
CN112528639B (zh) 对象识别方法和装置、存储介质及电子设备
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN107704868A (zh) 基于移动应用使用行为的用户分群聚类方法
CN112214677B (zh) 一种兴趣点推荐方法、装置、电子设备及存储介质
CN108898244B (zh) 一种耦合多源要素的数字标牌位置推荐方法
CN110232133A (zh) 一种基于特征融合和款式分类的服装图像检索方法和系统
Zhang et al. Duplicate report detection in urban crowdsensing applications for smart city
Guo et al. Electromagnetic environment portrait based on big data mining
CN104750762A (zh) 一种信息检索方法及装置
CN111044974A (zh) 基于WiFi信号的室内定位方法和装置、存储介质
CN111028012B (zh) 景区客群定位方法、系统、装置及其可存储介质
Wu et al. Urban functional area recognition based on unbalanced clustering
CN110889277A (zh) 一种无监督学习的空间信号源和室内位置关联的方法
CN110691336A (zh) 一种基于集成学习和相对定位的双尺度定位算法
CN110287237A (zh) 一种基于社会网络结构分析高效社团数据挖掘方法
CN111723273A (zh) 一种智慧云检索系统及方法
CN115861729A (zh) 基于深度学习算法的小样本林业害虫识别方法
CN106296420A (zh) 一种社区发现方法
Yuan et al. A Multi‐Granularity Backbone Network Extraction Method Based on the Topology Potential
Ma [Retracted] Construction of Tourism Management Engineering Based on Data Mining Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200428