CN108112026A - WiFi识别方法及装置 - Google Patents
WiFi识别方法及装置 Download PDFInfo
- Publication number
- CN108112026A CN108112026A CN201711332020.9A CN201711332020A CN108112026A CN 108112026 A CN108112026 A CN 108112026A CN 201711332020 A CN201711332020 A CN 201711332020A CN 108112026 A CN108112026 A CN 108112026A
- Authority
- CN
- China
- Prior art keywords
- wifi
- term vector
- sample
- classification
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/16—Discovering, processing access restriction or access information
Abstract
本发明公开了一种WiFi识别方法及装置,涉及信息技术领域,主要目的在于通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。所述方法包括:利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。本发明适用于WiFi的识别。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种WiFi识别方法及装置。
背景技术
随着信息技术的不断发展,无线保真(Wireless-Fidelity,WiFi)技术得到了广泛使用,尤其是一些公共场合,如机场、高铁站、餐厅、咖啡厅等越来越多场合提供免费WiFi以供用户使用,为了节省数据流量,大部分移动终端用户习惯设置无线功能和移动网络功能同时开启,一旦进入到WiFi区域,移动终端会自动切换到WiFi。一些不乏分子利用这个漏洞,提供一些用户可以直接的不安全WiFi,并利用一些特定的抓包工具,截取网络数据包,窃取用户的私密信息,如银行卡信息、办公软件信息等。因此,对WiFi进行识别对保护用户的财产安全越来越重要。
目前,在对WiFi进行识别时,通常通过查询WiFi清单列表确定WiFi类别,即WiFi与WiFi清单列表中已有的WiFi匹配时,将已有的WiFi类别确定为所述WiFi的类别。然而,WiFi清单列表中WiFi的数量有限,且WiFi数量巨多,通过上述方式,会造成有些WiFi类别无法确定,如新增WiFi,导致WiFi识别精确度较低。
发明内容
有鉴于此,本发明提供一种WiFi识别方法及装置,主要目的在于通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。
依据本发明第一方面,提供了一种WiFi识别方法,包括:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
依据本发明第二方面,提供了一种WiFi识别装置,包括:
处理单元,用于利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
确定单元,用于将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
依据本发明第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
依据本发明第四方面,提供了一种WiFi识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
本发明提供一种WiFi识别方法及装置,与目前通过查询WiFi清单列表确定WiFi类别,即WiFi与WiFi清单列表中已有的WiFi匹配时,将已有的WiFi类别确定为所述WiFi的类别相比,本发明能够利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;并将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的,从而能够实现通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种WiFi识别方法流程图;
图2示出了本发明实施例提供的另一种WiFi识别方法流程图;
图3示出了本发明实施例提供的一种WiFi识别模型的训练方法流程图;
图4示出了本发明实施例提供的一种WiFi识别装置的结构示意图;
图5示出了本发明实施例提供的另一种WiFi识别装置的结构示意图;
图6示出了本发明实施例提供的一种WiFi识别装置的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,在对WiFi进行识别时,通常通过查询WiFi清单列表确定WiFi类别,即WiFi与WiFi清单列表中已有的WiFi匹配时,将已有的WiFi类别确定为所述WiFi的类别。然而,WiFi清单列表中WiFi的数量有限,且WiFi数量巨多,通过上述方式,会造成有些WiFi类别无法确定,如新增WiFi,导致WiFi识别精确度较低。
为了解决上述技术问题,本发明实施例提供了一种WiFi识别方法,如图1所示,所述方法包括:
101、利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量。
其中,所述WiFi的词向量能够表示所述WiFi,利用所述预设词向量模型对WiFi进行词向量处理的过程可以包括如下步骤:
1、对所述WiFi进行分词处理,以提取所述WiFi对应的关键词。所采用的分词方法可以为基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法,这些分词方法都具有较高的分词准确率和快速的分词系统,能够自动过滤掉中间词、助词、连词、感叹词等停顿词、保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词。
2、在所述预设词向量模型中查找关键词对应的词向量,预设词向量模型包括关键词的词向量。所述预设词向量模型可以为通过word2vec训练得到的,word2vec可以为一种生成词向量的神经网络模型,即在训练所述模型时,将词语作输入、输出一个低维度的词向量表示这个词语,然后用反向传播的方法不断优化参数。通过word2vec可以训练能够表示语义关系的词向量。
102、将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别。
其中,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。所述样本WiFi对应的样本词向量可以为通过步骤101所描述的方式获取的,所述预设机器学习算法可以为卷积神经网络模型或者预设逻辑斯特回归拟合算法。所述WiFi识别模型可以通过离线方式自动训练的,训练的WiFi识别模型可以称为WiFi识别的离线模型,而在识别所述WiFi类别时,可以通过在线方式识别,通过离线方式自动训练WiFi识别模型,能够避免占用较多的网络资源,从而能够提升WiFi的识别速度,进而能够提升WiFi的识别效率。
对于本发明实施例,所述WiFi识别模型可以为基于非线性函数实现的,具体地,所述WiFi识别模型可以包括输入层、隐藏层和输出层,输入层对应于输入的词向量,所述隐藏层用于根据词向量和类别标注对输入的词向量计算;所述输出层用于将计算得到的判断结果进行输出,所述隐藏层即为利用非线性函数对输入的WiFi识别模型进行计算的层。
需要说明是,在将所述词向量输入到所述WiFi识别模型进行匹配,所述WiFi识别模型将所述词向量与样本词向量进行匹配,若输入的词向量与样本词向量的相似度较高,则可以根据相似度较高的样本词向量对应的类别标注确定所述WiFi的类别。
其中,所述WiFi的类别可以为公共WiFi、企业WiFi、家庭WiFi;也可以为安全WiFi、不安全WiFi、不确定WiFi等,本发明实施例不做限定。例如,若输入的词向量与标注为不安全的样本词向量的相似度较高,则可以将输入词向量表示的WiFi确定为不安全的WiFi;若输入的词向量与标注为标注为公共WiFi的样本词向量相似度较高,则可以将输入词向量表示的WiFi确定为公共WiFi。
本发明实施例提供的一种WiFi识别方法,与目前通过查询WiFi清单列表确定WiFi类别,即WiFi与WiFi清单列表中已有的WiFi匹配时,将已有的WiFi类别确定为所述WiFi的类别相比,本发明实施例能够利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;并将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的,从而能够实现通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。
进一步的,为了更好的说明上述WiFi识别的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种WiFi识别方法,如图2所示,但不限于此,具体如下所示:
201、通过训练的用户画像获取WiFi列表。
其中,用户画像可以包括用户标识和每个用户标识连接的WiFi,例如,用户标识1连接100个WiFi、用户标识2连接200个WiFi,通过用户画像即可以获取WiFi列表。在训练WiFi识别模型时,每个用户对应的连接WiFi可以作为一条训练数据。
202、对所述WiFi列表进行数据清洗,得到样本WiFi。
需要说明的是,对所述WiFi列表进行数据清洗的过程可以为根据格式对WiFi进行筛选,保留符合预设格式的WiFi,删除不符合预设格式的WiFi,从而可以获取用户训练WiFi识别模型的样本WiFi。
203、利用预设词向量模型对所述样本WiFi进行词向量处理,得到所述样本WiFi对应的样本词向量。
需要说明的是,得到所述样本WiFi对应的样本词向量的具体过程可以如步骤101所描述的,本发明实施例在此不进行限定。在获取样本词向量时,还可以利用上下文的方式,将所述样本WiFi用样本词向量进行表示。利用上下文的方式获取样本WiFi,能够提升样本词向量的召回率,进而提升所述WiFi识别模型的训练效果。
204、利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类。
其中,所述预设聚类算法可以为Kmeans聚类算法,当采用Kmeans聚类算法对所述样本词向量进行分类时,可以每个种子词向量设置中心点,根据每个样本词向量与中心点的距离,将样本词向量划分到相应的类别中,例如,可以得到类别1、类别2…类别n。此外,通过Kmeans聚类算法对所述样本词向量进行分类,能够提升所述样本词向量的分类效果,进而能够提升识别精确度。
对于本发明实施例,为了确定各个类别的种子词向量,所述步骤205之前,所述方法还包括:确定各个类别的种子WiFi;利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量。例如,所述各个类别的种子WiFi可以包括公共种子WiFi、家庭种子WiFi、企业种子WiFi。所述各个类别的种子WiFi还可以包括安全的种子WiFi、不确定的种子WiFi、不安全的种子WiFi,所述WiFi的类别可以根据具体需求进行设置,本发明实施例不做限定。
205、根据分类结果对所述样本词向量进行类别标注。
需要说明的是,对所述样本词向量进行标注的方式可以为半自动方式,即先通过自动方式对所述样本词向量进行标注,然后再通过人工方式审核标注结果是否正确,通过半自动方式进行标注不仅可以提升标注效率,而且可以保证标注准确性,避免识别WiFi应用程序出现错误的情况。
206、利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型。
对于本发明实施例,为了得到所述WiFi识别模型,所述步骤206具体可以包括:对所述样本词向量和所述类别标注进行抽样处理;将抽样后的样本词向量和类别标注拆分为训练集和测试集;利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。通过利用预设逻辑斯特回归拟合算法对所述训练集进行训练,能够提升训练模型的识别效率,通过利用所述测试集验证所述训练模型的效果直到满足预设条件,能够进一步提升所述WiFi识别模型的识别精确度。其中,所述预设条件可以为根据用户需要进行设置,例如,测试数据结果可以如下所示:
需要说明的是,步骤201-206训练所述WiFi识别模块的过程,还可以如图3所示,为了进一步地提升所述WiFi识别模型的识别准确性,在训练WiFi识别模型时,还可以对样本词向量进行dev处理,然后根据dev处理结果和预设逻辑斯特回归拟合算法,对训练集进行过度拟合训练,然后根据利用测试集对过度拟合训练的模型进行测试,直到所述WiFi识别模型满足预设条件。
207、利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量。
208、将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别。
对于本发明实施例,为了确定所述WiFi的类别,所述步骤208具体可以为:将所述词向量输入到所述WiFi识别模型进行匹配;确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值;若是,则根据所述样本词向量对应的类别标注确定所述WiFi的类别。其中,所述预设相似度阈值可以为0.8,0.9。
需要说明的是,词向量之间的相似度可以通过词向量之间的余弦距离表示,所述确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值,具体包括:确定所述词向量与所述样本词向量之间的余弦距离是否小于或者等于预设余弦距离。其中,所述预设余弦距离可以根据用户需求进行设置,例如,所述预设余弦距离可以为0.8,0.9等。所述余弦距离具体可以通过如下公式但不限于如下公式计算:
其中,θ表示词向量之间的夹角,x1k表示n维的所述词向量的特征值,x2k表示n维的样本词向量的特征值,n表示词向量空间的维度。通过计算词向量之间的距离,可以表示词与词之间的相似度。
209、根据识别的WiFi类别,确定是否利用所述WiFi运行应用程序。
例如,识别的WiFi为不安全WiFi,则可以禁止某些私密应用程序利用该不安全WiFi上网,以保护用户的合法权益。识别的WiFi为家庭WiFi,则通过自动向所述家庭WiFi对应的管理WiFi请求WiFi密码,然后实现自动连接WiFi,以运行移动终端上的应用程序
本发明实施例提供的另一种WiFi识别方法,与目前通过查询WiFi清单列表确定WiFi类别,即WiFi与WiFi清单列表中已有的WiFi匹配时,将已有的WiFi类别确定为所述WiFi的类别相比,本发明实施例能够利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;并将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的,从而能够实现通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。
进一步地,作为图1的具体实现,本发明实施例提供了一种WiFi识别装置,如图4所示,所述装置包括:处理单元31和确定单元32。
所述处理单元31,可以用于利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量。所述处理单元31是本装置中利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量的主要功能模块。其中,所述预设词向量模型可以为基于word2vec模型训练的。通过word2vec可以训练能够表示WiFi语义关系的词向量。
所述确定单元32,可以用于将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。所述确定单元32是本装置中将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别的主要功能模块,也是核心模块。
对于本发明实施例,如图5所示,为了训练所述WiFi识别模型,所述装置还包括:获取单元33、清洗单元34、分类单元35、标注单元36、训练单元37。
所述获取单元33,可以用于通过训练的用户画像获取WiFi列表。所述获取单元33是本装置中通过训练的用户画像获取WiFi列表的主要功能模块。
所述清洗单元34,可以用于对所述WiFi列表进行数据清洗,得到样本WiFi。所述清洗单元34是本装置中对对所述WiFi列表进行数据清洗,得到样本WiFi的主要功能模块。
所述处理单元35,可以用于利用预设词向量模型对所述样本WiFi进行词向量处理,得到所述样本WiFi对应的样本词向量。
所述分类单元36,可以用于利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类。所述分类单元36是本装置中利用利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类主要功能模块。
所述标注单元37,可以用于根据分类结果对所述样本词向量进行类别标注。所述标注单元37是本装置中根据分类结果对所述样本词向量进行类别标注的主要功能模块。
所述训练单元38,可以用于利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型。所述训练单元38是本装置中利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型的主要功能模块。
所述训练单元38,具体可以用于对所述样本词向量和所述WiFi标注进行抽样处理;将抽样后的样本词向量和WiFi标注拆分为训练集和测试集;利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。
所述训练单元38,具体可以用于对所述样本词向量和所述类别标注进行抽样处理;将抽样后的样本词向量和类别标注拆分为训练集和测试集;利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。
为了获取各个类别的种子词向量,所述确定单元31,还可以用于确定各个类别的种子WiFi。所述确定单元31还本装置中确定各个类别的种子WiFi的主要功能模块。
所述处理单元32,还可以用于利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量。所述处理单元32还是本装置中利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量的主要功能模块。
为了识别所述WiFi类别,所述确定单元32可以包括:匹配模块321和确定模块322。
所述匹配模块321,可以用于将所述词向量输入到所述WiFi识别模型进行匹配。
所述确定模块321,可以用于确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值。
所述确定模块321,还可以用于若所述词向量与所述样本词向量之间的相似度大于或者等于预设相似度阈值,则根据所述样本词向量对应的类别标注确定所述WiFi的类别。
所述确定模块321,具体可以用于确定所述词向量与所述样本词向量之间的余弦距离是否小于或者等于预设余弦距离。
对于为了保证应用程序的安全性,所述确定单元32,具体可以用于根据识别的WiFi类别,确定是否利用所述WiFi运行应用程序。
需要说明的是,本发明实施例提供的一种WiFi识别装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
基于上述如图1所示方法和如图4所示WiFi识别装置的实施例,本发明实施例还提供了一种WiFi识别装置的实体结构图,如图6所示,该装置包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。该装置还包括:总线43,被配置为耦接处理器41及存储器42。
通过本发明的技术方案,能够利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的,从而能够实现通过匹配表示WiFi的词向量即可以确定WiFi类别,能够克服现有技术在WiFi与已有WiFi相同的前提下,才能够确定WiFi类别的缺陷,且能够保证WiFi识别的准确性,进而能够提升WiFi识别精确度。
本发明技术方案还包括:
A1、一种WiFi识别方法,包括:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
A2、如A1所述的方法,所述利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量之前,所述方法还包括:
通过训练的用户画像获取WiFi列表;
对所述WiFi列表进行数据清洗,得到样本WiFi;
利用预设词向量模型对所述样本WiFi进行词向量处理,得到所述样本WiFi对应的样本词向量;
利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类;
根据分类结果对所述样本词向量进行类别标注;
利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型。
A3、如A2所述的方法,所述利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型,具体包括:
对所述样本词向量和所述类别标注进行抽样处理;
将抽样后的样本词向量和类别标注拆分为训练集和测试集;
利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;
利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。
A4、如A2所述的方法,所述利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类之前,所述方法还包括:
确定各个类别的种子WiFi;
利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量。
A5、如A1所述的方法,所述将所述词向量输入到所述WiFi识别模型进行匹配,以确定所述WiFi的类别,具体包括:
将所述词向量输入到所述WiFi识别模型进行匹配;
确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值;
若是,则根据所述样本词向量对应的类别标注确定所述WiFi的类别。
A6、如A5所述的方法,所述确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值,具体包括:
确定所述词向量与所述样本词向量之间的余弦距离是否小于或者等于预设余弦距离。
A7、如A1-A6任一项所述的方法,所述预设词向量模型为基于word2vec模型训练的。
A8、如A1-A6任一项所述的方法,所述方法还包括:
根据识别的WiFi类别,确定是否利用所述WiFi运行应用程序。
B9、一种WiFi识别装置,包括:
处理单元,用于利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
确定单元,用于将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
B10、如B9所述的装置,所述装置还包括:获取单元、清洗单元、分类单元、标注单元、训练单元,
所述获取单元,用于通过训练的用户画像获取WiFi列表;
所述清理单元,用于对所述WiFi列表进行数据清洗,得到样本WiFi;
所述处理单元,用于利用预设词向量模型对所述样本WiFi进行词向量处理,得到所述样本WiFi对应的样本词向量;
所述分类单元,用于利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类;
所述标注单元,用于根据分类结果对所述样本词向量进行类别标注;
所述训练单元,用于利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型。
B11、如B9所述的装置,
所述训练单元,具体用于对所述样本词向量和所述类别标注进行抽样处理;将抽样后的样本词向量和类别标注拆分为训练集和测试集;利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。
B12、如B9所述的装置,
所述确定单元,还用于确定各个类别的种子WiFi;
所述处理单元,还用于利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量。
B13、如B9所述的装置,所述确定单元包括:
匹配模块,用于将所述词向量输入到所述WiFi识别模型进行匹配;
确定模块,用于确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值;
所述确定模块,还用于若所述词向量与所述样本词向量之间的相似度大于或者等于预设相似度阈值,则根据所述样本词向量对应的类别标注确定所述WiFi的类别。
B14、如B13所述的装置,
所述确定模块,具体用于确定所述词向量与所述样本词向量之间的余弦距离是否小于或者等于预设余弦距离。
B15、如B9-B14任一项所述的装置,所述预设词向量模型为基于word2vec模型训练的。
B16、如B9-B14任一项所述的装置,所述确定单元,还用于根据识别的WiFi类别,确定是否利用所述WiFi运行应用程序。
C17、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
D18、一种WiFi识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的WiFi识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种WiFi识别方法,其特征在于,包括:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量之前,所述方法还包括:
通过训练的用户画像获取WiFi列表;
对所述WiFi列表进行数据清洗,得到样本WiFi;
利用预设词向量模型对所述样本WiFi进行词向量处理,得到所述样本WiFi对应的样本词向量;
利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类;
根据分类结果对所述样本词向量进行类别标注;
利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型。
3.根据权利要求2所述的方法,其特征在于,所述利用预设机器学习算法对所述样本词向量和所述类别标注进行训练,得到所述WiFi识别模型,具体包括:
对所述样本词向量和所述类别标注进行抽样处理;
将抽样后的样本词向量和类别标注拆分为训练集和测试集;
利用预设逻辑斯特回归拟合算法对所述训练集进行训练,得到训练模型;
利用所述测试集验证所述训练模型的效果直到满足预设条件,得到所述WiFi识别模型。
4.根据权利要求2所述的方法,其特征在于,所述利用预设聚类算法和各个类别的种子词向量,对所述样本词向量进行分类之前,所述方法还包括:
确定各个类别的种子WiFi;
利用预设词向量模型对所述各个类别的种子WiFi进行词向量处理,得到所述各个类别的种子词向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述词向量输入到所述WiFi识别模型进行匹配,以确定所述WiFi的类别,具体包括:
将所述词向量输入到所述WiFi识别模型进行匹配;
确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值;
若是,则根据所述样本词向量对应的类别标注确定所述WiFi的类别。
6.根据权利要求5所述的方法,其特征在于,所述确定所述词向量与所述样本词向量之间的相似度是否大于或者等于预设相似度阈值,具体包括:
确定所述词向量与所述样本词向量之间的余弦距离是否小于或者等于预设余弦距离。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述预设词向量模型为基于word2vec模型训练的。
8.一种WiFi识别装置,其特征在于,包括:
处理单元,用于利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
确定单元,用于将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
10.一种WiFi识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
利用预设词向量模型对WiFi进行词向量处理,得到所述WiFi对应的词向量;
将所述词向量输入到预先训练的WiFi识别模型进行匹配,以确定所述WiFi的类别,所述WiFi识别模型为利用预设机器学习算法对样本WiFi对应的样本词向量和所述样本词向量对应的类别标注进行训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332020.9A CN108112026B (zh) | 2017-12-13 | 2017-12-13 | WiFi识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332020.9A CN108112026B (zh) | 2017-12-13 | 2017-12-13 | WiFi识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108112026A true CN108112026A (zh) | 2018-06-01 |
CN108112026B CN108112026B (zh) | 2021-10-22 |
Family
ID=62216743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711332020.9A Active CN108112026B (zh) | 2017-12-13 | 2017-12-13 | WiFi识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108112026B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951846A (zh) * | 2019-03-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 无线网络识别方法、装置、存储介质及计算机设备 |
CN112364169A (zh) * | 2021-01-13 | 2021-02-12 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN113177101A (zh) * | 2021-06-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 用户轨迹识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965905A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种网页分类的方法和装置 |
CN105516499A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 一种对短信进行分类的方法、装置、通信终端及服务器 |
US20160357845A1 (en) * | 2014-04-29 | 2016-12-08 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium |
CN106488493A (zh) * | 2015-08-24 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 识别用户的网络热点类型的方法和装置及电子设备 |
CN107133689A (zh) * | 2017-04-19 | 2017-09-05 | 清华大学深圳研究生院 | 一种位置标记方法 |
CN107391543A (zh) * | 2017-05-24 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 一种无线热点的类型识别方法和装置 |
-
2017
- 2017-12-13 CN CN201711332020.9A patent/CN108112026B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160357845A1 (en) * | 2014-04-29 | 2016-12-08 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium |
CN104965905A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种网页分类的方法和装置 |
CN106488493A (zh) * | 2015-08-24 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 识别用户的网络热点类型的方法和装置及电子设备 |
CN105516499A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 一种对短信进行分类的方法、装置、通信终端及服务器 |
CN107133689A (zh) * | 2017-04-19 | 2017-09-05 | 清华大学深圳研究生院 | 一种位置标记方法 |
CN107391543A (zh) * | 2017-05-24 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 一种无线热点的类型识别方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951846A (zh) * | 2019-03-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 无线网络识别方法、装置、存储介质及计算机设备 |
CN112364169A (zh) * | 2021-01-13 | 2021-02-12 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN112364169B (zh) * | 2021-01-13 | 2022-03-04 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN113177101A (zh) * | 2021-06-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 用户轨迹识别方法、装置、设备及存储介质 |
CN113177101B (zh) * | 2021-06-30 | 2021-11-12 | 平安科技(深圳)有限公司 | 用户轨迹识别方法、装置、设备及存储介质 |
WO2023273298A1 (zh) * | 2021-06-30 | 2023-01-05 | 平安科技(深圳)有限公司 | 用户轨迹识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108112026B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446524B (zh) | 一种语音质检方法及装置 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN110781299A (zh) | 资产信息识别方法、装置、计算机设备及存储介质 | |
CN109922032A (zh) | 用于确定登录账户的风险的方法和装置 | |
Alberink et al. | Fingermark evidence evaluation based on automated fingerprint identification system matching scores: the effect of different types of conditioning on likelihood ratios | |
CN108112026A (zh) | WiFi识别方法及装置 | |
WO2022156065A1 (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN112199602B (zh) | 岗位推荐方法、推荐平台及服务器 | |
CN110427375B (zh) | 字段类别的识别方法及装置 | |
US20170011480A1 (en) | Data analysis system, data analysis method, and data analysis program | |
CN116150349A (zh) | 一种数据产品安全合规性检查方法、装置及服务器 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN111582645B (zh) | 基于因子分解机的app风险评估方法、装置和电子设备 | |
CN107291774A (zh) | 错误样本识别方法和装置 | |
CN106888201A (zh) | 一种校验方法及装置 | |
CN107909414A (zh) | 应用程序的反作弊方法及装置 | |
CN108763337A (zh) | 用于确定影响力指数的方法及其装置 | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
CN113554438A (zh) | 账号的识别方法、装置、电子设备及计算机可读介质 | |
CN107665443B (zh) | 获取目标用户的方法及装置 | |
CN109471920A (zh) | 一种文本标识的方法、装置、电子设备及存储介质 | |
CN115310091A (zh) | 基于融合模型的目标安全等级识别方法、装置及电子设备 | |
CN104050191B (zh) | 对推广信息进行监控的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |