CN112101485B - 目标设备识别方法、电子设备及介质 - Google Patents

目标设备识别方法、电子设备及介质 Download PDF

Info

Publication number
CN112101485B
CN112101485B CN202011257344.2A CN202011257344A CN112101485B CN 112101485 B CN112101485 B CN 112101485B CN 202011257344 A CN202011257344 A CN 202011257344A CN 112101485 B CN112101485 B CN 112101485B
Authority
CN
China
Prior art keywords
model
preset
hyper
equipment
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011257344.2A
Other languages
English (en)
Other versions
CN112101485A (zh
Inventor
陈玉琪
朱金星
张静雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhenxin Technology Co ltd
Original Assignee
Beijing Yunzhenxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhenxin Technology Co ltd filed Critical Beijing Yunzhenxin Technology Co ltd
Priority to CN202011257344.2A priority Critical patent/CN112101485B/zh
Publication of CN112101485A publication Critical patent/CN112101485A/zh
Application granted granted Critical
Publication of CN112101485B publication Critical patent/CN112101485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种目标设备识别方法、电子设备及介质,所述方法包括步骤S1、获取多个样本设备信息,构建训练集,样本设备包括目标设备和非目标设备;步骤S2、基于预设的第一算法框架将训练集的样本数据进行预处理;步骤S3、基于预设的第二算法框架获取预设模型的超参数,所述预设模型包括多个子模型;步骤S4、基于预设的第一算法框架、预处理后的训练集的样本数据、预设模型的超参数进行模型训练,得到设备分类模型;步骤S5、获取待测设备对应的自变量特征向量并输入所述设备分类模型,得到分类预测值,判断所述分类预测值是否大于预设的分类阈值,若大于,则确定所述待测设备为目标设备。本发明提高了设备信息实时变化的场景的目标设备识别效率。

Description

目标设备识别方法、电子设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种目标设备识别方法、电子设备及介质。
背景技术
随着人工智能技术的快速发展,目标设备识别领域通常建立设备分类模型来判断待测设备是否为目标设备。现有的设备分类模型多是以分类精确性为目标构建的,识别精确度高,模型训练时间长,适用于相对稳定的应用场景下的设备信息识别。但是,对于实时变化的场景下的设备信息是被,则不再适用,由于模型训练时间长,训练效率低,无法满足实时性要求,造成目标识别效率低。因此,如何提供一种适用于设备信息实时变化的场景的设备信息识别技术成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种目标设备识别方法、电子设备及介质,提高了设备信息实时变化的场景的目标设备识别效率。
根据本发明第一方面,提供了一种目标设备识别方法,包括:
步骤S1、获取多个样本设备信息,构建训练集,所述样本设备包括目标设备和非目标设备;
步骤S2、基于预设的第一算法框架将所述训练集的样本数据进行预处理;
步骤S3、基于预设的第二算法框架获取预设模型的超参数,所述预设模型包括多个子模型;
步骤S4、基于预设的第一算法框架、预处理后的训练集的样本数据、预设模型的超参数进行模型训练,得到设备分类模型;
步骤S5、获取待测设备对应的自变量特征向量并输入所述设备分类模型,得到分类预测值,判断所述分类预测值是否大于预设的分类阈值,若大于,则确定所述待测设备为目标设备。
根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。
根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种目标设备识别方法、电子设备及介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明采用第一算法框架对样本数据进行预处理,以及模型自动集成,采用第二算法框架获取模型超参数,提高了模型训练效率,满足了实时性要求,从而提高了设备信息实时变化的场景的目标设备识别效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的目标设备识别方法流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种目标设备识别方法、电子设备及介质的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种目标设备识别方法,如图1所示,包括以下步骤:
步骤S1、获取多个样本设备信息,构建训练集,所述样本设备包括目标设备和非目标设备;
其中,作为一种实施例,预先构建存储有设备id和其他相关设备信息的数据库,在进行目标设备识别过程中,可以先获取到设备id,再基于设备id来获取对应的设备信息,从而从多个设备信息维度构建自变量特征,提高设备分类模型的可靠性。所述步骤S1可以包括:
步骤S11、获取多个样本设备的设备id;
步骤S12、从预设的数据库中获取每一设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息;
同类别类型的设备所连接的wifi地址和app行为信息是具有共性的,因此,可获取这两个特征构建自变量特征,app行为包括app安装行为和app使用行为。
步骤S13、基于每一设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息构建自变量特征,目标设备对应的分类实际值为1,即目标设备对应的设备信息为正样本;非目标设备对应的分类实际值为0,即非目标设备对应的设备信息为负样本;
步骤S14、根据预设的映射表,将每一自变量特征转换为自变量特征向量,所述映射表中包括自变量特征和唯一转换数值之间的映射关系,即每一自变量特征均可以映射为唯一的数值,从而构建自变量特征向量。
步骤S15、基于每一设备id对应的自变量特征向量和对应的分类实际值构建所述训练集。
需要说明的是,步骤S11-步骤S15仅仅是获取自变量特征向量构建训练集的一种实施方式,并不仅局限于此,因为设备id、wifi地址信息和app行为信息都是具有关联性的,构建训练样本时,还可通过wifi地址信息来获取到样本设备信息。例如,预设数据库中还包括wifi地址信息的风险划分等级,目标设备为高风险设备,则可通过先获取高风险等级的wifi地址信息,再基于高风险等级的wifi地址信息获取到对应的app行为信息等设备信息,来构建训练集。风险等级的wifi地址信息包括但不限于wifissid中命中预设敏感词的wifi地址、设备农场wifi地址等。
步骤S2、基于预设的第一算法框架将所述训练集的样本数据进行预处理;
为了降低人工的介入,由计算机独立学习,可以直接采用预设的第一算法框架来对样本数据进行预处理,作为一种实施例,所述步骤S2包括:
步骤S21、检测每一待输入模型的自变量,若存在空白字段,则采用mising字段填充所述空白字段;
其中,当有多个设备id时,部分设备id对应的wifi地址和app行为可能为空,通过步骤S21对空白字段的处理,提高了模型训练的精确度。
步骤S22、根据预设的第一算法框架的统一化处理规则,将所有经过步骤S21处理后的自变量特征向量进行统一化处理。
作为一种实施例,所述第一算法框架可以为auto_sklearn算法框架,可以理解的是,除了执行步骤S21-步骤S22中的预处理过程以外,还可根据具体模型训练需求,执行auto_sklearn算法框架中的现有的其他数据预处理过程,在此不再展开描述。
步骤S3、基于预设的第二算法框架获取预设模型的超参数,所述预设模型包括多个子模型;
由于auto_sklearn算法框架中的超参数获取的过程,需要遍历每一种超参数组合,训练次数多、训练效率低,且可能会存在不必要的重复计算,浪费计算资源,这样的超参数获取的过程并不适合与本发明实施例所述的实时性要求高的设备数据的识别。因此,步骤S3采用另一种用于获取模型超参数的第二算法框架来替代第一算法框架中的模型超参数的算法,减少超参数组合、减少训练次数,提高训练效率。
作为一种实施例,所述步骤S3包括:
步骤S31、获取预设模型的每一超参数对应的待选择的数据集;
步骤S32、随机从每一超参数对应的待选择的数据集中选择一个数据,组成超参数组合;
步骤S32中可以采用随机搜索算法或者TPE算法(Tree of Parzen Estimators,优化后的贝叶斯自动调参)随机从每一超参数对应的待选择的数据集中选择一个数据。通过步骤S32可以大大减少迭代次数,提高了优化效率。具体的,所述第二算法框架可以为Hyperopt算法框架。所述预设模型可以为GBDT(梯度提升树)模型,GBDT模型是一种基于集成思想的决策树模型,对应的超参数包括boosting框架参数,GBDT类库弱学习器参数两类,boosting框架参数包括弱学习器的最大迭代次数、每个弱学习器的权重缩减系数、子采样等;GBDT类库弱学习器包括划分时考虑的最大特征数、决策树最大深度、内部节点再划分所需最小样本数等等。
步骤S33、循环执行步骤S32预设M次,得到M组超参数组合;
其中,M为正整数,M的具体大小根据具体训练的精度、训练效率需求来综合设定,但可以理解的是,M值小于第一算法框架中的模型超参数的算法的迭代次数。
步骤S34、从所述M组超参数组合中确定最优超参数组合作为所述预设模型的超参数。
基于第二算法框架可以自动从M组超参数组合中确定最优超参数组合作为所述预设模型的超参数,在此不再展开描述。
步骤S4、基于预设的第一算法框架、预处理后的训练集的样本数据、预设模型的超参数进行模型训练,得到设备分类模型;
所述步骤S4包括:
步骤S41、基于预设的第一算法框架和预设模型的超参数对预设模型中的子模型自动分配对应的权重值并进行集成,将预处理后的训练集的样本数据输入集成模型中进行训练,得到集成模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重;
步骤S42、基于所有训练得到的集成模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重生成模型参数列表,并将所述模型参数列表呈现在信息交互界面上;
步骤S43、接收用户输入的参数选择指令,根据所述选择指令确定所述设备分类模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重,从而得到所述设备分类模型。
基于第一算法框架会自动进行模型集成训练,并得到多种训练结果,可以直接通过列表形式展示给用户,用户根据具体的应用需求选择对应的待训练模型参数和每一子模型对应的权重。例如应用需求为稳定度尽可能高,则直接从列表中选择稳定度最高的待训练模型参数和每一子模型对应的权重。再如,应用需求需要兼顾稳定度和精确度,则需要从中选取稳定性高于预设稳定度阈值且精确度也高于精确度阈值的待训练模型参数和每一子模型对应的权重。使得模型训练的结果更加适用于数据特征。
步骤S5、获取待测设备对应的自变量特征向量并输入所述设备分类模型,得到分类预测值,判断所述分类预测值是否大于预设的分类阈值,若大于,则确定所述待测设备为目标设备。
可以理解的是,步骤S5中,可以首先获取到设备id,然后基于设备id从预设的数据库中获取待测设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息,基于每一待测设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息构建自变量特征,根据预设的第一映射表,每一待测设备id的自变量特征映射为自变量特征向量。
需要说明的是,本发明一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序仅是为了引用方便的目的予以编排,并不意味着步骤执行的必然顺序,即可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明实施例所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机指令用于执行本发明实施例所述的方法。
本发明实施例采用第一算法框架对样本数据进行预处理,以及模型自动集成,采用第二算法框架获取模型超参数,减少了模型超参数获取过程中的迭代次数,提高了模型训练效率,满足了实时性要求,从而提高了设备信息实时变化的场景的目标设备识别效率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种目标设备识别方法,其特征在于,包括:
步骤S1、获取多个样本设备信息,构建训练集,所述样本设备包括目标设备和非目标设备;
步骤S2、基于预设的第一算法框架将所述训练集的样本数据进行预处理;
步骤S3、基于预设的第二算法框架获取预设模型的超参数,所述预设模型包括多个子模型;
步骤S4、基于预设的第一算法框架、预处理后的训练集的样本数据、预设模型的超参数进行模型训练,得到设备分类模型;
所述步骤S4包括:
步骤S41、基于预设的第一算法框架和预设模型的超参数对预设模型中的子模型自动分配对应的权重值并进行集成,将预处理后的训练集的样本数据输入集成模型中进行训练,得到集成模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重;
步骤S42、基于所有训练得到的集成模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重生成模型参数列表,并将所述模型参数列表呈现在信息交互界面上;
步骤S43、接收用户输入的参数选择指令,根据所述选择指令确定所述设备分类模型对应的待训练模型参数、精确度、稳定度以及每一子模型对应的权重,从而得到所述设备分类模型;
步骤S5、获取待测设备对应的自变量特征向量并输入所述设备分类模型,得到分类预测值,判断所述分类预测值是否大于预设的分类阈值,若大于,则确定所述待测设备为目标设备。
2.根据权利要求1所述的方法,其特征在于,
所述步骤S1包括:
步骤S11、获取多个样本设备的设备id;
步骤S12、从预设的数据库中获取每一设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息;
步骤S13、基于每一设备id对应的预设时间段内登陆过的wifi地址信息和app行为信息构建自变量特征,目标设备对应的分类实际值为1,非目标设备对应的分类实际值为0;
步骤S14、根据预设的映射表,将每一自变量特征转换为自变量特征向量,所述映射表中包括自变量特征和唯一转换数值之间的映射关系,从而构建自变量特征向量;
步骤S15、基于每一设备id对应的自变量特征向量和对应的分类实际值构建所述训练集。
3.根据权利要求2所述的方法,其特征在于,
所述步骤S2包括:
步骤S21、检测每一待输入模型的自变量,若存在空白字段,则采用mising字段填充所述空白字段;
步骤S22、根据预设的第一算法框架的统一化处理规则,将所有经过步骤S21处理后的自变量特征向量进行统一化处理。
4.根据权利要求1所述的方法,其特征在于,
所述步骤S3包括:
步骤S31、获取预设模型的每一超参数对应的待选择的数据集;
步骤S32、随机从每一超参数对应的待选择的数据集中选择一个数据,组成超参数组合;
步骤S33、循环执行步骤S32预设M次,得到M组超参数组合;
步骤S34、从所述M组超参数组合中确定最优超参数组合作为所述预设模型的超参数。
5.根据权利要求4所述的方法,其特征在于,
步骤S32中采用随机搜索算法或者TPE算法随机从每一超参数对应的待选择的数据集中选择一个数据。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,
所述第一算法框架为auto_sklearn算法框架,所述第二算法框架为Hyperopt算法框架。
7.根据权利要求6所述的方法,其特征在于,
所述预设模型为GBDT模型。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行前述权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行前述权利要求1-7中任一项所述的方法。
CN202011257344.2A 2020-11-12 2020-11-12 目标设备识别方法、电子设备及介质 Active CN112101485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011257344.2A CN112101485B (zh) 2020-11-12 2020-11-12 目标设备识别方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011257344.2A CN112101485B (zh) 2020-11-12 2020-11-12 目标设备识别方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN112101485A CN112101485A (zh) 2020-12-18
CN112101485B true CN112101485B (zh) 2021-02-05

Family

ID=73785020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011257344.2A Active CN112101485B (zh) 2020-11-12 2020-11-12 目标设备识别方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN112101485B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561000B (zh) * 2021-02-22 2021-05-28 腾讯科技(深圳)有限公司 基于组合模型的分类方法、装置、设备及存储介质
CN113032643B (zh) * 2021-03-18 2023-06-23 北京云真信科技有限公司 目标行为识别系统
CN113283483B (zh) * 2021-05-14 2022-07-15 杭州云深科技有限公司 一种基于wifi的设备类型确定方法、电子设备及存储介质
CN113486055B (zh) * 2021-06-30 2023-09-08 杭州云深科技有限公司 用于确定公共wifi类别的数据处理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866876A (zh) * 2020-06-02 2020-10-30 东南大学 一种基于频偏预处理的无线设备识别方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034177B (zh) * 2018-05-24 2022-07-29 东南大学 一种移动智能终端室内外识别方法
US20220004921A1 (en) * 2018-09-28 2022-01-06 L&T Technology Services Limited Method and device for creating and training machine learning models
CN110308661B (zh) * 2019-06-06 2020-12-22 美的集团股份有限公司 基于机器学习的智能设备控制方法及装置
CN110598774B (zh) * 2019-09-03 2023-04-07 中电长城网际安全技术研究院(北京)有限公司 加密流量检测方法及装置、计算机可读存储介质、电子设备
CN111008705B (zh) * 2019-12-06 2024-02-13 东软集团股份有限公司 一种搜索方法、装置及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866876A (zh) * 2020-06-02 2020-10-30 东南大学 一种基于频偏预处理的无线设备识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN112101485A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101485B (zh) 目标设备识别方法、电子设备及介质
US10650042B2 (en) Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
US11144817B2 (en) Device and method for determining convolutional neural network model for database
US20220121934A1 (en) Identifying neural networks that generate disentangled representations
CN107544960B (zh) 一种基于变量绑定和关系激活的自动问答方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
Kasaei et al. Coping with context change in open-ended object recognition without explicit context information
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN114609994A (zh) 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
CN115392301A (zh) 换流变压器状态识别方法、装置、设备、介质和程序产品
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN116244069A (zh) 一种扩缩容方法、装置、电子设备和可读存储介质
CN116451093A (zh) 电路故障分析模型的训练方法以及电路故障分析方法
CN111325284A (zh) 一种基于多目标动态分布自适应学习方法及装置
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
WO2020240572A1 (en) Method for training a discriminator
KR20200092989A (ko) 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
US20240046120A1 (en) Training method and prediction method for diagenetic parameter prediction model based on artificial intelligence algorithm
CN106780636B (zh) 一种图像的稀疏重构方法及装置
CN111782805A (zh) 一种文本标签分类方法及系统
CN116976491A (zh) 一种信息预测方法、装置、设备、存储介质及程序产品
CN115983377A (zh) 基于图神经网络的自动学习方法、装置、计算设备及介质
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
CN113128130B (zh) 一种判断直流配电系统稳定性的实时监测方法及装置
CN110033096B (zh) 一种用于强化学习的状态数据生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant