CN115348551A - 一种轻量化业务识别方法、装置、电子设备及存储介质 - Google Patents

一种轻量化业务识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115348551A
CN115348551A CN202210867226.6A CN202210867226A CN115348551A CN 115348551 A CN115348551 A CN 115348551A CN 202210867226 A CN202210867226 A CN 202210867226A CN 115348551 A CN115348551 A CN 115348551A
Authority
CN
China
Prior art keywords
data
network
model
student network
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210867226.6A
Other languages
English (en)
Inventor
朱晓荣
何明坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210867226.6A priority Critical patent/CN115348551A/zh
Publication of CN115348551A publication Critical patent/CN115348551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种轻量化业务识别方法、装置、电子设备及存储介质,包括数据抓取和机器学习,对于通过网络抓包工具抓取终端是设备产生得的流量数据包,对抓取的数据包进行数据预处理成机器学习模块所需要的规整化的数据格式,已经抓取的原始数据包经过预处理后,输入到机器学习模块并进行压缩处理,通过知识蒸馏方法对大规模教师网络的输出概率分布进行蒸馏处理,传递给小规模学生网络进行指导优化来实现知识的迁移,从而通过小规模的学生网络训练出参数量少的业务识别模型。在保证识别准确率的前提下,压缩大规模的教师网络的业务识别模型以满足在资源受限的场景下部署业务识别轻量化系统的需求。

Description

一种轻量化业务识别方法、装置、电子设备及存储介质
技术领域
本发明属于通信网络技术领域,具体涉及一种轻量化业务识别方法、装置、电子设备及存储介质。
背景技术
随着网络规模的不断扩大和各类网络应用的持续发展,互联网已经成为人类生活中不可或缺的基础设施。流量检测作为一种有效的网络防护手段,为网络态势感知提供重要支持。目前主要有基于端口的流量识别方法,对于可变端口业务能够做到准确识别的方法,基于流量统计特性的识别方法和跨层业务等识别方法。由于多媒体业务应用正越来越多的引入安全加密技术和P2P计算技术,使得原有的流量识别方法不再适用,越来越难以准确高效的识别多媒体信息流。目前基于机器学习的业务识别方法主要通过分析业务流的统计特征来实现,而在业务流中提取有效特征是比较困难,因此识别精度不高。因此,越来越多的流量识别技术采用深度学习的方法,一般来说,随着神经网络的规模越来越大,识别效果会越来越好。本文采用知识蒸馏的方法,对深度学习模型进行轻量化,并在不同的经典算法中进行对比实验,以满足在资源受限的场景下进行业务识别轻量化系统的设计实现。
网络业务识别问题由来已久,传统的业务识别在获取特征时比较困难,影响业务识别的精准度数,而现有的特征选择与提取方法需要研究者付出大量的时间精力。神经网络的因为其能子提取数据中的特征而被广泛应用于各种计算机视觉相关的任务中。依据此特点,将其应用在难以提取特征的业务识别系统中,是本文研究的基础。
随着配套硬件设备的发展对卷积神经网络认识的不断加深,研究表明越深的网络能够提取越抽象的语义信息,网络的表示能力越强。然而更宽更深的神经网络将难以收敛,并且会导致反向传播算法中的梯度小时。残差网络和ResNet和批量归一化(BatchNormalization,BN)在一定程度上能够解决这一问题,但是大量参数的神经学习模型需要更大的存储空间和更强的运算单元,无法在移动终端上进行部署和实时推理,从而影响深度学习模型在实际应用中的落地和推广。例如公共区域的业务识别系统多部署在内存有限和计算能力较低的嵌入式设备上,无法实时准确地对业务流进行准确,快速地识别。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种轻量化业务识别方法、电子设备及存储介质。
为了实现上述技术目的,本发明的技术方案为:
一种轻量化业务识别方法,包括以下步骤:
1)启动基站,将手机接入基站所覆盖的网络中,通过MEC系统获取手机使用过程中的流量数据包信息;
2)对手机中的流量使用数据进行筛选提取其中的字节信息,并进行分类,将分类后的流量使用数据构建数据集;
3)构建学生网络模型和教师网络模型,通过知识蒸馏对识别模型进行轻量化,将教师网络模型中;
4)将训练好的学生网络部署在资源受限的场景中,在资源受限场景中对终端设备产生的业务流量进行准确高效的识别。
优选地,所述步骤1)具体包括:
步骤101,PC1启动,配置网段IP,打开启动基站的工具,启动基站,基站启动成功后,手机开机接入;
步骤102,电脑连接路由器,打开web控制界面,更改路由器1和路由器2的静态路由;
步骤103,PC2启动,远程登录MEC系统,将实现数据自动抓取的脚本传入指定文件夹,通过expect工具与脚本实现MEC系统与PC2之间文件的免密传输;
步骤104,启动手机上的app应用,为实现抓取某一类应用流量的目的,在一段时间内只运行一个应用,app产生的流量经过MEC系统自动传输到PC2的文件夹里,实现流量的自动抓取功能并且抓取到的数据集满足训练的要求。
优选地,所述步骤2)具体包括:
步骤201,打开jupyter,安装python3.7、pandas和numpy支撑库;
步骤202,微博、QQ、微信、视频、邮件、淘宝业务每类取10万条数据,手动提取字节信息,并给分类打上类别标签,将所有数据以对应类别集合生成数据集;
步骤203,对数据集中的字节进行编码处理,将16进制的字节信息转换为10进制的数据;便于后续的模型训练使用;
步骤204,对处理后的数据进行统一度处理,每条数据集选取256个数据点即处理后的256个字节信息;对于数据集中超过256个字节的数据删除后续的字节信息;对于每条数据集中不足256个字节的数据在末尾补0达到长度为256;
步骤205,数据集中每一条数据为长度为256的维的向量,鉴于深度学习在图像领域中的固有优势,将数据转化为图像格式作为模型输入,即模仿灰度图像的数据格式,将数据转为为2维像素点格式,即转化为16*16的二维矩阵,通过python中reshape操作实现。
优选地,所述步骤3)具体包括:
步骤301.构建学生网络,结构依次为二维卷积层、池化层、二维卷积层、全连接层、dropout层、标准化层、全连接层、dropout层、全连接层和线形层;
步骤302,构建TextCNN作为教师网络,由词嵌入、卷积、池化和全连接softmax四部分组成,在词嵌入层,将预训练的数据作为该层的输入,数据集中的所有编码后的每一个字节信息,都表征成一个向量,输入的矩阵数据中每一行都是词向量;将字节信息转换为二维矩阵格式;卷积核的宽度固定为词向量的维度16,通过卷积操作得到特征图信息;不同卷积核所得到的特征图大小不同,池化层对特征图进行池化处理,使得特征图的维度相同;通过全连接层+softman得到对目标识别的概率分布;最后通过传递输出的概率分布来指导学生网络的模型的训练;
步骤303,将教师网络部署在云服务器进行训练,将学生网络部署在本地pc进行训练;
步骤304,将预处理之后的数据通过教师网络TextCNN进行训练得到为未轻量化的业务识别模型;
步骤305,通过知识蒸馏来对业务识别模型进行轻量化,通过蒸馏大规模教师网络的输出概率分布,传递给小规模学生网络进行指导优化来实现知识的迁移,通过小规模的学生网络训练出参数量少的业务识别模型,将教师网络的知识传递给学生网络,在不增加学生网络的模型大小前提下,提升学生网络的识别准确率。
优选地,步骤303包括以下步骤:
通过使用Softmax输出层来产生分类概率,将计算出的每个类别的Logits转换为分类概率,公式表达如下:
Figure BDA0003759089540000041
其中zi为Logits的第i个分量,T为温度参数,越高的温度会产生越软的类间分类概率;
知识蒸馏损失包括分类概率间的交叉熵和学生网络的分类预测与真实标签间的交叉熵损失,温度为1,总损失函数Lkd公式表达如下:
Figure BDA0003759089540000042
其中N为小批量的尺寸,LCE代表交叉熵,σ()代表Softmax函数,T为蒸馏温度,yi为样本i的真实标签,
Figure BDA0003759089540000043
Figure BDA0003759089540000044
分别为分类任务的学生网络和教师网络输出的Logits;
当教师网络预测错误时,知识同样会转移到学生网络身上,这将会影响学生网络的表现,因此改迚传统知识蒸馏的方法,忽略教师网络错误的预测分布,只把正确的预测分布传递给学生网络,改进总损失函数L*KD公式表达如下:
Figure BDA0003759089540000045
其中
Figure BDA0003759089540000046
为指示函数,
Figure BDA0003759089540000047
为学生网络预测的标签,当教师网络能够正确预测输入样本的分类时,指示函数为1,学生网络同时学习样本标签和教师网络输出的软目标;教师网络无法正确分类时,指示函数为0,仅计算学生网络的分类情况和真实标签间的交叉熵。
优选地,所述步骤4)具体包括:
步骤401,舍弃教师模型,保存训练好学生网络模型;
步骤402,将模型部署在资源受限的场景中,轻量化后的模型具备较高的识别准确率,较低的参数量使得模型推演速度加快从而获更短的业务识别时间。
一种轻量化业务识别方法的装置,包括:
数据抓取模块:其被配置用于抓取终端设备产生的流量数据包,对抓取的数据包进行数据预处理成机器学习模块所需要的规整化的数据格式,已经抓取的原始数据包经过预处理后,输入到机器学习模块并进行压缩处理;
机器学习模块:其被配置用于通过知识蒸馏方法对大规模教师网络的输出概率分布进行蒸馏处理,传递给小规模学生网络进行指导优化来实现知识的迁移,从而通过小规模的学生网络训练出参数量少的业务识别模型。
一种电子设备,包括:存储器和处理器,存储器存储由处理器可执行的计算机程序,处理器执行计算机程序时实现上述任一项所述的业务识别方法。
一种存储介质,存储介质上存储有计算机程序,计算机程序被读取并执行时,实现上述任一项所述的业务识别方法。
采用上述技术方案带来的有益效果:
本发明提出了一种轻量化业务识别方法,该方法解决了传统业务识别系统难以部署在资源受限的场景中的问题,通过网络抓包工具已经抓取的原始数据包经过预处理后,输入到机器学习模块并进行压缩处理,在保证识别准确率的前提下,压缩业务识别模型以满足在资源受限的场景下部署业务识别轻量化系统。关键点如下:
1.核心是基于知识蒸馏的业务识别算法,针对业务识别系统模型进行轻量化处理.
2.合理构建学生模型以及教师模型的神经网络参数,提高模型业务识别精确度以及保证模型压缩比率.
3.针对业务流数据特点,采用文本卷积相关模型,提取数据流前后相关语义,强化业务识别准确率.
附图说明
图1是本发明轻量化业务识别整体流程图;
图2是本发明数据抓取流程图;
图3是本发明教师网络选取网络图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
对于资源受限的环境中部署业务类型系统的应用场景,本发明提出了一种基于知识蒸馏的轻量化业务实时识别方法,如图1所示,包括以下步骤:
1)数据抓取,如图2所示,包括如下步骤:
步骤101,PC1启动,配置网段IP,打开启动基站的工具,启动基站,基站启动成功后,手机开机接入;
步骤102,电脑连接路由器,打开web控制界面,更改路由器1和路由器2的静态路由;
步骤103,PC2启动,远程登录MEC系统,将实现数据自动抓取的脚本传入指定文件夹,通过expect工具与脚本实现MEC系统与PC2之间文件的免密传输;
步骤104,启动手机上的app应用,为实现抓取某一类应用流量的目的,在一段时间内只运行一个应用,app产生的流量经过MEC系统自动传输到PC2的文件夹里,实现了流量的自动抓取功能并且抓取到的数据集是干净的,满足训练的要求。
2)数据预处理,包括如下步骤:
步骤201,打开jupyter,安装python3.7,pandas,numpy等支撑库
步骤202,微博、QQ、微信、视频、邮件、淘宝业务每类取10万条数据,手动提取字节信息,并给分类打上类别标签,分别对应0-5。将所有数据以对应类别放入一个表格以供后续模型训练使用。
步骤203,对数据集中的字节进行编码处理,将16进制的字节信息转换为10进制的数据。便于后续的模型训练使用。
步骤204,对处理后的数据进行统一度处理,每条数据集选取256个数据点即处理后的256个字节信息;对于数据集中超过256个字节的数据删除后续的字节信息;对于每条数据集中不足256个字节的数据在末尾补0达到长度为256.
步骤205,数据集中每一条数据为长度为256的维的向量,鉴于深度学习在图像领域中的固有优势,将数据转化为图像格式作为模型输入,即模仿灰度图像的数据格式,将数据转为为2维像素点格式,即转化为16*16的二维矩阵,通过python中reshape操作实现。
3)模型训练,包括如下步骤:
步骤301.学生网络选取较为简单的结构,学生网络结构依次为二维卷积层、池化层、二维卷积层、全连接层、dropout层、标准化层、全连接层、dropout层、全连接层和线形层;
步骤302,教师网络模型参数量为学生网络的十倍多,经典算法如图3所示,由于字节信息为数字一维数组存放,且数据前后语义对于业务识别起到正向作用,采用文本分类中经典算法,TextCNN作为教师网络,由词嵌入、卷积、池化、全连接+softmax四部分组成,在词嵌入层,将预训练的数据作为该层的输入,数据集中的所有编码后的每一个字节信息,都可以表征成一个向量,输入的矩阵数据中每一行都是词向量;字节信息无法直接被计算机所识别,因此需要编码,转换为二维矩阵格式。卷积层的作用是提取特征,卷积核的宽度固定为词向量的维度16,高度是超参数,可以有不同设置,通过卷积操作得到特征图信息。不同的卷积核所得到的特征图大小也是不一样的,池化层的作用是对特征图进行池化处理,使得特征图的维度相同。神经网络的最后一层往往全连接层+softman,目的是得到对目标识别的概率分布。鉴于TextCNN算法对业务流量识别的高准确率而将其选择为教师网络,通过传递其输出的概率分布来指导学生网络的模型的训练,从而达到知识迁移,模型压缩的目的。
步骤303,教师网络部署在云服务器,学生网络部署在本地pc
步骤304,通过知识蒸馏来对业务识别模型进行轻量化,将教师网络的知识传递给学生网络,在不增加学生网络的模型大小前提下,提升学生网络的识别准确率。知识蒸馏的基本思想是通过最小化教师网络和学生网络间的预测分布的差异,使学生网络近似于教师网络。神经网络通常通过使用Softmax输出层来产生分类概率,将计算出的每个类别的Logits转换为分类概率,如式(1)所示:
Figure BDA0003759089540000071
其中z i为Logits的第i个分量,T为温度参数,越高的温度会产生越软的类间分类概率。知识蒸馏损失有两部分组成,一是分类概率间的交叉熵,学生网络和教师网络使用相同的温度T,二是学生网络的分类预测与真实标签间的交叉熵损失,温度为1,如式(2)所示:
Figure BDA0003759089540000072
其中N为小批量的尺寸,LCE代表交叉熵,也可以用相对熵,即Kullback-Leibler散度代替。σ()代表Softmax函数,T为蒸馏温度,yi为样本i的真实标签,
Figure BDA0003759089540000073
Figure BDA0003759089540000074
分别为分类任务的学生网络和教师网络输出的Logits.虽然训练初期教师网络比学生网络更准确,但教师仍然会有一些预测错误。当教师网络预测错误时,知识同样会转移到学生网络身上,这将会影响学生网络的表现。因此改迚传统知识蒸馏的方法,忽略教师网络错误的预测分布,只把正确的预测分布传递给学生网络,具体目标函数如式(3)所示:
Figure BDA0003759089540000081
其中
Figure BDA0003759089540000082
为指示函数,
Figure BDA0003759089540000083
为学生网络预测的标签。当教师网络能够正确预测输入样本的分类时,指示函数为1,学生网络同时学习样本标签和教师网络输出的软目标;教师网络无法正确分类时,指示函数为0,仅计算学生网络的分类情况和真实标签间的交叉熵。
4)模型部署,包括如下步骤:
步骤401,舍弃教师模型,保存训练好学生网络模型;
步骤402,将模型部署在资源受限的场景中,轻量化后的模型具备较高的识别准确率,较低的参数量使得模型推演速度加快从而获更短的业务识别时间。
5)具体操作
步骤501,针对在低资源的设备环境中部署轻量化的业务流量识别系统,对常见的几类应用作识别测试,搭建了纯净的网络环境,在抓取时,运行的设备保证只运行目标业务,尽可能地保证数据的纯洁性;各个类别应用训练数据量采用相同大小,保证数据选取的平衡性;抓取的数据集如下表所示。
表1.应用识别测试表
Figure BDA0003759089540000084
5.2实验环境
保证在相同的情况下进行模型的训练,测试。实验环境如下:
表2.实验环境表
Figure BDA0003759089540000091
5.3评价指标
本文实验中采用以下三种指标对模型的精度进行评估,业务识别准确率、模型大小、单个样本模型推理时间。其中
(1)准确率(Accury),经过训练后的模型对测试样本的识别准确率,选取模型训练稳定时的识别准确率。
(2)模型大小(Model_size),通过网络的模型大小来描述占用的资源大小。
(3)一次迭代推理时间(Single_time),在保证所有模型的测试在同一环境下进行对比,选取100次的迭代时间的均值。
5.4结果分析
首先文本比较了几种经典的CNN模型,通过选取各个模型训练达到稳定状态时对业务流量识别的准确率,旨在对比基础上选择合适的教师教师网络,对比效果如下。
表3.教师网络、学生网络、教师-学生网络效果对比表
Figure BDA0003759089540000092
从上表中可以看出,学生模型的一次推理时间远小于教师模型的一次推理时间。同时学生模型的准确率也较教师网络低11.22个百分点。通过知识蒸馏训练出的教师-学生模型可以在不改变学生网络模型大小的情况下,提升模型识别业务流量的准确率,实验结果为上升了4.09个百分点,更加适合部署在资源受限且对识别精度有一定要求的场景中。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (9)

1.一种轻量化业务识别方法,其特征在于,包括以下步骤:
1)启动基站,将手机接入基站所覆盖的网络中,通过MEC系统获取手机使用过程中的流量数据包信息;
2)对手机中的流量使用数据进行筛选提取其中的字节信息,并进行分类,将分类后的流量使用数据构建数据集;
3)构建学生网络模型和教师网络模型,通过知识蒸馏对识别模型进行轻量化,将教师网络模型中;
4)将训练好的学生网络部署在资源受限的场景中,在资源受限场景中对终端设备产生的业务流量进行准确高效的识别。
2.根据权利要求1所述一种轻量化业务识别方法,其特征在于,所述步骤1)具体包括:
步骤101,PC1启动,配置网段IP,打开启动基站的工具,启动基站,基站启动成功后,手机开机接入;
步骤102,电脑连接路由器,打开web控制界面,更改路由器1和路由器2的静态路由;
步骤103,PC2启动,远程登录MEC系统,将实现数据自动抓取的脚本传入指定文件夹,通过expect工具与脚本实现MEC系统与PC2之间文件的免密传输;
步骤104,启动手机上的app应用,为实现抓取某一类应用流量的目的,在一段时间内只运行一个应用,app产生的流量经过MEC系统自动传输到PC2的文件夹里,实现流量的自动抓取功能并且抓取到的数据集满足训练的要求。
3.根据权利要求1所述一种轻量化业务识别方法,其特征在于,所述步骤2)具体包括:
步骤201,打开jupyter,安装python3.7、pandas和numpy支撑库;
步骤202,微博、QQ、微信、视频、邮件、淘宝业务每类取10万条数据,手动提取字节信息,并给分类打上类别标签,将所有数据以对应类别集合生成数据集;
步骤203,对数据集中的字节进行编码处理,将16进制的字节信息转换为10进制的数据;便于后续的模型训练使用;
步骤204,对处理后的数据进行统一度处理,每条数据集选取256个数据点即处理后的256个字节信息;对于数据集中超过256个字节的数据删除后续的字节信息;对于每条数据集中不足256个字节的数据在末尾补0达到长度为256;
步骤205,数据集中每一条数据为长度为256的维的向量,鉴于深度学习在图像领域中的固有优势,将数据转化为图像格式作为模型输入,即模仿灰度图像的数据格式,将数据转为为2维像素点格式,即转化为16*16的二维矩阵,通过python中reshape操作实现。
4.根据权利要求1所述一种轻量化业务识别方法,其特征在于,所述步骤3)具体包括:
步骤301.构建学生网络,结构依次为二维卷积层、池化层、二维卷积层、全连接层、dropout层、标准化层、全连接层、dropout层、全连接层和线形层;
步骤302,构建TextCNN作为教师网络,由词嵌入、卷积、池化和全连接softmax四部分组成,在词嵌入层,将预训练的数据作为该层的输入,数据集中的所有编码后的每一个字节信息,都表征成一个向量,输入的矩阵数据中每一行都是词向量;将字节信息转换为二维矩阵格式;卷积核的宽度固定为词向量的维度16,通过卷积操作得到特征图信息;不同卷积核所得到的特征图大小不同,池化层对特征图进行池化处理,使得特征图的维度相同;通过全连接层+softman得到对目标识别的概率分布;最后通过传递输出的概率分布来指导学生网络的模型的训练;
步骤303,将教师网络部署在云服务器进行训练,将学生网络部署在本地pc进行训练;
步骤304,将预处理之后的数据通过教师网络TextCNN进行训练得到为未轻量化的业务识别模型;
步骤305,通过知识蒸馏来对业务识别模型进行轻量化,通过蒸馏大规模教师网络的输出概率分布,传递给小规模学生网络进行指导优化来实现知识的迁移,通过小规模的学生网络训练出参数量少的业务识别模型,将教师网络的知识传递给学生网络,在不增加学生网络的模型大小前提下,提升学生网络的识别准确率。
5.根据权利要求4所述一种轻量化业务识别方法,其特征在于,步骤303包括以下步骤:
通过使用Softmax输出层来产生分类概率,将计算出的每个类别的Logits转换为分类概率,公式表达如下:
Figure FDA0003759089530000031
其中zi为Logits的第i个分量,T为温度参数,越高的温度会产生越软的类间分类概率;
知识蒸馏损失包括分类概率间的交叉熵和学生网络的分类预测与真实标签间的交叉熵损失,温度为1,总损失函数Lkd公式表达如下:
Figure FDA0003759089530000032
其中N为小批量的尺寸,LCE代表交叉熵,σ()代表Softmax函数,T为蒸馏温度,yi为样本i的真实标签,
Figure FDA0003759089530000041
Figure FDA0003759089530000042
分别为分类任务的学生网络和教师网络输出的Logits;
当教师网络预测错误时,知识同样会转移到学生网络身上,这将会影响学生网络的表现,因此改迚传统知识蒸馏的方法,忽略教师网络错误的预测分布,只把正确的预测分布传递给学生网络,改进总损失函数L* KD公式表达如下:
Figure FDA0003759089530000043
其中
Figure FDA0003759089530000044
为指示函数,
Figure FDA0003759089530000045
为学生网络预测的标签,当教师网络能够正确预测输入样本的分类时,指示函数为1,学生网络同时学习样本标签和教师网络输出的软目标;教师网络无法正确分类时,指示函数为0,仅计算学生网络的分类情况和真实标签间的交叉熵。
6.根据权利要求1所述一种轻量化业务识别方法,其特征在于,所述步骤4)具体包括:
步骤401,舍弃教师模型,保存训练好学生网络模型;
步骤402,将模型部署在资源受限的场景中,轻量化后的模型具备较高的识别准确率,较低的参数量使得模型推演速度加快从而获更短的业务识别时间。
7.一种轻量化业务识别方法的装置,其特征在于,包括:
数据抓取模块:其被配置用于抓取终端设备产生的流量数据包,对抓取的数据包进行数据预处理成机器学习模块所需要的规整化的数据格式,已经抓取的原始数据包经过预处理后,输入到机器学习模块并进行压缩处理;
机器学习模块:其被配置用于通过知识蒸馏方法对大规模教师网络的输出概率分布进行蒸馏处理,传递给小规模学生网络进行指导优化来实现知识的迁移,从而通过小规模的学生网络训练出参数量少的业务识别模型。
8.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储由所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-6任一项所述的业务识别方法。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-6任一项所述的业务识别方法。
CN202210867226.6A 2022-07-22 2022-07-22 一种轻量化业务识别方法、装置、电子设备及存储介质 Pending CN115348551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210867226.6A CN115348551A (zh) 2022-07-22 2022-07-22 一种轻量化业务识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210867226.6A CN115348551A (zh) 2022-07-22 2022-07-22 一种轻量化业务识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115348551A true CN115348551A (zh) 2022-11-15

Family

ID=83949935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210867226.6A Pending CN115348551A (zh) 2022-07-22 2022-07-22 一种轻量化业务识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115348551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314424A (zh) * 2023-09-18 2023-12-29 纬创软件(武汉)有限公司 面向金融大数据的区块链交易系统及方法
CN118211154A (zh) * 2024-05-17 2024-06-18 南京邮电大学 一种基于持续学习改进的类增量业务识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314424A (zh) * 2023-09-18 2023-12-29 纬创软件(武汉)有限公司 面向金融大数据的区块链交易系统及方法
CN117314424B (zh) * 2023-09-18 2024-03-29 纬创软件(武汉)有限公司 面向金融大数据的区块链交易系统及方法
CN118211154A (zh) * 2024-05-17 2024-06-18 南京邮电大学 一种基于持续学习改进的类增量业务识别方法及系统

Similar Documents

Publication Publication Date Title
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN108520780B (zh) 一种基于迁移学习的医学数据处理和系统
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN113610173B (zh) 一种基于知识蒸馏的多跨域少样本分类方法
CN115348551A (zh) 一种轻量化业务识别方法、装置、电子设备及存储介质
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN111914156A (zh) 自适应标签感知的图卷积网络跨模态检索方法、系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN115131627B (zh) 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113806746A (zh) 基于改进cnn网络的恶意代码检测方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN112434628A (zh) 基于主动学习和协同表示的小样本极化sar图像分类方法
CN111428750A (zh) 一种文本识别模型训练及文本识别方法、装置及介质
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN112883216B (zh) 基于扰动一致性自集成的半监督图像检索方法及装置
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN112270334B (zh) 一种基于异常点暴露的少样本图像分类方法及系统
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN115019183B (zh) 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN116561314A (zh) 基于自适应阈值选择自注意力的文本分类方法
CN116361454A (zh) 一种基于Bloom分类法的课程教学案例自动评估方法
CN112948251B (zh) 软件自动测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination