CN115309849A - 一种基于知识蒸馏的特征提取方法、装置及数据分类方法 - Google Patents

一种基于知识蒸馏的特征提取方法、装置及数据分类方法 Download PDF

Info

Publication number
CN115309849A
CN115309849A CN202210735762.0A CN202210735762A CN115309849A CN 115309849 A CN115309849 A CN 115309849A CN 202210735762 A CN202210735762 A CN 202210735762A CN 115309849 A CN115309849 A CN 115309849A
Authority
CN
China
Prior art keywords
data
feature vector
model
basic data
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210735762.0A
Other languages
English (en)
Inventor
杜军平
姜阳
李文玲
薛哲
梁美玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210735762.0A priority Critical patent/CN115309849A/zh
Publication of CN115309849A publication Critical patent/CN115309849A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于知识蒸馏的特征提取方法、装置及数据分类方法,所述方法的步骤包括,数据获取,基于网络地址信息获取第一基础数据,存储在预设的数据库中;特征向量获取,将数据库中的第一基础数据分别输入到未训练的学生模型和完成训练的教师模型中,所述学生模型的网络层数量小于教师模型的网络层数量,得到学生模型输出的第一特征向量和教师模型输出的第二特征向量;模型训练,基于第一特征向量和第二特征向量计算损失函数,基于损失函数值优化学生模型中各网络层的参数,得到完成训练的学生模型;特征提取,再次基于网络地址信息获取第二基础数据,将第二基础数据输入完成训练的学生模型得到第三特征向量。

Description

一种基于知识蒸馏的特征提取方法、装置及数据分类方法
技术领域
本发明涉及特征提取技术领域,尤其涉及一种基于知识蒸馏的特征提取方法、装置及数据分类方法。
背景技术
由于科技相关数据资源日益丰富,并且单机服务系统的处理能力有限。分布式集群技术是当前大数据技术的主要实现方式之一。现有技术可以采用ETL数据处理工具分析工业数据的方式。ETL的主要功能是对需要进行处理的数据进行预处理操作,即多源数据的合并、数据分析降噪和维度变换等。针对模块性能提升,可以利用Hadoop的MapReduce或者Spark进行并行处理。
向量化对于跨媒体科技资讯数据特征提取是不可或缺的组成部分。需要结合传统机器学习算法及深度学习算法处理,将文本资源、图像资源中的语义进行一定程度的语义映射。随着深度学习的发展,形成更抽象、更高维度的属性表示慢慢取代了传统机器学习算法。因此,基于深度学习的文本特征提取和图像特征提取在近年来取得了越来越多的关注和发展。
同时目前针对文本资源和图像资源的特征提取算法模型的参数量多,网络层数深,进而导致消耗服务器资源较多,且推理时间较长,但若减少层数则容易导致提取精度下降。
发明内容
鉴于此,本发明的实施例提供了一种基于知识蒸馏的特征提取方法、装置及数据分类方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的第一方面提供了一种基于知识蒸馏的特征提取方法,所述方法的步骤包括,
数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中;
特征向量获取,将数据库中的第一基础数据分别输入到未训练的学生模型和完成训练的教师模型中,所述学生模型的网络层数量小于教师模型的网络层数量,得到学生模型输出的第一特征向量和教师模型输出的第二特征向量;
模型训练,基于第一特征向量和第二特征向量计算损失函数,基于损失函数值优化学生模型中各网络层的参数,完成数据库中所有基础数据的训练,得到完成训练的学生模型;
特征提取,再次基于网络地址信息获取第二基础数据,将第二基础数据输入完成训练的学生模型得到第三特征向量。
采用上述方案,本发明提出了一种基于知识蒸馏的特征提取方法,设计出一套基于分布式的跨媒体科技资讯采集、处理与存储体系,用于解决跨媒体科技资讯数据多源采集问题,针对跨媒体科技资讯数据在特征提取时构建文本数据模型及图像数据模型过于庞大,从而导致推理速度下降、消耗服务器资源过多等问题,本方案使网络层数较少的学生模型学习网络层数较大的教师模型的方式,使学生模型向教师模型学习,输出与之近似的结果,从而在保留良好模型特征提取精准性的基础上,缩小算法模型所需要消耗的服务器资源及推理时间。
在本发明的一些实施方式中,所述教师模型和学生模型均设置有softmax层,在对学生模型进行训练的步骤中,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量。
在本发明的一些实施方式中,根据如下公式,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量:
Figure 743448DEST_PATH_IMAGE001
q表示第一特征向量、第二特征向量或第三特征向量,T表示温度参数,N表示softmax层接收到的初始特征向量的维度,i、j均表示
Figure 583097DEST_PATH_IMAGE002
个维度中的任一个,
Figure 218478DEST_PATH_IMAGE003
表示初始特征向量第i维度的参数,
Figure 46757DEST_PATH_IMAGE004
表示初始特征向量第j维度的参数。
在本发明的一些实施方式中,根据如下公式,基于第一特征向量和第二特征向量计算损失函数:
Figure 499604DEST_PATH_IMAGE005
Figure 311702DEST_PATH_IMAGE006
表示损失函数值,
Figure 16353DEST_PATH_IMAGE007
表示第二特征向量,
Figure 761455DEST_PATH_IMAGE008
表示第一特征向量。
在本发明的一些实施方式中,在基于损失函数值优化学生模型中各网络层的参数的步骤中,采用反向传播算法传递误差,优化学生模型中各网络层的参数。
在本发明的一些实施方式中,数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中的步骤还包括:
获取网络地址信息的集合,将网络地址信息构建为队列;
将队列中的网络地址信息分别发送至多个数据采集服务器中,所述数据采集服务器基于网络地址信息从科技资讯平台中获取第一基础数据;
对第一基础数据进行过滤,将过滤后的多条第一基础数据存储在预设的数据库中。
在本发明的一些实施方式中,将网络地址信息构建为队列的步骤还包括:
基于网络地址信息构建哈希值标签,基于所述哈希值标签删除队列的相同哈希值标签的重复网络地址信息。
在本发明的一些实施方式中,所述第一基础数据为文本数据或者图片数据,若所述第一基础数据为文本数据,则将文本数据存储在预设的数据库中;若所述第一基础数据为图片数据,则将图片数据存储于服务器中,并获取图片数据在服务器的存储地址,将存储地址存储在预设的数据库中,若存储地址存储在预设的数据库中,则在从数据库导出第一基础数据的步骤中,根据存储地址从服务器中获取第一基础数据。
本发明的第二方面提供了一种数据分类方法,所述数据分类方法的步骤包括:
获取上述方法所输出的第三特征向量;
将所述第三特征向量输入到预设的分类器中,得到分类结果。
在本发明的一些实施方式中,所述数据分类方法的步骤还包括:
采用主成分分析法对第三特征向量进行降维处理,将降维后的第三特征向量输入到预设的分类器中,得到分类结果。
本发明的第三方面提供了一种基于知识蒸馏的特征提取装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述方法的步骤。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明基于知识蒸馏的特征提取方法一种实施方式的示意图;
图2为本发明基于知识蒸馏的特征提取方法另一种实施方式的架构示意图;
图3为本发明对文本数据训练学生模型的架构示意图;
图4为本发明对图像数据训练学生模型的架构示意图;
图5为数据获取步骤一种实施方式的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
现有技术介绍:
文献面向工业大数据的分布式ETL系统的设计与实现中提出了使用ETL数据处理工具分析工业数据的方式。ETL的主要功能是对需要进行处理的数据进行预处理操作,即多源数据的合并、数据分析降噪和维度变换等。针对模块性能提升,可以利用Hadoop的MapReduce或者Spark进行并行处理。
文献基于多源异构大数据的学者用户画像关键技术研究描述了如何将不同信息来源、不同结构的科技资源数据转化为结构化数据并存储在关系型数据库中,并对数据系统上的关键信息进行结构化抽样。然而目前国内外针对多源跨媒体科技资讯数据没有一套成熟的数据采集体系,如何能够将多源的跨媒体科技资讯数据统一采集、处理、持久化是亟需解决的问题。
Yoon Kim提出TextCNN方法,将卷积神经网络运用到文本特征提取中,然而在具有时间序列的文本特征提取中表现欠佳。因此文本特征提取引入在序列处理方面拥有良好效果的RNN网络。而在此基础上,神经网络的发展方向更加符合人们认知方式。LSTM和GRU提出的记忆性和选择遗忘性概念也在RNN网络基础上得到巨大的效果提升。BERT模型采用Transformer网络结构来对语言模型进行训练。BERT可通过额外的输出层,不需要针对特定任务对模型进行修改,仅仅针对预训练模型进行微调,就可以满足各种任务。
针对图像资源的语义表示研究,2014年Simonyan等提出了VGGNet模型。通过堆叠构建卷积神经网络,通过大量实验探索卷积神经网络层数深度与其性能之间的关系。
Dhankhar等使用ResNet-50和VGG-16卷积神经网络组合来识别面部表情,在KDEF数据集中获得了较好的效果。
基于双角度并行剪枝的优化方法,通过构建裁剪模型,使得VGG-16卷积神经网络的参数数量变少,在维持了原有模型训练时间基础上,提升了特征表达的精度。
一种低秩矩阵回归算法来进行图像特征提取,该算法能够充分利用图像结构信息,提高了图像特征提取的精准度。
一种聚合低阶CNN特征图生成局部特征的策略,能够有效解决全局CNN特征不能有效描述局部细节的缺点,抽象出更加准确的图像特征向量。
但是上述现有方案处理层较多,虽然在精度上得到了提高,但处理时长较长,消耗资源较多。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为解决以上问题,如图1所示,本发明提出一种基于知识蒸馏的特征提取方法,所述方法的步骤包括,
步骤S100数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中;
在本发明的一些实施方式中,所述网络地址信息可以为URL数据(统一资源定位系统,uniform resource locator)。
在本发明的一些实施方式中,所述数据库可以为MySQL数据库。
步骤S200特征向量获取,将数据库中的第一基础数据分别输入到未训练的学生模型和完成训练的教师模型中,所述学生模型的网络层数量小于教师模型的网络层数量,得到学生模型输出的第一特征向量和教师模型输出的第二特征向量;
如图3、4所示,在本发明的一些实施方式中,所述学生模型可以为Bi-LSTM模型(Bi-directional Long Short-Term Memory,双向长短时记忆网络模型),所述Bi-LSTM模型包括多个隐藏层以及与隐藏层相连接的softmax层;所述教师模型可以为BERT-Flow模型或VGG-19模型,在具体实施过程中,当第一基础数据为文本数据时,所述教师模型为BERT-Flow模型,所述BERT-Flow模型包括多个转化层(transformer层)以及与转化层相连接的softmax层,当第一基础数据为图像数据时,所述教师模型为VGG-19模型,所述VGG-19模型包括多个卷积层、池化层、全连接层以及与全连接层相连接的softmax层。
步骤S300模型训练,基于第一特征向量和第二特征向量计算损失函数,基于损失函数值优化学生模型中各网络层的参数,完成数据库中所有基础数据的训练,得到完成训练的学生模型;
在本发明的一些实施方式中,本申请在对学生模型进行训练时,可以预设训练集,当学生模型完成对训练集,即数据库中所有基础数据的训练时,视为对学生模型完成训练。
采用上述方案,针对第一特征向量和第二特征向量的特殊性,优化目标为学生模型与教师模型软输出结果之间的交叉熵,最终,使学生模型具有与教师模型相近的算法性能。
步骤S400特征提取,再次基于网络地址信息获取第二基础数据,将第二基础数据输入完成训练的学生模型得到第三特征向量。
在本发明的一些实施方式中,当学生模型完成训练后,即可独立处理数据,将第二基础数据输入完成训练的学生模型得到第三特征向量,所述第三特征向量即为输出的向量化特征。
采用上述方案,本发明提出了一种基于知识蒸馏的特征提取方法,设计出一套基于分布式的跨媒体科技资讯采集、处理与存储体系,用于解决跨媒体科技资讯数据多源采集问题,针对跨媒体科技资讯数据在特征提取时构建文本数据模型及图像数据模型过于庞大,从而导致推理速度下降、消耗服务器资源过多等问题,本方案使网络层数较少的学生模型学习网络层数较大的教师模型的方式,使学生模型向教师模型学习,输出与之近似的结果,从而在保留良好模型特征提取精准性的基础上,缩小算法模型所需要消耗的服务器资源及推理时间。
在本发明的一些实施方式中,所述教师模型和学生模型均设置有softmax层,在对学生模型进行训练的步骤中,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量。
在本发明的一些实施方式中,根据如下公式,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量:
Figure 396922DEST_PATH_IMAGE001
q表示第一特征向量、第二特征向量或第三特征向量,T表示温度参数,N表示softmax层接收到的初始特征向量的维度,i、j均表示
Figure 696316DEST_PATH_IMAGE002
个维度中的任一个,
Figure 939079DEST_PATH_IMAGE009
表示初始特征向量第i维度的参数,
Figure 460059DEST_PATH_IMAGE010
表示初始特征向量第j维度的参数。
在本发明的一些实施方式中,未完成训练的学生模型的softmax层输出的为第一特征向量,完成训练的学生模型的softmax层输出的为第三特征向量,教师模型的softmax层输出的为第二特征向量。
采用上述方案,采用知识蒸馏的方式,随着温度升高会产生更加平顺的概率分布,熵越大,会更关注负标签。
在本发明的一些实施方式中,根据如下公式,基于第一特征向量和第二特征向量计算损失函数:
Figure 67757DEST_PATH_IMAGE005
Figure 306978DEST_PATH_IMAGE011
表示损失函数值,
Figure 822273DEST_PATH_IMAGE007
表示第二特征向量,
Figure 10809DEST_PATH_IMAGE008
表示第一特征向量。
在本发明的一些实施方式中,在基于损失函数值优化学生模型中各网络层的参数的步骤中,采用反向传播算法传递误差,优化学生模型中各网络层的参数。
采用上述方案,“知识”被转移到蒸馏模型中,优化目标为学生模型与教师模型软输出结果之间的交叉熵,最终,学生模型具有与教师模型相近的算法性能,算法设计损失函数即为上述公式所表述的损失函数,所述损失函数可以为均方差,可以为表示为如下公式:
Figure 710780DEST_PATH_IMAGE012
Figure 312663DEST_PATH_IMAGE013
表示均方差。
如图2、5所示,在本发明的一些实施方式中,数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中的步骤还包括:
步骤S110,获取网络地址信息的集合,将网络地址信息构建为队列;
步骤S120,将队列中的网络地址信息分别发送至多个数据采集服务器中,所述数据采集服务器基于网络地址信息从科技资讯平台中获取第一基础数据;
步骤S130,对第一基础数据进行过滤,将过滤后的多条第一基础数据存储在预设的数据库中。
在本发明的一些实施方式中,所述对第一基础数据进行过滤可以为当采集图像数据时,删除第一基础数据中的文本数据,当采集文本数据时,删除第一基础数据中的图像数据。
采用上述方案,本方案使用基于数据采集架构爬取数据,完成数据获取,如图5所示,本方案跨媒体科技资讯数据采集、处理与存储架,在多台服务器上基于分布式原理,同时执行跨媒体科技资讯数据采集任务协同爬取。为了共享数据采集队列,基于性能问题考虑,可以使用Redis数据库维护一个基于内存存储的数据采集队列。这样各台服务器就不需要去维护数据采集队列,而是从该公共数据采集队列中存取一个“请求”。各台服务器各自维护调度器和下载器,这样就可以使基于分布式的跨媒体科技资讯数据采集功能运行起来。
在本发明的一些实施方式中,将网络地址信息构建为队列的步骤还包括:
基于网络地址信息构建哈希值标签,基于所述哈希值标签删除队列的相同哈希值标签的重复网络地址信息。
在本发明的一些实施方式中,方案的数据获取部分为了能够不重复采集相同数据,针对数据采集爬虫做了如下处理:通过计算在“请求”中的Method、URL、Body、Headers这几部分内容的哈希值进行拼接。这样每个“请求”就会有一个唯一的哈希值作为标识,该标识就是判定该“请求”是否重复采集的依据。在分布式数据采集架构中实现数据去重,就要让该哈希值集合实现多台服务器共享。本模块使用Redis数据库的集合作为哈希值集合的数据结构,去除重复“请求”依赖Redis数据库进行共享,每台服务器生成新“请求”之后,把该“请求”的哈希值与Redis数据库集合中的哈希值集合对比。如果已经存在,那么说明该“请求”是重复的。否则说明数据采集模块没有采集该“请求”。在完成该“请求”数据采集后,将该哈希值加入Redis数据库集合,用于后续新生成“请求”判断重复。
在本发明的一些实施方式中,本方案若使用Redis数据库进行数据采集队列的存储。假设该模块因为供电问题出现网络中断,而Redis数据库中的“请求”依然存在,那么当供电恢复时,该数据采集模块就会紧接着上次中断点继续执行数据采集任务,这样就实现了断点重爬的功能,使得该数据采集架构稳定性大大加强。
在本发明的一些实施方式中,所述第一基础数据为文本数据或者图片数据,若所述第一基础数据为文本数据,则将文本数据存储在预设的数据库中;若所述第一基础数据为图片数据,则将图片数据存储于服务器中,并获取图片数据在服务器的存储地址,将存储地址存储在预设的数据库中,若存储地址存储在预设的数据库中,则在从数据库导出第一基础数据的步骤中,根据存储地址从服务器中获取第一基础数据。
本方案在进行BERT-flow模型的第二特征向量提取时,发现未经调整的BERT预训练模型在句向量的提取上效果欠佳。由于BERT预训练模型提取的句向量是使用平均池化构造,因此直接使用BERT预训练模型进行句向量提取会造成语义不平滑的问题。并且句向量空间距离会受到词频的影响,即当句子由高频词组成,当产生词共现的时候,句向量的空间距离会减少。反之,如果是由低频词组成时,句向量的空间距离会增大。即使两条句子句意相似,句向量的空间距离也无法正确反应句子表达的语义。
受到词嵌入空间分布特性的影响,使用规范化流将不规范的BERT句向量分布映射为平滑地、各向同性地高斯分布。标准高斯分布中的概率密度不会随着高频或低频词的问题变化,通过归一化操作,可以将其视为均匀分布在一个球体上,使得语义分布更加平滑。
使用规范流生成模型将可逆的操作实例化,构建从潜在空间z到观测空间u的可逆转换,变换过程下:
Figure 569332DEST_PATH_IMAGE014
Figure 64904DEST_PATH_IMAGE015
为先验分布,
Figure 263673DEST_PATH_IMAGE016
是一个可逆转换,
Figure 946327DEST_PATH_IMAGE017
通过最大化标准高斯分布中BERT生成句向量的可能性,训练规范流生成模型,通过随机变量
Figure 6687DEST_PATH_IMAGE018
映射到BERT模型中的μ,反函数
Figure 232132DEST_PATH_IMAGE019
又可以将μ,映射到高斯分布中。使用无监督的方式最大化高斯分布中产生BERT算法表示的概率,进而优化规范流生成模型的参数,如下所示:
Figure 539486DEST_PATH_IMAGE020
D表示文本句子集合,在训练时优化规范流参数,保证BERT参数不变。最终得到了可逆的映射函数f,可以将BERT句向量μ转化为服从高斯分布的向量
Figure 850381DEST_PATH_IMAGE018
在将BERT句向量经过规范流操作转化为服从高斯分布的向量后,得到一个具有高度语义平滑的文本向量集合。然而,由于BERT模型自身的参数过多,算法架构在复杂性和深度方面都使得模型过于庞大,不方便部署到服务中。如在检索系统中,由于推理效率低下、部署消耗的资源过多,无法做到实时性检索,因此对服务器的性能提出了很高的要求。
本发明的实施例还提供了一种数据分类方法,所述数据分类方法的步骤包括:
获取上述方法所输出的第三特征向量;
将所述第三特征向量输入到预设的分类器中,得到分类结果。
在本发明的一些实施方式中,所述分类器可以为SVM分类器,输出分类结果的数据类型。
在本发明的一些实施方式中,所述数据分类方法的步骤还包括:
采用主成分分析法对第三特征向量进行降维处理,将降维后的第三特征向量输入到预设的分类器中,得到分类结果。
在本发明的一些实施方式中,由基于知识蒸馏的特征提取方法所输出的第三特征向量的维度较高,可以为768维,可以将768维的第三特征向量降低至128维。
采用上述方案,由于高维空间向量过于稀疏,而且过多维度的向量会阻碍训练过程建立规律,因此使用主成分分析法降维。好处是不仅仅降低了向量的维度,而且经过降维操作消除了数据噪声。将原本得到的768维文本向量用128维替代。得到的特征向量是原有特征向量的线性组合,通过线性组合最大化样本方差,使得各个维度互不相关,捕获数据中的固有变异性。
在本方案的实验例中,将相同的带有类别标记的文本数据组分别输入到完成训练的学生模型教师模型中,分别在学生模型和教师模型后连接分类器,得出学生模型的分类正确率为教师模型教师模型的95%;将相同的带有类别标记的图像数据组分别输入到完成训练的学生模型教师模型中,分别在学生模型和教师模型后连接分类器,得出学生模型的分类正确率为教师模型教师模型的91%;
并分别记录学生模型和教师模型的数据输出速度,得出无论是文本数据组还是图像数据组,学生模型的平均推理速度均是教师模型的1/573。
采用上述方案,本方案通过设计基于分布式的数据获取,完成跨媒体科技资讯数据在多台服务器上分布爬取数据功能,有效解决跨媒体科技资讯数据高效采集问题。在此基础上,提出针对跨媒体科技资讯数据中关于文本资源和图像资源的特征处理方法。在文本特征表示方面,提出基于知识蒸馏的科技资讯文本特征提取算法,实验表明本章提出的BERT-KD算法在两个数据集上平均推理速度是教师模型的1/573,在此基础上在精确率上平均保留了教师模型95%的算法性能。在图像特征表示方面,实验表明本方案提出的VGG-19算法在两个数据集上的FPS值遥遥领先其他对比算法,精确率方面也平均保留了原有教师模型的91%。说明本方案可以在消耗服务器资源更少、推理速度更快的基础上,保留很好的算法性能,更有利于在实际场景中进行应用部署。
综上所述,本方案使用知识迁移的方式,构造教师-学生模型,教师模型作为“知识”的输出者,学生模型作为“知识”的接受者,将大模型的知识蒸馏到小模型中,进而提升小模型的效果。使用之前训练好的规范流BERT-Flow或VGG-19模型作为教师网络,训练出参数量较小、模型结构简单的模型,能够将文本或图像数据通过学生模型的映射,得到第三特征向量。
本发明的实施例还提供了一种基于知识蒸馏的特征提取装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的实施例还提供了一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识蒸馏的特征提取方法,其特征在于,所述方法的步骤包括,
数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中;
特征向量获取,将数据库中的基础数据分别输入到未训练的学生模型和完成训练的教师模型中,所述学生模型的网络层数量小于教师模型的网络层数量,得到学生模型输出的第一特征向量和教师模型输出的第二特征向量;
模型训练,基于第一特征向量和第二特征向量计算损失函数,基于损失函数值优化学生模型中各网络层的参数,完成数据库中所有基础数据的训练,得到完成训练的学生模型;
特征提取,再次基于网络地址信息获取第二基础数据,将第二基础数据输入完成训练的学生模型得到第三特征向量。
2.根据权利要求1所述的基于知识蒸馏的特征提取方法,其特征在于,所述教师模型和学生模型均设置有softmax层,在对学生模型进行训练的步骤中,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量。
3.根据权利要求2所述的基于知识蒸馏的特征提取方法,其特征在于,根据如下公式,所述学生模型从softmax层输出第一特征向量,所述教师模型从softmax层输出第二特征向量:
Figure 882163DEST_PATH_IMAGE001
q表示第一特征向量、第二特征向量或第三特征向量,T表示温度参数,N表示softmax层接收到的初始特征向量的维度,i、j均表示
Figure 517675DEST_PATH_IMAGE002
个维度中的任一个,
Figure 112605DEST_PATH_IMAGE003
表示初始特征向量第i维度的参数,
Figure 888669DEST_PATH_IMAGE004
表示初始特征向量第j维度的参数。
4.根据权利要求1所述的基于知识蒸馏的特征提取方法,其特征在于,根据如下公式,基于第一特征向量和第二特征向量计算损失函数:
Figure 760810DEST_PATH_IMAGE005
Figure 82070DEST_PATH_IMAGE006
表示损失函数值,
Figure 915027DEST_PATH_IMAGE007
表示第二特征向量,
Figure 714356DEST_PATH_IMAGE008
表示第一特征向量。
5.根据权利要求1-4任一项所述的基于知识蒸馏的特征提取方法,其特征在于,数据获取,基于网络地址信息获取第一基础数据,将多条第一基础数据存储在预设的数据库中的步骤还包括:
获取网络地址信息的集合,将网络地址信息构建为队列;
将队列中的网络地址信息分别发送至多个数据采集服务器中,所述数据采集服务器基于网络地址信息从科技资讯平台中获取第一基础数据;
对第一基础数据进行过滤,将过滤后的多条第一基础数据存储在预设的数据库中。
6.根据权利要求5所述的基于知识蒸馏的特征提取方法,其特征在于,将网络地址信息构建为队列的步骤还包括:
基于网络地址信息构建哈希值标签,基于所述哈希值标签删除队列的相同哈希值标签的重复网络地址信息。
7.根据权利要求1或6所述的基于知识蒸馏的特征提取方法,其特征在于,所述第一基础数据为文本数据或者图片数据,若所述第一基础数据为文本数据,则将文本数据存储在预设的数据库中;若所述第一基础数据为图片数据,则将图片数据存储于服务器中,并获取图片数据在服务器的存储地址,将存储地址存储在预设的数据库中,若存储地址存储在预设的数据库中,则在从数据库导出第一基础数据的步骤中,根据存储地址从服务器中获取第一基础数据。
8.一种数据分类方法,其特征在于,所述数据分类方法的步骤包括:
获取如权利要求1-7任一项所述方法所输出的第三特征向量;
将所述第三特征向量输入到预设的分类器中,得到分类结果。
9.根据权利要求8所述的数据分类方法,其特征在于,所述数据分类方法的步骤还包括:
采用主成分分析法对第三特征向量进行降维处理,将降维后的第三特征向量输入到预设的分类器中,得到分类结果。
10.一种基于知识蒸馏的特征提取装置,其特征在于,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1-7任一项所述方法的步骤。
CN202210735762.0A 2022-06-27 2022-06-27 一种基于知识蒸馏的特征提取方法、装置及数据分类方法 Pending CN115309849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210735762.0A CN115309849A (zh) 2022-06-27 2022-06-27 一种基于知识蒸馏的特征提取方法、装置及数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210735762.0A CN115309849A (zh) 2022-06-27 2022-06-27 一种基于知识蒸馏的特征提取方法、装置及数据分类方法

Publications (1)

Publication Number Publication Date
CN115309849A true CN115309849A (zh) 2022-11-08

Family

ID=83854511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210735762.0A Pending CN115309849A (zh) 2022-06-27 2022-06-27 一种基于知识蒸馏的特征提取方法、装置及数据分类方法

Country Status (1)

Country Link
CN (1) CN115309849A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN112101526A (zh) * 2020-09-15 2020-12-18 京东方科技集团股份有限公司 基于知识蒸馏的模型训练方法及装置
US20220067274A1 (en) * 2020-09-02 2022-03-03 Zhejiang Lab Compression method and platform of pre-training language model based on knowledge distillation
CN114170655A (zh) * 2021-11-29 2022-03-11 西安电子科技大学 一种基于知识蒸馏的人脸伪造线索迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
US20220067274A1 (en) * 2020-09-02 2022-03-03 Zhejiang Lab Compression method and platform of pre-training language model based on knowledge distillation
CN112101526A (zh) * 2020-09-15 2020-12-18 京东方科技集团股份有限公司 基于知识蒸馏的模型训练方法及装置
CN114170655A (zh) * 2021-11-29 2022-03-11 西安电子科技大学 一种基于知识蒸馏的人脸伪造线索迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
葛仕明;赵胜伟;刘文瑜;李晨钰;: "基于深度特征蒸馏的人脸识别" *

Similar Documents

Publication Publication Date Title
Cui et al. Class-balanced loss based on effective number of samples
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
Zhang et al. Unsupervised and semi-supervised image classification with weak semantic consistency
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN110929161B (zh) 一种面向大规模用户的个性化教学资源推荐方法
Cao et al. Adversarial learning with local coordinate coding
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
Shen et al. Large-scale support vector machine classification with redundant data reduction
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
Wang et al. Contrastive-ACE: Domain generalization through alignment of causal mechanisms
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
US20220383036A1 (en) Clustering data using neural networks based on normalized cuts
CN116150335A (zh) 一种军事场景下文本语义检索方法
Wang et al. Image classification based on principal component analysis optimized generative adversarial networks
CN110851627A (zh) 一种用于描述全日面图像中太阳黑子群的方法
Jayasumana et al. Kernelized classification in deep networks
Li Parallel two-class 3D-CNN classifiers for video classification
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
Li et al. Towards communication-efficient digital twin via AI-powered transmission and reconstruction
CN116821307A (zh) 内容交互方法、装置、电子设备和存储介质
CN116881416A (zh) 关系推理与跨模态独立匹配网络的实例级跨模态检索方法
Jiang et al. Positive-unlabeled learning for knowledge distillation
CN115309849A (zh) 一种基于知识蒸馏的特征提取方法、装置及数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221108