CN110458289B - 多媒体分类模型的构建方法、多媒体分类方法及装置 - Google Patents

多媒体分类模型的构建方法、多媒体分类方法及装置 Download PDF

Info

Publication number
CN110458289B
CN110458289B CN201910922063.5A CN201910922063A CN110458289B CN 110458289 B CN110458289 B CN 110458289B CN 201910922063 A CN201910922063 A CN 201910922063A CN 110458289 B CN110458289 B CN 110458289B
Authority
CN
China
Prior art keywords
classification model
layer
multimedia classification
multimedia
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910922063.5A
Other languages
English (en)
Other versions
CN110458289A (zh
Inventor
陶志奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Publication of CN110458289A publication Critical patent/CN110458289A/zh
Application granted granted Critical
Publication of CN110458289B publication Critical patent/CN110458289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本公开关于一种多媒体分类模型的构建方法、多媒体分类方法及装置,属于计算机技术领域。本公开确定可移植的多媒体分类模型的模型结构,并对剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于本公开中的可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于可移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量。

Description

多媒体分类模型的构建方法、多媒体分类方法及装置
本公开要求于2019年06月10日提交的申请号为201910498309.0、发明名称为“基于剪枝的模型构建方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及计算机技术领域,特别涉及一种多媒体分类模型的构建方法、多媒体资源处理方法及装置。
背景技术
深度学习模型作为计算机技术领域研究的热点,可对多媒体资源进行处理,例如,可基于对深度学习模型训练得到的多媒体分类模型进行图像识别、物体检测、文本识别、图像分割、自然语言处理等。通常多媒体分类模型一般较大,运行过程中计算量往往也较大,为了提升多媒体分类模型的运行性能,可对多媒体分类模型进行剪枝操作,得到剪枝后的多媒体分类模型,进而基于剪枝后的多媒体分类模型对多媒体资源进行分类。
目前,相关技术可根据多媒体分类模型每层不同通道上的特征,保留每层不同通道上的重要特征,剪掉每层不同通道上的非重要特征,并对剪掉的特征进行补零操作,进而在原平台基于该剪枝后的多媒体分类模型,对多媒体资源进行分类。
然而,由于剪枝操作后只是将非重要特征剪为0,实际上每层上的通道数量及每个通道对应的特征矩阵并未直接剪掉,在运行时所有的通道及通道上的特征矩阵都参与计算,导致对多媒体资源进行分类的计算量较大,因此,亟需提供一种多媒体分类模型的构建方法。
发明内容
本公开实施例提供了一种多媒体分类模型的构建方法、多媒体分类方法及装置,以减小对多媒体资源进行分类的计算量。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种多媒体分类模型的构建方法,所述方法包括:
获取剪枝后的多媒体分类模型,所述多媒体分类模型根据多媒体资源样本对深度学习模型训练得到、用于对多媒体资源进行分类;
根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构;
根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,所述剪枝后的多媒体资源分类模型每层上通道数量及每个通道的特征矩阵大小根据剪枝操作时所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类的重要程度确定;
根据所述可移植的多媒体分类模型的模型结构和所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建所述可移植的多媒体分类模型。
在本公开的另一个实施例中,所述根据所述剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,包括:
获取所述剪枝后的多媒体分类模型每层上的输出通道数量;
将所述剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到所述可移植的多媒体分类模型的模型结构。
在本公开的另一个实施例中,所述根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,包括:
根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层;
将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
在本公开的另一个实施例中,所述根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层,包括:
对于所述剪枝后的多媒体分类模型中任意两层,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定所述两层可跨层相加。
在本公开的另一个实施例中,所述将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵,包括:
对于所述剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同;
基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到所述可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
根据本公开实施例的第二方面,提供了一种多媒体分类方法,所述方法包括:
获取待处理的多媒体资源;
将所述多媒体资源输入到可移植的多媒体分类模型中,输出对所述多媒体资源的分类结果,所述可移植的多媒体分类模型为根据第一方面所述的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。
根据本公开实施例的第三方面,提供了一种多媒体分类模型的构建装置,所述装置包括:
获取模块,用于获取剪枝后的多媒体分类模型,所述多媒体分类模型根据多媒体资源样本对深度学习模型训练得到、用于对多媒体资源进行分类;
确定模块,用于根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构;
相加模块,用于根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,所述剪枝后的多媒体资源分类模型每层上通道数量及每个通道的特征矩阵大小根据剪枝操作时所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类的重要程度确定;
构建模块,用于根据所述可移植的多媒体分类模型的模型结构和所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建所述可移植的多媒体分类模型。
在本公开的另一个实施例中,所述确定模块,用于获取所述剪枝后的多媒体分类模型每层上的输出通道数量;将所述剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到所述可移植的多媒体分类模型的模型结构。
在本公开的另一个实施例中,所述相加模块,用于根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层;将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
在本公开的另一个实施例中,所述相加模块,用于对于所述剪枝后的多媒体分类模型中任意两层,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定所述两层可跨层相加。
在本公开的另一个实施例中,所述相加模块,用于对于所述剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同;基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到所述可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
根据本公开实施例的第四方面,提供了一种多媒体分类装置,所述装置包括:
获取模块,用于获取待处理的多媒体资源;
输入输出模块,用于将所述多媒体资源输入到可移植的多媒体分类模型中,输出对所述多媒体资源的分类结果,所述可移植的多媒体分类模型为根据第一方面所述的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。
根据本公开实施例的第五方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现第一方面所述的多媒体分类模型的构建方法,或第二方面所述的多媒体分类方法。
根据本公开实施例的第六方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现第一方面所述的多媒体分类模型的构建方法,或第二方面所述的多媒体分类方法。
本公开实施例提供的技术方案带来的有益效果是:
根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,并根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,并根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1(A)是本公开实施例提供的多媒体分类模型的构建方法所涉及的一种实施环境;
图1(B)是本公开实施例提供的多媒体分类模型的构建方法所涉及的另一种实施环境;
图1(C)是本公开实施例提供的多媒体分类模型的构建方法所涉及的另一种实施环境;
图2是本公开实施例提供的多媒体分类模型的构建方法流程图;
图3是本公开实施例提供的可移植的多媒体分类模型的模型结构示意图;
图4是本公开实施例提供的多媒体分类方法流程图;
图5是本公开实施例提供的多媒体分类模型的构建装置结构示意图;
图6是本公开实施例提供的多媒体分类装置结构示意图;
图7示出了本公开一个示例性实施例提供的用于多媒体分类的电子设备的结构框图;
图8是根据一示例性实施例示出的一种用于多媒体分类模型的构建的电子设备。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
请参考图1(A),其示出了本公开实施例提供的多媒体分类模型的构建方法所涉及的一种实施环境,参见图1(A),该实施环境包括:第一平台101。
其中,第一平台101可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第一平台101上的设备具有计算能力,能够运行多媒体分类模型,并对多媒体分类模型进行剪枝操作,得到剪枝后的多媒体分类模型,进而基于剪枝后的多媒体分类模型,重建可移植的多媒体分类模型,并运行该可移植的多媒体分类模型。
请参考图1(B),其示出了本公开实施例提供的多媒体分类模型的构建方法所涉及的另一种实施环境,参见图1(B),该实施环境包括:第一平台101和第二平台102。
其中,第一平台101可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第一平台101上的设备具有计算能力,能够运行多媒体分类模型,并对多媒体分类模型进行剪枝操作,得到剪枝后的多媒体分类模型。
第二平台102可以为终端设备的运行平台,例如,智能手机、平板电脑、笔记本电脑的运行平台,还可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第二平台102上的设备同样具有计算能力,能够根据第一平台101上的剪枝后的多媒体分类模型,重建可移植的多媒体分类模型,并运行该可移植的多媒体分类模型。
请参考图1(C),其示出了本公开实施例提供的多媒体分类模型的构建方法所涉及的另一种实施环境,参见图1(C),该实施环境包括:第一平台101、第二平台102及第三平台103。
其中,第一平台101可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第一平台101上的设备具有计算能力,能够运行多媒体分类模型,并对多媒体分类模型进行剪枝操作,得到剪枝后的多媒体分类模型。
第三平台103可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第三平台103上的设备同样具有计算能力,能够根据第一平台101上的剪枝后的多媒体分类模型,重建可移植的多媒体分类模型,并将可移植的多媒体分类模型移植到第二平台102上。
第二平台102可以为终端设备的运行平台,例如,智能手机、平板电脑、笔记本电脑的运行平台,还可以为单一服务器的运行平台,也可以由多个服务器组成的计算机集群的运行平台。第二平台102能够运行第三平台103所移植的可移植的多媒体分类模型。
基于图1(A)或图1(B)或图1(C)所示的实施环境,本公开实施例提供了一种基于剪枝的模型构建方法,参见图2,本公开实施例提供的方法流程包括:
201、获取剪枝后的多媒体分类模型。
其中,多媒体分类模型根据多媒体资源样本对深度学习模型训练得到,用于对多媒体资源进行分类。多媒体分类模型的训练过程为:获取多个多媒体资源样本,每个多媒体资源样本对应一个分类标签,获取初始多媒体分类模型,为初始多媒体分类模型设置初始模型参数。将每个多媒体资源样本输入到初始多媒体分类模型中,输出对每个多媒体资源样本的预测结果。接着,将每个多媒体资源样本对应的分类标签及预测结果输入到目标损失函数中,可以计算出目标损失函数的函数值。如果目标损失函数的函数值不满足阈值条件,对初始多媒体分类模型的模型参数进行调整,并继续计算目标损失函数的函数值,直至得到的函数值满足阈值条件。其中,阈值条件可根据处理精度进行设置。获取满足阈值条件时各个参数的参数值,并将满足阈值条件时各个参数的参数值所对应的初始多媒体分类模型,作为训练得到的多媒体分类模型。
所训练的多媒体分类模型的功能可根据在训练过程中所设置的分类任务决定,例如,多媒体资源为音频资源,在训练过程中所设置的分类任务为识别该音频资源的音乐类型是否为乡村音乐、爵士音乐或摇滚音乐,则根据该分类任务所训练的多媒体分类模型,对于输入的任一段音频文件,能够识别其所属的音乐类型;多媒体资源为图像资源,在训练过程中所设置的分类任务为确定该图像是否位于预设的图像集合中,则根据该分类任务所训练的多媒体分类模型,对于输入的任一图像,能够确定该图像是否位于预设的图像集合中;多媒体资源为文本资源,在训练过程中所设置的分类任务为确定文本内容类型是否为中文、英文或日文,则根据该分类任务所训练的多媒体分类模型,对于输入的任一文本资源,能够识别其文本内容类型;多媒体资源为视频资源,在训练过程中所设置的分类任务为确定该视频资源的视频类型是否为喜剧电影、武打电影或情感电影,则根据该分类任务所训练的多媒体分类模型,对于输入的任一视频资源,能够识别其视频类型。
考虑到所训练的多媒体分类模型较大,为了减小对多媒体资源进行分类时的计算量,当在第一平台上训练完多媒体分类模型后,可在第一平台上对该多媒体分类模型进行剪枝操作。在进行剪枝操作时,可根据每层上所提取多媒体资源样本的特征矩阵对多媒体资源样本进行分类时的重要程度,对多媒体分类模型每层上的通道进行裁剪,剪掉对多媒体资源进行分类时相对不重要的通道,保留相对重要的通道,得到剪枝后的多媒体分类模型每层上的通道。同时根据每层上每个通道所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类时的重要程度,对每个通道上的特征矩阵进行裁剪,剪掉对多媒体资源进行分类时每个通道上相对不重要的特征,保留相对重要的特征,得到剪枝后的多媒体分类模型每层每个通道上的特征矩阵大小。
基于第一平台上的剪枝后的多媒体分类模型,可以获取剪枝后的多媒体分类模型的相关参数,包括模型的层数、卷积核、每层的通道数量及每个通道对应的特征矩阵大小等等。
202、根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构。
其中,可移植的多媒体分类模型可以与多媒体分类模型具有相同的计算精度,该可移植的多媒体分类模型为根据剪枝后的多媒体分类模型在其他平台上重构的模型,与剪枝后的多媒体分类模型不同,该可移植的多媒体分类模型能够移植到任一平台上,并在任一平台上运行。
在基于剪枝后的多媒体分类模型构建可移植的多媒体分类模型时,需要确定出可移植的多媒体分类模型的模型结构及可移植的多媒体分类模型每层上不同通道对应的特征矩阵,因此,在构建可移植的多媒体分类模型之前,还将先采用本步骤确定出可移植的多媒体分类模型的模型结构,并采用步骤203确定出可移植的多媒体分类模型每层上不同通道对应的特征矩阵。
具体地,根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构时,可采用如下方法:
2021、获取剪枝后的多媒体分类模型每层上的输出通道数量。
多媒体分类模型及剪枝后的多媒体分类模型每层都具有输入通道和输出通道,每层所具有的输入通道数量和输出通道数量不同。例如,剪枝后的多媒体分类模型第一层具有16个输出通道,第二层具有8个输出通道,第三层具有4个输出通道、第四层具有2个输出通道等等。根据对多媒体分类模型进行剪枝操作后每层保留的输出通道,可获取剪枝后的多媒体分类模型每层上的输出通道数量。
2022、将剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到可移植的多媒体分类模型的模型结构。
通过将剪枝后的多媒体分类模型的前一层的输出通道数量作为一下层的输入通道数量,可确定出模型的输入通道数量和输出通道数量,从而确定出可移植的多媒体分类模型的模型结构。
例如,多媒体分类模型包括4层,第一层具有16个输出通道,第二层具有8个输出通道,第三层具有4个输出通道,第四层具有2个输出通道。对多媒体分类模型进行剪枝操作,将第一层的16个输出通道剪为8个的输出通道、将第二层的8个输出通道剪为4个的输出通道、第三层的4个输出通道剪为2个输出通道、第四层的2个输出通道维持不变,则可根据剪枝后的第一层8个输出通道、第二层4个输出通道、第三层2个输出通道、第四层2个输出通道,确定出可移植的多媒体分类模型第二层的输入通道数量为8个、第三层的输入通道数量为4个、第四层的输入通道数量为2个,进而根据剪枝后的多媒体分类模型的每层的输入通道数量和输出通道数量,确定出可移植的多媒体分类模型的模型结构。
203、根据剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵。
多媒体分类模型及剪枝后的多媒体分类模型每层上的每个通道都对应一个特征矩阵,该特征矩阵为由多个特征构成的矩阵,用于反应输入数据的相关特征。根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,能够得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵。
具体地,根据剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵时,可采用如下方法:
2031、根据剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定剪枝后的多媒体分类模型中可跨层相加的层。
对于多媒体分类模型,可进行跨层连接,将满足一定条件的两层上相应通道上的特征矩阵进行相加,以将前层的特征传递至后层上,从而提高模型输出的精度。
对于剪枝后的多媒体分类模型中任意两层,在确定这两层是否能够跨层相加的层时,可判断这两层的通道数量是否相同,并判断这两层的每个通道对应的特征矩阵大小是否相同,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定这两层可跨层相加。其中,每个通道对应的特征矩阵大小可根据剪枝操作后每个通道上保留的特征确定。
2032、将剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
将剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型后层上不同通道对应的特征矩阵时,可采用如下方法:
20321、对于剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同。
由于对多媒体分类模型进行剪枝操作时,不同层所剪掉的通道不同,例如,第五层16个通道,剪掉的是编号为0~7的8个通道,第十层16个通道,剪掉的是编号为8~15的8个通道,执行完剪枝操作后,第五层剩余的通道数为8个,第十层剩余的通道数也为8个,如果第五层上每个通道对应的特征矩阵大小为8*8,第十层上每个通道对应的特征矩阵大小也为8*8,则第五层和第十层满足跨层相加条件。然而,剪枝后的第五层剩余的通道为编号为8~15的通道,第十层剩余的通道为编号为0~7的通道,剪枝后的第五层和第十层剩余的通道不同,无法直接相加。为使剪枝后的第五层和第十层能够相加,需要对第五层和第十层进行补零操作。
对待相加的两层进行补零操作的具体过程为:设定剪枝后的第n层剩余的通道的索引为index,该索引用于表征剪枝后的通道编号,剪枝后的第m层剩余的通道的索引为index1,剪枝操作前第n层的原始通道数为q,每个通道的特征矩阵为c*c,剪枝操作前第m层的原始通道数为q,每个通道的特征矩阵为c*c,根据剪枝前的第m层和第n层的原始通道数量及特征矩阵大小,构造两个通道数为q的初始矩阵n_i和m_i,这两个初始矩阵的元素全部为0,分别表示为n_i=q*c*c和m_i=q*c*c。接下来,根据剪枝后的第n层的索引为初始矩阵n_i=q*c*c进行赋值,即n_i[index]=剪枝后第n层的值,并根据剪枝后的第m层的索引为初始矩阵m_i=q*c*c进行赋值,即m_i[index]=剪枝后第m层的值。
2322、基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
由于补零操作后的通道数量及通道相同,每个通道对应的特征矩阵大小相同,因而可将待相加两层中前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加。通过将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到可移植的多媒体分类模型中后层每个通道对应的特征矩阵。例如,设定第m层为待相加两层中的前层,第n层为待相加两层中的后层,通过对第m层和第n层进行补零操作,可将第m层每个通道对应的特征矩阵与第n层相应通道对应的特征矩阵进行相加,得到可移植的多媒体分类模型中第n层每个通道对应的特征矩阵。
参见图3,对多媒体分类模型进行剪枝操作,输入层剪掉8个通道,卷积层(1*1)剪掉8个通道,对于剪枝后的两层在进行跨层相加时,可对该两层进行补零操作,进而基于补零后的通道数量及每个通道对应的特征矩阵,将输入层每个通道对应的特征矩阵与卷积层相应通道对应的特征矩阵进行相加,得到可移植的多媒体分类模型中卷积层每个通道对应的特征矩阵。
204、根据可移植的多媒体分类模型的模型结构和可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。
针对图1(A)所示的实施环境,当构建完可移植的多媒体分类模型之后,可直接在第一平台运行该可移植的多媒体分类模型;针对图1(B)所示的实施环境,当构建完可移植的多媒体分类模型之后,可直接在第一平台运行该可移植的多媒体分类模型,还将可移植的多媒体分类模型移植到第二平台进行运行;针对图1(C)所示的实施环境,当构建完可移植的多媒体分类模型之后,可直接在第二平台运行该可移植的多媒体分类模型,也可以将可移植的多媒体分类模型移植到第一平台或第三平台进行运行。
基于所构建的多媒体分类模型,通过对将该可移植的多媒体分类模型进行移植并运行,提高了模型的实用性,满足不同平台的用户的使用需求。
由于进行剪枝操作的目的是对模型进行压缩,减小模型的计算量,而模型本身的功能并未发生变化,因而本步骤204中所构建的可移植的多媒体分类模型同样可用于对多媒体资源进行分类。另外,相关技术为了满足不同层之间跨层连接的需求,执行剪枝操作后仅是将通道上的特征剪为0,实际上通道数量及每个通道对应的特征矩阵并未直接剪掉,在运行时所有的通道及通道上的特征矩阵都参与计算,运行时计算量较大,而本公开所构建的可移植的多媒体分类模型的通道数量相比于相关技术剪枝后的多媒体分类模型通道数量及通道对应的特征矩阵数量要少,在运行时被剪掉的通道及对应的特征矩阵不会参与计算,大大减小了运行时的计算量,缩短了模型的运行时间并减小了所占用的资源,提升了模型运行的效率。
本公开实施例提供的方法,根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,并根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,并根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
本公开实施例提供了一种多媒体分类方法,参见图4,本公开实施例提供的方法流程包括:
401、获取待处理的多媒体资源。
其中,多媒体资源包括文本资源、音频资源及图像资源等。
402、将多媒体资源输入到可移植的多媒体分类模型中,输出对多媒体资源的分类结果。
其中,可移植的多媒体分类模型为根据图2所示的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。如果可移植的多媒体分类模型用于对文本资源进行分类,则将文本资源输入到可移植的多媒体分类模型中,通过可移植的多媒体分类模型进行分类,输出对文本资源的分类结果;如果可移植的多媒体分类模型用于对音频资源进行分类,则将音频资源输入到可移植的多媒体分类模型中,通过可移植的多媒体分类模型对音频资源进行分类,输出对音频资源的分类结果;如果可移植的多媒体分类模型用于对图像资源进行分类,则将图像资源输入到可移植的多媒体分类模型中,通过可移植的多媒体分类模型对图像资源进行分类,输出对图像资源的分类结果。
进一步地,在不同的应用场景下,基于对多媒体资源的分类结果,可以执行相应操作。例如,在智能门禁场景下,当确定人脸图像属于预存的人脸图像数据库中的图像,则打开门禁;在智能交通场景下,基于对视频图像的识别结果,进行视频行人再识别。
参见图5,本公开实施例提供了一种多媒体分类模型的构建装置,该装置包括:
获取模块501,用于获取剪枝后的多媒体分类模型,多媒体分类模型根据多媒体资源样本对深度学习模型训练得到、用于对多媒体资源进行分类;
确定模块502,用于根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构;
相加模块503,用于根据剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,剪枝后的多媒体资源分类模型每层上通道数量及每个通道的特征矩阵大小根据剪枝操作时所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类的重要程度确定;
构建模块504,用于根据可移植的多媒体分类模型的模型结构和可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。
在本公开的另一个实施例中,确定模块502,用于获取剪枝后的多媒体分类模型每层上的输出通道数量;将剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到可移植的多媒体分类模型的模型结构。
在本公开的另一个实施例中,相加模块503,用于根据剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定剪枝后的多媒体分类模型中可跨层相加的层;将剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
在本公开的另一个实施例中,相加模块503,用于对于剪枝后的多媒体分类模型中任意两层,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定两层可跨层相加。
在本公开的另一个实施例中,相加模块503,用于对于剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同;基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
综上所述,本公开实施例提供的装置,根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,并根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,并根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
参见图6,本公开实施例提供了一种多媒体分类装置,该装置包括:
获取模块601,用于获取待处理的多媒体资源;
输入输出模块602,用于将多媒体资源输入到可移植的多媒体分类模型中,输出对多媒体资源的分类结果,可移植的多媒体分类模型为根据图2所示的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。
图7示出了本公开一个示例性实施例提供的用于多媒体分类的电子设备的结构框图。该电子设备700可以为终端,例如智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的多媒体分类方法中终端执行的步骤。
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位终端700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本公开实施例提供的终端,基于可移植的多媒体分类模型,对多媒体资源进行分类。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
图8是根据一示例性实施例示出的一种用于多媒体分类模型的构建电子设备,该电子设备可以为服务器。参照图8,服务器800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述多媒体分类模型的构建方法中服务器所执行的功能。
服务器800还可以包括一个电源组件826被配置为执行服务器800的电源管理,一个有线或无线网络接口850被配置为将服务器800连接到网络,和一个输入输出(I/O)接口858。服务器800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供的服务器,根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,并根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,并根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
本公开实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图2所示的多媒体分类模型的构建方法,或图4所示的多媒体分类方法。
本公开实施例提供的计算机可读存储介质,根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,并根据剪枝后的多媒体分类模型每层上的通道数量及特征矩阵,对每层上相应通道的特征矩阵进行跨层相加,得到可移植的多媒体分类模型每层上不同通道对应的特征矩阵,并根据可移植的多媒体分类模型的模型结构和每层上不同通道对应的特征矩阵,构建可移植的多媒体分类模型。由于可移植的多媒体分类模型根据剪枝后的每层上的通道数量进行构建,因而该模型中每层的通道数量及每层通道上的特征矩阵相对于剪枝前的多媒体分类模型要少,基于该移植的多媒体分类模型对多媒体资源进行分类时,大大减小了计算量,缩短了分类时间,提高了分类效率。另外,该可移植的多媒体分类模型能够移植到其他平台上,提高了模型的实用性。
需要说明的是:上述实施例提供的多媒体分类模型的构建装置在构建多媒体分类模型以及多媒体分类装置在对多媒体进行分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将多媒体分类模型的构建装置及多媒体分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多媒体分类模型的构建装置及多媒体分类装置与多媒体分类模型的构建方法及多媒体分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (14)

1.一种多媒体分类模型的构建方法,其特征在于,所述方法包括:
获取剪枝后的多媒体分类模型,所述多媒体分类模型根据多媒体资源样本对深度学习模型训练得到、用于对多媒体资源进行分类;
根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,所述可移植的多媒体分类模型与所述多媒体分类模型具有相同的计算精度;
根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,所述剪枝后的多媒体分类模型每层上通道数量及每个通道的特征矩阵大小根据剪枝操作时所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类的重要程度确定;
根据所述可移植的多媒体分类模型的模型结构和所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建所述可移植的多媒体分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,包括:
获取所述剪枝后的多媒体分类模型每层上的输出通道数量;
将所述剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到所述可移植的多媒体分类模型的模型结构。
3.根据权利要求1所述的方法,其特征在于,所述根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,包括:
根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层;
将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层,包括:
对于所述剪枝后的多媒体分类模型中任意两层,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定所述两层可跨层相加。
5.根据权利要求3所述的方法,其特征在于,所述将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵,包括:
对于所述剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同;
基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到所述可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
6.一种多媒体分类方法,其特征在于,所述方法包括:
获取待处理的多媒体资源;
将所述多媒体资源输入到可移植的多媒体分类模型中,输出对所述多媒体资源的分类结果,所述可移植的多媒体分类模型为根据权利要求1至5中任一项所述的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。
7.一种多媒体分类模型的构建装置,其特征在于,所述装置包括:
获取模块,用于获取剪枝后的多媒体分类模型,所述多媒体分类模型根据多媒体资源样本对深度学习模型训练得到、用于对多媒体资源进行分类;
确定模块,用于根据剪枝后的多媒体分类模型每层上的通道数量,确定可移植的多媒体分类模型的模型结构,所述可移植的多媒体分类模型与所述多媒体分类模型具有相同的计算精度;
相加模块,用于根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,对所述剪枝后的多媒体分类模型每层上相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,所述剪枝后的多媒体分类模型每层上通道数量及每个通道的特征矩阵大小根据剪枝操作时所提取的多媒体资源样本的特征矩阵对多媒体资源样本进行分类的重要程度确定;
构建模块,用于根据所述可移植的多媒体分类模型的模型结构和所述可移植的多媒体分类模型每层上不同通道对应的特征矩阵,构建所述可移植的多媒体分类模型。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,用于获取所述剪枝后的多媒体分类模型每层上的输出通道数量;将所述剪枝后的多媒体分类模型上一层的输出通道数量作为下一层的输入通道数量,得到所述可移植的多媒体分类模型的模型结构。
9.根据权利要求7所述的装置,其特征在于,所述相加模块,用于根据所述剪枝后的多媒体分类模型每层上的通道数量及每层上每个通道的特征矩阵大小,确定所述剪枝后的多媒体分类模型中可跨层相加的层;将所述剪枝后的多媒体分类模型中可跨层相加的两层上前层的特征矩阵与后层相应通道的特征矩阵进行跨层相加,得到所述可移植的多媒体分类模型后层上不同通道对应的特征矩阵。
10.根据权利要求9所述的装置,其特征在于,所述相加模块,用于对于所述剪枝后的多媒体分类模型中任意两层,如果两层的通道数量相同且每个通道对应的特征矩阵大小相同,则确定所述两层可跨层相加。
11.根据权利要求9所述的装置,其特征在于,所述相加模块,用于对于所述剪枝后的多媒体分类模型中可跨层相加的任意两层,根据剪枝后的通道编号及特征矩阵大小,为待相加的每层添加剪掉的通道及其对应的特征矩阵,并对待相加的两层中每层所添加的每个通道对应的特征矩阵进行补零操作,以使补零操作后两层的通道相同且每个通道上的特征矩阵大小相同;基于补零后的通道数量及每个通道对应的特征矩阵,将前层每个通道对应的特征矩阵与后层相应通道对应的特征矩阵进行相加,得到所述可移植的多媒体分类模型中后层每个通道对应的特征矩阵。
12.一种多媒体分类装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的多媒体资源;
输入输出模块,用于将多媒体资源输入到可移植的多媒体分类模型中,输出对所述多媒体资源的分类结果,所述可移植的多媒体分类模型为根据权利要求1至5中任一项所述的多媒体分类模型的构建方法构建的可移植的多媒体分类模型。
13.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的多媒体分类模型的构建方法,或权利要求6所述的多媒体分类方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的多媒体分类模型的构建方法,或权利要求6所述的多媒体分类方法。
CN201910922063.5A 2019-06-10 2019-09-27 多媒体分类模型的构建方法、多媒体分类方法及装置 Active CN110458289B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910498309.0A CN110210622A (zh) 2019-06-10 2019-06-10 基于剪枝的模型构建方法、装置、电子设备及存储介质
CN2019104983090 2019-06-10

Publications (2)

Publication Number Publication Date
CN110458289A CN110458289A (zh) 2019-11-15
CN110458289B true CN110458289B (zh) 2022-06-10

Family

ID=67791706

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910498309.0A Pending CN110210622A (zh) 2019-06-10 2019-06-10 基于剪枝的模型构建方法、装置、电子设备及存储介质
CN201910922063.5A Active CN110458289B (zh) 2019-06-10 2019-09-27 多媒体分类模型的构建方法、多媒体分类方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910498309.0A Pending CN110210622A (zh) 2019-06-10 2019-06-10 基于剪枝的模型构建方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (2) CN110210622A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337472A1 (en) * 2016-05-19 2017-11-23 Nec Laboratories America, Inc. Passive pruning of filters in a convolutional neural network
CN107895192A (zh) * 2017-12-06 2018-04-10 广州华多网络科技有限公司 深度卷积网络压缩方法、存储介质和终端
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337472A1 (en) * 2016-05-19 2017-11-23 Nec Laboratories America, Inc. Passive pruning of filters in a convolutional neural network
CN107895192A (zh) * 2017-12-06 2018-04-10 广州华多网络科技有限公司 深度卷积网络压缩方法、存储介质和终端
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统

Also Published As

Publication number Publication date
CN110210622A (zh) 2019-09-06
CN110458289A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN108304265B (zh) 内存管理方法、装置及存储介质
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN108132790B (zh) 检测无用代码的方法、装置及计算机存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN110705614A (zh) 模型训练方法、装置、电子设备及存储介质
CN111027490A (zh) 人脸属性识别方法及装置、存储介质
CN111416996B (zh) 多媒体文件检测方法、播放方法、装置、设备及存储介质
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN111325220A (zh) 图像生成方法、装置、设备及存储介质
CN113822322A (zh) 图像处理模型训练方法及文本处理模型训练方法
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN112053360A (zh) 图像分割方法、装置、计算机设备及存储介质
CN112036492A (zh) 样本集处理方法、装置、设备及存储介质
CN111782950A (zh) 样本数据集获取方法、装置、设备及存储介质
CN111275607A (zh) 界面显示方法、装置、计算机设备及存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN112560612B (zh) 确定业务算法的系统、方法、计算机设备及存储介质
CN112329909B (zh) 生成神经网络模型的方法、装置及存储介质
CN114817709A (zh) 排序方法、装置、设备及计算机可读存储介质
CN110458289B (zh) 多媒体分类模型的构建方法、多媒体分类方法及装置
CN113301422A (zh) 获取视频封面的方法、终端及存储介质
CN112560903A (zh) 图像美学信息的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant