CN110929623A - 多媒体文件的识别方法、装置、服务器和存储介质 - Google Patents

多媒体文件的识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN110929623A
CN110929623A CN201911122409.XA CN201911122409A CN110929623A CN 110929623 A CN110929623 A CN 110929623A CN 201911122409 A CN201911122409 A CN 201911122409A CN 110929623 A CN110929623 A CN 110929623A
Authority
CN
China
Prior art keywords
target
multimedia files
convolution
batch mode
hardware resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911122409.XA
Other languages
English (en)
Inventor
曹效伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reach Best Technology Co Ltd
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Reach Best Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reach Best Technology Co Ltd filed Critical Reach Best Technology Co Ltd
Priority to CN201911122409.XA priority Critical patent/CN110929623A/zh
Publication of CN110929623A publication Critical patent/CN110929623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种多媒体文件的识别方法、装置、服务器和存储介质。方法包括:将多个多媒体文件输入目标识别模型;通过所述目标识别模型对所述多个多媒体文件按照预设分批方式分成多个批次,通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出所述多个多媒体文件的识别结果;其中,所述预设分批方式基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。通过本公开实施例提供的方法,可以在有限的硬件资源的条件下获得更快的卷积计算速度,从而整体上提高多媒体文件识别的效率。

Description

多媒体文件的识别方法、装置、服务器和存储介质
技术领域
本公开涉及数据处理领域,尤其涉及一种多媒体文件的识别方法、装置、服务器和存储介质。
背景技术
在人工智能高速发展的今天,深度学习技术在越来越多的业务场景中扮演了不可替代的角色。随着模型结构的越来越复杂,以及移动端的应用场景的多样化,如何提高模型的计算速度正受到越来越多的关注。
为了提高计算速度,目前在应用神经网络模型进行多媒体数据的识别过程中,通常会关注耗时较多的卷积计算过程,可以通过将多个多媒体数据拼成一个“批数据”(即Batch)。在一批多媒体数据中,可以通过多个卷积核在同时对一批多媒体数据中的各个多媒体数据进行卷积计算,多媒体数据之间相互独立。当一批多媒体数据的数据量比较大时,计算设备可以申请更大的硬件资源用以保存计算时所需的数据,另一方面也会相应的选择最适合的卷积算法。
现有的方案下,计算设备会基于各个卷积核单独进行硬件资源的申请和卷积算法的确定,因此,很容易导致硬件资源无法满足需求,不能够支持相应的卷积计算,反而使得计算速度降低,处理耗时延长。
发明内容
本公开提供一种多媒体文件的识别方法、装置、服务器和存储介质,以至少解决相关技术中多媒体数据处理耗时较长的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体文件的识别方法,包括:
将多个多媒体文件输入目标识别模型;
通过所述目标识别模型对所述多个多媒体文件按照预设分批方式分成多个批次,通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出所述多个多媒体文件的识别结果;
其中,所述预设分批方式基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,所述通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理包括:
为所述目标识别模型的多个卷积核请求目标硬件资源,应用所述多个卷积核的目标分批方式和所述多个卷积核的目标算法,分别对所述多个批次的多媒体文件进行卷积计算处理,其中,所述目标分批方式和所述目标算法基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,所述将多个多媒体文件输入目标识别模型之前,所述方法还包括:
获取多个样本多媒体文件;
基于多种分批方式,对所述多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件;
对于所述目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定所述每种分批方式下的多个批次的处理耗时以及所需硬件资源;
获取任一特征对应的卷积核的所述目标分批方式以及所述目标算法,所述目标分批方式以及所述目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
在一种可能的实施方式中,所述获取任一特征对应的卷积核的目标分批方式以及目标算法之前,所述方法还包括:
将所述目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到所述处理耗时和值以及所述硬件资源和值。
根据本公开实施例的第二方面,提供一种多媒体文件的识别装置,包括:
输入模块,被配置为执行将多个多媒体文件输入目标识别模型;
分批模块,被配置为执行通过所述目标识别模型对所述多个多媒体文件按照预设分批方式分成多个批次,其中,所述预设分批方式基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到;
输出模块,被配置为执行通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出所述多个多媒体文件的识别结果。
在一种可能的实施方式中,所述输出模块还包括:
请求单元,被配置为执行为所述目标识别模型的多个卷积核请求目标硬件资源;
计算处理单元,被配置为执行应用所述多个卷积核的目标分批方式和所述多个卷积核的目标算法,分别对所述多个批次的多媒体文件进行卷积计算处理,其中,所述目标分批方式和所述目标算法基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,所述装置还包括:
获取模块,被配置为执行获取多个样本多媒体文件;
组合模块,被配置为执行基于多种分批方式,对所述多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件;
确定模块,被配置为执行对于所述目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定所述每种分批方式下的多个批次的处理耗时以及所需硬件资源;
所述获取模块,还被配置为执行获取任一特征对应的卷积核的所述目标分批方式以及所述目标算法,所述目标分批方式以及所述目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
在一种可能的实施方式中,所述装置还包括:
求和模块,被配置为执行将所述目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到所述处理耗时和值以及所述硬件资源和值。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述多媒体文件的识别方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述多媒体文件的识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行上述多媒体文件的识别方法。
本公开实施例提供的技术方案至少带来以下有益效果:通过目标识别将数量较多的多媒体文件分成多个数量较少的多媒体文件,对多个数量较少的多媒体文件分别进行卷积计算,可以在有限的硬件资源的条件下获得更快的卷积计算速度,从而整体上提高多媒体文件识别的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多媒体文件的识别方法的流程图。
图2是根据一示例性实施例示出的一种多媒体文件的识别方法的流程图。
图3是根据一示例性实施例示出的一种目标识别模型训练方法的流程图。
图4是根据一示例性实施例示出的一种多媒体文件的识别方法的流程图。
图5是根据一示例性实施例示出的一种多媒体文件分组图。
图6是根据一示例性实施例示出的一种目标识别模型训练方法的示意图。
图7是根据一示例性实施例示出的一种多媒体文件的识别装置的框图。
图8是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了便于理解本公开实施例提供的技术方案,首先对本公开实施例所涉及的一些名词解释说明:
GEMM(general matrix multiplication):通用矩阵乘法规则,可以是指实现不同级别的高维数据的计算方法,包含3个级别,矢量与矢量的计算,矢量与矩阵的计算,矩阵与矩阵的计算。
FFT(Fast Fourier Transform):快速傅立叶变换算法,一种卷积算法。
WINOGRAD(coppersmith–winograd algorithm):维诺格拉德矩阵相乘算法,一种快速卷积算法。
图1是根据一示例性实施例示出的一种多媒体文件的识别方法的流程图,如图1所示,多媒体文件的识别方法用于服务器中,包括以下步骤。
在步骤S101中,将多个多媒体文件输入目标识别模型。
在步骤S102中,通过目标识别模型对多个多媒体文件按照预设分批方式分成多个批次,通过目标识别模型的多个卷积核分别对多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出多个多媒体文件的识别结果。其中,预设分批方式基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,将多个多媒体文件输入目标识别模型之前,方法还包括:
为目标识别模型的多个卷积核请求目标硬件资源,应用多个卷积核的目标分批方式和多个卷积核的目标算法,分别对多个批次的多媒体文件进行卷积计算处理,其中,目标分批方式和目标算法基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,目标硬件资源和目标算法基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到包括:
获取多个样本多媒体文件。
基于多种分批方式,对多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件。
对于目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定每种分批方式下的多个批次的处理耗时以及所需硬件资源。
获取任一特征对应的卷积核的目标分批方式以及目标算法,目标分批方式以及目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
在一种可能的实施方式中,获取任一特征对应的卷积核的目标分批方式以及目标算法之前,方法还包括:
将目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到处理耗时和值以及硬件资源和值。
图2是根据一示例性实施例示出的一种多媒体文件的识别方法的流程图,如图2所示,直播数据处理方法用于第一终端中,包括以下步骤。
在步骤S201中,服务器将多个多媒体文件输入目标识别模型。
其中,目标识别模型主要有两个功能,第一个功能是将接收到的多媒体文件分批,第二个功能是调用对应的算法对分批后的多媒体文件进行处理。
需要说明的是,该目标识别模型可以采用预先训练完毕的开源模型,这样可以借助该模型快速的实现本公开提供的多媒体文件的识别方法,也可以是自行收集的训练数据来训练得到的模型,这样得到的模型参数更加符合实际的多媒体识别情况,具体的训练方法可以参见步骤S301-S305。本公开实施例对于模型的训练时机不做限定。
在步骤S202中,服务器通过目标识别模型对多个多媒体文件按照预设分批方式分成多个批次。
其中,预设分批方式基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,服务器可以通过目标识别模型的模型参数将多媒体文件分成多个批次串行进行处理,举例来说,以多媒体文件为图片为例,如果服务器同时向目标识别模型中输入了四张图片,那么该目标识别模型可以将接收到的四张图片数据分成四个批次,每个批次一张图片,目标模型每次对一张图片进行处理,处理完四张图片即为处理完成该次输入的多媒体文件,或者,该目标模型也可以将接收到的图片分成两个批次,例如第一个批次为一张图片,第二个批次为三张图片,或者第一个批次和第二个批次均为两张图片。需要说明的是,具体将多媒体文件分成批次的数量是由目标识别模型基于其模型参数确定的,上述具体的数字只是为了便于理解而进行的描述,并不能对本公开造成不当限定。
在步骤S203中,服务器为目标识别模型的多个卷积核请求目标硬件资源,应用多个卷积核的目标分批方式和多个卷积核的目标算法,分别对多个批次的多媒体文件进行卷积计算处理。
其中,目标识别模型使用不同算法对同一个多媒体文件进行处理时,所占用的硬件资源和耗费的时间是不同的,总的来说,对多媒体文件进行处理的速度快的算法,其占用的硬件资源也越多。例如,在进行卷积运算的时候,可以选用GEMM类的算法,还可以选用FTT类的算法,也可以选用WINGRAD类的算法,其中GEMM类算法在运算时需要占用的硬件资源很少,但是其运算速度较慢,对多媒体文件进行处理时耗费的时间较长。FFT类算法和WINGRAD类的算法运算速度较快,但是在运算时需要占用大量的硬件资源。GEMM类、FTT类以及WINGRAD类算法的具体包含的算法可以参见表1。
表1
Figure BDA0002275794290000071
Figure BDA0002275794290000081
在一种可能的实施方式中,目标识别模型可以基于多个多媒体文件的分批情况,为其选择相应的算法,并向服务器目标硬件资源调用请求,服务器可以基于目标硬件资源调用请求,为目标识别模型分配相应的目标硬件资源,目标识别模型可以基于分配的目标硬件资源,应用相应的算法对多个批次的多媒体文件进行卷积计算处理。
在步骤S204中,目标识别模型的全连接层对卷积计算的结果进行处理,输出多个多媒体文件的识别结果。
在一种可能的实施方式中,目标识别模型应用相应的算法对多媒体文件进行处理之后,可以得到多个多媒体文件的特征图,随后将多个多媒体文件的特征图输入到全连接层,经过全连接层的运算,得到最终的用于表示多媒体图片的特征向量,该特征向量可以用于后续的多媒体识别和匹配。
本公开实施例提供的技术方案至少带来以下有益效果:通过目标识别将数量较多的多媒体文件分成多个数量较少的多媒体文件,对多个数量较少的多媒体文件分别进行卷积计算,可以在有限的硬件资源的条件下获得更快的卷积计算速度,从而整体上提高多媒体文件识别的效率。
需要说明的是,目标识别模型可以有两种运行模式,第一种是识别模式,第二种是训练模式,具体可以参见图4。在识别模式下,可以执行步骤S201—S204的各个步骤,在训练模式下,目标识别模型会基于多个样本多媒体文件进行计算,得到计算过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短的分批方式和算法,并将该分批方式和算法对应存储,在识别模式下可以基于该对应关系直接采用相应的分批方式和算法对多媒体文件进行处理。
参见步骤S201中记载的内容,为了实现本公开提供的多媒体文件的识别方法,除了可以采用开源模型直接进行运算,还可以自行收集的训练数据来训练得到的模型,具体的模型训练过程参见步骤S301-S305。
在步骤S301中,目标识别模型获取多个样本多媒体文件。
其中,多个样本多媒体文件可以是指多张图片文件,也可以是指多段音视频文件,本公开实施例对此不做限定。
在步骤S302中,目标识别模型基于多种分批方式,对多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件。
在一种可能的实施方式中,目标识别模型可以对接收到多个多媒体文件进行分组,具体来说,目标识别模型可以对多个多媒体文件以所有可能的分批方式进行分组,得到每种可能的分批方式下的多个批次。例如,目标识别模型接收到4个多媒体文件,那么目标识别模型可以将接收到的4个多媒体文件分为【1,1,1,1】、【1,2,1】,【1,3】以及【4】四种组合,其中数字代表4个多媒体文件的批次,也即是,数字代表目标识别模型单次处理多媒体文件的个数,【】代表一种分组情况,具体的分组情况参见图5。需要说明的是,在目标识别模型对多个多媒体文件以所有可能的方式进行分组时,可以采用递归算法,也可以采用其他可以实现分组目的的算法,本公开实施例对此不做限定。
在步骤S303中,对于目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定每种分批方式下的多个批次的处理耗时以及所需硬件资源。
其中,服务中存储有目标识别模型单次处理多媒体文件的个数与算法的对应表,例如当目标模型单次处理的多媒体文件的个数为1-2时,可以对应有算法FFT,当目标模型单次处理的多媒体文件的个数为2-4时,可以对应有算法WINOGRAD,当目标模型单次处理的多媒体文件的个数为4-6时,对应有算法GRMM,其中,重叠表示两种算法均可以被采用来进行卷及计算,也就是说,在进行模型训练的过程中,目标识别模型可以采用多种算法对同一种分批方式下的多媒体文件进行卷积计算。当然,上述多媒体文件的个数与算法的对应关系仅仅是为了便于理解而提供的,并不能对本公开构成不当限定,具体的多媒体文件的个数与算法的对应关系可以根据实际需要进行设置。
在一种可能的实施方式中,目标识别模型可以调用任一特征对应的卷积核,基于服务器中存储的单次处理多媒体文件的个数与算法的对应表,选取相应的算法,对每一种分批方式下的多个批次进行相应的卷积计算,服务器可以确定每种分批方式下的多个批次的处理耗时以及所需硬件资源。
需要说明的是,上述步骤S301-S303是以一个卷积核进行的计算进行描述的,实际上,目标识别模型可以同时对多个卷积核进行相应的计算,服务器可以获取多个卷积核对应的多个批次的处理耗时以及所需硬件资源。
在步骤S304中,服务器将目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到处理耗时和值以及硬件资源和值。
由于多媒体文件具有多个特征,目标识别模型可以基于多个特征,可以采用多个卷积核分别对多媒体文件的多个特征进行特征提取,得到多张特征图。也即是,目标识别模型可以同时对多媒体文件的多个特征进行提取。在提取多媒体文件的不同特征时,可以选取不同的卷积核。服务器可以分别计算同时进行卷积运算的卷积核的处理耗时以及硬件资源,并将所有卷积核的处理耗时和占用的硬件资源分别求和,得到处理耗时和值以及硬件资源和值。
在步骤S305中,服务器获取任一特征对应的卷积核的目标分批方式以及目标算法,目标分批方式以及目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
在一种可能的实施方式中,服务器可以将每次目标识别模型采用的不同分批方式下不同的算法的处理耗时和和占用的硬件资源和记录,并与可用硬件资源进行对比,删除占用硬件资源和大于可用硬件资源的记录,并从剩余记录中选取占用硬件资源以及处理耗时和最短的分批方式和算法作为目标分批方式以及目标算法。具体来说,服务器可以采用线性规划的方式对得到的硬件资源和值和处理耗时和值进行处理,得到在模型识别过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短的目标分批方式以及目标算法,具体可以通过公式(1)和公式(2)实现。
Figure BDA0002275794290000101
Figure BDA0002275794290000111
其中,公式(1)中,min()表示取最小值,Ttot表示采用对应算法的处理耗时和值,k表示卷积核,K表示多个卷积核的集合,B表示分批方式,c表示算法,Ck(B)表示在分批方式为B的情况下所选择的算法集合,ik,c表示目标识别模型是否选择算法,当ik,c=1时表示目标识别模型选择该算法,当ik,c=0时表示目标识别模型选择该算法,Tk,c表示对应算法的处理耗时。公式(2)中,subject to表示公式(1)的限制条件,其中与公式(1)相同的符号其含义也相同,Mtot表示可用硬件资源。图6是为了便于理解而提供的上述公式(1)和公式(2)的对应内容。
本公开实施例提供的技术方案至少带来以下有益效果:通过目标识别将数量较多的多媒体文件分成多个数量较少的多媒体文件,对多个数量较少的多媒体文件分别进行卷积计算,可以在有限的硬件资源的条件下获得更快的卷积计算速度,从而整体上提高多媒体文件识别的效率。
图7是根据一示例性实施例示出的一种直播数据处理装置框图。参照图7,该装置包输入模块701,分批模块702和输出模块703。
输入模块701,被配置为执行将多个多媒体文件输入目标识别模型。
分批模块702,被配置为执行通过目标识别模型对多个多媒体文件按照预设分批方式分成多个批次,其中,预设分批方式基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到。
输出模块703,被配置为执行通过目标识别模型的多个卷积核分别对多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出多个多媒体文件的识别结果。
在一种可能的实施方式中,输出模块还包括:
请求单元,被配置为执行为目标识别模型的多个卷积核请求目标硬件资源;
计算处理单元,被配置为执行应用多个卷积核的目标分批方式和多个卷积核的目标算法,分别对多个批次的多媒体文件进行卷积计算处理,其中,目标分批方式和目标算法基于多个样本多媒体文件和目标识别模型的各个卷积核进行训练得到。
在一种可能的实施方式中,装置还包括:
获取模块,被配置为执行获取多个样本多媒体文件;
组合模块,被配置为执行基于多种分批方式,对多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件;
确定模块,被配置为执行对于目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定每种分批方式下的多个批次的处理耗时以及所需硬件资源;
获取模块,还被配置为执行获取任一特征对应的卷积核的目标分批方式以及目标算法,目标分批方式以及目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
在一种可能的实施方式中,装置还包括:
求和模块,被配置为执行将目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到处理耗时和值以及硬件资源和值。
本公开实施例提供的技术方案至少带来以下有益效果:通过目标识别将数量较多的多媒体文件分成多个数量较少的多媒体文件,对多个数量较少的多媒体文件分别进行卷积计算,可以在有限的硬件资源的条件下获得更快的卷积计算速度,从而整体上提高多媒体文件识别的效率。
基于相同构思,本公开实施例还提供一种服务器,如图8所示,服务器包括:
处理器801;
用于存储处理器801可执行指令的存储器802;
其中,处理器被配置为执行命令,以实现如上述实施例的多媒体文件的识别方法。
应理解的是,上述处理器可以是中央处理器(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,在一种可选的实施例中,上述存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data random SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DRRAM)。
本公开提供了一种计算机程序产品,当计算机程序被计算机执行时,可以使得处理器或计算机执行上述方法实施例中对应的各个步骤和/或流程。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种多媒体文件的识别方法,其特征在于,包括:
将多个多媒体文件输入目标识别模型;
通过所述目标识别模型对所述多个多媒体文件按照预设分批方式分成多个批次,通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出所述多个多媒体文件的识别结果;
其中,所述预设分批方式基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理包括:
为所述目标识别模型的多个卷积核请求目标硬件资源,应用所述多个卷积核的目标分批方式和所述多个卷积核的目标算法,分别对所述多个批次的多媒体文件进行卷积计算处理,其中,所述目标分批方式和所述目标算法基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
3.根据权利要求2所述的方法,其特征在于,所述将多个多媒体文件输入目标识别模型之前,所述方法还包括:
获取多个样本多媒体文件;
基于多种分批方式,对所述多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件;
对于所述目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定所述每种分批方式下的多个批次的处理耗时以及所需硬件资源;
获取任一特征对应的卷积核的所述目标分批方式以及所述目标算法,所述目标分批方式以及所述目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
4.根据权利要求3所述的方法,其特征在于,所述获取任一特征对应的卷积核的目标分批方式以及目标算法之前,所述方法还包括:
将所述目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到所述处理耗时和值以及所述硬件资源和值。
5.一种多媒体文件的识别装置,其特征在于,包括:
输入模块,被配置为执行将多个多媒体文件输入目标识别模型;
分批模块,被配置为执行通过所述目标识别模型对所述多个多媒体文件按照预设分批方式分成多个批次,其中,所述预设分批方式基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到;
输出模块,被配置为执行通过所述目标识别模型的多个卷积核分别对所述多个批次的多媒体文件进行卷积计算处理,通过全连接层对卷积计算的结果进行处理,输出所述多个多媒体文件的识别结果。
6.根据权利要求5所述的装置,其特征在于,所述输出模块还包括:
请求单元,被配置为执行为所述目标识别模型的多个卷积核请求目标硬件资源;
计算处理单元,被配置为执行应用所述多个卷积核的目标分批方式和所述多个卷积核的目标算法,分别对所述多个批次的多媒体文件进行卷积计算处理,其中,所述目标分批方式和所述目标算法基于多个样本多媒体文件和所述目标识别模型的各个卷积核进行训练得到。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,被配置为执行获取多个样本多媒体文件;
组合模块,被配置为执行基于多种分批方式,对所述多个样本多媒体文件进行组合,得到每种分批方式下的多个批次,每个批次包括至少一个样本多媒体文件;
确定模块,被配置为执行对于所述目标识别模型中任一特征对应的卷积核,分别基于多种不同的卷积算法,确定所述每种分批方式下的多个批次的处理耗时以及所需硬件资源;
所述获取模块,还被配置为执行获取任一特征对应的卷积核的所述目标分批方式以及所述目标算法,所述目标分批方式以及所述目标算法能够使得在模型预测过程中所占用硬件资源和值最小且小于可用硬件资源的同时处理耗时和值最短。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
求和模块,被配置为执行将所述目标识别模型中全部卷积核对于同一批次样本多媒体文件的处理耗时以及所需硬件资源分别求和,得到所述处理耗时和值以及所述硬件资源和值。
9.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如:权利要求1至4中任一项所述的多媒体文件的识别方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至4中任一项所述的多媒体文件的识别方法。
CN201911122409.XA 2019-11-15 2019-11-15 多媒体文件的识别方法、装置、服务器和存储介质 Pending CN110929623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911122409.XA CN110929623A (zh) 2019-11-15 2019-11-15 多媒体文件的识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911122409.XA CN110929623A (zh) 2019-11-15 2019-11-15 多媒体文件的识别方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN110929623A true CN110929623A (zh) 2020-03-27

Family

ID=69853145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911122409.XA Pending CN110929623A (zh) 2019-11-15 2019-11-15 多媒体文件的识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN110929623A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022033241A1 (zh) * 2020-08-10 2022-02-17 腾讯科技(深圳)有限公司 对象的处理方法及装置、存储介质和电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779060A (zh) * 2017-02-09 2017-05-31 武汉魅瞳科技有限公司 一种适于硬件设计实现的深度卷积神经网络的计算方法
CN107077625A (zh) * 2014-10-27 2017-08-18 电子湾有限公司 分层深卷积神经网络
US20180075100A1 (en) * 2016-09-15 2018-03-15 Oracle International Corporation Non-intrusive monitoring output of stages in micro-batch streaming
CN109034381A (zh) * 2017-06-09 2018-12-18 宏达国际电子股份有限公司 训练任务优化系统、方法及其非暂态电脑可读媒体
CN109086653A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
US20190065942A1 (en) * 2017-08-31 2019-02-28 Qualcomm Incorporated Providing flexible matrix processors for performing neural network convolution in matrix-processor-based devices
US20190114537A1 (en) * 2017-10-16 2019-04-18 Facebook, Inc. Distributed training and prediction using elastic resources
EP3474175A1 (en) * 2017-10-18 2019-04-24 AO Kaspersky Lab System and method of managing computing resources for detection of malicious files based on machine learning model
WO2019119301A1 (zh) * 2017-12-20 2019-06-27 华为技术有限公司 在卷积神经网络模型中确定特征图像的方法和装置
CN109948789A (zh) * 2019-03-21 2019-06-28 百度在线网络技术(北京)有限公司 用于卷积神经网络的数据加载方法和装置
CN109976903A (zh) * 2019-02-22 2019-07-05 华中科技大学 一种基于层宽内存分配的深度学习异构计算方法和系统
US10402691B1 (en) * 2018-10-04 2019-09-03 Capital One Services, Llc Adjusting training set combination based on classification accuracy
CN110298394A (zh) * 2019-06-18 2019-10-01 中国平安财产保险股份有限公司 一种图像识别方法和相关装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077625A (zh) * 2014-10-27 2017-08-18 电子湾有限公司 分层深卷积神经网络
US20180075100A1 (en) * 2016-09-15 2018-03-15 Oracle International Corporation Non-intrusive monitoring output of stages in micro-batch streaming
CN106779060A (zh) * 2017-02-09 2017-05-31 武汉魅瞳科技有限公司 一种适于硬件设计实现的深度卷积神经网络的计算方法
CN109034381A (zh) * 2017-06-09 2018-12-18 宏达国际电子股份有限公司 训练任务优化系统、方法及其非暂态电脑可读媒体
US20190065942A1 (en) * 2017-08-31 2019-02-28 Qualcomm Incorporated Providing flexible matrix processors for performing neural network convolution in matrix-processor-based devices
US20190114537A1 (en) * 2017-10-16 2019-04-18 Facebook, Inc. Distributed training and prediction using elastic resources
EP3474175A1 (en) * 2017-10-18 2019-04-24 AO Kaspersky Lab System and method of managing computing resources for detection of malicious files based on machine learning model
WO2019119301A1 (zh) * 2017-12-20 2019-06-27 华为技术有限公司 在卷积神经网络模型中确定特征图像的方法和装置
CN109086653A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
US10402691B1 (en) * 2018-10-04 2019-09-03 Capital One Services, Llc Adjusting training set combination based on classification accuracy
CN109976903A (zh) * 2019-02-22 2019-07-05 华中科技大学 一种基于层宽内存分配的深度学习异构计算方法和系统
CN109948789A (zh) * 2019-03-21 2019-06-28 百度在线网络技术(北京)有限公司 用于卷积神经网络的数据加载方法和装置
CN110298394A (zh) * 2019-06-18 2019-10-01 中国平安财产保险股份有限公司 一种图像识别方法和相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOSUKE OYAMA ET AL: "Accelerating Deep Learning Frameworks with Micro-batches", 《2018 IEEE INTERNATIONAL CONFERENCE ON CLUSTER COMPUTING (CLUSTER)》 *
梁蒙蒙等: "基于PSO-ConvK卷积神经网络的肺部肿瘤图像识别", 《山东大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022033241A1 (zh) * 2020-08-10 2022-02-17 腾讯科技(深圳)有限公司 对象的处理方法及装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US10621971B2 (en) Method and device for extracting speech feature based on artificial intelligence
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
US20220083857A1 (en) Convolutional neural network operation method and device
CN110781923B (zh) 特征提取方法及装置
US20190138899A1 (en) Processing apparatus, processing method, and nonvolatile recording medium
CN109710402A (zh) 处理资源获取请求的方法、装置、计算机设备和存储介质
CN114359563B (zh) 模型训练方法、装置、计算机设备和存储介质
WO2019001323A1 (zh) 信号处理的系统和方法
CN111311599A (zh) 图像处理方法、装置、电子设备和存储介质
CN111144457A (zh) 图像处理方法、装置、设备及存储介质
CN111709415B (zh) 目标检测方法、装置、计算机设备和存储介质
CN111310115B (zh) 数据处理方法、装置及芯片、电子设备、存储介质
US9232154B2 (en) Object selection in an image
CN114968612B (zh) 一种数据处理方法、系统及相关设备
CN109102468B (zh) 图像增强方法、装置、终端设备及存储介质
CN110929623A (zh) 多媒体文件的识别方法、装置、服务器和存储介质
CN112766397A (zh) 一种分类网络及其实现方法和装置
CN108416830B (zh) 动画显示控制方法、装置、设备及存储介质
CN115797267A (zh) 图像质量评估方法、系统、电子设备和存储介质
US20210224632A1 (en) Methods, devices, chips, electronic apparatuses, and storage media for processing data
CN115829000A (zh) 数据处理方法、装置、电子设备及存储介质
CN112037814B (zh) 一种音频指纹的提取方法、装置、电子设备及存储介质
CN110428453B (zh) 数据处理方法、装置、数据处理设备及存储介质
CN114418059A (zh) 一种信息处理方法及装置
CN110021166B (zh) 用于处理用户出行数据的方法、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication