CN111950411A - 模型确定方法及相关装置 - Google Patents
模型确定方法及相关装置 Download PDFInfo
- Publication number
- CN111950411A CN111950411A CN202010757834.2A CN202010757834A CN111950411A CN 111950411 A CN111950411 A CN 111950411A CN 202010757834 A CN202010757834 A CN 202010757834A CN 111950411 A CN111950411 A CN 111950411A
- Authority
- CN
- China
- Prior art keywords
- loss function
- model
- determining
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 435
- 238000001228 spectrum Methods 0.000 claims description 61
- 230000001186 cumulative effect Effects 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 33
- 230000001131 transforming effect Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims 1
- 238000004821 distillation Methods 0.000 description 27
- 238000013145 classification model Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种模型确定方法及相关装置,其中,所述方法包括:根据第一模型对所述输入视频进行分类处理,得到第一特征数据,以及根据第二模型对所述输入视频进行分类处理,得到第二特征数据;根据所述第一特征数据、所述第二特征数据,确定第一损失函数;根据所述第一模型和所述第二模型的网络参数,确定第二损失函数;根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数;根据所述目标损失函数对所述第一模型进行调整,以得到第三模型,能够提升调整后得到的模型处理视频分类任务时的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种模型确定方法及相关装置。
背景技术
行为识别作为视频行为理解领域中最基础的研究方向之一,旨在识别修剪视频中发生的动作类别,吸引了越来越多人的关注。现有的基于深度学习的方法主要包含了两种典型的类别:双流网络旨在从RGB图像和堆叠光流中分别捕捉表冠和运动信息,而三维卷积采用3D卷积直接从原始视频中捕捉空间和时间信息。然而,无论哪种方案,为了获得较好的性能,通常都需要牺牲巨大的参数和资源作为代价。
为了考虑行为分类的实时性,越来越多研究学者开始探索轻量化模型。蒸馏学习是一种常见的模型轻量化手段,通过将较大的教师模型中关键的信息蒸馏进较小的学生模型中,从而使得学生模型达到与教师模型相近的性能。少数的用于视频分类任务的蒸馏方法大多停留在输入数据层面的有效选取,或者照搬图像分类领域的蒸馏方法,导致了蒸馏得到的学生模型在处理视频分类任务时的准确性较低。
发明内容
本申请实施例提供了一种模型确定方法及相关装置,能够提升调整后得到的模型处理视频分类任务时的准确性。
本申请实施例的第一方面提供了一种模型确定方法,该方法包括:
根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
根据第一特征数据、第二特征数据,确定第一损失函数;
根据第一模型和第二模型的网络参数,确定第二损失函数;
根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
根据目标损失函数对第一模型进行调整,以得到第三模型。
本示例中,通过第一模型、第二模型对输入视频进行分类处理后得到的第一特征数据和第二特征数据确定第一损失函数,通过第一模型和第二模型的网络参数确定第二损失函数,通过第一损失函数和第二损失函数确定的目标损失函数对第一模型进行调整,得到第三模型,相对于现有方案中,蒸馏方法大多停留在输入数据层面的有效选取,能够通过第一模型和第二模型获取到的第一损失函数和第二损失函数来确定的目标损失函数对第一模型进行监督学习,以得到第三模型,从而能够从模型参数等方面对模型进行蒸馏得到第三模型,提升了第三模型处理视频分类任务时的准确性。
结合第一方面,在一个可能的实现方式中,根据第一特征数据、第二特征数据,确定第一损失函数,包括:
对第一特征数据进行变换,以得到第一频谱数据,以及对所述第二特征数据进行变换,以得到第二频谱数据;
至少根据所述第一频谱数据和第二频谱数据,确定第一损失函数。
本示例中,通过对第一特征数据和第二特征数据进行变换,以得到第一频谱数据和第二频谱数据,通过第一频谱数据和第二频谱数据确定第一损失函数,能够通过频谱损失函数(第一损失函数)对蒸馏进行监督,提升了模型蒸馏时的准确性。
结合第二方面,在一个可能的实现方式中,第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据,至少根据第一频谱数据和第二频谱数据,确定第一损失函数,包括:
获取预测器模型的第一参数,预测器模型用于确定第二模型和第一模型的输出数据的尺度相同;
根据第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和第一参数,确定第一损失函数。
本示例中,通过预测器模型的第一参数,可以保证第二模型和第一模型的输出数据的尺度相同,提升了模型蒸馏时的效率。
结合第一方面,在一个可能的实现方式中,根据第一模型和第二模型的网络参数,确定第二损失函数,包括:
获取第一模型的第一网络参数,以及获取第二模型的第二网络参数;
对第一网络参数进行排序,得到第一累计分布图,以及对第二网络参数进行排序,得到第二累计分布图;
根据第一累计分布图和第二累计分布图的散度,确定第二损失函数。
本示例中,通过第一模型的第一网络参数和第二模型的第二网络参数确定第二损失函数,从而可以使得蒸馏后后得到的第三模型与第二模型在频率分布上对齐,提升模型蒸馏时的准确性。
结合第一方面,在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数和第三损失函数,确定目标损失函数。
本示例中,通过第一损失函数和第三损失函数确定目标损失函数,可以提升目标损失函数对第一模型进行调整得到的第三模型进行分类检测时的准确性。
结合第一方面,在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第二损失函数和第三损失函数,确定目标损失函数。
结合第一方面,在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
结合第一方面,在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
获取与第一损失函数和第二损失函数对应的权值函数;
根据权值函数、第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
结合第一方面,在一个可能的实现方式中,方法还包括:
接收待分类视频;
通过第三模型对待分类视频进行分类处理,以得到分类结果。
本申请实施例的第二方面提供一种模型确定装置,其中该装置包括:
处理单元,用于根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
第一确定单元,用于根据第一特征数据、第二特征数据,确定第一损失函数;
第二确定单元,用于根据第一模型和第二模型的网络参数,确定第二损失函数;
第三确定单元,用于根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
调整单元,用于根据目标损失函数对第一模型进行调整,以得到第三模型。
结合第二方面,在一个可能的实现方式中,在根据第一特征数据、第二特征数据,确定第一损失函数方面,第一确定单元用于:
对第一特征数据进行变换,以得到第一频谱数据,以及对第二特征数据进行变换,以得到第二频谱数据;
至少根据第一频谱数据和第二频谱数据,确定第一损失函数。
结合第二方面,在一个可能的实现方式中,第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据,在至少根据第一频谱数据和第二频谱数据,确定第一损失函数方面,第一确定单元用于:
获取预测器模型的第一参数,预测器模型用于确定第二模型和第一模型的输出数据的尺度相同;
根据第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和第一参数,确定第一损失函数。
结合第二方面,在一个可能的实现方式中,第二确定单元用于:
获取第一模型的第一网络参数,以及获取第二模型的第二网络参数;
对第一网络参数进行排序,得到第一累计分布图,以及对第二网络参数进行排序,得到第二累计分布图;
根据第一累计分布图和第二累计分布图的散度,确定第二损失函数。
结合第二方面,在一个可能的实现方式中,第三确定单元用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数和第三损失函数,确定目标损失函数。
结合第二方面,在一个可能的实现方式中,第三确定单元用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第二损失函数和第三损失函数,确定目标损失函数。
结合第二方面,在一个可能的实现方式中,第三确定单元用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
结合第二方面,在一个可能的实现方式中,第三确定单元用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
获取与第一损失函数和第二损失函数对应的权值函数;
根据权值函数、第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
结合第二方面,在一个可能的实现方式中,该装置还用于:
接收待分类视频;
通过第三模型对待分类视频进行分类处理,以得到分类结果。
本申请实施例的第三方面提供一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例提供了一种模型确定方法的应用场景示意图;
图1B为本申请实施例提供了一种模型确定方法的流程示意图;
图2为本申请实施例提供了另一种模型确定方法的流程示意图;
图3为本申请实施例提供了另一种模型确定方法的流程示意图;
图4为本申请实施例提供的一种终端的结构示意图;
图5为本申请实施例提供了一种模型确定装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
为了更好的理解本申请实施例的模型确定方法,下面首先对应用模型确定方法的场景进行简要介绍。通过模型确定方法确定的模型,应用于对输入的待分类视频进行分类,得到分类结果。通过模型确定方法确定的模型可以被称为学生模型,学生模型相对于教师模型,其与教师模型在对视频进行分类处理的结果的有效性相近,相近可以理解为其分类的准确性相近等,教师模型可以理解为通过大量的样本数据进行训练得到的模型,但是学生模型的网络结构比教师模型的网络结构要小,且学生模型易于部署,可以部署到一些资源比较小的电子设备上,以执行分类任务,提升了模型部署的灵活度和实用性。
下面介绍一种可能的应用场景,请参阅图1A,图1A为本申请实施例提供了一种模型确定方法的应用场景示意图。如图1所示,目标区域可以是需要进行行为分析的区域,例如,对商场中的人进行购物分析时,商场就可以被确定为目标区域,又例如,需要对十字路口的车辆进行车流量分析,则十字路口就可以被确定为目标区域。通过摄像头采集目标区域的视频,该视频可以用于视频分类,摄像头在采集到视频后,可以将该视频发送给服务器,此处的服务器可以是常规的服务器,当然也可以是电子设备等,电子设备例如可以是手机、平板电脑等,服务器在接收到视频后,可以对该视频通过蒸馏后得到的学生模型进行分类,得到分类结果。分类结果可以理解为,例如,以商场为例进行说明,分类结果可以是商场中不同的人在不同的商店中购物的行为,也可以是商场中人群运动情况的行为等。通过蒸馏后得到的学生模型对视频进行分类处理,得到分类结果,该分类结果的准确性与蒸馏前的教师模型进行分类处理得到的分类结果的准确性相近,但该学生模型的计算速率高于教师模型,以及模型的大小小于教师模型,从而易于部署以及快速获取到分类结果。
请参阅图1B,图1B为本申请实施例提供了一种模型确定方法的流程示意图。如图1B所示,模型确定方法包括:
101、根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据。
其中,该模型确定方法可以由服务器执行,该输入视频可以通过摄像头采集得到。
输入视频可以是需要进行分类处理的视频,例如,用户在街道行走时的视频、用户做出某种肢体动作时的视频等,此处仅为举例说明,不作具体限定。
第一模型可以是现有方案中的ResNet结构的模型,ResNet结构中可以包括有多个恒等结构块。第二模型可以是现有方案中的教师模型,其可以理解为通过大量的样本数据进行训练得到的模型,其用于对视频分类。
第一模型对输入视频进行分类处理,得到的第一特征数据为时域数据,以及第二特征数据也可以是时域数据。
102、根据第一特征数据、第二特征数据,确定第一损失函数。
可以将第一特征数据、第二特征数据变换为对应的频谱数据,根据频谱数据来确定该第一损失函数。
频谱数据中的高频数据侧重于表征相邻视频帧之间的运动信息,频谱数据中的低数据侧重于表征场景。
通过频谱数据来确定第一损失函数,并采用第一损失函数对模型进行调整时,能够提升模型调整时收敛速度,提升模型调整的效率。
103、根据第一模型和第二模型的网络参数,确定第二损失函数。
可以对第一模型和第二模型的网络参数进行排序得到累计分布图,根据累计分布图来确定第二损失函数。对网络参数进行排序的方法可以是分别对高频参数和低频参数分别进行排序。
通过累计分布图来确定第二损失函数,可以提升第二损失函数确定时的准确性。
104、根据第一损失函数和第二损失函数中至少一个,确定目标损失函数。
可以根据第一损失函数确定出目标损失函数,也可以根据第二损失函数确定出目标损失函数,还可以根据第一损失函数和第二损失函数确定出目标损失函数。通过第一损失函数和第二损失函数中至少一个确定目标损失函数,这可以提升通过目标损失函数调整后得到的第三模型对视频进行分类处理时的准确性。
105、根据目标损失函数对第一模型进行调整,以得到第三模型。
可以通过目标损失函数监督样本数据对第一模型进行训练,在收敛后得到第三模型。第三模型可以理解为从第二模型中蒸馏得到的模型。此处若将第二模型理解为教师模型,第三模型则可以理解为从教师模型蒸馏得到的学生模型。
本示例中,通过第一模型、第二模型对输入视频进行分类处理后得到的第一特征数据和第二特征数据确定第一损失函数,通过第一模型和第二模型的网络参数确定第二损失函数,通过第一损失函数和第二损失函数确定的目标损失函数对第一模型进行调整,得到第三模型,相对于现有方案中,蒸馏方法大多停留在输入数据层面的有效选取,能够通过第一模型和第二模型获取到的第一损失函数和第二损失函数来确定的目标损失函数对第一模型进行监督学习,以得到第三模型,从而能够从模型参数等方面对模型进行蒸馏得到第三模型,提升了第三模型处理视频分类任务时的准确性。
在一个可能的实现方式中,一种可能的根据第一特征数据、第二特征数据,确定第一损失函数的方法包括:
A1、对第一特征数据进行变换,以得到第一频谱数据,以及对所述第二特征数据进行变换,以得到第二频谱数据;
A2、至少根据所述第一频谱数据和所述第二频谱数据,确定所述第一损失函数。
对第一特征数据和第二特征数据进行变换的方法可以是,通过离散傅里叶变换,对第一特征数据和第二特征数据进行变换,以得到对应的第一频谱数据和第二频谱数据。
在一个可能的实现方式中,第一模型包括有K个第一恒等结构块,第二模型包括K个第二恒等结构块,
对第一特征数据进行变化得到第一频谱数据的可以通过如下公式所示的方法进行变换:
获取第二频谱数据的方法可以参考上述获取第一频谱数据的方法,此处不再赘述。
确定第一损失函数的方法可以是通过第一频谱数据、第二频谱数据和预测器模型的参数来确定第一损失函数。预测器模型可以是由一系列2维卷积组成的预测器。预测器的功能为保证第一模型和第二模型的输出数据的尺度相同。
本示例中,本示例中,通过对第一特征数据和第二特征数据进行变换,以得到第一频谱数据和第二频谱数据,通过第一频谱数据和第二频谱数据确定第一损失函数,能够通过频谱损失函数(第一损失函数)对蒸馏进行监督,提升了模型蒸馏时的准确性。
在一个可能的实现方式中,所述第一频谱数据包括所述第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,所述第二频谱数据包括所述第二模型中的K个第二恒等结构块的输出数据进行变换后的数据。一种可能的至少根据所述第一频谱数据和所述第二频谱数据,确定所述第一损失函数的方法,包括:
B1、获取预测器模型的第一参数,所述预测器模型用于确定所述第二模型和所述第一模型的输出数据的尺度相同;
B2、根据所述第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、所述第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和所述第一参数,确定第一损失函数。
第一参数可以是可学习参数,具体可以理解为,可以根据样本数据等进行优化学习的参数。在进行模型蒸馏时,预测器与第一模型同时被优化。
确定第一损失函数的方法可以为如下公式所示的方法:
本示例中,本示例中,通过预测器模型的第一参数,可以保证第二模型和第一模型的输出数据的尺度相同,提升了模型蒸馏时的效率。
在一个可能的实现方式中,一种可能的根据第一模型和第二模型的网络参数确定第二损失函数的方法包括:
C1、获取所述第一模型的第一网络参数,以及获取所述第二模型的第二网络参数;
C2、对所述第一网络参数进行排序,得到第一累计分布图,以及对所述第二网络参数进行排序,得到第二累计分布图;
C3、根据所述第一累计分布图和所述第二累计分布图的散度,确定所述第二损失函数。
获取第一模型的第一网络参数的方法可以为通过从内存中存储的网络参数中获取第一网络参数,也可以是通过对第一模型进行参数提取,从而获取到第一网络参数,当然还可以是其它的方式获取到第一网络参数,此处不作具体限定。获取第二网络参数的方法可以参照获取第一网络参数的方法,此处不再赘述。
可以对第一网络参数进行分类,得到高频参数和低频参数,高频参数可以理解为频率大于或等于预设频率阈值的参数,低频参数可以理解为频率小于预设频率阈值的参数,预设频率阈值通过经验值或历史数据设定。
获取到高频参数和低频参数,分别对高频参数和低频参数进行排序,以得到第一累计分布图。获取第二累计分布图的方式可以与获取第一累计分布图的方式相同,此处不再赘述。
一种可能的根据第一累计分布图和第二累计分布图的散度确定第二损失函数的方法可以是如下公式所示的方法:
g(·)表示随机采样函数,θs为第一网络参数,θt为第二网络参数,|M|为是卷积核M的数量,KL[]为散度。
本示例中,通过第一模型的第一网络参数和第二模型的第二网络参数确定第二损失函数,从而可以使得蒸馏后得到的第三模型与第二模型在频率分布上对齐,提升模型蒸馏时的准确性。
在一个可能的实现方式中,一种可能的根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数的方法包括:
D1、获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
D2、根据所述第一损失函数和所述第三损失函数,确定目标损失函数。
第一模型的第三损失函数可以为对第一模型进行监督训练时的损失函数,例如可以是常规的视频分类损失函数。可以从存储空间中获取,也可以从网络中获取,当然也可以通过其它方式获取该第三损失函数。视频分类函数可以是交叉熵。
可以将第一损失函数和第三损失函数之和,确定为目标损失函数。
在一个可能的实现方式中,一种可能的根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数的方法包括:
E1、获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
E2、根据所述第二损失函数和所述第三损失函数,确定目标损失函数。
可以将第二损失函数和第三顺势函数之和,确定为目标损失函数。
在一个可能的实现方式中,一种可能的根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数的方法包括:
F1、获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
F2、根据所述第一损失函数、所述第二损失函数和所述第三损失函数,确定目标损失函数。
可以获取第一损失函数对应的第一权值,第二损失函数的第二权值,第三损失函数对应的第三权值,根据第一权值、第二权值和第三权值对第一损失函数、第二损失函数和第三损失函数进行权值运算,以得到目标损失函数。
在一个可能的实现方式中,由于在蒸馏的过程中,教师网络中不可避免的会存在误导信息,即暗知识,这些暗知识并不能帮助分类网络的学习,反而会误导学生网络对于分类任务的判断,在这种情况下,我们从概率分布的角度引入了联合学习的策略来进行高效的蒸馏。联合学习可以通过第一损失函数、第二损失函数和第三损失函数共同确定目标损失函数的方式进行体现,具体的,一种可能的根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数的方法包括:
G1、获取第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
G2、获取与所述第一损失函数和所述第二损失函数对应的权值函数;
G3、根据所述权值函数、所述第一损失函数、所述第二损失函数和第三损失函数,确定所述目标损失函数。
一种可能的获取权值函数的方法包括:设定对第一模型进行调整时的第一阶段的迭代次数为N1,第二阶段的最大迭代次数为N2,则权值函数可以通过如下公式表示:
其中,分别γ,α,andλ分别表示常量的权重值。l表示训练的迭代周期次数,N1表示第一阶段的迭代次数,N2表示第二阶段最大的迭代次数,f(l)为权值函数。
上述权值函数具体可以理解为,在前N1个迭代周期中的权重因子可以定义为一个概率为P′(ct)的常量,P′(ct)为选取输出分数为ct的样本对应特征的概率。然后在接下来的N2个迭代周期,权重因子以一个指数函数动态的变化。在初期设定了一个比较高的权重因子来选取教师特征和网络参数用于蒸馏,然后这个权重呈指数下降,在最后一个阶段,权重因子将会是一个相对较小的常量,从而可以提升蒸馏时的准确性。
可以将权值函数与第一损失函数、第二损失函数的乘积,将该乘积与第三损失函数之和确定为目标损失函数,具体可以通过如下公式所示的方法确定目标损失函数:
LM=f(l)(LS+Lp)+LCE,
其中,LS为第一损失函数,Lp为第二损失函数,LCE为第三损失函数,LM为目标损失函数。
本示例中,通过联合学习的方式,采用有第一损失函数、第二损失函数和第三损失函数确定的目标损失函数,对第一模型进行调整得到第三模型,可以提升对第一模型进行蒸馏得到第三模型时的准确性。
在一个可能的实现方式中,模型确定方法还可以包括如下方法:
H1、接收待分类视频;
H2、通过所述第三模型对所述待分类视频进行分类处理,以得到分类结果。
分类结果例如可以是不同的用户的动作的类别,例如,动作可以是行走、站立等,当然也可以是其他事物的运动类别,例如,汽车的行驶路线、行驶动作等,此处仅为举例说明不作具体限定。
因此,可以通过调整后得到的第三模型对待分类视频进行分类处理,得到分类结果,相对于现有方案中的学生模型,能够分类结果获取时的准确性。
在一个可能的实现方式中,下面介绍一个具体的引用场景。在需要进行简单部署的场景中,简单部署的场景可以理解为需要部署分类模型的设备的资源受限,不易于部署较大的分类模型,或者说由于资源的限制不能部署较大的分类模型,此时,则可以对较大的分类模型(教师模型)进行蒸馏得到较小的分类模型(分类模型),较大的分类模型可以理解为模型参数复杂,分类精度高的模型,较小的分类模型可以理解为模型参数较为简洁,精度与较大的分类模型进行分类时的精度相近。
在对教师模型(第二模型)进行蒸馏得到学生模型时,可以确定对初始学生模型(第一模型)进行调整的目标损失函数,在确定目标损失函数时,可以通过初始学生模型和教师模型的输出数据通过离散傅里叶变换后的频谱数据,来确定出第一损失函数,通过频谱数据的特征来对模型进行蒸馏,以及根据教师模型和初始学生模型自身的模型参数,确定第二损失函数,通过模型本身的特征来对模型进行蒸馏,再获取初始学生模型的视频分类损失函数,该视频分类损失函数可以为交叉熵,通过第一损失函数、第二损失函数和第三损失函数进行联合学习,即通过第一损失函数、第二损失函数和第三损失函数确定目标损失函数,通过目标损失函数对初始学生模型进行调整,得到调整后的学生模型(第三模型),通过联合学习的方式来确定调整后的学生模型,可以减少教师网络中不可避免的会存在误导信息(暗知识),提升了调整后的学生模型进行分类时的准确性。
在得到调整后的学生模型后,将该调整后的学生模型部署到资源受限的设备上,以执行视频分类任务。当然,也可以将调整后的学生模型部署到其它设备上,此处仅为举例说明不作具体限定。
请参阅图2,图2为本申请实施例提供了另一种模型确定方法的流程示意图。如图2所示,模型确定方法包括:
201、根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
输入视频可以是需要进行分类处理的视频,例如,用户在街道行走时的视频、用户做出某种肢体动作时的视频等,此处仅为举例说明,不作具体限定。
202、对第一特征数据进行变换,以得到第一频谱数据,以及对第二特征数据进行变换,以得到第二频谱数据;
对第一特征数据和第二特征数据进行变换的方法可以是,通过离散傅里叶变换,对第一特征数据和第二特征数据进行变换,以得到对应的第一频谱数据和第二频谱数据。
第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据。
203、至少根据第一频谱数据和第二频谱数据,确定第一损失函数;
可以根据预测器模型的参数、第一频谱数据和第二频谱数据,确定第一损失函数。
204、根据第一模型和第二模型的网络参数,确定第二损失函数;
205、根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
206、根据目标损失函数对第一模型进行调整,以得到第三模型。
本示例中,本示例中,通过对第一特征数据和第二特征数据进行变换,以得到第一频谱数据和第二频谱数据,通过第一频谱数据和第二频谱数据确定第一损失函数,能够通过频谱损失函数(第一损失函数)对蒸馏进行监督,提升了模型蒸馏时的准确性。
请参阅图3,图3为本申请实施例提供了另一种模型确定方法的流程示意图。如图3所示,该方法包括:
301、根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
输入视频可以是需要进行分类处理的视频,例如,用户在街道行走时的视频、用户做出某种肢体动作时的视频等,此处仅为举例说明,不作具体限定。
302、根据第一特征数据、第二特征数据,确定第一损失函数;
可以对第一特征数据、第二特征数据进行变化,以得到对应的第一频谱数据和第二频谱数据,至少根据第一频谱数据和第二频谱数据,确定第一损失函数。
对第一特征数据和第二特征数据进行变换的方法可以是,通过离散傅里叶变换,对第一特征数据和第二特征数据进行变换,以得到对应的第一频谱数据和第二频谱数据。
第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据。
303、获取第一模型的第一网络参数,以及获取第二模型的第二网络参数;
304、对第一网络参数进行排序,得到第一累计分布图,以及对第二网络参数进行排序,得到第二累计分布图;
可以对第一网络参数进行分类,得到高频参数和低频参数,高频参数可以理解为频率大于或等于预设频率阈值的参数,低频参数可以理解为频率小于预设频率阈值的参数,预设频率阈值通过经验值或历史数据设定。
305、根据第一累计分布图和第二累计分布图的散度,确定第二损失函数;
306、根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
307、根据目标损失函数对第一模型进行调整,以得到第三模型。
本示例中,通过第一模型的第一网络参数和第二模型的第二网络参数确定第二损失函数,从而可以使得蒸馏后后得到的第三模型与第二模型在频率分布上对齐,提升模型蒸馏时的准确性。
与上述实施例一致的,请参阅图4,图4为本申请实施例提供的一种终端的结构示意图,如图所示,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,上述程序包括用于执行以下步骤的指令;
根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
根据第一特征数据、第二特征数据,确定第一损失函数;
根据第一模型和第二模型的网络参数,确定第二损失函数;
根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
根据目标损失函数对第一模型进行调整,以得到第三模型。
在一个可能的实现方式中,根据第一特征数据、第二特征数据,确定第一损失函数,包括:
对第一特征数据进行变换,以得到第一频谱数据,以及对第二特征数据进行变换,以得到第二频谱数据;
至少根据第一频谱数据和第二频谱数据,确定第一损失函数。
在一个可能的实现方式中,第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据,至少根据第一频谱数据和第二频谱数据,确定第一损失函数,包括:
获取预测器模型的第一参数,预测器模型用于确定第二模型和第一模型的输出数据的尺度相同;
根据第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和第一参数,确定第一损失函数。
在一个可能的实现方式中,根据第一模型和第二模型的网络参数,确定第二损失函数,包括:
获取第一模型的第一网络参数,以及获取第二模型的第二网络参数;
对第一网络参数进行排序,得到第一累计分布图,以及对第二网络参数进行排序,得到第二累计分布图;
根据第一累计分布图和第二累计分布图的散度,确定第二损失函数。
在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,根据第一损失函数和第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
获取与第一损失函数和第二损失函数对应的权值函数;
根据权值函数、第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,该方法还包括:
接收待分类视频;
通过第三模型对所述待分类视频进行分类处理,以得到分类结果。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,终端为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图5,图5为本申请实施例提供了一种模型确定装置的结构示意图。如图5所示,该装置包括:
处理单元501,用于根据第一模型对输入视频进行分类处理,得到第一特征数据,以及根据第二模型对输入视频进行分类处理,得到第二特征数据;
第一确定单元502,用于根据第一特征数据、第二特征数据,确定第一损失函数;
第二确定单元503,用于根据第一模型和第二模型的网络参数,确定第二损失函数;
第三确定单元504,用于根据第一损失函数和第二损失函数中至少一个,确定目标损失函数;
调整单元505,用于根据目标损失函数对第一模型进行调整,以得到第三模型。
在一个可能的实现方式中,在根据第一特征数据、第二特征数据,确定第一损失函数方面,第一确定单元502用于:
对第一特征数据进行变换,以得到第一频谱数据,以及对第二特征数据进行变换,以得到第二频谱数据;
至少根据第一频谱数据和第二频谱数据,确定第一损失函数。
在一个可能的实现方式中,第一频谱数据包括第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,第二频谱数据包括第二模型中的K个第二恒等结构块的输出数据进行变换后的数据,在至少根据第一频谱数据和第二频谱数据,确定第一损失函数方面,第一确定单元502用于:
获取预测器模型的第一参数,预测器模型用于确定第二模型和第一模型的输出数据的尺度相同;
根据第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和第一参数,确定第一损失函数。
在一个可能的实现方式中,第二确定单元503用于:
获取第一模型的第一网络参数,以及获取第二模型的第二网络参数;
对第一网络参数进行排序,得到第一累计分布图,以及对第二网络参数进行排序,得到第二累计分布图;
根据第一累计分布图和第二累计分布图的散度,确定第二损失函数。
在一个可能的实现方式中,第三确定单元504用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,第三确定单元504用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,第三确定单元504用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
根据第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,第三确定单元504用于:
获取第一模型的第三损失函数,第三损失函数为视频分类损失函数;
获取与第一损失函数和第二损失函数对应的权值函数;
根据权值函数、第一损失函数、第二损失函数和第三损失函数,确定目标损失函数。
在一个可能的实现方式中,该装置还用于:
接收待分类视频;
通过第三模型对待分类视频进行分类处理,以得到分类结果。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型确定方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型确定方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种模型确定方法,其特征在于,所述方法包括:
根据第一模型对所述输入视频进行分类处理,得到第一特征数据,以及根据第二模型对所述输入视频进行分类处理,得到第二特征数据;
根据所述第一特征数据、所述第二特征数据,确定第一损失函数;
根据所述第一模型和所述第二模型的网络参数,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数;
根据所述目标损失函数对所述第一模型进行调整,以得到第三模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征数据、所述第二特征数据,确定第一损失函数,包括:
对所述第一特征数据进行变换,以得到第一频谱数据,以及对所述第二特征数据进行变换,以得到第二频谱数据;
至少根据所述第一频谱数据和所述第二频谱数据,确定所述第一损失函数。
3.根据权利要求2所述的方法,其特征在于,所述第一频谱数据包括所述第一模型中的K个第一恒等结构块的输出数据进行变换后的数据,所述第二频谱数据包括所述第二模型中的K个第二恒等结构块的输出数据进行变换后的数据,所述至少根据所述第一频谱数据和所述第二频谱数据,确定所述第一损失函数,包括:
获取预测器模型的第一参数,所述预测器模型用于确定所述第二模型和所述第一模型的输出数据的尺度相同;
根据所述第一模型中的K个第一恒等结构块的输出数据进行变换后的数据、所述第二模型中的K个第二恒等结构块的输出数据进行变换后的数据和所述第一参数,确定第一损失函数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一模型和所述第二模型的网络参数,确定第二损失函数,包括:
获取所述第一模型的第一网络参数,以及获取所述第二模型的第二网络参数;
对所述第一网络参数进行排序,得到第一累计分布图,以及对所述第二网络参数进行排序,得到第二累计分布图;
根据所述第一累计分布图和所述第二累计分布图的散度,确定所述第二损失函数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数,包括:
获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
根据所述第一损失函数和所述第三损失函数,确定目标损失函数。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数,包括:
获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
根据所述第二损失函数和所述第三损失函数,确定目标损失函数。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数,包括:
获取所述第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
根据所述第一损失函数、所述第二损失函数和所述第三损失函数,确定目标损失函数。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数,包括:
获取第一模型的第三损失函数,所述第三损失函数为视频分类损失函数;
获取与所述第一损失函数和所述第二损失函数对应的权值函数;
根据所述权值函数、所述第一损失函数、所述第二损失函数和第三损失函数,确定所述目标损失函数。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
接收待分类视频;
通过所述第三模型对所述待分类视频进行分类处理,以得到分类结果。
10.一种模型确定装置,其特征在于,所述装置包括:
处理单元,用于根据第一模型对所述输入视频进行分类处理,得到第一特征数据,以及根据第二模型对所述输入视频进行分类处理,得到第二特征数据;
第一确定单元,用于根据所述第一特征数据、所述第二特征数据,确定第一损失函数;
第二确定单元,用于根据所述第一模型和所述第二模型的网络参数,确定第二损失函数;
第三确定单元,用于根据所述第一损失函数和所述第二损失函数中至少一个,确定目标损失函数;
调整单元,用于根据所述目标损失函数对所述第一模型进行调整,以得到第三模型。
11.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757834.2A CN111950411B (zh) | 2020-07-31 | 2020-07-31 | 模型确定方法及相关装置 |
PCT/CN2020/122583 WO2022021624A1 (zh) | 2020-07-31 | 2020-10-21 | 模型确定方法及相关装置、终端、计算机可读存储介质、计算机程序产品 |
TW109139394A TWI755149B (zh) | 2020-07-31 | 2020-11-11 | 模型確定方法及相關終端和電腦可讀儲存介質 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757834.2A CN111950411B (zh) | 2020-07-31 | 2020-07-31 | 模型确定方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950411A true CN111950411A (zh) | 2020-11-17 |
CN111950411B CN111950411B (zh) | 2021-12-28 |
Family
ID=73338965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010757834.2A Active CN111950411B (zh) | 2020-07-31 | 2020-07-31 | 模型确定方法及相关装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111950411B (zh) |
TW (1) | TWI755149B (zh) |
WO (1) | WO2022021624A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949433A (zh) * | 2021-02-18 | 2021-06-11 | 北京百度网讯科技有限公司 | 视频分类模型的生成方法、装置、设备和存储介质 |
CN114064973A (zh) * | 2022-01-11 | 2022-02-18 | 人民网科技(北京)有限公司 | 视频新闻分类模型建立方法、分类方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9147129B2 (en) * | 2011-11-18 | 2015-09-29 | Honeywell International Inc. | Score fusion and training data recycling for video classification |
US20180268222A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Action recognition system for action recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN109299657A (zh) * | 2018-08-14 | 2019-02-01 | 清华大学 | 基于语义注意力保留机制的群体行为识别方法及装置 |
CN109919110A (zh) * | 2019-03-13 | 2019-06-21 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
CN109961107A (zh) * | 2019-04-18 | 2019-07-02 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN110807434A (zh) * | 2019-11-06 | 2020-02-18 | 威海若维信息科技有限公司 | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US11449756B2 (en) * | 2018-09-24 | 2022-09-20 | Samsung Electronics Co., Ltd. | Method to balance sparsity for efficient inference of deep neural networks |
CN111325318B (zh) * | 2019-02-01 | 2023-11-24 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
CN110210560B (zh) * | 2019-05-31 | 2021-11-30 | 北京市商汤科技开发有限公司 | 分类网络的增量训练方法、分类方法及装置、设备及介质 |
CN110472681A (zh) * | 2019-08-09 | 2019-11-19 | 北京市商汤科技开发有限公司 | 基于知识蒸馏的神经网络训练方案和图像处理方案 |
CN110837846B (zh) * | 2019-10-12 | 2023-10-31 | 深圳力维智联技术有限公司 | 一种图像识别模型的构建方法、图像识别方法及装置 |
CN110766142A (zh) * | 2019-10-30 | 2020-02-07 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
-
2020
- 2020-07-31 CN CN202010757834.2A patent/CN111950411B/zh active Active
- 2020-10-21 WO PCT/CN2020/122583 patent/WO2022021624A1/zh active Application Filing
- 2020-11-11 TW TW109139394A patent/TWI755149B/zh active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9147129B2 (en) * | 2011-11-18 | 2015-09-29 | Honeywell International Inc. | Score fusion and training data recycling for video classification |
US20180268222A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Action recognition system for action recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN109299657A (zh) * | 2018-08-14 | 2019-02-01 | 清华大学 | 基于语义注意力保留机制的群体行为识别方法及装置 |
CN109919110A (zh) * | 2019-03-13 | 2019-06-21 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
CN109961107A (zh) * | 2019-04-18 | 2019-07-02 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN110807434A (zh) * | 2019-11-06 | 2020-02-18 | 威海若维信息科技有限公司 | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
HAISHENG SU ET AL.: "Transferable Knowledge-Based Multi-Granularity Fusion Network for Weakly Supervised Temporal Action Detection", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
MENG-CHIEH WU ET AL.: "Multi-teacher Knowledge Distillation for Compressed Video Action Recognition on Deep Neural Networks", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
张亚庆: "面向视频监控场景的目标空间结构语义感知", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949433A (zh) * | 2021-02-18 | 2021-06-11 | 北京百度网讯科技有限公司 | 视频分类模型的生成方法、装置、设备和存储介质 |
CN112949433B (zh) * | 2021-02-18 | 2022-07-22 | 北京百度网讯科技有限公司 | 视频分类模型的生成方法、装置、设备和存储介质 |
CN114064973A (zh) * | 2022-01-11 | 2022-02-18 | 人民网科技(北京)有限公司 | 视频新闻分类模型建立方法、分类方法、装置及设备 |
CN114064973B (zh) * | 2022-01-11 | 2022-05-03 | 人民网科技(北京)有限公司 | 视频新闻分类模型建立方法、分类方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
TW202207155A (zh) | 2022-02-16 |
TWI755149B (zh) | 2022-02-11 |
WO2022021624A1 (zh) | 2022-02-03 |
CN111950411B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807385B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
US10275688B2 (en) | Object detection with neural network | |
US9008365B2 (en) | Systems and methods for pedestrian detection in images | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN111401177A (zh) | 基于自适应时空注意力机制的端到端行为识别方法及系统 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN111401516A (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
CN110633745A (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN109214403B (zh) | 图像识别方法、装置及设备、可读介质 | |
CN112906649A (zh) | 视频分割方法、设备、计算机设备及介质 | |
CN111950411B (zh) | 模型确定方法及相关装置 | |
CN113781510B (zh) | 边缘检测方法、装置及电子设备 | |
CN111401196A (zh) | 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质 | |
CN111382808A (zh) | 一种车辆检测处理方法及装置 | |
CN111091147B (zh) | 一种图像分类方法、装置及设备 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
Wang et al. | Distortion recognition for image quality assessment with convolutional neural network | |
CN111242176A (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
CN108257148B (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
CN111178447A (zh) | 模型压缩方法、图像处理方法及相关装置 | |
CN117274740A (zh) | 一种红外目标检测方法及装置 | |
CN114565791A (zh) | 一种人物档案识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40031919 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |