CN111985269A

CN111985269A - 检测模型构建方法、检测方法、装置、服务器及介质

Info

Publication number: CN111985269A
Application number: CN201910426005.3A
Authority: CN
Inventors: 蒋丽
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2020-11-24

Abstract

本申请公开了一种检测模型构建方法、检测方法、装置、服务器及介质，该方法包括：获取操作包裹行为的视频信息；对视频信息进行预处理，得到第一图像帧序列；基于第一图像帧序列训练生成条件生成对抗网络模型；基于抛扔区域信息对第一图像帧序列进行处理，得到第二图像帧序列；基于第二图像帧序列训练生成分类网络模型。本申请实施例通过构建条件生成对抗玩网络模型，可以确定操作包裹行为的图像帧的抛扔区域信息，从而可以利用抛扔区域信息构建分类模型，减少模型的计算量，并可以利用构建好的分类模型实现操作员暴力抛扔行为的自动检测，提高了暴力抛扔行为的检测效率及准确率，降低了检测成本。

Description

检测模型构建方法、检测方法、装置、服务器及介质

技术邻域

本申请一般涉及图像处理技术领域，具体涉及一种检测模型构建方法、检测方法、装置及介质。

背景技术

随着物流行业的发展，每天产生的包裹量越来越多。在快递人员进行包裹搬运及分拣操作中，通常会发生暴力抛扔的现象，从而影响快递企业形象，造成包裹损坏，最终造成快递公司的经济损失。

目前，为了监督快递人员的作业标准，排查暴力抛扔现象，通过摄像头采集快递人员的操作，并利用人工视觉查看摄像头采集的视频信息，以进行暴力抛扔行为的排查。

对于通过人工进行暴力抛扔行为的排查，主观性强，检测效率低，成本高。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种检测模型构建方法、检测方法及装置，以提高暴力抛扔检测的效率。

第一方面，本申请实施例提供一种暴力抛扔检测模型构建方法，该方法包括：

获取操作包裹行为的视频信息；

对所述视频信息进行预处理，得到第一图像帧序列；

基于所述第一图像帧序列，训练生成条件生成对抗网络模型，所述条件生成对抗网络模型输出所述第一图像帧序列对应的抛扔区域信息；

基于所述抛扔区域信息对所述第一图像帧序列进行处理，得到第二图像帧序列；

基于所述第二图像帧序列，训练生成分类网络模型，所述分类网络模型用于检测待检测操作包裹行为的是否属于暴力抛扔行为

第二方面，本申请实施例提供一种检测方法，包括：获取待检测的操作包裹行为的视频信息；

对所述视频信息进行预处理，得到第三图像帧序列；

将所述第三图像帧序列输入到第一方面所述的条件生成对抗网络模型，输出所述第三图像帧序列对应的抛扔区域信息；

基于所述抛扔区域信息对所第三图像帧序列进行处理，得到第四图像帧序列；

将所述第四图像帧序列输入到如第一方面所述的分类网络模型，输出待检测的操作包裹行为的标签，所述标签表示所述待检测的操作包裹行为是否属于暴力抛扔行为。

第三方面，本申请实施例提供一种检测模型构建装置，包括：

获取模块，用于获取操作包裹行为的视频信息；

第一处理模块，用于对所述视频信息进行预处理，得到第一图像帧序列；

第一生成模块，用于基于所述第一图像帧序列，训练生成条件生成对抗网络模型，所述条件生成对抗网络模型输出所述第一图像帧序列对应的抛扔区域信息；

第二处理模块，用于基于所述抛扔区域信息对所述第一图像帧序列进行处理，得到第二图像帧序列；

第二生成模块，用于基于所述第二图像帧序列，训练生成分类网络模型，所述分类网络模型用于检测待检测操作包裹行为的是否属于暴力抛扔行为。

第四方面本申请实施例提供一种检测装置，包括：

获取模块，用于获取待检测的操作包裹行为的视频信息；

第一处理模块，用于对所述视频信息进行预处理，得到第三图像帧序列；

确定模块，用于将所述第三图像帧序列输入到如第一方面所述的条件生成对抗网络模型，输出所述第三图像帧序列对应的抛扔区域信息；

第二处理模块，用于基于所述抛扔区域信息对所第三图像帧序列进行处理，得到第四图像帧序列；

检测模块，用于将所述第四图像帧序列输入到如第一方面所述的仍一项所述的分类网络模型，输出待检测的操作包裹行为的标签，所述标签表示所述待检测的操作包裹行为是否属于暴力抛扔行为。

第五方面，本申请实施例提供一种服务器，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面或第二方面所述的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如第一方面或第二方面所述的方法。

综上，本申请实施例提供的检测模型构建方法、检测方法、装置、服务器及介质，通过构建条件生成对抗玩网络模型，可以确定并得到操作包裹行为的图像帧的抛扔区域信息，从而可以利用抛扔区域信息构建分类模型，减少模型的计算量，提高分类模型训练速度，进而可以利用构建好的分类模型实现操作员暴力抛扔行为的自动检测，提高了暴力抛扔行为的检测效率及准确率，降低了检测成本。

进一步，通过背景算法对切分得到的帧集合进行预处理，可以聚焦在运动区域，从而降低了条件生成对抗网络模型学习的难度，使得其更容易收敛。

进一步的，通过条件生成对抗网络模型确定的抛扔区域信息生成原始图像序列及光流序列来训练生成分类网络模型，提高了判别精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的实施例的暴力抛扔检测模型构建方法的流程示意图；

图2为本申请的又一实施例的暴力抛扔检测模型构建方法的流程示意图；

图3为本申请的实施例的暴力抛扔检测方法的流程示意图；

图4为本申请的实施例的暴力抛扔检测模型构建装置的结构示意图；

图5为本申请的实施例的暴力抛扔检测装置的结构示意图；

图6为本申请的实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

可以理解，本申请实施例涉及的暴力抛扔检测模型，可以用于实际物流中，快递对包裹的操作行为的检测，以判断快递员的行为是否发生了暴力抛扔，以供管理人员对快递人员的监督及管理。

为了便于理解和说明，下面通过图1至图2阐述本申请实施例提供的暴力抛扔检测模型的构建。如1所示为本申请实施例提供的暴力抛扔检测模型构建方法的流程示意图，如图1所示，该方法包括：

S110，获取操作包裹行为的视频信息。

S120，对该视频信息进行预处理，得到第一图像帧序列。

S130，基于该第一图像帧序列，训练生成条件生成对抗网络模型。

S140，基于该抛扔区域信息对该第一图像帧序列进行处理，得到第二图像帧序列。

S150，基于该第二图像帧序列，训练生成分类网络模型。

具体的，本申请实施提供的暴力抛扔检测模型构建方法，首先可以通过在线或离线的方式获取快递员操作包裹的视频信息，然后可以将获取的视频信息进行预处理，得到图像帧序列，如可以为包括10帧的多个短视频。然后可以利用该图像帧序列训练生成条件生成对抗网络模型(Conditional Generative Adversarial Nets，CGAN)，使得该CGAN)可以输出图像帧序列的抛扔区域信息。进而可以利用CGAN确定的图像帧序列的抛扔区域信息，对第一图像帧序列进行处理，以截取该抛扔区域信息对应的区域，生成第二图像帧序列。最后可以利用生成的第二图像帧序列对分类网络模型进行训练，以得到映射算法完善的分类网络模型。该分类网络模型可以用于分析待检测的操作包裹行为的视频信息，以判别该视频信息中是否存在暴利抛扔行为。

可以理解，该分类网络模型的训练样本，可以是初步获取的用于训练CGAN的第一图像帧序列，即当构建完成CGAN时，利用第一图像帧序列对应的CGAN的输出结果来训练分类网络模型。或者，还可以重新获取操作包裹行为的视频信息，经过预处理得到图像帧序列，然后经过CGAN确定重新获取的视频信息中的图像的抛扔区域信息，来训练生成分类网络模型，本申请实施例对此不做限制。

本申请实施例提供的暴力抛扔检测模型构建方法，通过构建条件生成对抗玩网络模型，可以确定并得到操作包裹行为的图像帧的抛扔区域信息，从而可以利用抛扔区域信息构建分类模型，减少模型的计算量，提高分类模型训练速度，进而可以利用构建好的分类模型实现操作员暴力抛扔行为的自动检测，提高了暴力抛扔行为的检测效率及准确率，降低了检测成本。

为了更好的阐述本申请的方法，下面通过图2详细解释暴力抛扔检测模型构建过程。如图2所示，该方法包括：

S210，获取操作包裹行为的视频信息。

S221，对视频信息进行切分处理，生成至少一个帧集合。

S222，基于背景算法对帧集合中图片进行处理，生成第一图像帧序列。

具体的，可以通过摄像头对快递对包裹的操作进行拍摄，生成视频流，然后对拍摄到的视频流进行图像采集，生帧集合。例如，将得到的分成多段短视频，如10帧为一个帧集合。

其中，在获取某段包括10帧的图像集合时，首先提取第一帧图像，然后提取下一帧图像，并判断这两个相邻帧之间的相似度(SSIM)是否小于阈值，如0.95，如果小于，则说明包裹发生了位移，保留该帧图像，继续提取下一帧，并判断。如果不小于，则说明书包裹未发生位移，舍弃该帧图像，继续提取下一帧，直到获取包括10帧的图像集合。

进一步的，在获取短视频的图像帧序列后，可以将该帧集合中的图片输入到背景建模算法，如混合高斯背景建模算法、mog背景建模算法或gmg背景建模算法等，对图像帧进行预处理，以输出仅仅包括运动特征数据的图像帧，即生成第一图像帧序列，如motion图。

可以理解，通过背景算法对图像帧进行处理后，可以将图像的特征数据聚焦在运动区域，从而降低了网络学习的难度，使得网络模型更加容易收敛。

还可以理解，在对图像帧序列经过背景算法处理后，还可以进一步提取RGB序列或光流序列等，作为训练CGAN的样本数据。如利用光流算法，对图像集合进行预处理，生成光流序列。

S230，基于第一图像帧序列，训练生成条件生成对抗网络模型。

具体的，在得到预处理后的作为样本数据第一图像帧序列后，可以将得到的图像帧序列输入到CGAN算法中对CGAN网络模型进行训练，即不断调整CGAN网络模型的参数，以构建最优的CGAN网络模型，且使得构建的该网络模型输出图像帧序列的抛扔区域信息。其中，CGAN网络模型输入的第一图像帧序列堆叠成相应个数的通道，图像帧的输入格式可以为1*10*h*w，其中，h及w为尺度信息。CGAN网络模型输出的抛扔区域信息可以为抛扔区域坐标值，并可以以加深颜色的图像来显示，如输出的是不规则任意图形，该坐标值可以表示该不规则图形的外接矩形的端点的坐标值。

可以理解，作为有监督的机器学习，首先需要人为生成标准的标签样本，即人工标注图像帧的抛扔区域信息。如生成的标签样本为与上述图像帧的尺寸大小一致的抛扔区域(mask)图，抛扔的区域像素值可以为255，其余为0，输入格式为h*w。

CGAN网络模型包括生成器及判别器，在训练过程中，通过计算CGAN网络模型的损失函数值逐渐调整生成器及判别器的参数，并通过判断损失函数值或迭代次数，来结束训练操作。可以理解，训练CGAN模型的目标是生成的mask图像与输入的标签样本的mask图像无限接近。

S241，基于该抛扔区域信息确定该第一图像帧序列中图像的感兴趣区域序列。

S242，基于尺度信息对该感兴趣区域进行归一化，使得归一化后的图像帧满足该分类网络模型的输入。

S243，基于该感兴趣区域序列生成第二图像帧序列。

具体的，在训练生成CGAN，并得到第一图像帧序列对应的CGAN的输出结果后，可以继续利用第一图像帧序列及其对应的CGAN的输出结果进行分类网络模型的训练。即在得到第一图像帧序列对应的CGAN输出的抛扔区域信息后，可以根据该抛扔区域信息，对对应的第一图像帧序列的图像进行抠图处理，以得到感兴趣区(ROI Region Of Interest，ROI)。详细的，可以根据CGAN输出的图像的抛扔区域，对应到输入的图像中，将该区域扣除，其余部分舍弃，使得后续的计算中只处理该区域内的特征数据。

例如，在得到CGAN的输出结果mask图像后，可进一步获取该mask图像对应的bbox，如规则的外接矩形。进而可以根据该bbox，查找获取到该图像帧对应的ROI区域序列图像。如生成的bbox的左上角及右下角的坐标分别为(100,100)、(300,300)，则ROI序列就是截取每张图像帧中的(100,100)～(300,300)范围内的200*200大小的区域，作为ROI序列图像。

进一步，由于分类模型的输入的图像尺度信息需要一致，如300*300。因此需要对获取到的ROI区域做归一化处理，从而可以得到对应分类算法需要输入的图像。即将200*200的区域的上下左右各补充50行*列的像素值，以扩大至300*300。该像素值大小可以取128(灰度图)或者(104,117,123)，分别为BGR三通道的均值。

例如，通过上述归一化处理，可以根据获取的尺度信息，生成的bbox图像不大于300*300。假如尺度信息为2，根据GGAN生成的mask图像的外接矩形是左上角和右下角的坐标为(100,100)(300,300)的bbox，此区域的尺度信息为2，那么bbox需要resize到400*400。

可以理解，为了提升分类网络模型的判别准确率，可以构建生成TSN(TemporalSegment Networks)的分类网络模型，即基于two-stream来构建。因此，在获取到符合分类网络模型的输入的图像帧后，如RGB图像后，还需要根据生成的RGB帧计算得到光流序列，如采用tvl1算法等，从而生成包括原始图像序列及光流序列的第二图像帧序列。

可以理解，上述S242可以选择性的执行，即当确定的感兴趣区域的尺度符合分类网络模型的输入时，不需要对此进行归一化处理，可直接执行S243。

S250，基于第二图像帧序列，训练生成分类网络模型。

具体的，在得到第二图像帧序列，即分类网络模型的训练样本数据时，可以基于分类算法，对该第二图像序列进行训练，以调整算法的参数，最后得到训练好的映射关系，即分类网络模型。该分类网络模型的输出可以为不同的行为标签，即表示该图像帧序列对应的行为是否属于暴力抛扔。

例如，在实际中，可以定义三种输出结果，包括没有抛扔、轻微抛扔及严重抛扔。可以定义输出的1、0二进制字符等行为标签以表示不同的行为类别。

本申请实施例提供的暴力抛扔检测模型构建方法，在获取到包裹操作员行为的视频信息后，可以利用该视频信息训练生成CGAN网络模型，以利用该CGAN网络模型对获取的图像帧序列对应的抛扔区域进行查找，以获取抛扔区域，使得利用获取抛扔区域训练生成分类模型，相比于对原图进行分析训练，降低了学习的复杂度，提高了学习效率。

可以理解，在通过上述方法构建生成暴力抛扔的检测模型后，可以利用该模型对实际中快递员的行为进行判别，以确认是否发生暴力抛扔，具体的检测方法如图3所示。

图3所示为本申请实施例提供的暴力抛扔检测方法的流程示意图，如图所示，该方法包括：

S310，获取待检测的操作包裹行为的视频信息。

S320，对所述视频信息进行预处理，得到第三图像帧序列。

S330，将第三图像帧序列输入到CGAN模型。

S340，根据抛扔区域信息对第三图像帧序列进行处理，得到第四图像帧序列。

S350，将第四图像帧序列输入到分类网络模型，输出待检测的操作包裹行为的标签。

具体的，在实际的检测中，可以在线获取当前的操作员行为的视频信息，或者可以通过离线下载获取以往的视频信息。例如，可以根据管理人员的工作时间设置视频信息的输入时间，每天下班前下载整天的视频信息进行分析，或者每次下载前三天的视频信息，以输入到该检测模型中，进行快递员操作行为的监督。

同样的，在输入到预先建立的CGAN模型前，仍需要对获取的视频信息进行预处理，得到图像帧序列。如利用背景算法对图像帧序列进行处理，去掉多余的数据特征。然后可以将得到的图像帧序列输入到CGAN模型，输出对应的抛扔区域信息。

在得到图像帧对应的抛扔区域信息后，可进一步根据该输出的抛扔区域信息对前面步骤中得到的帧序列进行处理，得到仅仅包括发生抛扔区域的图像帧，并根据该图像帧生成光流序列，使得图像帧及光流序列作为分类模型的输入(即第四帧序列)。最后可以将第四帧序列输入到构建的分类模型中，输出该帧序列对应的行为标签。如输出0及1，或其他字符，以表示该行为是否属于暴力抛扔，或者是否为严重的暴力抛扔。

可以理解，该第三帧序列的生成过程中与上述第一帧序列的生成过程类似，第四图像帧序列的生成过程与上述第二图像帧序列的生成过程类似，同样包括原图像的帧序列及光流序列，此处不再赘述。

进一步的，在暴力抛扔检测过程中，还可以根据CGAN模型的输出结果及尺度信息，计算得到抛扔包裹的距离，以最后确定是否发生暴力抛扔行为，或者暴力抛扔的程度。

可以理解，实际中，可以结合分类模型的输出结果来确定执行该计算。例如，如果分类模型的输出结果表示当前行为属于暴力抛扔，则可以进一步计算抛扔距离以验证是否真正发生暴力抛扔，或者确认暴力抛扔的程度。或者，如果分类模型的输出结果表示当前行为不属于暴力抛扔，仍然可以进一步通过抛扔距离进行验证。本申请对此不做限制。

本申请实施例提供的暴力抛扔检测方法，在获取到操作员行为的视频信息后，首先可以将视频信息进行分段处理，并将分段后的帧序列利用背景算法处理得到第一帧序列，使得特征数据聚焦在了运动区域，则在输入到CGAN模型中，可以降低CGAN模型学习的难度，使得CGAN模型更容易收敛以得到该帧序列中每张图像对应的抛扔区域信息，进而可以根据该抛扔区域信息对第一帧序列进行处理，进一步将特征数据聚焦在抛扔区域，从而得到包括原始图像帧及光流序列的第二帧序列，使得分类模型可以根据第二帧序列高效的输出该图像帧序列对应的行为标签，提高了暴力抛扔检测的效率和准确性。

图4所示为本申请实施例提供的暴力抛扔检测模型构建装置的结构示意图，如图4所示，该装置400可以包括：

获取模块410，用于获取操作包裹行为的视频信息；

第一处理模块420，用于对该视频信息进行预处理，得到第一图像帧序列；

第一生成模块430，用于基于该第一图像帧序列，训练生成条件生成对抗网络模型，该条件生成对抗网络模型输出该第一图像帧序列对应的抛扔区域信息；

第二处理模块440，用于基于该抛扔区域信息对该第一图像帧序列进行处理，得到第二图像帧序列；

第二生成模块450，用于基于该第二图像帧序列，训练生成分类网络模型，该分类网络模型用于检测待检测操作包裹行为是否属于暴力抛扔行为。

优选的，本申请实施例提供的暴力抛扔检测模型构建装置，该第一处理模块420包括：

切分单元421，用于对该视频信息进行切分处理，生成至少一个帧集合；

处理单元422，基于背景算法对该帧集合进行处理，生成第一图像帧序列。

优选的，本申请实施例提供的暴力抛扔检测模型构建装置，该第二处理模块440包括：

确定单元441，用于基于该抛扔区域信息确定该第一图像帧序列中图像的感兴趣区域序列；

生成单元442，用于基于该感兴趣区域序列生成第二图像帧序列，该第二图像帧序列包括原始图像序列及光流序列。

图5所示为本申请实施例提供的暴力抛扔检测装置的结构示意图，如图5所示，该装置500可以包括：

获取模块510，用于获取待检测的操作包裹行为的视频信息；

第一处理模块520，用于对该视频信息进行预处理，得到第三图像帧序列；

确定模块530，用于将该第三图像帧序列输入到如上述实施例所述的条件生成对抗网络模型，输出该第三图像帧序列对应的抛扔区域信息；

第二处理模块540，用于基于该抛扔区域信息对所第三图像帧序列进行处理，得到第四图像帧序列；

检测模块550，用于将该第四图像帧序列输入到如上述实施例所述的分类网络模型，输出待检测的操作包裹行为的标签，该标签表示该待检测的操作包裹行为是否属于暴力抛扔行为。

另一方面，本申请实施例还提供服务器，该服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上该的暴力抛扔检测方法。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分603加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口606。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请公开的暴力抛扔检测的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本申请公开的暴力抛扔检测的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种暴力抛扔检测实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、第一处理模块、第一生成模块、第二处理模块及第二生成模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，第一计算模块还可以被描述为“用于基于所述第二图像帧序列，训练生成分类网络模型，所述分类网络模型用于检测待检测操作包裹行为是否属于暴力抛扔行为”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的确定暴力抛扔检测的方法，具体执行：

获取操作包裹行为的视频信息；

对所述视频信息进行预处理，得到第一图像帧序列；

基于所述第二图像帧序列，训练生成分类网络模型，所述分类网络模型用于检测待检测操作包裹行为是否属于暴力抛扔行为。

综上所述，本申请实施例提供的检测模型构建方法、检测方法、装置、服务器及介质，通过构建条件生成对抗玩网络模型，可以确定并得到操作包裹行为的图像帧的抛扔区域信息，从而可以利用抛扔区域信息构建分类模型，减少模型的计算量，提高分类模型训练速度，进而可以利用构建好的分类模型实现操作员暴力抛扔行为的自动检测，提高了暴力抛扔行为的检测效率及准确率，降低了检测成本。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种检测模型构建方法，其特征在于，所述方法包括：

获取操作包裹行为的视频信息；

对所述视频信息进行预处理，得到第一图像帧序列；

2.根据权利要求1所述的检测模型构建方法，其特征在于，所述对所述视频信息进行预处理，得到第一图像帧序列包括：

对所述视频信息进行切分处理，生成至少一个帧集合；

基于背景算法对所述帧集合中的图片进行处理，生成所述第一图像帧序列。

3.根据权利要求1或2所述的检测模型构建方法，其特征在于，所述基于所述抛扔区域信息对所述第一图像帧序列进行处理，得到第二图像帧序列包括：

基于所述抛扔区域信息确定所述第一图像帧序列中图像的感兴趣区域序列；

基于所述感兴趣区域序列生成第二图像帧序列，所述第二图像帧序列包括原始图像序列及光流序列。

4.根据权利要求3所述的检测模型构建方法，其特征在于，在基于所述感兴趣区域生成第二图像帧序列之前还包括：

基于尺度信息对所述感兴趣区域进行归一化，使得归一化后的图像帧满足所述分类网络模型的输入。

5.一种检测方法，其特征在于，所述方法包括：

获取待检测的操作包裹行为的视频信息；

对所述视频信息进行预处理，得到第三图像帧序列；

将所述第三图像帧序列输入到如权利要求1-4任一项所述的条件生成对抗网络模型，输出所述第三图像帧序列对应的抛扔区域信息；

将所述第四图像帧序列输入到如权利要求1-4任一项所述的分类网络模型，输出待检测的操作包裹行为的标签，所述标签表示所述待检测的操作包裹行为是否属于暴力抛扔行为。

6.一种检测模型构建装置，其特征在于，所述装置包括：

获取模块，用于获取操作包裹行为的视频信息；

第二生成模块，用于基于所述第二图像帧序列，训练生成分类网络模型，所述分类网络模型用于检测待检测操作包裹行为是否属于暴力抛扔行为。

7.根据权利要求6所述的检测模型构建装置，其特征在于，所述第一处理模块包括：

切分单元，用于对所述视频信息进行切分处理，生成至少一个帧集合；

处理单元，基于背景算法对所述帧集合进行处理，生成第一图像帧序列。

8.根据权利要求6或7所述的检测模型构建装置，其特征在于，所述第二处理模块包括：

确定单元，用于基于所述抛扔区域信息确定所述第一图像帧序列中图像的感兴趣区域序列；

生成单元，用于基于所述感兴趣区域序列生成第二图像帧序列，所述第二图像帧序列包括原始图像序列及光流序列。

9.一种检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测的操作包裹行为的视频信息；

确定模块，用于将所述第三图像帧序列输入到如权利要求1-4任一项所述的条件生成对抗网络模型，输出所述第三图像帧序列对应的抛扔区域信息；

检测模块，用于将所述第四图像帧序列输入到如权利要求1-4任一项所述的分类网络模型，输出待检测的操作包裹行为的标签，所述标签表示所述待检测的操作包裹行为是否属于暴力抛扔行为。

10.一种服务器，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4或权利要求5任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于实现如权利要求1-4或权利要求5任一项所述的方法。