CN109961061A

CN109961061A - 一种边缘计算视频数据结构化方法及系统

Info

Publication number: CN109961061A
Application number: CN201910297428.XA
Authority: CN
Inventors: 郭勐
Original assignee: Ai Wu Zhi Lian (beijing) Technology Co Ltd
Current assignee: Ai Wu Zhi Lian (beijing) Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-02

Abstract

本发明公开的边缘计算视频数据结构化方法及系统，涉及图像处理技术领域，利用图像识别技术，获取边缘计算视频数据中的目标图像，按照设定的缩小比例P对该目标图像进行缩小，产生S个图像并保存该S个图像，按照设定的放大比例Q对该目标图像进行放大，产生L个图像并保存L个图像，利用卷积神经网络对目标图像、S个图像及L个图像进行计算，分别得到目标图像、S个图像中各个目标图像及L个图像中各个目标图像的类别、坐标位置及类别概率，根据坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像，提高了对边缘计算视频数据中的目标图像检测的效率及准确度。

Description

一种边缘计算视频数据结构化方法及系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种边缘计算视频数据结构化方法及系统。

背景技术

视频数据结构化即通过对原始视频数据进行智能分析，从原始视频数据中提取出关键信息并对该关键信息并进行文本的语义描述。目前主要是对人和车的结构化。例如对人的结构化包括提取人的性别、年龄、发型、是否佩戴眼镜、是否戴帽子、衣着颜色、衣着类型等信息，对车的结构化包括提取车的车牌号、品牌、车型、车身颜色等信息。

视频结构化在实现上，一般分为2个阶段。第一个阶段首先从视频数据中找到目标图像，也就是找到人或者找到车。第二个阶段是对检测出的人或者车做识别分类。所以，检测的准确程度是影响视频结构化性能的关键指标。当前随着深度学习的广泛应用，视频结构化普遍采用神经网络对目标图像进行检测和识别分类。

在利用神经网络对目标图像进行检测时，都需要对输入的图像进行预处理，把图像缩放到神经网络的输入大小。但是这种处理方式会产生对高清大尺寸图像中的小目标检测效率低的问题。例如，在1920像素宽、1080像素高的图像中，如果存在60像素宽、40像素高的目标(例如笔记本电脑)，在图像被缩放到500像素宽、500像素高，甚至300像素宽、300像素高时，目标图像的尺寸仅为10像素宽、10像素高时，该目标图像很难被检测出来。

同样，这种设定固定输入大小的处理方式也产生了对小尺寸图像中的目标图像放大后检测效率低的问题。例如，在100像素宽、100像素高的图像中，如果存在60像素宽、40像素高的目标图像(例如笔记本电脑)，在图像缩放到500像素宽、500像素高时，目标图像被放大至300像素宽、200像素高，此时该目标图像也很难被检测出来。

发明内容

为解决现有技术的不足，本发明实施例提供了一种边缘计算视频数据结构化方法及系统。

第一方面，本发明实施例提供的边缘计算视频数据结构化方法包括以下步骤：

利用图像识别技术，获取边缘计算视频数据中的目标图像；

按照设定的缩小比例P，对所述目标图像进行缩小，产生S个图像并保存所述S个图像，其中，0<P<1；

按照设定的放大比例Q，对所述目标图像进行放大，产生L个图像并保存所述L个图像，其中，1<Q<3；

利用所述卷积神经网络对所述目标图像、所述S个图像及所述L个图像进行计算，分别得到所述目标图像、所述S个图像中各个目标图像及所述L个图像中各个目标图像的类别、坐标位置及类别概率；

根据所述坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当所述重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像。

优选地，所述卷积神经网络为改进过的卷积神经网络，改进过程包括：

将卷积神经网络的全连接层修改为卷积层。

优选地，L＝S＝1，P＝0.5，Q＝1.5。

第二方面，本发明实施例提供的边缘计算视频数据结构化系统包括：

获取模块，用于利用图像识别技术，获取边缘计算视频数据中的目标图像；

缩小模块，用于按照设定的缩小比例P，对所述目标图像进行缩小，产生S个图像并保存所述S个图像，其中，0<P<1；

扩大模块，用于按照设定的放大比例Q，对所述目标图像进行放大，产生L个图像并保存所述L个图像，其中，1<Q<3；

计算模块，用于利用所述卷积神经网络对所述目标图像、所述S个图像及所述L个图像进行计算，分别得到所述目标图像、所述S个图像中各个目标图像及所述L个图像中各个目标图像的类别、坐标位置及类别概率；

所述计算模块，用于根据所述坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当所述重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像。

优选地，所述系统还包括：

修改模块，用于将卷积神经网络的全连接层修改为卷积层。

本发明实施例提供的边缘计算视频数据结构化方法及系统具有以下有益效果：

能够克服了现有技术存在的对边缘计算视频数据的高清大尺寸图像中的小目标图像及对小尺寸图像中的被放大后的目标图像检测效率低的问题，通过改进神经网络并提出多个神经网络输出值的计算方法，提高了目标检测的准确度。

附图说明

图1为本发明实施例提供的边缘计算视频数据结构化方法的流程示意图；

图2为本发明实施例提供的边缘计算视频数据结构化系统的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参见图1，本发明实施例提供的边缘计算视频数据结构化方法包括以下步骤：

S101，利用图像识别技术，获取边缘计算视频数据中的目标图像；

S102，按照设定的缩小比例P，对所述目标图像进行缩小，产生S个图像并保存所述S个图像，其中，0<P<1；

S103，按照设定的放大比例Q，对所述目标图像进行放大，产生L个图像并保存所述L个图像，其中，1<Q<3；

S104，利用卷积神经网络对目标图像、S个图像及L个图像进行计算，分别得到目标图像、S个图像中各个目标图像及L个图像中各个目标图像的类别、坐标位置及类别概率；

S105，根据所述坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当所述重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像。

可选地，所述卷积神经网络为改进过的卷积神经网络，改进过程包括：

将卷积神经网络的全连接层修改为卷积层。

可选地，L＝S＝1，P＝0.5，Q＝1.5，L、S、P及Q也可以为其他数值。

作为一个具体的实施例，本发明实施例提供的另一边缘计算视频数据结构化方法包括以下步骤：

S201，获得1920像素×1080像素的原始图像I；

S202，按照0.8的缩小比例为对原始图像进行缩小，得到1536像素×864像素的图像I_s；

S203，按照1.5的扩大比例对原始图像进行放大，得到2880像素×1620像素的图像I_b；

S204，保留卷积神经网络的卷积层，将全连接层修改为卷积层，即添加了大小为1×1的卷积核；

S205，将原始图像I输入改进过的神经网络进行计算，得到输出结果Output_I，其中，Output_I包括了对原始图像I检测获得的5个输出结果：

[1 1.543e+03 2.980e+02 1.576e+03 3.920e+02 9.510e-01]、

[1 1.004e+03 4.110e+02 1.058e+03 4.750e+02 7.730e-01]、

[1 2.360e+02 1.850e+02 2.580e+02 2.550e+02 5.660e-01]、

[1 2.110e+02 1.900e+02 2.290e+02 2.330e+02 5.220e-01]、

[1 1.152e+03 4.860e+02 1.178e+03 5.200e+02 4.680e-01]，其中，具体针对[11.543e+03 2.980e+02 1.576e+03 3.920e+02 9.510e-01]，1代表某个目标图像的类别为人，1.543e+03、2.980e+02、1.576e+03、3.920e+02分别为该目标图像所在边界框的坐标位置，9.510e-01为该目标图像的类别为人的概率；

S206，将图像I_s输入改进过的卷积神经网络进行计算，得到输出结果Output_I_s，其中，Output_I_s包括了对图像I_s检测获得的3个输出结果：

[1 6.080e+02 8.910e+02 6.650e+02 1.038e+03 8.790e-01]、

[1 1.542e+03 2.990e+02 1.574e+03 3.980e+02 8.130e-01]及

[1 1.003e+03 4.090e+02 1.062e+03 4.790e+02 6.800e-01]；

S207，将图像I_b输入改进过的卷积神经网络进行计算，得到输出结果Output_I_b，Output_I_b包括了对图像I_b检测获得的5个输出结果：

[1 1.005e+03 4.120e+02 1.057e+03 4.780e+02 9.930e-01]

[1 1.544e+03 2.980e+02 1.579e+03 3.980e+02 9.530e-01]

[1 1.770e+02 1.910e+02 2.130e+02 2.530e+02 8.660e-01]

[1 7.080e+02 1.008e+03 7.640e+02 1.054e+03 8.630e-01]

[1 2.120e+02 1.910e+02 2.280e+02 2.320e+02 5.730e-01]；

S208，对上述输出结果进行计算，获得最终的输出结果：

S2081，计算相同类别的目标图像的边界框的重叠面积，设置该重叠面积的阈值为0.5，当存在重叠面积大于0.5的2个或3个边界框时，只保留这2个或3个边界框对应的目标图像中类别概率最高的边界框；

S2082，重复上述步骤并设置类别概率的阈值为0.7，保留类别概率大于0.7的输出结果：

[1 6.080e+02 8.910e+02 6.650e+02 1.038e+03 8.790e-01]

[1 1.005e+03 4.120e+02 1.057e+03 4.780e+02 9.930e-01]

[1 1.544e+03 2.980e+02 1.579e+03 3.980e+02 9.530e-01]

[1 1.770e+02 1.910e+02 2.130e+02 2.530e+02 8.660e-01]

[1 7.080e+02 1.008e+03 7.640e+02 1.054e+03 8.630e-01]。

如图2所示，本发明实施例提供的边缘计算视频数据结构化系统包括：获取模块、缩小模块、扩大模块及计算模块，其中：

获取模块用于利用图像识别技术，获取边缘计算视频数据中的目标图像；

缩小模块用于按照设定的缩小比例P，对目标图像进行缩小，产生S个图像并保存S个图像，其中，0<P<1；

扩大模块用于按照设定的放大比例Q，对目标图像进行放大，产生L个图像并保存L个图像，其中，1<Q<3；

计算模块用于利用卷积神经网络对目标图像、S个图像及L个图像进行计算，分别得到目标图像、S个图像中各个目标图像及L个图像中各个目标图像的类别、坐标位置及类别概率；

计算模块还用于根据坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当所述重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像。

可选地，系统还包括修改模块，该修改模块用于将卷积神经网络的全连接层修改为卷积层。

本发明实施例提供的边缘计算视频数据结构化方法及系统，利用图像识别技术，获取边缘计算视频数据中的目标图像，按照设定的缩小比例P对该目标图像进行缩小，产生S个图像并保存该S个图像，按照设定的放大比例Q对该目标图像进行放大，产生L个图像并保存L个图像，利用卷积神经网络对目标图像、S个图像及L个图像进行计算，分别得到目标图像、S个图像中各个目标图像及L个图像中各个目标图像的类别、坐标位置及类别概率，根据坐标位置，分别计算目标图像、S个图像及L个图像中具有相同类别的目标图像所在边界框的重叠面积，当重叠面积大于设定的阈值时，保留类别概率大于设定阈值的目标图像，提高了对边缘计算视频数据中的目标图像检测的效率及准确度。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种边缘计算视频数据结构化方法，其特征在于，包括：

利用图像识别技术，获取边缘计算视频数据中的目标图像；

2.根据权利要求1所述的边缘计算视频数据结构化方法，其特征在于，所述卷积神经网络为改进过的卷积神经网络，改进过程包括：

将卷积神经网络的全连接层修改为卷积层。

3.根据权利要求1所述的边缘计算视频数据结构化方法，其特征在于，L＝S＝1，P＝0.5，Q＝1.5。

4.一种边缘计算视频数据结构化系统，其特征在于，包括：

5.根据权利要求4所述的边缘计算视频数据结构化系统，其特征在于，所述系统还包括：

修改模块，用于将卷积神经网络的全连接层修改为卷积层。