CN112188167B

CN112188167B - 基于5g边云计算的视频浓缩萃取精炼升华的方法和系统

Info

Publication number: CN112188167B
Application number: CN202011056859.6A
Authority: CN
Inventors: 徐颖菲; 谢磊; 李丽; 丁路; 廖威
Original assignee: Chengdu Zhishi Huiyu Technology Co ltd
Current assignee: Chengdu Zhishi Huiyu Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-04-18
Anticipated expiration: 2040-09-30
Also published as: CN112188167A

Abstract

本发明公开一种基于5G边云计算的视频浓缩萃取精炼升华的方法及系统，应用于视频追踪处理领域，针对现有技术中存在的难以支持在跨视域、跨时长场景下对移动对象的语义关联和行为分析，以及对移动对象的快速检索和轨迹跟踪以及出行模式及行为方式的判定和描述，乃至行为或事件的时空关系的还原的技术问题；本发明根据时间段内前景凸显是否发生变化对背景图像按照一定频率进行存储，能够极大降低视频存储空间，节省了存储资源；本发明以时间和移动对象在空间中的运动轨迹的格式来存储视频，实现了可以根据时间轨迹获取移动对象的移动轨迹，可以极大节省移动对象在视频文件中的检索时间并减少所使用的计算资源。

Description

基于5G边云计算的视频浓缩萃取精炼升华的方法和系统

技术领域

本发明属于计算机视觉、边缘计算、5G及多层云架构领域，特别涉及一种基于5G和边缘计算及多层云架构的超大规模实时及事后处理的视频浓缩、萃取、精炼，升华和还原的方法、系统和装置技术。

背景技术

随着平安城市、智慧交通、智能安防及5G网络的快速发展，数以几十万计的监控摄像头被安装在城市主干道、重要交通路口和大型广场、车站、机场等公共活动的场所，每天产生的监控视频数据量非常庞大。不仅造成目前视频存储成本高昂，而且存储时长非常有限(通常在一至三个月)，这对视频的分析和应用都带来巨大挑战和限制，比如对视频中移动对象的快速检索、轨迹跟踪、行为分析以及跨视域、跨长时的对象追踪、溯源等。特别是在对监控视频进行检索时，重要的线索或移动对象，可能在监控画面中仅短暂出现数秒。若采用传统人工方式，面对数十乃至成百上千个摄像头，对每个摄像头数小时乃至几十小时的视频检索，仅是浏览这些视频就需要花费大量的人力、精力和时间，并且极易漏检漏看错检错看这些散落在视频数据中的重要信息。因此迫切需要一种视频高浓缩方法和技术，并对浓缩后的视频数据进一步萃取、精炼、升华和还原，从而来有效提升监控人员对视频的检索和分析效率，并且最大程度降低视频存储成本、延长视频存储时长。

在目前的视频处理技术中，更多关注的是视频浓缩技术，常用的视频浓缩方法通常采用以下几种方式：

一是基于时间对视频进行采样，即每间隔一定的时间抽取一个代表帧或者一个片段，组成视频摘要，以实现视频压缩。这种方式完全没有基于视频的内容，即直接丢弃某些帧会很容易丢失发生在很短时间内的行为，效果很不可靠；

二是通过检测和提取运动目标，然后对运动目标轨迹组合，再将前景目标和背景图像进行融合。这种方式通常存在以下问题：一是通常是对视频的事后处理，缺乏实时性；二是缺乏对视频中移动对象提取的完整性，如缺少对背景环境中暂时处于静止对象的提取(比如车停在路边，经过一段时间，开走了)；三是缺少对移动对象的物理属性和社会行为属性的萃取、精炼，以及对视频内容的汇集总结、升华和还原。

三是采用深度神经网络进行视频压缩。这种方法在训练和测试深度神经网络时，通常需要部署在高性能服务器或数据中心，一是使得在边缘端进行实时视频压缩受到很大限制；二是同样缺少对视频内容的萃取、精炼、升华和还原。

四是通过对背景和前景图像的分割、提取，实现对在线视频的浓缩处理。这些方式同样存在上述所遇到的问题：一是缺乏对视频中移动对象提取的完整性；二是缺少对视频内容的事后处理，比如背景环境更新、对象增量识别、不同对象关联，以及GIS地图数据的融合等；三是缺少对视频内容的萃取、精炼、升华和还原。

综上以上关于视频浓缩方式的做法，要么基于时间采样缺少视频帧和视频内容的完整性，要么缺乏对视频浓缩处理的实时性，要么缺少事后对移动对象自身以及相互之间的关联分析，要么需要运行在高性能服务器，难以满足在大规模、实时性要求高的边缘设备上的应用，要么仅是在线提取感兴趣的部分运动目标，缺乏对暂时处于静止状态运动目标的提取，及对环境背景的提取、更新和识别，以及对视频内容的萃取、精炼、升华和还原。

此外，在视频浓缩的基础上，对视频内容的进一步萃取、精炼、升华和还原，仍然面临诸多挑战。首先，对于爆发式极速增长的视频数据，不仅需要机器能够自动理解视频包含了什么内容，还要清楚镜头中发生了什么行为和事件；其次，除了自动描述出视频内容外，还要对视频中发生的异常行为进行及时告警，甚至能够预测后续发生的事件。针对这些挑战，仅是通过人力来完成显然已经不可行了；同时，目前在涉及特定场景中对象识别、跟踪和行为、事件探测等问题时，一方面缺乏对超大规模复杂动态监控场景下的实时和事后视频分析；另一方面也缺少对移动对象在大规模复杂场景下的语境思考和语义描述，使得难以支持在跨视域、跨时长场景下对移动对象的语义关联和行为分析，以及对移动对象的快速检索和轨迹跟踪以及出行模式及行为方式的判定和描述，乃至行为或事件的时空关系的还原。

发明内容

为解决上述技术问题，本发明提出一种基于5G边云计算的视频浓缩萃取精炼升华的方法和系统。

本发明采用的技术方案为：一种基于5G和边缘计算及多层云架构的视频处理方法，基于的多层级云架构至少包括四层级云结构，所述四层级云结构从下至上依次为：边缘微云端、基站小云、中云、总云，各层级云结构之间通过网络进行通信；所述方法包括以下步骤：

S1、在边缘微云端，一次性对现有摄像头数据进行背景探测、识别、标注和抽取处理，然后将得到的背景图像添加场景标签；

S2、在边缘微云端采用多模态神经元网络算法模型，对监控视频中的移动对象、暂时处于静止物体以及背景环境对象进行实时探测、识别、标注和提取，然后对背景图像根据场景标签配置对应的频率参数进行存储；

S3、在边缘微云端运用多种人工智能算法模型，对移动对象的物理属性和社会行为属性进行实时萃取；

S4、在边缘微云端采用多种神经元网络算法模型，对视频中存在的异常行为进行实时精炼，精炼结果包括通常异常行为和违规异常行为；

S5、总云数据中心根据移动对象的物理属性和社会行为属性，得到移动对象的跟踪轨迹。

还包括视频还原：所述视频还原包括二维动态图像的视频还原与三维场景下的视频还原，所述二维动态图像的视频还原，具体为：根据浓缩后的视频图像和数据还原成视频；所述三维场景下的视频还原，具体为：根据浓缩后的视频图像和数据并融合GIS地理信息系统，对移动对象在三维空间中移动坐标和运动轨迹的还原。

步骤S2所述存储采用的格式为：以时间和移动对象在空间中的运动轨迹的存储格式。

本发明还提供了一种基于5G和边缘计算及多层云架构的视频处理系统，基于的多层级云架构至少包括四层级云结构，所述四层级云结构从下至上依次为：边缘微云端、基站小云、中云、总云，各层级云结构之间通过网络进行通信；在边缘微云端布置有：背景提取模块、视频浓缩模块、视频萃取模块、视频精炼模块，在总云布置有视频升华模块；

所述背景提取模块的输入为现有摄像头数据，输出为添加场景标签的背景图像；

所述视频浓缩模块的输入为现有摄像头数据与添加场景标签的背景图像，输出为以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据；

所述视频萃取模块的输入为现有摄像头数据，输出为移动对象的物理属性和社会行为属性；

所述视频精炼模块的输入为现有摄像头数据，输出为移动对象的异常行为；

所述视频升华模块的输入为根据以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据、移动对象的物理属性和社会行为属性、移动对象的异常行为得到的移动对象行为画像和视觉知识图谱，输出为移动对象的跟踪轨迹。

还包括在总云布置还原模块，输入为根据以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据、移动对象的物理属性和社会行为属性、移动对象的异常行为以及移动对象的跟踪轨迹，输出为二维动态图像的视频。

当所述还原模块的输入为根据以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据、移动对象的物理属性和社会行为属性、移动对象的异常行为、移动对象的运动轨迹以及GIS地理信息，输出为三维动态图像的视频。

本发明的有益效果：本发明根据时间段内前景图像是否发生变化对背景图像按照一定频率进行存储，能够极大降低视频存储空间，节省了存储资源；本发明以时间和移动对象在空间中的运动轨迹的格式来存储视频，实现了可以根据时间轨迹获取移动对象的移动轨迹，可以极大节省移动对象在视频文件中的检索时间并减少所使用的计算资源；本发明具备以下优点：

1.本发明不仅可以极大突破现有视频浓缩技术在视频表达方式，存储方式、存储时长及实时性处理上的界限和思路模式，而且实现了在视频内容处理方式上的创新；

2.通过在不同云层级、不同时段对视频内容进行浓缩、萃取、精炼、升华和还原，使得其浓缩比和存储时长可超过现有技术的百倍甚至千倍以上；

3.采用本发明的超高视频压缩比方法，可以实现超高性价比的超大规模视频的长久甚至永久存储；

4.本发明在对视频内容的理解、移动对象的跟踪、视频内容的检索等方面，从时效性、准确性、多模性和全面性等方面都有极大程度的提升。

5.本发明运用基于人工智能深度学习的高压缩比的浓缩，萃取，精炼，升华和还原技术，同时解决了视频结构化，语义化，智慧化，情报化，社交化，和可复用化问题。如在视频浓缩和萃取过程将移动对象和背景环境物体进行提取和识别，为视频结构化和语义化提供了基础数据和技术支撑；同时进一步对浓缩视频进行精炼和升华，并将不同移动对象之间的关联关系及其存在的异常行为进行提取和及时告警，由此实现了视频结构化向视频数据智慧化和情报化的转化；同时随着视频浓缩、萃取、精炼和升华数据的不断积累，将会沉淀出大量关于移动对象及其之间的社交关系，从而为监控视频的长期复用发挥更多应用价值。

附图说明

图1所示为本发明实施例提供的视频浓缩、萃取、精炼、升华、还原的方法流程图；

图2所示为本发明的视频浓缩、萃取、精炼、升华、还原系统结构框图；

图3所示为本发明实施例提供的视频浓缩方法效果图；

其中，图3(a)为现有的15秒MP4小视频的压缩方法，图3(b)为采用本发明的方法每15秒保存一张背景，图3(c)为采用本发明的方法每小时保存一张背景；

图4所示为本发明视频浓缩方法在单副本对象下相比MP4压缩方法在不同时段提升倍数的对数图表；

图5所示为本发明视频浓缩方法对多副本对象下相比MP4压缩方法在不同时段提升倍数的对数图表；

图6所示为本发明实施例提供的浓缩前后视频传输占用带宽的效果图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，先对以下概念做出定义或解释：

边缘微云端：是由边缘计算设备构成的边缘计算小集群，用来处理从摄像头采集的视频图像数据，包括对不同时段背景图像的探测、识别、标注和抽取，并将处理后的结果传送到总云端。

移动对象：是指在视频图像中检测和识别的前景运动对象，包括人、车、动物等。其中人包括单人、多人、人群等；车包括机动车、摩托车、自行车、助力车等；物包括宠物、其他动物等；

暂时静止对象：是指在视频图像中检测和识别出的暂时处于静止的对象，比如静止停靠车辆、店铺标牌和装修风格等；

背景环境对象：是指在视频图像中检测和识别的街道、商店、楼宇、交通标志、道路防护栏、树木等背景环境对象；

对象社会行为属性：是指在视频图像中检测和识别的行人步态特征、走路、跑步、骑电动车、骑摩托车、骑自行车、骑三轮车、打手机等社会行为属性，以及直行、转弯、倒车、停车等车辆社会行为特征；

对象物理属性：包括移动对象的各种物理属性信息，如行人面部特征，包括大脸和小脸特征，及性别、年龄、胡须、口罩、戴眼镜、上下衣颜色、帽子、是否携带物等属性；以及车辆类型、车身颜色、车牌号码、车牌颜色等属性；

遗漏对象关联：是指在检测和识别任务处理时，对于当时暂时处于静止状态的移动对象，经若干时间后发生了移动。这种情况下，通常需要事后对摄像头拍摄的图像进行再次萃取，从而识别出遗漏或当时处于静止状态的移动对象；

对象增量识别：是指在实时检测和识别运动目标的基础上，通过利用更高精确度和识别率的算法模型，对视频进行全新扫描，从而识别出之前未识别出的移动对象，以实现对视频移动对象的增量识别；

背景环境更新：是指对于背景环境发生更新的场景，比如新建楼宇、商铺重新装修、变更标牌、更新交通标识、变更路灯杆广告等；

背景环境萃取：是指包括探测和识别各类标牌，如商店标牌、交通标牌、楼宇标牌等，并进一步提取出标牌上的文字、数字、字符、图案等信息；

GIS地图数据融合：是指将视频图像中提取到的移动对象与GIS地图数据进行时空关联，同时将其移动轨迹融合在所处的GIS背景环境中，并对不同对象进行关联及连续性画像分析，以实现对不同对象的GIS融合和关联分析；数据融合完成后，再由总云下发到边缘云，以实现对移动对象在所处背景环境下所有可能发生的事件进行描述；

通常异常行为：是指通常正常发生的异常行为，比如交通堵塞、车辆抛锚、走路跌倒等；

违规异常行为：是指违反法规或正常行为的异常行为，比如行人徘徊、人群聚集、单人或人群突然奔跑、车辆逆行、自行车违规行驶等；

本实施例中通常异常行为与违规异常行为可以采用现有技术中的图像识别技术进行异常行为识别，在此不做详细阐述。

浓缩视频再精炼：是指对浓缩后的视频数据进行再次萃取，以去除其中可能存在的冗余信息，从而实现用尽可能少的数据来表达图像视频中相对完整的信息；

过滤数据再萃取：是指对浓缩过程中去除的数据进行再次探测、识别、标注和抽取，以确保萃取出更多有用的信息；

视觉知识图谱：是指在总云数据中心利用视频浓缩、萃取和精炼后的移动对象的物理属性、行为属性和背景环境特征，并融合GIS地图数据从时空关联性对移动对象的特性和行为进行画像和构建视觉知识图谱，从而实现对移动对象行为的感知和认知的连接；

移动对象行为画像：是指在对视频浓缩、萃取和精炼的基础上，根据移动对象的物理属性和社会行为属性来分析、刻画移动对象的行为特征和心理特征，从而提供对移动对象的人物传记式的描述，进而服务于视频检索和轨迹跟踪工作；

跨摄像头轨迹跟踪：是指对时空跨度大、移动对象不确定、活动轨迹不可控等多摄像头复杂场景下的移动目标活动轨迹的分析和跟踪；

对象索引检索：是指基于移动对象本身物理属性和社会行为属性，并通过对检索结果的反馈优化来构建新的社会索引或应用索引，从而可以更准确地满足和表达用户的查询需求；

视频重构还原：是指对浓缩后的视频，可根据移动对象出现的时段或有无进行视频重构还原，并实现慢放或快放，以缩短检索和浏览视频的时间；

视频描述自动生成：是指通过对监控视频的实时及事后分析，并获取监控视频中各种类型运动目标(人、车、动物)的外形特征、行为特征和行动轨迹等信息，并通过自然语言自动生成对视频内容的总结和描述。

下面以交通视频处理为例对本发明作进一步说明，多层云架构可以参考申请号为：202010493075.3的专利申请中的记载，基于5G和边缘计算及多层云架构的超大规模实时及事后处理的视频浓缩、萃取、精炼、升华和还原的方法如图1所示，具体包括如下步骤：

步骤1.背景提取：在边缘微云端，一次性对现有摄像头数据进行背景探测、识别、标注和抽取处理，然后将得到的背景图像按照时段、光线、日夜、天气(包括极端气象情况，如浓雾、暴雨、闪电、暴雪)等不同场景添加标签，并将添加标签后的背景图像作为对摄像头数据进行实时处理的背景基础，从而提升监控视频的实时处理效率；同时，在一次性提取背景图像后，本发明系统仍将持续监控，识别、标注、和抽取背景的变化，并用于视频的浓缩、萃取、精炼、升华和还原。

本步骤中的背景图像包括环境中除去移动对象外的所有环境物体(可以理解为所有目前处于静止的环境对象)，具体的：所述移动对象包括移动的人、车、动物等前景图像；除去移动对象外的所有环境物体具体指暂时处于静止的物体，如车辆、店铺装修等；以及背景环境对象(街道、商店、楼宇、交通标志、树木等)。

步骤2.视频浓缩：在边缘微云端采用多模态神经元网络算法模型，对监控视频中的移动对象(人、车、动物等前景)、暂时处于静止物体(如车辆、店铺装修等)以及背景环境对象(街道、商店、楼宇、交通标志、树木等)进行实时探测、识别、标注和提取，从而获取视频中的关键信息；其浓缩过程可基于监控视频中不同场景下预先提取和标识出不同的背景图像，比如白天，晚上，晴天，阴天、雨雪天气等；然后结合应用场景需要，对背景图像按照可配置的频率参数进行保存，比如在前景没有变化的时段(比如晚上)，可配置每小时提取和保存一张背景图像，在此情形下，视频浓缩效率相比传统方式可提升上万倍(可参考附表4)；而在早峰时段(7点-9点)，若前景移动对象每秒钟保存一个副本，其浓缩效率可提升五百多倍；综合整天(白天各时段+晚上夜间)的视频浓缩效果来看，其提升的浓缩效果仍可高达千倍以上；同时从存储时长角度分析，按照现有监控视频保存一个月计算，假设使用同样大小的存储空间，采用本发明的视频浓缩方法，其视频存储时长可高达91年(可参考附表1)。由此可知，本发明的视频超高浓缩比方法，不仅极大降低了视频存储空间，节省了存储资源；而且极大延长了视频保存时长，从而实现视频的长期甚至永久保存。

表1本发明方法存储时长与传统方法的对比

本步骤2中探测是通过目标检测模型，从输入的视频图像中探测出人、车、物、背景环境等对象信息；识别是指通过AI识别模型对探测出对象的属性和行为进行多层次反复的推理，以实现对探测对象类别的判定，比如人脸识别、步态识别、性别识别等；以及车牌号码识别、车辆类型识别、车辆型号识别、车牌位置识别等；标注是将探测和识别的结果分别标注在对象上，比如人的身份、步态、性别、是否骑车、车牌号码、车身颜色、车辆型号等；提取包括提取对象的图像、视频和识别出的元数据，根据具体应用场景的不同，提取图像的频率可以每帧提取一张，也可以每秒、每分、每小时提取一张。比如白天或夜间背景图像，可以每天提取一张或两张；而提取的视频也可以是一段，比如停车场景、异常行为检测场景等。

本步骤2中对除移动对象外的暂时处于静止物体以及背景环境对象的保存，具体为：在总云端，设置时间间隔，比如设置每晚或每周一次，将当天拍摄的背景图像和已保存的背景图像进行比对，如果图像有更新，则将当天拍摄的最后一次背景图像作为最新的背景图像进行保存。

本步骤2中的多模态神经元网络算法模型包括多模态生物特征识别算法、基于3DCNN卷积神经网络的行为识别模型、用于在线行为动作检测的联合分类回归(JointClassification-regression)循环网络(JCR-RNN)模型，长短时记忆(Long short termmemory,LSTM)RNN模型、基于类相关玻尔兹曼机的视频事件分析模型等。

多模态神经元网络算法模型的输入是监控视频，输出取决于具体的场景，如果是目标检测，输出是对象分类；如果是目标识别，输出对象识别(比如车牌识别、人脸识别等)；如果是事件推理，输出是事件预测等；

步骤3.视频萃取：在边缘微云端运用多种人工智能算法模型，对移动对象的物理属性和社会行为属性进行实时萃取；事后在区域云或总云数据中心对视频内容进行再次萃取，包括对遗漏对象的追踪和关联、增量对象识别和补充、背景环境数据的提取和更新(如商店、楼宇、交通等标牌上的文字、数字、符号、图案的识别和提取)、GIS地图数据融合等。其中：

移动对象的物理属性：包括识别、标注和萃取出移动对象(人、车、动物)的各种物理属性信息，如行人面部特征属性，包括人脸特征和小人脸特征，及其他性别、年龄、胡须、口罩、戴眼镜、上下衣颜色、帽子及是否有携带物等属性；车辆类型、车身颜色、车牌号码、车牌颜色等信息，以及视频环境属性信息，如街道、商店、楼宇、交通标志、树木等。

对象的社会行为属性：包括识别、标注和萃取出移动对象的社会行为属性。包括行人步态特征、走路、跑步、骑电动车/摩托车、骑自行车、骑三轮车、打手机等行为属性，及车辆直行、转弯、倒车、停车等行为特征。

背景环境信息萃取：包括对各类标牌的提取，比如商店的标牌、交通的标牌、楼宇的标牌等，并进一步识别和提取出标牌上的文字、数字、字符、图案等信息。

事后视频内容再萃取：为解决边缘端在执行实时探测和识别任务时，可能存在对象探测遗漏、对象关系缺失、背景未及时更新等问题。通常在区域云或总云数据中心，对当天的监控视频进行再次萃取分析。其内容包括：

1)遗漏对象关联。比如在执行实时检测和识别任务处理时，对于当时暂时处于静止状态的移动对象，经若干时间后发生了移动。这种情况下，通常需要事后对摄像头拍摄的图像进行再次萃取，识别出遗漏或当时处于静止状态的人、车、动物。

2)增量对象识别。即在实时检测和识别运动目标的基础上，利用更高精确度和识别率的检测和识别模型，对视频进行全新的扫描，从而识别出之前未识别出的移动对象，完成对视频移动对象的增量识别。

3)背景环境更新。对于背景环境发生更新的场景，可以通过配置固定时间(比如每天、每周、每月等)检测背景是否有变化，若有变化，向前追查背景发生变化的具体时间，并用新的背景对旧背景进行替换和更新，同时对旧背景进行记录和保存。

4)GIS地图数据融合。在总云数据中心将GIS地图数据与提取的移动对象进行数据融合，并对不同对象进行关联及连续性画像分析，以实现对不同对象的GIS融合和关联分析；数据融合完成后，再由总云下发到边缘云，以实现对移动对象在所处背景环境下所有可能发生的事件进行描述。

本步骤中的人工智能算法模型为多模态生物特征识别算法，比如行人行为/属性识别、车辆行为/属性识别、人脸身份/属性抓拍、车牌识别、人体姿态识别等算法和模型；可同时使用多种算法模型，根据不同模型从输入中捕捉的潜在互补信息，对输出结果进行组合从而得到最终结果。

步骤4.视频精炼：在视频浓缩和萃取的基础上，在边缘微云端采用多种神经元网络算法模型，对视频中存在的异常行为进行实时精炼，包括通常异常行为和违规异常行为；事后在区域云或总云数据中心，对不同移动对象进行关联，并对其异常行为再学习以及相关行为模型再演进；同时基于视频浓缩、萃取和精炼的结果，在总云数据中心对移动物体行为进行画像，构建视觉知识图谱，实现移动对象的行为感知和认知的连接。更进一步的，当边缘端探测到未能识别出的异常行为时，将其发送到云端数据中心进行增补，进而在云端实现对新增行为模型的学习和演进，然后下发到边缘端，从而实现边缘端对新增异常行为的探测和识别。其内容包括：

①在边缘端对通常的异常行为进行精炼：比如交通堵塞、车辆抛锚、走路跌倒等；以及违规的异常行为进行精炼：比如行人徘徊、人群聚集、单人或人群奔跑、车辆逆行、自行车违规行驶等。

②在区域云或总云数据中心对当天的视频内容进行再次精炼，并对异常行为再学习、相关模型再演进，以提升对异常行为的再学习和再识别能力，同时对萃取后的数据进一步浓缩和精炼。其中对象异常行为的再学习是指从数据层面，对之前没有描述的或新出现的异常行为进行再学习；而模型演进是指从模型层面对基于新出现的异常行为而对现有的异常行为探测模型的更新；另外，对视频内容的精炼，既包括对在浓缩过程中去掉的数据进行再次探测、识别和抽取，确保萃取出更多有用的信息；同时也包括对浓缩后的视频数据进行再次萃取，以去除其中可能存在的冗余信息，从而实现用尽可能少的数据来表达图像视频中相对完整的信息。

③在总云数据中心利用知识、算法、模型多引擎驱动，并结合视频浓缩、萃取和精炼后的移动对象的物理属性、行为属性和背景环境特征，通过融合GIS地图数据，从时空性对不同移动对象的特性和行为进行画像和关联，并构建视觉知识图谱，从而实现对各个移动对象的行为感知和认知的连接。进一步的当边缘端探测到未能识别出的异常行为时，将其发送到云端数据中心进行增补，进而实现对新的异常行为的增添及AI模型的持续学习和演进。

在总云数据中心对移动对象行为进行画像，构建视觉知识图谱，包括两层意思：第一层是用视觉的方式描述的知识图谱。包括人与物之间的空间关系图谱，其中“物”包括车、小区、商店、写字楼、周边环境等；也包括人与物之间的时间关系图谱，用于描述人与物发生关系的时间段，比如在何日何时与何物发生了何种空间或行为关系，例如在XX年2-8月间每周六下午几点到几点某某把某车辆停在某写字楼停车场；第二层是用文字的方式描述的知识图谱，包括人的图谱以及人与人之间关系的图谱。其中人的图谱是指人具备的自身属性特征和行为的图谱，比如人脸特征、步态特征、性别特征、身高特征等；人与人之间的关系图谱，是指描述人与人之间关联关系的知识图谱，比如通过查询图谱中人的关系，就能获取共同出现的人的信息、以及共同的活动轨迹信息等。

神经元网络算法模型包括多模态生物特征识别算法、基于3DCNN卷积神经网络的行为识别模型、用于在线行为动作检测的联合分类回归(Joint Classification-regression)循环网络(JCR-RNN)模型,长短时记忆(Long short term memory,LSTM)RNN模型、基于类相关玻尔兹曼机的视频事件分析模型等；在本发明的场景下，神经元网络模型的输入是监控视频，输出取决于具体的场景，如果是目标检测，输出是对象分类；如果是目标识别，输出对象识别(比如车牌识别、人脸识别等)；如果是事件推理，输出是事件预测等；本步骤中可同时使用多种算法模型，根据不同模型从输入中捕捉的潜在互补信息，对输出结果进行组合从而得到最终结果。

本步骤中对不同移动对象进行关联包含两层意思：一层是对于不同摄像头看到同一人的关联；另一层是对于不同人之间的关联。具体的：

I对于不同摄像头看到同一个人的关联，是通过人工智能模型(包括多种神经元网络模型协同、基于规则(如决策树)和经典算法(如朴素贝叶斯)的推理模型)，对多个摄像头中对象的微观特征大数据，进行推理的结果。这些微观特征大数据，既包含比如每秒提取对象的30个特征，也包含各类多维度、多不确定性等要素，共同构成了微观特征大数据集合；

П对于不同人之间的关联，包括但不限于在时空中有聚集，在行为上有交集的事件，比如聚众、追赶等异常行为事件。这类对象之间的关联通常是由构建各类关系图谱进行关联，包括人与人的关系图谱，人与物的关系图谱，人与时空的关系图谱等。

步骤5.视频升华：在总云数据中心基于对视频浓缩、萃取和精炼的结果，同时结合移动对象行为画像和视觉知识图谱，运用自然语言对视频内容进行事后总结和描述，以实现对移动对象原本物理属性的汇聚、提升、升华和还原。其内容即包括单摄像头下的轨迹跟踪，也包括复杂环境下的跨摄像头轨迹跟踪和视频检索。比如在交通和安防场景中对行人、车辆的轨迹跟踪，以及嫌疑人、嫌疑车辆、走失儿童、丢失物品的跟踪等。其中：

a单摄像头下的轨迹跟踪：比如2019-10-20 13:15:30一名穿蓝色T恤的青年短发男性，驾驶一辆黑色摩托车，经幸福大街辅路由东向西逆向行驶，在13:20:00左转驶入解放路。

b复杂环境下跨摄像头的轨迹追踪：针对超大规模监控视频在时空跨度大、移动对象不确定、活动轨迹不可控等复杂条件下的移动目标的活动轨迹的跟踪。比如2019-11-1009:25:10一名身着红色上衣的中年男性快递员司机，驾驶一辆白色面包车，车牌号为京E332XX，从静安区龙阳路273号快递公司，由东向西直行出发，行驶5km遇到红绿灯，等待20秒后，继续向西行驶10km遇到红绿灯，等待30秒后，09:40:20向南转弯进入朝阳区福安路，由南向北行驶10km后，10:10:30右转进入兴华路，由东向西继续行驶12km后，10:30:00停车进入浩泰宾馆。

c视频检索和索引：当前对视频构建索引的常用技术包括树型索引和哈希索引。其中，树型索引缺点是当维数较高时，容易产生维数灾难，使得查询效率太低；而哈希索引，若使用无监督视频哈希算法，通常会存在高维特征映射精确度不高的问题；对于监督视频哈希算法，通常需要大量的训练集，并需要对训练集进行标注，这使得获取视频训练集及标注变得非常困难。而本发明基于移动对象本身物理属性，并通过对检索结果进行反馈优化的方式构建索引，可以更准确地满足和表达用户的查询需求。具体说明如下：

一是基于移动对象本身所带的自然特征和物理属性信息，对视频内容进行检索和查找。比如：类别(人、车、动物等)、外观(性别、年龄、胡须、口罩、戴眼镜、上下衣颜色、帽子，以及车辆类型、车身颜色、车牌号码)、形状(烟雾、火焰等)、尺度(小尺度车辆、行人、人脸等)；

二是在移动对象物理索引的基础上生成的新的社会索引或应用索引。即根据用户对视频检索结果的评价和反馈，自动地调整模型匹配参数，对查询结果赋予不同的权重，并对查询结果候选集和查询表达进行优化排序，从而生成新的动态视频索引，这类索引通常会随着查询结果的变化而不断更新，从而更加快速和准确地满足视频的检索需求。如在交通、安防等监控领域和场景下，生成的交通索引、安全索引、社交索引等。比如通过跨摄像头的检索和跟踪，对嫌疑人行为轨迹构建索引，可根据嫌疑人自身的外观，比如蓝色T恤,黑色墨镜，然后结合用户对不同监控摄像头搜索结果给予的反馈进行轨迹索引构建，如在富民路惠民超市门口自西向东奔跑，200米后，在前方十字路口右转进入兴华大街；然后步行5分钟后，右转进入东阳宾馆。

d视频描述自动生成：通过对监控视频的实时及事后分析，并获取监控视频中各种类型运动目标(人、车、动物)的外形特征、行为特征和行动轨迹等信息，并通过自然语言自动生成对视频内容的总结和描述。

步骤6.视频还原：在视频浓缩、萃取、精炼、升华处理的基础上，可以基于两种方式实现对视频的重构和还原。一是实现二维动态图像的视频还原，即根据浓缩后的视频图像和数据还原成视频，并可根据移动对象类别、属性、出现时间、出现位置等信息进行搜索、播放和回溯；二是实现三维场景下的视频还原，即根据浓缩后的视频图像和数据并融合GIS地理信息系统，在一个或多个跨摄像头的复杂监控视频场景下，实现对移动对象在三维空间中移动坐标和运动轨迹的还原，并可以三维可视化的方式展示移动对象在空间中的精准定位和时空动态分析，从而极大提升对浓缩视频的分析和应用价值。

更进一步的，本发明本还提供了一种基于5G和边缘计算及多层云架构的超大规模实时及事后处理的视频浓缩、萃取、精炼、升华和还原的系统，如图2所示：其内容包括：

背景处理模块，在边缘端事先对现有的未做实时分析的摄像头数据进行背景探测、识别、标注和抽取，然后将提取的背景图像按照时段、光线、日夜、天气(包括极端气象情况，如浓雾、暴雨、闪电、暴雪)等不同场景添加标签，并将其作为对摄像头数据进行实时处理的背景基础，从而提高监控视频的实时处理效率；

视频浓缩模块，在边缘端通过对监控视频中的移动对象(人、车、动物等)、暂时处于静止物体(车辆、店铺装修)以及背景信息(街道、商店、楼宇、交通标志、树木等)进行实时并行探测、标注和识别，进而提取视频中的关键图像信息；

视频萃取模块，在边缘端对移动对象的物理属性和对象的社会行为属性进行实时萃取，同时事后在区域或总云数据中心对视频内容(遗漏对象关联、增量对象识别、背景识别更新)进行再萃取；

视频精炼模块，在边缘端对视频中存在的异常行为进行实时精炼；并在事后通过区域或总云数据中心，对视频内容和异常行为进行再学习和再精炼，同时基于视频浓缩、萃取和精炼的结果，在总云数据中心对移动物体行为进行画像，并构建视觉知识图谱；

视频升华模块，在总云数据中心结合移动对象行为画像和视觉知识图谱，通过运用自然语言对视频内容进行事后描述和总结，实现对移动对象原本物理属性的汇聚、提升、升华和还原。

视频还原模块，在视频浓缩、萃取、精炼、升华处理的基础上，基于两种方式实现对视频的还原。一是实现二维动态图像的视频还原，即根据浓缩后的视频图像和数据还原成视频；二是实现三维场景下的视频还原，即根据浓缩后的视频图像和数据并融合GIS地理信息系统，在一个或多个跨摄像头的复杂监控视频场景下，实现对移动对象在三维空间中移动坐标和运动轨迹的还原。

视频检索模块，在对监控视频的浓缩、萃取和精炼基础上，基于移动对象本身物理属性，并在移动对象物理索引的基础上，根据其查询结果生成更多的新的社会索引或应用索引，使得这类索引可以随着查询结果的变化而不断更新，从而实现更加快速和准确地满足视频的检索需求。

本发明提供的高压缩比视频浓缩方法，如图3所示，对比如图3(a)所示的现有的MP4小视频的压缩方法，同样的视频内容，采用本发明的视频浓缩方法，通过对视频背景按照一定频率抽取和保存，以及对移动对象按照一定时间间隔进行副本保存，其浓缩比相比现有的MP4方法可提升上百上千倍。图3(b)为采用本发明的方法每15秒保存一张背景，图3(c)为采用本发明的方法每小时保存一张背景；具体对比如下表2所示：

表2本发明方法与现有的MP4小视频的压缩方法对比结果

本发明视频浓缩方法在单副本对象下相比MP4压缩方法在不同时段提升倍数的对数图表如图4所示。其说明如下：

在普通城市(如常州)的道路交通视频中，其每天各时段的平均交通车流量如表3所示，即使在交通流量比较高的早峰和晚峰时段，如表4所示，使用本发明的视频浓缩方法，在每小时保存1张背景，每个对象保存单个副本情形下，本发明视频浓缩方法相比MP4视频压缩方法其提升倍数仍接近千倍；而在夜间交通车流量相对较低情形下，其提升倍数可达上万倍；整体来看，存储一天的视频，相比MP4视频压缩，本发明视频浓缩后的提升倍数也要接近两千倍。

表3每天各时段的平均交通车流量

时段	时间	车流量
			早峰	07:00-09:00	2501辆/小时
白天	09:00-16:30	1800辆/小时
			晚峰	16:30-18:30	2382辆/小时
晚上	18:30-21:30	1500辆/小时
			夜间	21:30-07:00	142辆/小时
每天	00:00-24:00	29115辆/天

表4不同时间段的背景保存数量

背景保存周期	早峰	白天	晚峰	晚上	夜间	每天
							每秒保存1张背景	29	30	30	30	30	30
每分钟保存1张背景	624	766	643	848	1641	944
							每小时保存1张背景	943	1304	989	1562	14508	1925
每天保存1张背景	948	1317	998	1586	16361	1953

本发明视频浓缩方法对多副本对象下相比MP4压缩方法在不同时段提升倍数的对数图表(背景每小时存储1张)如图5所示。其说明如下：

按照每1秒、每5秒、每10秒、每15秒、每30秒、每45秒、每60秒的时间周期分别对移动对象进行存储，即增加移动对象存储的副本数，其增加副本后的存储大小相对单副本移动对象大小倍数如表5所示。

表5增加副本后的存储大小相对单副本移动对象大小倍数

对于存储多个副本对象来说，即使在交通流量比较高的早峰和晚峰时段，如表6所示，使用本发明的视频浓缩方法，在每小时保存1张背景，每1秒存储1个对象副本情形下，本发明视频浓缩方法相比MP4视频压缩方法其提升倍数仍达到五百多倍；而在夜间交通车流量相对较低情形下，其提升倍数仍可接近万倍；整体来看存储一天的视频，即使在多副本对象情形下，相比MP4视频压缩，本发明视频浓缩后的提升倍数仍超过了千倍。

表6不同时间段存储副本对象数量

更进一步的，使用本发明的视频浓缩方法，不仅压缩率比传统的视频压缩方法高很多，而且也极大降低了视频传输带宽，使得同样带宽环境下，采用本发明其传输的信息量可以提高百倍甚至千倍，如图5和表格6所示；同时由于经过萃取、精炼后所需的数据量减小，视频分析占用的计算力也就减少，对内存的占用也就更少，因此也极大提升了实时计算的并发能力。

在对监控视频中的移动对象查询时，比如以人为例，首先是建立多种特征索引库，并对每种特征进行索引优化和相互关联；其建立索引和查询方式包括：

C1、基于特征属性的索引和查询，包括面部特征、颜色特征、性别特征、是否骑/开车等等，从而建立人脸库、色彩库、性别库、自行车/机动车库等；这部分可对应到视频浓缩和萃取阶段的内容；

C2、基于文字描述的索引和查询，比如在对“红衣服”的查询结果中，如果确定了某个穿红衣服的人的身份信息，可将这个人的身份信息通过语义和文字描述(包括文字、数字、特征等)的方式，放入搜索引擎中如(Elasticsearch(ES))，从而可通过自然语言的方式查找出来；这部分可对应到视频萃取、精炼阶段的内容；

C3、基于各种关系的索引和查询，比如查找某人的人物关系，可根据这个人的单个特征或者复合特征，到各类索引特征库中进行搜索和关联查询，从而得到与该人相关联的人物关系，这部分可对应到视频升华阶段的内容。

基于本发明的方法、系统和装置，不仅可以极大突破现有视频浓缩技术在视频表达方式，存储方式、存储时长及实时性处理上的界限和思路模式，而且可以实现对视频在不同层级、不同时段进行浓缩、萃取、精炼、升华和还原的处理方式创新，使得其浓缩比和存储时长可超过现有技术的百倍甚至千倍以上，从而实现超高性价比的超大规模视频长久甚至永久存储；同时在对视频内容的理解、移动对象跟踪和检索等方面，在时效性、准确性、多模性和全面性等方面都有极大程度的提升；同时使用本发明创新的MPZ视频存储格式文件，不仅压缩率比现有的视频压缩方法提高很多，而且更重要的是可以直接读取每个视频和每个对象在文件中的存放位置和地址，并根据这个地址直接将移动对象自身及其物理属性和移动轨迹提取出来，极大节省移动对象在视频文件中的检索时间并减少所使用的计算资源；同时本发明运用基于人工智能深度学习的高压缩比的浓缩,萃取，精炼，升华和还原技术，同时解决了视频结构化，语义化，智慧化，情报化，社交化，和可复用化问题。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于5G边云计算的视频浓缩萃取精炼升华的方法，基于的多层级云架构至少包括四层级云结构，所述四层级云结构从下至上依次为：边缘微云端、基站小云、中云、总云，各层级云结构之间通过网络进行通信；其特征在于，所述方法包括以下步骤：

S1、在边缘微云端，一次性对现有摄像头数据进行背景探测、识别、标注和抽取处理，然后将得到的背景图像添加场景标签；所述背景图像的内容包括暂时处于静止的物体与背景环境对象；

S2、在边缘微云端，对监控视频中的移动对象、暂时处于静止的物体以及背景环境对象进行实时探测、识别、标注和提取，然后对背景图像根据场景标签配置对应的频率参数进行存储；步骤S2所述配置对应的频率参数进行存储，具体为：在前景没有变化的时段，配置每M小时保存一张背景图像，前景移动对象每N秒保存一个副本，所述M大于或等于1，所述N大于或等于1且小于或等于60；

S3、在边缘微云端，对移动对象的物理属性和社会行为属性进行实时萃取；

S4、在边缘微云端，对视频中存在的异常行为进行实时精炼，精炼结果包括通常异常行为和违规异常行为；

S5、总云数据中心根据移动对象的物理属性和社会行为属性以及步骤S4的精炼结果，得到移动对象的运动轨迹。

2.根据权利要求1所述的一种基于5G边云计算的视频浓缩萃取精炼升华的方法，其特征在于，步骤S1所述场景标签，具体包括时间段、天气、移动对象的运动速度。

3.根据权利要求2所述的一种基于5G边云计算的视频浓缩萃取精炼升华的方法，其特征在于，还包括背景图像的更新：根据设定时间间隔，将当前存储的背景图像与最新拍摄的视频图像背景进行对比，若背景图像发生变化，则记录发生变化的具体时间，并用新的背景图像对旧的背景图像进行更新，同时对旧的背景图像进行记录和保存。

4.根据权利要求1所述的一种基于5G边云计算的视频浓缩萃取精炼升华的方法，其特征在于，步骤S4还包括：对不同移动对象进行关联，具体为：对不同摄像头所拍摄到的同一移动对象按照时间顺序进行关联，不同移动对象之间根据移动对象的物理属性和社会行为属性进行关联。

5.根据权利要求1所述的一种基于5G边云计算的视频浓缩萃取精炼升华的方法，其特征在于，还包括视频还原：所述视频还原包括二维动态图像的视频还原与三维场景下的视频还原，所述二维动态图像的视频还原，具体为：根据浓缩后的视频图像和数据还原成视频；所述三维场景下的视频还原，具体为：根据浓缩后的视频图像和数据并融合GIS地理信息系统，对移动对象在三维空间中移动坐标和运动轨迹的视频还原。

6.根据权利要求1所述的一种基于5G边云计算的视频浓缩萃取精炼升华的方法，其特征在于，步骤S2所述存储采用以时间和移动对象在空间中的运动轨迹的存储格式。

7.一种基于5G边云计算的视频浓缩萃取精炼升华的系统，基于的多层级云架构至少包括四层级云结构，所述四层级云结构从下至上依次为：边缘微云端、基站小云、中云、总云，各层级云结构之间通过网络进行通信；其特征在于，在边缘微云端布置有：背景提取模块、视频浓缩模块、视频萃取模块、视频精炼模块，在总云布置有视频升华模块；

所述视频浓缩模块的输入为现有摄像头数据与添加场景标签的背景图像，输出为以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据；所述存储具体为：在前景没有变化的时段，配置每M小时保存一张背景图像，前景移动对象每N秒保存一个副本，所述M大于或等于1，所述N大于或等于1且小于或等于60；

8.根据权利要求7所述的一种基于5G边云计算的视频浓缩萃取精炼升华的系统，其特征在于，还包括在总云布置还原模块，输入为根据以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据、移动对象的物理属性和社会行为属性、移动对象的异常行为以及移动对象的运动轨迹，输出为二维动态图像的视频。

9.根据权利要求8所述的一种基于5G边云计算的视频浓缩萃取精炼升华的系统，其特征在于，当所述还原模块的输入为根据以时间和移动对象在空间中的运动轨迹的格式进行存储的视频数据、移动对象的物理属性和社会行为属性、移动对象的异常行为、移动对象的跟踪轨迹以及GIS地理信息，输出为三维动态图像的视频。