CN113111822A - 用于拥堵识别的视频处理方法、装置与电子设备 - Google Patents
用于拥堵识别的视频处理方法、装置与电子设备 Download PDFInfo
- Publication number
- CN113111822A CN113111822A CN202110435032.4A CN202110435032A CN113111822A CN 113111822 A CN113111822 A CN 113111822A CN 202110435032 A CN202110435032 A CN 202110435032A CN 113111822 A CN113111822 A CN 113111822A
- Authority
- CN
- China
- Prior art keywords
- time
- space
- predicted
- vector
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 432
- 239000011159 matrix material Substances 0.000 claims abstract description 192
- 230000002123 temporal effect Effects 0.000 claims abstract description 100
- 230000004927 fusion Effects 0.000 claims description 160
- 238000000605 extraction Methods 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 47
- 230000003993 interaction Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 34
- 238000013528 artificial neural network Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开提供一种用于拥堵识别的视频处理方法、装置以及电子设备和计算机可读存储介质,包括:获取待预测位置在待预测时间段内的待预测视频;提取待预测视频的目标多尺度时间特征和目标多尺度空间特征;融合目标多尺度时间特征信息和目标多尺度空间特征信息获得初阶时空编码特征;对初阶时空编码特征编码,获得空间特征矩阵和时间特征矩阵;对空间特征矩阵和时间特征矩阵进行交互,获得待预测视频的进阶时空编码特征;获取对象查询向量;利用对象查询向量解码进阶时空编码特征;根据解码结果确定至少一个待识别对象在待预测视频中的位置信息;根据至少一个待识别对象在待预测视频中的位置信息,确定待预测位置在待预测时间段的拥堵状态。
Description
技术领域
本公开涉及视频处理技术领域,尤其涉及一种拥堵识别的视频处理及装置、电子设备和计算机可读存储介质。
背景技术
随着我国经济的高速发展和生活水平的不断提高,汽车不断涌入有限的城市交通网络,给城市交通路网带来了巨大的压力,严重影响了人们的出行生活。如果能对道路交通的运行情况进行准确判断,则可以对道路交通进行有效疏导和管理。
因此,一种可以对道路拥堵状态进行精确判别的拥堵状态识别方法对交通指挥、规划来说十分重要。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种用于拥堵识别的视频处理方法、装置与电子设备,能够通过待预测视频准确地确定待预测位置在待预测时间段内的拥堵状态。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种用于拥堵识别的视频处理方法,包括:获取待预测位置在待预测时间段内的待预测视频;分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征;获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息;根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
本公开实施例提供了一种用于拥堵识别的视频处理装置,包括:待预测视频获取模块、目标多尺度空间特征信息确定模块、初阶时空编码特征获取模块、进阶编码模块、进阶时空编码特征获取模块、对象查询向量确定模块、目标解码结果获取模块、位置信息识别模块以及拥堵状态确定模块。
其中,所述待预测视频获取模块可以配置为获取待预测位置在待预测时间段内的待预测视频;所述目标多尺度空间特征信息确定模块可以配置为分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;所述初阶时空编码特征获取模块可以配置为融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;所述进阶编码模块可以配置为对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;所述进阶时空编码特征获取模块可以配置为对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征;所述对象查询向量确定模块可以配置为获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;所述目标解码结果获取模块可以配置为利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;所述位置信息识别模块可以配置为根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息;所述拥堵状态确定模块可以配置为根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,所述目标多尺度空间特征信息确定模块包括:第一时间支路提取第一子模块和第一空间支路提取第一子模块。
其中,所述第一时间支路提取第一子模块可以配置为利用第一时间支路提取所述待预测视频的所述目标多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;所述第一空间支路提取第一子模块可以配置为利用第一空间支路提取所述待预测视频的所述目标多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构。
在一些实施例中,所述目标多尺度空间特征信息确定模块包括:第一时间支路提取第二子模块、第一空间支路提取第二子模块、多尺度信息融合子模块、第二时间支路提取子模块、第二空间支路提取子模块。
其中,所述第一时间支路提取第二子模块可以配置为利用第一时间支路提取所述待预测视频的初始多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;所述第一空间支路提取第二子模块可以配置为利用第一空间支路提取所述待预测视频的初始多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构;所述多尺度信息融合子模块可以配置为融合所述初始多尺度时间特征信息和所述初始多尺度空间特征信息,获得初始时空融合特征;所述第二时间支路提取子模块可以配置为利用第二时间支路处理所述初始时空融合特征以获得所述目标多尺度时间特征信息,所述第二时间支路包括少两个并列分布的时间信息提取卷积结构;所述第二空间支路提取子模块可以配置为利用第二空间支路处理所述初始时空融合特征以获得所述目标多尺度空间特征信息,所述第二时间支路包括少两个并列分布的空间信息提取卷积结构。
在一些实施例中,所述进阶编码模块包括:参数矩阵获取子模块、目标时间特征查询矩阵获取子模块、目标空间特征查询矩阵获取子模块、目标时间特征键矩阵获取子模块以及目标空间特征键矩阵获取子模块。
其中,所述参数矩阵获取子模块可以配置为获取训练完成的时间参数查询矩阵、空间参数查询矩阵、时间参数键矩阵和空间参数键矩阵;所述目标时间特征查询矩阵获取子模块可以配置为通过所述时间参数查询矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征查询矩阵;所述目标空间特征查询矩阵获取子模块可以配置为通过所述空间参数查询矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征查询矩阵;所述目标时间特征键矩阵获取子模块可以配置为通过所述时间参数键矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征键矩阵,以便根据所述目标时间特征查询矩阵和所述目标时间特征键矩阵确定所述时间特征矩阵;所述目标空间特征键矩阵获取子模块可以配置为通过所述空间参数键矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征键矩阵,以便根据所述目标空间特征查询矩阵和所述目标空间特征键矩阵确定所述空间特征矩阵。
在一些实施例中,所述初阶时空编码特征包括第一初阶时空融合向量、第二初阶时空融合向量和第三初阶时空融合向量,对所述第一初阶时空融合向量进行时间和空间编码后获得第一空间特征向量和第二空间特征向量,对所述第二初阶时空融合向量进行时间和空间编码后获得第二时间特征向量和第二空间特征向量,对所述第三初阶时空融合向量进行时间和空间编码后获得第三时间特征向量和第三空间特征向量,所述进阶时空编码特征包括第一进阶时空融合向量,所述第一初阶时空融合向量与所述第一进阶时空融合向量对应;其中,所述进阶时空编码特征获取模块包括:第一中间融合特征向量确定子模块、第二中间融合特征向量确定子模块以及第一进阶时空融合向量确定子模块。
其中,所述第一中间融合特征向量确定子模块可以配置为将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第二初阶时空融合向量的第二时间特征向量、第二空间特征向量进行交互,获得第一中间融合特征向量;所述第二中间融合特征向量确定子模块可以配置为将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第三初阶时空融合向量的第三时间特征向量、第三空间特征向量进行交互,获得第二中间融合特征向量;所述第一进阶时空融合向量确定子模块可以配置为将所述第一中间融合特征向量和所述第二中间融合特征向量进行融合,以获得与所述第一初阶时空融合向量对应的所述第一进阶时空融合向量。
在一些实施例中,第一初阶时空融合向量的第一空间特征向量包括第一空间查询向量和第一空间键向量,所述第一初阶时空融合向量的第一时间特征向量包括第一时间查询向量和第一时间键向量,所述第二初阶时空融合向量的第二空间特征向量包括第二空间查询向量和第二空间键向量,所述第二初阶时空融合向量的第二时间特征向量包括第二时间查询向量和第二时间键向量;其中,所述第一中间融合特征向量确定子模块包括:第一融合特征向量确定单元、第二融合特征向量确定单元以及第一中间融合特征向量确定单元。
其中,所述第一融合特征向量确定单元可以配置为将所述第一空间查询向量与所述第二空间键向量进行信息交互,以获得第一融合特征向量;所述第二融合特征向量确定单元可以配置为将所述第一时间查询向量与所述第二时间键向量进行信息交互,以获得第二融合特征向量;所述第一中间融合特征向量确定单元可以配置为根据所述第一融合特征向量和所述第二融合特征向量确定所述第一中间融合特征向量。
在一些实施例中,所述第一中间融合特征向量确定子模块还包括:第三融合特征向量确定单元、第四融合特征向量确定单元以及多维融合单元。
其中,所述第三融合特征向量确定单元可以配置为将所述第一空间查询向量与所述第二时间键向量进行信息交互,以获得第三融合特征向量;所述第四融合特征向量确定单元可以配置为将所述第一时间查询向量与所述第二空间键向量进行信息交互,以获得第四融合特征向量;所述多维融合单元可以配置为根据所述第一融合特征向量、所述第二融合特征向量、所述第三融合特征向量以及所述第四融合特征向量确定所述第一中间融合特征向量。
在一些实施例中,所述第一融合特征向量确定单元包括:权重矩阵获取子单元、权重编码处理子单元、加权处理子单元。
其中,所述权重矩阵获取子单元可以配置为获取训练完成的权重矩阵;所述权重编码处理子单元可以配置为通过所述权重矩阵对所述初阶时空编码特征进行权重编码处理,获得目标权重矩阵,所述目标权重矩阵包括第二权重向量,所述第二权重向量与所述第二初阶时空融合向量对应;所述加权处理子单元可以配置为通过所述第二权重向量对述第一空间查询向量与所述第二空间键向量进行信息交互后获得的特征向量进行加权处理,以获得所述第一融合特征向量。
在一些实施例中,所述拥堵状态确定模块包括:像素信息确定子模块、位置信息确定子模块、移动像素距离确定子模块以及拥堵状态确定子模块。
其中,所述像素信息确定子模块可以配置为获取所述待预测视频中的帧图像的长、宽像素信息;所述位置信息确定子模块可以配置为根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定在所述待预测视频中出现的目标对象以及所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息;所述移动像素距离确定子模块可以配置为根据所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在所述待预测视频中的移动像素距离;所述拥堵状态确定子模块可以配置为根据所述待预测视频中的帧图像的长、宽像素信息、各个目标对象在所述待预测视频中的移动像素距离确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,所述待预测视频包括M帧图像,M为大于或者等于2的整数,所述目标对象在所述待预测视频中的位置信息包括所述目标对象在所述M帧图像中的位置信息;其中,所述移动像素距离确定子模块包括:帧图像确定单元和移动距离确定单元。
其中,所述帧图像确定单元可以配置为根据所述目标对象在所述M帧图像中的位置信息确定各个待识别对象首次出现时对应的第一帧图像和末次出现时对应的第二帧图像;所述移动距离确定单元可以配置为根据所述目标对象在所述第一帧图像中的位置信息和所述目标对象在所述第二帧图像中的位置信息,确定各个待识别对象在所述待预测视频中的移动距离。
本公开实施例提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项所述的用于拥堵识别的视频处理方法。
本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一项所述的用于拥堵识别的视频处理方法。
本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述用于拥堵识别的视频处理方法。
本公开实施例提供的用于拥堵识别的视频处理方法、装置及电子设备和计算机可读存储介质,通过提取待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息获得了初阶时空编码特征,然后再将初阶时空编码特征中的时间编码特征和空间编码特征进行信息交互,以获得进阶时空编码特征,最后根据该进阶时空编码特征准确地确定了待预测位置在待预测时间段内的拥堵状况。本公开提供的方法,一方面在对待预测位置进行拥堵状态判断时,不仅考虑了空间信息(即一帧图像中所包含的空间信息),还考虑了该待预测位置处在时间上的变化,在对待预测位置进行拥堵状态判断时,更好的关联了时空整体信息,以更好地进行拥堵判断,提高了拥堵状态识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了应用于本公开实施例的用于拥堵识别的视频处理方法或用于拥堵识别的视频处理装置的示例性系统架构的示意图。
图2示出了适于用来实现本公开实施例的电子设备的结构示意图。
图3是本公开示例性实施例中用于拥堵识别的视频处理方法的流程图。
图4是图3中步骤S2在一示例性实施例中的流程图。
图4a是根据一示例性实施例示出的一种目标神经网络的网络结构图。
图5是根据一示例性实施例示出的一种初阶时空编码单元的示意图。
图6是根据一示例性实施例示出的另一种初阶时空编码单元的示意图。
图7是图3中步骤S4在一示例性实施例中的流程图。
图8是图3中步骤S5在一示例性实施例中的流程图。
图9是图8中步骤S9在一示例性实施例中的流程图。
图10是图3中步骤S9在一示例性实施例中的流程图。
图11是根据一示例性实施例示出的一种用于拥堵识别的视频处理方法的流程图。
图12是根据一示例性实施例示出的一种用于拥堵识别的视频处理装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的用于拥堵识别的视频处理方法或用于拥堵识别的视频处理装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
服务器105可例如获取待预测位置在待预测时间段内的待预测视频;服务器105可例如分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;器105可例如融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;服务器105可例如对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;服务器105可例如对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征;服务器105可例如获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;服务器105可例如利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;服务器105可例如根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息;服务器105可例如根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
图2示出了适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。需要说明的是,图2示出的电子设备200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,电子设备200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有电子设备200操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块和/或子模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或子模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或子模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或子模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取待预测位置在待预测时间段内的待预测视频;分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征;获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息;根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
图3是根据一示例性实施例示出的一种用于拥堵识别的视频处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
参照图3,本公开实施例提供的用于拥堵识别的视频处理方法可以包括以下步骤。
步骤S1,获取待预测位置在待预测时间段内的待预测视频。
待预测位置可以指的是任意需要进行拥堵状态检测的位置,例如需要进行拥堵检测的路段、路口等,本公开对此不做限制。
待预测视频可以指的是通过某个视频采集装置对该待预测位置进行视频采集后获得的视频。例如,可以是通过摄像头针对某道路或某出入口处在某一段时间内连续拍摄的多张图像(例如32帧)组成的视频,这32帧可以涵盖了例如总计3秒的时间。
步骤S2,分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息。
其中,目标多尺度时间特征信息可以指的是通过不同尺度大小的时间卷积核从待预测视频中提取出来的时间特征,目标多尺度空间特征信息可以指的是通过不同尺度大小的空间卷积核从待预测视频中提取出来的空间特征信息。
其中,时间卷积核指的是可以对待预测视频的时间信息进行时间特征提取的卷积核;空间卷积核指的是可以对待预测视频的时间信息进行空间特征提取的卷积核。
步骤S3,融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征。
在一些实施例中,可以将待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息进行特征融合,以获得待预测视频的初阶时空编码特征。
步骤S4,对所述初阶时空编码特征进行时间特征和空间特征的进阶融合处理,以获得所述待预测视频的进阶时空编码特征。
其中,对所述初阶时空编码特征进行时间特征和空间特征的进阶融合处理,以获得所述待预测视频的进阶时空编码特征,可以包括:对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征。
在一些实施例中,可以通过一些预设参数实现对初阶时空编码特征的时间编码和空间编码,例如可以通过训练完成的目标神经网络中的时间编码参数和空间编码参数实现对初阶时空编码特征的时间编码和空间编码,本公开对此不做限制。
在一些实施例中,在完成对初阶时空编码特征的时间编码和空间编码,获得初阶时空编码特制的空间特征矩阵和时间特征矩阵后,可以对该空间特征矩阵和时间特征矩阵进行信息交互,获得进阶时空编码特征,以使得待预测视频的时间信息和空间信息融合的更充分。
步骤S5,对所述进阶时空编码特征进行解码处理,以确定至少一个待识别对象在所述待预测视频中的位置信息。
在一些实施例中,对所述进阶时空编码特征进行解码处理,以确定至少一个待识别对象在所述待预测视频中的位置信息可以包括:获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息。
在一些实施例中,对象查询向量可以是训练完成的目标神经网络中的一个训练完成的参数向量,该对象查询向量可以用来辅助查询N(例如100)个待识别对象在待预测视频中的位置信息。
例如,可以在目标神经网络中构造出32xm个关于车辆的查询向量qm,m可以根据场景设定,比如设m=100,含义是我们要查询到100辆车在这32帧图片中的流动信息。
目标神经网络训练过程中,可以首先初始化该对象查询向量,然后根据一次次训练结果,修正该对象查询向量中的值,以最后获得训练完成的对象查询向量。
需要注意的是,该至少一个待识别对象并不特指某个已知对象,而是一种拟制对象。若该待识别对象在目标解码结果中存在对应的位置信息,则确定该待识别对象存在于待预测视频中;若该待识别对象在目标解码结果中不存在对应的位置信息,则确定该待识别对象不存在于该待预测视频中。
其中,待识别对象可以指的是可以在待预测位置处移动的移动对象,例如是车辆、人、动物、机器人等,本公开对此不做限制。
另外,待识别对象在待预测视频中的位置信息可以指的是该待识别对象在待预测视频每一帧中的位置信息,也可以是待识别对象在待预测视频中首次出现和最后出现时对应的位置信息。
需要理解的是,如果待识别对象从始至终都存在于待预测视频中,那么该待识别对象首次出现在待预测视频的位置可以是待识别对象在该待预测视频的第一帧图像中的位置;该待识别对象最后出现在待预测视频的位置可以是待识别对象在该待预测视频的最后一帧图像中的位置。其他情况,与此可以进行类比,本公开不在赘述。
在一些实施例中,可以将对象查询向量与进阶时空编码特征进行全连接解码,以获得目标解码结果。
在一些实施例中,上述步骤S2~S8可以通过一个训练完成的目标神经网络实现。其中,对象查询向量等可以是目标神经网络中训练后获得的参数向量。
在一些实施例中,可以通过标注有训练对象位置信息的训练视频对目标神经网络进行训练,在该训练视频中不仅要包括训练位置的时空信息,还要将训练对象(例如车辆)的具体位置在训练视频中进行标识。
需要注意的是,在训练目标神经网络之前,可以在训练视频的每一帧图像中均针对训练对象进行标识,也可以只在训练对象首次出现和末次出现的帧图像中标识该训练对象的位置信息。
在一些实施例中,如果采用每一帧图像中均标识有训练对象位置的训练视频对目标神经网络进行训练,那么目标解码结果可以用来指示各个待识别对象在待预测视频的每一帧图像中的位置信息;如果采用只在训练对象首次出现和末次出现的位置处进行训练对象位置标识的训练视频对目标神经网络进行训练,那么目标解码结果可以用来指示各个待识别对象在待预测视频中首次出现和最后出现时的位置信息,本公开对此不做限制。
即,若训练视频对应的标签用来指示各个训练对象在训练视频中每一帧的位置信息,那么目标解码结果可以用来指示各个待识别对象在待预测视频的每一帧中的位置信息;若训练视频对应的标签用来指示各个对象在训练视频中首次出现和末次出现时的位置信息,那么目标解码结果可以用来指示各个待识别对象在待预测视频中首次出现和最后出现时的位置信息。
在标识训练对象的位置信息时,可以选择任意有标识性位置的点进行标识,例如用包括待标识对象的矩形框的中心点作为该预测对象的位置进行标识;再例如可以利用包括待标识对象的矩形框的多个顶点来标识该预测对象的位置。
在本实施例中,可以利用包括待标识对象的矩形框的左上和右下两个顶点来标识该预测对象的位置,但本公开并不限于此。
在一些实施例中,在目标神经网络的训练过程中,若训练视频对应的标签用来指示各个训练对象在训练视频中每一帧的位置信息,且利用包括待标识对象的矩形框的左上和右下两个顶点来标识该预测对象的位置,那么目标解码结果可以为(m,t,L)形式的矩阵,其中m代表待预测对象的标号(例如第一辆车、第二辆车等),t代表时间,与t时间对应的帧图像对应(例如若t=1,其与第一帧图像对应),L代表位置信息,若m(例如m=1)车辆存在于t(例如t=2)时间对应的帧图像中的话,则在目标解码结果中会(1,2,m)中则会存在该m车辆的位置信息(即代表了该m车辆在t时刻对应的帧图像的位置信息)。
在一些实施例中,在目标神经网络训练过程中若训练视频对应的标签用来指示各个对象在训练视频中首次出现和末次出现时的位置信息,且利用包括待标识对象的矩形框的左上和右下两个顶点来标识该预测对象的位置,那么目标解码结果可以为(m,L)形式的矩阵,其中m代表待预测对象的标号(例如第一辆车、第二辆车等),L代表待预测对象的位置信息(例如可以包括该待预测对象在首次出现所在帧中的位置信息和该待预测对象在末次出现在所在帧中的位置信息)。
步骤S6,根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,可以根据各个待识别对象在待预测视频中的位置信息判断待预测位置的拥堵状态。
例如,可以统计在待预测视频中出现了多少个待预测对象,然后根据待预测视频中出现的待预测对象数量对待预测位置的拥堵状态进行判断;再例如,如果根据目标解码结果确定了各个待识别对象在待预测视频中首次出现和末次出现的位置信息和时间信息,那么就可以确定各个待识别对象在待预测视频中移动的距离和移动时间,进而获得各个待识别对象的移动速度,再进而判断该待预测位置的拥堵状态。
其中,待识别对象在待预测视频中的移动距离可以是像素距离,也可以转换为实际距离,本公开对此不做限制。
本公开实施例提供的技术方案,通过待预测视频的时间信息和空间信息的深度融合,将待预测视频的整体信息关联起来以对待预测位置的拥堵状态进行判断,使得待预测位置的拥堵状态判断结果不仅考虑了待预测视频中单帧图像的局部信息(即单帧图像的空间信息),还考虑了待预测视频中多帧图像的关联信息(即通过图像的时序信息将待预测视频中的整天关联信息关联起来)。本实施例提供的技术方案,通过对待预测视频进行时空结合分析,通过对编码进行查询和解码,直接获得待预测时间段待识别对象的位置信息,进而可以确定各个待识别对象在待预测视频中的流动信息,进而对待预测视频中待预测位置的拥堵状态进行了准确判断。本实施例提供的技术方案,不仅关注单帧图片的整体信息,还关注前后帧的关联信息,不仅获取了待预测视频中的存在的移动对象数目,还获取该移动对象的位置流动,从而完成了对拥堵状态的识别。
图4是根据一示例性实施例示出的一种多尺度特征信息提取方法的流程图。
在一些实施例中,本实施例提供的用于拥堵识别的视频处理方法可以通过一个训练完成的目标神经网络完成。
在一些实施例中,输入目标神经网络的待预测视频可以是(c,t,h,w)。c表示通道数,t表示时间,h表示特征图高度,w表示特征图宽度。比如,我们可以认为c=3,t=32,h=112,w=112,即待预测视频可以是一个包括32帧图像,每个图像为包括三个颜色通道,每帧图像的高和宽分布为112、112的视频。
如图4a所示,训练完成的目标神经网络可以包括初阶时空编码结构1,该初阶时空编码结构1可以由至少一个初阶时空编码模块组成。例如,该初阶时空编码结构可以包括4个初阶时空编码模块,该4个初阶时空编码模块可例如图4a所示的11、12、13、14。
其中,各个初阶时空编码模块可以包括至少一个初阶时空编码单元MSTS。
例如,上述4个初阶时空编码模块中的第一个初阶时空编码模块可以包括3个初阶时空编码单元,第二个初阶时空编码模块可以包括5个初阶时空编码单元,第三个初阶时空编码模块可以包括9个初阶时空编码单元,第四个初阶时空编码模块可以包括3个初阶时空编码单元。
其中,每个初阶时空编码单元MSTS可以包括一个时间支路T和一个空间支路S。
如图5所示,该时间支路T可以包括至少两个并列分布的时间信息提取卷积结构,该空间支路可以包括两个并列分布的空间信息提取卷积结构。
如图5所示,该时间支路T可以包括四个并列的时间提取卷积结构,其中三个时间提取卷积结构的卷积核可以设置为1x3x3,1x5x5,第四个时间卷积结构可以包括3个串联的1x3x3卷积核。
其中,该时间提取卷积结构T可以完成对待预测视频(c,t,h,w)的空间信息(h,w)的提取,即对h和w两个维度做卷积计算。
如图5所示,该空间支路S可以包括四个并列的空间提取卷积结构。其中三个个空间提取卷积结构的卷积核可以设置为3x1x1,5x1x1,7x1x1,,第四个时间卷积结构可以包括3个串联的3x1x1卷积核(指在第4个支路使用三个3x1x1的卷积计算)。
其中,该时间提取卷积结构T可以完成对待预测视频(c,t,h,w)空间信息(t)的提取,即对t这个维度做卷积计算。
在一些实施例中,若目标神经网络中的初阶时空编码模块只包括一个初阶时空编码单元,并且初阶时空编码单元包括第一时间支路和第一空间支路,那么可以利用该第一时间支路从待预测视频中直接提取目标多尺度时间特征信息,该第一时间支路包括至少两个并列分布的时间信息提取卷积结构;利用第一空间支路提取从待预测视频中直接提取目标多尺度空间特征信息,该第一空间支路包括至少两个并列分布的空间信息提取卷积结构。
在一些实施例中,若目标神经网络中的初阶时空编码模块包括两个初阶时空编码单元,即第一初阶时空编码单元和第二初阶时空编码单元,且第一初阶时空编码单元包括第一时间支路和第一空间支路,第二初阶时空编码单元包括第二时间支路和第二空间支路,那么可以通过如图4所示方法,完成对待预测视频的目标多尺度时间特征信息和目标多尺度看空间特征信息的提取。
参考图4,上述一种多尺度特征信息提取方法可以包括以下步骤。
在步骤S41中,利用第一时间支路提取所述待预测视频的初始多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构。
在步骤S42中,利用第一空间支路提取所述待预测视频的初始多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构。
在步骤S43中,融合所述初始多尺度时间特征信息和所述初始多尺度空间特征信息,获得初始时空融合特征。
在步骤S44中,利用第二时间支路处理所述初始时空融合特征以获得所述目标多尺度时间特征信息,所述第二时间支路包括少两个并列分布的时间信息提取卷积结构。
在步骤S45中,利用第二空间支路处理所述初始时空融合特征以获得所述目标多尺度空间特征信息,所述第二时间支路包括少两个并列分布的空间信息提取卷积结构。
如图5所示,该目标神经网络中的初阶时空编码单元MSTS还可以包括相加模块,以便时间支路T和空间支路S分别将自己的4路计算结果做堆叠(4路计算结果是4张特征图,堆叠是沿着通道的维度进行堆叠),分别经过1x1x1的卷积后,T和S进行相加。正是基于多支路多卷积核设计与汇总设计,这个模块可以非常有效地对视频流进行空间和时间上的多尺度编码,并进行时空上的信息交互。
其中,沿着通道维度进行堆叠可以通过下述例子进行解释。假设,时间支路T的4路计算结果均为(c,t,h,w),可以假定数字为(16,32,56,56),沿着c这个维度堆叠,结果是(64,32,56,56),后续再做1x1x1的卷积计算,即可以完成对T支路4路计算结构的融合。
在另外一些实施例中,如图6所示,目标神经网络中的初阶时空编码单元MSTS中可以包括压缩模块,以便对时间支路和空间支路的输出结果进行压缩(下采样)。如压缩模块的输入是(3,32,112,112),压缩完(3,32,56,56)。
本实施例提供的技术方案,通过目标神经网络的时间支路和空间支路从待预测视频中分布提取出了目标多尺度时间信息和目标多尺度空间信息,然后基于待预测视频的目标多尺度时间信息和目标多尺度空间对待预测位置的拥堵状态进行判决,联合待预测视频的多尺度时间信息和多尺度空间信息,提高了拥堵状态的识别精度。
图7是根据一示例性实施例示出的一种空间特征矩阵和时间特征矩阵确定方法的流程图。在一些实施中,可以通过图7所示方法完成对初阶时空编码特征F1(c,t,h,w)的时间编码和空间编码。
为了编码方便,在实施图7所示方法之前,可以对初阶时空编码特征F1(c,t,h,w)进行一定的维度转换,例如将F1的t、h和w三个维度变换为一个维度n=txhxw,即可以将F1转换为F2(n,c)。F2可以视作维度转换后的初阶时空编码特征。
参考图7,上述一种空间特征矩阵和时间特征矩阵确定方法可以包括以下步骤。
在步骤S71中,获取训练完成的时间参数查询矩阵、空间参数查询矩阵、时间参数键矩阵和空间参数键矩阵。
在一些实施例中,可以从训练完成的目标神经网络中获取时间参数查询矩阵Wqt、空间参数查询矩阵Wqs、时间参数键矩阵Wkt和空间参数键矩阵Wks和权重参数矩阵Wv。
在步骤S72中,通过所述时间参数查询矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征查询矩阵。
在一些实施例中,可以将时间参数查询矩阵Wqt与F2(n,c)做矩阵乘法,以获得目标时间特征查询矩阵Qt(n,c)。
在步骤S73中,通过所述空间参数查询矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征查询矩阵。
在一些实施例中,可以空间参数查询矩阵Wqs与F2(n,c)做矩阵乘法,以获得目标时间特征查询矩阵Qs(n,c)。
在步骤S74中,通过所述时间参数键矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征键矩阵,以便根据所述目标时间特征查询矩阵和所述目标时间特征键矩阵确定所述时间特征矩阵。
在一些实施例中,可以将时间参数键矩阵Wkt与F2(n,c)做矩阵乘法,以获得目标时间特征查询矩阵Kt(n,c)。
在步骤S75中,通过所述空间参数键矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征键矩阵,以便根据所述目标空间特征查询矩阵和所述目标空间特征键矩阵确定所述空间特征矩阵。
在一些实施例中,可以将空间参数键矩阵Wks与F2(n,c)做矩阵乘法,以获得目标时间特征查询矩阵Ks(n,c)。
在一些实施例中,可以将权重参数矩阵Wv与F2(n,c)做矩阵乘法,以获得目标权重矩阵V(n,c)。
本实施例提供的技术方案,通过时间参数查询矩阵、空间参数查询矩阵、时间参数键矩阵和空间参数键矩阵实现了对初阶时空编码特征的时空编码。
图8是根据一示例性实施例示出的一种第一进阶时空融合向量确定方法的流程图。
为了将待预测视频的空间特征矩阵和时间特征矩阵进行充分交互,可以将上述目标时间特征查询矩阵Qt、目标时间特征查询矩阵Qs、目标时间特征查询矩阵Kt以及目标时间特征查询矩阵Ks进行全连接处理。
例如,可以通过σ(QTK)V将目标时间特征查询矩阵Qt与目标时间特征查询矩阵Qs进行全连接交互,或者通过σ(QTK)V将目标时间特征查询矩阵Kt和目标时间特征查询矩阵Ks进行进行全连接交互,还可以将上述四个矩阵进行其他形式的全连接交互,本公开对此不做限制。其中QTK表示Q和K做矩阵乘法(例如将Qt与Qs进行矩阵乘法,或者将Kt和进行Ks矩阵乘法),得到结果维度可以是(n,n),σ表示进行softmax计算。这是一种概率计算方式。最后再和V做矩阵乘法,维度变为(n,c)。V是一种目标神经网络中训练处理的权重矩阵。
图8所示实施例提供了一种待预测视频的空间特征矩阵和时间特征矩阵进行充分交互的全连接方法。
在一些实施例中,初阶时空编码特征可以包括第一初阶时空融合向量、第二初阶时空融合向量和第三初阶时空融合向量。
可以理解的是,本实施例仅以三个时空融合向量为例进行说明,当该初阶时空编码特征包括更多的时空融合向量时,可以参考本实施例提供的方案进行处理。
在一些实施例中,当对第一初阶时空融合向量进行时间和空间编码后可以获得第一空间特征向量和第二空间特征向量,对第二初阶时空融合向量进行时间和空间编码后可以获得第二时间特征向量和第二空间特征向量,对第三初阶时空融合向量进行时间和空间编码后可以获得第三时间特征向量和第三空间特征向量,进阶时空编码特征可以包括第一进阶时空融合向量,第一初阶时空融合向量与第一进阶时空融合向量对应。
参考图8,上述第一进阶时空融合向量确定方法可以包括以下过程。
在步骤S81中,将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第二初阶时空融合向量的第二时间特征向量、第二空间特征向量进行交互,获得第一中间融合特征向量。
例如,可以将第一空间特征向量与第二空间特征向量进行融合、将第一时间特征向量与第二时间特征向量进行融合,然后根据融合结果获得第一中间融合特征向量。
再例如,还可以将第一空间特征向量与第二空间特征向量进行融合、将第一时间特征向量与第二时间特征向量进行融合、将第一空间特征向量与第二时间特征向量进行融合、将第一时间特征向量与第二空间特征向量进行融合,然后根据上述融合结果获得第一中间融合特征向量。
本公开对第一空间特征向量、第一空间特征向量与第二时间特征向量、第二空间特征向量的信息交互方式不做限制。
在步骤S82中,将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第三初阶时空融合向量的第三时间特征向量、第三空间特征向量进行交互,获得第二中间融合特征向量。
该第一初阶时空融合向量与第三初阶时空融合向量的时空信息交互过程与步骤S81中第一初阶时空融合向量与第二初阶时空融合向量的时空信息交互过程类似,本实施例不再赘述。
在步骤S83中,将所述第一中间融合特征向量和所述第二中间融合特征向量进行融合,以获得与所述第一初阶时空融合向量对应的所述第一进阶时空融合向量。
可以理解的是,某个初阶时空融合向量需要与其他n-1个向量做多重交互计算,才能完成编码。
图9是图8中步骤S9S81在一示例性实施例中的流程图。
在一些实施例中,第一初阶时空融合向量的第一空间特征向量包括第一空间查询向量和第一空间键向量,第一初阶时空融合向量的第一时间特征向量包括第一时间查询向量和第一时间键向量,第二初阶时空融合向量的第二空间特征向量包括第二空间查询向量和第二空间键向量,第二初阶时空融合向量的第二时间特征向量包括第二时间查询向量和第二时间键向量。
参考图9,上述步骤S9S81可以包括以下过程。
在步骤S91中,将所述第一空间查询向量与所述第二空间键向量进行信息交互,以获得第一融合特征向量。
在一些实施例中,可以通过公式softmax(qs1xks2)*v2将第一空间查询向量qs1与第二空间键向量ks2进行信息交互,以获得第一融合特征向量。
在步骤S92中,将所述第一时间查询向量与所述第二时间键向量进行信息交互,以获得第二融合特征向量。
在一些实施例中,可以通过公式softmax(qt1xkt2)*v将第一时间查询向量qt1与第二时间键向量kt2进行信息交互,以获得第二融合特征向量。
在获得第一融合特征向量和第二融合特征向量后,可以直接根据该第一融合特征向量和该第二融合特征向量确定该第一中间融合特征向量,还可以根据步骤S93~步骤S95进行进一步的特征提取和融合以获得第一中间融合特征向量。
在步骤S93中,将所述第一空间查询向量与所述第二时间键向量进行信息交互,以获得第三融合特征向量。
在一些实施例中,可以通过公式softmax(qs1x kt2)*v将第一空间查询向量qs1与第二时间键向量kt2进行信息交互,以获得第三融合特征向量。
在步骤S94中,将所述第一时间查询向量与所述第二空间键向量进行信息交互,以获得第四融合特征向量。
在一些实施例中,可以通过公式softmax(qt1xks2)*v第一时间查询向量qt1与所述第二空间键向量ks2进行信息交互,以获得第四融合特征向量。
在步骤S95中,根据所述第一融合特征向量、所述第二融合特征向量、所述第三融合特征向量以及所述第四融合特征向量确定所述第一中间融合特征向量。
本实施例提供的技术方案,某个第一初阶时空融合向量需要与其他n-1个向量分别做4重交互计算,才能完成编码。为了方便解释,可以将图9所示实施例提供的技术方案称为4重交互编码方法。
在一些实施例中,为了保证交互计算更加深入,可以在目标神经网络中设置多个连接层,每个全连接层都会将各个初阶时空融合向量与其他初阶时空融合向量分别进行4重交互编码,以获得第一中间融合特征向量。
在一些实施例中,可以在目标神经网络中设置五层上述4重交互编码的全连接层以分别完成4重交互全连接方案,以将上述4重交互全连接方法重复5次,即将F2计算一次为Z1,Z1作为输入计算一次为Z2,如此5次得到Z5。
如图4a所示,目标神经网络还可以包括进阶时空编码结构2,该进阶时空编码结构2可以完成如图7~图9所示的进阶时空编码过程。
在通过图8和图9所示实施例获得待预测视频的进阶时空编码特征Z5,可以获取对象查询向量。例如,可以构造32xm个关于车辆的查询向量qm,m可以根据场景设定,比如设m=100,含义是我们要查询到100辆车在这32帧图片中的流动信息。由图8和图9所示实施例可知,通过特征提取和特征编码,得到了最终的Z5(n,c),Z5作为这里的键矩阵,也可以视作n个向量kz,每个向量表征某一时间某一空间的信息,这个向量与其他时间其他空间已经经过了充分的交互计算。然后我们将qm与n个kz相乘,可以表征对车辆m在每一时间每一空间上的查询结果,表征关于该车辆是否在某一时间通过某一空间。最后,我们再接上2层全连接层计算,我们可以得到解码结果,维度是(m,32,4)。我们就可以获取m辆车在32帧中每一帧的位置,如果没车,则位置为空。这样,我们不仅可以得到32帧内有多少车辆,还可以得到这些车辆的位置信息和流动信息,通过位置的变化计算出车辆的速度,进而得到车辆是否拥堵。
如图4a所示,目标神经网络还可以包括解码结构3,该解码结构3可以完成针对待预测视频的进阶时空编码特征的解码过程。
图10是图3中步骤S10在一示例性实施例中的流程图。
参考图10,上述步骤S10可以包括以下过程。
在步骤S101中,获取所述待预测视频中的帧图像的长、宽像素信息。
在步骤S102中,根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定在所述待预测视频中出现的目标对象以及所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息。
在一些实施例中,目标解码结果中可以包括各个待识别对象在待预测视频的每一帧中的位置信息,也可以直接包括各个待识别对象在待预测视频中首次出现和最后出现时的位置信息。
如果目标解码结果中包括的是各个待识别对象在待预测视频的每一帧中的位置信息,则可以根据各个待识别对象在待预测视频的每一帧中的位置信息计算各个目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息。
在步骤S103中,根据所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在所述待预测视频中的移动像素距离。
如果目标解码结果中包括的是各个待识别对象在待预测视频的每一帧中的位置信息,并且待预测视频包括M帧图像,M为大于或者等于2的整数,目标对象在待预测视频中的位置信息包括目标对象在M帧图像中的位置信息。
那么,根据目标对象在待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在待预测视频中的移动像素距离,包括:根据目标对象在M帧图像中的位置信息确定各个待识别对象首次出现时对应的第一帧图像和末次出现时对应的第二帧图像;根据目标对象在第一帧图像中的位置信息和目标对象在第二帧图像中的位置信息,确定各个待识别对象在待预测视频中的移动距离和移动时间。
如果目标解码中包括的是各个待识别对象在待预测视频中首次出现和最后出现时的位置信息,那么就可以直接根据各个待识别对象再待预测视频中首次出现和最后出现的位置信息和时间信息,确定各个待识别对象再待预测视频中的移动距离和移动时间。
在步骤S104中,根据所述待预测视频中的帧图像的长、宽像素信息、各个目标对象在所述待预测视频中的移动像素距离确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,可以通过公式J=(∑l/(HW)0.5)/m计算目标拥堵指标,当该拥堵指标大于目标阈值(例如0.1)时,可以认为该待预测位置在待预测时间段内发生了拥堵。
其中,H和W为帧图像的长和宽,m为目标对象的个数,l为目标对象在待预测视频中的移动像素距离,即该目标对象从出现到消失所移动的像素距离。可以理解的是,若某目标对象一直存在于该待预测视频中,该目标对象在待预测视频的第一帧图像的位置就是该目标对象首次出现的位置,该目标对象在待预测视频的最后一帧图像的位置就是该目标对象最后出现的位置。
本实施例提供了一种拥堵计算指标,通过该拥堵计算指标可以简单便捷的完成对待预测位置拥堵状态的识别,既提供了判断准确率,又提高了判断的效率。
图11是根据一示例性实施例示出的一种用于拥堵识别的视频处理方法的流程图。
图11所示实施例将以待识别车辆为待识别对象,待识别路段为待识别位置为例,对本公开提出的用于拥堵识别的视频处理方法进行解释。
参考图11,上述用于拥堵识别的视频处理方法可以包括以下步骤。
在步骤S111中,搭建并训练包括多个初阶时空编码单元MSTS的目标神经网络。
在一些实施例中,可以提前通过标示有车辆位置的训练视频对目标神经网络进行训练,该目标神经网络的具体结构与图3~图10所示实施例中涉及的网络结构类似,本实施例不再赘述。
在步骤S112中,输入M帧的视频流,通过由多个初阶时空编码特征构成的初阶时空编码结构提取初始时刻融合特征F1,M为大于或者等于2的整数。
在一些实施例中,可以将包括M帧图像的待预测视频流(x,t,h,w)输入至目标神经网络中,以获得初阶时空编码特征F1。
在步骤S113中,对F1进行5次4重交互编码,得到进阶时空编码特征Z5。
在一些实施例中,初阶时空编码特征F1可以是维度为(x,t,h,w)的特征矩阵。为了编码方便,可以对初阶时空编码特征F1(c,t,h,w)进行一定的维度转换,例如将F1的t、h和w三个维度变换为一个维度n=txhxw,即可以将F1转换为F2(n,c)。F2可以视作维度转换后的初阶时空编码特征。
在获得维度转换后的初阶时空编码特征F2之后,可以通过上述5次4重全连接交互编码,得到进阶时空编码Z5(n,c)。
本实施例提供的4重交互编码方式与图9所示实施例类似,本申请不再赘述。
在步骤S114中,构造32xm个查询向量,与Z5进行共同解码,获取m辆车载32帧中每一帧的位置。
在获得待预测视频的进阶时空编码特征Z5之后,可以获取对象查询向量。例如,可以构造32xm个关于车辆的查询向量qm,m可以根据场景设定,比如设m=100,含义是我们要查询到100辆车在这32帧图片中的流动信息。由图8和图9所示实施例可知,通过特征提取和特征编码,得到了最终的Z5(n,c),Z5作为这里的键矩阵,也可以视作n个向量kz,每个向量表征某一时间某一空间的信息,这个向量与其他时间其他空间已经经过了充分的交互计算。然后我们将qm与n个kz相乘,可以表征对车辆m在每一时间每一空间上的查询结果,表征关于该车辆是否在某一时间通过某一空间。最后,我们再接上2层全连接层计算,我们可以得到解码结果,维度是(m,32,4)。我们就可以获取m辆车在32帧中每一帧的位置,如果没车,则位置为空。这样,我们不仅可以得到32帧内有多少车辆,还可以得到这些车辆的位置信息和流动信息,通过位置的变化计算出车辆的速度,进而得到车辆是否拥堵。
在步骤S115中,构造拥堵指标J=(∑l/(HW)0.5)/m,并根据该拥堵指标判断是否拥堵。
本公开实施例提供的技术方案,通过待预测视频的时间信息和空间信息的深度融合,将待预测视频的整体信息关联起来以对待预测位置的拥堵状态进行判断,使得待预测位置的拥堵状态判断结果不仅考虑了待预测视频中单帧图像的局部信息(即单帧图像的空间信息),还考虑了待预测视频中多帧图像的关联信息(即通过图像的时序信息将待预测视频中的整天关联信息关联起来)。本实施例提供的技术方案,通过对待预测视频进行时空结合分析,通过对编码进行查询和解码,直接获得待预测时间段待识别对象的位置信息,进而可以确定各个待识别对象在待预测视频中的流动信息,进而对待预测视频中待预测位置的拥堵状态进行了准确判断。本实施例提供的技术方案,不仅从关注单帧图片的整体信息,还关注前后帧的关联信息,不仅获取了待预测视频中的存在的移动对象数目,还获取该移动对象的位置流动,从而完成了对拥堵状态的识别。另外,本实施例提供的技术方案还提供了一种可以用来进行拥堵状态判断的拥堵指标,以根据该拥堵指标对待预测位置的拥堵状态进行判断,既能提高判断准确率,又能提高判断效率。
图12是根据一示例性实施例示出的一种用于拥堵识别的视频处理装置的框图。参照图12,本公开实施例提供的用于拥堵识别的视频处理装置1200可以包括:待预测视频获取模块1201、目标多尺度空间特征信息确定模块1202、初阶时空编码特征获取模块1203、进阶编码模块1204、进阶时空编码特征获取模块1205、对象查询向量确定模块1206、目标解码结果获取模块1207、位置信息识别模块1208以及拥堵状态确定模块1209。
其中,待预测视频获取模块1201可以配置为获取待预测位置在待预测时间段内的待预测视频;目标多尺度空间特征信息确定模块1202可以配置为分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;初阶时空编码特征获取模块1203可以配置为融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;进阶编码模块1204可以配置为对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;进阶时空编码特征获取模块1205可以配置为对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述待预测视频的进阶时空编码特征;对象查询向量确定模块1206可以配置为获取对象查询向量,所述对象查询向量用来查询至少一个待识别对象在所述待预测视频的位置信息;所述目标解码结果获取模块1207可以配置为利用所述对象查询向量解码所述进阶时空编码特征,以获得目标解码结果;位置信息识别模块1208可以配置为根据所述目标解码结果确定所述至少一个待识别对象在所述待预测视频中的位置信息;拥堵状态确定模块1209可以配置为根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,目标多尺度空间特征信息确定模块1202可以包括:第一时间支路提取第一子模块和第一空间支路提取第一子模块。
其中,所述第一时间支路提取第一子模块可以配置为利用第一时间支路提取所述待预测视频的所述目标多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;所述第一空间支路提取第一子模块可以配置为利用第一空间支路提取所述待预测视频的所述目标多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构。
在一些实施例中,目标多尺度空间特征信息确定模块1202可以包括:第一时间支路提取第二子模块、第一空间支路提取第二子模块、多尺度信息融合子模块、第二时间支路提取子模块、第二空间支路提取子模块。
其中,所述第一时间支路提取第二子模块可以配置为利用第一时间支路提取所述待预测视频的初始多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;所述第一空间支路提取第二子模块可以配置为利用第一空间支路提取所述待预测视频的初始多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构;所述多尺度信息融合子模块可以配置为融合所述初始多尺度时间特征信息和所述初始多尺度空间特征信息,获得初始时空融合特征;所述第二时间支路提取子模块可以配置为利用第二时间支路处理所述初始时空融合特征以获得所述目标多尺度时间特征信息,所述第二时间支路包括少两个并列分布的时间信息提取卷积结构;所述第二空间支路提取子模块可以配置为利用第二空间支路处理所述初始时空融合特征以获得所述目标多尺度空间特征信息,所述第二时间支路包括少两个并列分布的空间信息提取卷积结构。
在一些实施例中,进阶编码模块1204可以包括:参数矩阵获取子模块、目标时间特征查询矩阵获取子模块、目标空间特征查询矩阵获取子模块、目标时间特征键矩阵获取子模块以及目标空间特征键矩阵获取子模块。
其中,所述参数矩阵获取子模块可以配置为获取训练完成的时间参数查询矩阵、空间参数查询矩阵、时间参数键矩阵和空间参数键矩阵;所述目标时间特征查询矩阵获取子模块可以配置为通过所述时间参数查询矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征查询矩阵;所述目标空间特征查询矩阵获取子模块可以配置为通过所述空间参数查询矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征查询矩阵;所述目标时间特征键矩阵获取子模块可以配置为通过所述时间参数键矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征键矩阵,以便根据所述目标时间特征查询矩阵和所述目标时间特征键矩阵确定所述时间特征矩阵;所述目标空间特征键矩阵获取子模块可以配置为通过所述空间参数键矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征键矩阵,以便根据所述目标空间特征查询矩阵和所述目标空间特征键矩阵确定所述空间特征矩阵。
在一些实施例中,所述初阶时空编码特征包括第一初阶时空融合向量、第二初阶时空融合向量和第三初阶时空融合向量,对所述第一初阶时空融合向量进行时间和空间编码后获得第一空间特征向量和第二空间特征向量,对所述第二初阶时空融合向量进行时间和空间编码后获得第二时间特征向量和第二空间特征向量,对所述第三初阶时空融合向量进行时间和空间编码后获得第三时间特征向量和第三空间特征向量,所述进阶时空编码特征包括第一进阶时空融合向量,所述第一初阶时空融合向量与所述第一进阶时空融合向量对应;其中,所述进阶时空编码特征获取模块1205可以包括:第一中间融合特征向量确定子模块、第二中间融合特征向量确定子模块以及第一进阶时空融合向量确定子模块。
其中,所述第一中间融合特征向量确定子模块可以配置为将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第二初阶时空融合向量的第二时间特征向量、第二空间特征向量进行交互,获得第一中间融合特征向量;所述第二中间融合特征向量确定子模块可以配置为将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第三初阶时空融合向量的第三时间特征向量、第三空间特征向量进行交互,获得第二中间融合特征向量;所述第一进阶时空融合向量确定子模块可以配置为将所述第一中间融合特征向量和所述第二中间融合特征向量进行融合,以获得与所述第一初阶时空融合向量对应的所述第一进阶时空融合向量。
在一些实施例中,第一初阶时空融合向量的第一空间特征向量包括第一空间查询向量和第一空间键向量,所述第一初阶时空融合向量的第一时间特征向量包括第一时间查询向量和第一时间键向量,所述第二初阶时空融合向量的第二空间特征向量包括第二空间查询向量和第二空间键向量,所述第二初阶时空融合向量的第二时间特征向量包括第二时间查询向量和第二时间键向量;其中,所述第一中间融合特征向量确定子模块可以包括:第一融合特征向量确定单元、第二融合特征向量确定单元以及第一中间融合特征向量确定单元。
其中,所述第一融合特征向量确定单元可以配置为将所述第一空间查询向量与所述第二空间键向量进行信息交互,以获得第一融合特征向量;所述第二融合特征向量确定单元可以配置为将所述第一时间查询向量与所述第二时间键向量进行信息交互,以获得第二融合特征向量;所述第一中间融合特征向量确定单元可以配置为根据所述第一融合特征向量和所述第二融合特征向量确定所述第一中间融合特征向量。
在一些实施例中,所述第一中间融合特征向量确定子模块还可以包括:第三融合特征向量确定单元、第四融合特征向量确定单元以及多维融合单元。
其中,所述第三融合特征向量确定单元可以配置为将所述第一空间查询向量与所述第二时间键向量进行信息交互,以获得第三融合特征向量;所述第四融合特征向量确定单元可以配置为将所述第一时间查询向量与所述第二空间键向量进行信息交互,以获得第四融合特征向量;所述多维融合单元可以配置为根据所述第一融合特征向量、所述第二融合特征向量、所述第三融合特征向量以及所述第四融合特征向量确定所述第一中间融合特征向量。
在一些实施例中,所述第一融合特征向量确定单元可以包括:权重矩阵获取子单元、权重编码处理子单元、加权处理子单元。
其中,所述权重矩阵获取子单元可以配置为获取训练完成的权重矩阵;所述权重编码处理子单元可以配置为通过所述权重矩阵对所述初阶时空编码特征进行权重编码处理,获得目标权重矩阵,所述目标权重矩阵包括第二权重向量,所述第二权重向量与所述第二初阶时空融合向量对应;所述加权处理子单元可以配置为通过所述第二权重向量对述第一空间查询向量与所述第二空间键向量进行信息交互后获得的特征向量进行加权处理,以获得所述第一融合特征向量。
在一些实施例中,拥堵状态确定模块1209可以包括:像素信息确定子模块、位置信息确定子模块、移动像素距离确定子模块以及拥堵状态确定子模块。
其中,所述像素信息确定子模块可以配置为获取所述待预测视频中的帧图像的长、宽像素信息;所述位置信息确定子模块可以配置为根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定在所述待预测视频中出现的目标对象以及所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息;所述移动像素距离确定子模块可以配置为根据所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在所述待预测视频中的移动像素距离;所述拥堵状态确定子模块可以配置为根据所述待预测视频中的帧图像的长、宽像素信息、各个目标对象在所述待预测视频中的移动像素距离确定所述待预测位置在所述待预测时间段的拥堵状态。
在一些实施例中,所述待预测视频包括M帧图像,M为大于或者等于2的整数,所述目标对象在所述待预测视频中的位置信息包括所述目标对象在所述M帧图像中的位置信息;其中,所述移动像素距离确定子模块可以包括:帧图像确定单元和移动距离确定单元。
其中,所述帧图像确定单元可以配置为根据所述目标对象在所述M帧图像中的位置信息确定各个待识别对象首次出现时对应的第一帧图像和末次出现时对应的第二帧图像;所述移动距离确定单元可以配置为根据所述目标对象在所述第一帧图像中的位置信息和所述目标对象在所述第二帧图像中的位置信息,确定各个待识别对象在所述待预测视频中的移动距离。
由于装置1200的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图3的一个或多个所示的步骤。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (13)
1.一种用于拥堵识别的视频处理方法,其特征在于,包括:
获取待预测位置在待预测时间段内的待预测视频;
分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;
融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;
对所述初阶时空编码特征进行时间特征和空间特征的进阶融合处理,以获得所述待预测视频的进阶时空编码特征;
对所述进阶时空编码特征进行解码处理,以确定至少一个待识别对象在所述待预测视频中的位置信息;
根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
2.根据权利要求1所述方法,其特征在于,分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息,包括:
利用第一时间支路提取所述待预测视频的所述目标多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;
利用第一空间支路提取所述待预测视频的所述目标多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构。
3.根据权利要求1所述方法,其特征在于,分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息,包括:
利用第一时间支路提取所述待预测视频的初始多尺度时间特征信息,所述第一时间支路包括至少两个并列分布的时间信息提取卷积结构;
利用第一空间支路提取所述待预测视频的初始多尺度空间特征信息,所述第一空间支路包括至少两个并列分布的空间信息提取卷积结构;
融合所述初始多尺度时间特征信息和所述初始多尺度空间特征信息,获得初始时空融合特征;
利用第二时间支路处理所述初始时空融合特征以获得所述目标多尺度时间特征信息,所述第二时间支路包括少两个并列分布的时间信息提取卷积结构;
利用第二空间支路处理所述初始时空融合特征以获得所述目标多尺度空间特征信息,所述第二时间支路包括少两个并列分布的空间信息提取卷积结构。
4.根据权利要求1所述方法,其特征在于,对所述初阶时空编码特征进行时间特征和空间特征的进阶融合,以获得所述待预测视频的进阶时空编码特征,包括:
对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵;
对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述进阶时空编码特征。
5.根据权利要求4所述方法,其特征在于,对所述初阶时空编码特征分别进行空间编码和时间编码,获得所述初阶时空编码特征的空间特征矩阵和时间特征矩阵,包括:
获取训练完成的时间参数查询矩阵、空间参数查询矩阵、时间参数键矩阵和空间参数键矩阵;
通过所述时间参数查询矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征查询矩阵;
通过所述空间参数查询矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征查询矩阵;
通过所述时间参数键矩阵对所述初阶时空编码特征进行时间编码处理,获得目标时间特征键矩阵,以便根据所述目标时间特征查询矩阵和所述目标时间特征键矩阵确定所述时间特征矩阵;
通过所述空间参数键矩阵对所述初阶时空编码特征进行空间编码处理,获得目标空间特征键矩阵,以便根据所述目标空间特征查询矩阵和所述目标空间特征键矩阵确定所述空间特征矩阵。
6.根据权利要求4所述方法,其特征在于,所述初阶时空编码特征包括第一初阶时空融合向量、第二初阶时空融合向量和第三初阶时空融合向量,对所述第一初阶时空融合向量进行时间和空间编码后获得第一空间特征向量和第二空间特征向量,对所述第二初阶时空融合向量进行时间和空间编码后获得第二时间特征向量和第二空间特征向量,对所述第三初阶时空融合向量进行时间和空间编码后获得第三时间特征向量和第三空间特征向量,所述进阶时空编码特征包括第一进阶时空融合向量,所述第一初阶时空融合向量与所述第一进阶时空融合向量对应;其中,对所述空间特征矩阵和所述时间特征矩阵进行交互,获得所述进阶时空编码特征,包括:
将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第二初阶时空融合向量的第二时间特征向量、第二空间特征向量进行交互,获得第一中间融合特征向量;
将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第三初阶时空融合向量的第三时间特征向量、第三空间特征向量进行交互,获得第二中间融合特征向量;
将所述第一中间融合特征向量和所述第二中间融合特征向量进行融合,以获得与所述第一初阶时空融合向量对应的所述第一进阶时空融合向量。
7.根据权利要求6所述方法,其特征在于,第一初阶时空融合向量的第一空间特征向量包括第一空间查询向量和第一空间键向量,所述第一初阶时空融合向量的第一时间特征向量包括第一时间查询向量和第一时间键向量,所述第二初阶时空融合向量的第二空间特征向量包括第二空间查询向量和第二空间键向量,所述第二初阶时空融合向量的第二时间特征向量包括第二时间查询向量和第二时间键向量;其中,将所述第一初阶时空融合向量的第一空间特征向量、第一空间特征向量与所述第二初阶时空融合向量的第二时间特征向量、第二空间特征向量进行交互,获得第一中间融合特征向量,包括:
将所述第一空间查询向量与所述第二空间键向量进行信息交互,以获得第一融合特征向量;
将所述第一时间查询向量与所述第二时间键向量进行信息交互,以获得第二融合特征向量;
根据所述第一融合特征向量和所述第二融合特征向量确定所述第一中间融合特征向量。
8.根据权利要求7所述方法,其特征在于,根据所述第一融合特征向量和所述第二融合特征向量确定所述第一中间融合特征向量,包括:
将所述第一空间查询向量与所述第二时间键向量进行信息交互,以获得第三融合特征向量;
将所述第一时间查询向量与所述第二空间键向量进行信息交互,以获得第四融合特征向量;
根据所述第一融合特征向量、所述第二融合特征向量、所述第三融合特征向量以及所述第四融合特征向量确定所述第一中间融合特征向量。
9.根据权利要求1所述方法,其特征在于,根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态,包括:
获取所述待预测视频中的帧图像的长、宽像素信息;
根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定在所述待预测视频中出现的目标对象以及所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息;
根据所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在所述待预测视频中的移动像素距离;
根据所述待预测视频中的帧图像的长、宽像素信息、各个目标对象在所述待预测视频中的移动像素距离确定所述待预测位置在所述待预测时间段的拥堵状态。
10.根据权利要求9所述方法,其特征在于,所述待预测视频包括M帧图像,M为大于或者等于2的整数,所述目标对象在所述待预测视频中的位置信息包括所述目标对象在所述M帧图像中的位置信息;其中,根据所述目标对象在所述待预测视频中首次和末次出现时对应的时间和位置信息,确定各个目标对象在所述待预测视频中的移动像素距离,包括:
根据所述目标对象在所述M帧图像中的位置信息确定各个待识别对象首次出现时对应的第一帧图像和末次出现时对应的第二帧图像;
根据所述目标对象在所述第一帧图像中的位置信息和所述目标对象在所述第二帧图像中的位置信息,确定各个待识别对象在所述待预测视频中的移动距离。
11.一种用于拥堵识别的视频处理装置,其特征在于,包括:
待预测视频获取模块,配置为获取待预测位置在待预测时间段内的待预测视频;
目标多尺度空间特征信息确定模块,配置为分别提取所述待预测视频的目标多尺度时间特征信息和目标多尺度空间特征信息;
初阶时空编码特征获取模块,配置为融合所述目标多尺度时间特征信息和所述目标多尺度空间特征信息,获得初阶时空编码特征;
进阶时空编码特征获取模块,配置为对所述初阶时空编码特征进行时间特征和空间特征的进阶融合处理,以获得所述待预测视频的进阶时空编码特征;
位置信息识别模块,配置为对所述进阶时空编码特征进行解码处理,以确定至少一个待识别对象在所述待预测视频中的位置信息;
拥堵状态确定模块,配置为根据所述至少一个待识别对象在所述待预测视频中的位置信息,确定所述待预测位置在所述待预测时间段的拥堵状态。
12.一种电子设备,其特征在于,包括:
存储器;以及
耦合到所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-10任一项所述的用于拥堵识别的视频处理方法。
13.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-10任一项所述的用于拥堵识别的视频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435032.4A CN113111822B (zh) | 2021-04-22 | 2021-04-22 | 用于拥堵识别的视频处理方法、装置与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435032.4A CN113111822B (zh) | 2021-04-22 | 2021-04-22 | 用于拥堵识别的视频处理方法、装置与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111822A true CN113111822A (zh) | 2021-07-13 |
CN113111822B CN113111822B (zh) | 2024-02-09 |
Family
ID=76719508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110435032.4A Active CN113111822B (zh) | 2021-04-22 | 2021-04-22 | 用于拥堵识别的视频处理方法、装置与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111822B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339402A (zh) * | 2021-12-31 | 2022-04-12 | 北京字节跳动网络技术有限公司 | 视频播放完成率预测方法、装置、介质及电子设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8001062B1 (en) * | 2007-12-07 | 2011-08-16 | Google Inc. | Supervised learning using multi-scale features from time series events and scale space decompositions |
CN106650674A (zh) * | 2016-12-27 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN107730881A (zh) * | 2017-06-13 | 2018-02-23 | 银江股份有限公司 | 基于深度卷积神经网络的交通拥堵视觉检测系统 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN111523482A (zh) * | 2020-04-24 | 2020-08-11 | 深圳市商汤科技有限公司 | 车道拥挤检测方法及装置、电子设备和存储介质 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111709351A (zh) * | 2020-06-11 | 2020-09-25 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN111709306A (zh) * | 2020-05-22 | 2020-09-25 | 江南大学 | 一种基于多层次时空特征融合增强的双流网络行为识别方法 |
CN111814648A (zh) * | 2020-06-30 | 2020-10-23 | 北京百度网讯科技有限公司 | 一种站口拥堵情况确定方法、装置、设备及存储介质 |
CN112036300A (zh) * | 2020-08-31 | 2020-12-04 | 合肥工业大学 | 一种基于多尺度时空传播层的运动目标检测方法 |
CN112115999A (zh) * | 2020-09-15 | 2020-12-22 | 燕山大学 | 一种时空多尺度神经网络的风电机组故障诊断方法 |
-
2021
- 2021-04-22 CN CN202110435032.4A patent/CN113111822B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8001062B1 (en) * | 2007-12-07 | 2011-08-16 | Google Inc. | Supervised learning using multi-scale features from time series events and scale space decompositions |
CN106650674A (zh) * | 2016-12-27 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN107730881A (zh) * | 2017-06-13 | 2018-02-23 | 银江股份有限公司 | 基于深度卷积神经网络的交通拥堵视觉检测系统 |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111523482A (zh) * | 2020-04-24 | 2020-08-11 | 深圳市商汤科技有限公司 | 车道拥挤检测方法及装置、电子设备和存储介质 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111709306A (zh) * | 2020-05-22 | 2020-09-25 | 江南大学 | 一种基于多层次时空特征融合增强的双流网络行为识别方法 |
CN111709351A (zh) * | 2020-06-11 | 2020-09-25 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN111814648A (zh) * | 2020-06-30 | 2020-10-23 | 北京百度网讯科技有限公司 | 一种站口拥堵情况确定方法、装置、设备及存储介质 |
CN112036300A (zh) * | 2020-08-31 | 2020-12-04 | 合肥工业大学 | 一种基于多尺度时空传播层的运动目标检测方法 |
CN112115999A (zh) * | 2020-09-15 | 2020-12-22 | 燕山大学 | 一种时空多尺度神经网络的风电机组故障诊断方法 |
Non-Patent Citations (5)
Title |
---|
CHANGHONG MU等: "Multi-scale Spatial-Temporal Feature Aggregating for Video Salient Object Segmentation", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON SIGNAL AND IMAGE PROCESSING》, pages 224 - 229 * |
JIANING LI等: "Multi-Scale Temporal Cues Learning for Video Person Re-Identification", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 29, pages 4465 * |
丁洁等: "基于深度学习的交通拥堵检测", 《重庆大学学报》, pages 1 - 9 * |
蔡雨彤: "基于双流信息融合网络的视频行为分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06, pages 138 - 791 * |
高璇等: "基于多通道时空融合网络的人体动作识别", 《工业控制计算机》, vol. 33, no. 10, pages 56 - 57 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339402A (zh) * | 2021-12-31 | 2022-04-12 | 北京字节跳动网络技术有限公司 | 视频播放完成率预测方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113111822B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4137991A1 (en) | Pedestrian re-identification method and device | |
CN111222500A (zh) | 一种标签提取方法及装置 | |
CN114663670A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN105989594A (zh) | 一种图像区域检测方法及装置 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113537254B (zh) | 图像特征提取方法、装置、电子设备及可读存储介质 | |
CN113191495A (zh) | 超分模型的训练及人脸识别方法、装置、介质及电子设备 | |
CN109982088B (zh) | 图像处理方法及装置 | |
CN110222726A (zh) | 图像处理方法、装置及电子设备 | |
CN112257526A (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
CN115205150A (zh) | 图像的去模糊方法、装置、设备、介质及计算机程序产品 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN114299321A (zh) | 视频分类方法、装置、设备及可读存储介质 | |
CN111242068A (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN115131634A (zh) | 图像识别方法、装置、设备、存储介质及计算机程序产品 | |
CN113111822B (zh) | 用于拥堵识别的视频处理方法、装置与电子设备 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN113190701A (zh) | 图像检索方法、装置、设备、存储介质以及计算机程序产品 | |
Lu et al. | Environment-aware multiscene image enhancement for internet of things enabled edge cameras | |
CN113591838B (zh) | 目标检测方法、装置、电子设备和存储介质 | |
CN115115699A (zh) | 姿态估计方法、装置、相关设备和计算机产品 | |
CN114332678A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN116091984B (zh) | 视频目标分割方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |