CN112801017B

CN112801017B - 一种视觉场景描述方法及系统

Info

Publication number: CN112801017B
Application number: CN202110174352.9A
Authority: CN
Inventors: 张旻晋; 许达文
Original assignee: Chengdu Shihaixintu Microelectronics Co ltd
Current assignee: Chengdu Shihaixintu Microelectronics Co ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2023-08-04
Anticipated expiration: 2041-02-09
Also published as: CN112801017A

Abstract

本发明公开的一种视觉场景描述方法及系统，先对视频当前帧图像进行连续性要素处理后，将视频历史帧图像描述语句与连续性要素结果分别进行转换操作获得两组特征向量，将两组特征向量合并后推理运算生成图像描述词汇信息；再对图像描述词汇信息进行一系列处理后得到当前帧图像的最优描述语句；最后以当前帧图像的最优描述语句为下一帧图像的历史帧图像描述语句，循环处理下一帧图像；根据连续性要素处理对视频的图像进行包含多种特征的描述，同时以视频当前帧图像与历史帧图像描述语句来结合推理，具有极大的视觉刻画能力；不仅使视频的上一帧图像与下一帧图像建立连续性关系，而且减少了计算量和内存占用，减少边缘设备工作量。

Description

一种视觉场景描述方法及系统

技术领域

本发明涉及视觉描述技术领域，具体涉及一种视觉场景描述方法及系统。

背景技术

深度学习算法使电子设备对图像的刻画与描述具备了更加精准的能力，如基于图像物体的语义识别，图像中文本的识别，针对图像中物体位置、形状、纹理等特征的描述，并同时刻画出环境中各物体的关系，为计算机设备对环境提供了很好的刻画数据，使得设备对环境具有更深层的感知力，并依据所感知的信息做出更加准确的控制与决策。该技术为智能云中心管理，知识图谱的构建，机器人控制等领域提供很好的环境特征输入，提高相关领域的特征描绘能力与控制能力。然而，当前针对连续场景的视频描述中，其描述的特征仍然不够多样化，空间以及动态的特征刻画能力不够突出；同时，尽管在使用深度学习的方法在特征提取与物体识别等领域表现突出，但其巨大的计算量迫使在对刻画视频特征过程中需要极大算力，在边缘设备上难以达到需求。

发明内容

为克服上述技术的缺陷，本发明提供一种视觉场景描述方法及系统，视觉场景描述方法可根据视频图像场景中的连续性特征对其进行包含多种特征的描述，具有极大的视觉刻画能力。

本发明通过下述技术方案实现：

本方案提供的一种视觉场景描述方法，包括步骤：

S1.对视频当前帧图像进行连续性要素处理后获取当前帧图像的连续性要素结果；

S2.将视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行转换操作获得历史特征向量和当前特征向量；

S3.将史特征向量与当前特征向量合并后再进行推理运算生成图像描述词汇信息；

S4.将图像描述词汇信息分别进行组合优化和线性处理，并将组合优化结果和线性处理结果合并生成连续图像的初始描述语句；

S5.对连续图像的初始描述语句进行筛选处理得到当前帧图像的最优描述语句；

S6.以当前帧图像的最优描述语句为下一帧图像的视频历史帧图像描述语句，以下一帧图像作为视频当前帧图像，返回S1重复执行S1-S6直至视频描述完成。

对视频的每一帧图像进行上述计算后，最终获取完整的视频描述。

本方案工作原理：当前针对连续场景的视频描述中，其描述的特征不够多样化，空间以及动态的特征刻画能力不够突出；同时，尽管深度学习方法在特征提取与物体识别等领域表现突出，但其巨大的计算量迫使在对刻画视频特征过程中需要极大计算力，在边缘设备上难以达到需求，而本方案提供的一种视觉场景描述方法，可根据场景中的连续性要素处理对视频的图像进行包含多种特征的描述，同时以视频当前帧的图像与历史帧的图像描述语句来进行结合推理，具有极大的视觉刻画能力；不仅使视频的上一帧图像与下一帧图像建立连续性关系，而以历史帧的图像描述语句来参与计算，减少了计算量和内存占用，减少边缘设备工作量。

进一步优化方案为，S2中对视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行embedding转换操作。

进一步优化方案为，S3中将历史特征向量与当前特征向量合并后再进行transformer的推理运算生成图像描述词汇信息。

进一步优化方案为，所述连续性要素处理包括但不限于：光流检测处理，图像分割处理，图像目标检测处理，文本检测处理和图像文本识别处理。

进一步优化方案为，所述图像分割处理为：采用编码解码结构的卷积神经网络对视频当前帧图像执行特征块提取，对提取的特征块执行分割与框选操作，并对各特征块进行前场景标定和后场景标定。

进一步优化方案为，所述图像目标检测处理为：

采用AlexNet卷积神经网络的解耦股对视频当前帧图像执行特征提取，直至生成到指定规格的特征图；

对特征图进行卷积操作获得置信度与边框偏移量参数：

利用边框偏移量参数对各像素对应选框进行便宜处理，同时依据置信度对所有像素的边框执行排序与次优解求解，获得多个目标检测结果。

进一步优化方案为，所述图像文本识别处理为：

用已构建好的文本检测神经网络模型对视频当前帧图像中的文本进行识别，并对识别到的文本进行框选与位置标定；

利用文本方向纠正神经网络模型对图像框选部分的方向进行纠正并进行复制，生成只含有文本的子图像；

利用注意力网络模型对子图像进行文本识别，生成针对视频当前帧图像的文本内容与置信度。

进一步优化方案为，S4中使用注意力网络模型或递归神经网络模型对输入的图像描述词汇信息进行组合优化处理。

基于上述视觉场景描述方法，本发明还提供一种视觉场景描述系统，包括：

连续性要素处理模块用于对视频当前帧图像进行连续性要素处理后获取当前帧图像的连续性要素结果，连续性要素处理模块将当前帧图像的连续性要素结果发送给特征转换模块；

特征转换模块将视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行转换操作获得历史特征向量和当前特征向量，特征转换模块将历史特征向量和当前特征向量发送给第一计算模块；

第一计算模块将史特征向量与当前特征向量合并后再进行推理运算生成图像描述词汇信息，第一计算模块将图像描述词汇信息发送给第二计算模块；

第二计算模块将图像描述词汇信息分别进行组合优化和线性处理，并将组合优化结果和线性处理结果合并生成连续图像的初始描述语句；

第二计算模块对连续图像的初始描述语句进行筛选处理得到当前帧图像的最优描述语句；

反馈模块以当前帧图像的最优描述语句作为下一帧图像的视频历史帧图像描述语句发送给特征转换模块，反馈模块以下一帧图像作为视频当前帧图像发送给连续性要素处理模块。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提出一种视觉场景描述方法及系统，根据场景中的连续性要素处理对视频的图像进行包含多种特征的描述，同时以视频当前帧的图像与历史帧的图像描述语句来进行结合推理，具有极大的视觉刻画能力；不仅使视频的上一帧图像与下一帧图像建立连续性关系，而以历史帧的图像描述语句来参与计算，减少了计算量和内存占用，减少边缘设备工作量。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1是本发明视觉场景描述方法流程图；

图2是视觉场景描述系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

图1是本实施例提供的一种视觉场景描述方法流程示意图，其步骤具体为：

步骤s1，对连当前帧图像分别执行连续性要素处理；

(本实施例中包括：光流检测处理，图像分割处理，图像目标检测处理，文本检测处理，文本识别处理后，获得连续性要素处理结果对应的为：光流场，场景分割结果，目标检测结果及置信度，文本检测结果，文本识别结果及其置信度；)

步骤s2，对视频历史帧图像描述语句与步骤s1生成的连续性要素处理结果执行embedding的转换操作得到两组特征向量，并将两组特征向量进行合并；

步骤s3，对步骤s2中合并特征向量执行transformer推理运算，生成图像描述词汇信息；

步骤s4，对步骤s3生成的图像描述词汇信息分别执行组合优化与线性处理，两者获得组合结果进行合并，生成连续图像的初始描述语句；

步骤s5，对步骤s4中连续图像的初始描述语句进行筛选处理，获得当前帧图像的最优描述语句；

步骤s6，以当前帧图像的最优描述语句为下一帧图像的视频历史帧图像描述语句，以下一帧图像作为视频当前帧图像，跳转至步骤s1。

最终获得该连续视频的描述结果。

在步骤s1中：

针对光流场的计算，其输入为针对视频上一帧的图像提取的特征，以及视频当前帧的图像，其步骤包含：

S111，执行针对视频当前帧图像的特征提取，获得视频当前帧图像提取的特征；

S112，执行针对视频上一帧的图像提取的特征与视频当前帧图像提取的特征进行位置匹配，计算各特征图中所有匹配像素的位置距离，获得光流场向量值；

针对图像分割的计算，其输入为视频当前帧图像，其步骤包含：

S121，采用编码解码结构的卷积神经网络对图像执行特征块提取；

S122，对特征块执行分割与框选操作，并对各特征块进行前后场景标定获得图像分割结果。

针对图像目标检测计算，其输入为视频当前帧图像，其步骤包括：

S131，采用以AlexNet卷积神经网络的解耦股对图像执行特征提取，直至生成到指定尺寸像素大小的特征图；

S132，针对已取得的特征图进行卷积操作，获得置信度与边框偏移量参数；

S133，利用边框偏移量参数对各像素对应选框进行便宜处理，同时依据置信度对所有像素的边框执行排序与次优解求解，获得多个目标检测结果；

针对图像文本识别计算，其输入为当前时刻图像，其步骤包括：

S141，利用用于文本检测的神经网络模型对图像中的文本进行识别，并对其进行框选与位置标定；

S142，利用与用于文本方向纠正的神经网络模型对图形的方向进行纠正并进行复制，生成只含有文本的子图像；

S143，利用注意力网络模型对图像进行文本识别，生成针对图像的文本内容与置信度；

需要说明的是，所述步骤s4，所用的组合优化方法采用注意力网络以及递归神经网络模型，对输入的词汇进行编码与解码。

步骤s2中的合并方法包含但不限于向量向的直接合并与线性化合并；所述线性处理，包含但不限于神经网络方法的词汇处理，用于生成包含但不限于衡量语句准确性的置信度值。

步骤s5中的筛选操作，包含但不限于以历史的预测语句通过对比相似度以排除新预测的重复语句；所述排列方法包含但不限于以语句置信度值对语句进行排序，以快速获取最优结果。

实施例2

视觉场景描述系统，包括：连续性要素处理模块用于对视频当前帧图像进行连续性要素处理后获取当前帧图像的连续性要素结果，连续性要素处理模块将当前帧图像的连续性要素结果发送给特征转换模块；

连续性要素处理包括但不限于：光流检测处理，图像分割处理，图像目标检测处理，文本检测处理和图像文本识别处理。

具体的，如图2所示，视觉场景描述系统包括：卷积加速单元11，特征映射单元12，边框处理单元13，递归神经网络加速单元14，词典查表单元15，矩阵乘法加速单元16，归一化计算单元17，Softmax运算单元18，控制器单元19，主处理器单元20，存储器单元20，缓存单元21；

其中，卷积加速单元11，内部包含只晒一个针对向量乘法的乘法运算单元111与加法运算单元112，用于执行并加速包括但不限于光流计算过程中特征提取的卷积运算，图像分割任务中的卷积运算，目标检测过程中的特征提取计算，图像文本识别任务中的文本检测运算，文本方位纠正计算；

其中，特征映射单元12，内部包含代价计算单元121，用于实现前后帧提取特征各像素的相似度匹配；

其中，边框处理单元13，其内部包含至少一个乘法单元131，除法单元132，加法单元133，查找表单元134，用于实现目标检测工程中的边框回归，筛选处理；

其中，递归神经网络加速单元14，内部包含至少一个乘法器141及至少一个加法器142，用于实现针对关键词的组合优化运算过程中的递归神经网络；

其中，词典查表单元15，用于执行针对所述合并的特征向量执行推理运算过程中的embedding查表运算，进一步表征特征向量信息；

其中，矩阵乘法加速单元16，内部包含至少一个乘法器161，至少一个加法器162，用于执行针对所述合并与embedding查表转换后向量的矩阵乘法运算推理；

其中，归一化计算单元17，内部包含归一化运算部件，用于实现本发明提供的方法中合并特征向量的推理过程中的归一化运算，以及关键词的线性归一化运算；

其中，Softmax运算单元18，用于执行本发明提供的方法中合并特征向量的推理过程中的softmax运算；

其中，控制器单元19，内部包含控制逻辑模块191与指令缓存模块192，用于暂存并分析指令，生成控制信号，执行针对各模块的数据管理与运算控制；

其中，主处理器单元20，内部包含主处理器201，用于控制生成指令，执行针对本发明所提出方法运算过程中，光流检测运算过程中的像素映射，图像分割前景与后景的标记，图像文本识别过程中的图像方向纠正，以及描述语句中重复语句的掩码操作；

其中，存储器单元20，包含一种存储介质，用于存储输入图像，各运算特征图中间结果，以及各网络模型的权重，偏移量参数；

其中，缓存单元21，包含一种存储介质，用于暂存所述各模块单元之间的输入，输出，以及中间数据，权重，指令，以及用于执行对多种特征向量的拼接操作；

此外，本发明提供的运算装置，还包括了池化单元22，激活单元23，总线单元24，总线控制单元25，用于完成针对神经网络运算的池化域激活运算，以及各单元之间的连接。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1. 一种视觉场景描述方法，其特征在于，包括步骤：S1.对视频当前帧图像进行连续性要素处理后获取当前帧图像的连续性要素结果；所述连续性要素处理包括：光流检测处理，图像分割处理，图像目标检测处理，文本检测处理和图像文本识别处理；S2.将视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行转换操作获得历史特征向量和当前特征向量；S3.将历史特征向量与当前特征向量合并后再进行推理运算生成图像描述词汇信息；先将历史特征向量与当前特征向量合并后再进行transformer的推理运算生成图像描述词汇信息；S4.将图像描述词汇信息分别进行组合优化和线性处理，并将组合优化结果和线性处理结果合并生成连续图像的初始描述语句；使用注意力网络模型或递归神经网络模型对输入的图像描述词汇信息进行组合优化处理；S5.对连续图像的初始描述语句进行筛选处理得到当前帧图像的最优描述语句；S6.以当前帧图像的最优描述语句为下一帧图像的视频历史帧图像描述语句，以下一帧图像作为视频当前帧图像，返回S1重复执行S1-S6直至视频描述完成。

2.根据权利要求1所述的一种视觉场景描述方法，其特征在于，S2中对视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行embedding转换操作。

3.根据权利要求1所述的一种视觉场景描述方法，其特征在于，所述图像分割处理为：采用编码解码结构的卷积神经网络对视频当前帧图像执行特征块提取，对提取的特征块执行分割与框选操作，并对各特征块进行前场景标定和后场景标定。

4.根据权利要求1所述的一种视觉场景描述方法，其特征在于，所述图像目标检测处理为：采用AlexNet卷积神经网络的结构对视频当前帧图像执行特征提取，直至生成到指定规格的特征图；对特征图进行卷积操作获得置信度与边框偏移量参数；利用边框偏移量参数对各像素对应选框进行偏移处理，同时依据置信度对所有像素的边框执行排序与次优解求解，获得多个目标检测结果。

5.根据权利要求1所述的一种视觉场景描述方法，其特征在于，所述图像文本识别处理为：用已构建好的文本检测神经网络模型对视频当前帧图像中的文本进行识别，并对识别到的文本进行框选与位置标定；利用文本方向纠正神经网络模型对图像框选部分的方向进行纠正并进行复制，生成只含有文本的子图像；利用注意力网络模型对子图像进行文本识别，生成针对视频当前帧图像的文本内容与置信度。

6.一种视觉场景描述系统，用于权利要求1-5的任意一种视觉场景描述方法，其特征在于，包括：连续性要素处理模块用于对视频当前帧图像进行连续性要素处理后获取当前帧图像的连续性要素结果，连续性要素处理模块将当前帧图像的连续性要素结果发送给特征转换模块；特征转换模块将视频历史帧图像描述语句与当前帧图像的连续性要素结果分别进行转换操作获得历史特征向量和当前特征向量，特征转换模块将历史特征向量和当前特征向量发送给第一计算模块；第一计算模块将历史特征向量与当前特征向量合并后再进行推理运算生成图像描述词汇信息，第一计算模块将图像描述词汇信息发送给第二计算模块；第二计算模块将图像描述词汇信息分别进行组合优化和线性处理，并将组合优化结果和线性处理结果合并生成连续图像的初始描述语句；第二计算模块对连续图像的初始描述语句进行筛选处理得到当前帧图像的最优描述语句；反馈模块以当前帧图像的最优描述语句作为下一帧图像的视频历史帧图像描述语句发送给特征转换模块，反馈模块以下一帧图像作为视频当前帧图像发送给连续性要素处理模块。

7.根据权利要求6所述的一种视觉场景描述系统，其特征在于，所述连续性要素处理包括但不限于：光流检测处理，图像分割处理，图像目标检测处理，文本检测处理和图像文本识别处理。