CN107977662B

CN107977662B - 一种实现高速处理计算机视觉图像的分层计算方法

Info

Publication number: CN107977662B
Application number: CN201711077907.8A
Authority: CN
Inventors: 张盛; 陈超; 高曰超
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2020-12-11
Anticipated expiration: 2037-11-06
Also published as: CN107977662A

Abstract

本发明提供一种实现高速处理计算机视觉图像的分层计算方法，所述方法包括将计算机视觉图像处理任务分为快速响应层、实时响应层和非实时响应层，所述快速响应层对图像传感器输出的列并行数据流进行图像像素级并行运算处理，为实时响应层提供多个感兴趣区域和/或图像特征；实时响应层对感兴趣区域和/或图像特征实时进行目标检测、分类或识别；非实时响应层通过网络远程访问，对所述实时响应层目标检测、分类或识别的结果进行进一步细分识别和/或相关信息检索。本发明提供的一种实现高速处理计算机视觉图像的分层计算方法具有运算速度快，延时低等特点，可以超高速完成低层和中层视觉计算任务，并能大幅度降低高层视觉任务的计算复杂度以实现实时运算能力。

Description

一种实现高速处理计算机视觉图像的分层计算方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种实现高速处理计算机视觉图像的分层计算方法。

背景技术

机器视觉广泛用于机器人视觉系统、自动驾驶控制系统和视频监控等诸多领域。在多数应用场景中，基于视觉的智能系统需要对通过图像传感器获得的图像进行分析，实现目标检测和追踪，或在此基础上进一步分析目标的行为特征来完成具体的视觉任务。

近年来机器视觉算法的研究进展，尤其是关于深度神经网络的研究工作使得机器视觉智能得到快速发展，甚至能够在某些具体任务上超越人眼的性能。同时，随着以深度神经网络为代表的视觉处理算法的发展，视觉计算的复杂度大幅度增加，使得视觉计算的实时性愈发成为挑战。当前的应用中通常会部署GPU(图形处理器)作为复杂算法特别是深度学习算法的硬件加速器，同时研究人员也开始将这类视觉算法移植到FPGA(现场可编程门阵列)上或者是做成专用视觉芯片来提高计算速度以实现视觉计算的实时性。

现有技术中，单一类型的视觉计算实现方案存在明显的缺点。在具体应用场景的需求限制下，面对复杂的视觉任务其算法和功能均存在局限性，难以实现不同的应用场景下的灵活配置和根据需要进行功能拓展。

因此，需要为具体场景下的视觉任务提供高速、结构化、可重构、可拓展且实现灵活的一种实现高速处理计算机视觉图像的分层计算方法。

发明内容

本发明的目的在于提供一种实现高速处理计算机视觉图像的分层计算方法，所述方法包括

将计算机视觉图像处理任务分为快速响应层、实时响应层和非实时响应层，其中，

所述快速响应层对图像传感器输出的列并行数据流进行图像像素级并行运算处理，为所述实时响应层提供多个感兴趣区域和/或图像特征，其中，所述快速响应层包括处理单元阵列和存储器，所述处理单元阵列包括K×L个处理单元，其中K为列像素个数，L为处理单元阵列的行数；每行处理单元以单指令多数据方式执行精简指令进行图像像素级并行运算；

所述实时响应层对所述感兴趣区域和/或图像特征实时进行目标检测、分类或识别，所述实时相应层包括二维处理单元，所述感兴趣区域和/或图像特征通过二维处理单元阵列以单指令多数据方式实现卷积神经网络的逐层并行运算；

所述非实时响应层通过网络远程访问，对所述实时响应层检测或分类计算的结果进行进一步细分识别和/或相关信息检索。

优选地，所述快速响应层与图像传感器集成于同一芯片。

优选地，所述卷积神经网络通过流水线模式逐层并行运算。

优选地，所述卷积神经网络通过流水线模式逐层计算包括：

在卷积运算时，卷积运算作为局部运算，由相互连通的二维处理单元读取相邻的二维处理单元的数据并加权求和；

在激活运算时，通过激活函数对卷积运算的输出结果的正负进行判断，若输入正数，则输出原值，若输入负数，则输出零。

优选地，所述二维处理单元阵列包括M×N个二维处理单元。

优选地，所述卷积神经网络通过流水线模式逐层计算还包括池化层，所述池化层采用最大池化或均值池化降低卷积层输出数据的维度。

优选地，所述非实时响应层包括工作站、服务器或服务器集群，所述工作站、服务器或服务器集群内部署多个CPU与GPU。

本发明提供的一种实现高速处理计算机视觉图像的分层计算方法，具有高速处理能力，将计算机视觉图像处理任务分层，不同层之间分别计算不同的视觉任务，极大地减少运算杂度。本发明快速响应层通过像素级列并行实现超高速(>1000fps)的中低层视觉处理功能，实时响应层通过卷积神经网络逐层并行计算实现实时(>100fps)的目标检测、分类或识别任务，非实时响应层通过远程访问实现一定程度延迟允许内(<1s)的目标细分识别和/或相关信息检索，实现计算机视觉图像的高速处理。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了本发明实现高速处理计算机视觉图像的分层计算的结构示意图；

图2示出了本发明图像传感器列并行数据流输出示意图；

图3示出了本发明快速响应层的结构示意图；

图4示出了本发明快速响应层处理单元以单指令多数据方式进行图像像素级时间和空间的并行运算的示意图；

图5示出了本发明实时响应层对感兴趣区域和/或图像特征进行计算的示意图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例，相关技术术语应当是本领域技术人员所熟知的。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤，除非另有说明。视觉处理任务是指对环境中的图像采集，经过计算对图像进行画面重建，事件监测，目标跟踪，目标识别，机器学习等。

如图1所示本发明实现高速处理计算机视觉图像的分层计算的结构示意图，一种实现高速处理计算机视觉图像的分层计算方法包括：

将计算机视觉图像处理任务分为快速响应层102a(102b)、实时响应层103a(103b)和非实时响应层104。本发明计算机视觉图像进行分层计算，非实时响应层104可以对多个实时响应层目标检测、分类或识别的结果进行进一步的识别处理和/或目标信息查询。本实施例中以两个实时响应层103a(103b)进行示例性的说明，但并不限于此。

快速响应层图像处理

快速响应层对图像传感器输出的列并行数据流进行图像像素级并行运算，为实时响应层提供多个感兴趣区域和/或图像特征。

图像传感器101a(101b)获取场景中的图像，并将图像信息传输至快速响应层102a(102b)。本实施例中快速响应层102a(102b)与图像传感器101a(101b)集成于同一芯片100a(100b)。如图2所示本发明图像传感器列并行数据流输出示意图，根据本发明快速响应层对图像传感器输出的列并行数据流进行图像像素级并行运算处理，以高速完成底层和中层视觉计算任务。图像传感器控制器控制采集的图像以列并行数据流输出，具体地，将采集的图像201分成K×K个像素阵列202经过A/D模数转换203和传感器接口(Sensor I/F)204，将像素感光信号转换为数字信号输出。如图3所示本发明快速响应层的结构示意图，快速响应层301包括处理单元阵列302、存储器和MIPI接口305，其中存储器包括列储存器303和帧储存器304，本实施例中处理单元阵列302包括K×L个处理单元，其中K为列像素个数，L为处理单元阵列的行数。列存储器303存储多列像素信息；帧存储器304存储一帧或多帧图像信息。K×K个像素阵列的数字信号通过快速响应层301进行处理。每行处理单元以单指令多数据方式执行精简指令进行图像像素级并行运算，如图4所示本发明快速响应层处理单元以单指令多数据方式进行图像像素级并行运算的示意图，图像传感器输出的列并行数据流进入快速响应层首先由I/O缓冲区(BUF)进行数据I/O缓冲，控制器403用于控制单指令404。单指令404对图像传感器输出的列并行数据流进行处理，并对行处理单元402进行控制。每行处理单元执行处理图像传感器输出的列并行数据流相同的单指令404，实现对图像像素级并行运算，获取多个感兴趣区域和/或图像特征。这里每行处理单元执行的单指令404为精简指令。

图像传感器输出的列并行数据流经过快速响应层处理单元以单指令多数据方式进行图像像素级并行运算，获取多个感兴趣区域和/或图像特征。这里所述的感兴趣区域是指从图像中选择出的图像处理重点关注的区域。本实施例中，由于本发明快速响应层主要负责中低层视觉任务，即获取图像中的感应区域和/或图像特征，因此将图像传感器与快速响应层集成在同一芯片以精简物理结构。

根据本发明实现高速处理计算机视觉图像的分层计算方法，快速响应层完成中低层视觉任务，获取图像中的感应区域和/或图像特征的运算过程小于1ms。

实时响应层图像处理

实时响应层对感兴趣区域和/图像特征实时进行检测或分类计算。如图5所示本发明实时响应层对感兴趣区域和/或图像特征进行计算的示意图，快速响应层获取的感兴趣区域和/或图像特征传输至实时响应层，实时响应层通过卷积神经网络对感兴趣区域和/图像特征进行目标检测、分类或识别，以完成高层视觉任务。具体地说，实时响应层包括二维处理单元阵列501，实时响应层接收快速响应层的传输来的感兴趣区域和/图像特征，通过二维处理单元阵列501以单指令多数据方式实现卷积神经网络逐层并行运算。如图4所示，二维处理单元阵列501包括M×N个二维处理单元。

二维处理单元阵列501根据实际需求的卷积神经网络结构具体配置运算方式和运算顺序。其中，卷积神经网络以单指令多数据方式进行逐层并行运算。卷积神经网络逐层并行运算包括：

输入层502，输入层502用于输入快速相应层获取多个感兴趣区域和/或图像特征；

卷积层和激活层503，在卷层运算时，卷积运算作为局部运算，由相互连通的二维处理单元读取相邻的二维处理单元的数据并加权求和。具体地说，如图4所示，二维处理单元b、二维处理单元c与二维处理单元a相互连通，二维处理单元a读取二维处理单元b与二维处理单元c的数据并加权求和。

在激活运算时，通过激活函数对卷积运算的输出结果的正负进行判断，若输入正数，则输出原值，若输入负数，则输出零，表示未激活。优选地，激活层选用正线性单元函数。激活层输出的数据经分类器504进行分类输出。

根据本发明，卷积神经网络通过流水线模式逐层计算还可以包括池化层，池化层采用最大池化或均值池化降低卷积层输出数据的维度。

根据本发明，实时响应层通过卷积神经网络完成高层视觉任务，算法和结构复杂，在一些实施例中可以选择CPU和GPU协同工作完成上述运算；在另一些实施例中，可以选择FPGA实现上述运算。

根据本发明实现高速处理计算机视觉图像的分层计算方法，实时响应层完成高层视觉任务，对感兴趣区域和/图像特征进行目标检测、分类或识别过程小于10ms。

非实时响应层图像处理

本发明提供的一种实现高速处理计算机视觉图像的分层计算方法，实时响应层计算结束后，非实时响应层通过网络远程访问，对实时响应层检测或分类计算的结果进行进一步细分识别和/或相关信息检索，响应过程小于1s。非实时响应层包括工作站、服务器或服务器集群，工作站、服务器或服务器集群内部署多个CPU与GPU。

本发明将计算机视觉图像进行分层计算，使得视觉系统的设计难度降低，具体应用中对不同层的计算结果充分利用，分别完成不同程度视觉任务的计算。

本发明快速响应层对由图像传感器输入的列并行数据流进行图像像素级并行运算，运算速度快，延时低等特点，可以超高速(>1000fps)完成低层和中层视觉计算任务。本发明由快速响应层提供多个感兴趣区域和/或图像特征，使得在实时响应层内仅需对感兴趣区域的内容和/或图像特征进行计算，避免了对整幅原始图像数据的冗余计算，极大地减少运算杂度，能够以更小结构和功耗实时完成高层视觉处理任务。

本发明提供的一种实现高速处理计算机视觉图像的分层计算方法，经过快速响应层和实时响应层的高速计算，得到的目标检测、分类或识别结果用于远程工作站、服务器或服务器集群的进一步处理，有效减少工作站、服务器或服务器集群的运算负荷，使得非实时响应层的响应速度大幅度提高，并且使得远程服务器能够同时允许更多现场部署(快速响应层与实时响应层在现场部署)的访问请求和计算要求。

本发明提供的一种实现高速处理计算机视觉图像的分层计算方法具有可拓展性：通过在实时响应层和快速响应层之间增加反馈调节机制，使得快速响应层可以更有效的面向高层次处理需要。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种实现高速处理计算机视觉图像的分层计算方法，其特征在于，所述方法包括

所述快速响应层与图像传感器集成于同一芯片，

所述快速响应层对图像传感器输出的列并行数据流进行图像像素级并行运算处理，为所述实时响应层提供多个感兴趣区域和/或图像特征，其中，快速响应层包括处理单元阵列和存储器，存储器包括列储存器和帧储存器，列存储器存储多列像素信息；帧存储器存储一帧或多帧图像信息；

所述处理单元阵列包括K×L个处理单元，其中K为列像素个数，L为处理单元阵列的行数；每行处理单元以单指令多数据方式执行精简指令进行图像像素级并行运算；

所述实时响应层对所述感兴趣区域和/或图像特征实时进行目标检测、分类或识别，其中，所述实时响应层包括二维处理单元阵列，所述感兴趣区域和/或图像特征通过二维处理单元阵列以单指令多数据方式实现卷积神经网络的逐层并行运算，

所述卷积神经网络通过流水线模式逐层并行运算，包括：

在激活运算时，通过激活函数对卷积运算的输出结果的正负进行判断，若输入正数，则输出原值，若输入负数，则输出零；

2.根据权利要求1所述的分层计算方法，其特征在于，所述二维处理单元阵列包括M×N个二维处理单元，其中，M为二维处理单元阵列的行数，N为二维处理单元阵列的列数。

3.根据权利要求1所述的分层计算方法，其特征在于，所述卷积神经网络通过流水线模式逐层计算还包括池化层，所述池化层采用最大池化或均值池化降低卷积层输出数据的维度。

4.根据权利要求1所述的分层计算方法，其特征在于，所述非实时响应层包括工作站、服务器或服务器集群，所述工作站、服务器或服务器集群内部署多个CPU与GPU。