CN110400250B

CN110400250B - 基于ai的智能图像预处理方法及系统

Info

Publication number: CN110400250B
Application number: CN201910686581.1A
Authority: CN
Inventors: 吴华; 杨双; 于山虎; 韦统启; 孙鑫盛
Original assignee: Hangzhou Jingmou Intelligent Technology Co ltd
Current assignee: Hangzhou Jingmou Intelligent Technology Co ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2023-10-13
Anticipated expiration: 2039-07-29
Also published as: CN110400250A

Abstract

一种基于AI的智能图像预处理方法及系统，通过分批次从图像传感器获取传感信号并进行人工智能处理，将处理结果输出至图像传感器进行选择性优化，并由图像传感器将优化后的传感信号输出至图像信号处理器生成数字图像。本发明可针对不同应用和需求灵活调整AI处理方式以及最终成像的策略；此外本发明对图像传感器缓存要求低，只需少量缓存即可完成对整张图片的处理，显著降低了硬件成本和功耗。本发明在对输入图像进行AI处理时能够根据适应场合包含更多垂直方向的像素信息，可在保证不增加硬件成本的前提下，提高智能摄像头在对垂直方向上下文信息较敏感的应用领域的算法性能。包括但不限于人脸检测、行人检测、车辆识别等。

Description

基于AI的智能图像预处理方法及系统

技术领域

本发明涉及的是一种人工智能图像处理领域的技术，具体是一种基于AI的智能图像预处理方法及系统。

背景技术

现有的智能摄像头基于人工智能(AI)技术，通过图像传感器采集原始像素图片，由图像信号处理器(ISP)处理得到RGB彩色图片后再由AI模块对RGB图像进行卷积神经网络(CNN)等处理。在此方案中，AI模块位于ISP后端，AI处理的效果受限于ISP处理的能力。

发明内容

本发明针对现有传感器硬件及带宽的限制使得ISP对图像处理的效果无法满足工业需要，提出一种基于AI的智能图像预处理方法及系统，利用了CNN计算中输入图像与输出特征图在空间位置上具有对应关系的特点，在ISP进行RGB成像前先进行AI处理，使应用方式更加灵活，辅以缓存优化策略，能够在不额外增加硬件资源的前提下，以更好的效率进行AI处理，使更加智能的成像策略成为可能。

本发明是通过以下技术方案实现的：

本发明涉及一种基于AI的智能图像预处理方法，通过分批次从图像传感器获取传感信号并进行人工智能处理，将处理结果输出至图像传感器进行选择性优化，并由图像传感器将优化后的传感信号输出至图像信号处理器生成数字图像。

所述的分批次，按行从图像传感器取像素数据以保证在有限的缓存完成全图的运算。

所述的分批次，优选以不同长度的行从图像传感器取像素数据，经堆叠多行像素以提高对于纵向目标应用的性能。

所述的人工智能处理采用但不限于深度神经网络中的卷积神经网络结构在分批次获得的传感信号上分块进行特征提取。

所述的选择性优化包括但不限于局部压缩、局部放大、动态模糊等处理。

本发明涉及一种基于AI的智能图像预处理系统，包括：设置于图像传感器和ISP之间的用于识别信息的AI模块、缓存模块和行选择模块，其中：行选择模块分别与用于感光的图像传感器和缓存模块相连，控制图像传感器将按选定的行进行扫描并将得到的图像传感信号通过缓存模块保存，AI模块与缓存模块相连并以分批次的形式接收图像传感信号、进行识别处理并输出识别结果至图像传感器，图像传感器将选择性优化后的图像传感信号输出至ISP以生成数字图像。

所述的缓存模块，优选每次输出选定的行的图像传感信号中的一部分至AI模块。

技术效果

与现有技术相比，本发明可针对不同应用和需求灵活调整AI处理方式以及最终成像的策略；此外本发明对图像传感器缓存要求低，只需少量缓存即可完成对整张图片的处理，显著降低了硬件成本和功耗。本发明在对输入图像进行AI处理时能够根据适应场合包含更多垂直方向的像素信息，可在保证不增加硬件成本的前提下，提高智能摄像头在对垂直方向上下文信息较敏感的应用领域的算法性能。包括但不限于人脸检测、行人检测、车辆识别等。

附图说明

图1为本发明ASIC架构示意图；

图2为本发明CNN计算示意图；

图3为按行缓存示意图；

图4为按行部分缓存示意图；

图5为实施例流程示意图；

图6为实施例中卷积示意图；

图7为实施例效果简图。

具体实施方式

本实施例采用集成电路(ASIC)替代传统的AI芯片，并使用叠层技术将ASIC集成到图像传感器中，并利用了CNN计算中涉及的输入图像与输出特征图在空间位置上具有对应关系这一特点，让传感器扫描像素阵列与CNN的计算同步进行：图像传感器将按行扫描所得的像素信息存入缓存中，存满后便进行一次CNN计算，然后再继续对下面的像素进行扫描。这样，不需要一次性输入完整图片，降低对缓存大小的要求，在有限的硬件存储资源下，便可以完成整个计算任务。

如图3所示，当图像传感器上包含N行M列个像素阵列时，需要的缓存的大小为n×M，其中：N优选为缓存的行数n的整数倍。

在某些计算机视觉应用中，人们关注的目标在垂直方向上包含更多的上下文信息，如人脸检测、行人检测等。此时上述的按行输入的方式会在一定程度上丢失图片中的上下文信息。

如图4所示，本实施例中进一步优选在扫描每行像素后，仅将每行的前半部分数据存入缓存，待缓存存满后进行CNN运算。这种方法下，AI模块的输入将包含更多垂直方向的信息。但由于每帧图像仅处理了左半部分数据，因此在下一帧时交替处理图像的右半边。对于人脸检测、行人检测等任务，隔帧的处理对实际使用影响不大，但却可以提高检测的准确性。

当每次存入缓存的数据为像素阵列宽度的一半时，对应每次输入到AI模块的数据为原行数的两倍，原列数的一半。在不同的应用场合下，可每次取像素阵列一行中的k分之一数据存入缓存，将整幅图片分k次处理完毕，其中k为M的因数。

本实施例以1920×1080分辨率的图片为例，当每次读取传感器扫描像素阵列中的32行或64行送入AI模块进行计算，那么则只需要32KB或64KB左右的缓存即可实现现有方法中需要2MB缓存才能达到的相同效果。当图像分辨率翻倍时，本方法依然可以使用32KB或64KB的缓存来实现相同的功能，不受分辨率影响。

如图5所示，本实施例的具体操作步骤包括：

步骤一，像素阵列根据时隙对影像感光，并将采集到的第i帧光信号转化为模拟电信号，并进一步通过自带电路进行量化处理。

步骤二，缓存模块按行读取像素阵列中的信号数据，每次仅读取k×n行数据中的第列至第/>列，即整行数据的/>后进入下个k×n行读取，直至缓存模块存满。

这样的操作可使每次处理的输入图形更趋近竖直型，图像包含更多垂直方向的信息，这有利于对垂直方向信息较敏感的应用，如人脸检测(人脸是竖直形的，且竖直方向的人体信息对人脸的判别也有帮助)等。K值越大，竖直方向信息越多。其次，分批次处理使一整副画面要经过k帧才会全部处理完。例如人脸检测等任务，画面会每k帧全部更新一次。有些任务对于这种延迟并不敏感，在一定程度上可以容忍(如检测类)。K值越大，延迟越高。

本实施例在行人检测任务上做了一组对比实验，主要观察k值的选取对检测效果的影响。本实施例固定输入的图像大小为1600×1600，缓存大小设定为400×1600。

当k分别取1，2，4进行测试。即每次输入缓存的图形分别为：400×1600、800×800、1600×400。测试数据集使用行人检测数据集Caltech。本实施例的评测标准为log-averagemissrate(MR)。该指标越大代表丢失越多，检测效果就越差，越小代表检测效果越好。本实施例的实验模型基于经典的检测模型Faster RCNN网络进行了修改，将其中的主干网络VGG替换为Mobilenet(经典的Faster RCNN过于庞大，不便于测试，因此将其修改为较小的Mobilenet版本)。

实验结果如下表：

K值	1	2	4
				MR指标	30.71	25.05	24.60

从上表中可以看出，随着k增大(包含更多竖直方向信息)，行人检测的效果会更好。但k值由2增大至4时，对检测效果的提升已经不明显。

步骤三，将缓存模块中的信号数据输入到AI模块进行识别处理并将识别结果输出至图像传感器。

所述的识别，包括但不限于CNN运算和/或对接收到的图像进行分析，例如，对于人脸识别任务，AI模块输出的是人的身份ID；对于人脸属性分析任务，AI模块输出的是性别、年龄、颜值等等；对于本例中的人脸检测任务，AI模块输出的是图像中人脸的位置和大小，如中心点位置及宽高。

所述的CNN运算，如图6所示，具体包括：

3.1)在缓存模块中的信号数据的矩阵上设置一个和卷积核相同尺寸的滑窗，然后将滑窗里的部分与卷积核对应的位置相乘，以下为两个卷积核为例；

3.2)将若干个矩阵产生的结果求和，并加上偏置项，得到了输出的特征矩阵的一个元素值；

3.3)对每一个卷积核均执行步骤3.1和步骤3.2，便可得到第一个元素：

3.4)滑动窗口移动步长后重复执行上述步骤，直至遍历整个缓存模块中的信号数据的矩阵。

步骤四，重复步骤二和步骤三次，即直至当前帧像素阵列中的N行、/>列的信号数据处理结束。

步骤五，重复步骤一至步骤四，即像素阵列采集时隙上的下一帧，重复k次直至从空间上获得完整N×M的像素信息。

步骤六，图像传感器根据来自AI模块的识别结果对信号数据进行选择性优化处理，并将优化处理后的结果输出至ISP以生成数字图像。

本实施例优选适用于安防领域或某些需要对视频中感兴趣区域(ROI)做特殊处理的领域，通过将AI模块提前，与传感器结合。使用人脸检测功能对传感器获取的信息进行分析，获取人脸区域的位置。此时，获取了人脸位置后的传感器便更加“智能”，在图像压缩过程中，选择性的对人脸区域不进行压缩，而对背景区域进行更高比例的压缩，从而在相同的带宽下，提供给ISP一张保留更多ROI区域信息的压缩图像。

如图7所示，针对一张1000w像素的图像，通过本实施例方法，无需更换更加昂贵的ISP即可处理ROI区域的高清图像供后续进行人脸识别，便可以提高人脸识别的准确性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于AI的智能图像预处理系统，其特征在于，包括：设置于图像传感器和ISP之间的用于识别信息的AI模块、缓存模块和行选择模块，其中：行选择模块分别与用于感光的图像传感器和缓存模块相连，控制图像传感器将按选定的行进行扫描并将得到的像素传感信号通过缓存模块保存，AI模块与缓存模块相连并以分批次的形式接收像素传感信号、进行识别处理并输出识别结果至图像传感器，图像传感器将选择性优化后的像素传感信号输出至ISP以生成数字图像；

所述的缓存模块，每次输出选定的行的像素传感信号中的一部分至AI模块，即每次取像素阵列一行中的k分之一数据存入缓存，将整幅图片分k次处理完毕，其中k为M的因数；

所述的缓存模块每次存入缓存的数据为像素阵列宽度的一半时，对应每次输入到AI模块的数据为原行数的两倍，原列数的一半；当图像传感器上包含N行M列个像素阵列时，需要的缓存的大小为n×M，其中：N为缓存的行数n的整数倍；

所述的智能图像预处理是指：通过分批次从图像传感器获取传感信号并进行人工智能处理，将处理结果输出至图像传感器进行对应的选择性优化，并由图像传感器将优化后的传感信号输出至图像信号处理器生成数字图像；

所述的分批次，按行从图像传感器取像素数据以保证在有限的缓存完成全图的运算；

所述的人工智能处理是指：对传感信号进行人脸检测，获取人脸区域的位置；所述的对应的选择性优化是指：在图像压缩过程中，选择性地对人脸区域不进行压缩，而对背景区域进行更高比例的压缩；

所述的分批次，以不同长度的行从图像传感器取像素数据，经堆叠多行像素以提高对于纵向目标应用的性能；

所述的人工智能处理采用深度神经网络中的卷积神经网络结构在分批次获得的传感信号上分块进行特征提取；

所述的分批次，具体是指：按行读取像素阵列中的信号数据，每次仅读取k×n行数据中的第列至第/>列，即整行数据的/>后进入下个k×n行读取，直至缓存模块存满后将信号数据进行CNN运算后将结果输出至图像传感器；重复上述步骤/>次，即直至当前帧像素阵列中的N行、/>列的信号数据处理结束；像素阵列采集时隙上的下一帧，重复上述步骤k次直至从空间上获得完整N×M的像素信息。