CN110555345A - 智能图像分析系统和方法 - Google Patents
智能图像分析系统和方法 Download PDFInfo
- Publication number
- CN110555345A CN110555345A CN201810556977.XA CN201810556977A CN110555345A CN 110555345 A CN110555345 A CN 110555345A CN 201810556977 A CN201810556977 A CN 201810556977A CN 110555345 A CN110555345 A CN 110555345A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- module
- original image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
公开了一种图像分析系统和方法。该系统包括:一种图像分析系统,包括:编解码模块,用于将输入的图像转换成图像分析所需格式的原始图像;图像处理模块,包括:图像缩放单元,用于将所述原始图像缩放成目标检测处理所需的大小,和原图缓存单元,用于缓存所述原始图像;以及神经网络计算模块,用于对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。由此,通过整合目标检测和识别,提升图像分析系统的流水线设计水平,从而通过硬件定制改善系统处理大数据图像分析的效率。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种智能图像分析系统和方法。
背景技术
目标检测和识别一直是学术界和工业界的一个重要研究方向。例如,视频监控系统以及大数据图像目标识别作为面向城市公共安全综合管理的物联网应用中智慧安防和智慧交通的重要组成部分,面临着深度应用的巨大挑战。不仅如此,目标检测和识别还在诸如游戏和辅助驾驶等领域内有着巨大的实用空间和潜在意义。
随着网络规模的不断增长,先进神经网络的链接数达到亿级。由于神经网络推理日益朝向计算和访存密集型发展,现有的通用处理器已经无法满足各类特定用途的神经网络分析对效率的要求。
因此,需要一种能够提升特定用途神经网络计算效率的系统和方法。
发明内容
鉴于上述的至少一个问题,本发明提出了一种智能图像分析方案,该方案通过整合目标检测和识别,提升图像分析系统的流水线设计水平,从而通过硬件定制改善系统处理大数据图像分析的效率。
根据本发明的一个方面,提出了一种智能图像分析系统,包括:编解码模块,用于将输入的图像转换成图像分析所需格式的原始图像;图像处理模块,包括:图像缩放单元,用于将所述原始图像缩放成目标检测处理所需的大小,和原图缓存单元,用于缓存所述原始图像;以及神经网络计算模块,用于对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
由此,通过在图像处理模块中同时包括缓存原图和图像缩放功能,能够更高效地实现神经网络计算模块针对同一图像的目标检测和识别,由此提升系统效率。
优选地,神经网络计算模块包括权重读取单元,所述权重读取单元针对所述目标检测计算和所述目标识别计算分别从外部存储器中读取不同的权重数据。神经网络计算模块可以包括卷积计算阵列,所述卷积计算阵列针对所述目标检测计算和所述目标识别计算被重复调用。针对不同推理目的重复使用相同的卷积计算阵列可以充分利用其并行度高、计算速度快的固有属性,从而提升系统效率。
图像处理模块还包括图像处理单元。在一个实施例中,图像处理单元可以用于基于所述神经网络计算模块获取的目标坐标值,向所述原图缓存单元中的原始图像添加用于指示所述目标的标注以用作输出。在另一个实施例中,图像处理单元可以用于基于所述神经网络计算模块获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。在一个实施例中,图像处理单元可以用于依据目标检测计算获取的所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图并将所述原始图像子图送入所述神经网络计算模块用于进行所述神经网络目标识别计算。由此,通过将各类图像处理功能整合在一个模块里,提升系统整体的调度水平,并由此提升系统效率。
编解码模块还可以用于将包含目标检测计算和/或目标识别计算的计算结果的图像转化为输出所需格式的图像,由此适应不同的输出需求。
优选地,编解码模块可以包括用于进行如下至少之一的模块:JPEG编解码模块;PNG编解码模块;以及视频编解码模块。JPEG编解码模块可以包括JPEG解码模块和JPEG编码模块,其中所述JPEG解码模块用于将输入的JPEG图像转换成RGB原始图像,所述JPEG编码模块用于将包含目标检计算和/或目标识别计算结果的RGB原始图像转换为JPEG图像进行输出。JPEG解码模块可以包括如下的任意多个单元:JPEG头文件解析单元、熵解码单元、反量化单元、反Z字形解码单元、反向离散余弦变换单元以及颜色空间转换单元;并且JPEG编码模块可以包括如下的任意多个单元:颜色空间转换单元、离散余弦变换单元、Z字形变换单元、量化单元、熵编码单元以及码流文件封装单元。相应地,视频编解码模块可以包括视频编码模块和视频编码模块,其中所述视频解码模块用于将输入的视频流转换成原始图像帧,所述视频编码模块用于将包含目标检计算和/或目标识别计算结果的原始图像帧转换为视频流进行输出。图像处理模块还包括图像处理单元,用于对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。由此,针对不同的应用场合,提供合适的编解码功能。
本发明的图像分析系统可以在采用深度流水线的单芯片中实现,例如定制的ASIC或FPGA芯片中实现。由此适应大数据处理中对高效的需求。
根据本发明的另一个方面,提供了一种智能图像分析方法,包括:将输入的图像转换成图像分析所需格式的原始图像;将所述原始图像缩放成目标检测处理所需的大小并缓存所述原始图像;以及对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
针对所述目标检测计算和所述目标识别计算可以分别从外部存储器中读取不同的权重数据。
针对所述目标检测计算和所述目标识别计算可以重复调用能够进行神经网络卷积计算的卷积计算阵列。
本发明的智能图像分析方法还可以包括基于所述神经网络目标检测计算获取的目标坐标值,向所述原图缓存单元中的原始图像添加用于指示所述目标的标注以用作输出。
本发明的智能图像分析方法还可以包括基于所述神经网络目标识别获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。
本发明的智能图像分析方法还可以包括将包含所述目标检测计算和/或所述目标识别计算的计算结果的图像转换为输出所需格式的图像并进行输出。
优选地,将输入的图像转换成图像分析所需格式的原始图像和/或将包含计算结果的图像转换为输出所需格式的图像包括如下至少之一的转换:JPEG图像与图像分析所需格式的原始图像之间的转换;PNG图像与图像分析所需格式的原始图像之间的转换;以及视频流与图像分析所需格式的原始图像帧之间的转换。
JPEG图像与图像分析所需格式的原始图像之间的转换可以包括如下至少之一:将输入的JPEG图像经由JPEG头文件解析、熵解码、反量化、反Z字形解码、反向离散余弦变换及颜色空间转换而转换成图像分析所需格式的原始图像;以及将包含目标检测计算和/或目标识别计算结果的原始图像经由颜色空间转换、离散余弦变换、Z字形变换、量化、熵编码以及码流文件封装转换为JPEG图像进行输出。
本发明的智能图像分析方法还可以包括对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。
根据本发明的另一个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述视频分析及其优选方法。
根据本发明的再一个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述视频分析及其优选方法。
本发明的智能图像分析系统通过将编解码模块、图像处理模块和神经网络计算模块进行深度流水线设计的高度定制化实现,能够同时对输入的不同图像进行针对不同阶段的并行处理,从而更为高效地处理例如安防系统中现有和每日新增的海量图像信息。进一步地,本发明的图像分析系统可以在采用深度流水线的单芯片中实现,例如定制的ASIC或FPGA芯片中实现,由此适应大数据处理中对高效和信息结构化的需求。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明一个实施例的智能图像分析系统的示意图。
图2示出了特定目标类型的目标属性分析结果的显示例。
图3示出了根据本发明一个实施例的JPEG图像智能分析硬件系统的示意图。
图4示出了根据本发明一个实施例的智能图像分析方法的流程示意图。
图5示出了根据本发明一个实施例的目标检测计算的数据处理流程的示意图。
图6示出了根据本发明一个实施例的智能图像分析计算的数据处理流程的示意图。
图7示出了根据本发明一个实施例可用于实现上述智能图像分析方法的数据处理的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
近年来随着人工智能技术的快速发展,特别是深度学习在人工神经网络优化方面获得突破,让安防整体系统得到前所未有的提升,也让行业属性得到较大延展。高清视频、智能分析、云计算以及大数据等相关技术的融合,使得安防行业从传统的被动防御向主动判断、主动预警方向发展,从单一的安全领域向多行业应用、提升生产效率、降低存储成本、提高智能化程度方向发展。
人工智能技术在安防领域的应用主要体现在两个方面:视频结构化技术和大数据技术。
视频结构化描述是一种视频内容信息提取的技术,其对视频内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息的技术。结构化信息包含目标检测、目标跟踪、目标识别三个过程。目标检测过程是从视频中提取出前景目标,然后识别出前景目标是有效目标还是无效目标;目标跟踪过程是实现特定目标在场景中的持续跟踪,并从整个跟踪过程中获取一张高质量图片作为该目标的抓拍照片。目标识别是对检测到的目标图片进行属性的识别,判断该目标具有哪些可视化的特征属性。
大数据技术则是一种能够更为经济且高效地从高频率的、大容量的、不同结构和类型的数据中获取有效信息的技术。在此,数据不仅仅是需要分析处理的内容,更是需要借助专门手段从大量看似杂乱且繁复的数据中,收集、整理和分析数据足迹,以对规划、预测和判断进行决策支持。
在数据中心服务器或安防服务器中存储或汇总有大量视频和图片,对这些图片的智能化应用需求越来越多。为了满足这种需求,本发明提出专门用于进行图像智能化分析的硬件系统及其处理方法,其能够以远远优于现有通用处理器的处理效率提供实施视频/图像结构化及大数据技术所需的信息。另外,本发明的图像分析系统和方法也不仅限于安防领域内的使用,而是可以适用于其他需要图像结构化和大数据技术的领域。
图1示出了根据本发明一个实施例的智能图像分析系统的示意图。如图所示,该图像分析系统100包括编解码模块110、图像处理模块120和神经网络计算模块130。在一个实施例中,该目标分析系统100可以在采用深度流水线的单芯片中实现,例如定制的ASIC或FPGA芯片,由此实现远胜于通用处理器的算法及系统优化加速,同时能够满足神经网络计算中高并行度的需求。
编解码模块110用于将输入的图像转换成图像分析所需格式的原始图像。例如,可以将数据中心中存储的JPEG图像转换成图像分析所需的RAW格式RGB图像。
图像处理模块120则包括图像缩放单元121和原图缓存单元122。对于经由编解码模块110得到的原始图像,可以直接缓存在原图缓存单元122中,同时可以将其送至图像缩放单元121,由后者将该原始图像缩放成(通常是缩小成)目标检测处理所需的大小。
神经网络计算模块130对经图像缩放单元121缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据坐标值从原图缓存单元122中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
由此,通过在图像处理模块中同时包括缓存原图和图像缩放功能,能够以更高地效率实现神经网络计算模块针对同一图像的目标检测和识别,由此提升系统效率。
在一个实施例中,神经网络计算模块130可以包括卷积计算阵列,该卷积计算阵列针对目标检测计算和目标识别计算被重复调用。针对不同推理目的重复使用相同的卷积计算阵列可以充分利用其并行度高、计算速度快的固有属性,从而提升系统效率。
在此,目标检测计算涉及对目标类别的鉴别,例如,使用卷积神经网络鉴别输入图像帧中特定子图中所包含的是行人、还是车等的类别。而目标识别计算则是在确定目标类别后对该目标属性的分析。在此,属性可以指代由人指定名称并能在图像中观察到的特性,它们是有价值的新的语义线索。实际需求中常常要做目标比对、目标检索、大数据分析等等,都需要提取出目标的属性。例如,如果后续应用需要在视频中搜索出所有沪A车牌号的车,那么可以对所有车(目标类型为车)都预先进行车牌识别(属性分析),将分析结果存储至本地或远程数据库,以方便后续搜索。
图2示出了特定目标类型的目标属性分析结果的显示例。在此,图2所示的特定格式图像(例如,JPEG图像)可以输入编解码模块110,后者将该图像转换成图像分析所需的格式,例如,RAW格式的原始图像。该原始图像随后可被送入图像处理模块120,其中的图像缩放单元121将该原始图像缩放成目标检测计算所需的大小,并将其送入神经网络计算模块130。原图缓存单元122则直接缓存该RAW格式原图。随后,神经网络计算模块130可以从外部存储器载入用于目标检测计算的权重(包括权重和偏移量)以使用其内的卷积计算阵列进行目标检测计算,获取的目标检测结果(目标的坐标信息)可用于从原图缓存单元122缓存的原始图像中提取包括该目标的子图,子图被再次送入神经网络计算模块130,后者于是可以从外部存储器载入用于目标识别计算的权重(包括权重和偏移量)以使用相同的卷积计算阵列进行目标识别计算,以获取该目标的相关属性,例如,图中示出的性别、年龄、体态和衣着特征等。上述获取的相关属性以及在前获取的坐标信息可以与原始图像相结合,以输出规定格式(例如,JPEG格式)的如图2所示的目标识别结果图像。
由上例可知,本发明的神经网络计算模块130可以包括权重读取单元。权重读取单元针对所述目标检测计算和所述目标识别计算分别从外部存储器中读取不同的权重数据。更具体地,该神经网络计算模块130具有能够实现主流卷积神经网络的硬件加速所需的各个模块。在一个实施例中,该计算模块可以包括片上缓存区、权重读取、中间结果写回、卷积计算阵列以及指令控制等模块。在具体的业务应用过程中,通常目标检测、质量控制以及目标识别计算依赖于不同的网络形态,因此需要读取不同的权重信息并多次调用该模块。卷积计算模块采用分层处理方式,当运算层的中间结果无法全部缓存于片上时,控制模块可以把中间结果写入到外部存储器中,并在需要时从外部存储器中取回上述中间结果。
本发明的图像处理模块120还可以进一步包括图像处理单元123,用于对图像分析过程中的图像进行所需的各类处理。在一个实施例中,从原图中抠取子图的处理可由该图像处理单元123实现。该图像处理单元123可以依据目标检测计算获取的坐标值从原图缓存单元122中抠取出包括所述目标的原始图像子图并将所述子图送入神经网络计算模块130用于进行所述神经网络目标识别计算。通过将子图抠取功能并入图像处理模块,能够以更高地效率实现针对图像的非卷积流水处理。
图像处理单元123还可以根据输出的需要,来对图像(尤其是针对原始图像)进行各类处理。在一个实施例中,图像处理单元123可以基于神经网络计算模块130在目标检测计算中获取的目标坐标值,向原图缓存单元122中的原始图像添加用于指示所述目标的标注以用作输出。所添加的标注可以是如图2所示的指示具体目标的圆点标注,也可以是将目标框起来的框,或者是其他符合指示和美学要求的标注。在另一个实施例中,图像处理单元123可以基于所述神经网络计算模块获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。例如,目标识别计算的目的可以在于识别出特定个体,因此可以将目标识别得到的人体特征信息(例如,人脸信息,体态信息等)与数据库中保持的人体信息(例如,黑名单库)相比对,以寻找特定个体。在其他实施例中,图像处理单元123可以根据具体输出的需求同时具有上述两种功能,或是其他功能,本发明在此不做限制。同样地,通过将图像处理也并入同一模块,能够进一步实现整合提升图像处理效率的有益效果。
根据具体实现,本发明的编解码模块110可以具有不同的构造。在一个实施例中,编解码模块110可以不仅仅用于输入图像到图像分析所需格式图像的编码,还可用于对包含图像分析结果的图像进行特定形式的编码以符合输出格式的需求。
在一个实施例中,本发明的智能图像分析模块可以是专用于JPEG图像分析和结果输出的采用深度流水线涉及的单芯片,例如ASIC芯片。由此,编解码模块110可以包括JPEG编解码模块,更具体地,可以包括JPEG解码模块和JPEG编码模块。JPEG解码模块可以用于将输入的JPEG图像转换成原始图像,例如,RGB的RAW格式图像。JPEG编码模块则可用于将包含目标检测计算和/或目标识别计算结果的原始图像转换为JPEG图像进行输出。图3示出了根据本发明一个实施例的JPEG图像智能分析硬件系统的示意图。图3所示的系统可以看作是图1所示图像分析系统用于JPEG图像分析的一个具体实现。
如图3所示,JPEG解码模块311可以包括如下的任意多个单元:JPEG头文件解析单元、熵解码单元、反量化单元、反Z字形解码单元、反向离散余弦变换(IDCT)单元以及颜色空间转换单元(YCbCr转换至RGB)。其中,熵解码单元利用熵解码表,反量化单元利用反量化表来实现各自的功能。由此,大量JPEG图像就可以从例如安防数据库顺序输入该JPEG解码模块311,后者将每一张JPEG图像经由上述操作解码成图像分析所需的格式,例如RAW格式,并将获取的RAW格式的原始图像分别送入图像处理模块310的不同处理单元中以进行后续处理。
图像处理模块310包括图像缩放单元321、原图缓存单元322和图像处理单元323。图像缩放单元121将分辨率较高的原始图像缩放为后续神经网络目标检测计算处理所需的小图并将其送至神经网络计算模块330。原图缓存单元322缓存分辨率较高的原始图像。图像处理单元323可以用于对图像进行各类处理,例如到检测过程中,实现检测结果在高分辨率原图中的标注处理;随后在识别过程中,实现在原图中包含检测结果的子图的抠取,并将抠取的子图送至神经网络计算模块以获取目标识别的特征信息;最后可用于把特征信息与数据库(例如,黑名单库)进行比对。
类似地,神经网络计算模块330具有能够实现主流卷积神经网络的硬件加速所需的各个模块。在一个实施例中,该计算模块可以包括片上缓存区、权重读取、中间结果写回、卷积计算阵列以及指令控制等模块。卷积计算阵列包含乘法器,加法树以及非线性操作,而池化操作及点乘(ELEMENTWISE)操作则可由独立运算指令控制完成。在具体的业务应用中,针对不同的计算读取不同的权重信息并多次调用该模块。卷积计算模块采用分层处理方式,当运算层的中间结果无法全部缓存于片上时,控制模块可以把中间结果写入到外部存储器中,并在需要时从外部存储器中取回上述中间结果。
在神经网络计算模块330完成对一副图像的目标检测与识别结算后,上述计算结果可以送入图像处理单元323,后者根据输出需要处理得到包括目标检测和/或目标识别结果的原始高分辨率图像。上述图像随后可以送入JPEG编码模块312。JPEG编码模块312可以用于实现原始图像到JPEG图像的编码。在一个实施例中,JPEG编码模块312包括如下的任意多个单元:颜色空间转换(RGB转换至YCbCr)单元、离散余弦变换(DCT)单元、Z字形变换单元、量化单元、熵编码单元以及码流文件封装单元。其中,熵编码单元利用熵编码表,量化单元利用量化表来实现各自的功能。由此,可以将包含目标检测和/或目标识别结果的原始高分辨率图像转换回JPEG格式并返回例如安防服务器。优选地,图3所示系统也支持旁路功能,可以不经图像编码而将图像处理模块310计算得到的智能结构化信息直接上传给上游模块进行分析。
在其他的实现中,本发明的智能图像分析系统也可以是针对其他情况的专用硬件系统。例如,编解码模块可以包括用于进行如下至少之一的模块:JPEG编解码模块;PNG编解码模块;以及视频编解码模块。在编解码模块包括视频编解码功能,或者是专用视频编解码模块的情况下,该模块可以包括视频编码模块和视频编码模块,其中所述视频解码模块用于将输入的视频流转换成RGB原始图像帧,所述视频编码模块用于将包含目标检计算和/或目标识别计算结果的RGB原始图像帧转换为视频流进行输出。相应地,图像处理模块中的图像处理单元还可以用于对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。
应该理解的是,可以按需任意选择编解码模块的具体构成,并且编码和解码模块不是必须要成对构成。例如,可以针对输入的视频流进行解码和分析,并相应的输出结果图片,而非视频流等。
如上结合图1和图3描述了根据本发明的图像分析系统及其优选实施例。本发明的图像分析系统通过将编解码模块、图像处理模块和神经网络计算模块进行深度流水线设计的高度定制化实现,能够同时对输入的不同图像进行针对不同阶段的并行处理,从而更为高效地处理例如安防系统中现有和每日新增的视频和图像信息。
如下将结合图4-6描述使用本发明智能图像分析系统的智能图像分析方法。图4示出了根据本发明一个实施例的智能图像分析方法的示意图。如图4所示,在步骤S410,将输入的图像转换成图像分析所需格式的原始图像。在步骤S420,将所述原始图像缩放成目标检测处理所需的大小并缓存所述原始图像。在步骤S430,对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
在一个实施例中,针对所述目标检测计算和所述目标识别计算可以分别从外部存储器中读取不同的权重数据,并且通过重复调用神经网络卷积计算的卷积计算阵列来进行计算。
在一个实施例中,该智能图像分析方法还可以包括基于所述神经网络目标检测计算获取的目标坐标值,向所述原图缓存单元中的原始图像添加用于指示所述目标的标注以用作输出。在另一个实施例中,该图像分析方法还包括可以基于所述神经网络目标识别获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。在又一个实施例中,该图像分析方法还可以包括将包含所述目标检测计算和/或所述目标识别计算的计算结果的图像转换为输出所需格式的图像并进行输出。
针对不同的实现,将输入的图像转换成图像分析所需格式的原始图像和/或将包含计算结果的图像转换为输出所需格式的图像包括如下至少之一的转换:JPEG图像与图像分析所需格式的原始图像之间的转换;PNG图像与图像分析所需格式的原始图像之间的转换;以及视频流与图像分析所需格式的原始图像帧之间的转换。
JPEG图像与图像分析所需格式的原始图像之间的转换包括如下至少之一:将输入的JPEG图像经由JPEG头文件解析、熵解码、反量化、反Z字形解码、反向离散余弦变换及颜色空间转换而转换成图像分析所需格式的原始图像;以及将包含目标检测计算和/或目标识别计算结果的原始图像经由颜色空间转换、离散余弦变换、Z字形变换、量化、熵编码以及码流文件封装转换为JPEG图像进行输出。而对于包括视频流处理的实现,图像分析方法还可以包括对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。
在一个实施例中,本发明的图像分析系统还可以实现单独的目标检测处理。图5示出了根据本发明一个实施例的目标检测计算的数据处理流程的示意图。
在接收到JPEG图像的输入后,在步骤S510进行解码操作,具体流程例如可如图3的JPEG解码模块进行的处理所示,并得到用于图像分析处理所需格式的原始图像,例如RGB原图。
随后在步骤S520,判断是否对解码得到的原始图像进行大小调整操作。如果是,则在步骤S530得到经调整的小图。如果否,则在步骤S525保留原图于片上缓存中。
小图随后在步骤S540被送入卷积神经网络进行计算,并在步骤S550得到检测目标的坐标信息。随后,在步骤S560,将得到的坐标信息标注在步骤S525保存的原图中,例如加画框。
随后基于具体实现在步骤S570判断是否需要JPEG输出。如果是,则在步骤S580将经标注的原图送入到JPEG编码模块并最终输出结构化图片信息。如果否,则在步骤S575,仅把坐标信息发给上游模块。
在一个实施例中,例如图3所示的JPEG图像智能分析硬件系统还可以实现针对JPEG图像的图像分析处理。图6示出了根据本发明一个实施例的图像分析计算的数据处理流程的示意图。
在接收到JPEG图像的输入后,在步骤S610进行解码操作,具体流程例如可如图3的JPEG解码模块进行的处理所示,并得到用于图像分析处理所需格式的原始图像,例如RGB原图。
随后在步骤S620,判断是否对解码得到的原始图像进行大小调整操作。如果是,则在步骤S630得到经调整的小图。如果否,则在步骤S625保留原图于片上缓存中。
小图随后在步骤S640被送入卷积神经网络进行检测网络的计算,并在步骤S650得到检测目标的坐标信息。随后,在步骤S660,基于得到的坐标信息从步骤S625中缓存的原图中抠出要进行目标识别的目标子图。随后在步骤S670,回到卷积神经网络进行识别网络的计算,并在步骤S680得到识别出的特征信息。
随后基于具体实现在步骤S690判断是否需要进行名单比对。如果是,则在步骤S695将对比后的识别结果和子图进行输出。如果否,则直接把子图和特征信息进行输出。
图7示出了根据本发明一个实施例可用于实现上述图像分析方法的数据处理的计算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。
存储器710可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、miniSD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器710上存储有可处理代码,当可处理代码被处理器720处理时,可以使处理器720执行上文述及的视频分析方法。
在一个实施例中,图1和3所示的SoC可以看做是图7所示计算设备的一个优选实现。
上文中已经参考附图详细描述了根据本发明的图像分析系统和方法。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (25)
1.一种智能图像分析系统,包括:
编解码模块,用于将输入的图像转换成图像分析所需格式的原始图像,
图像处理模块,包括:
图像缩放单元,用于将所述原始图像缩放成目标检测处理所需的大小,
原图缓存单元,用于缓存所述原始图像;以及
神经网络计算模块,用于对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
2.如权利要求1所述的系统,其中,所述神经网络计算模块包括权重读取单元,所述权重读取单元针对所述目标检测计算和所述目标识别计算分别从外部存储器中读取不同的权重数据。
3.如权利要求1所述的系统,其中,所述神经网络计算模块包括卷积计算阵列,所述卷积计算阵列针对所述目标检测计算和所述目标识别计算被重复调用。
4.如权利要求1所述的系统,其中,所述图像处理模块还包括图像处理单元,用于基于所述神经网络计算模块获取的目标坐标值,向所述原图缓存单元中的原始图像添加用于指示所述目标的标注以用作输出。
5.如权利要求1所述的系统,其中,所述图像处理模块还包括图像处理单元,用于基于所述神经网络计算模块获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。
6.如权利要求1所述的系统,其中,所述图像处理模块还包括图像处理单元,用于依据目标检测计算获取的所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图并将所述原始图像子图送入所述神经网络计算模块用于进行所述神经网络目标识别计算。
7.如权利要求1所述的系统,其中,所述编解码模块还用于将包含所述目标检测计算和/或所述目标识别计算的计算结果的图像转化为输出所需格式的图像。
8.如权利要求1或7所述的系统,其中,所述编解码模块包括用于进行如下至少之一的模块:
JPEG编解码模块;
PNG编解码模块;以及
视频编解码模块。
9.如权利要求8所述的系统,其中,所述JPEG编解码模块包括JPEG解码模块和JPEG编码模块,其中所述JPEG解码模块用于将输入的JPEG图像转换成原始图像,所述JPEG编码模块用于将包含目标检计算和/或目标识别计算结果的原始图像转换为JPEG图像进行输出。
10.如权利要求9所述的系统,其中,所述JPEG解码模块包括如下的任意多个单元:JPEG头文件解析单元、熵解码单元、反量化单元、反Z字形解码单元、反向离散余弦变换单元以及颜色空间转换单元;并且
所述JPEG编码模块包括如下的任意多个单元:颜色空间转换单元、离散余弦变换单元、Z字形变换单元、量化单元、熵编码单元以及码流文件封装单元。
11.如权利要求8所述的系统,其中,所述视频编解码模块包括视频编码模块和视频编码模块,其中所述视频解码模块用于将输入的视频流转换成原始图像帧,所述视频编码模块用于将包含目标检计算和/或目标识别计算结果的原始图像帧转换为视频流进行输出。
12.如权利要求8所述的系统,其中,所述图像处理模块还包括图像处理单元,用于对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。
13.如权利要求1所述的系统,其中,所述图像分析系统在采用深度流水线的单芯片中实现。
14.如权利要求1所述的系统,其中,所述单芯片是定制的ASIC或FPGA芯片。
15.一种智能图像分析方法,包括:
将输入的图像转换成图像分析所需格式的原始图像;
将所述原始图像缩放成目标检测处理所需的大小并缓存所述原始图像;以及
对经缩放的图像进行神经网络目标检测计算以获取目标的坐标值,并且依据所述坐标值从所述原图缓存单元中抠取出包括所述目标的原始图像子图进行神经网络目标识别计算以获取目标的识别特征。
16.如权利要求15所述的方法,其中,针对所述目标检测计算和所述目标识别计算分别从外部存储器中读取不同的权重数据。
17.如权利要求15所述的方法,其中,针对所述目标检测计算和所述目标识别计算被重复调用能够进行神经网络卷积计算的卷积计算阵列。
18.如权利要求15所述的方法,还包括基于所述神经网络目标检测计算获取的目标坐标值,向所述原图缓存单元中的原始图像添加用于指示所述目标的标注以用作输出。
19.如权利要求15所述的方法,还包括基于所述神经网络目标识别获取的目标的识别特征,与已有数据进行比对以获取所述目标的识别结果并用作输出。
20.如权利要求15所述的方法,还包括将包含所述目标检测计算和/或所述目标识别计算的计算结果的图像转换为输出所需格式的图像并进行输出。
21.如权利要求15或20所述的方法,其中,将输入的图像转换成图像分析所需格式的原始图像和/或将包含计算结果的图像转换为输出所需格式的图像包括如下至少之一的转换:
JPEG图像与图像分析所需格式的原始图像之间的转换;
PNG图像与图像分析所需格式的原始图像之间的转换;以及
视频流与图像分析所需格式的原始图像帧之间的转换。
22.如权利要求21所述的方法,其中,JPEG图像与图像分析所需格式的原始图像之间的转换包括如下至少之一:
将输入的JPEG图像经由JPEG头文件解析、熵解码、反量化、反Z字形解码、反向离散余弦变换及颜色空间转换而转换成图像分析所需格式的原始图像;以及
将包含目标检测计算和/或目标识别计算结果的原始图像经由颜色空间转换、离散余弦变换、Z字形变换、量化、熵编码以及码流文件封装转换为JPEG图像进行输出。
23.如权利要求21所述的方法,还包括对目标检测计算获得的目标进行跟踪和去重处理,以使得所述神经网络计算模块仅针对关键图像帧进行目标识别计算。
24.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求15-23中任一项所述的方法。
25.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求15-23中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810556977.XA CN110555345B (zh) | 2018-06-01 | 2018-06-01 | 智能图像分析系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810556977.XA CN110555345B (zh) | 2018-06-01 | 2018-06-01 | 智能图像分析系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555345A true CN110555345A (zh) | 2019-12-10 |
CN110555345B CN110555345B (zh) | 2022-06-28 |
Family
ID=68734575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810556977.XA Active CN110555345B (zh) | 2018-06-01 | 2018-06-01 | 智能图像分析系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555345B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079669A (zh) * | 2019-12-20 | 2020-04-28 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置及存储介质 |
CN111723719A (zh) * | 2020-06-12 | 2020-09-29 | 中国科学院自动化研究所 | 基于类别外部记忆的视频目标检测方法、系统、装置 |
CN112116079A (zh) * | 2020-09-22 | 2020-12-22 | 视觉感知(北京)科技有限公司 | 一种神经网络间数据传输的解决方法 |
CN112232336A (zh) * | 2020-09-02 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 一种证件识别方法、装置、设备及存储介质 |
CN112669286A (zh) * | 2020-12-29 | 2021-04-16 | 北京建筑材料检验研究院有限公司 | 基于红外热像的外墙外保温系统缺陷识别与损伤程度评价方法 |
CN113486062A (zh) * | 2021-07-02 | 2021-10-08 | 北京睿芯高通量科技有限公司 | 一种新型智能安防系统中的识别过滤方法及系统 |
CN115797228A (zh) * | 2023-01-30 | 2023-03-14 | 深圳市九天睿芯科技有限公司 | 一种图像处理装置、方法、芯片、电子设备及存储介质 |
CN115866298A (zh) * | 2022-11-24 | 2023-03-28 | 苏州睿芯通量科技有限公司 | 一种视频处理方法、系统、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267566A (zh) * | 2008-04-30 | 2008-09-17 | 华为技术有限公司 | 图像编码方法和装置 |
CN103530652A (zh) * | 2013-10-23 | 2014-01-22 | 北京中视广信科技有限公司 | 一种基于人脸聚类的视频编目方法、检索方法及其系统 |
CN106650691A (zh) * | 2016-12-30 | 2017-05-10 | 北京旷视科技有限公司 | 图像处理方法和图像处理设备 |
US20170286809A1 (en) * | 2016-04-04 | 2017-10-05 | International Business Machines Corporation | Visual object recognition |
CN107506707A (zh) * | 2016-11-30 | 2017-12-22 | 奥瞳系统科技有限公司 | 采用嵌入式系统中的小规模卷积神经网络模块的人脸检测 |
CN107679621A (zh) * | 2017-04-19 | 2018-02-09 | 北京深鉴科技有限公司 | 人工神经网络处理装置 |
CN107766812A (zh) * | 2017-10-12 | 2018-03-06 | 东南大学—无锡集成电路技术研究所 | 一种基于MiZ702N的实时人脸检测识别系统 |
CN107851191A (zh) * | 2015-07-09 | 2018-03-27 | 高通股份有限公司 | 用于图像中的对象检测的基于上下文的先验 |
-
2018
- 2018-06-01 CN CN201810556977.XA patent/CN110555345B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267566A (zh) * | 2008-04-30 | 2008-09-17 | 华为技术有限公司 | 图像编码方法和装置 |
CN103530652A (zh) * | 2013-10-23 | 2014-01-22 | 北京中视广信科技有限公司 | 一种基于人脸聚类的视频编目方法、检索方法及其系统 |
CN107851191A (zh) * | 2015-07-09 | 2018-03-27 | 高通股份有限公司 | 用于图像中的对象检测的基于上下文的先验 |
US20170286809A1 (en) * | 2016-04-04 | 2017-10-05 | International Business Machines Corporation | Visual object recognition |
CN107506707A (zh) * | 2016-11-30 | 2017-12-22 | 奥瞳系统科技有限公司 | 采用嵌入式系统中的小规模卷积神经网络模块的人脸检测 |
CN106650691A (zh) * | 2016-12-30 | 2017-05-10 | 北京旷视科技有限公司 | 图像处理方法和图像处理设备 |
CN107679621A (zh) * | 2017-04-19 | 2018-02-09 | 北京深鉴科技有限公司 | 人工神经网络处理装置 |
CN107766812A (zh) * | 2017-10-12 | 2018-03-06 | 东南大学—无锡集成电路技术研究所 | 一种基于MiZ702N的实时人脸检测识别系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079669A (zh) * | 2019-12-20 | 2020-04-28 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置及存储介质 |
CN111723719A (zh) * | 2020-06-12 | 2020-09-29 | 中国科学院自动化研究所 | 基于类别外部记忆的视频目标检测方法、系统、装置 |
CN112232336A (zh) * | 2020-09-02 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 一种证件识别方法、装置、设备及存储介质 |
CN112116079A (zh) * | 2020-09-22 | 2020-12-22 | 视觉感知(北京)科技有限公司 | 一种神经网络间数据传输的解决方法 |
CN112669286A (zh) * | 2020-12-29 | 2021-04-16 | 北京建筑材料检验研究院有限公司 | 基于红外热像的外墙外保温系统缺陷识别与损伤程度评价方法 |
CN113486062A (zh) * | 2021-07-02 | 2021-10-08 | 北京睿芯高通量科技有限公司 | 一种新型智能安防系统中的识别过滤方法及系统 |
CN115866298A (zh) * | 2022-11-24 | 2023-03-28 | 苏州睿芯通量科技有限公司 | 一种视频处理方法、系统、电子设备及存储介质 |
CN115866298B (zh) * | 2022-11-24 | 2023-12-19 | 苏州睿芯通量科技有限公司 | 一种视频处理方法、系统、电子设备及存储介质 |
CN115797228A (zh) * | 2023-01-30 | 2023-03-14 | 深圳市九天睿芯科技有限公司 | 一种图像处理装置、方法、芯片、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110555345B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555345B (zh) | 智能图像分析系统和方法 | |
Liang et al. | Traffic sign detection and recognition based on pyramidal convolutional networks | |
Zhou et al. | High-resolution remote-sensing imagery retrieval using sparse features by auto-encoder | |
US10055672B2 (en) | Methods and systems for low-energy image classification | |
Yu et al. | Stratified pooling based deep convolutional neural networks for human action recognition | |
Jiang et al. | Cascaded subpatch networks for effective CNNs | |
Karim et al. | Impact of compressed and down-scaled training images on vehicle detection in remote sensing imagery | |
Yang et al. | Aircraft detection in remote sensing images based on a deep residual network and super-vector coding | |
Yang et al. | A vehicle real-time detection algorithm based on YOLOv2 framework | |
CN110298213B (zh) | 视频分析系统和方法 | |
Li et al. | Lightweight ship detection methods based on YOLOv3 and DenseNet | |
US20160267324A1 (en) | Context-awareness through biased on-device image classifiers | |
CN114972763A (zh) | 激光雷达点云分割方法、装置、设备及存储介质 | |
CN106503112B (zh) | 视频检索方法和装置 | |
Ye et al. | Parallel multi-stage features fusion of deep convolutional neural networks for aerial scene classification | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
Li et al. | Enhanced bird detection from low-resolution aerial image using deep neural networks | |
Venkatesvara Rao et al. | Real-time video object detection and classification using hybrid texture feature extraction | |
Aldhaheri et al. | MACC Net: Multi-task attention crowd counting network | |
Qu et al. | Improved YOLOv5-based for small traffic sign detection under complex weather | |
Lv et al. | An improved efficient model for structure-aware lane detection of unmanned vehicles | |
Li et al. | I‐CenterNet: Road infrared target detection based on improved CenterNet | |
Liao et al. | A half-precision compressive sensing framework for end-to-end person re-identification | |
Wang et al. | Infrared Image Object Detection of Vehicle and Person Based on Improved YOLOv5 | |
Jin et al. | [Retracted] The Segmentation of Road Scenes Based on Improved ESPNet Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200902 Address after: Unit 01-19, 10 / F, 101, 6 / F, building 5, yard 5, Anding Road, Chaoyang District, Beijing 100029 Applicant after: Xilinx Electronic Technology (Beijing) Co., Ltd Address before: 100083, 17 floor, four building four, 1 Wang Zhuang Road, Haidian District, Beijing. Applicant before: BEIJING DEEPHI TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |