CN102306371B - 一种分层并行的模块化序列图像实时处理装置 - Google Patents

一种分层并行的模块化序列图像实时处理装置 Download PDF

Info

Publication number
CN102306371B
CN102306371B CN 201110199079 CN201110199079A CN102306371B CN 102306371 B CN102306371 B CN 102306371B CN 201110199079 CN201110199079 CN 201110199079 CN 201110199079 A CN201110199079 A CN 201110199079A CN 102306371 B CN102306371 B CN 102306371B
Authority
CN
China
Prior art keywords
module
data
control
processing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110199079
Other languages
English (en)
Other versions
CN102306371A (zh
Inventor
张天序
颜露新
钟胜
黎云
王泽�
翁凯剑
朱智
汤功超
李耀波
王春联
王晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN 201110199079 priority Critical patent/CN102306371B/zh
Publication of CN102306371A publication Critical patent/CN102306371A/zh
Application granted granted Critical
Publication of CN102306371B publication Critical patent/CN102306371B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种分层并行的模块化序列图像实时处理装置,包括控制层、中间层和运算层,控制层具有总控与调度模块,中间层包括多个数据流传输控制通道和多个指令流通信控制模块,每个数据流传输控制通道与一个指令流通信控制模块对应,所述数据流传输控制通道上连接有高速互连接口模块和显示模块;运算层包括多个处理节点,每个处理节点与一个数据流传输控制通道和一个指令流通信控制模块对应。本发明可有效的满足高速运动平台条件下退化序列图像的校正及后续处理操作的实时性要求,并实现了分布式系统中各个基本处理单元之间的高速数据交换机制和消息同步机制,能适应多种不同的图像处理任务要求和处理方法,具有很好的实时性、可靠性和灵活性。

Description

一种分层并行的模块化序列图像实时处理装置
技术领域
本发明属于图像处理技术领域,具体涉及一种分层并行的模块化序列图像实时处理装置,应用于高速运动平台下退化图像的实时校正及后续图像处理。
背景技术
高速机动平台条件下所挂载的图像处理机,要处理高帧频序列图像的恢复校正、目标检测识别等复杂任务,要求具有:处理速度快;体积小、重量轻;处理流程灵活,能适应不同任务要求和多样化的算法应用等特点。其中,系统的实时性能、体积、功耗等因素在动平台设计中经常成为难以突破的瓶颈。
为提高系统的实时性能,在硬件设计中采用并行处理技术显得尤为重要,它是提高图像处理速度的最有效技术手段,其发展水平一直受到图像处理领域研发人员的关注。但是图像并行处理技术的发展难度很大,这种难度不仅在于图像处理系统的高性能处理电路和高速率通信电路设计本身,以及它对计算机技术和集成电路等技术的依赖关系,而且在于灵活、高效、高可靠的系统结构设计。简单的进行处理器件的堆积根本无法充分发挥每个处理器件的最佳性能,不能实现全部处理能力的叠加。系统结构必须在考虑实际应用复杂性的基础上通过灵活、高效的互连结构,合理、正确的模块划分来实现最高性价比。
当前国内外工业界与一些高校已研制出了一些图像并行处理系统。英国INMOS公司设计的IMS A100级联信号处理器、清华大学研制的GIEB微机高速图像处理系统、以及其它类似基于网络环境的多机处理系统都是大规模图像并行处理机的典范。但是这些系统规模庞大,集成度低,不能满足嵌入式系统设计的要求;而且由于以太网通信延迟等问题,多机并行处理效率不高;另外由于系统无法接收外部相机数据的直接输入,因此不能实时的完成序列图像恢复校正、目标检测识别等任务。
加拿大Matrox公司采用TMS320C80芯片设计的GENESIS图像处理系统处理任务单一,结构不灵活,处理能力较弱,使得其应用受到限制。华中科技大学图像所研制了基于ADI的TS201DSP芯片的多DSP并行实时处理系统。该系统完成一帧大小为64×64×8bit输入图像的恢复处理任务,处理延时大于40ms,即处理帧频峰值为25帧/秒,在高速机动平台条件下,实时性能还无法满足要求,且不能处理多路图像序列。从整个系统设计来看,它是采用多片处理能力较强的浮点DSP处理器分担相同任务的方法来达到提高系统处理速度的目的,选用的DSP芯片数量较多,而浮点DSP处理器的功耗较大,因而导致系统功耗大,散热困难。
综合上述提到的制约因素,在高速平台条件下,现有的处理装置均不能满足多路高帧频序列图像的实时处理、小体积、低功耗、以及应对各种复杂处理任务的要求。
发明内容
本发明的目的在于基于上述技术问题,提出一种分层并行的模块化序列图像实时处理装置,采用分层结构和灵活互连的并行处理器体系结构,为并行操作系统提供支撑,可方便扩充和裁剪,适应任务重、轻的不同需求,适应算法可变的要求,各模块既可运行同一算法但不同的数据,也可运行不同算法同一数据,不仅可处理单谱段图像,还可实时处理多谱段多路序列图像,十分灵活,功能强大。
为实现上述目的,采用的具体技术方案如下:
一种分层并行的模块化序列图像实时处理装置,用于在高速机动平台条件下对红外成像数据的实时处理,其特征在于,该装置包括控制层、中间层和运算层,其中,
所述控制层具有总控与调度模块;
所述中间层包括多个数据流传输控制通道和多个指令流通信控制模块,每个数据流传输控制通道与一个指令流通信控制模块对应,用于实现数据流的传输,所述数据流传输控制通道上连接有高速互连接口模块和显示模块;
所述运算层包括多个处理节点,每个处理节点与一个数据流传输控制通道和一个指令流通信控制模块对应,用于完成图像数据的运算处理;
图像采集设备上的图像数据经高速互连接口模块传输到中间层,同时所述总控与调度模块产生分发控制指令输入到指令流通信控制模块进行译码解析后,控制所述数据流传输控制通道将图像数据传输到所述处理节点进行计算处理,处理后的数据返回到中间层并经数据流传输控制通道输入到显示模块进行显示,同时输入到高速互连接口模块以输送到外部。
不同层次结构的部件在任务处理过程中各司其职,各模块的运行机制由其上层模块控制并管理其下层模块的运行,同一的层次结构间的模块又具有相对独立性,并行的处理其相应的任务。该结构为并行操作系统提供支撑,可方便扩充和裁剪,适应任务重轻的不同需求,适应算法可变的要求,各模块或可运行同一算法但不同的数据,或可运行不同算法同一数据,或可对多路序列图像进行处理。
总控与调度模块与指令流通信控制模块通过总控通信接口互连,数据流传输控制通道和指令流通信控制模块与处理节点通过高速数据交互接口和控制指令通信接口互连;
总控与调度模块根据输入的图像数据与所需处理的任务的不同,控制其下层部件实现相应功能。对于单路序列图像,可根据任务量大小,既可由一组模块包括数据流传输控制通道、指令流通信控制模块和处理节点组成子系统完成一路序列图像的处理;也可将单路序列图像拆分为多块,由各子系统并行的完成该路序列图像的处理。对于并行输入的多路序列图像,可由各子系统分别完成一路图像的处理任务。
数据流传输控制通道通过高速互连接口模块接收输入的原始图像数据,并发送给处理节点中对应基本处理单元进行处理。处理后的结果数据通过高速互连接口模块输出,并同时送往显示模块进行显示。
指令流通信控制模块接收并响应总控与调度模块的指令,完成处理节点中的任务调度和进程管理功能。
处理节点包括n(n为正整数)个基本处理单元。它通过高速数据互连接口连接到一个数据流传输控制通道上。处理节点4完成以下任务:①接收数据流传输控制通道2发送的原始图像数据;②接收指令流通信控制模块3发送的调度控制指令;③完成该处理节点自身的计算处理任务;④向数据流传输控制通道2返回处理结果;⑤向指令流通信控制模块3反馈运行状态。
本发明结合高速机动平台条件下的应用背景和用户需求提出并实现了一种分层并行的模块化序列图像实时处理装置。它在图像数据处理方面的一大特点在于它的分层体系结构与并行处理特性,不同层次结构的部件在处理过程中各司其职,由上层模块控制并管理其下层模块的运行,同一层次结构间的模块又具有相对独立性,可以并行进行相应任务的处理。本发明不仅能适应单谱段图像处理,还能适应多谱段图像的并行实时处理,并根据任务轻重可灵活调整各层级结构的处理策略,可以有效的适应在高速机动平台条件下对红外成像数据进行高效实时处理的特殊要求。
和以往传统技术相比,本发明的创新点是:
(1)实时性:本发明具有独立的图像数据采集接收和图像处理的功能,图像的接收与处理并行的执行,接收帧率和图像处理时间可以较好的达到无缝衔接(单个基本处理单元完成对64*64大小图像的恢复校正、目标跟踪及检测所需时间为35ms,4个基本处理单元同时运行时处理帧频可达到112Hz),能够实时高速完成大数据吞吐量、高数据率图像处理。
(2)可靠性:本发明装置根据其系统层次结构和任务功能可以划分为两级容错机制:中间层容错和运算层容错。
其中,中间层容错通过引入同步控制机制,实现下一层次中处理节点内部各个基本处理单元之间的并行工作,并可以通过处理节点通信控制模块和同步通信模块对基本处理单元之间运算状态进行检测,以此来判断各个基本处理单元本身或基本处理单元之间的同步并行处理机制是否有故障产生。
运算层容错则是运行在基本处理单元内部,主要通过在同步通信模块和计算模块之间建立握手通信机制,依据超时判断等方法来检测是否有故障产生。
(3)灵活性:本发明装置的灵活性体现在硬件结构与算法软件实现两个方面。
硬件结构特点主要体现在:层次化的设计结构能够对控制层和中间层的控制功能节点与运算层的处理功能节点进行有效的划分和隔离。从而利于在不改变系统结构的情况下,高效的实现处理功能节点的裁剪或扩展。可根据不同功能与处理性能的需求对本装置进行硬件配置上的改动(如增减中间层控制功能节点与运算层处理功能节点的个数),从而使得该装置成为一个可裁剪、可扩展,灵活性较强的系统。
在算法软件实现方面的灵活性特点体现在:硬件描述语言所实现的功能模块在C语言程序代码中的灵活调用。基本处理单元内部划分为计算模块和同步通信模块,在实施例中,分别采用现场可编程门阵列(FPGA)和数字信号处理器(DSP)实现。将FPGA中由硬件描述语言实现的加速处理功能模块进行接口封装后整合成可供DSP程序设计人员调用的功能扩展指令集,这样当算法流程进行局部修改时,设计人员仅仅只需要修改DSP上运行的C代码即可完成基本处理单元中的算法功能模块重组,实现新的算法流程,有效的降低了系统研发难度,节省了硬件模块的研发时间。
该装置与传统的基于多台高性能计算机组成的多机系统相比,其体积和功耗与多机系统相比大大减小,结构也较基于多台高性能计算机组成的多机系统简化,可以直接进行嵌入式处理系统应用。与已有的多DSP结构嵌入式图像处理系统相比,其处理能力有了显著的提高,能够完成高速机动平台条件下多谱段多路高帧频序列图像的恢复校正、目标检测识别等复杂任务。
附图说明
图1是本发明装置的分层体系示意图。
图2是本发明装置的结构模块框图。
图3是数据流传输控制通道详细模块框图。
图4是指令流通信控制详细模块框图。
图5是处理节点详细模块框图。
图6为本发明的一个实施例的详细模块框图。
图7为本发明的一个实施例四组基本处理单元的空间并行处理模式示意图。
图8为本发明的一个实施例四组基本处理单元的时间流水并行处理模式示意图。
图9为本发明的一个实施例的硬件结构整体框图。
图10是本发明的一个实施例的数据流传输控制通道原理框图。
图11是本发明的一个实施例的基本处理单元内部原理框图。
图12是本发明的一个实施例的基本处理单元FPGA的内部原理框图。
图13是本发明的一个实施例的基本处理单元FPGA内部以乘法器为例描述总线互连的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1和图2所示,本发明的一种分层并行的模块化序列图像实时处理装置,为分层并行的体系结构,包括控制层、中间层和运算层。其中,控制层包括总控与调度模块1,用于完成装置的总体控制与任务调度;中间层包括m(m为正整数)个数据流传输控制通道2和m个指令流通信控制模块3,每个数据流传输控制通道2与一个指令流通信控制模块3对应,用于实现数据流的传输,并响应控制层的控制指令和运算层的反馈控制指令;运算层包括m个处理节点4,用于完成图像数据的运算处理;数据流传输控制通道2上连接有高速互连接口模块5和显示模块6,高速互连模块5用于完成本装置与外部系统的通信,而显示模块6用于将处理后的结果图像由数据流传输控制通道2输出到显示电路。
图像采集设备上的图像数据经高速互连接口模块5传输到中间层,控制层的总控与调度模块1产生分发控制指令输入到中间层上的指令流通信控制模块3,经该指令流通信控制模块3进行译码解析后控制数据流传输控制通道2将图像数据传输到运算层上的处理节点4进行计算处理,处理后返回到中间层并经控制数据流传输控制通道2输入到显示模块6进行显示,同时输入到高速互连接口模块5,进而输送到外部系统。
其中总控与调度模块1与指令流通信控制模块3通过总控通信接口互连,数据流传输控制通道2和指令流通信控制模块3与处理节点4分别通过高速数据交互接口和控制指令通信接口互连。
总控与调度模块1根据输入的图像数据与所需处理的任务的不同,产生相应的分发控制指令以控制中间层和运算层实现相应功能。对于单路序列图像,可根据任务量大小,既可由一组模块包括数据流传输控制通道2、指令流通信控制模块3和处理节点4组成一个子系统,它完成对一路序列图像的处理;也可将单路序列图像拆分为多块,由各子系统并行的完成该路序列图像的处理。对于并行输入的多路序列图像,可由各子系统分别完成一路图像的处理任务。
数据流传输控制通道2通过高速互连接口模块5接收输入的原始图像数据,并发送给处理节点4中对应基本处理单元41进行处理。处理后的结果数据通过高速互连接口模块5输出,并同时送往显示模块6进行显示。
指令流通信控制模块3接收并响应总控与调度模块1的分发控制指令与处理节点4的运行状态反馈指令,完成处理节点4中的任务调度和进程管理功能。
每个处理节点4中包括n个基本处理单元41(n为正整数),并通过高速数据互连接口连接到一个数据流传输控制通道2上。处理节点4完成以下任务:
①接收数据流传输控制通道2发送的原始图像数据;
②接收指令流通信控制模块3发送的调度控制指令;
③完成该处理节点自身的计算处理任务;
④向数据流传输控制通道2返回处理结果;
⑤向指令流通信控制模块3反馈运行状态。
如图3所示,数据流传输控制通道2包括命令解释译码模块21、总线通路模块22、显示控制模块23和图像收发缓存模块24;
命令解释译码模块21对指令流通信控制模块3发送的控制命令进行译码解析,控制总线通路模块22、显示控制模块23和图像收发缓存通路24的工作状态;总线通路模块22包括图像源数据获取与分发模块221和处理结果采集与组合模块222,主要完成图像源数据的接收转发和结果数据的采集组合;显示控制模块23完成显示模块的接口控制功能;图像收发缓存通路24包括n个图像收发缓存241,实现与处理节点4的数据交互。
如图4所示,指令流通信控制模块3包括总控指令译码模块31、传输通道控制模块32和处理节点通信控制模块33。
总控指令译码模块31用于完成对总控与调度模块1的控制命令的译码、解析,同时将命令发送给数据流传输控制通道2和处理节点4;传输通道控制模块32和处理节点通信控制模块33分别实现接口通信控制功能。
如图5所示,处理节点4包括n个基本处理单元41,所述每个基本处理单元41包括计算模块411和同步通信模块412。计算模块411用于完成对图像的运算处理任务;同步通信模块412用于协调各个基本处理单元41的并行工作,并将基本处理单元41的工作状态反馈给指令流通信控制模块3。
如图6所示,为本发明的一个优选实施例的详细模块框图。该实施例包括总控与调度模块1、显示模块6、以及一个数据流传输控制通道2、一个指令流通信控制模块3、一个处理节点4和一个高速互连接口模块5,处理节点4包括四个基本处理单元41。它应用于高速机动平台条件下,完成图像校正复原、目标捕获及跟踪等实时处理任务。
在空间并行处理阶段,四组基本处理单元采用如图8所示的空间并行处理模式。四组基本处理单元同时分别处理整幅图像的一个部分,实现图像的校正复原与目标捕获功能,并指出跟踪区域,即下一帧图像处理的感兴趣区域。在时间流水并行处理阶段,四组基本处理单元采用如图9所示的时间流水并行处理模式。由基本处理单元1、2、3、4分别完成第N-3帧、第N-2帧、第N-1帧、以及第N帧图像感兴趣区域校正与跟踪处理任务。
图10为本发明的一个优选实施例的硬件结构整体框图。该实例采用的硬件结构方案由五片现场可编程逻辑门阵列(FPGA)芯片、四片数字信号处理器(DSP)芯片、四个ASIC芯片以及各自的存储配置芯片组成。
高速互连接口模块5由AFI_LINK全双工同步通信端口、LVDS并串收/发单元组成。AFI_LINK全双工同步通信端口实现与外部系统的互连。LVDS并串收/发单元使用NS公司的Channel LINK芯片组DS92LV18芯片实现。
DS92LV18为一款数据位宽为18bit的全双工LVDS收发芯片。其收发模块是相互独立的,可以各自独立工作,而且可以有不同的参考工作时钟。在本模块内,由于与模块外的通信位宽为32位,因此需要采用两片DS92LV18并联的方式。
总控与调度模块1、数据流传输控制通道2、指令流通信控制模块3这三个功能模块由一个现场可编程逻辑门阵列FPGA实现,对应图10中的FPGA_X。它完成高速互连接口模块5和显示模块6与处理节点4内部四个基本处理单元的数据交互。处理节点中的基本处理单元由现场可编程逻辑门阵列FPGA、ASIC芯片和数字信号处理器DSP共同完成,其中,FPGA与ASIC芯片作为基本处理单元中的计算模块,主要用作图像运算工作,而DSP作为基本处理单元中的同步通信模块,它不作复杂运算,主要用作流程控制和同步通信控制。
装置中使用的5片现场可编程逻辑门阵列FPGA都采用XILINX公司Virtex 4系列的SX35。图像从DS92LV18传输到FPGA_X,数据总线为15位;其中第0位为像素伴随时钟;1~8位为8位数据;第9位为数据有效信号。作为数据流传输控制通道,它接收外部输入的待处理图像,并将原图拆分成4幅小图分别发送给4个基本处理单元进行处理,并且将处理后的图像重新合成一幅结果图像送给显示模块6。
FPGA_X与每个基本处理单元之间采用61位宽的高速数据交互接口进行连接。数据总线宽度为40位,其中32位为数据信息,另外8位为附加信息;地址总线宽度为6位,以及一位时钟线;另外还包括14根控制线,合计61位接口总线。其中40位总线直接连接到基本处理单元内的DSP的外部存储器接口A(EMIFA)总线上。在基本处理单元内,DSP与FPGA的通信连接也是通过EMIFA接口实现的。对于上述的两种情况,需要分时复用EMIFA接口。
四个基本处理单元中的数字信号处理器DSP采用TI公司生产的TMS320C6414,它是高性能定点型DSP,C6414支持16位、32位和40位的定点运算,没有浮点运算单元,完成浮点运算需要软件支持,效率不高,在本系统中DSP实现同步通信控制和处理流程控制功能,它不进行复杂运算,运算功能主要由FPGA实现。DSP联合计算模块FPGA完成对图像的校正、目标检测与跟踪等处理。
基本处理单元内,DSP与FPGA之间连接有64位数据线,6位地址线,4位可编程输入输出管脚。数据线完成数据的传输和指令与状态字的交互;地址线用于实现FPGA内部指令FIFO和数据FIFO的寻址操作。FPGA利用4位可编程输入输出管脚来反馈处理的状况。
非易失性存储器FLASH芯片SST39VF016,宽度为8比特位,容量为16M。它连接在各基本处理单元内数字信号处理器DSP的外部存储接口EMIFB口上,作为DSP的配置芯片存储其启动程序。
XILINX公司生产的XCF32作为各个FPGA的配置芯片,同步动态存储器SDRAM芯片48LC4M32,它作为基本校正单元中FPGA的外部扩充存储器,由于涉及处理的图像数据量较大,所选用的FPGA不足以提供足够的片内存储空间,它的主要作用是在图像处理算法中存储中间结果。FPGA与SDRAM之间仅采用32位宽总线连接,同步方式读写,操作时钟100MHz,但是由于SDRAM的读写效率问题,有效的读写时钟只有60~70MHz,故数据访问带宽为70MHz×32bit=280Mbytes/s,读写速率较低。所以优先使用DSP和FPGA的片内存储器,仅在片内存储器耗尽的情况下,启用外部扩充存储器。
如图11所示为系统一个实施例的数据流传输控制通道原理框图。FPGA_X通过两片全双工LVDS收发芯片接收由AFI_LINK全双工同步通信端口输入的图像数据。图像源数据获取与分发模块将像素时钟,图像数据及数据有效信号从总线中译码出来,然后对原始图像数据进行拆分,分别写入对应的收图缓存FIFO中。在FPGA_X内部对应四组基本处理单元分别设置一个图像收发缓存通路,包括了图像接收缓存、图像接收缓存通路和图像发送缓存通路。然后原始图像数据以点对点传输方式发送至各个基本处理单元,由各个基本处理单元进行处理。四个基本处理单元处理完毕之后再将处理结果传回给FPGA_X图像发送缓存,由FPGA_X处理结果采集与组合模块对处理结果进行缓存,然后通过高速互连接口模块输出,并同时将发送给显示控制模块。通过显示模块将结果图像进行显示。
如图12所示为系统一个实施例的基本处理单元内部原理框图。以第一个基本处理单元为例,它由1个DSP和1个FPGA和ASIC以及相关的配置芯片组成。DSP主要实现同步通信控制和处理流程控制功能,控制FPGA的工作,辅助实现部分小运算量操作。FPGA和ASIC作为计算模块实现协处理器的功能,在DSP的控制下完成大部分的运算操作。
具体操作过程为:①DSP将待处理图像数据发送给FPGA;②DSP发送操作指令给FPGA;③FPGA对接收到的操作指令进行译码,并将处理任务分配给相关处理部分进行运算;④FPGA将处理结果反馈给DSP。
FPGA的逻辑模块可分为三个部分,总线接口模块、指令译码模块和处理模块。总线接口模块用来完成FPGA与DSP以及FPGA与ASIC的通信。指令译码模块又包括指令译码和流水线控制两部分,处理模块又可分为4个子模块:乘法器模块、加法器模块、除法器模块、数据传输模块。DSP将指令发送到指令译码模块的指令队列里。译码器对DSP发送指令译码,从而发送控制信号给处理部分的处理模块(如乘法器等)或通过总线接口模块发送控制信号给ASIC,ASIC芯片用来做快速傅里叶变换FFT,处理模块中数据传输模块作算法控制用,而乘法器模块、加法器模块和除法器模块进行具体的运算操作。指令译码模块在指令对列里所有指令执行完毕后发出反馈信号通知DSP处理完毕。
图13为系统一个实施例的基本处理单元FPGA的内部原理框图。处理部分分为数据传输模块和3个处理模块,每个处理模块由存储数据的RAM及运算模块(如乘法器等)构成。数据传输模块用于FPGA与DSP以及FPGA与ASIC之间的数据传输,也用于3个处理模块之间的数据传输。在每个处理模块里的RAM都与运算模块直接互连,但不同处理模块里的RAM是没有实现互连的,因此要通过数据传输模块完成不同处理模块的数据交换。为了构造灵活的流水线,处理模块里的运算模块之间是两两互连的(除了除法模块,因为这个运算模块被配置成流水线里的一级的概率较小)。图14是以乘法器为例描述总线互连。因为总线要消耗资源,而处理模块之间的RAM不需要频繁地交换数据,所有不采用全互连结构,即每个处理模块的RAM都两两互连。
该计算模块采用多指令并行执行方式。在流水线方面采用可重构流水线方式,同过指令就可以使处理模块(乘法器、加法器等)配置不同的流水线,具有很大的灵活性。该系统还采用基于向量的运算方式,即每条处理指令可完成多个数据的处理,而不再只是一个数据,数据的长度可由指令配置。
利用FPGA和ASIC构造的这种计算模块,可以实现数据的并行处理,流水线可以使数据不经过存储器直接进入下级的运算,而且流水线的构造可以通过指令在一定条件下任意构造十分灵活。数据的处理是基于向量的,所以DSP只要发送少量的指令就可以完成大量的数据处理,控制简单,非常适合于对数组和多维矩阵的数据处理。该系统的可扩展性能较好,只要增加处理模块,就可以构建更多级的流水线和更高的并行度。
为验证该实施例的实际处理效果,以下对该装置作了详细测试。该校正实用化样机应用在高速运动平台的系统上,重量与体积需达到系统小型化设计的要求。
1结构测试:用天平测量成板质量,用游标卡尺测量成板尺寸以及厚度。测得电路板重量为272g,电路板板长22.0cm,板宽15.2cm,板高1.3cm,整个电路板体积为434.72cm3(考虑了正反面器件的影响)。测试结果表明,它满足小型化设计要求。
(2)功耗测试:观测电源电流输出计算整板功耗。输入电压为5.0V,输入电流为3.5A,测得功耗为17.5W。测试结果满足小型化设计要求。
(3)实时性测试:输入图像大小为64×64×8bit,帧频50Hz。FPGA控制模块通过产生中断把数据分发到DSP中,数据处理即从此刻开始。测试结果:CPU的时钟频率在600MHz的条件下,单个基本处理单元完成图像的复原校正、目标跟踪及检测的处理所需时间为35ms,则4个基本处理单元同时运行可达到的处理帧频为112Hz,满足实时性要求。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其的限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (3)

1.一种分层并行的模块化序列图像实时处理装置,用于在高速机动平台条件下对红外成像数据的实时处理,其特征在于,该装置包括控制层、中间层和运算层,其中,
所述控制层具有总控与调度模块(1);
所述中间层包括多个数据流传输控制通道(2)和多个指令流通信控制模块(3),每个数据流传输控制通道(2)与一个指令流通信控制模块(3)对应,用于实现数据流的传输,所述数据流传输控制通道(2)上连接有高速互连接口模块(5)和显示模块(6);
所述运算层包括多个处理节点(4),每个处理节点(4)与一个数据流传输控制通道(2)和一个指令流通信控制模块(3)对应,用于完成图像数据的运算处理;其中,所述处理节点(4)包括多个基本处理单元(41),每个基本处理单元(41)包括多个计算模块(411)和对应的多个同步通信模块(412),该计算模块(411)用于完成对图像的运算处理任务;同步通信模块(412)用于协调各个基本处理单元(41)的并行工作,并将基本处理单元(41)的工作状态反馈给指令流通信控制模块(3);
图像采集设备上的图像数据经高速互连接口模块(5)传输到中间层,同时所述总控与调度模块(1)产生分发控制指令输入到指令流通信控制模块(3)进行译码解析后,控制所述数据流传输控制通道(2)将图像数据传输到所述处理节点(4)进行计算处理,处理后的数据返回到中间层并经数据流传输控制通道(2)输入到显示模块(6)进行显示,同时输入到高速互连接口模块(5)以输送到外部。
2.根据权利要求1所述的分层并行的模块化序列图像实时处理装置,其特征在于,所述数据流传输控制通道(2)包括命令解释译码模块(21)、总线通路模块(22)、显示控制模块(23)和图像收发缓存通路(24),其中,命令解释译码模块(21)对指令流通信控制模块(3)发送的控制命令进行译码解析,控制总线通路模块(22)、显示控制模块(23)和图像收发缓存通路(24)的工作状态;
总线通路模块(22)包括图像源数据获取与分发模块(221)和处理结果采集与组合模块(222),主要完成图像源数据的接收转发和结果数据的采集组合;
显示控制模块(23)完成显示模块的接口控制功能;
图像收发缓存通路(24)包括多个图像收发缓存(241),用于实现与处理节点(4)的数据交互。
3.根据权利要求1或2所述的分层并行的模块化序列图像实时处理装置,其特征在于,所述指令流通信控制模块(3)包括总控指令译码模块(31)、传输通道控制模块(32)和处理节点通信控制模块(33);其中,所述总控指令译码模块(31)用于完成对总控与调度模块(1)的控制命令的译码、解析,同时将命令发送给数据流传输控制通道(2)和处理节点(4);传输通道控制模块(32)和处理节点通信控制模块(33)分别实现接口通信控制功能。
CN 201110199079 2011-07-14 2011-07-14 一种分层并行的模块化序列图像实时处理装置 Expired - Fee Related CN102306371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110199079 CN102306371B (zh) 2011-07-14 2011-07-14 一种分层并行的模块化序列图像实时处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110199079 CN102306371B (zh) 2011-07-14 2011-07-14 一种分层并行的模块化序列图像实时处理装置

Publications (2)

Publication Number Publication Date
CN102306371A CN102306371A (zh) 2012-01-04
CN102306371B true CN102306371B (zh) 2013-09-18

Family

ID=45380229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110199079 Expired - Fee Related CN102306371B (zh) 2011-07-14 2011-07-14 一种分层并行的模块化序列图像实时处理装置

Country Status (1)

Country Link
CN (1) CN102306371B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541660B (zh) * 2012-01-06 2013-09-04 电子科技大学 一种红外实时成像系统的帧缓存调度装置及调度方法
CN104427218B (zh) * 2013-09-02 2017-11-21 北京计算机技术及应用研究所 超高清ccd图像多通道采集与实时传输系统及方法
CN107767372B (zh) * 2017-10-23 2020-03-20 苏州茂特斯自动化设备有限公司 一种分层并行计算的芯片管脚在线视觉检测系统及其方法
CN111339371B (zh) * 2018-12-18 2023-08-25 北京嘀嘀无限科技发展有限公司 一种数据处理方法及装置
CN109933617B (zh) * 2019-03-08 2021-05-25 恒生电子股份有限公司 一种数据处理方法、装置以及相关设备和介质
CN110336988B (zh) * 2019-05-10 2022-04-26 江苏镭创高科光电科技有限公司 一种全激光投影的三级视频信息传输系统
CN110300240B (zh) * 2019-06-28 2021-08-13 Oppo广东移动通信有限公司 图像处理器、图像处理方法、拍照装置及电子设备
CN112702377B (zh) * 2019-10-23 2023-01-13 苏州华兴源创科技股份有限公司 一种数据流转换系统
CN112001836A (zh) * 2020-07-03 2020-11-27 北京博雅慧视智能技术研究院有限公司 一种图像处理装置
CN113065998A (zh) * 2021-04-08 2021-07-02 北京微视新纪元科技有限公司 一种超高速实时图像存储方法、系统及计算机设备
CN113744122B (zh) * 2021-09-23 2023-06-20 中国核动力研究设计院 一种用于核电厂svdu的多图层显示协处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1115454A (zh) * 1994-07-08 1996-01-24 株式会社日立制作所 图像处理装置及使用该装置的系统
US5745758A (en) * 1991-09-20 1998-04-28 Shaw; Venson M. System for regulating multicomputer data transfer by allocating time slot to designated processing task according to communication bandwidth capabilities and modifying time slots when bandwidth change
CN1392985A (zh) * 2000-09-27 2003-01-22 索尼计算机娱乐公司 多处理器系统、数据处理系统、数据处理方法和计算机程序

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226283A (ja) * 2009-03-23 2010-10-07 Konica Minolta Business Technologies Inc 情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745758A (en) * 1991-09-20 1998-04-28 Shaw; Venson M. System for regulating multicomputer data transfer by allocating time slot to designated processing task according to communication bandwidth capabilities and modifying time slots when bandwidth change
CN1115454A (zh) * 1994-07-08 1996-01-24 株式会社日立制作所 图像处理装置及使用该装置的系统
CN1392985A (zh) * 2000-09-27 2003-01-22 索尼计算机娱乐公司 多处理器系统、数据处理系统、数据处理方法和计算机程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
实时嵌入式图像处理并行监控系统的研究与实现;樊荣;《中国优秀硕士学位论文全文数据库 信息科技辑》;20060515(第2006年05期);正文第8-12页 *
樊荣.实时嵌入式图像处理并行监控系统的研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2006,(第2006年05期),

Also Published As

Publication number Publication date
CN102306371A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN102306371B (zh) 一种分层并行的模块化序列图像实时处理装置
US20220197714A1 (en) Training a neural network using a non-homogenous set of reconfigurable processors
Geng et al. A framework for acceleration of CNN training on deeply-pipelined FPGA clusters with work and weight load balancing
Nabavinejad et al. An overview of efficient interconnection networks for deep neural network accelerators
US11392740B2 (en) Dataflow function offload to reconfigurable processors
CN102073481B (zh) 多核dsp可重构专用集成电路系统
US11609798B2 (en) Runtime execution of configuration files on reconfigurable processors with varying configuration granularity
CN102135949B (zh) 基于图形处理器的计算网络系统、方法及装置
Gao et al. Sunway supercomputer architecture towards exascale computing: analysis and practice
US11182264B1 (en) Intra-node buffer-based streaming for reconfigurable processor-as-a-service (RPaaS)
US20240330074A1 (en) Data processing system with link-based resource allocation for reconfigurable processors
Hockney MIMD computing in the USA—1984
CN104023062A (zh) 一种面向异构计算的分布式大数据系统的硬件架构
US11789733B2 (en) Instruction processing apparatus, acceleration unit, and server
WO2022133047A1 (en) Dataflow function offload to reconfigurable processors
CN105045566A (zh) 一种嵌入式并行计算系统及采用其的并行计算方法
Ammendola et al. QUonG: A GPU-based HPC system dedicated to LQCD computing
TWI784845B (zh) 對可重配置處理器之資料流功能卸載
Fu et al. MMPI: A flexible and efficient multiprocessor message passing interface for NoC-based MPSoC
Gao et al. Impact of reconfigurable hardware on accelerating mpi_reduce
CN102761578B (zh) 集群计算系统
CN102129495B (zh) 一种降低可重构算子阵列结构功耗的方法
Di et al. Microprocessor architecture and design in post exascale computing era
Zhang et al. An effective 2-dimension graph partitioning for work stealing assisted graph processing on multi-FPGAs
Rettkowski et al. Application-specific processing using high-level synthesis for networks-on-chip

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130918

Termination date: 20180714