CN102222316A

CN102222316A - 一种基于dma的双缓冲乒乓并行结构图像处理优化方法

Info

Publication number: CN102222316A
Application number: CN2011101701081A
Authority: CN
Inventors: 杨威; 靳晓园; 张�诚; 李彦; 马颖劲; 刘建兵
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2011-06-22
Filing date: 2011-06-22
Publication date: 2011-10-19

Abstract

一种基于DMA的双缓冲乒乓并行结构图像处理优化方法，DSP外接SDRAM，待处理的图像存储在SDRAM中，将SDRAM中的图像数据划分为2N条图像条带，在DSP的内部RAM中开辟奇偶缓冲区用于存放奇偶图像条带数据，然后利用DMA的快速数据传输能力和DMA控制器与CPU的并行工作方式，实现对存储在SDRAM中的图像进行优化处理。本发明有效地提高CPU和DMA控制器的利用率，加快图像处理算法的运行速度，提升DSP在实时图像处理方面的性能，在景象匹配、图像融合、目标跟踪等实时图像处理领域可以广泛应用，也可用于军事领域。

Description

一种基于DMA的双缓冲乒乓并行结构图像处理优化方法

技术领域

本发明涉及一种图像处理优化方法，尤其涉及一种基于DMA的双缓冲乒乓并行结构图像处理优化方法，属于嵌入式图像处理算法优化领域。

背景技术

随着数字处理方法的发展，数字图像处理技术无论在科学研究上、工业生产上或管理部门中都得到越来越多的应用。景象匹配、图像融合、目标跟踪等图像处理技术在航空航天领域有着广泛的应用。实时图像处理具有数据量大，数据处理相关性高等特点，而实时的应用环境决定了实时系统必须具有强大的运算能力。基于DSP的开发平台可以为其提供高速数据处理的能力，其可编程性也使得我们可以在硬件一级获得系统设计的极大灵活性。而如何充分利用处理器的硬件结构及资源、发挥它的高速处理能力，优化编程也成为图像处理领域中的另一个重要课题。

图像处理算法具有运算复杂，数据量大，数据处理相关性高等特点，运算复杂意味着算法包含大量数据存取的操作，图像数据量大造成无法将全部图像存储在DSP内部高速缓存中，数据处理相关性高导致数据搬移和数据处理必须依次进行，这些特点使得DSP平台上的图像处理算法存在计算时间过长、实时性不高等不足。目前，公开文献相关论题的介绍主要集中在数字图像处理算法、DSP程序优化方法以及嵌入式系统设计方案等单一专业方向，对嵌入式实时图像处理算法优化方法的介绍较少，优化方法各有不同，尚未见有对DSP平台上基于DMA的双缓冲乒乓并行结构图像处理优化算法设计的论述。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于DMA的双缓冲乒乓并行结构图像处理优化方法，能够充分利用CPU和DMA控制器并行工作的特点，提高了嵌入式图像处理的效率。

本发明的技术解决方案是：一种基于DMA的双缓冲乒乓并行结构图像处理优化方法，DSP外接SDRAM，待处理的图像存储在SDRAM中，步骤如下：

(1)将SDRAM中的图像数据划分为2N条图像条带，其中N为自然数，在DSP的内部RAM中开辟奇偶缓冲区用于存放奇偶图像条带数据；

(2)DSP中的CPU向DMA控制器连续发出第1条图像条带和第2条图像条带的搬入申请后，CPU进入阻塞状态等待第1条图像条带搬入完毕，DMA控制器接到CPU发出的搬入申请后依次从SDRAM中将第1条图像条带和第2条图像条带分别搬入到内部RAM开辟的奇偶缓冲区中；

(3)当DMA控制器将第i条图像条带从SDRAM中搬入到内部RAM的奇数缓冲区后，CPU在内部RAM对第i条图像条带进行图像处理，CPU对第i条图像条带处理完成后依次向DMA控制器发出第i条图像条带处理输出数据的搬出申请和第i+2条图像条带的搬入申请，i＝1；

(4)当DMA控制器将第i+1条图像条带从SDRAM中搬入到内部RAM的偶数缓冲区后，CPU在内部RAM对第i+1条图像条带进行图像处理，CPU对第i+1条图像条带处理完成后依次向DMA控制器发出第i+1条图像条带处理输出数据的搬出申请和第i+3条图像条带的搬入申请，i＝1；

(5)按照步骤(3)-(4)的处理过程完成其余2N-2条图像条带的图像处理，i依次取3，5，7...2N-1，当CPU对第2N-1条图像条带和第2N条图像条带处理完成后向DMA控制器发出第2N-1条图像条带处理输出数据和第2N条图像条带处理输出数据的搬出申请，DMA控制器将第2N-1条图像条带处理输出数据和第2N条图像条带处理输出数据搬出到SDRAM中。

本发明与现有技术相比的有益效果是：本发明是在DSP平台上提出的一种基于DMA的双缓冲乒乓并行结构的图像处理优化方法，该方法能够充分利用DMA的快速数据传输能力和DMA控制器与CPU的并行工作方式，能够有效地提高CPU和DMA控制器的利用率，加快图像处理算法的运行速度，提升DSP在实时图像处理方面的性能，在景象匹配、图像融合、目标跟踪等实时图像处理领域可以广泛应用，也可用于军事领域，具有显著的社会和军事效益。

附图说明

图1是以Ti公司TMS30C6000系列为例的DSP内部结构示意图；

图2是本发明基于DMA的逐步优化方法示意图；

图3是本发明图像处理优化方法的流程图。

具体实施方式

为了加快数据存取速度，在DSP内部高速缓存处理图像数据，使数据搬移和数据处理并行运行，本发明提出了这种在DSP平台上基于DMA的双缓冲乒乓并行结构的图像处理优化算法，可以很好的解决上述问题。本发明提出了两个重要的概念，作为技术方案实施的基础：

(1)提出图像条带的概念：一个图像条带可以包含一行或多行图像数据，并将实时图像划分为2N个图像条带，图像处理的对象将针对图像条带数据进行。

(2)划分图像处理的三个过程：图像条带搬入，图像条带处理，图像条带搬出。图像条带数据的搬入搬出由DMA控制器负责完成，图像条带数据的处理由CPU负责完成，两者可以并行工作。

在明确了图像条带和图像处理过程的基础上，本发明分别从代码执行、数据空间分配、处理时序安排、双缓冲并行设计等几个方面给出了明确的解决方案，很好的解决了DSP内部高速缓存有限、外部存储空间处理速度慢等一般图像处理算法设计的常见问题。本发明的技术方案主要包括以下几个方面：

(1)将图像处理算法的程序代码段(text)映射到DSP内部高速缓存空间，以加快程序取指速度，提高图像处理算法的执行速度。

(2)在外部扩展的存储空间(例如SDRAM存储器)开辟实时图像存储空间，保存完整的实时图数据，避免DSP内部存储空间不足导致对实时图像存储空间的限制。

(3)在DSP内部开辟两套高速缓冲区，缓冲区将采用乒乓结构交替使用。每个缓冲区包含输入数据区和输出数据区，用于保存图像条带数据。记为BufOddIn，BufOddOut，BufEvenIn，BufEvenOut。

(4)将图像条带标记为奇数条带和偶数条带，奇数条带图像数据占用奇缓冲区BufOddIn，BufOddOut；偶数条带图像数据占用偶缓冲区BufEvenIn，BufEvenOut。奇偶缓冲区数据无相关性，互不影响。

(5)图像处理算法将在内部高速缓冲区中针对图像条带进行处理，以达到图像处理的最优性能。

(6)采用DMA方式完成图像条带数据的搬入、搬出操作，提高数据的传输速度。即提交DMA申请，由DMA控制器负责将保存在外部存储空间的源图像条带数据搬入内部高速缓冲的输入数据区；将经过处理后的图像条带数据由内部高速缓冲的输出数据区搬出到外部存储空间。

(7)设计奇偶图像条带的数据搬移、数据处理时序，利用奇偶图像条带数据无相关性的特点，实现数据搬移和数据处理分条带并行执行，从而大大提高图像处理算法的运行速度。例如当CPU进行奇条带图像数据处理的时候，DMA控制器可以同时进行偶条带图像数据的搬移操作。

(8)当基于DMA的双缓冲乒乓并行结构处理形成后，可根据不同图像处理算法，测算图像条带数据搬移与数据处理的时间，调整图像条带的大小，使CPU和DMA控制器的利用率达到最高，形成快速图像处理算法的最优方案。

根据当前主流的DSP品牌分析，Ti和AD公司的DSP芯片市场占有率无论在民用还是军用领域均大大领先其他品牌。从应用技术的角度来看，基于Ti和AD公司的DSP嵌入式软件开发技术是具有相通性的，本发明提出的基于DMA的双缓冲乒乓结构并行图像处理优化算法是一种通用性的算法优化方法，不局限于DSP芯片的具体厂商和型号。下面以TI公司的TMS320C6000系列DSP为例，介绍本发明的具体实施方式：

直接存储器访问(Direct Memory Access，DMA)是C6000DSP的一种重要的数据访问方式，多通道DMA控制器是独立于CPU内核的片内集成外设(见图1)，它可以在没有CPU核心单元参与的情况下，完成DSP存储空间内的数据搬移，与CPU内核并行工作。

DMA的传输操作是通过设置控制寄存器来实现的。一个典型的QDMA操作顺序应当是：

QDMA_SRC＝SRC_ADDRESS；

QDMA_DST＝DST_ADDRESS；

QDMA_CNT＝DATA_LEN；

QDMA_S OPT＝OPT_COMMAND；

其中，QDMA_SRC、QDMA_DST、QDMA_CNT、QDMA_S_OPT都是QDMA的物理寄存器，分别设置源地址、目标地址、数据长度和通道选择参数。

为了更方便的使用DMA方式，DSP的CSL(Chip Support Library)提供了基于DMA/EDMA的DAT系列API函数。其中DAT_fill、DAT_copy、DAT_copy2d可以轻松的利用DMA方式实现数据填充、数据块搬移、子帧提取、矩阵转置等操作。DAT_wait、DAT_busy、DAT_setPriority等函数用于获得或控制DMA的传输状态。在实时图像处理的应用中，灵活运用这些API函数就可以很高效地实现图像截取、转置，优化比较复杂的图像处理算法。

基于DMA的图像处理算法逐步优化：

第一步：利用高速的片内RAM

图像处理的输入和输出数据量较大，一般都存放在外部扩展存储器中(如SDRAM)。直接在外部扩展存储器上进行算法处理(如图2的第一种处理方式所示)，虽然不用进行数据搬移，但会因为外存较低的读写速度大大制约算法的实现效率，这是实时系统所不能容忍的。C6000系列DSP提供了共享划分的L2Cache和用户区片内高速缓存，由于片内高速缓存与CPU工作在同一时钟频率，比外部扩展存储器性能高得多。将运算数据放在片内高速缓存中处理(如图2的第二种处理方式所示)，图像处理时间将大大降低，虽然增加了数据搬移的过程，但仍可以提高实时图像处理系统的性能。

第二步：利用DMA方式搬移数据

将图像数据放在片内高速缓存进行算法运算固然会大大加快数据访问速度，提高算法效率，但随之必然会产生大量的内外存储器之间的数据传输。如果用CPU控制内存逐一读写(如图2的第二种处理方式所示)，可能会导致事倍功半，算法运行的提升会完全埋没在频繁的内外存读写操作中，而CPU也一直处于Busy的工作状态。此时，充分利用DMA的快速存储器访问方式(如图2的第三种处理方式所示，即本发明的处理方式)，可以大大提高内外存储器的访问速度，并解放CPU，为算法计算和数据传输的并行实现提供了条件。

第三步：双缓冲模式实现并行

完成图像数据到片内高速缓存的DMA搬移，是片内高速缓存上算法计算的前提，而算法完成也是输出数据DMA搬移的前提，这三个操作是有相关性的。简单的DMA搬入、片内高速缓存计算、DMA搬出的模式虽然避免了频繁的外部存储器读写，但是却没有充分利用DMA控制器与CPU内核并行工作的特点。而且片内高速缓存空间有限，对于尺寸较大的图像，也无法一次将整幅图像搬入片内高速缓存进行处理。

将图像分割成条带，在内存中开辟双缓冲区进行乒乓操作，就可以充分利用DMA控制器与CPU并行工作的特点，实现大尺寸图像不同条带间DMA数据搬移与CPU算法运算之间的并行工作，从而将整个算法效率提升一个等级。并行算法的优化程度取决于是DMA传输和CPU运算两者耗时较大的那个，当DMA传输时间(传入+传出)与CPU运算时间最接近时，DMA控制器和CPU就可以达到最大程度的并行，利用率达到最高，形成快速图像处理算法的最优方案。

本发明提出的优化方法具有通用性，适用于各种图像条带数据无相关性的图像处理，具体的双缓冲模式实现并行处理优化的过程如图3所示。

(1)DSP中的CPU向DMA控制器连续发出第1条图像条带和第2条图像条带的搬入申请后，CPU进入阻塞状态等待第1条图像条带搬入完毕，DMA控制器接到CPU发出的搬入申请后依次从SDRAM中将第1条图像条带和第2条图像条带分别搬入到内部RAM开辟的奇偶缓冲区中；

(2)当DMA控制器将第1条图像条带从SDRAM中搬入到内部RAM的奇数缓冲区后，CPU在内部RAM对第1条图像条带进行图像处理，CPU对第1条图像条带处理完成后依次向DMA控制器发出第1条图像条带处理输出数据的搬出申请和第3条图像条带的搬入申请；

(3)当DMA控制器将第2条图像条带从SDRAM中搬入到内部RAM的偶数缓冲区后，CPU在内部RAM对第2条图像条带进行图像处理，CPU对第2条图像条带处理完成后依次向DMA控制器发出第2条图像条带处理输出数据的搬出申请和第4条图像条带的搬入申请；

(4)当DMA控制器将第3条图像条带从SDRAM中搬入到内部RAM的奇数缓冲区后，CPU在内部RAM对第3条图像条带进行图像处理，CPU对第3条图像条带处理完成后依次向DMA控制器发出第3条图像条带处理输出数据的搬出申请和第5条图像条带的搬入申请；

(5)当DMA控制器将第4条图像条带从SDRAM中搬入到内部RAM的偶数缓冲区后，CPU在内部RAM对第4条图像条带进行图像处理，CPU对第4条图像条带处理完成后依次向DMA控制器发出第4条图像条带处理输出数据的搬出申请和第6条图像条带的搬入申请；

(6)步骤(2)-(3)作为一个处理循环，按照步骤(2)-(3)的处理过程完成其余2N-4条图像条带的图像处理，当CPU对第2N-1条图像条带和第2N条图像条带处理完成后向DMA控制器发出第2N-1条图像条带处理输出数据和第2N条图像条带处理输出数据的搬出申请，DMA控制器将第2N-1条图像条带处理输出数据和第2N条图像条带处理输出数据搬出到SDRAM中。

以图像的小波水平变换为例，按照图3的算法流程对图像进行基于DMA的双缓冲乒乓结构并行图像处理优化算法处理，对优化前后的运行时间进行测试，测试结果验证了优化方案的有效性，优化率达3倍以上，详见表1所示。

表1基于DMA的双缓冲乒乓结构并行图像处理优化结果

本发明未详细描述内容为本领域技术人员公知技术。

Claims

1.一种基于DMA的双缓冲乒乓并行结构图像处理优化方法，DSP外接SDRAM，待处理的图像存储在SDRAM中，其特征在于步骤如下：