CN101742291A - 压缩图像目标的定位与识别方法及装置 - Google Patents

压缩图像目标的定位与识别方法及装置 Download PDF

Info

Publication number
CN101742291A
CN101742291A CN 200810226560 CN200810226560A CN101742291A CN 101742291 A CN101742291 A CN 101742291A CN 200810226560 CN200810226560 CN 200810226560 CN 200810226560 A CN200810226560 A CN 200810226560A CN 101742291 A CN101742291 A CN 101742291A
Authority
CN
China
Prior art keywords
image
frequency domain
image object
domain information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200810226560
Other languages
English (en)
Other versions
CN101742291B (zh
Inventor
曾培祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Beijing Co Ltd
Peking University Founder Group Co Ltd
Original Assignee
BEIJING FANGZHENG AODE COMPUTER SYSTEM Co Ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FANGZHENG AODE COMPUTER SYSTEM Co Ltd, Peking University Founder Group Co Ltd filed Critical BEIJING FANGZHENG AODE COMPUTER SYSTEM Co Ltd
Priority to CN 200810226560 priority Critical patent/CN101742291B/zh
Publication of CN101742291A publication Critical patent/CN101742291A/zh
Application granted granted Critical
Publication of CN101742291B publication Critical patent/CN101742291B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种对JPG图像中的图像目标进行快速搜索、定位及识别的方法及装置。传统方法先将JPG图像转换为BMP图像,在BMP图像上进行搜索定位与识别。与传统方法不同,对具有明显视觉特征的图像目标,利用其显著的低频特征信息,在JPG图像转换为BMP图像的中间,获得图像频域信息时,利用频域信息搜索定位图像目标,将定位的图像目标区域转换为局部的BMP图像并在局部BMP图像上完成图像目标识别。本发明的方法及装置将JPG到BMP的图像转换过程与利用频域信息进行目标搜索过程有效的结合,大幅度的提高了目标搜索、定位的速度;通过对图像目标区域局部转换BMP图像并在此BMP图像中完成识别,使整个识别过程的计算量大幅度下降,因此该方法获得了高速、高效地显著效果。

Description

压缩图像目标的定位与识别方法及装置
技术领域
本发明涉及图像识别技术,特别是涉及压缩图像目标的定位与识别方法及装置。
背景技术
1986年国际电话与电报咨询委员会CCITT与国际标准化组织ISO成立了联合专家组简称JPEG,并于1992年通过了JPEG标准。JPEG标准是对图像进行压缩的标准,按此标准获得的压缩图像称为JPG图像。JPEG标准是通过积分变换编码(DCT)与熵编码(RLE/Huffman)构成的混合编码实现图像的压缩。其中DCT是离散积分变换,实现空间域到频域的变换;RLE是行程编码,Huffman是哈夫曼编码实现频域数据的压缩。为了获得对彩色图像更大的压缩比,通常将RGB数据先转换为YUV数据。复杂的JPEG标准使得JPG图像在压缩比及图像质量的均衡指标上具有显著的优势,是其它图像压缩方法所不及的,因此JPG图像得到了广泛的应用。
由于JPG图像的广泛应用,导致很大一部分的图像目标识别就是以JPG图像为对象的,因为JPG图像的数据是压缩的,要想完成目标识别,首先必须将压缩数据变换为空间域的数据,然后才能根据图像目标在空间域的特征完成图像目标的识别。压缩数据变换为空间域的数据通常就是JPG图像的解压缩过程。由于算法的复杂性及庞大的计算量,使解压过程耗费很多时间,这大大的降低了JPG图像上目标识别的速度。解压缩过程是压缩的逆过程,主要包括熵解码器、逆量化器、离散积分反变换三个主要环节。其中离散积分反变换(IDCT)是主要的耗时环节。
传统的处理方法是先将JPG图像解压缩转换为BMP图像,然后在BMP图像上对待识别目标进行定位与识别。在当今的识别技术中,真正目标识别花费的时间已经远小于JPG图像转换为BMP图像花费的时间,其差别大约在几倍到上百倍。因此,影响识别速度的主要因素是JPG图像解压缩转换为BMP图像的时间。为了提高识别速度,针对目标所在区域已知的情况,出现了JPG图像局部转换为BMP图像的技术。局部转换使解压时间大幅度减小,有效的提高了图像目标识别的实际速度。
这种通过局部解压BMP图像的方法,虽然较大幅度的提高了实际识别速度,取得了很好的应用效果。但是,作为一种通用方法,或是在识别速度上提出更高要求,该技术中还存在一些缺陷,具体包括:
(1)仍然沿用先将JPG图像转换为BMP图像,然后在BMP图像上对目标进行定位与识别的技术路线。基本技术上没有改变。其效率和速度还是很低的。
(2)在限定区域条件下,通过局部解压BMP图像,提高了实际识别速度的方法有很大的局限性,受限制条件的波动性也很大。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供压缩图像目标的定位与识别方法及装置,实现对JPG图像高效高速完成目标识别的目的。
为达到以上目的,本发明采用的技术方案是:
一种压缩图像目标的定位与识别方法,包括:
a、利用压缩图像数据获得图像频域信息的空间分布图;
b、根据图像目标的特征,在所述空间分布图中进行搜索定位,获得图像目标空间区域参数;
c、按图像目标空间区域界定的范围,完成图像目标空间区域的局部BMP图像转换,并在此局部BMP图像上完成对图像目标的识别。
一种压缩图像目标进行的定位与识别方法,包括:
a′、从压缩图像的原始数据中获取熵编码表和量化表信息,利用所述熵编码表对所述压缩图像数据进行熵解码,逐行获得局部图像频域信息;
b′、根据图像目标的特征,在当前行的局部图像频域信息中进行搜索定位,如果获得图像目标空间区域参数,则执行下一步;否则,获取下一行的局部图像频域信息作为当前行,执行步骤b′;
c′、按图像目标空间区域界定的范围,利用所述量化表信息进行逆量化及离散积分反变换,完成图像目标空间区域的局部BMP图像转换,并在此局部BMP图像上完成对图像目标的识别。
为实现上述目的,本发明还提供了一种压缩图像目标进行的定位与识别装置,包括:
空间分布获取单元,用于利用压缩图像数据获得图像频域信息的空间分布图;
区域参数获取单元,用于根据图像目标的特征,在所述空间分布图中进行搜索定位,获得图像目标空间区域参数;
图像转换单元,用于按图像目标空间区域界定的范围,完成图像目标空间区域的局部BMP图像转换;
识别单元,用于在所述局部BMP图像上完成对图像目标的识别。
本发明将现有的压缩图像解压过程的结构划分的两个独立部分,并在中间加入频域目标搜索器,根据低频分量信息搜索图像目标,从而搜索得到目标空间区域参数,根据该参数完成局部区域的BMP图像转换。在压缩图像的目标识别过程中,充分、合理的利用了解压过程的频域数据,大幅度的减少了目标识别过程的数据处理计算量,有效地提高了在压缩图像上进行目标识别的速度。
附图说明
图1为本发明实施例1中对JPG图像目标进行定位与识别的方法原理图;
图2为本发明实施例1中JPG图像中目标定位与识别方法的流程图;
图3为本发明实施例2中JPG图像中目标定位与识别方法的流程图;
图4为本发明实施例2中JPG图像目标定位与识别的优化方法流程图;
图5为本发明实施例3中票据图像二维码标签识别方法的流程图
图6为本发明实施例中压缩图像目标的定位与识别装置的结构图。
具体实施方式
本发明的目的是最大限度的提高在压缩图像上进行目标识别的速度。对于性能较好的压缩方法,都会采用离散积分变换的方法来获得较大的图像压缩比和很好的图像效果。图像目标的显著特征一定体现在局部图像的低频特性中,在空间域的RGB图像搜索、定位图像目标时,都会采用统计平均的方法来获得局部图像的低频特征。压缩图像的解压过程,经过熵解码器得到的数据恰好就是局部图像的频域信息,利用其中的低频信息完成图像目标的定位是整个识别过程的最佳时机。因此将JPEG标准中图像解压缩的算法结构中的熵解码器分解成为一个独立部分,并保存其按区域排列的频域信息就是本发明中必不可少的关键环节。
将熵解码器分解成独立部分的另一个原因是熵解码器的解码过程耗费的时间仅占整个图像解压的1/10以下。将逆量化器、IDCT及YCrCb到RGB的转换合并成另一独立部分。在两个独立部分之间加入的频域目标搜索器,在熵解码器解码得到的频域信息中,根据目标的特征搜索目标所在区域。
一般情况下,利用频域信息的直流分量即可实现目标搜索与定位。普遍应用的JPG图像,熵解码后的信息包含亮度Y和两个色差信息Cr、Cb对应的频域信息。根据目标的图像特征,可分别选择亮度Y或色差Cr、Cb的频域直流分量来定位图像目标。其定位方法可采用类似空间域BMP图像中的定位方法,差别在于定位过程,在频域使用的数据量仅为BMP图像中数据量的1/192(RGB图像)。也就是每8x8像素只有一个数据。对于复杂的图像目标可联合使用亮度Y、色差Cr、Cb的频域直流分量和/或低频分量对目标进行定位。通过定位确定了目标所在的空间区域,利用逆量化器、IDCT及YCrCb到RGB的转换构成的独立部分,只将此空间区域的频域信息转换为BMP图像。后续的精确识别只在此空间区域的BMP图像上完成。
这就是本发明的核心思想。这种图像解压缩与目标搜索相结合的方法及算法结构,充分、合理的利用了解压过程的频域数据,大幅度的减少了目标识别过程的数据处理计算量,有效地提高了在压缩图像上进行目标识别的速度。
实施例1
如图1所示,为本发明中对图像目标进行定位与识别方法的原理结构图。本实施例是将原解压过程的结构划分的两个独立部分,并在中间加入频域目标搜索器,根据低频分量信息搜索图像目标,从而搜索得到目标空间区域参数,根据该参数完成局部区域的BMP图像转换。在压缩图像的目标识别过程中,这些技术措施将大幅度的减少识别耗费的时间。
图2是基于以上思想的对图像目标进行定位与识别的方法流程图。图中包括以下步骤:
该实施例中压缩图像选择为RGB888彩色JPG图像,其最小计算单元MCU中,YUV的比例为4∶1∶1,MCU对应的空间域图像为16X16像素,下面说明中YUV也记为Y、Cr、Cb。
步骤201、从JPG图像的原始压缩数据中获取熵编码表和量化表信息;
步骤202、利用熵编码表信息完成对压缩位流图像信息的熵解码,熵解码是为了获得最小计算单元对应的量化后的频域信息(一般情况下,对彩色图像有亮度Y和两个色差信息Cr、Cb;对灰度图像只有亮度Y)。压缩位流决定了熵解码是按从上到下,从左到右的顺序得到MCU的频域信息。根据原始压缩数据中得到的图像宽度和图像高度计算得到空间图像具有的MCU行,及每行具有的MCU个数。在计算机内存中申请足够大的内存区,放置频域信息。按熵解码得到MCU的频域信息的顺序,放置在此内存区域,得到按空间位置排放的图像频域信息空间分布图。本实施例中,频域信息包括亮度Y和两个色差信息Cr、Cb。上述得到的图像频域信息空间分布图包括亮度Y和两个色差信息Cr、Cb的频域信息空间分布图,三个频域空间分布图是交叉排放的。
步骤203、首先根据图像目标的特征,选择搜索目标的频域信息分量,对于视觉很清晰的图像目标,一般选择直流分量就足够了,否则可选择直流分量和低频分量。在本例中,MCU包含6个8x8的数组,当采用直流分量搜索目标时,每8x8的数组只用一个数据。然后,根据图像目标的色彩特征,选择搜索目标的频域空间分布图。一般情况下,图像目标通过亮度即可区分,所以通常选择亮度频域空间分布图进行目标搜索。当亮度不能正确区分目标,并且图像目标是彩色的情况下,可选择色度或亮度+色度的频域空间分布图进行目标搜索。在确定了频域分量和频域空间分布图后,根据图像目标的几何特征,可以利用现有的各种目标搜索方法搜索图像目标,获得图像目标的空间区域参数。频域与空间域目标搜索过程的差异在于频域搜索只在选定的频域空间使用了直流和/或低频少量的数据完成目标的搜索过程。获得的目标空间区域参数界定了图像目标的空间位置,为后续的局部BMP图像转换和空间域目标精确识别限定了区域范围。
步骤204、在步骤203空间区域参数界定的范围,确定MCU单元的编号和个数。对这些MCU单元,利用量化表信息完成逆量化过程恢复实际的频域数据,通过离散积分反变换IDCT获得空间域的亮度Y和两个色差信息Cr、Cb,再将其转换为空间域的BMP图像。从而完成局部区域的BMP图像转换。
步骤205、在此局部BMP图像上完成图像目标的识别。根据图像目标的几何形状特征和光学参数特征,提取形状特征信息和光学特征信息;在局部BMP图像上,搜索、计算图像目标特征信息与压缩图像待识别对象的匹配指标,根据该匹配指标获得正确或错误的识别结果。本实施例方法结构中,提高识别速度的技术措施在于频域目标的搜索和局部BMP图像转换。
利用图像目标的低频分量特征,在频域信息中通过处理极少量的数据完成目标的搜索及定位,对可能目标区域进行局部BMP转换,并在此局部BMP图像上完成目标识别。在整个识别过程,目标搜索与BMP图像转换的计算量大幅度减少,识别速度有很大提高。
实施例2
在实际识别系统中,根据频域目标的搜索方式的不同,可设计不同的识别流程,获得更高的效率和速度。如图3所示,是按照本发明的基本思想提出的图像目标识别方法流程图。识别图像目标具体包括以下步骤:
步骤301:由JPG图像的压缩数据,根据不同的标记段分别读取量化表信息、熵编码表(Huffman表)信息、扫描参数信息和帧参数信息。根据这些信息确定了该压缩图像解压过程的MCU的行数、列数,以及每个MCU单元对应Y、Cr、Cb 8x8点阵的个数和对应实际图像的行、列数。
步骤302:在计算机内存中开辟一块存放频域数据的区域,利用熵编码表信息逐行逐列顺序求取MCU单元数据,并把这些数据对应图像的行、列,顺序排放。求取完成后,在存放频域数据的区域上,就得到了与实际图像空间位置对应的频域数据。以Y、Cr、Cb比例关系为4∶1∶1为例说明频域数据的空间对应关系。每个MCU单元有(4+1+1=6)个8x8的频域数据单元,记为md0~md5。其中md0~md3是亮度Y信息,对应16x16点的BMP图像。对应关系是从左到右、从上到下;md4是色差Cr信息,md5是色差Cb信息,都对应16x16点的BMP图像。设任意一个MCU单元的行数为i,列数为j。它的亮度频域信息md0~md3对应实际图像的起始行、列分别记为hi0~hi3、lj0~lj3。hi0=i*16;hi1=i*16;hi2=hi0+8;hi3=hi0+8;lj0=j*16;lj2=j*16;lj1=lj0+8;lj3=lj0+8;色差频域信息md4、md5对应实际图像的起始行、列分别记为hri4、hbi5、lrj4、lbj5。hri4=i*16;hbi5=i*16;lrj4=j*16;lbj5=j*16。根据上面的关系就可分别得到Y、Cr、Cb的频域数据与实际图像空间位置对应关系。8x8的频域数据单元中,频率由低到高按Z字形排列,当采用直流分量搜索目标时,每个频域数据单元只是用第一个数据。本例中对应亮度,每8x8图像就有一组频域数据,对应色差,每16x16图像有一组频域数据。由此可知通过亮度信息搜索目标的分辨率要高于色差信息。
步骤303:在频域数据中搜索目标要解决三个主要问题。第一、选择搜索目标所用的频域信息。图像目标的光学特征和几何特征是选择所用的频域信息的依据。当目标是黑白图像,必须选择亮度的频域信息搜索目标;当目标是彩色信息,可根据待识别图像背景的复杂程度及目标的几何特征,综合考虑选择亮度或色差的频域信息搜索目标。通过亮度信息搜索目标将获得较高的分辨率,通过色差信息搜索目标将获得较高速度。在频域仅使用直流分量搜索目标时,通过亮度信息搜索目标,处理的数据量是BMP图像数据量的1/192,通过一个色差信息搜索目标,处理的数据量是BMP图像数据量的1/768。
第二、确定频域信息搜索目标的阈值。频域信息Y、Cr、Cb的直流分量是所在空间区域Y、Cr、Cb的平均值,经步骤302得到的频域信息是经过量化后的信息,但是,它与实际频域信息具有对应的线性关系。因此,频域搜索目标的阈值求取方法与空间域是相同的。其区别仅在于频域求取阈值处理的数据量远小于空间域的数据处理量。空间域的平均值法、中值法、直方图统计法都可用于频域搜索目标的阈值求取。
第三、频域的目标搜索方法,经步骤302将频域数据按空间位置排放后,获得了空间局部图像的统计信息。在确定了搜索目标所用的频域信息及阈值后,频域的目标搜索方法与空间域的目标搜索方法也是相同的。其区别在于频域目标搜索处理的数据量远小于空间域的数据处理量、搜索的分辨率低于空间域,但速度大大高于空间域。在空间域使用的各种目标搜索方法如边界跟踪、信息统计等方法都可用于频域目标搜索。
步骤304:在频域数据区,自上而下、自左而有,按确定的频域信息、搜索阈值和搜索方法,搜索满足目标光学特征和几何特征的目标区域。当判断搜索到可能目标区域后,设定可能目标空间区域参数Re,转向步骤305;否则,判定区域搜索是否结束,如果结束,判定图像内目标识别错误;如果没结束,继续在步骤304顺序搜索目标。
步骤305:按步骤304传入的可能目标空间区域参数Re,利用量化表信息,对该区域进行逆量化、离散积分反变换IDCT得到该区域空间域的Y、Cr、Cb数据,再进行YCrCb到BMP的转换获得该区域BMP图像。转步骤306供精确识别及显示。
步骤306:在可能目标区域的BMP图像中对目标进行精确识别,如果判定识别正确,给出目标识别正确的结果并结束识别过程;否则,判定该可能区域内不是待识别目标,放弃该区域,转步骤304继续搜索目标区域。
本实施例的识别流程也可如图4所示。在流程的第二个步骤,选择搜索目标所用的频域信息、确定搜索方法。然后将求取MCU单元数据与求取阈值、目标搜索,逐行逐列同步进行。当目标位于整个图像上部时,识别效率和识别速度将得到进一步的提高。图3所示的识别流程,其识别过程必须先完成整个图像位流数据到频域数据的解压转换过程;而图4所示的识别流程,在逐行进行位流数据到频域数据的解压转换过程,同时完成频域的目标搜索与定位,当获得可能目标的区域定位信息后,先进行该区域的局部BMP图像转换及目标的识别,当获得了正确的识别结果,识别过程立即结束,不再进行后续的位流数据到频域数据的解压转换过程。图4的识别流程在逻辑上比图3的识别流程更为复杂,但效率和速度也更高一些。
实施例2根据在JPG图像上进行目标识别的实际情况,描述了识别过程各步骤所要完成的具体任务。对熟悉JPG图像压缩、解压缩过程的该领域技术人员根据该实施例可获得该发明的基本方法。由于本发明并不涉及目标搜索和识别的具体技术,所以本实施例中并没有限定目标搜索和识别的具体方法。实施例2以常见的一种JPG图像格式为例,定量的说明了按此实施例步骤在频域目标搜索过程,减少了数据处理数量,并由于频域目标搜索,减少了BMP图像转换的计算量。因此大大的提高了整个识别的速度。
实施例3
本发明实施例3提供了在JPG图像中的二维码标签的定位与识别方法,能够根据特定的区域限定条件,实现顺序对若干限定区域的频域目标定位与识别。由熵解码、频域目标定位、局部BMP图像转换及精确识别构成了性能更好、速度更快的图像目标识别方法和系统。
如图5所示,为本发明实施例中对票据图像中的二维码标签进行识别的方法流程图。票据图像是分辨率为200dpi的彩色JPG图像,票据宽度约为1400像素,高度约为640像素。二维码标签是宽度约为120像素,高度约为50像素,由240个黑白方块构成图案。二维码标签固定放置于票据的左上角,从实际应用的角度,考虑到票据可能产生的偏斜、位移、颠倒等情况,二维码标签的识别区域设为左上角和右下角的各200像素高、300像素宽的两个区域。根据上述的需求条件,识别方法的流程包括以下步骤:
步骤501:由票据JPG图像的压缩数据,根据不同的标记段分别读取量化表信息、熵编码表(Huffman表)信息、扫描参数信息和帧参数信息。根据这些信息确定了该压缩图像解压过程的MCU的行数、列数,以及每个MCU单元对应Y、Cr、Cb 8x8点阵的个数和对应实际图像的行、列数。
步骤502:由于二维码标签是黑白方块构成图案,选择频域信息中亮度的直流分量搜索目标。二维码标签的几何形状是矩形,且水平放置。选择沿水平和垂直方向的统计落影方法确定二维码标签的可能位置。
具体方法包括如下步骤:
(1)求取频域亮度直流分量的阈值;
(2)以实际图像8行8列为一个统计点,计算每一统计行大于阈值的统计点个数。为避免边界黑边的干扰,统计过程去掉上、下边界各16行(2个统计行)和左、右边界各16列(2个统计列)。实际识别区域宽度为300像素点,去掉左、右边界各16像素点后,每个统计行约有33个统计点。二维码标签水平方向约为15个统计点,按50%考虑,如果一行内有7个统计点的亮度直流分量低于阈值,该行可能包含二维码信息。当连续两统计行大于阈值的统计点个数大于26可判定两统计行所在位置不包含二维码信息。按此方法并根据二维码标签的几何尺寸,可获得二维码标签在垂直方向的可能位置。可能有多个。
(3)按照上一步同样的方法,在上一步确定的垂直方向的可能范围内,计算每一统计列小于阈值的统计点个数。二维码标签垂直方向约为6个统计点,按50%考虑,如果一列内有3个统计点的亮度直流分量低于阈值,该列可能包含二维码信息。当连续两统计列小于阈值的统计点个数小于3可判定两统计列所在位置不包含二维码信息。按此方法并根据二维码标签的几何尺寸,可获得二维码标签在水平方向的可能位置。
步骤503:在计算机内存中开辟一块二维码标签识别区的频域数据存放区域,利用熵编码表信息逐行逐列顺序求取MCU单元数据,并把这些数据中对应二维码标签识别区域的,按行、列,顺序排放。在二维码标签识别区域之外的MCU单元数据不予保存。求取完成后,在存放频域数据的区域上,就得到了与二维码标签识别区域空间位置对应的频域数据。求取左上角识别区域的频域数据,设置左上角识别标志,然后转步骤504。
步骤504:在识别区域的频域数据中求亮度直流分量的阈值。为避免边界黑边的干扰,统计过程去掉上、下边界各32行(4个统计行)和左、右边界各32列(4个统计列)。对中间区域的18*28个统计点,遍历获得亮度直流分量的最大值和最小值,求其平均值得到亮度直流分量的阈值。
步骤505:根据步骤504求得的频域亮度直流分量的阈值,按照步骤502中沿水平和垂直方向的统计落影方法确定二维码标签的可能位置的方法,确定可能二维码标签的区域参数Re。如果确定了可能二维码标签的区域参数,转步骤508,否则转步骤506。
步骤506:在识别区域的频域数据中没有确定二维码标签的可能位置时,如果当前识别区域是左上角,转步骤507。否则判定二维码识别错误,并结束识别过程。
步骤507:与步骤503相同,求取右下角识别区域的频域数据,设置右下角识别标志,然后转步骤504。
步骤508:按步骤505传入的可能二维码标签的区域参数Re,利用量化表信息,对该区域进行逆量化、离散积分反变换IDCT得到该区域空间域的Y、Cr、Cb数据,再进行YCrCb到BMP的转换获得该区域BMP图像。转步骤509供精确识别及显示。
步骤509:在可能目标区域的BMP图像中对二维码标签进行精确识别,如果判定识别正确,给出二维码标签识别正确的结果并结束识别过程;否则,转步骤506继续搜索目标区域。
本实施例按照本发明压缩图像目标的定位与识别方法,对JPG票据图像上二维码标签的识别,实现了多区域频域目标搜索及可能目标区域的局部BMP转换,使识别效率和速度大大提高。在主频3G的计算机上,按传统方法每秒钟大约可识别10张票据。按照本实施例的方法,每秒钟大约可识别200张票据。
图6为本发明实施例提供的一种压缩图像目标的定位与识别装置的结构图,该装置包括:
参数获取模块60,用于从所述压缩图像的原始数据中获取熵编码表和量化表信息。
空间分布获取单元61,用于利用熵编码表对所述压缩图像数据进行熵解码获得局部图像频域信息,将所述局部图像频域信息按空间位置排放,获得图像频域信息的空间分布图;
区域参数获取单元62,用于根据图像目标的特征,在所述空间分布图中进行搜索定位,获得图像目标空间区域参数;
图像转换单元63,用于按图像目标空间区域界定的范围,利用所述量化表信息进行逆量化及离散积分反变换,完成图像目标空间区域的局部BMP图像转换;
识别单元64,用于在所述局部BMP图像上完成对图像目标的识别。
其中,所述区域参数获取单元62具体包括:
色彩定位模块621,用于根据图像目标的色彩特征,选择在图像亮度和/或色度频域信息的空间分布图中搜索定位图像目标;
低频定位模块622,用于根据图像目标的低频特征,选择使用直流和/或低频分量在图像亮度和/或色度频域信息的空间分布图中搜索定位图像目标;
参数获取模块623,用于根据图像目标的几何特征,利用选定的图像亮度和/或色度频域信息,搜索定位获得图像目标空间区域参数。
所述图像转换单元63具体包括:
信息单元模块631,用于根据所述搜索定位获得的图像目标空间区域参数确定图像频域信息的空间分布图中局部频域信息单元的个数及序号;
空间域模块632,用于确定每个局部频域信息单元对应的空间域图像的范围;
转换模块633,用于利用所述量化表信息进行逆量化及离散积分反变换,顺序对每个局部频域信息单元进行BMP图像转换。
本发明所述的方法及装置并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式或对采用离散积分变换的其它压缩文件格式,同样属于本发明的技术创新保护范围。

Claims (16)

1.一种压缩图像目标的定位与识别方法,其特征在于,该方法包括:
a、利用压缩图像数据获得图像频域信息的空间分布图;
b、根据图像目标的特征,在所述空间分布图中进行搜索定位,获得图像目标空间区域参数;
c、按图像目标空间区域界定的范围,完成图像目标空间区域的局部BMP图像转换,并在此局部BMP图像上完成对图像目标的识别。
2.根据权利要求1所述的方法,其特征在于,所述获得空间分布图具体包括:
从所述压缩图像的原始数据中获取熵编码表和量化表信息,利用所述熵编码表对所述压缩图像数据进行熵解码获得局部图像频域信息,将所述局部图像频域信息按空间位置排放,获得图像频域信息的空间分布图。
3.如权利要求2所述的方法,其特征在于,所述按空间位置排放具体包括:
所述局部图像频域信息包括局部图像的亮度和/或色度的频域信息,将局部图像频域信息按空间位置排放后形成包括图像亮度和/或色度频域信息的空间分布图。
4.如权利要求3所述的方法,其特征在于,所述在空间分布图中搜索定位具体包括:
根据图像目标的色彩特征,选择在图像亮度和/或色度频域信息的空间分布图中搜索定位图像目标;
根据图像目标的低频特征,选择使用直流和/或低频分量在频域空间分布图中搜索定位图像目标;
根据图像目标的几何特征,利用选定的直流和/或低频分量,在选定的图像亮度和/或色度频域空间分布图,搜索定位获得图像目标空间区域参数。
5.如权利要求4所述的方法,其特征在于,所述图像目标空间区域的局部BMP图像转换具体包括:
a、根据所述搜索定位获得的图像目标空间区域参数确定图像频域信息的空间分布图中局部频域信息单元的个数及序号;
b、确定每个局部频域信息单元对应的空间域图像的范围;
c、利用所述量化表信息进行逆量化及离散积分反变换,顺序对每个局部频域信息单元进行BMP图像转换。
6.如权利要求5所述的方法,其特征在于,对于彩色图像,进行逆量化及离散积分反变换后进一步包括:
对图像目标空间区域参数界定的图像区域进行YUV到RGB的转换。
7.如权利要求1所述的方法,其特征在于,当所述图像目标在一固定的限定区域内时,则
将所述限定区域内的局部图像频域信息按空间位置排放,获得图像频域信息的空间分布图。
8.如权利要求7所述的方法,其特征在于,所述获得图像频域信息的空间分布图具体包括:
a、按局部频域信息单元对应的行,逐行获取所述限定区域下边界以上对应的局部频域信息行;
b、仅保留与排放所述限定区域的局部图像频域信息,构成限定区域内的图像频域信息的空间分布图。
9.如权利要求1至7中任意一项所述的方法,其特征在于,所述完成对图像目标的识别具体包括:
根据图像目标的几何形状特征和光学参数特征,提取形状特征信息和光学特征信息;在局部BMP图像上,搜索、计算图像目标特征信息与压缩图像待识别对象的匹配指标,根据该匹配指标获得正确或错误的识别结果。
10.一种压缩图像目标进行的定位与识别方法,其特征在于,该方法包括:
a′、从压缩图像的原始数据中获取熵编码表和量化表信息,利用所述熵编码表对所述压缩图像数据进行熵解码,逐行获得局部图像频域信息;
b′、根据图像目标的特征,在当前行的局部图像频域信息中进行搜索定位,如果获得图像目标空间区域参数,则执行下一步;否则,获取下一行的局部图像频域信息作为当前行,执行步骤b′;
c′、按图像目标空间区域界定的范围,利用所述量化表信息进行逆量化及离散积分反变换,完成图像目标空间区域的局部BMP图像转换,并在此局部BMP图像上完成对图像目标的识别。
11.如权利要求10所述的方法,其特征在于,当在局部BMP图像上完成图像目标识别时,如果获得正确识别结果,则识别过程结束;否则,顺序获得当前行的下一行局部图像频域信息作为当前行,并执行步骤b′。
12.如权利要求10或11所述的方法,其特征在于,在所述步骤b′中,如果直到所述图像目标的最后一行也未获得图像目标空间区域参数,则识别过程结束。
13.一种压缩图像目标的定位与识别装置,其特征在于,包括:
空间分布获取单元,用于利用压缩图像数据获得图像频域信息的空间分布图;
区域参数获取单元,用于根据图像目标的特征,在所述空间分布图中进行搜索定位,获得图像目标空间区域参数;
图像转换单元,用于按图像目标空间区域界定的范围,完成图像目标空间区域的局部BMP图像转换;
识别单元,用于在所述局部BMP图像上完成对图像目标的识别。
14.根据权利要求13所述的装置,其特征在于,该装置进一步包括:
参数获取模块,用于从所述压缩图像的原始数据中获取熵编码表和量化表信息。
15.根据权利要求14所述的装置,其特征在于,所述区域参数获取单元具体包括:
色彩定位模块,用于根据图像目标的色彩特征,选择在图像亮度和/或色度频域信息的空间分布图中搜索定位图像目标;
低频定位模块,用于根据图像目标的低频特征,选择使用直流和/或低频分量在频域空间分布图中搜索定位图像目标;
参数获取模块,用于根据图像目标的几何特征,利用选定的直流和/或低频分量,在选定的图像亮度和/或色度频域空间分布图,搜索定位获得图像目标空间区域参数。
16.根据权利要求14或15所述的装置,其特征在于,所述图像转换单元具体包括:
信息单元模块,用于根据所述搜索定位获得的图像目标空间区域参数确定图像频域信息的空间分布图中局部频域信息单元的个数及序号;
空间域模块,用于确定每个局部频域信息单元对应的空间域图像的范围;
转换模块,用于利用所述量化表信息进行逆量化及离散积分反变换,顺序对每个局部频域信息单元进行BMP图像转换。
CN 200810226560 2008-11-14 2008-11-14 压缩图像目标的定位与识别方法及装置 Expired - Fee Related CN101742291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810226560 CN101742291B (zh) 2008-11-14 2008-11-14 压缩图像目标的定位与识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810226560 CN101742291B (zh) 2008-11-14 2008-11-14 压缩图像目标的定位与识别方法及装置

Publications (2)

Publication Number Publication Date
CN101742291A true CN101742291A (zh) 2010-06-16
CN101742291B CN101742291B (zh) 2012-11-07

Family

ID=42465071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810226560 Expired - Fee Related CN101742291B (zh) 2008-11-14 2008-11-14 压缩图像目标的定位与识别方法及装置

Country Status (1)

Country Link
CN (1) CN101742291B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595138A (zh) * 2012-02-29 2012-07-18 北京大学 图像压缩的方法及装置、终端
CN103237207A (zh) * 2013-03-28 2013-08-07 中科创达软件股份有限公司 一种修改jpeg图像局部图像的方法及装置
CN103309290A (zh) * 2012-03-12 2013-09-18 杨余旺 作物病虫害精确防控机载系统
CN104899598A (zh) * 2015-05-14 2015-09-09 中国农业大学 基于二维傅里叶变换的教室人数统计方法及装置
WO2016192494A1 (zh) * 2015-05-29 2016-12-08 阿里巴巴集团控股有限公司 一种图像处理方法及装置
CN106713919A (zh) * 2012-01-20 2017-05-24 索尼公司 色度量化参数扩展

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1107610A1 (en) * 1999-06-14 2001-06-13 Nikon Corporation Compression encoding method, recorded medium on which compression encoding program is recorded, and imaging device
KR100961760B1 (ko) * 2002-08-13 2010-06-07 퀄컴 인코포레이티드 이산코사인변환 계수를 참조하는 움직임 추정 방법 및 장치
CN1224926C (zh) * 2002-12-04 2005-10-26 中国科学院计算技术研究所 压缩域体育视频定位标题文字的方法
JP3897253B2 (ja) * 2002-12-27 2007-03-22 株式会社リコー 画像処理方法、画像処理装置、撮像装置、プログラム及び記録媒体
CN100377177C (zh) * 2004-12-24 2008-03-26 中国科学院计算技术研究所 图像压缩域上的人体肤色区域检测方法
JP2007325170A (ja) * 2006-06-05 2007-12-13 Oki Electric Ind Co Ltd 映像監視装置及び方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713919B (zh) * 2012-01-20 2019-11-12 维洛媒体国际有限公司 解码装置和解码方法
CN106713919A (zh) * 2012-01-20 2017-05-24 索尼公司 色度量化参数扩展
US10536698B2 (en) 2012-01-20 2020-01-14 Velos Media, Llc Chroma quantization parameter extension
US10750176B2 (en) 2012-01-20 2020-08-18 Velos Media, Llc Chroma quantization parameter extension
US11445192B2 (en) 2012-01-20 2022-09-13 Sony Group Corporation Chroma quantization parameter extension
CN102595138B (zh) * 2012-02-29 2014-04-23 北京大学 图像压缩的方法及装置、终端
CN102595138A (zh) * 2012-02-29 2012-07-18 北京大学 图像压缩的方法及装置、终端
CN103309290A (zh) * 2012-03-12 2013-09-18 杨余旺 作物病虫害精确防控机载系统
CN103237207A (zh) * 2013-03-28 2013-08-07 中科创达软件股份有限公司 一种修改jpeg图像局部图像的方法及装置
CN104899598A (zh) * 2015-05-14 2015-09-09 中国农业大学 基于二维傅里叶变换的教室人数统计方法及装置
CN104899598B (zh) * 2015-05-14 2019-10-01 中国农业大学 基于二维傅里叶变换的教室人数统计方法及装置
WO2016192494A1 (zh) * 2015-05-29 2016-12-08 阿里巴巴集团控股有限公司 一种图像处理方法及装置
US10417770B2 (en) 2015-05-29 2019-09-17 Alibaba Group Holding Limited Efficient acquisition of a target image from an original image

Also Published As

Publication number Publication date
CN101742291B (zh) 2012-11-07

Similar Documents

Publication Publication Date Title
CN104853209B (zh) 图像编码、解码方法及装置
CN104244007B (zh) 一种图像编码方法和装置及解码方法和装置
CN101742291B (zh) 压缩图像目标的定位与识别方法及装置
CN100461867C (zh) 一种帧内图像预测编码方法
CN103636215B (zh) 对视频数据应用非正方形变换
CN106101724B (zh) 跨平面预测
WO2015120823A1 (zh) 使用多种形式的参考像素存储空间的图像压缩方法和装置
CN107147911A (zh) 基于局部亮度补偿lic的快速帧间编码模式选择方法及装置
CN101163188B (zh) 图像处理装置和方法、图像读取装置和图像形成装置
CN106797457A (zh) 具有改进调色板表和索引图编码的先进屏幕内容编码方法
CN104754362B (zh) 使用精细划分块匹配的图像压缩方法
CN102484699B (zh) 对图像进行编码和解码的方法、用于编码和解码的对应装置
MX2012010260A (es) Metodos para preparar y descodificar codigos de color bidimensionales.
CN101945273A (zh) 压缩编码装置和视觉显示控制装置
CN105681803B (zh) 一种大容量的hevc视频信息隐藏方法
CN109996083B (zh) 帧内预测方法及装置
JP6794364B2 (ja) 画像符号化方法及び装置並びに画像復号方法及び装置
CN106028045B (zh) 解码数据流的方法、生成数据流的方法及其解码器
CN108391132B (zh) 文字块编码方法及装置
CN105915923B (zh) 跨平面预测
CN106331730A (zh) H.264视频同量化因子双重压缩检测方法
CN103051896B (zh) 一种基于模式跳过的视频编码方法和系统
CN107682699A (zh) 一种近无损图像压缩方法
CN102592130A (zh) 一种针对水下显微视频的目标识别系统及其视频编码方法
CN113347437B (zh) 一种基于串预测的编码方法、编码器、解码器和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: FOUNDER INTERNATIONAL CO., LTD.

Free format text: FORMER OWNER: BEIJING FANGZHENG AODE COMPUTER SYSTEM CO., LTD.

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20110519

Address after: 100871, Haidian District Fangzheng Road, Beijing, Zhongguancun Fangzheng building, 298, 513

Applicant after: Peking Founder Group Co., Ltd.

Co-applicant after: Founder international software (Beijing) Co., Ltd.

Address before: 100871, Haidian District Fangzheng Road, Beijing, Zhongguancun Fangzheng building, 298, 513

Applicant before: Peking Founder Group Co., Ltd.

Co-applicant before: Beijing Fangzheng Aode Computer System Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20171114

CF01 Termination of patent right due to non-payment of annual fee