CN106888380B - 图像中文字块的编码方法及装置 - Google Patents

图像中文字块的编码方法及装置 Download PDF

Info

Publication number
CN106888380B
CN106888380B CN201710005196.7A CN201710005196A CN106888380B CN 106888380 B CN106888380 B CN 106888380B CN 201710005196 A CN201710005196 A CN 201710005196A CN 106888380 B CN106888380 B CN 106888380B
Authority
CN
China
Prior art keywords
character block
zero
point
level
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710005196.7A
Other languages
English (en)
Other versions
CN106888380A (zh
Inventor
炎喆
燕志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingxiang Microelectronics Co.,Ltd.
Original Assignee
Xian Wanxiang Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Wanxiang Electronics Technology Co Ltd filed Critical Xian Wanxiang Electronics Technology Co Ltd
Priority to CN201710005196.7A priority Critical patent/CN106888380B/zh
Publication of CN106888380A publication Critical patent/CN106888380A/zh
Application granted granted Critical
Publication of CN106888380B publication Critical patent/CN106888380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明公开了一种图像中文字块的编码方法及装置。其中,该方法包括:提取包含了文字的图像中预定数量的文字块;统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;依据概率状态转移表所确定的预设顺序对文字块进行分类;对分类后的文字块进行编码。本发明解决了由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的技术问题。

Description

图像中文字块的编码方法及装置
技术领域
本发明涉及电子技术应用领域,具体而言,涉及一种图像中文字块的编码方法及装置。
背景技术
电脑屏幕画面采集的视频序列与摄像机等设备采集的视频序列有着较大的区别。在电脑屏幕画面中,较多场景会有文字画面,例如:浏览网页,播放幻灯片等会出现大量文字。对于文字画面进行截取并按固定大小划分成块,得到的图像块信息简称文字块。文字块基于其特有的性质,在较大的压缩比下,仍能保持较为合理的失真度。文字块经压缩后有失真,将图像的真实值和压缩恢复后的值之间的差值定义为残差。
目前主流的压缩算法中如:H.264,H.265,JPEG更多的是针对自然画面的压缩。而对于文字块压缩效果并不理想。相关技术中提到的文字块压缩算法是目前出现的较为理想的针对文字块的压缩算法。具体如下:
文字块最主要的特征是主要的能量集中在较少的几种像素中,例如屏幕显示为一篇白底黑字的文章,可以认为主要能量集中在白色像素和黑色像素中。由此定义能量集中的像素域为基本色,其他的定义为逃逸色。基本色根据文字块的频率直方图确定,确定基本色以后即得到基本色码表。根据基本色和逃逸色,按照相应序号对文字块中像素点进行编码(例如确定四个基本色,序号为0、1、2、3,所有逃逸色序号为4),在编码过程中引入预测。即每个像素点的YUV三个分量跟左侧的像素点YUV三个分量是否相等,如果相等用符号L表示;每个像素点的YUV三个分量跟上面的像素点YUV三个分量是否相等,如果相等用符号U表示;如果不相等用符号O表示。由此得到预测索引码表。对于符号为O的像素点,由于无法根据邻域得到本身的值,故需要编写O数据对应码表。前面步骤中,对于逃逸色统一编号为4,故需要编写逃逸色对应码表。最后将前面提到的基本色码表、预测索引码表、O数据码表、逃逸色码表编码后进行传输。
在无损传输中,除传输前面提到的各种码表外,对于残差仍需要进行传输。而针对文字块的残差无损编码传输,目前应用Huffman编码,此外,算数编码器由于效果不好并未使用。对于残差编码目前理论体系一共有两类算法可选:Huffman编码或算数编码。
但是相关技术中Huffman编码方案使用的假设前提是残差数据的取值为独立概率,基于文字编码器算法思想,临近范围内的残差的关联关系虽然已经被部分破坏,但仍有较多条件概率信息可以深度挖掘;
Huffman编码方案在使用过程中需要预先得知整体概率分布,并生成字典。发送端和接收端每次在同步字典之前,字典不能有任何变化,即无法自适应的进行调整;
残差如果分布的极不均匀(中间能量非常大即0附近的值多),Huffman编码方案需要进行升阶处理。例如残差取值为[-16,16],则码表字典共需要提供33个符号对应编码,如果升级为4阶段,则码表字典共需要提供334个符号对应编码。现有方案的升阶无论对于时间复杂度还是空间复杂度都是呈指数增长;
而针对文字编码器残差的特殊性,算数编码器无法快速逼近真实概率,概率调整较为复杂,较多时候效果不如Huffman效果好。
针对上述由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像中文字块的编码方法及装置,以至少解决由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的技术问题。
根据本发明实施例的一个方面,提供了一种图像中文字块的编码方法,包括:提取包含了文字的图像中预定数量的文字块;统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;依据概率状态转移表所确定的预设顺序对文字块进行分类;对分类后的文字块进行编码。
可选的,对残差进行拟合,得到残差对应的概率状态转移表包括:对残差进行高斯拟合,得到高斯系数σ;依据高斯系数σ和预先存储的统计规律,确定残差对应的概率状态转移表。
进一步地,可选的,依据概率状态转移表所确定的预设顺序对文字块进行分类包括:依据预设顺序判断每个文字块的残差是否为零;在判断结果为是的情况下,对残差为零的文字块标记第一标识;在判断结果为否的情况下,对残差为非零的文字块标记第二标识。
可选的,在对残差为零的文字块标记第一标识之后,本申请实施例提供的图像中文字块的编码方法还包括:判断文字块是否为文字画面中最后一个文字块;在判断结果为否的情况下,依据预设顺序判断文字块之后的文字块的残差是否为零,直至文字块为文字画面中最后一个文字块。
可选的,在对残差为非零的文字块标记第二标识之后,本申请实施例提供的图像中文字块的编码方法还包括:根据预设扫描顺序扫描所有残差非零的文字块的残差;依据第一预设顺序判断文字块的残差对应的编码符号是否为零;在判断结果为是的情况下,对编码符号为零的文字块标记第三标识;在判断结果为否的情况下,对编码符号为非零的文字块标记第四标识。
进一步地,可选的,在对编码符号为非零的文字块标记第四标识之后,本申请实施例提供的图像中文字块的编码方法还包括:判断编码符号为非零的文字块的数值是否大于零;在判断结果为是的情况下,对数值大于零的文字块标记第五标识;在判断结果为否的情况下,对数值小于或等于零的文字块标记第六标识,其中,将数值小于零的文字块取数值的绝对值,并依据绝对值进行二值化。
可选的,在对编码符号为零的文字块标记第三标识之后,本申请实施例提供的图像中文字块的编码方法还包括:判断文字块是否为文字画面中最后一个文字块;在判断结果为否的情况下,依据第一预设顺序判断文字块的残差对应的编码符号是否为零,直至文字块为文字画面中最后一个文字块。
可选的,对分类后的文字块进行编码包括:依据文字块中的各个像素点的位置,配置各个像素点的邻域;依据邻域配置与第一像素点距离为阈值的邻域的第一像素点集为第一级别点,并将与第一像素点距离大于阈值的邻域的第二像素点集为第二级别点;依据第一像素点的量化值筛选第一级别点或第二级别点,得到与第一像素点量化值相同的点,其中,与第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型;依据概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对概率估计模型进行概率调整。
进一步地,可选的,依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型包括:如果第一级别同类点个数不为零,参考第一级别同类点;如果第一级别同类点个数为零,参考第二级别同类点;其中,参考第二级别同类点包括:如果第二级别同类点个数不为零,参考第二级别同类点;如果第二级别同类点个数为零,对应预设概率估计模型;在参考第一级别同类点确定参考点或参考第二级别同类点确定参考点的个数之后,依据参考点的值确定对应的概率估计模型索引,得到概率模型。
根据本发明实施例的另一方面,还提供了一种图像中文字块的编码装置,包括:提取模块,用于提取包含了文字的图像中预定数量的文字块;统计模块,用于统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;分类模块,用于依据概率状态转移表所确定的预设顺序对文字块进行分类;编码模块,用于对分类后的文字块进行编码。
可选的,统计模块包括:计算单元,用于对残差进行高斯拟合,得到高斯系数σ;统计单元,用于依据高斯系数σ和预先存储的统计规律,确定残差对应的概率状态转移表。
进一步地,可选的,分类模块包括:第一判断单元,用于依据预设顺序判断每个文字块的残差是否为零;第一标记单元,用于在判断结果为是的情况下,对残差为零的文字块标记第一标识;第二标记单元,用于在判断结果为否的情况下,对残差为非零的文字块标记第二标识。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:第二判断单元,用于在对残差为零的文字块标记第一标识之后,判断文字块是否为文字画面中最后一个文字块;第三判断单元,用于在判断结果为否的情况下,依据预设顺序判断文字块之后的文字块的残差是否为零,直至文字块为文字画面中最后一个文字块。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:扫描单元,用于在对残差为非零的文字块标记第二标识之后,根据预设扫描顺序扫描所有残差非零的文字块的残差;第四判断单元,用于依据第一预设顺序判断文字块的残差对应的编码符号是否为零;第三标记单元,用于在判断结果为是的情况下,对编码符号为零的文字块标记第三标识;第四标记单元,用于在判断结果为否的情况下,对编码符号为非零的文字块标记第四标识。
进一步地,可选的,图像中文字块的编码装置还包括:第五判断单元,用于在对编码符号为非零的文字块标记第四标识之后,判断编码符号为非零的文字块的数值是否大于零;第五标记单元,用于在判断结果为是的情况下,对数值大于零的文字块标记第五标识;第六标记单元,用于在判断结果为否的情况下,对数值小于或等于零的文字块标记第六标识,其中,将数值小于零的文字块取数值的绝对值,并依据绝对值进行二值化。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:第六判断单元,用于在对编码符号为零的文字块标记第三标识之后,判断文字块是否为文字画面中最后一个文字块;第七判断单元,用于在判断结果为否的情况下,依据第一预设顺序判断文字块的残差对应的编码符号是否为零,直至文字块为文字画面中最后一个文字块。
可选的,编码模块包括:第一配置单元,用于依据文字块中的各个像素点的位置,配置各个像素点的邻域;第二配置单元,用于依据邻域配置与第一像素点距离为阈值的邻域的第一像素点集为第一级别点,并将与第一像素点距离大于阈值的邻域的第二像素点集为第二级别点;筛选单元,用于依据第一像素点的量化值筛选第一级别点或第二级别点,得到与第一像素点量化值相同的点,其中,与第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;匹配单元,用于依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型;编码单元,用于依据概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对概率估计模型进行概率调整。
进一步地,可选的,匹配单元包括:第一参考子单元,用于如果第一级别同类点个数不为零,参考第一级别同类点;第二参考子单元,用于如果第一级别同类点个数为零,参考第二级别同类点;其中,参考第二级别同类点包括:如果第二级别同类点个数不为零,参考第二级别同类点;如果第二级别同类点个数为零,对应预设概率估计模型;匹配子单元,用于在参考第一级别同类点确定参考点或参考第二级别同类点确定参考点的个数之后,依据参考点的值确定对应的概率估计模型索引,得到概率模型。
在本发明实施例中,通过提取包含了文字的图像中预定数量的文字块;统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;依据概率状态转移表所确定的预设顺序对文字块进行分类;对分类后的文字块进行编码,达到了通过算数编码器对文字块残差编码的目的,从而实现了提升图像编码计算效率的技术效果,进而解决了由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的图像中文字块的编码方法的流程示意图;
图2是根据本发明实施例的一种图像中文字块的编码方法的流程示意图;
图3是根据本发明实施例的一种图像中文字块的编码方法中邻域设计的示意图;
图4是根据本发明实施例的图像中文字块的编码装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例涉及的技术名词:
残差:将图像的真实值和压缩恢复后的值之间的差值定义为残差。
实施例一
根据本发明实施例,提供了一种图像中文字块的编码方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的图像中文字块的编码方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,提取包含了文字的图像中预定数量的文字块;
步骤S104,统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;
步骤S106,依据概率状态转移表所确定的预设顺序对文字块进行分类;
步骤S108,对分类后的文字块进行编码。
本申请实施例提供的图像中文字块的编码方法中,通过提取包含了文字的图像中预定数量的文字块;统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;依据概率状态转移表所确定的预设顺序对文字块进行分类;对分类后的文字块进行编码,达到了通过算数编码器对文字块残差编码的目的,从而实现了提升图像编码计算效率的技术效果,进而解决了由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的技术问题。
可选的,步骤S104中对残差进行拟合,得到残差对应的概率状态转移表包括:
Step1,对残差进行高斯拟合,得到高斯系数σ;
Step2,依据高斯系数σ和预先存储的统计规律,确定残差对应的概率状态转移表。
进一步地,可选的,步骤S106中依据概率状态转移表所确定的预设顺序对文字块进行分类包括:
Step1,依据预设顺序判断每个文字块的残差是否为零;
Step2,在判断结果为是的情况下,对残差为零的文字块标记第一标识;
Step3,在判断结果为否的情况下,对残差为非零的文字块标记第二标识。
可选的,在步骤S106中Step2中的对残差为零的文字块标记第一标识之后,本申请实施例提供的图像中文字块的编码方法还包括:
Step3’,判断文字块是否为文字画面中最后一个文字块;
Step4’,在判断结果为否的情况下,依据预设顺序判断文字块之后的文字块的残差是否为零,直至文字块为文字画面中最后一个文字块。
可选的,在步骤S106中Step3中的对残差为非零的文字块标记第二标识之后,本申请实施例提供的图像中文字块的编码方法还包括:
Step4,根据预设扫描顺序扫描所有残差非零的文字块的残差;
Step5,依据第一预设顺序判断文字块的残差对应的编码符号是否为零;
Step6,在判断结果为是的情况下,对编码符号为零的文字块标记第三标识;
Step7,在判断结果为否的情况下,对编码符号为非零的文字块标记第四标识。
进一步地,可选的,在步骤S106中Step7中的对编码符号为非零的文字块标记第四标识之后,本申请实施例提供的图像中文字块的编码方法还包括:
Step8,判断编码符号为非零的文字块的数值是否大于零;
Step9,在判断结果为是的情况下,对数值大于零的文字块标记第五标识;
Step10,在判断结果为否的情况下,对数值小于或等于零的文字块标记第六标识,其中,将数值小于零的文字块取数值的绝对值,并依据绝对值进行二值化。
可选的,在步骤S106中Step6中对编码符号为零的文字块标记第三标识之后,本申请实施例提供的图像中文字块的编码方法还包括:
Step11,判断文字块是否为文字画面中最后一个文字块;
Step12,在判断结果为否的情况下,依据第一预设顺序判断文字块的残差对应的编码符号是否为零,直至文字块为文字画面中最后一个文字块。
可选的,步骤S108中对分类后的文字块进行编码包括:
Step1,依据文字块中的各个像素点的位置,配置各个像素点的邻域;
Step2,依据邻域配置与第一像素点距离为阈值的邻域的第一像素点集为第一级别点,并将与第一像素点距离大于阈值的邻域的第二像素点集为第二级别点;
Step3,依据第一像素点的量化值筛选第一级别点或第二级别点,得到与第一像素点量化值相同的点,其中,与第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;
Step4,依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型;
Step5,依据概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对概率估计模型进行概率调整。
进一步地,可选的,步骤S108中Step4中的依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型包括:
步骤A,如果第一级别同类点个数不为零,参考第一级别同类点;
步骤B,如果第一级别同类点个数为零,参考第二级别同类点;其中,参考第二级别同类点包括:如果第二级别同类点个数不为零,参考第二级别同类点;如果第二级别同类点个数为零,对应预设概率估计模型;
步骤C,在参考第一级别同类点确定参考点或参考第二级别同类点确定参考点的个数之后,依据参考点的值确定对应的概率估计模型索引,得到概率模型。
综上,本申请实施例提供的图像中文字块的编码方法具体如下:
如图2所示,图2是根据本发明实施例的一种图像中文字块的编码方法的流程示意图,本申请实施例提供的图像中文字块的编码方法具体描述如下:
(1)统计一个片段内所有被判定为文字块的残差(已知),并进行高斯拟合,通过高斯拟合得到参数σ;
(2)由参数σ结合统计规律(已知得到)确定各种情况下概率模型初值和概率状态转移表格;(1&2残差的分布情况)
(3)依次处理每个文字块;
(4)如果当前文字块的残差值(yuv残差:真实值与解码后之间的差值)全部为零,写入标志0,跳至步骤3;
(5)如果当前文字块有非零元素,写入标志1;
(6)根据一维扫描顺序逐个判断当前文字块的当前值的情况;
(7)如果当前值为0,写入标志0,跳至步骤6;
(8)如果当前值非0,写入标志1;(编码是否为0)
(9)当前值大于零,写入标志1;当前值小于等于零,写入标志0;(编码值的符号正负)
(10)取当前值的绝对值-1(减一)并进行二值化后写入;编值的大小
(11)当前块是否处理完,如果没有跳至步骤6;(6-11是对一个文字块的处理过程)
(12)当前片段是否处理完,如果没有跳至步骤3。(一个文字块处理完后按照6-11处理下一文字块)
基于上述,步骤(10)中,二值化的方案为一元阶段码。编码时每位对应一个概率模型。
步骤(4)、(7)、(10)中提到的写入标志是基于邻域产生不同上下文,计算概率范围后调整范围。
结合步骤(1)和(2),拟合高斯曲线,确定概率状态转移表具体如下:
在本申请实施例提供的图像中文字块的编码方法中算数编码器中预估概率的准确性直接影响到编码效率,在本申请实施例中将概率值[[0,0.5]离散为M个值,通过查表来确定概率转移。根据残差的分布情况,得到一个高斯系数σ来确定M的个数(本申请区别于现有技术的地方)为考量期望码率有如下公式:
Er=k×M;
其中,M个数越多,越接近期望码率,k为常量;
其中Er为期望码率(已知),k为系数,M为概率离散后的个数。
文字块的残差是符合高斯分布的,不同场景下的文字块残差拟合后的高斯方程系数不同。高斯系数σ将直接影响到编码效率。并满足如下公式:
Er=k×M×σ
本申请实施例提供的图像中文字块的编码方法中提出将离散值M变为自适应可调整。即将现有技术中固定的概率转移码表分成多层级,以适应不同场景。
在编码过程中,本申请实施例提供的图像中文字块的编码方法提出设计邻域关系,使条件概率估计更准确(即,对每个文字块编码的过程中同步调整对应概率)
在输入每个符号的时,对于该值是否为零,该值的正负利用邻域相关性进行条件概率划分。
如图3所示,图3是根据本发明实施例的一种图像中文字块的编码方法中邻域设计的示意图,当前点设为A点,A点左边的点设为B点,A点左上的点设为C点,A点正上方的点设为D点,A点右上方的点设为E点。我们认为B、C、D、E四个点的值对于A点的值有影响。
目前现有技术中,也会用到类似方案,但针对文字块残差,如何利用还是一片空白。这是由于条件概率如果设置的不合理,会导致过拟合,反而会降低编码效率。
通过统计分析,本申请实施例提供的图像中文字块的编码方法把B、C、D、E四个点分为两个级别B、D为第一级别(像素距离为1),C、E为第二级别(像素距离大于1)。
举例说明:
A是否为零可分为三大类情况:B和D都为零,B和D都为1,B和D有一个为0。
由第一级别的B、D确定A的三个概率大类后再利用C、E第二级别点确定具体模型。对于C、E仍采用同样方式:C和E都为零,C和E都为1,C和E有一个为0。
综上所述,在进行算术编码的时候,某元素是否为零的标志和正负的标志分别对应9中上下文模型。
针对文字编码残差特点,进一步提升残差绝对值压缩效率
文字块在进行编码的时候分为基本色和逃逸色两类,两类值的量化标准不同,造成残差范围不一样。目前所涉及的该部分的残差编码都是同等对待直接编码的。
当前像素点如果被划分为基本色,当前像素点周围的值被划分为逃逸色,那么上述产生的残差在很大程度上是没有参考价值的。如果强行参考反而会降低编码效率。
在本申请实施例提供的图像中文字块的编码方法的编码过程中,B、C、D、E四个点需要跟A点的类型进行判定,满足如下规则:
A为基本色:
(1)B、D为相同的基本色,B、D都参考;
(2)B、D有一个为相同的基本色,参考基本色相同的点,该点的状态将被划分为前文中提到的第一大类或第三大类;
(3)B、D都为不同的基本色,只参考C、E。
同理,A为逃逸色,方案与A为基本色相同。
本申请实施例提供的图像中文字块的编码方法基于算数编码器对文字块残差编码,通过设计邻域使得可以动态调整对每个文字块的编码精度,从而提升编码效率和精度。实施例二
根据本发明实施例的另一方面,还提供了一种图像中文字块的编码装置,图4是根据本发明实施例的图像中文字块的编码装置的结构示意图,如图4所示,该图像中文字块的编码装置包括:
提取模块42,用于提取包含了文字的图像中预定数量的文字块;统计模块44,用于统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;分类模块46,用于依据概率状态转移表所确定的预设顺序对文字块进行分类;编码模块48,用于对分类后的文字块进行编码。
本申请实施例提供的图像中文字块的编码装置中,通过提取包含了文字的图像中预定数量的文字块;统计每个文字块的残差,并对残差进行拟合,得到残差对应的概率状态转移表;依据概率状态转移表所确定的预设顺序对文字块进行分类;对分类后的文字块进行编码,达到了通过算数编码器对文字块残差编码的目的,从而实现了提升图像编码计算效率的技术效果,进而解决了由于相关技术中算法僵化且远离真实运算需求,导致图像编码计算效率低的技术问题。
可选的,统计模块44包括:计算单元,用于对残差进行高斯拟合,得到高斯系数σ;统计单元,用于依据高斯系数σ和预先存储的统计规律,确定残差对应的概率状态转移表。
进一步地,可选的,分类模块46包括:第一判断单元,用于依据预设顺序判断每个文字块的残差是否为零;第一标记单元,用于在判断结果为是的情况下,对残差为零的文字块标记第一标识;第二标记单元,用于在判断结果为否的情况下,对残差为非零的文字块标记第二标识。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:第二判断单元,用于在对残差为零的文字块标记第一标识之后,判断文字块是否为文字画面中最后一个文字块;第三判断单元,用于在判断结果为否的情况下,依据预设顺序判断文字块之后的文字块的残差是否为零,直至文字块为文字画面中最后一个文字块。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:扫描单元,用于在对残差为非零的文字块标记第二标识之后,根据预设扫描顺序扫描所有残差非零的文字块的残差;第四判断单元,用于依据第一预设顺序判断文字块的残差对应的编码符号是否为零;第三标记单元,用于在判断结果为是的情况下,对编码符号为零的文字块标记第三标识;第四标记单元,用于在判断结果为否的情况下,对编码符号为非零的文字块标记第四标识。
进一步地,可选的,本申请实施例提供的图像中文字块的编码装置还包括:第五判断单元,用于在对编码符号为非零的文字块标记第四标识之后,判断编码符号为非零的文字块的数值是否大于零;第五标记单元,用于在判断结果为是的情况下,对数值大于零的文字块标记第五标识;第六标记单元,用于在判断结果为否的情况下,对数值小于或等于零的文字块标记第六标识,其中,将数值小于零的文字块取数值的绝对值,并依据绝对值进行二值化。
可选的,本申请实施例提供的图像中文字块的编码装置还包括:第六判断单元,用于在对编码符号为零的文字块标记第三标识之后,判断文字块是否为文字画面中最后一个文字块;第七判断单元,用于在判断结果为否的情况下,依据第一预设顺序判断文字块的残差对应的编码符号是否为零,直至文字块为文字画面中最后一个文字块。
可选的,编码模块48包括:第一配置单元,用于依据文字块中的各个像素点的位置,配置各个像素点的邻域;第二配置单元,用于依据邻域配置与第一像素点距离为阈值的邻域的第一像素点集为第一级别点,并将与第一像素点距离大于阈值的邻域的第二像素点集为第二级别点;筛选单元,用于依据第一像素点的量化值筛选第一级别点或第二级别点,得到与第一像素点量化值相同的点,其中,与第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;匹配单元,用于依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定第一像素点对应的概率估计模型;编码单元,用于依据概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对概率估计模型进行概率调整。
进一步地,可选的,匹配单元包括:第一参考子单元,用于如果第一级别同类点个数不为零,参考第一级别同类点;第二参考子单元,用于如果第一级别同类点个数为零,参考第二级别同类点;其中,参考第二级别同类点包括:如果第二级别同类点个数不为零,参考第二级别同类点;如果第二级别同类点个数为零,对应预设概率估计模型;匹配子单元,用于在参考第一级别同类点确定参考点或参考第二级别同类点确定参考点的个数之后,依据参考点的值确定对应的概率估计模型索引,得到概率模型。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种图像中文字块的编码方法,其特征在于,包括:
提取包含了文字的图像中预定数量的文字块;
统计每个所述文字块的残差,并对所述残差进行拟合,得到所述残差对应的概率状态转移表;
依据所述概率状态转移表所确定的预设顺序对所述文字块进行分类;
对分类后的文字块进行编码;
其中,所述对所述残差进行拟合,得到所述残差对应的概率状态转移表包括:
对所述残差进行高斯拟合,得到高斯系数σ;
依据所述高斯系数σ和预先存储的统计规律,确定所述残差对应的概率状态转移表。
2.根据权利要求1所述的方法,其特征在于,所述依据所述概率状态转移表所确定的预设顺序对所述文字块进行分类包括:
依据所述预设顺序判断每个文字块的残差是否为零;
在判断结果为是的情况下,对所述残差为零的文字块标记第一标识;
在判断结果为否的情况下,对所述残差为非零的文字块标记第二标识。
3.根据权利要求2所述的方法,其特征在于,在所述对所述残差为零的文字块标记第一标识之后,所述方法还包括:
判断所述文字块是否为所述文字画面中最后一个文字块;
在判断结果为否的情况下,依据所述预设顺序判断所述文字块之后的文字块的残差是否为零,直至所述文字块为所述文字画面中最后一个文字块。
4.根据权利要求2所述的方法,其特征在于,在所述对所述残差为非零的文字块标记第二标识之后,所述方法还包括:
根据预设扫描顺序扫描所有所述残差非零的文字块的残差;
依据第一预设顺序判断所述文字块的残差对应的编码符号是否为零;
在判断结果为是的情况下,对所述编码符号为零的文字块标记第三标识;
在判断结果为否的情况下,对所述编码符号为非零的文字块标记第四标识。
5.根据权利要求4所述的方法,其特征在于,在所述对所述编码符号为非零的文字块标记第四标识之后,所述方法还包括:
判断所述编码符号为非零的文字块的数值是否大于零;
在判断结果为是的情况下,对所述数值大于零的文字块标记第五标识;
在判断结果为否的情况下,对所述数值小于或等于零的文字块标记第六标识,其中,将所述数值小于零的文字块取所述数值的绝对值,并依据所述绝对值进行二值化。
6.根据权利要求4所述的方法,其特征在于,在所述对所述编码符号为零的文字块标记第三标识之后,所述方法还包括:
判断所述文字块是否为所述文字画面中最后一个文字块;
在判断结果为否的情况下,依据所述第一预设顺序判断所述文字块的残差对应的编码符号是否为零,直至所述文字块为所述文字画面中最后一个文字块。
7.根据权利要求1所述的方法,其特征在于,所述对分类后的文字块进行编码包括:
依据所述文字块中的各个像素点的位置,配置所述各个像素点的邻域;
依据所述邻域配置与第一像素点距离为阈值的所述邻域的第一像素点集为第一级别点,并将与所述第一像素点距离大于阈值的所述邻域的第二像素点集为第二级别点;
依据所述第一像素点的量化值筛选所述第一级别点或所述第二级别点,得到与所述第一像素点量化值相同的点,其中,所述与所述第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;
依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定所述第一像素点对应的概率估计模型;
依据所述概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对所述概率估计模型进行概率调整。
8.根据权利要求7所述的方法,其特征在于,所述依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定所述第一像素点对应的概率估计模型包括:
如果所述第一级别同类点个数不为零,参考所述第一级别同类点;
如果所述第一级别同类点个数为零,参考所述第二级别同类点;
其中,参考所述第二级别同类点包括:如果所述第二级别同类点个数不为零,参考第二级别同类点;如果所述第二级别同类点个数为零,对应预设概率估计模型;
在参考所述第一级别同类点确定参考点或参考所述第二级别同类点确定参考点的个数之后,依据所述参考点的值确定对应的概率估计模型索引,得到所述概率模型。
9.一种图像中文字块的编码装置,其特征在于,包括:
提取模块,用于提取包含了文字的图像中预定数量的文字块;
统计模块,用于统计每个所述文字块的残差,并对所述残差进行拟合,得到所述残差对应的概率状态转移表;
分类模块,用于依据所述概率状态转移表所确定的预设顺序对所述文字块进行分类;
编码模块,用于对分类后的文字块进行编码;
其中,所述统计模块包括:
计算单元,用于对所述残差进行高斯拟合,得到高斯系数σ;
统计单元,用于依据所述高斯系数σ和预先存储的统计规律,确定所述残差对应的概率状态转移表。
10.根据权利要求9所述的装置,其特征在于,所述分类模块包括:
第一判断单元,用于依据所述预设顺序判断每个文字块的残差是否为零;
第一标记单元,用于在判断结果为是的情况下,对所述残差为零的文字块标记第一标识;
第二标记单元,用于在判断结果为否的情况下,对所述残差为非零的文字块标记第二标识。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二判断单元,用于在所述对所述残差为零的文字块标记第一标识之后,判断所述文字块是否为所述文字画面中最后一个文字块;
第三判断单元,用于在判断结果为否的情况下,依据所述预设顺序判断所述文字块之后的文字块的残差是否为零,直至所述文字块为所述文字画面中最后一个文字块。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
扫描单元,用于在所述对所述残差为非零的文字块标记第二标识之后,根据预设扫描顺序扫描所有所述残差非零的文字块的残差;
第四判断单元,用于依据第一预设顺序判断所述文字块的残差对应的编码符号是否为零;
第三标记单元,用于在判断结果为是的情况下,对所述编码符号为零的文字块标记第三标识;
第四标记单元,用于在判断结果为否的情况下,对所述编码符号为非零的文字块标记第四标识。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第五判断单元,用于在所述对所述编码符号为非零的文字块标记第四标识之后,判断所述编码符号为非零的文字块的数值是否大于零;
第五标记单元,用于在判断结果为是的情况下,对所述数值大于零的文字块标记第五标识;
第六标记单元,用于在判断结果为否的情况下,对所述数值小于或等于零的文字块标记第六标识,其中,将所述数值小于零的文字块取所述数值的绝对值,并依据所述绝对值进行二值化。
14.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第六判断单元,用于在所述对所述编码符号为零的文字块标记第三标识之后,判断所述文字块是否为所述文字画面中最后一个文字块;
第七判断单元,用于在判断结果为否的情况下,依据所述第一预设顺序判断所述文字块的残差对应的编码符号是否为零,直至所述文字块为所述文字画面中最后一个文字块。
15.根据权利要求9所述的装置,其特征在于,所述编码模块包括:
第一配置单元,用于依据所述文字块中的各个像素点的位置,配置所述各个像素点的邻域;
第二配置单元,用于依据所述邻域配置与第一像素点距离为阈值的所述邻域的第一像素点集为第一级别点,并将与所述第一像素点距离大于阈值的所述邻域的第二像素点集为第二级别点;
筛选单元,用于依据所述第一像素点的量化值筛选所述第一级别点或所述第二级别点,得到与所述第一像素点量化值相同的点,其中,所述与所述第一像素点量化值相同的点包括:第一级别同类点和第二级别同类点;
匹配单元,用于依据预设顺序参考第一级别同类点和第二级别同类点的个数及对应值,确定所述第一像素点对应的概率估计模型;
编码单元,用于依据所述概率估计模型得到符号概率并结合第一像素点对应取值进行编码,编码后对所述概率估计模型进行概率调整。
16.根据权利要求15所述的装置,其特征在于,所述匹配单元包括:
第一参考子单元,用于如果所述第一级别同类点个数不为零,参考所述第一级别同类点;
第二参考子单元,用于如果所述第一级别同类点个数为零,参考所述第二级别同类点;
其中,参考所述第二级别同类点包括:如果所述第二级别同类点个数不为零,参考第二级别同类点;如果所述第二级别同类点个数为零,对应预设概率估计模型;
匹配子单元,用于在参考所述第一级别同类点确定参考点或参考所述第二级别同类点确定参考点的个数之后,依据所述参考点的值确定对应的概率估计模型索引,得到所述概率模型。
CN201710005196.7A 2017-01-04 2017-01-04 图像中文字块的编码方法及装置 Active CN106888380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710005196.7A CN106888380B (zh) 2017-01-04 2017-01-04 图像中文字块的编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710005196.7A CN106888380B (zh) 2017-01-04 2017-01-04 图像中文字块的编码方法及装置

Publications (2)

Publication Number Publication Date
CN106888380A CN106888380A (zh) 2017-06-23
CN106888380B true CN106888380B (zh) 2019-05-03

Family

ID=59176389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710005196.7A Active CN106888380B (zh) 2017-01-04 2017-01-04 图像中文字块的编码方法及装置

Country Status (1)

Country Link
CN (1) CN106888380B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110446041B (zh) 2018-05-02 2021-11-19 中兴通讯股份有限公司 一种视频编解码方法、装置、系统及存储介质
CN110032716B (zh) * 2019-04-17 2023-01-10 北京地平线机器人技术研发有限公司 文字编码方法和装置、可读存储介质及电子设备
CN112104872B (zh) * 2020-08-17 2024-05-17 西安万像电子科技有限公司 图像传输方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4791654A (en) * 1987-06-05 1988-12-13 American Telephone And Telegraph Company, At&T Bell Laboratories Resisting the effects of channel noise in digital transmission of information
WO2009092446A1 (de) * 2008-01-24 2009-07-30 Siemens Aktiengesellschaft Verfahren, vorrichtung und system zur verarbeitung einer dateneinheit
CN102238387A (zh) * 2011-05-25 2011-11-09 深圳市融创天下科技股份有限公司 一种视频熵编码、熵解码方法、装置及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5001964B2 (ja) * 2009-02-18 2012-08-15 株式会社エヌ・ティ・ティ・ドコモ 画像符号化装置、方法およびプログラム、並びに、画像復号装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4791654A (en) * 1987-06-05 1988-12-13 American Telephone And Telegraph Company, At&T Bell Laboratories Resisting the effects of channel noise in digital transmission of information
WO2009092446A1 (de) * 2008-01-24 2009-07-30 Siemens Aktiengesellschaft Verfahren, vorrichtung und system zur verarbeitung einer dateneinheit
CN102238387A (zh) * 2011-05-25 2011-11-09 深圳市融创天下科技股份有限公司 一种视频熵编码、熵解码方法、装置及介质

Also Published As

Publication number Publication date
CN106888380A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN109840531B (zh) 训练多标签分类模型的方法和装置
US10803359B2 (en) Image recognition method, apparatus, server, and storage medium
US7978911B2 (en) Method of classifying colors of color based image code
CN107093172B (zh) 文字检测方法及系统
US9235777B2 (en) Code conversion device for image information, a code conversion method for the image information, a system for providing image related information using an image, and a non-transitory computer readable medium for the image information
CN107977633A (zh) 人脸图像的年龄识别方法、装置及存储介质
CN106888380B (zh) 图像中文字块的编码方法及装置
EP1870858A2 (en) Method of classifying colors of color based image code
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
CN106951869B (zh) 一种活体验证方法及设备
CN106960176B (zh) 一种基于超限学习机和颜色特征融合的行人性别识别方法
CN107292307B (zh) 一种倒置汉字验证码自动识别方法及系统
CN113128287B (zh) 训练跨域人脸表情识别模型、人脸表情识别的方法及系统
Wu et al. Learning document image binarization from data
CN106851280B (zh) 图像压缩的方法和装置
CN111833372A (zh) 一种前景目标提取方法及装置
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN110991298B (zh) 图像的处理方法和装置、存储介质及电子装置
CN104463922A (zh) 一种基于集成学习的图像特征编码及识别方法
CN111814917B (zh) 一种存在模糊态的字轮图像数字识别方法
CN104346596A (zh) 一种qr码的识别方法及识别装置
CN106663212A (zh) 文字识别装置、文字识别方法以及程序
Fitriyah et al. Traffic sign recognition using edge detection and eigen-face: Comparison between with and without color pre-classification based on Hue
CN106713924B (zh) 用于文字分层压缩方法和装置
CN115600040A (zh) 一种钓鱼网站识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171113

Address after: 710075 D102 room, building 4, Maple new city, F District, Xi'an hi tech Zone, Shaanxi

Applicant after: XI'AN WANXIANG ELECTRONIC TECHNOLOGY CO., LTD.

Address before: 710075 Room 501, building B, 8 cool Industrial Park, Tang Yan Nan Road, Xi'an, Shaanxi

Applicant before: Zhong Yanpei

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201224

Address after: Room 2563, building 11, 6055 Jinhai Road, Fengxian District, Shanghai, 201499

Patentee after: Shanghai Jingxiang Microelectronics Co.,Ltd.

Address before: Room d102, building 4, Fengye Xindu District, hi tech Zone, Xi'an City, Shaanxi Province

Patentee before: XI'AN VANXVM ELECTRONICS TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right