发明内容
针对上述问题,本发明的目的是提供一种面向东巴象形文的数字化获取与图像处理方法,该方法能有效将模糊的纸质经书实现数字化提取,数据量压缩比高,去噪后得到的噪声与图像信号之间平滑弧线过渡,得到的图片清晰,便于文化的数字化传承与保护。
为实现上述目的,本发明采取以下技术方案:一种面向东巴象形文的数字化获取与图像处理方法,其特征在于,它包括以下步骤:1)对东巴经典古籍经书进行数字图像采集:采用CCD数字图像采集系统对经书进行图像采集,并将采集到的数据量进行压缩;2)对采集到的数字图像进行去噪,步骤如下:(1)将采集到的彩色图像颜色进行统一化处理,将三维彩色数值转化为一维数值,输出颜色统一的图像;(2)统一化处理后对东巴经书的图像进行去噪处理;3)对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度:通过图像灰度值与阈值的判定实现笔划特征突出化处理,将背景变为白色,文字变为黑色,则处理后的图像灰度值Mt(a,b)为:
式中,M(a,b)表示原图像中位于(a,b)处的灰度值;λ为阈值;当图像灰度值等于0时表示白色即背景色,等于255时表示黑色即文字色;4)对特征突出化处理后的数字图像信息进行轮廓检测:对东巴经书的轮廓检测基于灰度值的跳变,将跳变点连接成曲线段即实现轮廓检测;5)对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理:(1)根据水平方向投影的原理,映射出每一行的上下边缘,实现行切分;(2)根据垂直方向投影的原理,映射出每个文字的左右边缘,分离出单个东巴象形文字,实现列切分;(3)切分后进行尺寸统一处理。
所述步骤1)中,所述图像采集压缩方法如下:(1)将一张待采集图像信息的东巴经书分成N个互不重叠的值域块Ei,且这些值域块Ei正好覆盖整个待采集图像,同时将待采集图像按预先设定的步长分成M个尺寸较大并可互相重叠的定义域块Fi;(2)对每个值域块Ei,从所有定义域块中通过旋转矩阵Bi寻找一个最佳匹配的定义域块Fi,使该定义域块Fi通过旋转矩阵Bi变换后近似于Ei:
式中,为旋转矩阵Bi,是一个使Fi更趋近于Ei的向量,为Fi的向量;(3)利用旋转矩阵Bi对N个定义域块Fi进行变换,变换一次称为一次迭代,迭代10次左右,图像稳定下来,趋于迭代函数系统的吸引子,减少数据量的图像采集完成。
所述步骤2)中,所述东巴经书的图像进行去噪处理过程如下:(a)定义包含噪声的图像信号f(t)=s(t)+n(t),其中s(t)为原始信号;n(t)是均值为零、方差为σ2宽平稳加性高斯白噪声,即服从N(0,σ2);(b)对图像进行分解,得到系数Wf(j,k):对一维图像信号f(t)进行离散采样,得到N点离散信号f(n),n=0,1,2,...,N-1,则系数Wf(j,k)为:
式中,ψ()是一平方可积函数,j代表尺度因子,k代表平移因子;(c)构造阈值函数,得到估计系数
式中ω=Wf(j,k),T为阈值,μ(ω)即为要求的估计系数(d)对估计系数利用逆变换进行重构,得到新的图像信号,完成去噪输出图像。
所述步骤3)中,所述阈值λ采用微分值来决定,将阈值λ选取在微分直方图中波谷位置处:选取一张东巴经书,由下式得到位于(a,b)处的微分值,构造其微分直方图,微分直方图的横坐标为(a,b)处的灰度值,微分直方图的纵坐标为(a,b)处的微分值:
a-1≤l≤a+1 l≠a;b-1≤l≤b+1 m≠b;
式中,M(a,b)表示原图像中位于(a,b)处的灰度值,D(a,b)为位于(a,b)处的微分值。
所述步骤4)中,所述轮廓检测方法如下:
图像采用二元函数v(x,y)表示,取u(x,y)为二元平滑函数,σ为标准差,记
记复数变换函数带入公式(1),得到则:
进行二维卷积型复数变换,记为由卷积的性质得
取s=2-j,得
将梯度grad[]取得极值点(x1,y1),(x2,y2),...,(xn,yn),并将极值点连接成曲线,完成轮廓检测;连接原则是:邻近的点相连;灰度相近的点相连;走向与该点梯度垂直。
所述步骤5)(3)中,所述尺寸统一处理过程如下:(a)计算由行切分和列切分后形成的外接矩形,将外接矩形的左上角标记为(xmin,ymin),右下角坐标标记为(xmax,ymax),中心点标记为(xc,yc),令xmin,ymin分别为左上角横坐标、纵坐标最小值点,xmax,ymax分别表示右下角横坐标、纵坐标最大值点;
(b)定义外接矩形大小为w×w,令w=64,将外接矩形的中心点平移到统一化后的矩形中心平移后外接矩形所有点的横坐标x1、纵坐标y1为:
(c)分别计算外接矩形长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个外接矩形的缩放比例ratio:
ratio=min(ratiox,tatioy)
(d)统一化后的外接矩形所有点的新坐标(x′,y′)为:x′=x1×ratio,y′=y1×ratio。
本发明由于采取以上技术方案,其具有以下优点:1、本发明针对模糊经书的特点,采取数据量压缩的方法,提取出需要的数据。并进行经书的去噪处理,将彩色东巴经书进行颜色统一化处理后进行去噪研究,得到清晰平滑的图像,使得模糊的纸质东巴象形文便于文化的数字化传承与保护。2、本发明利用灰度值将东巴经书中的文字笔划进行突出化处理与轮廓检测,并对东巴经书进行统一化处理,得到统一尺寸的东巴象形文。这种方法使得模糊的纸质经书能够得到清晰化的数字化提取,对文字识别具有重要作用,得到的图片清晰,方便操作。本发明可以广泛在文字图像处理领域中应用。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明提供一种面向东巴象形文的数字化获取与图像处理方法,为面向东巴文化的传承与保护问题的手写体东巴象形文字的图像处理方法,其包括以下步骤:
1)对东巴经典古籍经书进行数字图像采集:采用CCD数字图像采集系统对经书进行图像采集,并将采集到的数据量进行压缩,以减少描述数字图像需要的数据量。
由于东巴经典古籍具有年代久远,纸质模糊,且字体不规则等特点,采集到的图像会出现一定程度的多余数据量,因此,需要进行数据量压缩,减少描述数字图像需要的数据量。其中,具体的图像采集压缩方法如下:
(1)将一张待采集图像信息的东巴经书分成N个互不重叠的值域块Ei,且这些值域块Ei正好覆盖整个待采集图像,同时将待采集图像按预先设定的步长分成M个尺寸较大并可互相重叠的定义域块Fi;
(2)对每个值域块Ei,从所有定义域块中通过旋转矩阵Bi寻找一个最佳匹配的定义域块Fi,使该定义域块Fi通过旋转矩阵Bi变换后近似于Ei,即Bi(F)≈Ei:
式中,为旋转矩阵Bi,是一个使Fi更趋近于Ei的向量,为Fi的向量。
其中,旋转矩阵Bi采用以下几种形式:
(a)旋转0°时,
(b)绕X轴方向旋转180°时,
(c)绕Y轴方向旋转180°时,
(d)旋转180°进行水平反向旋转时,
(e)旋转至与y=x直线对称时,
(f)逆时针90°旋转时,
(g)逆时针270°旋转时,
(h)旋转至与y=-x直线对称,
(3)利用旋转矩阵Bi对N个定义域块Fi进行变换,变换一次称为一次迭代,迭代10次左右,图像稳定下来,趋于迭代函数系统的吸引子,减少数据量的图像采集完成。
2)对采集到的数字图像进行去噪,具体步骤如下:
(1)将采集到的彩色图像颜色进行统一化处理,将三维彩色数值转化为一维数值:定义三原色红、绿、蓝分别为A、B、C,为了使颜色统一化,应使A=B=C,采用加权平均值的方法定义三个系数α、β、γ,输出一位数值D为:
D=αA+βB+γC (2)
由于人眼对绿色最为敏感,对蓝色敏感度最低,故取值时应使β>α>γ,经过实验和推导验证,当α=0.299,β=0.587,γ=0.114时,能得到最合理的图像,即数值D:
D=0.299A+0.587B+0.114C
取A=B=C=D/3,即可输出颜色统一的图像,如图1所示。
(2)统一化处理后对东巴经书的图像进行去噪处理:将包含噪声的图像信号在各尺度上进行分解得到系数。通过设定一个阈值T,对于绝对值小于T的系数,认为是第一类系数,将其置为零;而对于绝对值大于T的系数,则认为是第二类系数,按一个固定量向0收缩,从而得到估计系数最后将处理后获得的估计系数利用逆变换进行信号重构,恢复出有效的信号,完成去噪。具体过程如下:
(a)定义包含噪声的图像信号f(t)为:
f(t)=s(t)+n(t) (3)
其中s(t)为原始信号;n(t)是均值为零、方差为σ2宽平稳加性高斯白噪声,即服从N(0,σ2)。
(b)对图像进行分解,得到系数Wf(j,k):对一维图像信号f(t)进行离散采样,得到N点离散信号f(n),n=0,1,2,...,N-1,则系数Wf(j,k)为:
式中,ψ()是一平方可积函数,j代表尺度因子,k代表平移因子;
借助双尺度方程,得到实现算法
Sf(j+1,k)=Sf(j,k)*h(j,k) (5)
Wf(j+1,k)=Sf(j,k)*g(j,k)
其中h为低通滤波器,g为高通滤波器,得到变换重构公式为
其中为对应的重构低通滤波器,为对应的重构高通滤波器,Sf(j,k)为尺度系数,Wf(j,k)为待求的系数。
(c)构造阈值函数,得到估计系数
式中ω=Wf(j,k),T为阈值,μ(ω)即为要求的估计系数选择不同阈值进行试验,使噪声与图像信号之间是由平滑弧线过渡。
(d)对估计系数利用逆变换进行重构,得到新的图像信号,完成去噪输出图像。
3)对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度(如图2所示):由于在东巴经书文字识别过程中,需要关注的只是象形文的笔划特征,因此,要增强目标文字与背景的对比度。
通过图像灰度值与阈值的判定实现笔划特征突出化处理,将背景变为白色,文字变为黑色,则处理后的图像灰度值Mt(a,b)为:
式中,M(a,b)表示原图像中位于(a,b)处的灰度值;λ为阈值;当图像灰度值等于0时表示白色即背景色,等于255时表示黑色即文字色。
其中,采用微分值来决定阈值λ,一般将阈值λ选取在微分直方图中波谷位置处。选取一张东巴经书,由式(9)得到位于(a,b)处的微分值,构造其微分直方图,微分直方图的横坐标为(a,b)处的灰度值,微分直方图的纵坐标为(a,b)处的微分值。
a-1≤l≤a+1 l≠a;b-1≤l≤b+1 m≠b;
式中,M(a,b)表示原图像中位于(a,b)处的灰度值,D(a,b)为位于(a,b)处的微分值。
如图1所示,一个峰值对应象形文字笔划部分,另一个峰值对应背景部分,将阈值λ取在两个峰值之间的波谷处。
4)如图3所示,对特征突出化处理后的数字图像信息进行轮廓检测:对东巴经书的轮廓检测基于灰度值的跳变,将跳变点连接成曲线段即可实现轮廓检测。
如图3(a)所示,图像采用二元函数v(x,y)表示(以下用v表示),取u(x,y)为二元平滑函数,σ为标准差,记
记复数变换函数带入公式(10),得到与则:
进行二维卷积型复数变换,记为由卷积的性质可得
取s=2-j,可得
将梯度grad[]取得极值点(x1,y1),(x2,y2),...,(xn,yn),并将极值点连接成曲线,完成轮廓检测(如图3(b)所示)。其中连接原则是:邻近的点相连;灰度相近的点相连;走向与该点梯度垂直。
5)对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理,其步骤如下:
(1)根据水平方向投影的原理,映射出每一行的上下边缘,实现行切分。
(2)根据垂直方向投影的原理,映射出每个文字的左右边缘,分离出单个东巴象形文字,实现列切分。
(3)切分后进行尺寸统一处理,步骤如下:
(a)计算由行切分和列切分后形成的外接矩形,将外接矩形的左上角标记为(xmin,ymin),右下角坐标标记为(xmax,ymax),中心点标记为(xc,yc),令xmin,ymin分别为左上角横坐标、纵坐标最小值点,xmax,ymax分别表示右下角横坐标、纵坐标最大值点;
(b)定义外接矩形大小为w×w,令w=64,将外接矩形的中心点平移到统一化后的矩形中心平移后外接矩形所有点的横坐标x1、纵坐标y1为:
(c)分别计算外接矩形长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个外接矩形的缩放比例ratio:
ratio=min(ratiox,tatioy)
(d)统一化后的外接矩形所有点的新坐标(x′,y′)为:
x′=x1×ratio
y′=y1×ratio, (17)
实现数字图像信息尺寸统一化,统一化后的文字如图4所示。
上述各实施例仅用于说明本发明,各步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。