CN109284787B

CN109284787B - 一种自动采集手写体墨迹色阶的方法和装置

Info

Publication number: CN109284787B
Application number: CN201810869828.9A
Authority: CN
Inventors: 张海山; 邹月娴; 周永芳; 徐期林; 徐代化
Original assignee: Guangdong Nantian Judicial Appraisal Firm
Current assignee: Guangdong Nantian Judicial Appraisal Firm
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2022-02-25
Anticipated expiration: 2038-08-02
Also published as: CN109284787A

Abstract

本发明提供一种自动采集手写体墨迹色阶的方法和装置，该方法包括：对待采集的手写体墨迹色阶图像进行预处理，获得墨迹色阶图像的前景图像的二值化数组；对二值化数组进行第一设定尺寸的滑窗处理获得第一候选可行块，根据第一候选可行块的位置坐标从色阶值数据中提取相应的色阶值生成色阶值块；对二值化数组进行第二设定尺寸的滑窗处理获得第二候选可行块，根据第二候选可行块的位置坐标从所述色阶值块中提取相应的色阶值块，并对提起的色阶值块进行处理，生成最小可行块；对最小可行块进行分类，根据分类结果获得最佳采集结果，本发明能够实现不同种类手写体墨迹色阶的自动采集。

Description

一种自动采集手写体墨迹色阶的方法和装置

技术领域

本发明涉及墨迹色阶分析领域，尤其涉及一种自动采集手写体墨迹色阶的方法和装置。

背景技术

通过对文件墨迹的色阶进行分析得出文件的相对制成时间，是目前在文件制成时间检验方法中提出的最新的一种方法，在该方法中，采集墨迹色阶是其中的一个重要环节，手写体墨迹是指采用书写工具在载体上形成的墨迹，如中性笔墨迹，圆珠笔墨迹、复写墨迹等。目前可以采用人工标记法和基本图像处理方法来解决采集的问题，但目前方法由于单纯以图像处理的方法，存在着只能同时对单一种类的墨迹进行采集的局限性，而且采集效率低，但实际情况中，往往需要对不同的手写体墨迹进行采集，而且常常需要对大量的墨迹色阶数据进行采集，因此，目前的方法已经不能满足这些需求。

发明内容

本发明所要解决的技术问题在于，提供一种自动采集手写体墨迹色阶的方法和装置，该方法和装置能够自动采集不同手写体墨迹色阶数据。

为了解决上述技术问题，本发明提供一种自动采集手写体墨迹色阶的方法，包括如下步骤：

S1、对待采集的手写体墨迹色阶图像进行预处理，获得所述墨迹色阶图像的前景图像的二值化数组；

S2、对所述前景图像的二值化数组进行扁平化处理，获得扁平化的前景图像的二值化数组；

S3、对所述扁平化的前景图像的二值化数组进行第一设定尺寸的滑窗处理，获得多个第一候选可行块，根据多个所述第一候选可行块的位置坐标从色阶值数据中提取相应的色阶值，生成多个色阶值块；

S4、对所述扁平化的前景图像的二值化数组进行第二设定尺寸的滑窗处理，获得第二候选可行块，根据所述多个第二候选可行块的位置坐标从所述色阶值块中提取相应位置坐标的具有第二设定尺寸的色阶值块，并对提取的所述色阶值块进行处理，生成最小可行块；

S5、对所述最小可行块中的数据进行分类，根据分类结果获得最佳采集结果。

其中，所述步骤S1具体包括：

S11、对所述手写体墨迹色阶图像进行灰度化处理，获得灰度化数组；

S12、对所述灰度化数组进行二值化处理，获得二值化数组；

S13、对所述二值化数组进行开运算，将手写体和背景分离，获得所述前景图像的二值化数组。

其中，所述步骤S11具体包括，采用下式获得灰度化数组矩阵：

Gray8[k]＝0.299R+0.587G+0.114B，

其中，R＝rgb24[i×W+j]，G＝rgb24[i×W+j+1]，B＝rgb24[i×W+j+2]，rgb24为所述墨迹色阶图像的存储数组，Gray8为灰度化数组，0<＝i<H，0<＝j<W，0<＝k<W×H，W和H分别为所述墨迹色阶图像的宽度和高度。

其中，所述步骤S12具体包括：

采用最大类间方差法获取所述灰度化数组的阈值；当所述灰度化数组中的数值大于所述阈值时，在对应位置记1，否则记0，从而得到所述二值化数组。

其中，所述步骤S13具体包括：

对所述二值化数组进行腐蚀操作和膨胀操作。

其中，所述步骤S3具体包括：

所述第一设定尺寸的滑窗为10×10的滑窗，当所述第一滑窗中的数据全部为0时，则所述第一滑窗对应的二值化数组为第一候选可行块。

其中，所述步骤S4具体包括：

计算所述色阶值块的均方差，获取均方差小于设定均方差阈值的色阶值块，形成均匀可行块；

所述第二设定尺寸的滑窗为3×3的滑窗，当所述第二滑窗中的数据全部为0时，则所述第二滑窗对应的二值化数组为第二候选可行块，根据每一个第二候选可行块的位置坐标，从所述均匀可行块中提取与所述第二候选可行块的位置坐标相对应的色阶值块；

对提取的每一个色阶值块中的色阶值进行求和取平均值获得第一平均值，多个所述第一平均值形成所述最小可行块。

其中，所述步骤S5具体包括：

采用建立的SVM分类模型对所述最小可行块中的多个所述第一平均值进行分类，获得与所述SVM分类模型中的正样本集合相对应的所述第一平均值形成最终的可行块；

将最终可行块中的数据按照设定的分类等级数量进行等级分类，分别统计每个等级中的数据个数；

获取每个等级的中间值，并根据每个等级的中间值获取所有等级中间值的中间值；

计算最终可行块中的最大数据值与最小数据值之间的第一差值，并利用所述第一差值除以所述设定的分类等级数量，获得平均距离值；

计算所述所有等级中间值的中间值与所述平均距离值之间的第二差值；

从所述最终可行块中选取处于所述第二差值至所述所有等级中间值的中间值之间的数据作为最佳采集结果。

其中，建立所述SVM分类模型具体包括：

对所述最小可行块进行正态分布函数拟合，获得所述正态分布函数的置信区间；对处于置信区间内的多个第一平均值求平均值，选出设定数量的第一平均值作为SVM分类模型的正样本数据集，其中所述设定数量的第一平均值之间的均方差值最小；

计算所述最小可行块的多个第一平均值的平均值，选取所述设定数量的第一平均值作为SVM分类模型的负样本数据集，其中所述设定数量的第一平均值的平均值最大；

采用线性核函数进行分类器训练，生成所述SVM分类模型。

本发明还提供一种自动采集手写体墨迹色阶的装置，包括：

前景图像获取模块，对待采集的手写体墨迹色阶图像进行预处理，获得所述墨迹色阶图像的前景图像的二值化数组；

扁平化前景图像获取模块，对所述前景图像的二值化数组进行扁平化处理，获得扁平化的前景图像的二值化数组；

色阶值块生成模块，对所述扁平化的前景图像的二值化数组进行第一设定尺寸的滑窗处理，获得多个第一候选可行块，根据多个所述第一候选可行块的位置坐标从色阶值数据中提取相应的色阶值，生成多个色阶值块；

最小可行块获取模块，对所述扁平化的前景图像的二值化数组进行第二设定尺寸的滑窗处理，获得第二候选可行块，根据所述多个第二候选可行块的位置坐标从所述色阶值块中提取相应位置坐标的具有第二设定尺寸的色阶值块，并对提取的所述色阶值块进行处理，生成最小可行块；

采集结果获取模块，对所述最小可行块中的数据进行分类，根据分类结果获得最佳采集结果。

本发明实施例的有益效果在于：本发明的自动采集手写体墨迹色阶的方法和装置结合图像处理、机器学习和数据统计的方法，从而获得最佳的数据采集结果，能够实现不同种类手写体墨迹色阶的自动采集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种自动采集手写体墨迹色阶的方法的流程图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例一提供一种自动采集手写体墨迹色阶的方法，包括如下步骤：

S1、对待采集的手写体墨迹色阶图像进行预处理，获得所述墨迹色阶图像的前景图像的二值化数组。

其中，所述步骤S1具体包括：

S11、对所述手写体墨迹色阶图像进行灰度化处理，获得灰度化数组。

具体地，假设输入的手写体墨迹色阶彩色图像的存储数组为BYTE rgb24[W×H×3]，转换成灰度图像的数组为BYTE gray8[W×H]，采用以下公式进行转换：

Gray8[k]＝0.299R+0.587G+0.114B，

其中，R＝rgb24[i×W+j]，G＝rgb24[i×W+j+1]，B＝rgb24[i×W+j+2]，0<＝i<H，0<＝j<W，0<＝k<W×H，W和H分别为手写体墨迹色阶图像的宽度和高度。

S12、对所述灰度化数组进行二值化处理，获得二值化数组。

具体地，采用最大类间方差法获取所述灰度化数组的阈值；当所述灰度化数组中的数值大于所述阈值时，则在与所述数值对应的位置处记1，否则，记0，从而得到所述二值化数组。

其中，最大类间方差法是一种自动求取阈值的方法，它按图像的灰度特性，将图像分为背景和目标2部分，背景和目标之间的类间方差越大,说明构成图像的2部分的差别越大，当部分目标错分为背景或部分背景错分为目标都会导致2部分差别变小。

其中，所述开运算包括图像腐蚀操作和图像膨胀操作。

具体地，图像腐蚀操作包括：首先自定义一个3行3列的核矩阵，该核矩阵由0和1组成，当该核矩阵在像素矩阵上移动时，在核矩阵为1的位置，如果与核矩阵上的1所在位置对应的二值化数组矩阵的数值为0，则将核矩阵下方的与核矩阵对应的3行3列的二值化数组矩阵的中心位置的数值设置为0，否则，中心位置的数值不变，继续扫描核矩阵中为1的位置，直至核矩阵中完成所有1的扫描为止，如果都没有满足条件的情况存在，则中心位置的数值不变。继续滑动所述核矩阵，进行同样的操作。

举例说明，假设该核矩阵可以为{1,1,1,0,0,1,0,1,1}，二值化数组矩阵也为{1,1,1,0,0,1,0,1,1}，则核矩阵正好可以遮住二值化数组矩阵，被核矩阵遮住的二值化数组矩阵的中心位置的值当前为0，由于核矩阵坐标为(0,0)位置的值为1，而被遮住的二值化数据矩阵坐标为(0,0)位置的值为1，由于该值不是0，不满足条件，二值化数组矩阵的中心位置(1,1)处的值不发生变化，继续遍历核矩阵坐标为(0,1)位置的值为1，则对应的判断二值数组矩阵上(0,1)上的值是否为0，如果是，则将二值数组矩阵中心位置的值置为0，否则继续遍历核矩阵，直至将核矩阵遍历完为止。完成整个核矩阵的遍历之后，移动所述核矩阵，按照相同的方式完成二值数组的其他位置处的遍历。

具体地，所述图像膨胀操作包括：首先自定义一个3行3列的核矩阵，该核矩阵由0和1组成，当该核矩阵在像素矩阵上移动时，在核矩阵为1的位置，如果与核矩阵上的1所在位置对应的二值化数组矩阵的数值为1，则将核矩阵下方的与核矩阵对应的3行3列的二值化数组矩阵的中心位置的数值设置为1。否则，中心位置的数值不变，继续扫描核矩阵中为1的位置，直至核矩阵中完成所有1的扫描，继续滑动所述核矩阵，进行同样的操作。

膨胀操作的具体实施方式与腐蚀操作相同，只是判断条件不一样，因此不再举例描述。

S2、对所述前景图像的二值化数组进行扁平化处理，获得扁平化的前景图像的二值化数组。

具体地，对经过膨胀后的二值化数组矩阵进行扁平化处理，获得扁平化的二值化数组。

S3、对所述扁平化的前景图像的二值化数组进行第一设定尺寸的滑窗处理，获得多个第一候选可行块，根据多个所述第一候选可行块的位置坐标从色阶值数据中提取相应的色阶值，生成多个色阶值块。

其中，所述第一设定尺寸的滑窗为10×10的滑窗，所述滑动步长为1，当所述第一滑窗中的数据全部为0时，则所述第一滑窗对应的二值化数组为第一候选可行块，根据所述第一候选可行块的位置坐标，从所述前景图像的二值化数组中提取与第一可行块的位置坐标相应的数据放入第一候选可行块中，并根据所述第一候选可行块的位置坐标，从色阶值数据中提取与第一候选可行块位置坐标相应的色阶值数据从而形成色阶值块。

S4、对所述扁平化的前景图像的二值化数组进行第二设定尺寸的滑窗处理，获得第二候选可行块，根据所述多个第二候选可行块的位置坐标从所述色阶值块中提取相应位置坐标的具有第二设定尺寸的色阶值块，并对提取的所述色阶值块进行处理，生成最小可行块。

其中，所述步骤S4具体包括：计算所述色阶值块的均方差，获取均方差小于设定均方差阈值的色阶值块，形成均匀可行块。

具体地，计算每个色阶值块的均方差后，按照均方差从小到大的顺序进行排序，假设设定均方差的阈值为0.5，将均方差值大于0.5的色阶值块剔除，将均方差值小于0.5的色阶值块保留，从而形成所述均匀可行块。

其中，所述步骤S4还包括：

所述第二设定尺寸的滑窗为3×3的滑窗，滑动步长为1，当所述第二滑窗中的数据全部为0时，则所述第二滑窗对应的二值化数组为第二候选可行块，根据每一个第二候选可行块的位置坐标，从所述均匀可行块中提取与所述第二候选可行块的位置坐标相对应的色阶值块，对每一个提取的色阶值块中的色阶值进行求和取平均值获得第一平均值，多个所述第一平均值形成所述最小可行块。

需要说明的是，本发明实施例中的第一设定尺寸的滑窗和第二设定尺寸的滑窗并不限定与举例说明的尺寸，本领域技术人员可以根据实际的需要进行设定，只需要确保第一设定尺寸大于第二设定尺寸即可。

其中，所述步骤S5具体包括：

将最终可行块中的数据按照设定的分类等级数量进行分类统计，分别统计每个等级中的数据个数；

具体地，采用如下方式建立获得所述SVM模型：首先计算所述最小可行块的均值，并对所述最小可行块按照均值进行排序，采用正态分布函数

对所述最小可行块进行拟合，从而计算出μ和σ的值，从而得到置信区间[μ-σ，μ+σ]。从所述最小可行块中找出处于置信区间内的多个第一均值，对所述处于置信区间内的多个第一均值求平均值，找出100个第一平均值，将该100个第一平均值作为最佳采集结果，其中该100个平均值之间的均方值差值最小。该结果作为正样本集合。其次，对最小可行块进行均值排序，选取均值较大的100个可行块作为SVM分类模型的负样本集合。接着，采用线性核函数对输入的正样本集合和负样本集合进行分类器训练，找到正负样本的边界，生成所述SVM分类模型，在生成所述分类模型之后，对于训练集和测试集，最终都生成相应的准确率，来评估分类的效果。

具体地，所述建立的SVM模型对输入其中的候选可行块进行自动分类，找出与正样本相对的数据组成最终可行块，采用直方图对最终可行块中的数据进行统计。

需要说明的是，所述正样本集合还可以采用人工标记的方式获得。

本发明实施例的手写体墨迹色阶的自动采集方法结合图像处理、机器学习和数据统计的方法，从而获得最终的采集结果，实现了不同种类手写体墨迹色阶的采集。

基于本发明实施例一，本发明实施例二提供一种自动采集手写体墨迹色阶的装置，包括：

有关本实施例的工作原理以及所带来的有益效果请参照本发明实施例一的说明，此处不再赘述。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种自动采集手写体墨迹色阶的方法，其特征在于，包括如下步骤：

S4、计算所述色阶值块的均方差，获取均方差小于设定均方差阈值的色阶值块，形成均匀可行块；对所述扁平化的前景图像的二值化数组进行第二设定尺寸的滑窗处理，获得第二候选可行块，根据多个所述第二候选可行块的位置坐标从所述均匀可行块中提取与所述第二候选可行块的位置坐标相对应的具有第二设定尺寸的色阶值块，并对提取的每一个具有第二设定尺寸的色阶值块中的色阶值进行求和取平均值获得第一平均值，多个所述第一平均值形成最小可行块；

S5、采用建立的SVM分类模型对所述最小可行块中的多个所述第一平均值进行分类，获得与所述SVM分类模型中的正样本集合相对应的所述第一平均值形成最终可行块；将最终可行块中的数据按照设定的分类等级数量进行等级分类，分别统计每个等级中的数据个数；获取每个等级的中间值，并根据每个等级的中间值获取所有等级中间值的中间值；计算最终可行块中的最大数据值与最小数据值之间的第一差值，并利用所述第一差值除以所述设定的分类等级数量，获得平均距离值；计算所述所有等级中间值的中间值与所述平均距离值之间的第二差值；从所述最终可行块中选取处于所述第二差值至所述所有等级中间值的中间值之间的数据作为最佳采集结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：

S12、对所述灰度化数组进行二值化处理，获得二值化数组；

3.根据权利要求2所述的方法，其特征在于，所述步骤S11具体包括，采用下式获得灰度化数组矩阵：

Gray8[k]＝0.299R+0.587G+0.114B，

4.根据权利要求3所述的方法，其特征在于，所述步骤S12具体包括：

5.根据权利要求4所述的方法，其特征在于，所述步骤S13具体包括：

对所述二值化数组进行腐蚀操作和膨胀操作。

6.根据权利要求4所述的方法，其特征在于，所述步骤S3具体包括：

第一设定尺寸的滑窗为10×10的滑窗，当所述第一设定尺寸的滑窗中的数据全部为0时，则所述第一设定尺寸的滑窗对应的二值化数组为第一候选可行块。

7.根据权利要求6所述的方法，其特征在于，第二设定尺寸的滑窗为3×3的滑窗，当所述第二设定尺寸的滑窗中的数据全部为0时，则所述第二设定尺寸的滑窗对应的二值化数组为第二候选可行块。

8.根据权利要求7所述的方法，其特征在于，建立所述SVM分类模型具体包括：

采用线性核函数进行分类器训练，生成所述SVM分类模型。

9.一种自动采集手写体墨迹色阶的装置，其特征在于，包括：

最小可行块获取模块，计算所述色阶值块的均方差，获取均方差小于设定均方差阈值的色阶值块，形成均匀可行块；对所述扁平化的前景图像的二值化数组进行第二设定尺寸的滑窗处理，获得第二候选可行块，根据多个所述第二候选可行块的位置坐标从所述均匀可行块中提取与所述第二候选可行块的位置坐标相对应的具有第二设定尺寸的色阶值块，并对提取的每一个具有第二设定尺寸的色阶值块中的色阶值进行求和取平均值获得第一平均值，多个所述第一平均值形成最小可行块；

采集结果获取模块，采用建立的SVM分类模型对所述最小可行块中的多个所述第一平均值进行分类，获得与所述SVM分类模型中的正样本集合相对应的所述第一平均值形成最终可行块；将最终可行块中的数据按照设定的分类等级数量进行等级分类，分别统计每个等级中的数据个数；获取每个等级的中间值，并根据每个等级的中间值获取所有等级中间值的中间值；计算最终可行块中的最大数据值与最小数据值之间的第一差值，并利用所述第一差值除以所述设定的分类等级数量，获得平均距离值；计算所述所有等级中间值的中间值与所述平均距离值之间的第二差值；从所述最终可行块中选取处于所述第二差值至所述所有等级中间值的中间值之间的数据作为最佳采集结果。