CN116682112B - 一种多糖测试数据存储及数字化方法 - Google Patents
一种多糖测试数据存储及数字化方法 Download PDFInfo
- Publication number
- CN116682112B CN116682112B CN202310934344.9A CN202310934344A CN116682112B CN 116682112 B CN116682112 B CN 116682112B CN 202310934344 A CN202310934344 A CN 202310934344A CN 116682112 B CN116682112 B CN 116682112B
- Authority
- CN
- China
- Prior art keywords
- paper
- suspected
- value
- text
- gray
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 150000004676 glycans Chemical class 0.000 title claims abstract description 42
- 229920001282 polysaccharide Polymers 0.000 title claims abstract description 42
- 239000005017 polysaccharide Substances 0.000 title claims abstract description 42
- 238000012360 testing method Methods 0.000 title claims abstract description 36
- 238000013500 data storage Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims description 98
- 238000004891 communication Methods 0.000 claims description 33
- 230000003247 decreasing effect Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000000877 morphologic effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 5
- 238000005286 illumination Methods 0.000 description 11
- 238000010606 normalization Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000012377 drug delivery Methods 0.000 description 1
- 235000003132 food thickener Nutrition 0.000 description 1
- 239000003906 humectant Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18076—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像数据处理技术领域,具体涉及一种多糖测试数据存储及数字化方法,包括:将纸质文本图像分割为目标区域和背景区域,根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数;根据纸质文本图像对应的伽马值调整参数和纸质文本图像内文字受纸张扭曲褶皱的影响程度,确定纸质文本图像对应的伽马值,根据纸质文本图像对应的伽马值进行伽马变化,获取高质量纸质文本图像,精准识别高质量纸质文本图像内的文字,用于多糖测试数据存储及数字化。本发明通过自适应伽马值对纸质文本图像进行增强,突显目标区域内的文字细节信息,抑制背景区域内的高光影响,从而提高文字识别的准确性。
Description
技术领域
本发明涉及图像数据处理技术领域,具体涉及一种多糖测试数据存储及数字化方法。
背景技术
多糖在食品、制药、化妆品等领域具有广泛应用。例如:多糖可以用作食品增稠剂、药物释放系统、保湿剂等。因此需要进行多糖测试,研究多糖的结构、组成、分子量、溶解性、降解性等特性,以深入了解多糖的性质和功能,为后续的研究提供数据。多糖测试数据存储及数字化可以确保数据的安全性、可访问性和利用性,使数据易于管理、查找和分析。在此过程中需要先采集多糖测试使用到的实验仪器设备、计算机软件系统产生的电子数据和人工实验记录、样品标签、草图、手写笔记或其他相关文档的纸质文本图像数据。其中纸质文本图像需要转换为可编辑的电子文本,然而在图像采集过程中由于各种主客观因素,如光照情况、纸张质量不好等,从而导致获取的图像中出现阴影和局部光亮等问题,使得图像质量降低,影响图像内文字扫描识别的准确性。
伽马变换是一种常用的非线性灰度变换图像增强方法,其可以灰度拉伸图像中重要的低灰度值的文字区域,同时灰度压缩不重要的高灰度值的背景区域,由此保障纸质文本图像的增强效果。但伽马值选择困难,需要根据具体图像的特性和需求进行反复调整,当选取不合适时,会造成图像过度增强或增强效果不明显,以及图像细节信息丢失。
现有的问题:纸质文本图像中的文字识别的准确性会受到光照不均匀和纸张扭曲褶皱的影响,当伽马变换中的伽马值选取不合适时,不能较好的突显图像内的文字细节信息和去除光亮影响,使得图像增强效果较差,影响图像内文字扫描识别的准确性。
发明内容
本发明提供一种多糖测试数据存储及数字化方法,以解决现有的问题。
本发明的一种多糖测试数据存储及数字化方法采用如下技术方案:
本发明一个实施例提供了一种多糖测试数据存储及数字化方法,该方法包括以下步骤:
获取多糖测试过程中产生的纸质文本图像,将纸质文本图像分割为目标区域和背景区域;
将目标区域分割为疑似文字区域和阴影区域,对目标区域进行二值化处理,获得二值目标区域;对二值目标区域进行形态学处理,获得疑似文字区域边界上的毛刺点数量;
将背景区域分割为正常背景区域和光亮背景区域,根据正常背景区域和光亮背景区域的灰度差异和光亮背景区域内的像素点灰度值方差,确定背景区域内的光亮特征;根据疑似文字区域边界上像素点的灰度梯度均值和疑似文字区域边界上的毛刺点数量以及目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征;根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数;
将疑似文字区域内连续相邻的像素点构成的连通域记为疑似文字连通域,区分疑似文字连通域中的正常疑似文字连通域和异常疑似文字连通域;根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度;根据纸质文本图像内文字受纸张扭曲褶皱的影响程度和纸质文本图像对应的伽马值调整参数,确定纸质文本图像对应的伽马值;
根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;将高质量纸质文本图像转换为可编辑的电子文本并进行存储。
进一步地,所述获得疑似文字区域边界上的毛刺点数量,包括的具体步骤如下:
对所述二值目标区域进行形态学开运算,获得形态学开运算后的二值目标区域;
对所述二值目标区域与形态学开运算后的二值目标区域进行图像差分,获得所述疑似文字区域边界上的毛刺点数量。
进一步地,所述将背景区域分割为正常背景区域和光亮背景区域,包括的具体步骤如下:
根据背景区域内每个像素点的灰度梯度值,获得梯度值集合;
使用大津算法求取梯度值集合中的光亮分割阈值,令背景区域内灰度梯度值小于光亮分割阈值的像素点为正常背景区域,灰度梯度值大于等于光亮分割阈值的像素点为光亮背景区域。
进一步地,所述确定目标区域内的阴影特征,包括的具体步骤如下:
根据所述疑似文字区域边界上像素点的灰度梯度均值和所述疑似文字区域边界上的毛刺点数量,确定文字边界受阴影的影响程度;
根据文字边界受阴影的影响程度和所述目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征。
进一步地,所述根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数对应的具体计算公式为:
其中C为文本图像对应的伽马值调整参数,S表示目标区域内像素点灰度值大小的种类数量,F表示疑似文字区域边界上像素点的灰度梯度均值,B表示疑似文字区域边界上的毛刺点数量,D表示背景区域内的光亮特征,E和分别表示正常背景区域和光亮背景区域内的像素点灰度均值,V表示光亮背景区域内的像素点灰度值方差,/>为以自然常数为底的指数函数,a为预设的常数。
进一步地,所述区分疑似文字连通域中的正常疑似文字连通域和异常疑似文字连通域;根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度,包括的具体步骤如下:
根据灰度值由大至小,依次判断所述疑似文字连通域内像素点灰度值是否小于等于其八邻域上所有像素点的灰度值,获得疑似文字连通域内的起始像素点;
将疑似文字连通域划分为存在起始像素点的异常疑似文字连通域和不存在起始像素点的正常疑似文字连通域;
若当异常疑似文字连通域数量等于预设的异常疑似文字连通域数量的阈值,则将纸质文本图像内文字受纸张扭曲褶皱的影响程度设置为预设的纸张扭曲褶皱的影响程度;
若当异常疑似文字连通域数量大于预设的异常疑似文字连通域数量的阈值,则根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度;
根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和所述疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度。
进一步地,所述根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度,包括的具体步骤如下:
根据异常疑似文字连通域内起始像素点至其八邻域像素点的方向和灰度差异,确定起始像素点的灰度减小向量;
在所述异常疑似文字连通域内,从起始像素点开始沿其灰度减小向量的方向逐个像素点遍历,获得参考像素点灰度值集合;
根据参考像素点灰度值集合中前一个数据减去后一个数据的差值,获得参考差值集合;
将参考差值集合中连续相邻的非负数据构成的数据段记为递减数据段,根据异常疑似文字连通域对应的参考差值集合中递减数据段的数量和异常疑似文字连通域对应的参考差值集合中每个递减数据段内数据数量中的最大值,确定异常疑似文字连通域内像素点灰度值减小的不连续性;
根据异常疑似文字连通域对应的参考差值集合中为负的数据值的数量和异常疑似文字连通域对应的参考差值集合中为非负的数据均值减去参考差值集合中为负的数据均值的差值,确定异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度;
根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度,其中,异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度呈正相关。
进一步地,所述根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;将高质量纸质文本图像转换为可编辑的电子文本并进行存储,包括的具体步骤如下:
根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;根据高质量纸质文本图像,使用OCR技术获得可编辑的电子文本;获取预设的电子表格,将可编辑的电子文本进行存储。
本发明的技术方案的有益效果是:
本发明实施例中,通过将纸质文本图像分割为目标区域和背景区域,自适应伽马值对纸质文本图像进行伽马变换,实现图像增强处理,在突显目标区域内的文字细节信息的同时,抑制背景区域内的高光影响,从而提高文字识别的准确性。具体为,在光照不均匀的情况下,纸质文本图像内会出现阴影和光亮的现象,根据正常背景区域和光亮背景区域的灰度差异和光亮背景区域内的像素点灰度值方差,确定背景区域内的光亮特征,根据疑似文字区域边界上的毛刺点数量和疑似文字区域边界上像素点的灰度梯度均值以及目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征,根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数。考虑到纸张在受到光照不均匀影响的同时,可能还会存在有轻微的扭曲褶皱,导致文字形状畸变,影响文字的识别,根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度,根据纸质文本图像对应的伽马值调整参数和纸质文本图像内文字受纸张扭曲褶皱的影响程度,确定纸质文本图像对应的伽马值,根据纸质文本图像对应的伽马值进行伽马变化,当目标区域内的文字受阴影和纸张扭曲褶皱的影响较大,且背景区域受光亮影响较大时,赋予图像较小的伽马值,用以较大的拉伸目标区域的灰度,突显文字细节信息,并且较大的压缩背景区域的灰度,防止光亮导致出现伪影,获取高质量纸质文本图像,从而提高文字识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多糖测试数据存储及数字化方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种多糖测试数据存储及数字化方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种多糖测试数据存储及数字化方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种多糖测试数据存储及数字化方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取多糖测试过程中产生的纸质文本图像,将纸质文本图像分割为目标区域和背景区域。
多糖测试数据存储及数字化的过程中,需要先采集多糖测试使用到的实验仪器设备、计算机软件系统产生的电子数据和人工实验记录、样品标签、草图、手写笔记或其他相关文档的纸质文本图像数据,其中纸质文本图像需要转换为可编辑的电子文本,但在图像采集过程中由于光照不均匀和纸质扭曲褶皱的影响,会使得图像质量降低,影响图像内文字扫描识别的准确性。因此本实施例使用改进的伽马变换对纸质文本图像进行增强处理,保障文字识别的准确性。
获取多糖测试过程中产生的纸质文本图像,对图像进行灰度化处理,再利用大津算法求取图像内的最佳分割阈值T,由于纸质文本图像内文字区域像素点灰度值较低,故令纸质文本图像内灰度值大于等于阈值T的像素点为背景区域,令灰度值小于阈值T的像素点为目标区域。其中,大津算法为公知技术,具体方法在此不做介绍。
步骤S002:将目标区域分割为疑似文字区域和阴影区域,对目标区域进行二值化处理,获得二值目标区域;对二值目标区域进行形态学处理,获得疑似文字区域边界上的毛刺点数量。
由于在光照不均匀的情况下,纸质文本图像内会出现阴影和光亮的现象,故目标区域受阴影的影响,背景区域受光亮的影响。已知在伽马变换中,当伽马值等于1时,图像不进行灰度变换,当伽马值大于0且小于1时,会灰度拉伸图像中灰度值较低的区域,即可以有效的区分目标区域内的阴影和文字,同时会灰度压缩图像中灰度值较高的区域,即可以抑制背景区域内光亮的影响。并且伽马值越小,图像中低灰度值区域灰度拉伸程度越大,高灰度值区域灰度压缩程度越大。因此本实施例设定伽马值的取值范围为(0,1]。
使用大津算法求取目标区域中的最佳分割阈值,通常文字区域相对于阴影区域的像素点灰度值较小,故令目标区域中灰度值小于阈值/>的像素点为疑似文字区域,令灰度值大于等于阈值/>的像素点为阴影区域。再标记疑似文字区域内像素点灰度值为1,标记阴影区域内像素点灰度值为0,由此对目标区域进行二值化处理,获得二值目标区域。
对二值目标区域进行形态学开运算处理,获取形态学开运算后的二值目标区域,本实施例设置形态学开运算的结构元素为:半径为3的圆形结构元素。对二值目标区域和形态学开运算后的二值目标区域进行图像差分,获取差分图像,统计差分图像中灰度值为1的像素点的数量为B。已知形态学开运算可以平滑目标区域内疑似文字区域的边界,消除边界上的毛刺点,故B表示疑似文字区域边界上的毛刺点数量。
其中,图像差分和大津算法以及形态学开运算均为公知技术,具体方法在此不做介绍。
步骤S003:将背景区域分割为正常背景区域和光亮背景区域,根据正常背景区域和光亮背景区域的灰度差异和光亮背景区域内的像素点灰度值方差,确定背景区域内的光亮特征;根据疑似文字区域边界上像素点的灰度梯度均值和疑似文字区域边界上的毛刺点数量以及目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征;根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数。
由于背景区域内的光亮会导致像素点灰度值会沿光照方向发生剧烈变化,故在背景区域内统计各像素点的灰度梯度值,获取一个梯度值集合A,利用大津算法求取梯度值集合A中的最佳分割阈值,故令背景区域内梯度值小于阈值/>的像素点为正常背景区域,令梯度值大于等于阈值/>的像素点为光亮背景区域。其中,大津算法为公知技术,具体方法在此不做介绍。
由此可知纸质文本图像对应的伽马值调整参数C为:
其中S表示目标区域内像素点灰度值大小的种类数量,F表示疑似文字区域边界上像素点的灰度梯度均值,B表示疑似文字区域边界上的毛刺点数量。D表示背景区域内的光亮特征,E和分别表示正常背景区域和光亮背景区域内的像素点灰度均值,V表示光亮背景区域内的像素点灰度值方差。/>为以自然常数为底的指数函数。a为设定的常数,本发明实施例中a的取值为255,其它实施方式中可设置为其它值,本实施例不进行限定。
所需说明的是:已知纸质文本图像内文字的边界平滑,其边界形状连续、流畅,没有明显的锯齿状。故当B值越大时,说明目标区域中阈值分割出的疑似文字区域边界形状受阴影的影响越大,需要较大的灰度拉伸,突显纸质文本图像内文字。且F体现了目标区域中阈值分割出的疑似文字区域边界的清晰程度,其值越小,疑似文字区域边界越模糊,需要较大的灰度拉伸,增强疑似文字区域边界的清晰程度,故用归一化反比的为B的调整值,两者的乘积表示文字边界受阴影的影响程度。而S表示目标区域的对比度特征,其值越大,即包含大量不同灰度值的像素点,则图像目标区域具有较高的对比度,需要灰度拉伸的程度较小,防止灰度过增强,因此用归一化反比的/>为/>的调整值,两者的乘积表示目标区域内的阴影特征,其值越大,目标区域需要较大的灰度拉伸,即需要较小的伽马值。由于正常情况下背景区域内各像素点灰度值应相似,V体现了背景区域内光亮造成的灰度变化剧烈程度,/>表示背景区域内正常背景区域和光亮背景区域的灰度差异,其值越大,光亮的强度越大,因此用归一化的/>为V的调整值,两者的乘积表示背景区域内的光亮特征,其值越大,背景区域需要较大的灰度压缩,防止光亮导致图像内出现伪影,即需要较小的伽马值,因此用归一化后加1的值/>为的调整值,加1是为了防止调整值为0,影响后续操作,由此获取纸质文本图像对应的伽马值调整参数,其值越大,需要越小的伽马值。
步骤S004:将疑似文字区域内连续相邻的像素点构成的连通域记为疑似文字连通域,区分疑似文字连通域中的正常疑似文字连通域和异常疑似文字连通域;根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度;根据纸质文本图像内文字受纸张扭曲褶皱的影响程度和纸质文本图像对应的伽马值调整参数,确定纸质文本图像对应的伽马值。
由于纸张在受到光照不均匀影响的同时,可能还会存在有轻微的扭曲褶皱,导致文字形状畸变,影响文字的识别。因此需要进一步分析纸质文本图像中文字受纸张扭曲的影响程度,获取自适应伽马值。
将疑似文字区域内连续相邻的像素点构成的连通域记为疑似文字连通域,取疑似文字区域中一个疑似文字连通域为例,根据灰度值由大到小将该疑似文字连通域内的像素点排序,获取集合,其中n表示该疑似文字连通域内的像素点数量,/>表示该疑似文字连通域内根据灰度值由大到小排序的第n个像素点。
取集合G中的像素点,在该疑似文字连通域内统计该像素点八邻域中灰度值小于该像素点灰度值的像素点,记为参考像素点。若该像素点不存在对应的参考像素点,则依次取集合G中的像素点/>,判断该像素点是否存在对应的参考像素点,以此类推,直至得到存在对应的参考像素点的像素点记为该疑似文字连通域内的起始像素点。若该疑似文字连通域内不存在起始像素点,说明该疑似文字连通域内不受纸张扭曲褶皱的影响,记该疑似文字连通域为正常疑似文字连通域。若该疑似文字连通域内存在起始像素点,记该疑似文字连通域为异常疑似文字连通域。
当该疑似文字连通域为异常疑似文字连通域时,统计该疑似文字连通域内起始像素点与对应的每个参考像素点的向量,该向量的方向是由起始像素点指向对应的参考像素点,该向量的模值为起始像素点灰度值减去对应的参考像素点灰度值的差值。再取这些向量的和值,记为该疑似文字连通域内起始像素点的灰度减小向量,进而从起始像素点开始沿其灰度减小向量方向做射线,再从起始像素点开始逐像素点统计该射线上该疑似文字连通域内的像素点,记为参考像素点,并获得参考像素点灰度值集合,其中m表示参考像素点的数量,/>表示第m个参考像素点灰度值。再计算集合H中前一个数据减去后一个数据的差值,获得参考差值集合/>,其中/>表示集合/>中第m-1个数据/>减去第m个数据/>的差值。将参考差值集合/>中连续相邻的非负数据构成的数据段记为递减数据段。
按照上述方式,获得疑似文字区域中每个疑似文字连通域对应的参考差值集合和递减数据段。
由此可知纸质文本图像对应的伽马值P为:
当时,K的获取方式如下:
当时,K的获取方式如下:
其中C为纸质文本图像对应的伽马值调整参数,K为纸质文本图像内文字受纸张扭曲褶皱的影响程度,为设定的纸张扭曲褶皱的影响程度,q为疑似文字区域内异常疑似文字连通域的数量,/>为设定的异常疑似文字连通域数量的阈值,/>为疑似文字区域内疑似文字连通域的数量,/>为第i个异常疑似文字连通域内像素点灰度值减小的不连续性,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为负的数据值的数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中的数据数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为负数的数据值的均值,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为非负数的数据值的均值,/>为第i个异常疑似文字连通域对应的参考差值集合/>中递减数据段的数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中每个递减数据段内数据数量值中的最大值,/>为以自然常数为底的指数函数,r为设定的指数函数的调整值。本实施例以/>=0,/>,/>为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。
所需说明的是:当疑似文字区域内异常疑似文字连通域的数量q等于设定的异常疑似文字连通域数量的阈值时,即/>时,说明疑似文字区域不受纸张扭曲褶皱的影响,则令纸质文本图像内文字受纸张扭曲褶皱的影响程度K为设定的纸张扭曲褶皱的影响程度/>,即K=0。当疑似文字区域内异常疑似文字连通域的数量q大于设定的异常疑似文字连通域数量的阈值/>时,即/>时,说明疑似文字区域内存在受纸张扭曲褶皱影响的异常疑似文字连通域,则纸质文本图像内文字受纸张扭曲褶皱的影响程度K的求取过程为:由于只受不均匀光照影响时,异常疑似文字连通域内的像素点灰度值沿光照方向逐渐减小,当受到纸张扭曲褶皱的影响时,纸张凸起或凹陷的形态会改变光照方向的变化,导致异常疑似文字连通域内的像素点灰度值变化不规律。/>体现了第i个异常疑似文字连通域内对应的射线上像素点灰度值持续递减的最大长度,而/>体现了第i个异常疑似文字连通域内对应的射线上像素点灰度值持续递减的分段数量,其值越大,说明纸张扭曲褶皱的影响越大,因此用反比归一化的/>为/>的调整值,两者的乘积表示第i个异常疑似文字连通域内对应的射线上像素点灰度值持续递减的连续性,则其归一化反比的/>为第i个异常疑似文字连通域内像素点灰度值减小的不连续性。且/>体现了第i个异常疑似文字连通域内对应的射线上像素点灰度值递减数据与递增数据之间的差异,/>体现了第i个异常疑似文字连通域内对应的射线上像素点灰度值递增数据的数量,故用归一化的为/>的调整值,两者的乘积表示第i个异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,再用/>为/>的调整值,两者的乘积表示第i个异常疑似文字连通域受纸张扭曲褶皱的影响程度,其值越大,异常疑似文字连通域受纸张扭曲褶皱的影响程度越大,故目标区域需要越大的会使拉伸,突显纸张扭曲褶皱处的文字细节信息,提高这些文字识别的准确性,即需要较小的伽马值,进而用每个异常疑似文字连通域受纸张扭曲褶皱的影响程度的和值除以疑似文字区域内疑似文字连通域的数量,并对其进行归一化加1,获得纸质文本图像内文字受纸张扭曲褶皱的影响程度K,至此用K为C的调整值,两者乘积归一化的反比值表示纸质文本图像对应的伽马值P,由于/>为非负数,则P的取值范围为(0,1]。
步骤S005:根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;将高质量纸质文本图像转换为可编辑的电子文本并进行存储。
根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像,其中伽马变换为公知技术,此处不再赘述。
已知多糖测试数据存储及数字化的过程中,会采集多糖测试使用到的实验仪器设备、计算机软件系统产生的电子数据和人工实验记录、样品标签、草图、手写笔记或其他相关文档的纸质文本图像数据。
根据高质量纸质文本图像,使用OCR技术多糖测试过程中产生的纸质文本图像精准的转换为可编辑的电子文本,至此获取多糖测试过程中产生的所有数据的电子数据。
根据多糖测试过程中产生的所有数据的电子数据,使用表格软件创建一个新的电子表格。在第一行输入列标题,例如:“样本编号”、“测量时间”、“多糖类型”、“测量值”等。在适当的列中输入每个样本的相关信息和多糖测试结果。确保每个样本的数据都对应正确的列。如果有多个多糖类型或者多个测量时间点,可以添加额外的列来存储这些信息。并确保所有数值数据都以相同的格式进行输入,例如保持统一的小数位数或科学计数法。再检查输入的数据是否准确无误,并确保没有遗漏或重复的数据。最后利用表格软件的图表功能,将多糖测试数据可视化,且定期进行数据备份,以防止数据丢失或损坏。由此完成多糖测试数据存储及数字化。
至此,本发明完成。
综上所述,在本发明实施例中,将纸质文本图像分割为目标区域和背景区域,根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数;根据纸质文本图像对应的伽马值调整参数和纸质文本图像内文字受纸张扭曲褶皱的影响程度,确定纸质文本图像对应的伽马值,根据纸质文本图像对应的伽马值进行伽马变化,当目标区域内的文字受阴影和纸张扭曲褶皱的影响较大,且背景区域受光亮影响较大时,赋予图像较小的伽马值,用以较大的拉伸目标区域的灰度,突显文字细节信息,并且较大的压缩背景区域的灰度,防止光亮导致出现伪影,获取高质量纸质文本图像,从而提高文字识别的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种多糖测试数据存储及数字化方法,其特征在于,该方法包括以下步骤:
获取多糖测试过程中产生的纸质文本图像,将纸质文本图像分割为目标区域和背景区域;
将目标区域分割为疑似文字区域和阴影区域,对目标区域进行二值化处理,获得二值目标区域;对二值目标区域进行形态学处理,获得疑似文字区域边界上的毛刺点数量;
将背景区域分割为正常背景区域和光亮背景区域,根据正常背景区域和光亮背景区域的灰度差异和光亮背景区域内的像素点灰度值方差,确定背景区域内的光亮特征;根据疑似文字区域边界上像素点的灰度梯度均值和疑似文字区域边界上的毛刺点数量以及目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征;根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数;
将疑似文字区域内连续相邻的像素点构成的连通域记为疑似文字连通域,区分疑似文字连通域中的正常疑似文字连通域和异常疑似文字连通域;根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度;根据纸质文本图像内文字受纸张扭曲褶皱的影响程度和纸质文本图像对应的伽马值调整参数,确定纸质文本图像对应的伽马值;
根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;将高质量纸质文本图像转换为可编辑的电子文本并进行存储;
根据背景区域内的光亮特征和目标区域内的阴影特征,确定纸质文本图像对应的伽马值调整参数对应的具体计算公式为:
其中C为文本图像对应的伽马值调整参数,S表示目标区域内像素点灰度值大小的种类数量,F表示疑似文字区域边界上像素点的灰度梯度均值,B表示疑似文字区域边界上的毛刺点数量,D表示背景区域内的光亮特征,E和分别表示正常背景区域和光亮背景区域内的像素点灰度均值,V表示光亮背景区域内的像素点灰度值方差,/>为以自然常数为底的指数函数,a为预设的常数;
纸质文本图像对应的伽马值P为:
当时,K的获取方式如下:
当时,K的获取方式如下:
其中C为纸质文本图像对应的伽马值调整参数,K为纸质文本图像内文字受纸张扭曲褶皱的影响程度,为设定的纸张扭曲褶皱的影响程度,q为疑似文字区域内异常疑似文字连通域的数量,/>为设定的异常疑似文字连通域数量的阈值,/>为疑似文字区域内疑似文字连通域的数量,/>为第i个异常疑似文字连通域内像素点灰度值减小的不连续性,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为负的数据值的数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中的数据数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为负数的数据值的均值,/>为第i个异常疑似文字连通域对应的参考差值集合/>中为非负数的数据值的均值,/>为第i个异常疑似文字连通域对应的参考差值集合/>中递减数据段的数量,/>为第i个异常疑似文字连通域对应的参考差值集合/>中每个递减数据段内数据数量值中的最大值,/>为以自然常数为底的指数函数,r为设定的指数函数的调整值。
2.根据权利要求1所述一种多糖测试数据存储及数字化方法,其特征在于,所述获得疑似文字区域边界上的毛刺点数量,包括的具体步骤如下:
对所述二值目标区域进行形态学开运算,获得形态学开运算后的二值目标区域;
对所述二值目标区域与形态学开运算后的二值目标区域进行图像差分,获得所述疑似文字区域边界上的毛刺点数量。
3.根据权利要求1所述一种多糖测试数据存储及数字化方法,其特征在于,所述将背景区域分割为正常背景区域和光亮背景区域,包括的具体步骤如下:
根据背景区域内每个像素点的灰度梯度值,获得梯度值集合;
使用大津算法求取梯度值集合中的光亮分割阈值,令背景区域内灰度梯度值小于光亮分割阈值的像素点为正常背景区域,灰度梯度值大于等于光亮分割阈值的像素点为光亮背景区域。
4.根据权利要求1所述一种多糖测试数据存储及数字化方法,其特征在于,所述确定目标区域内的阴影特征,包括的具体步骤如下:
根据所述疑似文字区域边界上像素点的灰度梯度均值和所述疑似文字区域边界上的毛刺点数量,确定文字边界受阴影的影响程度;
根据文字边界受阴影的影响程度和所述目标区域内像素点灰度值大小的种类数量,确定目标区域内的阴影特征。
5.根据权利要求1所述一种多糖测试数据存储及数字化方法,其特征在于,所述区分疑似文字连通域中的正常疑似文字连通域和异常疑似文字连通域;根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度,包括的具体步骤如下:
根据灰度值由大至小,依次判断所述疑似文字连通域内像素点灰度值是否小于等于其八邻域上所有像素点的灰度值,获得疑似文字连通域内的起始像素点;
将疑似文字连通域划分为存在起始像素点的异常疑似文字连通域和不存在起始像素点的正常疑似文字连通域;
若当异常疑似文字连通域数量等于预设的异常疑似文字连通域数量的阈值,则将纸质文本图像内文字受纸张扭曲褶皱的影响程度设置为预设的纸张扭曲褶皱的影响程度;
若当异常疑似文字连通域数量大于预设的异常疑似文字连通域数量的阈值,则根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度;
根据每个异常疑似文字连通域受纸张扭曲褶皱的影响程度和所述疑似文字连通域数量,确定纸质文本图像内文字受纸张扭曲褶皱的影响程度。
6.根据权利要求4所述一种多糖测试数据存储及数字化方法,其特征在于,所述根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度,包括的具体步骤如下:
根据异常疑似文字连通域内起始像素点至其八邻域像素点的方向和灰度差异,确定起始像素点的灰度减小向量;
在所述异常疑似文字连通域内,从起始像素点开始沿其灰度减小向量的方向逐个像素点遍历,获得参考像素点灰度值集合;
根据参考像素点灰度值集合中前一个数据减去后一个数据的差值,获得参考差值集合;
将参考差值集合中连续相邻的非负数据构成的数据段记为递减数据段,根据异常疑似文字连通域对应的参考差值集合中递减数据段的数量和异常疑似文字连通域对应的参考差值集合中每个递减数据段内数据数量中的最大值,确定异常疑似文字连通域内像素点灰度值减小的不连续性;
根据异常疑似文字连通域对应的参考差值集合中为负的数据值的数量和异常疑似文字连通域对应的参考差值集合中为非负的数据均值减去参考差值集合中为负的数据均值的差值,确定异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度;
根据异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度,确定异常疑似文字连通域受纸张扭曲褶皱的影响程度,其中,异常疑似文字连通域内像素点灰度值减小的不连续性和异常疑似文字连通域内纸张扭曲褶皱对像素点灰度值递减大小的影响程度呈正相关。
7.根据权利要求1所述一种多糖测试数据存储及数字化方法,其特征在于,所述根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;将高质量纸质文本图像转换为可编辑的电子文本并进行存储,包括的具体步骤如下:
根据纸质文本图像对应的伽马值,对纸质文本图像进行伽马变换,获得高质量纸质文本图像;根据高质量纸质文本图像,使用OCR技术获得可编辑的电子文本;获取预设的电子表格,将可编辑的电子文本进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934344.9A CN116682112B (zh) | 2023-07-28 | 2023-07-28 | 一种多糖测试数据存储及数字化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934344.9A CN116682112B (zh) | 2023-07-28 | 2023-07-28 | 一种多糖测试数据存储及数字化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116682112A CN116682112A (zh) | 2023-09-01 |
CN116682112B true CN116682112B (zh) | 2023-10-17 |
Family
ID=87791226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310934344.9A Active CN116682112B (zh) | 2023-07-28 | 2023-07-28 | 一种多糖测试数据存储及数字化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682112B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913395B (zh) * | 2023-09-13 | 2023-11-28 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008066840A (ja) * | 2006-09-05 | 2008-03-21 | Canon Inc | 画像処理装置、画像処理方法、画像処理方法のプログラム及びその記憶媒体 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
CN113822817A (zh) * | 2021-09-26 | 2021-12-21 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
CN114283156A (zh) * | 2021-12-02 | 2022-04-05 | 珠海移科智能科技有限公司 | 一种用于去除文档图像颜色及手写笔迹的方法及装置 |
CN114723701A (zh) * | 2022-03-31 | 2022-07-08 | 南通博莹机械铸造有限公司 | 基于计算机视觉的齿轮缺陷检测方法和系统 |
WO2022166865A1 (zh) * | 2021-02-08 | 2022-08-11 | 瞬联软件科技(北京)有限公司 | 一种文字图像的阴影消除方法、装置及电子设备 |
EP4047926A1 (en) * | 2019-10-16 | 2022-08-24 | Panasonic Intellectual Property Management Co., Ltd. | Image processing method, image processing system, and image processing device |
CN115457585A (zh) * | 2022-08-12 | 2022-12-09 | 科大讯飞股份有限公司 | 作业批改的处理方法、装置、计算机设备及可读存储介质 |
CN116030052A (zh) * | 2023-03-27 | 2023-04-28 | 惠州威尔高电子有限公司 | 电脑显示板层压工序蚀刻质量检测方法 |
-
2023
- 2023-07-28 CN CN202310934344.9A patent/CN116682112B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008066840A (ja) * | 2006-09-05 | 2008-03-21 | Canon Inc | 画像処理装置、画像処理方法、画像処理方法のプログラム及びその記憶媒体 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
EP4047926A1 (en) * | 2019-10-16 | 2022-08-24 | Panasonic Intellectual Property Management Co., Ltd. | Image processing method, image processing system, and image processing device |
WO2022166865A1 (zh) * | 2021-02-08 | 2022-08-11 | 瞬联软件科技(北京)有限公司 | 一种文字图像的阴影消除方法、装置及电子设备 |
CN113822817A (zh) * | 2021-09-26 | 2021-12-21 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
CN114283156A (zh) * | 2021-12-02 | 2022-04-05 | 珠海移科智能科技有限公司 | 一种用于去除文档图像颜色及手写笔迹的方法及装置 |
CN114723701A (zh) * | 2022-03-31 | 2022-07-08 | 南通博莹机械铸造有限公司 | 基于计算机视觉的齿轮缺陷检测方法和系统 |
CN115457585A (zh) * | 2022-08-12 | 2022-12-09 | 科大讯飞股份有限公司 | 作业批改的处理方法、装置、计算机设备及可读存储介质 |
CN116030052A (zh) * | 2023-03-27 | 2023-04-28 | 惠州威尔高电子有限公司 | 电脑显示板层压工序蚀刻质量检测方法 |
Non-Patent Citations (3)
Title |
---|
Automatic text extraction from complex colored images using gamma correction method;C.P Sumathi et.al;《 Journal of Computer Science》;第705-715页 * |
基于文本域分割和文本行检测的扭曲文档图像校正;张再银;童立靖;湛健;沈冲;;电脑与信息技术(01);第17-19页 * |
用于厨电控制面板按键功能耐久性测试的字符识别研究;陈力勤;《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》;第B024-1043页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116682112A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115861135B (zh) | 一种应用于箱体全景探测的图像增强及识别方法 | |
CN108665456B (zh) | 基于人工智能的乳腺超声病灶区域实时标注的方法及系统 | |
CN110458831B (zh) | 一种基于深度学习的脊柱侧弯图像处理方法 | |
CN108564085B (zh) | 一种自动读取指针式仪表读数的方法 | |
KR101033098B1 (ko) | 실시간 얼굴 검출 장치 | |
CN116682112B (zh) | 一种多糖测试数据存储及数字化方法 | |
CN101901342B (zh) | 影像目标区域的提取方法和装置 | |
CN111462042A (zh) | 癌症预后分析方法及系统 | |
CN110189266B (zh) | 一种自适应的快速图像增强方法 | |
CN107609558A (zh) | 文字图像处理方法及装置 | |
CN113609984A (zh) | 一种指针式仪表读数识别方法、装置及电子设备 | |
CN111325728B (zh) | 产品缺陷检测方法、装置、设备及存储介质 | |
CN114841992A (zh) | 基于循环生成对抗网络和结构相似性的缺陷检测方法 | |
CN115359066A (zh) | 用于内窥镜的病灶检测方法、装置、电子设备及存储介质 | |
CN116958514B (zh) | 一种光学图像激波位置的亚像素定位方法 | |
CN112381177A (zh) | 一种基于深度学习的表盘数字字符识别方法及系统 | |
JP3696212B2 (ja) | パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム | |
CN116958126A (zh) | 基于计算机视觉的模具注塑检测方法及系统 | |
CN117011222A (zh) | 一种电缆缓冲层缺陷检测方法、装置、存储介质和设备 | |
CN111199228A (zh) | 一种车牌定位的方法及装置 | |
CN113763384B (zh) | 工业质检中的缺陷检测方法、缺陷检测装置 | |
CN115908363A (zh) | 肿瘤细胞统计方法、装置、设备和存储介质 | |
WO2021113326A1 (en) | Data style transformation with adversarial models | |
CN113674144A (zh) | 一种图像处理方法、终端设备及可读存储介质 | |
CN111242047A (zh) | 图像处理方法和装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |