CN116303237A - 错误可回溯的图像数据结构与标注方法 - Google Patents
错误可回溯的图像数据结构与标注方法 Download PDFInfo
- Publication number
- CN116303237A CN116303237A CN202310112412.3A CN202310112412A CN116303237A CN 116303237 A CN116303237 A CN 116303237A CN 202310112412 A CN202310112412 A CN 202310112412A CN 116303237 A CN116303237 A CN 116303237A
- Authority
- CN
- China
- Prior art keywords
- image
- file
- unit
- hpc
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种错误可回溯的图像数据结构与标注方法,所述方法包括如下步骤:步骤一、读入图像数据,步骤二、图像内容预处理,步骤三、图像数据转化为HPC文件格式,步骤四、HPC文件的标注与修改,步骤五、HPC文件格式转化为TPC文件格式,步骤六、TPC文件格式转化为目标格式文件。本发明能将错误的样本个例溯源至原始样本批次内容上,有助于对成批出现的错误样本进行处理;能将大数据量的样本信息的修改与删除一体化处理,减少中间步骤,大幅度减少对处理采集到的数据所用的时间,减少人力的浪费,提升效率;能将相同标签的样本存储一体化,有利于在存储、使用、样本分类。
Description
技术领域
本发明属于计算机视觉领域,涉及一种图像数据结构与标注方法,具体涉及一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法。
背景技术
随着网络的日渐发达,物联网的蓬勃发展,万物可联网无疑是未来的必然的发展趋势,而这发展过程中,对各种不同类别的图像数据集的需求也越来越大。手写识别需要手写文字数据集,人脸识别需要人脸图像数据集,在智能识别系统以其高效与安全的特点逐步替代了传统的人工识别工作时,物联网对各类图像数据集的需求量也随之水涨船高。然而,当前计算机视觉领域的图像数据集的采集更多的从头到尾都依赖于参与人员的手动处理,参与人员需要手动将采集到的数据逐个分类、筛选、编号、对图像做出一定的图像处理并完成信息标注后,才算收集好了一份有效的数据集。而这样的数据集收集方式除了存在因人工处理大批量图像数据时易疲劳而产生的误差外,还存在着对原始数据中的一批不同类别的图像数据同时出错时处理繁琐可能遗漏的问题,这都大大降低了一套有效数据集的可靠性,所以往往一套数据集需要多遍人工处理才能投入使用。以这样方式完成一套数据集采集所需的人力、物力、时间成本极大,且成稿过程缓慢,乃至于现在很多计算机视觉领域的数据集已经逐渐跟不上其本身识别技术的发展速度,拖累了计算机视觉领域的发展步伐。不能将分类后的错误图像数据回溯至原始数据集批次上进行重点分析是现有图像数据集采集的重要问题所在。若能将错误图像数据溯源对错误批次的原始数据集进行重点分析无疑可以节省下大量的人力与时间成本,加快数据集成稿速度,提高数据集的准确率。
现有的用于计算机视觉领域的图像数据集格式一般有TIFF(Tag Image FileFormat)、BMP(Bitmap)、PNG(Portable Network Graphics)等不失真格式。用于计算机视觉领域的图像文件格式最重要的特点就是无损,在处理过程中没有损失。为了保证数据集不影响识别技术的识别效率与正确率,应最大程度保留图像原有的分辨率,减少因图像压缩等原因损失的图像品质。传统数据格式中,图像与图像之间是相互独立的,两张图像之间没有任何关联,适用于几乎所有需要图像数据的领域。
将图像数据格式运用于对海量图像数据集的采集无疑面临着新的挑战。海量的图像数据一般成批次的获取大量原始数据,在对原始数据进行处理过程中,往往会将图像数据按照标签重新归类,并在此基础上进行二次处理。当一个批次的原始数据出错时,因其内容已被归类至不同标签分类下,在二次处理中将其逐个对应挑出删改是一个极为浪费人力与时间成本的选择。另一个重要问题为对图像内容标签的标注。传统图像数据格式的标注一般只能使用文件夹命名的方式分类存储,或直接对图像文件使用标签命名,在采集一图多标签的图像数据集或海量数据集时十分不便。显然,在采集用于计算机视觉领域的图像数据集时,我们应提供一种更适合图像数据集采集处理过程的新的数据格式与其对应的一套系统。
一种手写汉字图像数据的存储格式:CASIA脱机汉字库gnt文件格式(其格式如表1所示)。HWDB1.1是出自CASIA的手写汉字库,由中国科学院自动化研究所模式识别国家重点实验室收集的,收录了7185个常用汉字及171个特殊符号,这些数据以gnt格式存储。根据手写汉字库的特点,该格式文件在每个字符图像的头文件内加入标识对应字符的标签位,为了适应大数据量存储,尽可能减少存储空间,在每个字符图像数据内容中加入该字符图像所占总长、该字符图像的长宽字段描述字符图像的基本信息,将该字符图像的具体像素内容按行逐个输出排列,完成一个字符内容的存储,后续字符内容以同样格式续接在上一字符数据内容后,使复数字符图像数据按照串行排列存储。存在如下缺点:
(1)无法将错误图像样本溯源至原始批次图像样本上。
(2)无法将样本修改与删除一体化处理。
(3)相同标签的样本数据未能存储一体化。
表1gnt文件格式
发明内容
针对现有技术存在的上述缺点,本发明提供了一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法。
本发明的目的是通过以下技术方案实现的:
一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法,包括如下步骤:
步骤一、读入图像数据
(1)通过对目标目录的迭代获取样本存储文件夹路径下的所有图像样本路径与样本名称;
(2)将样本路径与样本名称存入向量中,作为待处理文件信息保存;
(3)根据向量中的待处理文件信息获取图像文件,将之读入内存进行后续处理,每处理完一张图像文件,将该图像文件信息移出向量再开始处理下一张图像文件;
步骤二、图像内容预处理
(1)对图像信息使用大津算法进行二值化处理,得到一张二值图;
(2)对二值图采用hough变换的方式检测到印刷版面边缘信息,获取图像的倾斜角度值;
(3)根据倾斜角度值与二值图对原始图像进行倾斜校正与初步降噪;
(4)按比例切割版面四角的矩形图像区域,分别进行投影分析以确认二维码所在区域,根据二维码所在区域的位置完成对原始图像的翻转处理;
(5)使用zxing库获取二维码内信息,得到该图像文件所对应的包括文字顺序在内的基础信息;
(6)将图像路径、图像名称、图像样本的基础信息作为预处理文档输出;
步骤三、图像数据转化为HPC文件格式
(1)使用预处理文档确认每个单元内的单位数目与相应的基础信息,按照HPC文件规格说明生成单元头;
(2)通过版面投影与对连通域的分析定位出有效图像单位的位置;
(3)通过定位出的图像位置对原始图像进行切分,获得单位图像内容,按照HPC文件规格说明填入HPC文件中;
步骤四、HPC文件的标注与修改
(1)HPC文件的内容显示:HPC文件修改工具按照规格格式读取HPC文件,根据读取到的单位图像内容生成图像矩阵,并使用连通域查找的方式对图像进行分割,将分割后的连通域信息以字为分组存储至二维区块链数组中以便后续人工删减,显示时采用蓝色矩框显示连通域外框方便识别与操作;
(2)HPC文件的标注修改:使用者通过左键点击鼠标拖拽的方式选中明显为噪音部分的连通域,选中的连通域采用使外边框变红的方式提示,按下delete按键时将界面上已经选中的连通域删除,删除的内容同步更新至HPC文件中,以同时完成对HPC文件图像信息的修改;
步骤五、HPC文件格式转化为TPC文件格式
(1)编写格式转换程序将根据即将读取的HPC文件ID,采用多线程的方式同时打开一定数目(数量根据机器配置和实际负载进行调整)的可能用到的TPC文件以加快处理速度;
(2)以二进制的方式快速读取HPC文件,根据单位图像信息的汉字标签,将单位图像信息分流至打开了对应TPC文件的线程中,将单位图像信息写入与其本身标签一致的TPC文件中;
步骤六、TPC文件格式转化为目标格式文件
(1)转换程序对目标目录进行迭代,每次存入一整个TPC文件进行处理,直至将目录下所有TPC文件处理完毕;
(2)将TPC文件内的单位图像信息还原为图像矩阵;
(3)检查图像矩阵,去除掉空白图像,并对正常图像的四周空白区域进行切割处理;
(4)检查图像大小,若图像大于要求大小(100×100),则将图像等比例缩小至要求大小;
(5)对有效像素做一个字迹浓度的统计,若浓度小于阈值(例如110),则采用自适应均衡加强的方式将字迹加浓;
(6)将处理完成的图像矩阵以目标格式(如jpg、png等)输出至相应文件夹下。
本发明中,HPC文件的规格格式分为两个层级,分别是以一张原始样本为单位的单元级,和以在一张原始样本下的一份有效图像样本为单位的单位级。单位与单位之间相互独立,一个单元内最少包含一个单位,一个单元内最多可有65535个单位,单元呈瀑布式排列,单元内的单位呈瀑布式排列。在单元头的数据结构内加入对应原始样本文件路径字段、原始样本基础信息字段、上一单元长度字段与单元内单位个数字段。在单位头加入描述单位长度的字段、描述单位是否有效的字段、描述单位标签的字段与描述图像长宽的字段,在单位头后,按行将像素信息逐个输入,完成图像数据的无损存储,可以解决现有技术中无法将错误图像样本溯源至原始批次图像样本上的缺点。
本发明中,HPC文件标注与修改为对HPC文件的图像数据内容的读取、显示与覆盖式修改。在读取显示HPC文件内存储的图像数据时存储下每个图像数据对应的HPC文件内数据起始指针位置,根据程序的修改操作的内容与对应指针位置同步完成对HPC文件内容的覆盖式修改,通过HPC格式中单位内有效位字段完成删除或恢复操作,可以解决现有技术中无法将样本修改与删除一体化处理的缺点。
本发明中,TPC文件规格格式在HPC文件规格格式上去除掉单元层级,并在单位层级的数据结构中加入其单位对应的HPC文件ID字段,与在对应HPC文件中的位置字段来保证其可溯源特性。根据单位标签筛选HPC中符合要求的图像数据转储至TPC文件中,在TPC文件中将单位瀑布式排列,可以解决现有技术中相同标签的样本数据未能存储一体化的缺点。
相比于现有技术,本发明具有如下优点:
1、能将错误的样本个例溯源至原始样本批次内容上,有助于对成批出现的错误样本进行处理。
2、能将大数据量的样本信息的修改与删除一体化处理,减少中间步骤,大幅度减少对处理采集到的数据所用的时间,减少人力的浪费,提升效率。
3、能将相同标签的样本存储一体化,有利于在存储、使用、样本分类。
附图说明
图1是本发明面向海量数据采集任务的错误可回溯的手写汉字图像数据结构与标注方法的流程图;
图2是本发明所应用的手写样本数据集采集时的原始样本模板;
图3是本发明所应用的手写样本数据集预处理时生成的图像基础数据文档;
图4是本发明中对HPC文件进行修改与标注的样例程序展示;
图5是本发明生成的TPC数据集的部分展示;
图6是对本发明生成的样例TPC中的内容的展示程序界面;
图7是应用本发明生成的数据集的部分内容展示。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种面向海量数据采集任务的错误可回溯的图像数据结构与标注系统,所述系统包括HPC(hyper-pixelcode,超级像素编码)文件格式、HPC文件标注与修改工具、TPC(traceablepixel code,溯源像素编码)文件格式,目标图像析出与格式转换工具四个模块,每个部分的详细内容或过程如下:
1、HPC文件规格说明
HPC文件格式是最接近于原始图片样本的格式,是为了最粗略的、大规模的样本优化准备的格式。HPC文件格式分为两个层级,以原始样本的一张图像作为单元的单元层级,以原始样本一张图像中的一个有效的目标图像内容作为单位的单位层级。一个单元内应最少有一个单位,一个单元内最多可以有65535个单位,单位与单位之间相互独立,单元内单位呈瀑布式排列存储,单元与单元之间呈瀑布式排列存储。
单元头内存储上一单元所占长度信息、该单元对应的原始图像样本路径信息、该图像样本的基本信息以及该单元内单位个数。在单元头后,串行逐个存储该单元下的各个单位信息。单位头内存储该单位的总长度信息、描述单位图像是否有效的有效位信息、单位图像对应的标签信息、单位图像的行列数信息,在单位头后,按照行顺序存储每个像素的信息,将高清晰度的原始图像完好无损的保存下来。其单元头格式应如表2所示,其中HPCInformation字段的格式、长度、内容应由具体项目内容确定,根据项目需要的信息进行适当修改。
表2 HPC单元头格式
字段名 | 意义 |
Lastsize(4B)(unsgined long int) | 上一单元内容的总长度 |
Tag(120B)(char) | 该HPC文件的路径,余裕处以空格处理 |
HPCInformation | 该HPC文件对应样本的基础信息 |
HPCpagesize(2B)(unsgined shrot int) | 该HPC文件中有效单位图像数目 |
HPC文件内单位格式如表3所示,其中标签内容的长度与格式应根据项目需求具体项目具体分析更改,其中图像的像素信息则根据所需图像的色彩通道数确定,若为灰度图像则n=1,若为RGB三通道色彩图像则应n=3,以此类推,在多通道色彩图像的像素信息内,其每个像素内容中各个通道的排列顺序应一致。
表3 HPC单位存储格式
2、HPC文件的标注与修改
HPC文件的标注与修改应使用窗口化界面实现该功能。
(1)HPC文件的内容显示。根据HPC的文件规格说明逐个读取HPC内存储的每个单位的图像数据内容,存储单元头中表示该单元所含单位的数目与该单元头起始位置的指针信息,之后在读取单位图像数据格式信息时,增加该单元下已读单位个数数目,若检测到已读单位数目与该单元所含单位数目相等时,将已读单位数目清零,并读取下一单元的单元头信息。将读取到的单位图像数据内容填入内存的图像矩阵中,对图像矩阵进行连通域分析,记录下每个连通域的信息,之后将图像显示出来,并同时记录下该单位在HPC文件中起始位置的指针信息。
(2)HPC文件的标注修改。在窗口化界面中,通过鼠标左键点击到的窗口相对位置与显示图像时各个单位图像的绘制位置来获取需要需要修改标注的单位对象以及修改目标,根据存储的单位对象的起始指针位置,根据HPC文件的单位数据结构,将指针挪至有效位标识字段位置,将欲修改成的内容覆盖式的填写至该字段位置,完成标注修改的目的。
(3)HPC文件的图像内容删改。在窗口化界面中,通过鼠标左键拖拽反馈的相对坐标信息与单位图像显示时的坐标信息来确定选取目标以及涉及到的目标单位对象。根据涉及到的目标单位对象内连通域的信息进一步确定被选中的连通域内容,通过按键交互将被选中的连通域内容从内存中存储的连通域信息中删除,根据涉及到的目标单位对象的起始指针位置与其对应内存中剩余的连通域信息,将删改后的图像数据以覆盖式的方式写入对应HPC文件中,达成覆盖式删改图像内容的目的。
3、TPC文件规格说明
TPC格式是用来对HPC文件进行最终的转换成png图片格式分类输出的中间格式,同时为了便于向上回溯,仍然应具有HPC应有的文件特性。其以单位图像作为唯一层级的基本单位,应具有的特性与HPC文件基本一致,但因为其是图像内容分类转换的中间格式,所以在表现追本溯源这一特点时采用的字段与HPC文件并不相同。并非直接指向源图像路径,而是指向对应析出该TPC文件内该单位对应的来源HPC的编号ID,并增加在来源HPC文件中的对应位置字段方便进行回溯修改。在TPC文件中,因只有唯一层级的单位图像信息,不再有单元层级,文件内只按单位图像信息瀑布式逐个排列。
TPC文件规格说明如表4所示,其中与HPC文件规格说明相同,标签内容的长度与格式应根据项目需求具体项目具体分析更改,其中图像的像素信息则根据所需图像的色彩通道数确定,若为灰度图像则n=1,若为RGB三通道色彩图像则应n=3,以此类推,在多通道色彩图像的像素信息内,其每个像素内容中各个通道的排列顺序应一致。
表4TPC文件规格说明
4、目标图像析出与格式转换
目标图像的析出与格式转换分为三部分:原始图像样本转化为HPC文件、HPC文件转化为TPC文件、TPC文件转化为目标图像数据集。其中目标图像的析出在HPC文件转化为TPC文件过程中实现。
(1)从原始图像样本转化为HPC文件,将原始图像以矩阵形式读入内存中,存储原始图像的读取路径与其名称,对于一个HPC文件中第一个单元的lastsize字段置0,并开始对该单元的长度的记录。根据人工输入或预处理文档等信息,获得对应图像的基本信息,与应包含的单位数目,将之作为单元头输入HPC文件中,记录下该单元头长度。逐个读取原始样本内有效图像内容,将一份有效图像内容存储至新的图像矩阵中,根据仅存储着该单位的图像矩阵信息与一定的预处理信息计算并确认单位头内所需信息,并将图像矩阵信息作为单位内图像数据按格式输入HPC文件中,增加该单位的长度至单元长度记录中,直到下一单元开始,将记录的长度作为单元头内数据输入,并将之清零重新记录。
(2)从HPC文件转化为TPC文件。根据预处理文档获得HPC文件的ID信息,按照HPC文件规格说明读取单位图像内容,记录下该单位读取的起始位置,根据单位内的标签决定应将该单位内容析出到哪个TPC文件中。将对应来源HPC文件的ID信息、该单位读取的起始位置信息作为TPC单位头,输入,之后直接将HPC文件中该单位的图像数据转存到TPC文件的相应位置上。
(3)从TPC文件转化为目标格式文件,按照需求生成相应标签信息的文件夹,根据TPC文件中对应每个单位所拥有的标签信息确定每个单位的图像内容应归类至哪个文件夹中,根据该单位的单位头内的数据构造图像矩阵,将单位内的图像数据填充至该图像矩阵中,对该图像矩阵进行对空白区域的切割处理、图像超过需求时的缩小处理与对浅淡字迹的加强处理,然后用处理完的图像矩阵生成指定格式的图像文件,达成最终转化的目的。
实施例:
下面结合手写汉字数据集的采集与标注对本发明的技术方案做详细说明。
本实施例中欲采集的手写汉字数据集格式与内容如表5所示。开发平台为VisualStudio 2015,开发语言为C++。
表5一个数据集需求样例表
采集的原始图像样本需要具备以下特征:
1、图像分辨率为200dpi以上的扫描灰度图;
2、图像存储格式建议为无损格式(比如tiff);
3、图像应包含完整的样本版面内容。
4、手写样本原始图像格式应如图2所示。
在具体的实施过程中,按照图1所示的流程对原始手写样本图像进行处理,具体过程如下:
1、读入图像数据
(1)通过对目标目录的迭代获取样本存储文件夹路径下的所有图像样本路径与样本名称;
(2)将样本路径与样本名称存入向量中,作为待处理文件信息保存;
(3)根据向量中的待处理文件信息获取图像文件,将之读入内存进行后续处理,每处理完一张图像文件,将该图像文件信息移出向量再开始处理下一张图像文件。
2、图像内容预处理
图像基本信息根据样例右下角的二维码扫描得到的信息确认,并根据图像基本信息生成预处理文档,以便后续内容调用。
(1)对图像信息使用大津算法进行二值化处理,得到一张二值图;
(2)对二值图采用hough变换的方式检测到印刷版面边缘信息,获取图像的倾斜角度值;
(3)根据倾斜角度值与二值图对原始图像进行倾斜校正与初步降噪;
(4)按比例切割版面四角的矩形图像区域,分别进行投影分析以确认二维码所在区域,根据二维码所在区域的位置完成对原始图像的翻转处理;
(5)使用zxing库获取二维码内信息,得到该图像文件所对应的包括文字顺序在内的基础信息;
(6)将图像路径、图像名称、图像样本的基础信息作为预处理文档输出,输出内容样例如图3所示。
3、图像数据转化为HPC文档
(1)使用预处理文档确认每个单元内的单位数目与相应的基础信息,按照HPC文件规格说明生成单元头;
(2)通过版面投影与对连通域的分析定位出有效图像单位的位置;
(3)通过定位出的图像位置对原始图像进行切分,获得单位图像内容,按照HPC文件规格说明填入HPC文件中。
4、HPC文件的标注与修改
HPC文件的标注与修改工具如图4所示。
(1)按HPC文件规格说明读取图像内容,读取到单位图像内容后,根据图像信息生成图像矩阵,对图像矩阵进行连通域分析查找,并采用二维区块链数组将每个字拥有的连通域信息以字为分组分别存储起来。根据连通域信息在各个单位图像应在的窗口相对指定位置绘制图像,并将用蓝色线条显示连通域外接框。
(2)根据有效位的表示更改显示图像的颜色,红色为删除字符(印刷物用虚线框标出),浅蓝为修改的字符(印刷物用椭圆虚框标出)。
(3)使用者按下鼠标左键时记录下鼠标位置LBD,在使用者拖动鼠标时,根据鼠标位置与LBD实时绘制黑色矩形选框,方便使用者识别自己的选取范围。在使用者松开鼠标左键时获得鼠标位置LBU,LBD与LBU的位置信息皆为相对于窗口左上角顶点的相对位置信息,根据LBD与LBU的位置信息与单位图像的相对位置信息可以获取到被选中了哪些连通域,并将这些连通域的外接框颜色改成红色线条显示(印刷物用虚线框代替)。
(4)使用者在选中了连通域的前提下,按下delete按键时,从区块链数组中将被选中的数组抛出,并将抛出后留下的连通域信息整合成单位图像矩阵,按照存储的该页指针位置与对应的字序信息将图像数据与修改过后的flag值重新覆盖至原HPC文件对应位置处,更新界面显示,完成一次图像修改与标识。
5、HPC文件格式转化为TPC文件格式
(1)程序以二进制形式读取HPC文件,获取HPC文件ID;
(2)打开一定数目的TPC文件,以加快程序处理速度;
(3)在读入HPC文件信息后,程序逐个对单位图像数据信息进行分析操作,通过单位图像数据里的标签信息确认对应的编号,应将其分入的TPC文件编号,将符合TPC格式要求的单位图像信息存入对应端口的数据流中,写入对应的TPC文件中。
6、TPC文件格式转化为目标格式文件
(1)程序以二进制的形式读取TPC文件,一次性将整个TPC文件内容读入内存中;
(2)逐个对TPC文件内部的图像数据信息进行分析处理,将TPC文件内对应的图像数据转化为图像矩阵。
(3)以图像矩阵为对象进行后处理操作,首先对图像的空白部分进行切割,采用投影的方法确认切割行列数,若终值行与起始行之差为负数则说明该图片无内容直接舍弃;
(4)根据确认的行列数将图像切割成一个更小的图像后,将之与100×100进行对比,如果有行数/列数大于100,则将行数/列数转化为100,并使列数/行数等比例缩小,通过放缩矩阵将图像缩小至指定大小;
(5)最后对图像内容中的有效像素做一个统计,如果其平均值小于指定阈值则认为该图需要字迹加强,使用自适应均衡加强方式将字迹变浓,达到更好的样本效果。
图5为TPC数据集展示、图6为对TPC内容显示展示,其中红色显示的是无效样本,未计入交付数量,图7为部分指定的PNG格式输出样例。
上述系统对总计十万余张原始图像样本上进行实验,对共计两千余万个单位图像进行了处理,最终得到了包含GBK编码下21003个汉字内容以及94个可显示ASCII符号的总计16,300,020个有效的手写字符图像数据集。
本发明涉及的技术以中文汉字手写数据集的采集与标注为例予以说明和验证,但并不限于中文汉字手写数据集的采集与标注,可以应用于须人工处理的大数据量的图像数据的数据集采集与标注中,有着良好的效果。
Claims (4)
1.一种错误可回溯的图像数据结构与标注方法,其特征在于所述方法包括如下步骤:
步骤一、读入图像数据
(1)通过对目标目录的迭代获取样本存储文件夹路径下的所有图像样本路径与样本名称;
(2)将样本路径与样本名称存入向量中,作为待处理文件信息保存;
(3)根据向量中的待处理文件信息获取图像文件,将之读入内存进行后续处理,每处理完一张图像文件,将该图像文件信息移出向量再开始处理下一张图像文件;
步骤二、图像内容预处理
(1)对图像信息使用大津算法进行二值化处理,得到一张二值图;
(2)对二值图采用hough变换的方式检测到印刷版面边缘信息,获取图像的倾斜角度值;
(3)根据倾斜角度值与二值图对原始图像进行倾斜校正与初步降噪;
(4)按比例切割版面四角的矩形图像区域,分别进行投影分析以确认二维码所在区域,根据二维码所在区域的位置完成对原始图像的翻转处理;
(5)使用zxing库获取二维码内信息,得到该图像文件所对应的包括文字顺序在内的基础信息;
(6)将图像路径、图像名称、图像样本的基础信息作为预处理文档输出;
步骤三、图像数据转化为HPC文件格式
(1)使用预处理文档确认每个单元内的单位数目与相应的基础信息,按照HPC文件规格说明生成单元头;
(2)通过版面投影与对连通域的分析定位出有效图像单位的位置;
(3)通过定位出的图像位置对原始图像进行切分,获得单位图像内容,按照HPC文件规格说明填入HPC文件中;
步骤四、HPC文件的标注与修改
(1)HPC文件的内容显示:HPC文件修改工具按照规格格式读取HPC文件,根据读取到的单位图像内容生成图像矩阵,并使用连通域查找的方式对图像进行分割,将分割后的连通域信息以字为分组存储至二维区块链数组中以便后续人工删减,显示时采用蓝色矩框显示连通域外框方便识别与操作;
(2)HPC文件的标注修改:使用者通过左键点击鼠标拖拽的方式选中明显为噪音部分的连通域,选中的连通域采用使外边框变红的方式提示,按下delete按键时将界面上已经选中的连通域删除,删除的内容同步更新至HPC文件中,以同时完成对HPC文件图像信息的修改;
步骤五、HPC文件格式转化为TPC文件格式
(1)根据即将读取的HPC文件ID,采用多线程的方式同时打开一定数目的可能用到的TPC文件以加快处理速度;
(2)以二进制的方式快速读取HPC文件,根据单位图像信息的汉字标签,将单位图像信息分流至打开了对应TPC文件的线程中,将单位图像信息写入与其本身标签一致的TPC文件中;
步骤六、TPC文件格式转化为目标格式文件
(1)转换程序对目标目录进行迭代,每次存入一整个TPC文件进行处理,直至将目录下所有TPC文件处理完毕;
(2)将TPC文件内的单位图像信息还原为图像矩阵;
(3)检查图像矩阵,去除掉空白图像,并对正常图像的四周空白区域进行切割处理;
(4)检查图像大小,若图像大于要求大小,则将图像等比例缩小至要求大小;
(5)对有效像素做一个字迹浓度的统计,若浓度小于阈值,则采用自适应均衡加强的方式将字迹加浓;
(6)将处理完成的图像矩阵以目标格式输出至相应文件夹下。
2.根据权利要求1所述的错误可回溯的图像数据结构与标注方法,其特征在于所述HPC文件格式分为两个层级,以原始样本的一张图像作为单元的单元层级,以原始样本一张图像中的一个有效的目标图像内容作为单位的单位层级。
3.根据权利要求2所述的错误可回溯的图像数据结构与标注方法,其特征在于所述单位与单位之间相互独立,一个单元内最少有一个单位,一个单元内最多可以有65535个单位,单元内单位呈瀑布式排列存储,单元与单元之间呈瀑布式排列存储。
4.根据权利要求2所述的错误可回溯的图像数据结构与标注方法,其特征在于所述单元头内存储上一单元所占长度信息、该单元对应的原始图像样本路径信息、该图像样本的基本信息以及该单元内单位个数;在单元头后,串行逐个存储该单元下的各个单位信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310112412.3A CN116303237A (zh) | 2023-02-14 | 2023-02-14 | 错误可回溯的图像数据结构与标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310112412.3A CN116303237A (zh) | 2023-02-14 | 2023-02-14 | 错误可回溯的图像数据结构与标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303237A true CN116303237A (zh) | 2023-06-23 |
Family
ID=86823142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310112412.3A Pending CN116303237A (zh) | 2023-02-14 | 2023-02-14 | 错误可回溯的图像数据结构与标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303237A (zh) |
-
2023
- 2023-02-14 CN CN202310112412.3A patent/CN116303237A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156761B (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
Poco et al. | Extracting and retargeting color mappings from bitmap images of visualizations | |
US5134669A (en) | Image processing system for documentary data | |
US6768816B2 (en) | Method and system for interactive ground-truthing of document images | |
Shahab et al. | An open approach towards the benchmarking of table structure recognition systems | |
CN1103087C (zh) | 光学扫描表单识别及更正方法 | |
CN112052852B (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN111027297A (zh) | 一种对图像型pdf财务数据关键表格信息的处理方法 | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN111626146A (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN110991439A (zh) | 一种基于像素级多特征联合分类的手写体字符的提取方法 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
He et al. | User-assisted archive document image analysis for digital library construction | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN115713775B (zh) | 一种从文档中提取表格的方法、系统和计算机设备 | |
CN115661183B (zh) | 一种基于边缘计算的智能扫描管理系统及方法 | |
KR100655916B1 (ko) | 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법 | |
CN116303237A (zh) | 错误可回溯的图像数据结构与标注方法 | |
US20220237397A1 (en) | Identifying handwritten signatures in digital images using ocr residues | |
CN1426017A (zh) | 一种校对多个电子文件的方法及其系统 | |
CN110175563B (zh) | 金属切削刀具图纸标注识别方法及系统 | |
Biswas et al. | Text extraction from scanned land map images | |
CN114038000A (zh) | 一种图像表格的结构化方法、系统和电子设备 | |
CN112464941B (zh) | 一种基于神经网络的发票识别方法和系统 | |
Shelke | A Tabulation method for Character Recognition using Haar wavelet in 2D images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |