CN112464828B - 文档图像边缘的数据标注方法、装置、设备及存储介质 - Google Patents

文档图像边缘的数据标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112464828B
CN112464828B CN202011384575.XA CN202011384575A CN112464828B CN 112464828 B CN112464828 B CN 112464828B CN 202011384575 A CN202011384575 A CN 202011384575A CN 112464828 B CN112464828 B CN 112464828B
Authority
CN
China
Prior art keywords
edge
target document
data
frame
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011384575.XA
Other languages
English (en)
Other versions
CN112464828A (zh
Inventor
林建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202011384575.XA priority Critical patent/CN112464828B/zh
Publication of CN112464828A publication Critical patent/CN112464828A/zh
Application granted granted Critical
Publication of CN112464828B publication Critical patent/CN112464828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明实施例公开了一种文档图像边缘的数据标注方法、装置、设备及存储介质。该方法包括:获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘;计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘。基于上述技术手段,通过一次匹配,两次筛选,实现对文档边缘数据进行高质量地自动标注,提高了样本数据的获取效率,降低标注成本。

Description

文档图像边缘的数据标注方法、装置、设备及存储介质
技术领域
本发明实施例涉及文档图像数字化技术领域,尤其涉及文档图像边缘的数据标注方法、装置、设备及存储介质。
背景技术
文档图像数字化的首要环节,是要准确地获取到拍摄图像中文档的区域,也就是说我们需要确定文档的边缘区域,目前主流的算法是使用深度学习算法来获取文档边缘。
深度学习算法需要大量高质量的训练数据,特别是真实的样本数据,而要获取足够多的真实的文档图像边缘标注数据,传统的文档图像边缘的数据标注方案主要是依靠标注人员进行标注,若要获得足够多的高质量标注数据,需要花费大量的标注成本。
发明内容
本发明实施例提供一种文档图像边缘的数据标注方法、装置、设备及存储介质,能够降低人工标注的成本,提高标注效率和标注质量。
在第一方面,本发明实施例提供了一种文档图像边缘的数据标注方法,包括:
获取目标文档对应的标准图像,以及获取基于所述目标文档生成的待标注视频图像;
根据预设的特征点匹配规则,确定所述待标注视频图像中每一帧的目标文档边缘;
计算所述待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,所述目标文档区域为根据所述目标文档边缘确定的区域;
计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,所述目标文档边缘数据为根据目标文档边缘确定的边缘数据,所述掩膜边缘数据为所述帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
在第二方面,本发明实施例提供了一种文档图像边缘的数据标注装置,包括:
获取模块,被配置为获取目标文档对应的标准图像,以及获取基于所述目标文档生成的待标注视频图像;
标注模块,被配置为根据预设的特征点匹配规则,确定所述待标注视频图像中每一帧的目标文档边缘;
第一筛选模块,被配置为计算所述待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,所述目标文档区域为所述目标文档边缘确定的区域;
第二筛选模块,被配置为计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,所述目标文档边缘数据为根据目标文档边缘确定的边缘数据,所述掩膜边缘数据为所述帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
在第三方面,本发明实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的数据标注方法。
在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的数据标注方法。
本发明实施例通过获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘;计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘。通过上述技术手段,基于特征点匹配规则,识别出待标注视频图像中的每一帧的目标文档边缘,实现文档图像边缘的数据标注。为进一步保障生成的标注数据质量,对标注数据进行二次过滤。第一次过滤依据视频的前后帧之间存在关联性,计算前后帧的目标文档区域的面积交并比,保留面积交并比在保留范围内的后一帧标注数据。通过前后帧的目标文档区域的面积交并比,删除误匹配的标注数据和重合度较高的冗余标注数据,提高标注数据的质量。第二次过滤依据传统的边缘检测规则获取帧图像数据中的边缘数据,并通过边缘掩膜过滤帧图像数据中其他的噪声数据,只保留边缘数据。计算帧图像数据的边缘数据和标注数据中的目标文档边缘数据的重合比率,当大部分的目标文档边缘数据在边缘数据能中找到交集,那么证明边缘数据是涵盖目标文档边缘数据的,也即证明目标文档边缘数据是准确的目标文档边缘数据,因此保留对应的标注数据。本发明实施例通过一次匹配,两次筛选,实现对文档边缘数据进行高质量地自动标注,提高了样本数据的获取效率,降低标注成本。
附图说明
图1是本发明实施例一提供的一种文档图像边缘的数据标注方法的流程图;
图2是目标文档边缘的一种可选的具体确定流程图;
图3是目标文档的标准图像;
图4是待标注视频图像中的帧图像数据;
图5是帧图像数据和目标文档边缘的一种可选的具体筛选流程图;
图6是帧图像数据和目标文档边缘的另一种可选的具体筛选流程图;
图7是对角线掩膜;
图8是帧图像数据的掩膜边缘数据;
图9是帧图像数据的目标文档边缘数据;
图10是本发明实施例二提供的一种文档图像边缘的数据标注装置的结构示意图;
图11是本发明实施例三提供的一种文档图像边缘的数据标注设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本发明实施例提供的文档图像边缘的数据标注方法、装置、设备及存储介质,旨在通过获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘;计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘。相对于传统的文档图像边缘的数据标注方案,其主要依靠标注人员进行标注,要获得足够多的高质量标注数据,需要花费大量的标注成本,且标注效率较低。对于几万张的待标注图像,人工标注可能需要几天甚至几周的时间才能得到标注结果。基于此,本发明实施例提供一种文档图像边缘的数据标注方法、装置、设备及存储介质,以实现自动标注,降低人工标注的成本,提高标注效率和标注质量。
实施例一:
图1是本发明实施例一提供的一种文档图像边缘的数据标注方法的流程图。实施例中提供的文档图像边缘的数据标注方法可以基于文档图像边缘的数据标注设备执行,该文档图像边缘的数据标注设备可以通过软件和/或硬件的方式实现,该文档图像边缘的数据标注设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。
为了便于理解,实施例中以PC端为文档图像边缘的数据标注设备进行示例性描述。
具体的,参考图1,本发明实施例提供的文档图像边缘的数据标注方法包括:
S110、获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像。
示例性的,为生成文档图像边缘的标注数据,首先应获取文档图像,并对文档图像进行文档图像边缘标注,从而生成文档图像边缘的标注数据。基于此,首先确定目标文档,获取目标文档对应的标准图像,其中,目标文档可以是纸质的文档,也可以是在交互平板上展示的文档。对目标文档进行拍摄,并根据目标文档边缘在拍摄图像中截出目标文档,得到目标文档对应的标准图像。其次,通过摄影设备对目标文档进行角度变换、背景变换和/或光照变换地视频录制,得到包含目标文档的待标注视频图像。具体的,为保证后续的视频帧图像的前后帧的面积交并比为有效计算,将同一背景下的连续录制的视频图像作为一组,排除因更换背景导致的位置或角度出现的偏差,影响后续的筛选过程。
S120、根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘。
具体的,目标文档对应的标准图像中包含目标文档的特征点,如果能够在待标注视频图像中的每一帧图像中找到与目标文档对应匹配的特征点,可以基于特征点之间的映射关系,通过标准图像的边缘确定待标注视频图像中的每一帧图像的边缘。示例性的,参考图2,图2是目标文档边缘的一种可选的具体确定流程图。如图2所示,目标文档边缘的确定流程包括:
S1201、通过特征提取算子,提取标准图像的第一特征点,以及提取待标注视频图像中每一帧的第二特征点;
S1202、根据预设的特征点匹配规则,确定第一特征点与每一帧中第二特征点之间的映射关系;
S1203、根据映射关系,确定待标注视频图像中每一帧的目标文档边缘。
具体的,通过特征提取算子,例如SIFT、SURF和ORB等特征提取算子,提取标准图像的第一特征点,以及提取待标注视频图像中每一帧的第二特征点。通过特征点匹配规则,确定第一特征点和每一帧的第二特征点之间的映射关系。确定标准图像的边缘,根据映射关系和标准图像的边缘,确定了待标注视频图像中的每一帧的目标文档边缘。可选的,目标文档边缘可以是边缘框,可以是边缘框的四个顶点。进一步的,将目标文档边缘标注在待标注视频图像的每一帧中,得到第一标注视频图像,第一标注视频图像包括多个第一标注视频帧。
示例性的,参考图3,图3是目标文档的标准图像。对目标文档进行拍摄,并根据目标文档边缘在拍摄图像中截出目标文档,可以得到目标文档对应的标准图像。图3中三角形的三个顶点a、b和c为通过特征提取算子对标准图像进行特征点提取,得到的第一特征点。参考图4,图4是待标注视频图像中的帧图像数据。对摆放在桌子上的目标文档进行多角度进行视频录制,可以得到的待标注视频图像。图4中三角形的三个顶点a’、b’和c’为通过特征提取算子对该帧图像数据进行特征点提取,得到的第二特征点。进一步的,将图3中的第一特征点a、b和c对应匹配图4中的第二特征点a’、b’和c’,并计算出两者之间的映射矩阵。根据图3中目标文档的四个顶点1、2、3和4,以及映射矩阵,可以确定出图4中目标文档的四个顶点1’、2’、3’和4’。进一步的,将四个顶点1’、2’、3’和4’标注在该帧图像数据中,得到对应的第一标注视频帧。
S130、计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,目标文档区域为根据目标文档边缘确定的区域。
具体的,在特征点匹配的过程中可能会产生误匹配,导致第一标注视频帧中的目标文档边缘并非正确的目标文档边缘。而在录制视频图像,会对目标文档进行小范围的位置和方向移动,以及光照亮度的变换,其视频的前后帧之间存在关联性,可以依据视频的前后帧之间的关联性,在前一帧的目标文档边缘正确的情况下,可以判断后一帧的目标文档边缘是否正确。示例性的,参考图5,图5是帧图像数据和目标文档边缘的一种可选的具体筛选流程图。如图5所示,帧图像数据和目标文档边缘的筛选流程包括:
S1301、逐帧计算待标注视频图像中的帧图像数据中的目标文档区域与前一帧中的目标文档区域的面积交并比;
S1302、判断当前处理的帧图像数据是否为待标注视频图像的第一帧,若当前处理的帧图像为待标注视频图像的第一帧,保存当前处理的帧图像数据和目标文档边缘;
S1303、若当前处理的帧图像数据不是待标注视频图像的第一帧,判断当前处理的帧图像数据对应的交并比是否在预设的交并比范围内;
S1304、若当前处理的帧图像数据对应的交并比在交并比范围内,保存当前处理的帧图像数据和目标文档边缘。
具体的,根据第一标注视频帧中标注的目标文档边缘,确定第一标注视频帧中的目标文档区域。逐帧计算第一标注视频图像中的第一标注视频帧中的目标文档区域与前一帧的目标文档区域的面积交并比。具体的,将第一标注视频帧中的目标文档区域与前一帧的目标文档区域的面积交集,比上第一标注视频帧中的目标文档区域与前一帧的目标文档区域的面积并集,得到两者的面积交并比。若第一标注视频帧为第一标注视频图像的第一帧,则将该第一标注视频帧标记为第二标注视频帧。具体的,由于第一帧的目标文档边缘影响后续的第一标注视频帧的目标文档边缘准确性的判断,若第一帧的目标文档边缘为误匹配的边缘,而后续的第一标注视频帧的目标文档边缘为正确匹配的边缘,那么由于两者交并比不符合保留范围,将会淘汰后续的第一标注视频帧。因此,第一帧的目标文档边缘可由工作人员进行人工确认,当第一帧的目标文档边缘为正确匹配的边缘时,保存第一标注视频帧,若第一帧的目标文档边缘为误匹配的边缘时,淘汰该第一标注视频帧,并将后一帧作为第一帧,以此类推。进一步的,将非第一帧的第一标注视频帧的交并比与预设的交并比范围进行比较,若该第一标注视频帧的交并比在该交并比范围内,则将该第一标注视频帧也标记为第二标注视频帧。示例性的,将交并比范围设置在50%到90%,由于视频前后帧之间的关联性,如果目标文档区域的面积交并比小于50%,在前一帧的目标文档边缘为正确匹配边缘的情况下,那么后一帧的目标文档边缘有可能产生误匹配。如果目标文档区域的面积交并比大于90%,从样本数据多样性的角度考虑,这是冗余数据,没有必要保存。可以理解的,由于在视频拍摄时,视频的前后帧区别可能不大,可能导致前后帧的目标文档区域的面积交并比较高,而筛除过多的冗余数据,因此,交并比的保留范围是根据视频拍摄时的前后帧变化情况而定的,而不是固定不变的范围值。
S140、计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,目标文档边缘数据为根据目标文档边缘确定的边缘数据,掩膜边缘数据为帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
具体的,在经过第一次筛选后,得到一批带目标文档边缘标注的第二标注视频帧,为进一步保障数据的质量,采用传统的图像边缘检测规则对第二标注视频帧对应的帧图像数据进行边缘检测,得到帧图像数据中的边缘数据。若第二标注视频帧中的目标文档边缘数据可以在边缘数据中找到,可以认为第二标注视频帧中的目标文档边缘为正确匹配的边缘。示例性的,参考图6,图6是帧图像数据和目标文档边缘的另一种可选的具体筛选流程图。如图6所示,帧图像数据和目标文档边缘的筛选流程包括:
S1401、根据图像边缘检测规则,对帧图像数据进行边缘检测,得到帧图像数据的边缘结果,并根据帧图像数据的边缘结果,生成边缘掩膜;
S1402、将边缘掩膜与帧图像数据进行与运算,得到帧图像数据的掩膜边缘数据;
S1403、根据帧图像数据的目标文档边缘,确定帧图像数据的目标文档边缘数据;
S1404、计算帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,根据预设的重合比率阈值,保存重合比率高于重合比率阈值的帧图像数据和目标文档边缘。
具体的,采用图像边缘检测规则对第二标注视频帧对应的帧图像数据进行边缘检测,得到帧图像数据的边缘结果。具体的,传统的图像边缘检测规则可识别出图像中的大部分边缘,因此,对帧图像数据进行边缘检测得到的边缘结果涵盖了帧图像数据中的大部分边缘。由于帧图像数据中包含除了边缘数据之外的噪声数据,为排除这些噪声数据对重合比率的影响,通过边缘结果生成对应边缘掩膜,将边缘掩膜和帧图像数据进行与运算,通过边缘掩膜过滤噪声数据,得到掩膜边缘数据。示例性的,参考图7,图7是对角线掩膜,掩膜为由0和1组成的二进制图像。为获取图像的对角线上的像素数据,过滤其他部分冗余的数据,可将图像与图7中的对角线掩膜进行与运算,单独保留对角线上的像素数据,其中,1对应的区域即图像保留的区域,0对应的区域即图像过滤的区域。具体的,在通过图像边缘检测规则得到帧图像数据中的边缘结果后,可获取边缘结果对应于帧图像数据中的像素坐标,根据像素坐标生成对应的边缘掩膜。参考图8,图8是帧图像数据的掩膜边缘数据。将图4的帧图像数据和对应的边缘掩膜进行与运算,通过边缘掩膜将除了边缘结果对应的边缘数据之外的数据全部过滤,得到图8的掩膜边缘数据。如图8所示,掩膜边缘数据为边缘结果对应的边缘像素数据。
进一步的,由于第二标注视频帧中标注的目标文档边缘只是边缘框的像素坐标,或者是边缘框四个顶点的像素坐标,而非具体的目标文档边缘数据。基于此,根据第二标注视频帧中标注的目标文档边缘,确定第二标注视频帧中的目标文档边缘数据,也是对应的帧图像数据中的目标文档边缘数据。示例性的,参考图9,图9是帧图像数据的目标文档边缘数据。根据图4的帧图像数据中的目标文档的四个顶点1’、2’、3’和4’,确定图4的目标文档边缘对应的像素坐标,根据像素坐标生成对应的目标文档边缘掩膜。将图4的帧图像数据与目标文档边缘掩膜进行与运算,可得到图9中的目标文档边缘数据。如图9所示,目标文档边缘数据为目标文档边缘对应的像素数据。
进一步的,计算帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,若重合比率高于预设的重合比率阈值,表明大部分的目标文档边缘数据可以在边缘数据上找到交集,则将对应的第二标注视频帧作为样本标注视频帧。示例性的,将重合比率阈值设为80%,若重合比率高于80%,表明目标文档边缘数据中至少80%的数据可以在边缘数据中找到,而边缘数据包括了目标文档边缘数据,表明帧图像数据的目标文档边缘数据和边缘数据中的目标文档边缘数据的匹配度高达80%,因此可认为对应的第二标注视频帧中标注的目标文档边缘为正确匹配的边缘。示例性的,计算图8中的掩膜边缘数据和图9中的目标文档边缘数据的重合比率,得到98%的重合比率,表明图9中的目标文档边缘数据在图8的掩膜边缘数据中几乎都能找到。因此,保留图9对应的帧图像数据和目标文档边缘。
综上,通过获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘;计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘。通过上述技术手段,基于特征点匹配规则,识别出待标注视频图像中的每一帧的目标文档边缘,实现文档图像边缘的数据标注。为进一步保障生成的标注数据质量,对标注数据进行二次过滤。第一次过滤依据视频的前后帧之间存在关联性,计算前后帧的目标文档区域的面积交并比,保留面积交并比在保留范围内的后一帧标注数据。通过前后帧的目标文档区域的面积交并比,删除误匹配的标注数据和重合度较高的冗余标注数据,提高标注数据的质量。第二次过滤依据传统的边缘检测规则获取帧图像数据中的边缘数据,并通过边缘掩膜过滤帧图像数据中其他的噪声数据,只保留边缘数据。计算帧图像数据的边缘数据和标注数据中的目标文档边缘数据的重合比率,当大部分的目标文档边缘数据在边缘数据能中找到交集,那么证明边缘数据是涵盖目标文档边缘数据的,也即证明目标文档边缘数据是准确的目标文档边缘数据,因此保留对应的标注数据。本发明实施例通过一次匹配,两次筛选,实现对文档边缘数据进行高质量地自动标注,提高了样本数据的获取效率,降低标注成本。
实施例二
图10是本发明实施例二提供的一种文档图像边缘的数据标注装置的结构示意图。参考图10,该文档图像边缘的数据标注装置包括:获取模块21、标注模块22、第一筛选模块23和第二筛选模块24。
其中,获取模块21,被配置为获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;
标注模块22,被配置为根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;
第一筛选模块23,被配置为计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,目标文档区域为目标文档边缘确定的区域;
第二筛选模块24,被配置为计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,目标文档边缘数据为根据目标文档边缘确定的边缘数据,掩膜边缘数据为帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
在上述实施例的基础上,标注模块22包括:特征提取单元,被配置为通过特征提取算子,提取标准图像的第一特征点,以及提取待标注视频图像中每一帧的第二特征点;映射关系确定单元,被配置为根据预设的特征点匹配规则,确定第一特征点与每一帧中第二特征点之间的映射关系;边缘确定单元,被配置为根据映射关系,确定待标注视频图像中每一帧的目标文档边缘。
在上述实施例的基础上,第一筛选模块23包括:交并比计算单元,被配置为逐帧计算待标注视频图像中的帧图像数据中的目标文档区域与前一帧中的目标文档区域的面积交并比;第一判断单元,被配置为判断当前处理的帧图像数据是否为待标注视频图像的第一帧,若当前处理的帧图像为待标注视频图像的第一帧,保存当前处理的帧图像数据和目标文档边缘;第二判断单元,被配置为若当前处理的帧图像数据不是待标注视频图像的第一帧,判断当前处理的帧图像数据对应的交并比是否在预设的交并比范围内;第一筛选单元,被配置为若当前处理的帧图像数据对应的面积交并比在交并比范围内,保存当前处理的帧图像数据和目标文档边缘。
在上述实施例的基础上,第二筛选模块24包括:边缘掩膜确定单元,被配置为根据图像边缘检测规则,对帧图像数据进行边缘检测,得到帧图像数据的边缘结果,并根据帧图像数据的边缘结果,生成边缘掩膜;掩膜边缘数据确定单元,被配置为将边缘掩膜与帧图像数据进行与运算,得到帧图像数据的掩膜边缘数据;目标文档边缘数据确定单元,被配置为根据帧图像数据的目标文档边缘,确定帧图像数据的目标文档边缘数据;第二筛选单元,被配置为计算帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,根据预设的重合比率阈值,保存重合比率高于重合比率阈值的帧图像数据和目标文档边缘。上述,通过获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘;计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘。通过上述技术手段,基于特征点匹配规则,识别出待标注视频图像中的每一帧的目标文档边缘,实现文档图像边缘的数据标注。为进一步保障生成的标注数据质量,对标注数据进行二次过滤。第一次过滤依据视频的前后帧之间存在关联性,计算前后帧的目标文档区域的面积交并比,保留面积交并比在保留范围内的后一帧标注数据。通过前后帧的目标文档区域的面积交并比,删除误匹配的标注数据和重合度较高的冗余标注数据,提高标注数据的质量。第二次过滤依据传统的边缘检测规则获取帧图像数据中的边缘数据,并通过边缘掩膜过滤帧图像数据中其他的噪声数据,只保留边缘数据。计算帧图像数据的边缘数据和标注数据中的目标文档边缘数据的重合比率,当大部分的目标文档边缘数据在边缘数据能中找到交集,那么证明边缘数据是涵盖目标文档边缘数据的,也即证明目标文档边缘数据是准确的目标文档边缘数据,因此保留对应的标注数据。本发明实施例通过一次匹配,两次筛选,实现对文档边缘数据进行高质量地自动标注,提高了样本数据的获取效率,降低标注成本。
本发明实施例提供的文档图像边缘的数据标注装置包含在文档图像边缘的数据标注设备中,且可用于执行上述任意实施例提供的文档图像边缘的数据标注方法,具备相应的功能和有益效果。
实施例三
图11为本发明实施例三提供的一种文档图像边缘的数据标注设备的结构示意图。如图11所示,该文档图像边缘的数据标注设备包括处理器30、存储器31、输入装置32、输出装置33以及显示屏34;文档图像边缘的数据标注设备中处理器30的数量可以是一个或多个,图11中以一个处理器30为例;文档图像边缘的数据标注设备中显示屏34的数量可以是一个或多个,图11中以一个显示屏34为例;文档图像边缘的数据标注设备中的处理器30、存储器31、输入装置32、输出装置33以及显示屏34可以通过总线或其他方式连接,图11中以通过总线连接为例。
存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文档图像边缘的数据标注方法对应的程序指令/模块(例如,文档图像边缘的数据标注装置中的获取模块21、标注模块22、第一筛选模块23和第二筛选模块24)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行文档图像边缘的数据标注设备的各种功能应用以及数据处理,即实现上述文档图像边缘的数据标注方法。
存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据文档图像边缘的数据标注设备的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至文档图像边缘的数据标注设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置32可用于接收输入的数字或字符信息,以及产生与文档图像边缘的数据标注设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括扬声器等音频输出设备。显示屏34为具有触摸功能的显示屏,其可以是电容屏、电磁屏或者红外屏。可选的,当显示屏34为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏34的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器30或者其他设备。显示屏34用于显示带目标文档边缘标注的样本标注图像。同时,还可以根据处理器的指令显示其他的内容。
本实施例中,文档图像边缘的数据标注设备可以是PC端。
上述文档图像边缘的数据标注设备包含文档图像边缘的数据标注装置,可以用于执行任意文档图像边缘的数据标注方法,具备相应的功能和有益效果。
实施例四
本发明实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种文档图像边缘的数据标注方法,该方法包括:
获取目标文档对应的标准图像,以及获取基于目标文档生成的待标注视频图像;
根据预设的特征点匹配规则,确定待标注视频图像中每一帧的目标文档边缘;
计算待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,目标文档区域为根据目标文档边缘确定的区域;
计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,目标文档边缘数据为根据目标文档边缘确定的边缘数据,掩膜边缘数据为帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文档图像边缘的数据标注方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于文档图像边缘的数据标注装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文档图像边缘的数据标注方法,其特征在于,包括:
获取目标文档对应的标准图像,以及获取基于所述目标文档生成的待标注视频图像;
根据预设的特征点匹配规则,确定所述待标注视频图像中每一帧的目标文档边缘;
计算所述待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,所述目标文档区域为根据所述目标文档边缘确定的区域;
计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,所述目标文档边缘数据为根据目标文档边缘确定的边缘数据,所述掩膜边缘数据为所述帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的特征点匹配规则,确定所述待标注视频图像中每一帧的目标文档边缘,包括:
通过特征提取算子,提取所述标准图像的第一特征点,以及提取所述待标注视频图像中每一帧的第二特征点;
根据预设的特征点匹配规则,确定所述第一特征点与每一帧中所述第二特征点之间的映射关系;
根据所述映射关系,确定所述待标注视频图像中每一帧的目标文档边缘。
3.根据权利要求1所述的方法,其特征在于,所述计算所述待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,包括:
逐帧计算所述待标注视频图像中的帧图像数据中的目标文档区域与前一帧中的目标文档区域的面积交并比;
判断当前处理的帧图像数据是否为所述待标注视频图像的第一帧,若当前处理的帧图像为所述待标注视频图像的第一帧,保存当前处理的帧图像数据和目标文档边缘;
若当前处理的帧图像数据不是所述待标注视频图像的第一帧,判断当前处理的帧图像数据对应的交并比是否在预设的交并比范围内;
若当前处理的帧图像数据对应的交并比在所述交并比范围内,保存当前处理的帧图像数据和目标文档边缘。
4.根据权利要求1所述的方法,其特征在于,所述计算所述帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,包括:
根据图像边缘检测规则,对所述帧图像数据进行边缘检测,得到所述帧图像数据的边缘结果,并根据所述帧图像数据的边缘结果,生成边缘掩膜;
将所述边缘掩膜与所述帧图像数据进行与运算,得到所述帧图像数据的掩膜边缘数据;
根据所述帧图像数据的目标文档边缘,确定所述帧图像数据的目标文档边缘数据;
计算所述帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,根据预设的重合比率阈值,保存重合比率高于所述重合比率阈值的帧图像数据和目标文档边缘。
5.根据权利要求1所述的方法,其特征在于,所述待标注视频图像由摄影设备对所述目标文档进行角度变换、背景变换和/或光照变换地视频录制得到。
6.一种文档图像边缘的数据标注装置,其特征在于,包括:
获取模块,被配置为获取目标文档对应的标准图像,以及获取基于所述目标文档生成的待标注视频图像;
标注模块,被配置为根据预设的特征点匹配规则,确定所述待标注视频图像中每一帧的目标文档边缘;
第一筛选模块,被配置为计算所述待标注视频图像中后一帧与前一帧中的目标文档区域的面积交并比,保存交并比在预设保留范围内的后一帧的帧图像数据和目标文档边缘,所述目标文档区域为所述目标文档边缘确定的区域;
第二筛选模块,被配置为计算保存的帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,保存重合比率在预设保留范围内的帧图像数据和目标文档边缘,所述目标文档边缘数据为根据目标文档边缘确定的边缘数据,所述掩膜边缘数据为所述帧图像数据通过边缘检测以及边缘掩膜得到的边缘数据。
7.根据权利要求6所述的装置,其特征在于,所述标注模块包括:
特征提取单元,被配置为通过特征提取算子,提取所述标准图像的第一特征点,以及提取所述待标注视频图像中每一帧的第二特征点;
映射关系确定单元,被配置为根据预设的特征点匹配规则,确定所述第一特征点与每一帧中所述第二特征点之间的映射关系;
边缘确定单元,被配置为根据所述映射关系,确定所述待标注视频图像中每一帧的目标文档边缘。
8.根据权利要求6所述的装置,其特征在于,所述第一筛选模块包括:
交并比计算单元,被配置为逐帧计算所述待标注视频图像中的帧图像数据中的目标文档区域与前一帧中的目标文档区域的面积交并比;
第一判断单元,被配置为判断当前处理的帧图像数据是否为所述待标注视频图像的第一帧,若当前处理的帧图像为所述待标注视频图像的第一帧,保存当前处理的帧图像数据和目标文档边缘;
第二判断单元,被配置为若当前处理的帧图像数据不是所述待标注视频图像的第一帧,判断当前处理的帧图像数据对应的交并比是否在预设的交并比范围内;
第一筛选单元,被配置为若当前处理的帧图像数据对应的面积交并比在所述交并比范围内,保存当前处理的帧图像数据和目标文档边缘。
9.根据权利要求6所述的装置,其特征在于,所述第二筛选模块包括:
边缘掩膜确定单元,被配置为根据图像边缘检测规则,对所述帧图像数据进行边缘检测,得到所述帧图像数据的边缘结果,并根据所述帧图像数据的边缘结果,生成边缘掩膜;
掩膜边缘数据确定单元,被配置为将所述边缘掩膜与所述帧图像数据进行与运算,得到所述帧图像数据的掩膜边缘数据;
目标文档边缘数据确定单元,被配置为根据所述帧图像数据的目标文档边缘,确定所述帧图像数据的目标文档边缘数据;
第二筛选单元,被配置为计算所述帧图像数据的目标文档边缘数据与掩膜边缘数据的重合比率,根据预设的重合比率阈值,保存重合比率高于所述重合比率阈值的帧图像数据和目标文档边缘。
10.根据权利要求6所述的装置,其特征在于,所述待标注视频图像由摄影设备对所述目标文档进行角度变换、背景变换和/或光照变换地视频录制得到。
CN202011384575.XA 2020-12-01 2020-12-01 文档图像边缘的数据标注方法、装置、设备及存储介质 Active CN112464828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011384575.XA CN112464828B (zh) 2020-12-01 2020-12-01 文档图像边缘的数据标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011384575.XA CN112464828B (zh) 2020-12-01 2020-12-01 文档图像边缘的数据标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112464828A CN112464828A (zh) 2021-03-09
CN112464828B true CN112464828B (zh) 2024-04-05

Family

ID=74806256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011384575.XA Active CN112464828B (zh) 2020-12-01 2020-12-01 文档图像边缘的数据标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112464828B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048626A (ja) * 2004-07-06 2006-02-16 Casio Comput Co Ltd 撮影装置、撮影画像の画像処理方法及びプログラム
KR101477642B1 (ko) * 2014-07-22 2015-01-06 (주)지란지교소프트 오프라인 노트를 이용한 전자책 서비스 방법
CN105608209A (zh) * 2015-12-29 2016-05-25 南威软件股份有限公司 一种视频标注方法和视频标注装置
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN109993749A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标图像的方法和装置
CN111144305A (zh) * 2019-12-26 2020-05-12 京东数字科技控股有限公司 训练数据生成方法、装置、电子设备和介质
CN111598176A (zh) * 2020-05-19 2020-08-28 北京明略软件系统有限公司 一种图像匹配处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2381687B (en) * 2001-10-31 2005-08-24 Hewlett Packard Co Assisted reading method and apparatus
US10417321B2 (en) * 2016-07-22 2019-09-17 Dropbox, Inc. Live document detection in a captured video stream
CN111145305A (zh) * 2019-12-04 2020-05-12 宁波华高信息科技有限公司 一种文档图像处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048626A (ja) * 2004-07-06 2006-02-16 Casio Comput Co Ltd 撮影装置、撮影画像の画像処理方法及びプログラム
KR101477642B1 (ko) * 2014-07-22 2015-01-06 (주)지란지교소프트 오프라인 노트를 이용한 전자책 서비스 방법
CN105608209A (zh) * 2015-12-29 2016-05-25 南威软件股份有限公司 一种视频标注方法和视频标注装置
CN109993749A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标图像的方法和装置
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111144305A (zh) * 2019-12-26 2020-05-12 京东数字科技控股有限公司 训练数据生成方法、装置、电子设备和介质
CN111598176A (zh) * 2020-05-19 2020-08-28 北京明略软件系统有限公司 一种图像匹配处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fast Ellipse Detection and Automatic Marking in Planar Target Image Sequences;Weiqi Yuan, et al;《Journal of Computers》;20141211;第9卷(第10期);第2379-86页 *

Also Published As

Publication number Publication date
CN112464828A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
JP7458328B2 (ja) マルチ分解能登録を介したマルチサンプル全体スライド画像処理
CN110705405B (zh) 目标标注的方法及装置
KR101346539B1 (ko) 얼굴들을 상관시킴으로써 디지털 이미지들을 구조화하기
CN110443212B (zh) 用于目标检测的正样本获取方法、装置、设备及存储介质
US10395091B2 (en) Image processing apparatus, image processing method, and storage medium identifying cell candidate area
CN109344864B (zh) 用于密集物体的图像处理方法及装置
CN101983507A (zh) 自动红眼检测
CN111028261B (zh) 高精度半自动化图像数据标注方法、电子装置及存储介质
CN110992384B (zh) 半自动化图像数据标注方法、电子装置及存储介质
CN112396050B (zh) 图像的处理方法、设备以及存储介质
KR20180092455A (ko) 딥 러닝을 이용한 카드번호 인식방법
CN111382647A (zh) 一种图片处理方法、装置、设备及存储介质
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN114419008A (zh) 一种图像质量评估方法及系统
CN114119695A (zh) 一种图像标注方法、装置及电子设备
CN117372816A (zh) 一种智能驾驶的图像自动标注方法、标注系统及存储介质
CN112464828B (zh) 文档图像边缘的数据标注方法、装置、设备及存储介质
CN110310341B (zh) 颜色算法中默认参数的生成方法、装置、设备和存储介质
CN111862109B (zh) 多目标采集、图像识别及自动标注识别结果的系统和装置
CN113034449B (zh) 目标检测模型训练方法、装置及通信设备
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
CN111753722B (zh) 一种基于特征点类型的指纹识别方法及装置
CN114202719A (zh) 视频样本的标注方法、装置、计算机设备及存储介质
CN113780222A (zh) 一种人脸活体检测方法、装置、电子设备和可读存储介质
CN113706401B (zh) 一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant