CN113255413A - 确定文档边框的方法、装置及介质 - Google Patents

确定文档边框的方法、装置及介质 Download PDF

Info

Publication number
CN113255413A
CN113255413A CN202010091545.3A CN202010091545A CN113255413A CN 113255413 A CN113255413 A CN 113255413A CN 202010091545 A CN202010091545 A CN 202010091545A CN 113255413 A CN113255413 A CN 113255413A
Authority
CN
China
Prior art keywords
edge
document
line segments
determining
pixel points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010091545.3A
Other languages
English (en)
Other versions
CN113255413B (zh
Inventor
彭鑫
刘坚强
吴鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010091545.3A priority Critical patent/CN113255413B/zh
Publication of CN113255413A publication Critical patent/CN113255413A/zh
Application granted granted Critical
Publication of CN113255413B publication Critical patent/CN113255413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种确定文档边框的方法、装置及介质。所述方法包括获取待处理文档图像;通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;基于所述M个候选文档边框,确定输出文档边框。本公开所提供的方法可以准确定位待处理图片中的文档边框。

Description

确定文档边框的方法、装置及介质
技术领域
本公开涉及计算机视觉领域,尤其涉及确定文档边框的方法、装置及介质。
背景技术
相关技术中,随着便携式摄影设备,如智能例手机,等技术的飞速发展,文档拍摄成为人们工作生活中一种常见的记录方式。文档边框自动检测技术是在用户拍摄的照片中,自动识别出文档所在的区域,以得到文档图片,文档边框自动检测技术是计算机视觉领域中提升用户体验的关键技术。
发明内容
为克服相关技术中存在的问题,本公开提供一种确定文档边框的方法、装置及介质。
根据本公开实施例的第一方面,提供一种确定文档边框的方法,该方法应用于电子设备,包括:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
其中,所述边缘检测模型预先通过以下步骤而进行训练:
获取已标注文档边缘信息的文档图像样本集;
对所述文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;
对于每个特征层分别确定带权重的损失函数,并基于所述损失函数优化所述边缘检测模型的模型参数,所述权重用于平衡所述文档图像样本集中的正负样本在所述损失函数中的约束效果;
生成边缘概率图。
其中,当M>0时,所述基于所述M个候选文档边框,确定输出文档边框包括:
当M=1时,将所述候选文档边框作为输出文档边框;
当M>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
其中,当M=0时,所述基于所述M个候选文档边框,确定输出文档边框包括:
将待处理文档图像的四条边界线与所述N条边缘线段,形成N+4条边缘线段;
基于所述N+4条边缘线段,确定P个候选文档边框,P为大于等于1的正整数;
当P=1时,将所述候选文档边框作为输出文档边框;
当P>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
其中,其特征在于,
当P=0时,所述确定文档边框的方法还包括:
将所述N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点、终点;
将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将所述Q个矢量线段与所述N条边缘线段,形成N+Q条边缘线段,基于所述N+Q条边缘线段,确定O个候选文档边框,O为大于等于0的整数;
当O=1时,将所述候选文档边框作为输出文档边框;
当O>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框;
当O=0时,以待处理文档图像边界作为输出文本档边框。
其中,所述基于所述N条边缘线段,确定有效交点并确定M个候选文档边框包括:
确定所述N条边缘线段中任意两条边缘线段所在直线的有效交点;
以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
将全部所述封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
其中,所述有效交点满足下列条件:
两条边缘线段所在直线相交;
所述交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且所述延长线的长度均小于预设长度;
该两条边缘线段的长度差在预设范围内。
其中,当两个有效交点距离小于预设距离时,将该两个有效交点合并为一个有效交点。
其中,所述方法还包括:
当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的拟合线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的拟合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
其中,所述基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合N条边缘线段包括:
基于所述概率值对所述边缘概率图做二值化处理,得到边缘像素点;
由满足第一预设条件的边缘像素点构成边缘像素点集,在所述边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于所述初始边缘像素点确定初始直线段,在所述边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与所述初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段;
按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段。
其中,所述按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段,包括:
基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到所述N条边缘线段。
根据本公开实施例的第二方面,提供一种确定文档边框的装置,应用于电子设备,包括:
第一获取模块,被配置为获取待处理文档图像;
第二获取模块,被配置为通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
提取模块,被配置为基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
确定模块,被配置为基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
输出模块,被配置为基于所述M个候选文档边框,确定输出文档边框。
其中,所述边缘检测模型预先通过以下步骤而进行训练:
获取已标注文档边缘信息的文档图像样本集;
对所述文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;
对于每个特征层分别确定带权重的损失函数,并基于所述损失函数优化所述边缘检测模型的模型参数,所述权重用于平衡所述文档图像样本集中的正负样本在所述损失函数中的约束效果;
生成边缘概率图。
其中,当M>0时,所述输出模块被配置为:
当M=1时,将所述候选文档边框作为输出文档边框;
当M>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
其中,当M=0时,所述输出模块被配置为:
将待处理文档图像的四条边界线与所述N条边缘线段,形成N+4条边缘线段;
基于所述N+4条边缘线段,确定P个候选文档边框,P为大于等于1的正整数;
当P=1时,将所述候选文档边框作为输出文档边框;
当P>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
其中,当P=0时,所述输出模块被配置为:
将所述N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点、终点;
将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将所述Q个矢量线段与所述N条边缘线段,形成N+Q条边缘线段,基于所述N+Q条边缘线段,确定O个候选文档边框,O为大于等于0的整数;
当O=1时,将所述候选文档边框作为输出文档边框;
当O>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框;
当O=0时,以待处理文档图像边界作为输出文本档边框。
其中,所述确定模块被配置为:
确定所述N条边缘线段中任意两条边缘线段所在直线的有效交点;
以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
将全部所述封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
其中,所述有效交点满足下列条件:
两条边缘线段所在直线相交;
所述交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且所述延长线的长度均小于预设长度;
该两条边缘线段的长度差在预设范围内。
其中,当两个有效交点距离小于预设距离时,将该两个有效交点合并为一个有效交点。
其中,所述确定模块被配置为:
当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的拟合线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的拟合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
其中,所述提取模块包括:
基于所述概率值对所述边缘概率图做二值化处理,得到边缘像素点;
由满足第一预设条件的边缘像素点构成边缘像素点集,在所述边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于所述初始边缘像素点确定初始直线段,在所述边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与所述初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段;
按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段。
其中,所述提取装置被配置为:
基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到所述N条边缘线段。
根据本公开实施例的第三方面,提供一种确定文档边框的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种确定文档边框的方法,所述方法包括:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
本公开的实施例提供的技术方案可以包括以下有益效果:可以准确定位待处理图片中的文档边框。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种确定文档边框的方法的流程图;
图2是根据一示例性实施例示出的边缘监测模型先通过以下步骤而进行训练的的方法的流程图;
图3是图1示出的步骤S12中基于概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段的方法的流程图;
图4是图3示出的步骤S122中选取满足第一预设条件的边缘像素点的边缘像素点集,在边缘像素点集中选择初始边缘像素点集,基于初始边缘像素点集中的边缘像素点确定初始直线段,在边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点,将满足第二预设条件的边缘像素点与初始直线段拟合,形成拟合线段的方法的流程图;
图5是根据一示例性实施例示出的确定文档边框的示例;
图6是图3示出的步骤S123中按照预设规则对多条拟合线段进行重拟合,得到N条边缘线段的方法的流程图;
图7是图1示出的步骤S13中基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框的方法的流程图;
图8是根据一示例性实施例示出的确定文档边框的示例;
图9是根据一示例性实施例示出的一种确定文档边框的方法的流程图;
图10是根据一示例性实施例示出的确定文档边框的示例;
图11是图1示出的步骤S14中当M>0时,基于M个候选文档边框,确定输出文档边框的方法的流程图;
图12是图1示出的步骤S14中当M=0时,确定文档边框的方法的流程图;
图13是图1示出的当P=0时,确定文档边框的方法的流程图;
图14是根据一示例性实施例示出的一种确定文档边框的装置的框图;
图15是根据一示例性实施例示出的一种装置的框图(移动终端的一般结构)。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本公开实施例中提供了一种确定文档边框的方法。图1是根据一示例性实施例示出的一种确定文档边框的方法的流程图,如图1所示,确定文档边框的方法用于电子设备中,包括以下步骤。
步骤S10,获取待处理文档图像。
待处理文档图像可以通过电子设备的摄像头拍摄获得。
步骤S11,通过边缘检测模型获取待处理文档图像的边缘概率图,边缘概率图标示出待处理文档图像的全部像素点为待处理文档图像中文档的边缘像素点的概率值。
步骤S12,基于概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数。
步骤S13,基于N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为≥0的正整数。
步骤S14,基于M个候选文档边框,确定输出文档边框。
本方法应用于电子设备,例如手机、平板电脑等。待处理文档图像可以通过电子设备的摄像头拍摄获得。通过边缘检测模型获取待处理文档图像中文档边缘的边缘像素点,根据边缘像素点拟合出N条边缘线段,根据拟合出的N条边缘线段,确定M个候选文档边框,并基于所确定的M个候选文档边框确定输出文档边框。通过这样的方法,可以准确定位文档边框。
本公开实施例中提供了一种确定文档边框的方法。在步骤S11中,可以通过边缘检测模型获取待处理文档图像的边缘概率图。将待处理文档图像输入至边缘检测模型,边缘检测模型以像素为单位对待处理文档图像进行处理,输出边缘概率图,在所输出的边缘概率图中标示出了待处理文档图像的全部像素点为待处理文档图像中文档的边缘像素点的概率值。其中,概率值标示待处理文档图像的全部像素点中为文档的边缘像素点的概率。如图2所示,图2是根据一示例性实施例示出的边缘监测模型先通过以下步骤而进行训练的步骤,包括:
步骤S111,获取已标注文档边缘信息的文档图样样本集;
步骤S112,对文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;。
步骤S113,对于每个特征层分别确定带权重的损失函数,并基于损失函数优化边缘检测模型的模型参数,权重用于平衡文档图像样本集中的正负样本在损失函数中的约束效果。
在对文档图像样本集中每个文档图像样本中像素点特征值进行提取后,由于文档图像中文档边缘的边缘像素点相对于整个文档图像样本的像素点的占比较小,如果将边缘像素点作为正样本,非边缘像素点为负样本,在文档图像样本的全部像素点集合中,正负样本数非常不均衡。因此,本公开中引入了带权重的损失函数,以平衡正负样本在损失函数中的约束效果。在对每个特征层进行上采样时,对每个特征层分别确定带权重的损失函数,并基于该带权重的损失函数优化边缘检测模型的模型参数。示例性地,基于每个特征层的损失函数,调整在该特征层之前(包括该特征层)的所有模型参数。其中损失函数可以是能用于评估深度神经网络模型的任意损失函数。例如,在本公开中,可以选择交叉熵损失函数。带权重的交叉熵损失函数可以描述如下:
loss=targets*-log(sigmoid(logits)*posweight)+(1-targets)*-log(1-sigmoid(logits))
其中,logits为边缘像素点概率值,targets为边缘像素点的真实结果0或1,sigmoid为归一化函数,posweight为平衡损失函数设定的正样本部分权重,posweight值大于1。通过带权重的交叉熵损失函数,
步骤S114,生成边缘概率图。该边缘概率图标示出全部像素点为边缘像素点的概率值。
在上采样过程中,对每个特征层按照上述方式进行优化后,最后得到文档图像的全部像素点为文档的边缘像素点的概率值。使用边缘检测模型可以有效地过滤掉文档图像中无用背景的干扰信息,使得边缘像素点定位更准确,即便是在复杂场景中也能有效定位。
本公开实施例中提供了一种确定文档边框的方法。在步骤S12中,基于概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段。如图3所示,在此方法中,图1示出的步骤S12中,基于概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,包括如下步骤:
步骤S121,基于概率值对边缘概率图做二值化处理,得到边缘像素点。其中,在基于概率值对边缘概率图进行二值化处理过程中,可以使用传统图像处理中的边缘检测算法对边缘像素点进行提取,此处不做赘述。
步骤S122,由满足第一预设条件的边缘像素点构成边缘像素点集,在边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于初始边缘像素点确定初始直线段。然后,在边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段。
步骤S123,按照预设规则对多条拟合线段进行重拟合,得到N条边缘线段。
本公开实施例中提供了一种确定文档边框的方法。如图4所示,在此方法中,图3示出的步骤S122中,选取满足第一预设条件的边缘像素点的边缘像素点集,在边缘像素点集中选择初始边缘像素点集,基于初始边缘像素点集中的边缘像素点确定初始直线段,在边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点,将满足第二预设条件的边缘像素点与初始直线段拟合,形成拟合线段,可以包括如下步骤:
步骤S1221,遍历边缘像素节点,
步骤S1222,如边缘像素点为未标记边缘像素点,将该未标记边缘像素点作为初始点,以初始点为中心在预设方向内的邻域中搜索相邻的未标记的边缘像素点,如果有,以搜索到的相邻的边缘像素点为中心,在预设方向内的邻域中继续搜索;如果无,则结束搜索,将所有搜索到的边缘像素点作为边缘像素点集;
此处,预设条件为边缘像素点为未标记边缘像素点。预设条件也可以是其他任何可以进行本步骤的条件,此处不做限定。
步骤S1223,选择边缘像素点集中任一点为起点,在预设方向上确定n个边缘像素点,将所述n个边缘像素点之间的连线作为初始直线段,其中n个边缘像素点包括作为起点的边缘像素点;
在得到边缘像素点集之后,可以选择边缘像素点集中任一点作为起点,例如可以选择起始点作为起点,在预设方向上确定与起始点在同一条直线上的包括起始点在内的n个边缘像素点。连接n个边缘像素点,形成直线段,作为初始直线段。其中,预设方向可以以初始点的八邻域(像素阵列中,初始点周围八个方向)的任意方向。
步骤S1224,在边缘像素点集中剩余的边缘像素点中,选择与初始直线段的垂直距离小于预定阈值的边缘像素点,并将所选择的边缘像素点与初始直线段拟合,形成拟合线段。
步骤S1225,将与拟合线段相关的边缘像素点进行标记。
图5是根据一示例性实施例示出的确定文档边框的示例,其中,图中每一方格代表一个像素点,方格中的黑色圆点,代表该像素点为边缘像素点。假设以将边缘像素点1作为初始点,以边缘像素点1在预设方向(例如图5中以带箭头的短实线示意)搜索获得相邻的边缘像素点2,再继续以边缘像素点2为中心在预设方向搜索,未搜索到边缘像素点,然后在预设方向的邻域内继续搜索,依次得到边缘像素点3、边缘像素点4、边缘像素点5,直到得到边缘像素点9,结束搜索。至此,得到边缘像素点集,即边缘像素点1到边缘像素点9。然后,在边缘像素点集中,选择以边缘像素点1为起点,沿预设方向确定边缘像素点2。在预设方向上共有两个边缘像素点,边缘像素点1和边缘像素点2,形成初始边缘像素点集。连接边缘像素点1和边缘像素点2形成初始直线段。在边缘像素点集的剩余的边缘像素点集,边缘像素点3-边缘像素点9中,选择与初始直线段的垂直距离小于预定阈值的边缘像素点,边缘像素点3到边缘像素点5。将边缘像素点3到边缘像素点5与初始直线段拟合,形成拟合线段,如图5中虚线所表示的线段为拟合线段。
本公开实施例中提供了一种确定文档边框的方法。在步骤S123中,按照预设规则对多条拟合线段进行重拟合,得到N条边缘线段。如图6所示,在此方法中,图3示出的步骤S123中,按照预设规则对多条拟合线段进行重拟合,得到N条边缘线段,包括如下步骤:
步骤1231,基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到N条边缘线段。
在得到多条拟合线段后,可以按照各个拟合线段的斜率差、各个拟合线段之间的垂直距离对拟合线段进行重拟合,形成N条边缘线段。即将满足斜率差在预定斜率差范围内且垂直距离小于预定距离的拟合线段进行重拟合,得到N条边缘线段。
本公开实施例中提供了一种确定文档边框的方法。在步骤S13中,基于N条边缘线段,确定有效交点并确定M个候选文档边框。如图7所示,在此方法中,图1示出的步骤S13中,基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,包括如下步骤:
步骤131,确定N条边缘线段中任意两条边缘线段所在直线的有效交点。有效交点可以满足下列条件:
1)两条边缘线段所在直线的相交;
2)交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且延长线的长度均小于预设长度;
3)该两条线段的长度差在预设范围内。
条件2)和条件3)的设定,可以抑制可能存在的短线段或者无效干扰线段,提高文档边框的提取的准确率。预设长度可以根据需要设定,预设范围可以根据需要选定,以避免两条线段长度差过大,而增加过多的无效的文档边框的提取过程。
步骤132,以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
在确定封闭环时,以每个有效交点作为起点,确定与其他多个有效交点及各自关联的边缘线段所组成的封闭环。在所有封闭环确定之后,做去重处理,得到全部封闭环。
步骤133,将全部封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
当两个有效交点距离小于预设距离时,将两个有效交点合并为一个有效交点。
图8是根据一示例性实施例示出的确定文档边框的示例,如图8中所示,有效交点a-m,其所在的直线形成多个封闭环,该多个封闭环有封闭环1(a-b-c-d-a),封闭环2(e-f-g-h-m-i-a-e),封闭环3(m-j-k-l-m),满足凸四边形条件的封闭环为封闭环1(a-b-c-d-a),封闭环3((m-j-k-l-m),因此,候选文档边框为封闭环1,封闭环3。
在文档提取过程中,在近距离文档场景下,文档边框的边界线很容易超出图像的有效范围,使得不能获得封闭环,本公开实施例中提供了一种确定文档边框的方法。如图9所示,在此方法中,包括如下步骤:
步骤1330,当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的边缘线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的边缘合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
图10是根据一示例性实施例示出的确定文档边框的示例。如图10所示,其中,满足边缘线段a’-b’,a’-c’,b’-c’,c’-d’,不能形成封闭环。那么将与待处理文档图像的边界线相交的边缘线段a’-c’从相交点开始延长,使其与另一条与待处理文档图像的边界线相交的边缘线段c’-d’的延长相交,交点为c”,将相交后形成的封闭环确定为候选文档框。或者如果在实际处理过程中,没有拟合线段c’-d’,可以将边缘线段a’-c’的延长线与待处理文档图像的边界线的延长线相交,将相交后形成的封闭环确定为候选文档框。这样可以得到接近真实文档边框的输出文档边框。
本公开实施例中提供了一种确定文档边框的方法。在步骤S14中,基于M个候选文档边框,确定输出文档边框。如图11所示,在此方法中,图1示出的步骤S14中,当M>0时,基于M个候选文档边框,确定输出文档边框,包括如下步骤:
步骤S141,当M=1时,将候选文档边框作为输出文档边框;
步骤S142,当M>1时,基于候选文档边框所包括的所有边缘线段的长度和、候选文档边框的周长,计算候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
在本公开中,可以按照下述算法进行计算候选文档边框的分值:
score=linesolid-pubish×(perimeter-linesolid)
其中,linesolid为候选文档边框所包括的所有线段的长度和;perimeter为候选文档边框周长;perimeter-linesolid为候选文档边框的四边的缺失的线段长度的和;pubish为惩罚系数。
本公开中,利用候选文档边框所包括的所有线段的长度和以及候选文档边框的周长两个参数确定输出文档边框,不但可以应用于简单的文档场景,也可以在复杂的文档场景中,有效地确定文档边框。在复杂的文档场景中,较为明显的一个特征为,文档边框容易出现线段缺失的问题。本公开在文档边框确定的策略上,利用了这一技术特征,使用候选文档边框所包括的所有边缘线段的长度和,候选文档边框的周长以及缺失线段的长度,这些参数,确定输出文档边框。本公开所提供的确定文档边框的方法,能在各种文档场景中,特别是复杂的文档场景中,准确地确定需输出的文档边框。
仍以图8为例,图8所示的实施例中,确定了两个候选文档框,封闭环1和封闭环3。利用上述预设算法进行计算后,作为候选文档边框的封闭环1为输出文本边框。
本公开实施例中提供了一种确定文档边框的方法。在步骤S14中,基于M个候选文档边框,确定输出文档边框。如图12所示,在此方法中,图1示出的步骤S14中,当M=0时,确定文档边框的方法还包括:
步骤S141,将待处理文档图像的四条边界线与N条边缘线段,形成N+4条线段;
步骤S142,基于该N+4条线段,确定P个候选文档边框;
步骤S143,当P=1时,将候选文档边框作为输出文档边框;
当P>1时,基于候选文档边框所包括的所有边缘线段的长度和、候选文档边框的周长,计算候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。计算公式可以选择上述计算公式。
当P=0时,如图13所示,在此方法中,确定文档边框的方法还包括:
步骤S144,将N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点,终点;将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将Q个矢量线段与N条边缘线段,形成N+Q条边缘线段,基于N+Q条线段,确定O个候选文档边框;
步骤S145,如O=0,则以图像边界作为输出文本档边框;
当O=1时,将候选文档边框作为输出文档边框;
当O>1时,基于候选文档边框所包括的所有边缘线段的长度和、候选文档边框的周长,计算候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。计算公式可以选择上述计算公式。
本实施例中,针对M=0的特殊情况进行了进一步的处理,即在未找到候选文档边框时,将待处理文档图像的四条边界线与N条边缘线段一起,再次确定候选文档边框。当这样的处理仍未找到候选文档边框时,对N条边缘线段进行分类,分成横向线段和竖向线段,并将任意两条横向线段或者任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,基于由Q个矢量线段和N条边缘线段,再次确定候选文档边框,如果仍未找到候选文档边框,则将图像边界作为输出文档边框。
本公开通过利用待处理文档图像的边界线重新确定候选文档边框,以及利用所构建的矢量线段重新确定候选文档边框的方式,提高了输出文档边框的精准性,使得即便是在复杂场景下也能准确确定文档边框。
本公开所提供的确定文档边框的方法,可以准确地提取出不同类型场景下的文档边框,特别是复杂场景下,具有很好的适用性和强鲁棒性。
为了对比本方法与市场已有产品的方法,选取了多种类型的场景,对314张待处理文档图片进行对比分析,本方法中文档边框的提取准确率远远高出市场上同类已有产品。具体检测准确率对比结果请参见表1:
表1:与市场已有产品对比
竞品 准确/不准确数 准确率
市场已有产品1 182/132 57.9%
市场已有产品2 218/96 69.4%
本公开所提供的方法 279/35 88.8%
本公开的一个示例性的实施例中,提供了一种确定文档边框的装置。如图14所示,图14是根据一示例性实施例示出的一种确定文档边框的装置的框图。参照图14,该装置包括地第一获取模块100,第二获取模块101,提取模块102,确定模块103和输出模块103。
第一获取模块100,被配置为获取待处理文档图像;
第二获取模块101,通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
提取模块102,基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
确定模块103,基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
输出模块104,被配置为基于M个候选文档边框,确定输出文档边框。
其中,边缘检测模型预先通过以下步骤而进行训练:
获取已标注文档边缘信息的文档图像样本集;
对所述文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;
对于每个特征层分别确定带权重的损失函数,并基于所述损失函数优化所述边缘检测模型的模型参数,所述权重用于平衡所述文档图像样本集中的正负样本在所述损失函数中的约束效果;
生成边缘概率图。
输出模块被配置为:
当M>0时,所述基于所述M个候选文档边框,确定输出文档边框包括:
当M=1时,将所述候选文档边框作为输出文档边框;
当M>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
当M=0时,输出模块被配置为:
将待处理文档图像的四条边界线与所述N条边缘线段,形成N+4条边缘线段;
基于所述N+4条边缘线段,确定P个候选文档边框,P为大于等于1的正整数;
当P=1时,将所述候选文档边框作为输出文档边框;
当P>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
当P=0时,输出模块被配置为:
将所述N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点、终点;
将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将所述Q个矢量线段与所述N条边缘线段,形成N+Q条边缘线段,基于所述N+Q条边缘线段,确定O个候选文档边框,O为大于等于0的整数;
当O=1时,将所述候选文档边框作为输出文档边框;
当O>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框;
当O=0时,以待处理文档图像边界作为输出文本档边框。
确定模板被配置为:
确定所述N条边缘线段中任意两条边缘线段所在直线的有效交点;
以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
将全部所述封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
有效交点满足下列条件:
两条边缘线段所在直线的相交;
交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且延长线的长度均小于预设长度;
该两条边缘线段的长度差在预设范围内。
当两个有效交点距离小于预设距离时,将该两个有效交点合并为一个有效交点。
确定模板被配置为:
当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的拟合线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的拟合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
提取模块被配置为:
基于所述概率值对所述边缘概率图做二值化处理,得到边缘像素点;
由满足第一预设条件的边缘像素点构成边缘像素点集,在所述边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于所述初始边缘像素点确定初始直线段,在所述边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与所述初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段;
按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段。
提取模块被配置为:
基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到所述N条边缘线段。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图15是根据一示例性实施例示出的一种用于确定文本边框的装置1500的框图。例如,装置1500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图15,装置1500可以包括以下一个或多个组件:处理组件1502,存储器1504,电力组件1506,多媒体组件1508,音频组件1510,输入/输出(I/O)的接口1512,传感器组件1514,以及通信组件1516。
处理组件1502通常控制装置1500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1502可以包括一个或多个模块,便于处理组件1502和其他组件之间的交互。例如,处理组件1502可以包括多媒体模块,以方便多媒体组件1508和处理组件1502之间的交互。
存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1506为装置1500的各种组件提供电力。电力组件1506可以包括电源管理系统,一个或多个电源,及其他与为装置1500生成、管理和分配电力相关联的组件。
多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1510被配置为输出和/或输入音频信号。例如,音频组件1510包括一个麦克风(MIC),当装置1500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中,音频组件1510还包括一个扬声器,用于输出音频信号。
I/O接口1512为处理组件1502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1514包括一个或多个传感器,用于为装置1500提供各个方面的状态评估。例如,传感器组件1514可以检测到设备1500的打开/关闭状态,组件的相对定位,例如所述组件为装置1500的显示器和小键盘,传感器组件1514还可以检测装置1500或装置1500一个组件的位置改变,用户与装置1500接触的存在或不存在,装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1504,上述指令可由装置1500的处理器1520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种确定文档边框的方法,所述方法包括:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (24)

1.一种确定文档边框的方法,应用于电子设备,其特征在于,包括:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
2.根据权利要求1所述的确定文档边框的方法,其特征在于,所述边缘检测模型预先通过以下步骤而进行训练:
获取已标注文档边缘信息的文档图像样本集;
对所述文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;
对于每个特征层分别确定带权重的损失函数,并基于所述损失函数优化所述边缘检测模型的模型参数,所述权重用于平衡所述文档图像样本集中的正负样本在所述损失函数中的约束效果;
生成边缘概率图。
3.根据权利要求1所述的确定文档边框的方法,其特征在于,当M>0时,所述基于所述M个候选文档边框,确定输出文档边框包括:
当M=1时,将所述候选文档边框作为输出文档边框;
当M>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
4.根据权利要求1所述的确定文档边框的方法,其特征在于,当M=0时,所述基于所述M个候选文档边框,确定输出文档边框包括:
将待处理文档图像的四条边界线与所述N条边缘线段,形成N+4条边缘线段;
基于所述N+4条边缘线段,确定P个候选文档边框,P为大于等于1的正整数;
当P=1时,将所述候选文档边框作为输出文档边框;
当P>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
5.根据权利要求4所述的确定文档边框的方法,其特征在于,
当P=0时,所述确定文档边框的方法还包括:
将所述N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点、终点;
将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将所述Q个矢量线段与所述N条边缘线段,形成N+Q条边缘线段,基于所述N+Q条边缘线段,确定O个候选文档边框,O为大于等于0的整数;
当O=1时,将所述候选文档边框作为输出文档边框;
当O>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框;
当O=0时,以待处理文档图像边界作为输出文本档边框。
6.根据权利要求1所述的确定文档边框的方法,其特征在于,所述基于所述N条边缘线段,确定有效交点并确定M个候选文档边框包括:
确定所述N条边缘线段中任意两条边缘线段所在直线的有效交点;
以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
将全部所述封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
7.根据权利要求6所述的确定文档边框的方法,其特征在于,所述有效交点满足下列条件:
两条边缘线段所在直线相交;
所述交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且所述延长线的长度均小于预设长度;
该两条边缘线段的长度差在预设范围内。
8.根据权利要求6所述的确定文档边框的方法,其特征在于,当两个有效交点距离小于预设距离时,将该两个有效交点合并为一个有效交点。
9.根据权利要求6所述的确定文档边框的方法,其特征在于,还包括:
当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的拟合线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的拟合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
10.根据权利要求1所述的确定文档边框的方法,其特征在于,所述基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合N条边缘线段包括:
基于所述概率值对所述边缘概率图做二值化处理,得到边缘像素点;
由满足第一预设条件的边缘像素点构成边缘像素点集,在所述边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于所述初始边缘像素点确定初始直线段,在所述边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与所述初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段;
按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段。
11.根据权利要求10所述的确定文档边框的方法,其特征在于,所述按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段,包括:
基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到所述N条边缘线段。
12.一种确定文档边框的装置,应用于电子设备,其特征在于,包括:
第一获取模块,被配置为获取待处理文档图像;
第二获取模块,被配置为通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
提取模块,被配置为基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
确定模块,被配置为基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
输出模块,被配置为基于所述M个候选文档边框,确定输出文档边框。
13.根据权利要求12所述的确定文档边框的装置,其特征在于,所述边缘检测模型预先通过以下步骤而进行训练:
获取已标注文档边缘信息的文档图像样本集;
对所述文档图像样本集中的每一个文档图像样本进行特征提取,获得多个特征层;
对于每个特征层分别确定带权重的损失函数,并基于所述损失函数优化所述边缘检测模型的模型参数,所述权重用于平衡所述文档图像样本集中的正负样本在所述损失函数中的约束效果;
生成边缘概率图。
14.根据权利要求12所述的确定文档边框的装置,其特征在于,当M>0时,所述输出模块被配置为:
当M=1时,将所述候选文档边框作为输出文档边框;
当M>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
15.根据权利要求12所述的确定文档边框的装置,其特征在于,当M=0时,所述输出模块被配置为:
将待处理文档图像的四条边界线与所述N条边缘线段,形成N+4条边缘线段;
基于所述N+4条边缘线段,确定P个候选文档边框,P为大于等于1的正整数;
当P=1时,将所述候选文档边框作为输出文档边框;
当P>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框。
16.根据权利要求15所述的确定文档边框的装置,其特征在于,当P=0时,所述输出模块被配置为:
将所述N条边缘线段分为横向线段和竖向线段,并确定各横向线段和竖向线段的起点、终点;
将任意两条横向线段或任意两条竖向线段的起点和起点连接,终点和终点连接,构建Q个矢量线段,并将所述Q个矢量线段与所述N条边缘线段,形成N+Q条边缘线段,基于所述N+Q条边缘线段,确定O个候选文档边框,O为大于等于0的整数;
当O=1时,将所述候选文档边框作为输出文档边框;
当O>1时,基于所述候选文档边框所包括的所有边缘线段的长度和、所述候选文档边框的周长,计算所述候选文档边框的分值,将分值最高的候选文档边框作为输出文档边框;
当O=0时,以待处理文档图像边界作为输出文本档边框。
17.根据权利要求12所述的确定文档边框的装置,其特征在于,所述确定模块被配置为:
确定所述N条边缘线段中任意两条边缘线段所在直线的有效交点;
以每一有效交点为起点,确定由多个有效交点及其各自关联的边缘线段组成的封闭环;
将全部所述封闭环中满足凸四边形条件的封闭环,作为候选文档边框。
18.根据权利要求17所述的确定文档边框的装置,其特征在于,所述有效交点满足下列条件:
两条边缘线段所在直线相交;
所述交点位于该两条边缘线段上或位于该两条边缘线段的延长线上,且所述延长线的长度均小于预设长度;
该两条边缘线段的长度差在预设范围内。
19.根据权利要求17所述的确定文档边框的装置,其特征在于,当两个有效交点距离小于预设距离时,将该两个有效交点合并为一个有效交点。
20.根据权利要求17所述的确定文档边框的装置,其特征在于,所述确定模块被配置为:
当基于所述有效交点及其关联的边缘线段不能形成封闭环时,将与待处理文档图像的边界线相交的拟合线段从相交处延长,使其与另一条与待处理文档图像的边界线相交的拟合线段的延长线相交或者与待处理文档图像的边界线的延长线相交,并将相交后形成的封闭环确定为候选文档边框。
21.根据权利要求12所述的确定文档边框的装置,其特征在于,所述提取模块包括:
基于所述概率值对所述边缘概率图做二值化处理,得到边缘像素点;
由满足第一预设条件的边缘像素点构成边缘像素点集,在所述边缘像素点集中选出至少两个边缘像素点作为初始边缘像素点,以基于所述初始边缘像素点确定初始直线段,在所述边缘像素点集的剩余边缘像素点中选择满足第二预设条件的边缘像素点作为拟合边缘像素点,将所述拟合边缘像素点与所述初始直线段拟合,形成拟合线段,以此类推,得到多条拟合线段;
按照预设规则对所述多条拟合线段进行重拟合,得到N条边缘线段。
22.根据权利要求21所述的确定文档边框的装置,其特征在于,所述提取装置被配置为:
基于各个拟合线段的斜率差和各个拟合线段之间的垂直距离,进行重拟合,得到所述N条边缘线段。
23.一种确定文档边框的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
24.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种确定文档边框的方法,所述方法包括:
获取待处理文档图像;
通过边缘检测模型获取待处理文档图像的边缘概率图,所述边缘概率图标示出待处理文档图像的各个像素点作为待处理文档图像中的文档的边缘像素点的概率值;
基于所述概率值提取边缘像素点,并根据所提取的边缘像素点拟合出N条边缘线段,N为大于1的正整数;
基于所述N条边缘线段,确定任意两条边缘线段所在直线的有效交点,并基于所述有效交点及其关联的边缘线段,确定M个候选文档边框,其中,M为大于等于0的正整数;
基于所述M个候选文档边框,确定输出文档边框。
CN202010091545.3A 2020-02-13 2020-02-13 确定文档边框的方法、装置及介质 Active CN113255413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091545.3A CN113255413B (zh) 2020-02-13 2020-02-13 确定文档边框的方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091545.3A CN113255413B (zh) 2020-02-13 2020-02-13 确定文档边框的方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113255413A true CN113255413A (zh) 2021-08-13
CN113255413B CN113255413B (zh) 2024-04-05

Family

ID=77219919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091545.3A Active CN113255413B (zh) 2020-02-13 2020-02-13 确定文档边框的方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113255413B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156972A (zh) * 2011-04-19 2011-08-17 清华大学 图像倾斜纠正方法及系统
US20130094764A1 (en) * 2011-10-17 2013-04-18 Richard John Campbell Methods, Systems and Apparatus for Correcting Perspective Distortion in a Document Image
US20130121595A1 (en) * 2011-11-11 2013-05-16 Hirokazu Kawatani Image processing apparatus, rectangle detection method, and computer-readable, non-transitory medium
CN103400130A (zh) * 2013-07-22 2013-11-20 哈尔滨工业大学 基于能量最小化框架的文档图像倾斜度检测与纠正方法
US20150161473A1 (en) * 2013-12-09 2015-06-11 Fujitsu Limited Method and device for extracting distorted straight line from image
CN107343146A (zh) * 2012-01-17 2017-11-10 夏普株式会社 图像处理装置以及图像处理方法
CN108537237A (zh) * 2018-04-04 2018-09-14 深圳怡化电脑股份有限公司 票据的特征区域提取方法、装置、设备和存储介质
CN108665495A (zh) * 2017-03-30 2018-10-16 展讯通信(上海)有限公司 图像处理方法及装置、移动终端
CN110335280A (zh) * 2019-07-05 2019-10-15 湖南联信科技有限公司 一种基于移动端的金融单据图像分割与矫正方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156972A (zh) * 2011-04-19 2011-08-17 清华大学 图像倾斜纠正方法及系统
US20130094764A1 (en) * 2011-10-17 2013-04-18 Richard John Campbell Methods, Systems and Apparatus for Correcting Perspective Distortion in a Document Image
US20130121595A1 (en) * 2011-11-11 2013-05-16 Hirokazu Kawatani Image processing apparatus, rectangle detection method, and computer-readable, non-transitory medium
CN107343146A (zh) * 2012-01-17 2017-11-10 夏普株式会社 图像处理装置以及图像处理方法
CN103400130A (zh) * 2013-07-22 2013-11-20 哈尔滨工业大学 基于能量最小化框架的文档图像倾斜度检测与纠正方法
US20150161473A1 (en) * 2013-12-09 2015-06-11 Fujitsu Limited Method and device for extracting distorted straight line from image
CN108665495A (zh) * 2017-03-30 2018-10-16 展讯通信(上海)有限公司 图像处理方法及装置、移动终端
CN108537237A (zh) * 2018-04-04 2018-09-14 深圳怡化电脑股份有限公司 票据的特征区域提取方法、装置、设备和存储介质
CN110335280A (zh) * 2019-07-05 2019-10-15 湖南联信科技有限公司 一种基于移动端的金融单据图像分割与矫正方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANKUSH ROY ET AL.: "A Probabilistic Model for Reconstruction of Torn Forensic Documents", 《2013 12TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》, pages 494 - 498 *
徐文渊等,: "基于卷积神经网络的复杂档案图像倾斜校正方法研究", 《全国第三届"智能电网"会议论文集》, pages 294 - 300 *
焦安波等,: "一种改进的HED网络及其在边缘检测中的应用", 《红外技术》, vol. 41, no. 1, pages 4 - 5 *

Also Published As

Publication number Publication date
CN113255413B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN113538519B (zh) 目标追踪方法及装置、电子设备和存储介质
CN108010060B (zh) 目标检测方法及装置
CN109344832B (zh) 图像处理方法及装置、电子设备和存储介质
CN107944447B (zh) 图像分类方法及装置
CN107492115B (zh) 目标对象的检测方法及装置
US10007841B2 (en) Human face recognition method, apparatus and terminal
CN110009090B (zh) 神经网络训练与图像处理方法及装置
RU2664003C2 (ru) Способ и устройство для определения ассоциированного пользователя
US20210097278A1 (en) Method and apparatus for recognizing stacked objects, and storage medium
CN106557759B (zh) 一种标志牌信息获取方法及装置
CN105631803B (zh) 滤镜处理的方法和装置
CN107944367B (zh) 人脸关键点检测方法及装置
CN104268864B (zh) 卡片边缘提取方法和装置
CN109034150B (zh) 图像处理方法及装置
CN109635142B (zh) 图像选择方法及装置、电子设备和存储介质
CN107133354B (zh) 图像描述信息的获取方法及装置
CN110569835B (zh) 一种图像识别方法、装置和电子设备
CN104077597B (zh) 图像分类方法及装置
CN112219224B (zh) 图像处理方法及装置、电子设备和存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
CN108062547A (zh) 文字检测方法及装置
CN109145150A (zh) 目标匹配方法及装置、电子设备和存储介质
CN111062401A (zh) 堆叠物体的识别方法及装置、电子设备和存储介质
CN110674932A (zh) 一种二阶段卷积神经网络目标检测网络训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant