CN113298054A - 一种基于嵌入空间像素聚类的文本区域检测方法 - Google Patents

一种基于嵌入空间像素聚类的文本区域检测方法 Download PDF

Info

Publication number
CN113298054A
CN113298054A CN202110847077.2A CN202110847077A CN113298054A CN 113298054 A CN113298054 A CN 113298054A CN 202110847077 A CN202110847077 A CN 202110847077A CN 113298054 A CN113298054 A CN 113298054A
Authority
CN
China
Prior art keywords
prediction
pixel
region
text
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110847077.2A
Other languages
English (en)
Other versions
CN113298054B (zh
Inventor
李岩
李斌阳
范晓焓
舒言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Relations, University of
Original Assignee
International Relations, University of
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Relations, University of filed Critical International Relations, University of
Priority to CN202110847077.2A priority Critical patent/CN113298054B/zh
Publication of CN113298054A publication Critical patent/CN113298054A/zh
Application granted granted Critical
Publication of CN113298054B publication Critical patent/CN113298054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于嵌入空间像素聚类的文本区域检测方法,解决了现有技术中对不规则文本区域的检测结果不准确的问题。该方法包括获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,待识别文本图像包括至少一个第一不规则文本区域;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图,对第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,得到待识别文本图像中文本区域位置。实现了对不规则文本区域的准确检测,提高了检测准确率。

Description

一种基于嵌入空间像素聚类的文本区域检测方法
技术领域
本发明涉及文本检测技术领域,尤其涉及一种基于嵌入空间像素聚类的文本区域检测方法。
背景技术
近年来,随着文本检测技术的不断发展,场景文本检测的性能也在提升,文本区域检测的出发点在于把有意义的文本实例尽可能地合并,按照不同检测方法可分为基于组件、基于分割和基于回归的文本区域检测,由于文本检测的结果是有意义的文本实例,有利于识别端提取更加丰富的文本信息,并且其广泛存在于中英文地点和标识中,有很大的应用前景。
但由于场景文字的多样性,任意形状文本区域检测也面临更大的挑战。现有的文本区域检测技术对于印刷版面的文本区域检测准确率较高,但在场景文本检测中仍存在如下缺陷:(1)一种是基于目标检测的方法,使用四边形来框出文本区,实现比较简单,但对于倾斜或者弯曲文本检测不准确;另一种是基于图像分割的方法,像素级地检测文本,对弯曲文本的检测更加准确,但置信度难以确定,对十分接近的两行文本可能检测为一行;而以往的文本检测大多是针对四边形文本实例,直接用四边形框出文本区域,在检测曲线文本时存在缺陷,效果并不理想。(2)使用传统的分割方式,在文字区域中间被障碍物隔开的情况下,不能很好地确定一个文本行,当间隔超出一定距离时,属于同一个文本行的字符会被划分到两个文本区域。
基于上述分析,急需寻求一种文本区域检测方法,用于提高不规则文本区域检测的准确性。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于嵌入空间像素聚类的文本区域检测方法,用以解决现有针对不规则文本区域的检测结果不准确的问题。
一方面,本发明实施例提供了基于嵌入空间像素聚类的文本区域检测方法,该方法包括:
获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
进一步,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,所述得到第一嵌入空间的第一像素聚类预测图,包括:
基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
进一步,所述得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图,包括:
将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
进一步,所述得到第一聚类中心,包括:
判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
进一步,所述基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置,包括:
基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
进一步,所述方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图;通过下述方法获得训练好的文本检测模型:
将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
进一步,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,所述基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图,包括:
将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
进一步,所述训练过程中的误差值包括形状空间的误差值以及嵌入空间的误差值,所述计算训练过程中的误差值,包括:
根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
进一步,所述获得训练过程中形状空间的误差值,包括:
根据下述公式计算训练过程中形状空间的误差值:
Figure 397839DEST_PATH_IMAGE001
Figure 314979DEST_PATH_IMAGE002
Figure 94716DEST_PATH_IMAGE003
Figure 365292DEST_PATH_IMAGE004
Figure 179664DEST_PATH_IMAGE005
其中,
Figure 877493DEST_PATH_IMAGE006
表示形状空间的损失函数;
Figure 144526DEST_PATH_IMAGE007
表示第二原尺寸文本区域预测图对应 的损失函数,
Figure 343426DEST_PATH_IMAGE008
表示第二原尺寸文本区域预测图中第
Figure 887671DEST_PATH_IMAGE009
个像素的像素值,
Figure 881035DEST_PATH_IMAGE010
表示原尺寸文本区域真值图中第
Figure 635364DEST_PATH_IMAGE009
个像素的像素值;
Figure 247742DEST_PATH_IMAGE011
表示第二中心线区域预测图对 应的损失函数,
Figure 771128DEST_PATH_IMAGE012
表示第二中心线区域预测图中第
Figure 200972DEST_PATH_IMAGE009
个像素的像素值,
Figure 317964DEST_PATH_IMAGE013
表示中心线区域真值图中第
Figure 593087DEST_PATH_IMAGE009
个像素的像素值;
Figure 111924DEST_PATH_IMAGE014
表示第二核区域预测图对应的损失 函数,
Figure 447091DEST_PATH_IMAGE015
表示第二核区域预测图中第
Figure 176012DEST_PATH_IMAGE009
个像素的像素值,
Figure 254827DEST_PATH_IMAGE016
表示核区域真值 图中第
Figure 628170DEST_PATH_IMAGE009
个像素的像素值;
Figure 399817DEST_PATH_IMAGE017
表示第二高度预测图对应的损失函数,
Figure 225822DEST_PATH_IMAGE018
表示第二高度 预测图中第
Figure 108327DEST_PATH_IMAGE009
个像素的高度值,
Figure 460811DEST_PATH_IMAGE019
表示高度真值图中第
Figure 200097DEST_PATH_IMAGE009
个像素的高度值,
Figure 638032DEST_PATH_IMAGE020
为第二高 度预测图中所有像素点的集合,
Figure 58649DEST_PATH_IMAGE021
为第二高度预测图中的像素数量;
Figure 508651DEST_PATH_IMAGE022
表示第二角度预 测图对应的损失函数,
Figure 622100DEST_PATH_IMAGE023
表示第二角度预测图中第
Figure 547331DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 647005DEST_PATH_IMAGE024
表示角度 真值图中第
Figure 708502DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 992853DEST_PATH_IMAGE025
为平衡因子,取值为1。
进一步,所述获得训练过程中嵌入空间的误差值,包括:
根据下述公式计算训练过程中嵌入空间的误差值:
Figure 280746DEST_PATH_IMAGE026
Figure 308745DEST_PATH_IMAGE027
Figure 365694DEST_PATH_IMAGE028
其中,
Figure 555366DEST_PATH_IMAGE029
表示嵌入空间的损失函数,
Figure 455189DEST_PATH_IMAGE030
表示第二像素聚类预测图中的第二聚类 中心的数量,
Figure 818038DEST_PATH_IMAGE031
表示第二像素聚类预测图中第
Figure 119706DEST_PATH_IMAGE032
个第二聚类中心,
Figure 480280DEST_PATH_IMAGE033
表示第二像素聚 类预测图中第
Figure 821394DEST_PATH_IMAGE034
个第二聚类中心;
Figure 191195DEST_PATH_IMAGE035
表示第二像素聚类预测图中不同 第二聚类中心之间的平均嵌入距离对应的损失函数,
Figure 81791DEST_PATH_IMAGE036
表示第二像素聚类预测图中 第
Figure 754212DEST_PATH_IMAGE037
个第二聚类中心的平均嵌入距离,
Figure 363048DEST_PATH_IMAGE038
表示第二像素聚类预测图中第
Figure 536540DEST_PATH_IMAGE039
个第二 聚类中心的平均嵌入距离,
Figure 343959DEST_PATH_IMAGE040
为超参数,代表第二嵌入空间的不同第二聚类中心之间的第 三预设距离;
Figure 311915DEST_PATH_IMAGE041
表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的平均嵌入距 离对应的损失函数,
Figure 408047DEST_PATH_IMAGE042
表示与第
Figure 73646DEST_PATH_IMAGE043
个第二聚类中心对应的第二聚类像素中第
Figure 938834DEST_PATH_IMAGE044
个聚类像素对应的嵌入距离,
Figure 77691DEST_PATH_IMAGE045
表示第二聚类像素与与其对应的第二聚类中心之间的第四 预设距离。
与现有技术相比,本发明至少可实现如下有益效果:
本申请通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;基于第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;基于优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置的技术方案。即,本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图,对第一中心线区域预测图进行优化,得到准确性较高的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域,降低了文本区域检测的难度,提高了检测准确率,具有良好的鲁棒性和使用价值。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本申请实施例中一种基于嵌入空间像素聚类的文本区域检测方法流程示意图;
图2为本申请实施例中对待识别文本图像进行文本区域检测的过程示意图;
图3为本申请实施例中初始文本检测模型结构以及具体参数示意图;
图4为本申请实施例中利用训练数据集对初始文本检测模型训练的过程示意图;
图5为本申请实施例中局部框的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种基于嵌入空间像素聚类的文本区域检测方法,方法流程示意图如图1所示,该方法包括:
步骤S10:获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
步骤S20:基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
步骤S30:基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
步骤S40:基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
与现有技术相比,本实施例提供的基于嵌入空间像素聚类的文本区域检测方法,通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;基于第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;基于优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置的技术方案。即,本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图,对第一中心线区域预测图进行优化,得到准确性较高的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域,降低了文本区域检测的难度,提高了检测准确率,具有良好的鲁棒性和使用价值。
在一个具体的实施例中,第一不规则文本区域为不规则文本行;可选地,该不规则文本行包括至少一个单词。
进一步的,该方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图。
在一个具体的实施例中,请参见图3以及图4,通过下述步骤,获得训练好的文本检测模型:
步骤S01:将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
步骤S02:基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
步骤S03:利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
步骤S04:利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
具体的,请参见图3,步骤S01中的初始文本检测模型基于全卷积网络构建,基础网 络框架参数如图3所示。提取图像的卷积神经网络主要使用ResNet34网络模型。具体地,即 采用残差网络结构连接每个卷积层,如此可以防止由于网络层数加深产生的梯度消失问 题。同时,在得到ResNet34不同卷积阶段的输出特征图后,该基础网络框架使用特征金字塔 FPN模型将不同的特征图进行特征融合。具体地,通过对具有高语义内容的特征图进行上采 样进行特征对齐,并将相邻卷积阶段的特征图沿通道维度进行拼接融合,最终可得到融合 特征图输出。特征图共128个通道,宽
Figure 457857DEST_PATH_IMAGE046
和高
Figure 707572DEST_PATH_IMAGE047
的尺寸与原文本图像相同,通过卷积核大小 为1的卷积层输出9个通道的特征图,其中5个通道用于形成形状空间的第二原尺寸文本区 域预测图
Figure 692846DEST_PATH_IMAGE048
、第二中心线区域预测图
Figure 2605DEST_PATH_IMAGE049
、第二核区域预测图
Figure 27324DEST_PATH_IMAGE050
、第二高度预测 图
Figure 80730DEST_PATH_IMAGE051
以及第二角度预测图
Figure 920510DEST_PATH_IMAGE052
,另外4个通道用于构建嵌入空间。进一步,形状空间是 指基于文本图像对应的文本区域位置标注信息,在原始像素坐标系的基础上,得到每一个 像素在坐标系的位置信息,该原始像素坐标系为文本图像中的像素坐标系;将形状空间的 像素通过映射关系映射到一个四维空间,该四维空间即为嵌入空间,该四维空间通过初始 文本检测模型输出的4个通道构建。
在一个具体的实施例中,第二不规则文本区域为不规则文本行;可选地,该不规则文本行包括至少一个单词。
在一个具体的实施例中,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,步骤S02包括:
步骤S021:将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
步骤S022:将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
具体的,通过初始文本检测模型构建的第二嵌入空间,将第二核区域预测图中的文本核区域嵌入至第二嵌入空间形成第二聚类中心,第二聚类中心的数量与第二核区域预测图中文本核区域的数量相等。进一步地,计算第二核区域预测图中任一个文本核区域中的像素映射至第二嵌入空间的嵌入距离,结合该文本核区域的像素数目,得到该文本核区域对应的平均嵌入距离,参见公式(9),在第二嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的第二聚类中心,与形状空间的该文本核区域的质心对应,若存在多个文本核区域则可以得到多个第二聚类中心。进一步的,将第二中心线预测图中的文本中心线区域中的像素聚类到与其对应的已经形成在第二嵌入空间中的第二聚类中心周围,形成该第二聚类中心周围的第二聚类像素。
在一个具体的实施例中,步骤S03包括:
步骤S031:根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
步骤S032:根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
具体的,步骤S031中获得原尺寸文本区域真值图、中心线区域真值图、核区域真值图、高度真值图以及角度真值图的过程如下:
根据训练数据集中的文本图像以及与文本图像对应的文本区域位置标注信息,填充文本区域对应的闭合区域的像素值为1,背景区域的像素值为0,若存在多个文本区域时,可以将不同文本区域对应的闭合区域的像素填充为不同的像素值,同一闭合区域对应同一像素值,从而得到文本图像对应的原尺寸文本区域真值图。
根据文本图像对应的文本区域位置标注信息,首先确定文本区域的顶边和底边, 将顶边和底边的长度取平均值除以步长,得到顶点和底点的对数,结合顶边和底边的长度, 在顶边上找到一系列顶点
Figure 276536DEST_PATH_IMAGE053
,在底边上找到一系列底点
Figure 568977DEST_PATH_IMAGE054
,每对顶点和底点之间连线的高度集合为
Figure 426075DEST_PATH_IMAGE055
,每对顶点和底点的中点形 成中心线,将中心线上下分别扩展
Figure 120362DEST_PATH_IMAGE056
,即得到中心线区域真值图。 例如:找到第一对顶点
Figure 568660DEST_PATH_IMAGE057
和底点
Figure 613977DEST_PATH_IMAGE058
之间的连线的中点,以该中点为基准上下分别扩展
Figure 9186DEST_PATH_IMAGE059
,其它各对顶点和底点之间的连线的中点均上下分别扩展与其对应的连线高度的 0.1倍,并填充中心线扩展之后的文本中心线区域的像素值为1,背景区域的像素值为0,若 存在多个文本中心线区域时,可以将不同文本中心线区域对应的闭合区域的像素值填充为 不同的像素值,同一闭合区域对应同一像素值,从而得到文本图像对应的中心线区域真值 图。可选地,步长为4。
根据中心线区域真值图,将中心线区域真值图中的文本中心线区域的两端分别缩 进
Figure 511974DEST_PATH_IMAGE060
以及
Figure 600016DEST_PATH_IMAGE061
,并且将中心线区域真值图上下分别扩展
Figure 867049DEST_PATH_IMAGE062
的距离,从而得到 文本对应的核区域真值图。核区域真值图的存在,可以保证不同的文本中心线区域在形状 空间上有一定的空白空间不会粘连,而且减小了中心线区域预测图训练的难度。
请参见图5,每对顶点和底点之间的连线都对应一个局部框,每个局部框都包括与 其对应的连线的中点的坐标
Figure 862687DEST_PATH_IMAGE063
,该连线的高度
Figure 265986DEST_PATH_IMAGE047
,该局部框的宽度
Figure 524929DEST_PATH_IMAGE046
,该局部框的排 列方向
Figure 154625DEST_PATH_IMAGE064
,其中,
Figure 891637DEST_PATH_IMAGE065
;进而对中心线区域真值图中与各个局部框对应的位置的 像素填充高度
Figure 415022DEST_PATH_IMAGE047
,形成高度真值图;对中心线区域真值图中与各个局部框对应的位置的像 素填充角度信息
Figure 798861DEST_PATH_IMAGE064
,形成角度真值图。
在一个具体的实施例中,步骤S031包括:
根据公式(1)至公式(5),计算训练过程中形状空间的误差值:
Figure 774907DEST_PATH_IMAGE001
(1)
Figure 315610DEST_PATH_IMAGE002
(2)
Figure 959081DEST_PATH_IMAGE003
(3)
Figure 90985DEST_PATH_IMAGE004
(4)
Figure 819907DEST_PATH_IMAGE005
(5)
其中,
Figure 898721DEST_PATH_IMAGE006
表示形状空间的损失函数;
Figure 350693DEST_PATH_IMAGE007
表示第二原尺寸文本区域预测图对 应的损失函数,
Figure 856761DEST_PATH_IMAGE008
表示第二原尺寸文本区域预测图中第
Figure 72979DEST_PATH_IMAGE009
个像素的像素值,
Figure 752222DEST_PATH_IMAGE010
表示原尺寸文本区域真值图中第
Figure 104706DEST_PATH_IMAGE009
个像素的像素值;
Figure 47254DEST_PATH_IMAGE011
表示第二中心线区 域预测图对应的损失函数,
Figure 360555DEST_PATH_IMAGE012
表示第二中心线区域预测图中第
Figure 781172DEST_PATH_IMAGE009
个像素的像素值,
Figure 253741DEST_PATH_IMAGE013
表示中心线区域真值图中第
Figure 101611DEST_PATH_IMAGE009
个像素的像素值;
Figure 980837DEST_PATH_IMAGE014
表示第二核区域预测图对 应的损失函数,
Figure 205145DEST_PATH_IMAGE015
表示第二核区域预测图中第
Figure 532221DEST_PATH_IMAGE009
个像素的像素值,
Figure 613310DEST_PATH_IMAGE016
表 示核区域真值图中第
Figure 25836DEST_PATH_IMAGE009
个像素的像素值;
Figure 788256DEST_PATH_IMAGE017
表示第二高度预测图对应的损失函数,
Figure 969839DEST_PATH_IMAGE018
表 示第二高度预测图中第
Figure 300457DEST_PATH_IMAGE009
个像素的高度值,
Figure 200280DEST_PATH_IMAGE019
表示高度真值图中第
Figure 766390DEST_PATH_IMAGE009
个像素的高度值,
Figure 677846DEST_PATH_IMAGE020
为第二高度预测图中所有像素点的集合,
Figure 303999DEST_PATH_IMAGE021
为第二高度预测图中的像素数量;
Figure 691118DEST_PATH_IMAGE022
表 示第二角度预测图对应的损失函数,
Figure 795340DEST_PATH_IMAGE023
表示第二角度预测图中第
Figure 826881DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 623936DEST_PATH_IMAGE066
表示角度真值图中第
Figure 232772DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 360259DEST_PATH_IMAGE025
为平衡因子,取值为1,
Figure 370940DEST_PATH_IMAGE067
表 示
Figure 338896DEST_PATH_IMAGE068
损失函数。
在一个具体的实施例中,步骤S032包括:
根据公式(6)至公式(8),计算训练过程中嵌入空间的误差值:
Figure 435028DEST_PATH_IMAGE069
(6)
Figure 677791DEST_PATH_IMAGE070
(7)
Figure 808558DEST_PATH_IMAGE028
(8)
其中,
Figure 947415DEST_PATH_IMAGE029
表示嵌入空间的损失函数,
Figure 406210DEST_PATH_IMAGE030
表示第二像素聚类预测图中的第二聚类 中心的数量,
Figure 655925DEST_PATH_IMAGE031
表示第二像素聚类预测图中第
Figure 641199DEST_PATH_IMAGE032
个第二聚类中心,
Figure 950957DEST_PATH_IMAGE033
表示第二像素聚 类预测图中第
Figure 897048DEST_PATH_IMAGE034
个第二聚类中心;
Figure 950454DEST_PATH_IMAGE035
表示第二像素聚类预测图中不同 第二聚类中心之间的平均嵌入距离对应的损失函数,
Figure 790235DEST_PATH_IMAGE036
表示第二像素聚类预测图 中第
Figure 146261DEST_PATH_IMAGE037
个第二聚类中心的平均嵌入距离,
Figure 438702DEST_PATH_IMAGE038
表示第二像素聚类预测图中第
Figure 295799DEST_PATH_IMAGE039
个第 二聚类中心的平均嵌入距离,
Figure 990086DEST_PATH_IMAGE040
为超参数,代表第二嵌入空间的不同第二聚类中心之间的 第三预设距离;
Figure 517013DEST_PATH_IMAGE041
表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的平均嵌 入距离对应的损失函数,
Figure 562330DEST_PATH_IMAGE042
表示与第
Figure 957539DEST_PATH_IMAGE043
个第二聚类中心对应的第二聚类像素中第
Figure 358261DEST_PATH_IMAGE044
个聚类像素对应的嵌入距离,
Figure 446302DEST_PATH_IMAGE045
表示第二聚类像素与与其对应的第二聚类中心之间 的第四预设距离,
Figure 713336DEST_PATH_IMAGE071
表示求
Figure 522023DEST_PATH_IMAGE042
Figure 190901DEST_PATH_IMAGE072
之间的第二范式。
具体的,根据公式(9)计算核区域的平均嵌入距离:
Figure 449844DEST_PATH_IMAGE073
(9)
其中,
Figure 813961DEST_PATH_IMAGE074
为第二核区域预测图中第
Figure 816552DEST_PATH_IMAGE075
个核区域中第
Figure 339937DEST_PATH_IMAGE076
个像素的嵌入距离,
Figure 379568DEST_PATH_IMAGE077
表示第二核区域预测图中第
Figure 621194DEST_PATH_IMAGE043
个核区域的像素数量。
不同第二聚类中心的嵌入距离尽可能远,为此,构建损失函数
Figure 161897DEST_PATH_IMAGE035
来实现这个规则,表达式如公式(7)所示。形状空间的第二核区域预测图中的文本核区域聚 类到嵌入空间中形成第二聚类中心的过程中,不同的文本核区域形成的聚类中心的嵌入距 离尽可能接近本申请中设置的不同第二聚类中心之间的第三预设距离
Figure 539788DEST_PATH_IMAGE040
,可选地,
Figure 15900DEST_PATH_IMAGE040
取值 为3。
为了防止在形状空间的相邻的文本中心线区域出现粘连的情况,将文本中心线区 域的像素聚类到对应的文本核区域形成的第二聚类中心周围,即让文本中心线区域的像素 嵌入距离与对应的第二聚类中心的平均嵌入距离近一些,通过构建损失函数
Figure 479243DEST_PATH_IMAGE041
来实现 这个规则,表达式如公式(8)所示。可选地,
Figure 823636DEST_PATH_IMAGE045
的取值为0.5。
在一个具体的实施例中,嵌入空间的损失函数
Figure 196980DEST_PATH_IMAGE078
满足公式(10):
Figure 703048DEST_PATH_IMAGE079
(10)
其中,
Figure 919265DEST_PATH_IMAGE080
表示第二像素聚类预测图中同一第二聚类中心周围的第二聚类 像素靠近原点的损失函数,其中
Figure 677137DEST_PATH_IMAGE081
Figure 29621DEST_PATH_IMAGE082
为平衡因子,可选 地,
Figure 706590DEST_PATH_IMAGE082
的取值为0.001。
具体的,为了第二像素聚类预测图中对应同一第二聚类中心的像素距离嵌入空间 的原点更近一些,同时为嵌入空间的训练增加正则化约束,通过构建
Figure 144524DEST_PATH_IMAGE080
损失函数来 实现这个规则。
在一个具体的实施例中,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,步骤S20包括:
步骤S21:基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
进一步,步骤S21包括步骤S211以及步骤S212:
步骤S211:将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
步骤S212:将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
具体的,请参见图2,将待识别文本图像输入训练好的文本检测模型后,得到第一 原尺寸文本区域预测图
Figure 706087DEST_PATH_IMAGE083
、第一中心线区域预测图
Figure 913077DEST_PATH_IMAGE084
、第一核区域预测 图
Figure 26527DEST_PATH_IMAGE085
;将
Figure 827124DEST_PATH_IMAGE084
中的每一像素点对应的像素值与
Figure 51432DEST_PATH_IMAGE083
中对应的像素 点的像素值做与运算,当两者之一有一个像素值为0时,
Figure 378508DEST_PATH_IMAGE084
中对应的像素点的像 素值为0,通过此方式可以对
Figure 538225DEST_PATH_IMAGE084
进行去噪,得到去噪后的第一中心线区域预测图
Figure 685172DEST_PATH_IMAGE086
;将
Figure 713171DEST_PATH_IMAGE087
中的每一像素点对应的像素值与
Figure 770120DEST_PATH_IMAGE083
中对应的像素 点的像素值做与运算,当两者之一有一个像素值为0时,
Figure 225372DEST_PATH_IMAGE087
中对应的像素点的像 素值为0,通过此方式可以对
Figure 125195DEST_PATH_IMAGE088
进行去噪,得到去噪后的第一核区域预测图
Figure 691306DEST_PATH_IMAGE089
进一步的,在步骤S211之前该方法还包括:
基于第一像素阈值,对第一原尺寸文本区域预测图进行去噪;基于第二像素阈值,对第一中心线区域预测图进行初步去噪,对第一核区域预测图进行初步去噪;
将初步去噪后的第一中心线区域预测图、初步去噪后的第一核区域预测图分别与去噪后的第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图以及第一核区域预测图。
具体的,第一像素阈值为0.8,第二像素阈值为0.4;基于第一像素阈值,对第一原尺寸文本区域预测图进行去噪是指将第一原尺寸文本区域预测图中像素值小于0.8的像素点的像素值设置为0;基于第二像素阈值,对第一中心线区域预测图进行初步去噪,对第一核区域预测图进行初步去噪是指将第一中心线区域预测图与第一核区域预测图中像素值小于0.4的像素点的像素值设置为0。
通过上述去噪方法,可以滤除大部分背景噪音的影响,进一步提高检测结果的准确性。
步骤S22:将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
具体的,计算去噪后的第一核区域预测图中的任一个文本核区域中的像素映射至第一嵌入空间的嵌入距离,结合该文本核区域的像素数目,得到该文本核区域对应的平均嵌入距离,参见公式(9),在第一嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的初始聚类中心,与形状空间的该文本核区域的质心对应,若存在多个文本核区域则可以得到多个初始聚类中心。
步骤S23:判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
具体的,请参照图2,将
Figure 602761DEST_PATH_IMAGE090
的文本核区域在所述第一嵌入空间中形成初始 聚类中心,得到第一嵌入空间中初始聚类中心的示意图
Figure 228914DEST_PATH_IMAGE091
,结合第一预设距 离,对初始聚类中心进行进一步分类,得到第一嵌入空间中第一聚类中心的示意图
Figure 350454DEST_PATH_IMAGE092
进一步,步骤S23包括步骤S231以及步骤S232:
步骤S231:判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
步骤S232:若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
具体的,任一个文本核区域的嵌入距离的计算过程请参见公式(9),第一预设距离取值为0.25,具有相同标签的初始聚类中心为同一第一聚类中心,请参见图2,相同的灰度表示相同标签。
步骤S24:遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
具体的,在将第一中心线区域预测图中的文本中心线区域中的像素映射至第一嵌入空间之前要进行进一步筛选,并不是把第一中心线区域预测图中的文本中心线区域中所有的像素都映射至第一嵌入空间形成第一聚类像素,而是要在映射至第一嵌入空间之前进行筛选;文本中心线区域中的每个像素在第一嵌入空间都存在对应的聚类像素,计算该聚类像素到与其对应的第一聚类中心的嵌入距离,如果该嵌入距离小于第二预设距离,则将该像素映射至第一嵌入空间形成聚类像素;若嵌入距离大于第二预设距离,则该像素不会映射至第一嵌入空间,遍历第一中心线区域预测图中的文本中心线区域中的每个像素,根据上述规则,便可得到满足映射至第一嵌入空间的文本中心线区域中的像素集,进而将这些像素级映射至第一嵌入空间形成第一聚类像素;基于此,在第一中心线区域预测图中的文本中心线区域中的像素映射至第一欺辱空间形成第一聚类像素的过程中,对第一中心线区域预测图中的文本中心线区域中的像素进行了进一步的筛选,为后续得到相对准确的第一中心线区域预测图(即,优化第一中心线区域预测图)做准备,提高了后续检测的准确性。可选地,第二预设距离的取值为0.3。
具体的,请继续参见图2,将
Figure 595622DEST_PATH_IMAGE086
中符合上述要求的像素映射至第一嵌 入空间形成第一聚类像素,得到第一嵌入空间的第一聚类中心与第一聚类像素的示意图
Figure 751797DEST_PATH_IMAGE093
在一个具体的实施例中,步骤S30包括:将第一像素聚类预测图中的第一聚类像素映射至形状空间,得到形状空间的优化后的第一中心线区域预测图。
具体的,第一中心线区域预测图中的文本中心线区域映射至嵌入空间,形成第一聚类像素的过程中已经对文本中心线区域中的像素进行了筛选,筛选后形成聚类在第一聚类中心周围的第一聚类像素,再将第一聚类像素映射至形状空间,即得到形状空间的优化后的第一中心线区域预测图。
请参加图2,将第一聚类像素映射回形状空间,得到优化后的第一中心线区域预测 图
Figure 548851DEST_PATH_IMAGE094
在一个具体的实施例中,步骤S40包括步骤S41以及步骤S42:
步骤S41:基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
步骤S42:将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
具体的,第一高度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的高度;第一角度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的排布角度的正切值。因此在得到优化第一中心线区域预测图的基础上,该图中的每个像素点都对应一个高度以及角度的正切值,可得知第一中心线区域预测图中某些像素点对应同一个高度以及角度的正切值,这些像素点对应一个局部框,进而得到优化中心线区域预测图中的文本中心线区域对应的多个局部框;按顺序连接所有局部框的顶边的中点和底边的中点,得到的封闭图形为待识别文本图像中文本区域位置。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于嵌入空间像素聚类的文本区域检测方法,其特征在于,包括以下步骤:
获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
2.根据权利要求1所述的方法,其特征在于,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,所述得到第一嵌入空间的第一像素聚类预测图,包括:
基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
3.根据权利要求2所述的方法,其特征在于,所述得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图,包括:
将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
4.根据权利要求2所述的方法,其特征在于,所述得到第一聚类中心,包括:
判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
5.根据权利要求1所述的方法,其特征在于,所述基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置,包括:
基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图;通过下述方法获得训练好的文本检测模型:
将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
7.根据权利要求6所述的方法,其特征在于,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,所述基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图,包括:
将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
8.根据权利要求7所述的方法,其特征在于,所述训练过程中的误差值包括形状空间的误差值以及嵌入空间的误差值,所述计算训练过程中的误差值,包括:
根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
9.根据权利要求8所述的方法,其特征在于,所述获得训练过程中形状空间的误差值,包括:
根据下述公式计算训练过程中形状空间的误差值:
Figure 221698DEST_PATH_IMAGE001
Figure 129611DEST_PATH_IMAGE002
Figure 140292DEST_PATH_IMAGE003
Figure 249194DEST_PATH_IMAGE004
Figure 345326DEST_PATH_IMAGE005
其中,
Figure 56930DEST_PATH_IMAGE006
表示形状空间的损失函数;
Figure 797484DEST_PATH_IMAGE007
表示第二原尺寸文本区域预测图对应的 损失函数,
Figure 936341DEST_PATH_IMAGE008
表示第二原尺寸文本区域预测图中第
Figure 254190DEST_PATH_IMAGE009
个像素的像素值,
Figure 644851DEST_PATH_IMAGE010
表示原尺寸文本区域真值图中第
Figure 630125DEST_PATH_IMAGE009
个像素的像素值;
Figure 939883DEST_PATH_IMAGE011
表示第二中心线区域预测图对 应的损失函数,
Figure 885974DEST_PATH_IMAGE012
表示第二中心线区域预测图中第
Figure 939380DEST_PATH_IMAGE009
个像素的像素值,
Figure 779160DEST_PATH_IMAGE013
表 示中心线区域真值图中第
Figure 869607DEST_PATH_IMAGE009
个像素的像素值;
Figure 427628DEST_PATH_IMAGE014
表示第二核区域预测图对应的损失函 数,
Figure 19146DEST_PATH_IMAGE015
表示第二核区域预测图中第
Figure 979012DEST_PATH_IMAGE009
个像素的像素值,
Figure 771518DEST_PATH_IMAGE016
表示核区域真值 图中第
Figure 551256DEST_PATH_IMAGE009
个像素的像素值;
Figure 946465DEST_PATH_IMAGE017
表示第二高度预测图对应的损失函数,
Figure 636203DEST_PATH_IMAGE018
表示第二高度 预测图中第
Figure 458666DEST_PATH_IMAGE009
个像素的高度值,
Figure 725699DEST_PATH_IMAGE019
表示高度真值图中第
Figure 924599DEST_PATH_IMAGE009
个像素的高度值,
Figure 203265DEST_PATH_IMAGE020
为第二高 度预测图中所有像素点的集合,
Figure 196629DEST_PATH_IMAGE021
为第二高度预测图中的像素数量;
Figure 950958DEST_PATH_IMAGE022
表示第二角度预 测图对应的损失函数,
Figure 94495DEST_PATH_IMAGE023
表示第二角度预测图中第
Figure 617880DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 782145DEST_PATH_IMAGE024
表示角度 真值图中第
Figure 23770DEST_PATH_IMAGE009
个像素对应的角度值,
Figure 174260DEST_PATH_IMAGE025
为平衡因子,取值为1。
10.根据权利要求8所述的方法,其特征在于,所述获得训练过程中嵌入空间的误差值,包括:
根据下述公式计算训练过程中嵌入空间的误差值:
Figure 552152DEST_PATH_IMAGE026
Figure 152897DEST_PATH_IMAGE027
Figure 757185DEST_PATH_IMAGE028
其中,
Figure 101579DEST_PATH_IMAGE029
表示嵌入空间的损失函数,
Figure 333977DEST_PATH_IMAGE030
表示第二像素聚类预测图中的第二聚类中心 的数量,
Figure 105624DEST_PATH_IMAGE031
表示第二像素聚类预测图中第
Figure 931629DEST_PATH_IMAGE032
个第二聚类中心,
Figure 814134DEST_PATH_IMAGE033
表示第二像素聚类 预测图中第
Figure 166618DEST_PATH_IMAGE034
个第二聚类中心;
Figure 718953DEST_PATH_IMAGE035
表示第二像素聚类预测图中不 同第二聚类中心之间的平均嵌入距离对应的损失函数,
Figure 156888DEST_PATH_IMAGE036
表示第二像素聚类预测 图中第
Figure 843084DEST_PATH_IMAGE037
个第二聚类中心的平均嵌入距离,
Figure 191020DEST_PATH_IMAGE038
表示第二像素聚类预测图中第
Figure 304469DEST_PATH_IMAGE039
个第二聚类中心的平均嵌入距离,
Figure 229700DEST_PATH_IMAGE040
为超参数,代表第二嵌入空间的不同第二聚类中心之 间的第三预设距离;
Figure 329374DEST_PATH_IMAGE041
表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的 平均嵌入距离对应的损失函数,
Figure 656450DEST_PATH_IMAGE042
表示与第
Figure 675222DEST_PATH_IMAGE043
个第二聚类中心对应的第二聚类 像素中第
Figure 87749DEST_PATH_IMAGE044
个聚类像素对应的嵌入距离,
Figure 827051DEST_PATH_IMAGE045
表示第二聚类像素与与其对应的第二聚类中 心之间的第四预设距离。
CN202110847077.2A 2021-07-27 2021-07-27 一种基于嵌入空间像素聚类的文本区域检测方法 Active CN113298054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110847077.2A CN113298054B (zh) 2021-07-27 2021-07-27 一种基于嵌入空间像素聚类的文本区域检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110847077.2A CN113298054B (zh) 2021-07-27 2021-07-27 一种基于嵌入空间像素聚类的文本区域检测方法

Publications (2)

Publication Number Publication Date
CN113298054A true CN113298054A (zh) 2021-08-24
CN113298054B CN113298054B (zh) 2021-10-08

Family

ID=77331043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110847077.2A Active CN113298054B (zh) 2021-07-27 2021-07-27 一种基于嵌入空间像素聚类的文本区域检测方法

Country Status (1)

Country Link
CN (1) CN113298054B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276461A (zh) * 2008-03-07 2008-10-01 北京航空航天大学 一种利用边缘特征的视频文本增强方法
CN105354571A (zh) * 2015-10-23 2016-02-24 中国科学院自动化研究所 基于曲线投影的畸变文本图像基线估计方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN109409374A (zh) * 2018-10-11 2019-03-01 东莞市七宝树教育科技有限公司 一种基于联合的同批次试卷答案区域切割方法
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111079632A (zh) * 2019-12-12 2020-04-28 上海眼控科技股份有限公司 文本检测模型的训练方法、装置、计算机设备和存储介质
CN111652217A (zh) * 2020-06-03 2020-09-11 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112818986A (zh) * 2021-01-28 2021-05-18 深圳点猫科技有限公司 基于深度关系推理的文本检测方法、装置、系统及介质
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276461A (zh) * 2008-03-07 2008-10-01 北京航空航天大学 一种利用边缘特征的视频文本增强方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105354571A (zh) * 2015-10-23 2016-02-24 中国科学院自动化研究所 基于曲线投影的畸变文本图像基线估计方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN109409374A (zh) * 2018-10-11 2019-03-01 东莞市七宝树教育科技有限公司 一种基于联合的同批次试卷答案区域切割方法
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111079632A (zh) * 2019-12-12 2020-04-28 上海眼控科技股份有限公司 文本检测模型的训练方法、装置、计算机设备和存储介质
CN111652217A (zh) * 2020-06-03 2020-09-11 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112818986A (zh) * 2021-01-28 2021-05-18 深圳点猫科技有限公司 基于深度关系推理的文本检测方法、装置、系统及介质
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MENGTING XING等: "《Boundary-aware Arbitrary-shaped Scene Text Detector with Learnable Embedding Network》", 《JOURNAL OF LATEX CLASS FILES》 *
ZHUOTAO TIAN等: "《Learning Shape-Aware Embedding for Scene Text Detection》", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
付慧等: "《用于文本区域提取的边缘像素聚类方法》", 《计算机辅助设计与图形学学报》 *
王润民等: "《自然场景图像中的文本检测综述》", 《自动化学报》 *

Also Published As

Publication number Publication date
CN113298054B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN107424159B (zh) 基于超像素边缘和全卷积网络的图像语义分割方法
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN111191566B (zh) 基于像素分类的光学遥感图像多目标检测方法
US11430134B2 (en) Hardware-based optical flow acceleration
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN111461114A (zh) 一种基于分割的多尺度特征金字塔文本检测方法
CN113505792B (zh) 面向非均衡遥感图像的多尺度语义分割方法及模型
CN112434586B (zh) 一种基于域自适应学习的多复杂场景目标检测方法
CN113920107A (zh) 一种基于改进yolov5算法的绝缘子破损检测方法
CN112016463A (zh) 一种基于深度学习的车道线检测方法
CN112801183A (zh) 一种基于YOLO v3的多尺度目标检测方法
CN110223310B (zh) 一种基于深度学习的线结构光中心线和箱体边缘检测方法
CN111191649A (zh) 一种识别弯曲多行文本图像的方法与设备
CN112200117A (zh) 表格识别方法及装置
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN111626295A (zh) 车牌检测模型的训练方法和装置
CN114677596A (zh) 一种基于注意力模型的遥感图像船舶检测方法和装置
CN112560852A (zh) 基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN110765963A (zh) 车辆制动检测方法、装置、设备及计算机可读存储介质
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant