CN113298054A - 一种基于嵌入空间像素聚类的文本区域检测方法 - Google Patents
一种基于嵌入空间像素聚类的文本区域检测方法 Download PDFInfo
- Publication number
- CN113298054A CN113298054A CN202110847077.2A CN202110847077A CN113298054A CN 113298054 A CN113298054 A CN 113298054A CN 202110847077 A CN202110847077 A CN 202110847077A CN 113298054 A CN113298054 A CN 113298054A
- Authority
- CN
- China
- Prior art keywords
- prediction
- pixel
- region
- text
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于嵌入空间像素聚类的文本区域检测方法,解决了现有技术中对不规则文本区域的检测结果不准确的问题。该方法包括获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,待识别文本图像包括至少一个第一不规则文本区域;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图,对第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,得到待识别文本图像中文本区域位置。实现了对不规则文本区域的准确检测,提高了检测准确率。
Description
技术领域
本发明涉及文本检测技术领域,尤其涉及一种基于嵌入空间像素聚类的文本区域检测方法。
背景技术
近年来,随着文本检测技术的不断发展,场景文本检测的性能也在提升,文本区域检测的出发点在于把有意义的文本实例尽可能地合并,按照不同检测方法可分为基于组件、基于分割和基于回归的文本区域检测,由于文本检测的结果是有意义的文本实例,有利于识别端提取更加丰富的文本信息,并且其广泛存在于中英文地点和标识中,有很大的应用前景。
但由于场景文字的多样性,任意形状文本区域检测也面临更大的挑战。现有的文本区域检测技术对于印刷版面的文本区域检测准确率较高,但在场景文本检测中仍存在如下缺陷:(1)一种是基于目标检测的方法,使用四边形来框出文本区,实现比较简单,但对于倾斜或者弯曲文本检测不准确;另一种是基于图像分割的方法,像素级地检测文本,对弯曲文本的检测更加准确,但置信度难以确定,对十分接近的两行文本可能检测为一行;而以往的文本检测大多是针对四边形文本实例,直接用四边形框出文本区域,在检测曲线文本时存在缺陷,效果并不理想。(2)使用传统的分割方式,在文字区域中间被障碍物隔开的情况下,不能很好地确定一个文本行,当间隔超出一定距离时,属于同一个文本行的字符会被划分到两个文本区域。
基于上述分析,急需寻求一种文本区域检测方法,用于提高不规则文本区域检测的准确性。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于嵌入空间像素聚类的文本区域检测方法,用以解决现有针对不规则文本区域的检测结果不准确的问题。
一方面,本发明实施例提供了基于嵌入空间像素聚类的文本区域检测方法,该方法包括:
获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
进一步,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,所述得到第一嵌入空间的第一像素聚类预测图,包括:
基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
进一步,所述得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图,包括:
将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
进一步,所述得到第一聚类中心,包括:
判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
进一步,所述基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置,包括:
基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
进一步,所述方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图;通过下述方法获得训练好的文本检测模型:
将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
进一步,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,所述基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图,包括:
将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
进一步,所述训练过程中的误差值包括形状空间的误差值以及嵌入空间的误差值,所述计算训练过程中的误差值,包括:
根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
进一步,所述获得训练过程中形状空间的误差值,包括:
根据下述公式计算训练过程中形状空间的误差值:
其中, 表示形状空间的损失函数; 表示第二原尺寸文本区域预测图对应
的损失函数, 表示第二原尺寸文本区域预测图中第个像素的像素值,
表示原尺寸文本区域真值图中第个像素的像素值; 表示第二中心线区域预测图对
应的损失函数, 表示第二中心线区域预测图中第个像素的像素值,
表示中心线区域真值图中第个像素的像素值;表示第二核区域预测图对应的损失
函数, 表示第二核区域预测图中第个像素的像素值, 表示核区域真值
图中第个像素的像素值; 表示第二高度预测图对应的损失函数,表示第二高度
预测图中第个像素的高度值, 表示高度真值图中第个像素的高度值,为第二高
度预测图中所有像素点的集合,为第二高度预测图中的像素数量;表示第二角度预
测图对应的损失函数,表示第二角度预测图中第个像素对应的角度值,表示角度
真值图中第个像素对应的角度值,为平衡因子,取值为1。
进一步,所述获得训练过程中嵌入空间的误差值,包括:
根据下述公式计算训练过程中嵌入空间的误差值:
其中,表示嵌入空间的损失函数,表示第二像素聚类预测图中的第二聚类
中心的数量,表示第二像素聚类预测图中第个第二聚类中心,表示第二像素聚
类预测图中第个第二聚类中心; 表示第二像素聚类预测图中不同
第二聚类中心之间的平均嵌入距离对应的损失函数, 表示第二像素聚类预测图中
第个第二聚类中心的平均嵌入距离,表示第二像素聚类预测图中第个第二
聚类中心的平均嵌入距离,为超参数,代表第二嵌入空间的不同第二聚类中心之间的第
三预设距离;表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的平均嵌入距
离对应的损失函数, 表示与第个第二聚类中心对应的第二聚类像素中第
个聚类像素对应的嵌入距离,表示第二聚类像素与与其对应的第二聚类中心之间的第四
预设距离。
与现有技术相比,本发明至少可实现如下有益效果:
本申请通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;基于第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;基于优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置的技术方案。即,本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图,对第一中心线区域预测图进行优化,得到准确性较高的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域,降低了文本区域检测的难度,提高了检测准确率,具有良好的鲁棒性和使用价值。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本申请实施例中一种基于嵌入空间像素聚类的文本区域检测方法流程示意图;
图2为本申请实施例中对待识别文本图像进行文本区域检测的过程示意图;
图3为本申请实施例中初始文本检测模型结构以及具体参数示意图;
图4为本申请实施例中利用训练数据集对初始文本检测模型训练的过程示意图;
图5为本申请实施例中局部框的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种基于嵌入空间像素聚类的文本区域检测方法,方法流程示意图如图1所示,该方法包括:
步骤S10:获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
步骤S20:基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
步骤S30:基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
步骤S40:基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
与现有技术相比,本实施例提供的基于嵌入空间像素聚类的文本区域检测方法,通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图;基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;基于第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;基于优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置的技术方案。即,本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图,对第一中心线区域预测图进行优化,得到准确性较高的优化第一中心线区域预测图,结合第一高度预测图以及第一角度预测图,完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域,降低了文本区域检测的难度,提高了检测准确率,具有良好的鲁棒性和使用价值。
在一个具体的实施例中,第一不规则文本区域为不规则文本行;可选地,该不规则文本行包括至少一个单词。
进一步的,该方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图。
在一个具体的实施例中,请参见图3以及图4,通过下述步骤,获得训练好的文本检测模型:
步骤S01:将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
步骤S02:基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
步骤S03:利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
步骤S04:利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
具体的,请参见图3,步骤S01中的初始文本检测模型基于全卷积网络构建,基础网
络框架参数如图3所示。提取图像的卷积神经网络主要使用ResNet34网络模型。具体地,即
采用残差网络结构连接每个卷积层,如此可以防止由于网络层数加深产生的梯度消失问
题。同时,在得到ResNet34不同卷积阶段的输出特征图后,该基础网络框架使用特征金字塔
FPN模型将不同的特征图进行特征融合。具体地,通过对具有高语义内容的特征图进行上采
样进行特征对齐,并将相邻卷积阶段的特征图沿通道维度进行拼接融合,最终可得到融合
特征图输出。特征图共128个通道,宽和高的尺寸与原文本图像相同,通过卷积核大小
为1的卷积层输出9个通道的特征图,其中5个通道用于形成形状空间的第二原尺寸文本区
域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测
图以及第二角度预测图,另外4个通道用于构建嵌入空间。进一步,形状空间是
指基于文本图像对应的文本区域位置标注信息,在原始像素坐标系的基础上,得到每一个
像素在坐标系的位置信息,该原始像素坐标系为文本图像中的像素坐标系;将形状空间的
像素通过映射关系映射到一个四维空间,该四维空间即为嵌入空间,该四维空间通过初始
文本检测模型输出的4个通道构建。
在一个具体的实施例中,第二不规则文本区域为不规则文本行;可选地,该不规则文本行包括至少一个单词。
在一个具体的实施例中,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,步骤S02包括:
步骤S021:将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
步骤S022:将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
具体的,通过初始文本检测模型构建的第二嵌入空间,将第二核区域预测图中的文本核区域嵌入至第二嵌入空间形成第二聚类中心,第二聚类中心的数量与第二核区域预测图中文本核区域的数量相等。进一步地,计算第二核区域预测图中任一个文本核区域中的像素映射至第二嵌入空间的嵌入距离,结合该文本核区域的像素数目,得到该文本核区域对应的平均嵌入距离,参见公式(9),在第二嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的第二聚类中心,与形状空间的该文本核区域的质心对应,若存在多个文本核区域则可以得到多个第二聚类中心。进一步的,将第二中心线预测图中的文本中心线区域中的像素聚类到与其对应的已经形成在第二嵌入空间中的第二聚类中心周围,形成该第二聚类中心周围的第二聚类像素。
在一个具体的实施例中,步骤S03包括:
步骤S031:根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
步骤S032:根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
具体的,步骤S031中获得原尺寸文本区域真值图、中心线区域真值图、核区域真值图、高度真值图以及角度真值图的过程如下:
根据训练数据集中的文本图像以及与文本图像对应的文本区域位置标注信息,填充文本区域对应的闭合区域的像素值为1,背景区域的像素值为0,若存在多个文本区域时,可以将不同文本区域对应的闭合区域的像素填充为不同的像素值,同一闭合区域对应同一像素值,从而得到文本图像对应的原尺寸文本区域真值图。
根据文本图像对应的文本区域位置标注信息,首先确定文本区域的顶边和底边,
将顶边和底边的长度取平均值除以步长,得到顶点和底点的对数,结合顶边和底边的长度,
在顶边上找到一系列顶点,在底边上找到一系列底点
,每对顶点和底点之间连线的高度集合为,每对顶点和底点的中点形
成中心线,将中心线上下分别扩展,即得到中心线区域真值图。
例如:找到第一对顶点和底点之间的连线的中点,以该中点为基准上下分别扩展,其它各对顶点和底点之间的连线的中点均上下分别扩展与其对应的连线高度的
0.1倍,并填充中心线扩展之后的文本中心线区域的像素值为1,背景区域的像素值为0,若
存在多个文本中心线区域时,可以将不同文本中心线区域对应的闭合区域的像素值填充为
不同的像素值,同一闭合区域对应同一像素值,从而得到文本图像对应的中心线区域真值
图。可选地,步长为4。
根据中心线区域真值图,将中心线区域真值图中的文本中心线区域的两端分别缩
进以及,并且将中心线区域真值图上下分别扩展的距离,从而得到
文本对应的核区域真值图。核区域真值图的存在,可以保证不同的文本中心线区域在形状
空间上有一定的空白空间不会粘连,而且减小了中心线区域预测图训练的难度。
请参见图5,每对顶点和底点之间的连线都对应一个局部框,每个局部框都包括与
其对应的连线的中点的坐标,该连线的高度,该局部框的宽度,该局部框的排
列方向,其中,;进而对中心线区域真值图中与各个局部框对应的位置的
像素填充高度,形成高度真值图;对中心线区域真值图中与各个局部框对应的位置的像
素填充角度信息,形成角度真值图。
在一个具体的实施例中,步骤S031包括:
根据公式(1)至公式(5),计算训练过程中形状空间的误差值:
其中, 表示形状空间的损失函数; 表示第二原尺寸文本区域预测图对
应的损失函数, 表示第二原尺寸文本区域预测图中第个像素的像素值, 表示原尺寸文本区域真值图中第个像素的像素值; 表示第二中心线区
域预测图对应的损失函数, 表示第二中心线区域预测图中第个像素的像素值, 表示中心线区域真值图中第个像素的像素值;表示第二核区域预测图对
应的损失函数, 表示第二核区域预测图中第个像素的像素值, 表
示核区域真值图中第个像素的像素值; 表示第二高度预测图对应的损失函数,表
示第二高度预测图中第个像素的高度值, 表示高度真值图中第个像素的高度值,为第二高度预测图中所有像素点的集合,为第二高度预测图中的像素数量;表
示第二角度预测图对应的损失函数,表示第二角度预测图中第个像素对应的角度值,表示角度真值图中第个像素对应的角度值,为平衡因子,取值为1,表
示损失函数。
在一个具体的实施例中,步骤S032包括:
根据公式(6)至公式(8),计算训练过程中嵌入空间的误差值:
其中,表示嵌入空间的损失函数,表示第二像素聚类预测图中的第二聚类
中心的数量,表示第二像素聚类预测图中第个第二聚类中心,表示第二像素聚
类预测图中第个第二聚类中心; 表示第二像素聚类预测图中不同
第二聚类中心之间的平均嵌入距离对应的损失函数, 表示第二像素聚类预测图
中第个第二聚类中心的平均嵌入距离,表示第二像素聚类预测图中第个第
二聚类中心的平均嵌入距离,为超参数,代表第二嵌入空间的不同第二聚类中心之间的
第三预设距离;表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的平均嵌
入距离对应的损失函数, 表示与第个第二聚类中心对应的第二聚类像素中第个聚类像素对应的嵌入距离,表示第二聚类像素与与其对应的第二聚类中心之间
的第四预设距离,表示求与之间的第二范式。
具体的,根据公式(9)计算核区域的平均嵌入距离:
不同第二聚类中心的嵌入距离尽可能远,为此,构建损失函数
来实现这个规则,表达式如公式(7)所示。形状空间的第二核区域预测图中的文本核区域聚
类到嵌入空间中形成第二聚类中心的过程中,不同的文本核区域形成的聚类中心的嵌入距
离尽可能接近本申请中设置的不同第二聚类中心之间的第三预设距离,可选地,取值
为3。
为了防止在形状空间的相邻的文本中心线区域出现粘连的情况,将文本中心线区
域的像素聚类到对应的文本核区域形成的第二聚类中心周围,即让文本中心线区域的像素
嵌入距离与对应的第二聚类中心的平均嵌入距离近一些,通过构建损失函数来实现
这个规则,表达式如公式(8)所示。可选地,的取值为0.5。
在一个具体的实施例中,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,步骤S20包括:
步骤S21:基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
进一步,步骤S21包括步骤S211以及步骤S212:
步骤S211:将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
步骤S212:将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
具体的,请参见图2,将待识别文本图像输入训练好的文本检测模型后,得到第一
原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测
图;将中的每一像素点对应的像素值与中对应的像素
点的像素值做与运算,当两者之一有一个像素值为0时,中对应的像素点的像
素值为0,通过此方式可以对进行去噪,得到去噪后的第一中心线区域预测图;将中的每一像素点对应的像素值与中对应的像素
点的像素值做与运算,当两者之一有一个像素值为0时,中对应的像素点的像
素值为0,通过此方式可以对进行去噪,得到去噪后的第一核区域预测图。
进一步的,在步骤S211之前该方法还包括:
基于第一像素阈值,对第一原尺寸文本区域预测图进行去噪;基于第二像素阈值,对第一中心线区域预测图进行初步去噪,对第一核区域预测图进行初步去噪;
将初步去噪后的第一中心线区域预测图、初步去噪后的第一核区域预测图分别与去噪后的第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图以及第一核区域预测图。
具体的,第一像素阈值为0.8,第二像素阈值为0.4;基于第一像素阈值,对第一原尺寸文本区域预测图进行去噪是指将第一原尺寸文本区域预测图中像素值小于0.8的像素点的像素值设置为0;基于第二像素阈值,对第一中心线区域预测图进行初步去噪,对第一核区域预测图进行初步去噪是指将第一中心线区域预测图与第一核区域预测图中像素值小于0.4的像素点的像素值设置为0。
通过上述去噪方法,可以滤除大部分背景噪音的影响,进一步提高检测结果的准确性。
步骤S22:将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
具体的,计算去噪后的第一核区域预测图中的任一个文本核区域中的像素映射至第一嵌入空间的嵌入距离,结合该文本核区域的像素数目,得到该文本核区域对应的平均嵌入距离,参见公式(9),在第一嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的初始聚类中心,与形状空间的该文本核区域的质心对应,若存在多个文本核区域则可以得到多个初始聚类中心。
步骤S23:判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
具体的,请参照图2,将的文本核区域在所述第一嵌入空间中形成初始
聚类中心,得到第一嵌入空间中初始聚类中心的示意图,结合第一预设距
离,对初始聚类中心进行进一步分类,得到第一嵌入空间中第一聚类中心的示意图。
进一步,步骤S23包括步骤S231以及步骤S232:
步骤S231:判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
步骤S232:若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
具体的,任一个文本核区域的嵌入距离的计算过程请参见公式(9),第一预设距离取值为0.25,具有相同标签的初始聚类中心为同一第一聚类中心,请参见图2,相同的灰度表示相同标签。
步骤S24:遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
具体的,在将第一中心线区域预测图中的文本中心线区域中的像素映射至第一嵌入空间之前要进行进一步筛选,并不是把第一中心线区域预测图中的文本中心线区域中所有的像素都映射至第一嵌入空间形成第一聚类像素,而是要在映射至第一嵌入空间之前进行筛选;文本中心线区域中的每个像素在第一嵌入空间都存在对应的聚类像素,计算该聚类像素到与其对应的第一聚类中心的嵌入距离,如果该嵌入距离小于第二预设距离,则将该像素映射至第一嵌入空间形成聚类像素;若嵌入距离大于第二预设距离,则该像素不会映射至第一嵌入空间,遍历第一中心线区域预测图中的文本中心线区域中的每个像素,根据上述规则,便可得到满足映射至第一嵌入空间的文本中心线区域中的像素集,进而将这些像素级映射至第一嵌入空间形成第一聚类像素;基于此,在第一中心线区域预测图中的文本中心线区域中的像素映射至第一欺辱空间形成第一聚类像素的过程中,对第一中心线区域预测图中的文本中心线区域中的像素进行了进一步的筛选,为后续得到相对准确的第一中心线区域预测图(即,优化第一中心线区域预测图)做准备,提高了后续检测的准确性。可选地,第二预设距离的取值为0.3。
在一个具体的实施例中,步骤S30包括:将第一像素聚类预测图中的第一聚类像素映射至形状空间,得到形状空间的优化后的第一中心线区域预测图。
具体的,第一中心线区域预测图中的文本中心线区域映射至嵌入空间,形成第一聚类像素的过程中已经对文本中心线区域中的像素进行了筛选,筛选后形成聚类在第一聚类中心周围的第一聚类像素,再将第一聚类像素映射至形状空间,即得到形状空间的优化后的第一中心线区域预测图。
在一个具体的实施例中,步骤S40包括步骤S41以及步骤S42:
步骤S41:基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
步骤S42:将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
具体的,第一高度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的高度;第一角度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的排布角度的正切值。因此在得到优化第一中心线区域预测图的基础上,该图中的每个像素点都对应一个高度以及角度的正切值,可得知第一中心线区域预测图中某些像素点对应同一个高度以及角度的正切值,这些像素点对应一个局部框,进而得到优化中心线区域预测图中的文本中心线区域对应的多个局部框;按顺序连接所有局部框的顶边的中点和底边的中点,得到的封闭图形为待识别文本图像中文本区域位置。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于嵌入空间像素聚类的文本区域检测方法,其特征在于,包括以下步骤:
获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图,所述待识别文本图像包括至少一个第一不规则文本区域;
基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图,得到第一嵌入空间的第一像素聚类预测图;
基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化,得到形状空间的优化第一中心线区域预测图;
基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置。
2.根据权利要求1所述的方法,其特征在于,所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素,所述得到第一嵌入空间的第一像素聚类预测图,包括:
基于所述第一原尺寸文本区域预测图,对所述第一中心线区域预测图以及第一核区域预测图进行去噪,得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图;
将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心;
判断任意两个初始聚类中心之间的嵌入距离,结合初始聚类中心以及第一预设距离,得到第一聚类中心;
遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素,计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离,结合第二预设距离,得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。
3.根据权利要求2所述的方法,其特征在于,所述得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图,包括:
将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一中心线区域预测图;
将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算,得到去噪后的第一核区域预测图。
4.根据权利要求2所述的方法,其特征在于,所述得到第一聚类中心,包括:
判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离;
若小于,则将该两个初始聚类中心设定为相同的标签,标定为同一第一聚类中心。
5.根据权利要求1所述的方法,其特征在于,所述基于所述优化第一中心线区域预测图,结合所述第一高度预测图以及所述第一角度预测图,得到待识别文本图像中文本区域位置,包括:
基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度,得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框;
将所述局部框顶边的中点以及底边的中点顺序连接,得到待识别文本图像中文本区域位置。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法包括将待识别文本图像输入训练好的文本检测模型,获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图;通过下述方法获得训练好的文本检测模型:
将训练数据集输入初始文本检测模型,获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图,所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息,所述文本图像包括至少一个第二不规则文本区域;
基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图;
利用训练过程中的损失函数,根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图,计算训练过程中的误差值;
利用误差反向传播机制,根据训练过程中的误差值,获得训练好的文本检测模型。
7.根据权利要求6所述的方法,其特征在于,所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素,所述基于所述第二中心线区域预测图、第二核区域预测图,得到第二嵌入空间的第二像素聚类预测图,包括:
将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心;
将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围,形成第二聚类像素。
8.根据权利要求7所述的方法,其特征在于,所述训练过程中的误差值包括形状空间的误差值以及嵌入空间的误差值,所述计算训练过程中的误差值,包括:
根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值,获得训练过程中形状空间的误差值;
根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离,结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离,获得训练过程中嵌入空间的误差值。
9.根据权利要求8所述的方法,其特征在于,所述获得训练过程中形状空间的误差值,包括:
根据下述公式计算训练过程中形状空间的误差值:
其中, 表示形状空间的损失函数; 表示第二原尺寸文本区域预测图对应的
损失函数,表示第二原尺寸文本区域预测图中第个像素的像素值,
表示原尺寸文本区域真值图中第个像素的像素值; 表示第二中心线区域预测图对
应的损失函数,表示第二中心线区域预测图中第个像素的像素值, 表
示中心线区域真值图中第个像素的像素值;表示第二核区域预测图对应的损失函
数,表示第二核区域预测图中第个像素的像素值, 表示核区域真值
图中第个像素的像素值; 表示第二高度预测图对应的损失函数,表示第二高度
预测图中第个像素的高度值, 表示高度真值图中第个像素的高度值,为第二高
度预测图中所有像素点的集合,为第二高度预测图中的像素数量;表示第二角度预
测图对应的损失函数,表示第二角度预测图中第个像素对应的角度值,表示角度
真值图中第个像素对应的角度值,为平衡因子,取值为1。
10.根据权利要求8所述的方法,其特征在于,所述获得训练过程中嵌入空间的误差值,包括:
根据下述公式计算训练过程中嵌入空间的误差值:
其中,表示嵌入空间的损失函数,表示第二像素聚类预测图中的第二聚类中心
的数量,表示第二像素聚类预测图中第个第二聚类中心,表示第二像素聚类
预测图中第个第二聚类中心; 表示第二像素聚类预测图中不
同第二聚类中心之间的平均嵌入距离对应的损失函数,表示第二像素聚类预测
图中第个第二聚类中心的平均嵌入距离,表示第二像素聚类预测图中第
个第二聚类中心的平均嵌入距离,为超参数,代表第二嵌入空间的不同第二聚类中心之
间的第三预设距离;表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的
平均嵌入距离对应的损失函数,表示与第个第二聚类中心对应的第二聚类
像素中第个聚类像素对应的嵌入距离,表示第二聚类像素与与其对应的第二聚类中
心之间的第四预设距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847077.2A CN113298054B (zh) | 2021-07-27 | 2021-07-27 | 一种基于嵌入空间像素聚类的文本区域检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847077.2A CN113298054B (zh) | 2021-07-27 | 2021-07-27 | 一种基于嵌入空间像素聚类的文本区域检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298054A true CN113298054A (zh) | 2021-08-24 |
CN113298054B CN113298054B (zh) | 2021-10-08 |
Family
ID=77331043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110847077.2A Active CN113298054B (zh) | 2021-07-27 | 2021-07-27 | 一种基于嵌入空间像素聚类的文本区域检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298054B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276461A (zh) * | 2008-03-07 | 2008-10-01 | 北京航空航天大学 | 一种利用边缘特征的视频文本增强方法 |
CN105354571A (zh) * | 2015-10-23 | 2016-02-24 | 中国科学院自动化研究所 | 基于曲线投影的畸变文本图像基线估计方法 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
CN109409374A (zh) * | 2018-10-11 | 2019-03-01 | 东莞市七宝树教育科技有限公司 | 一种基于联合的同批次试卷答案区域切割方法 |
CN109886330A (zh) * | 2019-02-18 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、计算机可读存储介质和计算机设备 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112818986A (zh) * | 2021-01-28 | 2021-05-18 | 深圳点猫科技有限公司 | 基于深度关系推理的文本检测方法、装置、系统及介质 |
CN113065404A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 基于等宽文字片段的火车票内容检测方法与系统 |
-
2021
- 2021-07-27 CN CN202110847077.2A patent/CN113298054B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276461A (zh) * | 2008-03-07 | 2008-10-01 | 北京航空航天大学 | 一种利用边缘特征的视频文本增强方法 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
CN105354571A (zh) * | 2015-10-23 | 2016-02-24 | 中国科学院自动化研究所 | 基于曲线投影的畸变文本图像基线估计方法 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
CN109409374A (zh) * | 2018-10-11 | 2019-03-01 | 东莞市七宝树教育科技有限公司 | 一种基于联合的同批次试卷答案区域切割方法 |
CN109886330A (zh) * | 2019-02-18 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、计算机可读存储介质和计算机设备 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112818986A (zh) * | 2021-01-28 | 2021-05-18 | 深圳点猫科技有限公司 | 基于深度关系推理的文本检测方法、装置、系统及介质 |
CN113065404A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 基于等宽文字片段的火车票内容检测方法与系统 |
Non-Patent Citations (4)
Title |
---|
MENGTING XING等: "《Boundary-aware Arbitrary-shaped Scene Text Detector with Learnable Embedding Network》", 《JOURNAL OF LATEX CLASS FILES》 * |
ZHUOTAO TIAN等: "《Learning Shape-Aware Embedding for Scene Text Detection》", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
付慧等: "《用于文本区域提取的边缘像素聚类方法》", 《计算机辅助设计与图形学学报》 * |
王润民等: "《自然场景图像中的文本检测综述》", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113298054B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424159B (zh) | 基于超像素边缘和全卷积网络的图像语义分割方法 | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN111091105B (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN111652321B (zh) | 一种基于改进yolov3算法的海上船舶检测方法 | |
CN111191566B (zh) | 基于像素分类的光学遥感图像多目标检测方法 | |
US11430134B2 (en) | Hardware-based optical flow acceleration | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN111461114A (zh) | 一种基于分割的多尺度特征金字塔文本检测方法 | |
CN113505792B (zh) | 面向非均衡遥感图像的多尺度语义分割方法及模型 | |
CN112434586B (zh) | 一种基于域自适应学习的多复杂场景目标检测方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN112016463A (zh) | 一种基于深度学习的车道线检测方法 | |
CN112801183A (zh) | 一种基于YOLO v3的多尺度目标检测方法 | |
CN110223310B (zh) | 一种基于深度学习的线结构光中心线和箱体边缘检测方法 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN112200117A (zh) | 表格识别方法及装置 | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN111626295A (zh) | 车牌检测模型的训练方法和装置 | |
CN114677596A (zh) | 一种基于注意力模型的遥感图像船舶检测方法和装置 | |
CN112560852A (zh) | 基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
CN110765963A (zh) | 车辆制动检测方法、装置、设备及计算机可读存储介质 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |