CN112101324A - 多视角图像共存文字检测方法、设备及计算机存储介质 - Google Patents

多视角图像共存文字检测方法、设备及计算机存储介质 Download PDF

Info

Publication number
CN112101324A
CN112101324A CN202011291393.8A CN202011291393A CN112101324A CN 112101324 A CN112101324 A CN 112101324A CN 202011291393 A CN202011291393 A CN 202011291393A CN 112101324 A CN112101324 A CN 112101324A
Authority
CN
China
Prior art keywords
coexisting
characters
matrix
correlation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011291393.8A
Other languages
English (en)
Other versions
CN112101324B (zh
Inventor
操晓春
王川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202011291393.8A priority Critical patent/CN112101324B/zh
Publication of CN112101324A publication Critical patent/CN112101324A/zh
Application granted granted Critical
Publication of CN112101324B publication Critical patent/CN112101324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多视角图像共存文字检测方法、设备及计算机存储介质,该方法包括以下步骤:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对之间的视觉相似度关系;构建所述多视角图像集合中的任意图像对中共存文字的相关关系;对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解。本发明解决了多张大视角差异和环境变化图像中的共存文字检测问题,实现了多视角文字自然场景中共存文字的精准探测。

Description

多视角图像共存文字检测方法、设备及计算机存储介质
技术领域
本发明涉及场景文字检测,尤其涉及一种多视角图像共存文字检测方法。
背景技术
在自然场景中,文字的获取通常具有非常大的挑战,不仅要克服文字本身存在的难点,还要考虑自然环境来带的外部阻碍。在内部因素方面,文字拥有多变的视觉信息,例如不均匀笔画宽度,不同颜色,多变的字体形状和尺度。这些因素都可能为文字表达的学习带来苦难阻碍。在外部因素方面,文字通常对外部因素极其敏感,因此可能在文字特征的表达性和统一性上带来较大的干扰。详细来说,场景文字通常对多变的环境和混乱的背景非常敏感,并且对细微的环境条件变化例如尺度、方向、视角形变、低分辨率和不均匀光照等因素有非常直接的反应。所有这些因素都可能会导致文字有多变的外观表现从而可能带来场景文字检测的失败。为了克服以上困难,获得更好的文字检测结果,现阶段有很多的工作都致力于研究场景文字检测,尝试了基于字符的、基于区域的检测策略,通过考虑文字字符内部、之间或者文字区域内部的关系。但是,无论是基于局部连接的和基于区域关系的方法都建立在一个先验知识上,即场景中的文字通常是连续的有轻微变化。当面临较大的视角变化和形变时,这些方法很难获取正确的关系,因此无法正确检测文字的位置。此外,由于文字的外形特征差异很大,并且对环境因素非常敏感,仅仅考虑成对文字之间的视觉特征相似度可能无法发现相关的文字。
发明内容
有鉴于此,本申请提供一种多视角图像共存文字检测方法,解决了多张大视角差异和环境变化图像中的共存文字检测问题。
本申请实施例提供了一种多视角图像共存文字检测方法,所述方法包括:
对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;
构建所述多视角图像集合中的任意图像对中共存文字的相关关系;
对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;
基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解。
在一实施例中,所述提取预设数量个文字候选区域的集合,包括:
采用融合单击文字检测网络挖掘的深度非线性文字表达信息与基于笔画宽度变换提取的文字区域信息的方法,对多视角图像集合中的图像进行提取;
获得预设数量个文字候选区域的集合。
在一实施例中,所述提取任意图像对的所述文字候选区域之间的视觉相似度关系,包括:
计算任意图像对的所述文字候选区域之间的视觉特征相似矩阵
Figure 822994DEST_PATH_IMAGE001
根据所述
Figure 677818DEST_PATH_IMAGE001
组合生成所述视觉相似度矩阵Sv
在一实施例中,所述基于笔画宽度变换提取的文字区域信息,包括:
对所述图像提取基于笔画宽度变换的第一特征点;
将相邻的所述第一特征点聚合,生成所述文字区域;其中所述文字区域的长和宽不小于预设个数个像素点。
在一实施例中,所述构建所述多视角图像集合中的任意图像对中共存文字的相关关系,包括:
计算任意图像对之间的相关性矩阵Xij
根据所述Xij组合生成所述多视角图像集合的相关关系矩阵X;其中,Xij属于{0,1}qi*qj且为置换矩阵,且满足自相关性和对称性约束。
在一实施例中,所述对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系,包括:
构建所述任意图像对之间的基本矩阵Fij
构建所述任意图像对之间的几何一致性。
在一实施例中,所述构建所述任意图像对之间的基本矩阵Fij,包括:
基于尺度不变特征变换和基于笔画宽度变换对图像提取第二特征点;
计算图像对中所述第二特征点之间的尺度不变特征变换特征相似度;
采用随机抽样一致算法估计获得所述基本矩阵Fij
在一实施例中,所述构建所述任意图像对之间的几何一致性,包括:
根据预设条件筛选出所述文字候选区域的所述第二特征点;
根据所述第二特征点判断几何约束一致性。
在一实施例中,所述预设条件包括:
筛选出的第二特征点满足
Figure 457555DEST_PATH_IMAGE002
;其中Mi属于Rpi*qi为第二特征点到文字候选区域的映射矩阵,pi为特征点的数量,qi为文字候选区域的数量,X为相关性矩阵,1为全一向量。
在一实施例中,所述根据所述第二特征点判断几何约束一致性,包括:
将di排列组合形成与特征点集合Pi维度一致的矩阵Di=[dididi],则将筛选出的第二特征点表示为
Figure DEST_PATH_IMAGE003
,则通过最小化公式:
Figure 852764DEST_PATH_IMAGE004
保证特征点
Figure DEST_PATH_IMAGE005
有低基本矩阵响应;其中Pi为第一特征点和第二特征点的并集。
在一实施例中,所述基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解,包括:
将相关关系矩阵X的置换矩阵约束替换为双随机约束;
将相关关系矩阵X的秩约束替换为相关关系矩阵X的核范数;其中将0范数替换为1范数并将1范数替换为全一向量1和相关关系矩阵X的内积;
则求解方程为:
Figure 601890DEST_PATH_IMAGE006
在一实施例中,还包括:优化所述求解方程并求解。
在一实施例中,所述优化所述求解方程并求解,包括:
将相关关系矩阵X替换为两个矩阵A和B的乘积;其中,A、B属于RQ*r且r<Q;
引入新变量Yij替换掉Xij
Figure DEST_PATH_IMAGE007
替换掉最小相关关系矩阵的核范数||X||*
则求解方程优化为:
Figure 362036DEST_PATH_IMAGE008
通过交替更新X、A、B和Y求解优化后的方程。
为实现上述目的,还提供一种计算机可读存储介质,其上存储有多视角图像共存文字检测方法的程序,所述多视角图像共存文字检测方法的程序被处理器执行时实现上述任一所述的方法的步骤。
为实现上述目的,还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的多视角图像共存文字检测方法程序,所述处理器执行所述多视角图像共存文字检测方法的程序时实现上述任一所述的方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;其中预设数量个文字候选区域的集合提供了共存文字的位置信息,保证共存文字的位置的正确性。构建所述多视角图像集合中的任意图像对中共存文字的相关关系;为后续融合特征提供数据支持,使共存文字的精确探测成为可能。对所述多视角图像集合
中的任意图像对提取基于对极几何的几何关系;为后续融合特征提供数据支持,使共存文字的精确探测成为可能。基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解;融合相关关系和几何关系,保证共存文字的探测的精确性。解决了多张大视角差异和环境变化图像中的共存文字检测问题,实现了多视角文字自然场景中共存文字的精准探测。
附图说明
图1为本申请实施例中涉及的多视角图像共存文字检测方法的硬件架构示意图;
图2为本申请多视角图像共存文字检测方法的第一实施例;
图3为本申请多视角图像共存文字检测方法的第一实施例中步骤S110的具体步骤;
图4为本申请多视角图像共存文字检测方法的第一实施例中步骤S110的具体步骤;
图5为本申请多视角图像共存文字检测方法步骤 S111的具体步骤;
图6为本申请多视角图像共存文字检测方法的第一实施例中步骤S120的具体步骤;
图7为本申请多视角图像共存文字检测方法的第一实施例中步骤S130的具体步骤;
图8为本申请多视角图像共存文字检测方法中步骤S131的具体步骤;
图9为本申请多视角图像共存文字检测方法中步骤S132的具体步骤;
图10为本申请多视角图像共存文字检测方法的第一实施例中步骤S140的具体步骤;
图11为本申请多视角图像共存文字检测方法的第二实施例;
图12为本申请多视角图像共存文字检测方法的第二实施例中步骤S250的具体步骤;
图13为本申请多视角图像共存文字检测方法的第二实施例中优化求解过程中交替更新参数的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:本发明公开了一种多视角图像共存文字检测方法,该方法包括以下步骤:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;构建所述多视角图像集合中的任意图像对中共存文字的相关关系;对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解。本发明解决了多张大视角差异和环境变化图像中的共存文字检测问题,实现了多视角文字自然场景中共存文字的精准探测。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本申请涉及一种设备010包括如图1所示:至少一个处理器012、存储器011。
处理器012可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器
也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011,处理器012读取存储器011中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器011可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器或闪存。易失性存储器可以是随机存取存储器,其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器、动态随机存取存储器、同步动态随机存取存储器、双倍数据速率同步动态随机存取存储器、增强型同步动态随机存取存储器、同步连接动态随机存取存储器和直接内存总线随机存取存储器。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。
参照图2,图2为本申请多视角图像共存文字检测方法的第一实施例,所述方法包括:
步骤S110:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系。
多视角图像集合为{I1,I2,…,IN},由N张大视角差异和环境变化的图像组成。
文字候选区域的预设数量和多视角图像集合的元素个数相一致。
文字候选区域为从多视角图像中提取出来的具有文字信息的区域,是共存文字的位置信息。
视觉相似度关系可以是任意图像对的文字候选区域之间的视觉特征相似度之间的关系。
步骤S120:构建所述多视角图像集合中的任意图像对中共存文字的相关关系。
任意图像对可以是多视角图像集合中所有的图像对,任何两个不同的多视角图像都可以配对成图像对。
共存文字可以是任意图像对中共同存在的文字信息,利用任意图像对中共同存在的文字信息,构建上述文字信息的相关关系以便后续和几何关系的融合,为精确探测共存文字提供数据支持。
相关关系是任意图像对的共存文字之间的相关性。
步骤S130:对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系。
对极几何是视图几何理论的基础,对极几何(Epipolar Geometry)描述了同一场景两幅图像之间的视觉几何关系。对极几何实际上是“两幅图像之间的对极几何”,它是图像平面与以基线为轴的平面束的交的几何(这里的基线是指连接摄像机中心的直线)。
步骤S140:基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解。
为了求解相关关系,约束相关关系与视觉相似度关系必须具有一致性。
在上述实施例中存在的有益效果为:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;其中预设数量个文字候选区域的集合提供了共存文字的位置信息,保证共存文字的位置的正确性。构建所述多视角图像集合中的任意图像对中共存文字的相关关系;为后续融合特征提供数据支持,使共存文字的精确探
测成为可能。对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;为后续融合特征提供数据支持,使共存文字的精确探测成为可能。基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述
几何关系,生成求解方程并求解;融合相关关系和几何关系,保证共存文字的探测的精确性。解决了多张大视角差异和环境变化图像中的共存文字检测问题。在多视角文字自然场景中对共存文字进行协同检测,同时找到共存文字的位置信息和彼此之间的相互关系,实现共存文字的精准探测。
参照图3,图3为本申请多视角图像共存文字检测方法的第一实施例中步骤S110的具体步骤,所述提取预设数量个文字候选区域的集合,包括:
步骤S111:采用融合单击文字检测网络挖掘的深度非线性文字表达信息与基于笔画宽度变换提取的文字区域信息的方法,对多视角图像集合中的图像进行提取。
单击文字检测网络(The Single Shot Text Detection (SSTD))挖掘深度非线性文字表达。为了能够尽可能的涵盖图像中的所有文字,将SSTD网络中控制文字候选区域选择和过滤的得分阈值由原本的0.6减小到0.3。
基于笔画宽度变换(Stroke Width Transform (SWT))充分利用了文字的笔画特征,可以有效地检测出图像中文字的笔画边缘信息。
步骤S112:获得预设数量个文字候选区域的集合。
根据采用融合单击文字检测网络挖掘的深度非线性文字表达信息与基于笔画宽度变换提取的文字区域信息的方法,获得预设数量个文字候选区域的集合。文字候选区域的预设数量和多视角图像集合的元素个数相一致。
在上述实施例中提供了提取预设数量个文字候选区域的集合的具体实施步骤,保证共存文字的位置信息的正确性。
参照图4,图4为本申请多视角图像共存文字检测方法的第一实施例中步骤S110的具体步骤,所述提取任意图像对的所述文字候选区域之间的视觉相似度关系,包括:
步骤S111':计算任意图像对的所述文字候选区域之间的视觉特征相似矩阵
Figure 629069DEST_PATH_IMAGE001
视觉特征是在文字候选区域的位置上进一步提取的特征。
视觉特征相似矩阵可以是计算视觉特征相似关系所得的矩阵,也可以是计算其他关系所得的矩阵,在此不作限定。
步骤S112':根据所述
Figure 827969DEST_PATH_IMAGE001
组合生成所述视觉相似度矩阵Sv
根据视觉特征相似度矩阵组合生成视觉相似度矩阵。
在上述实施例中提供了提取任意图像对的所述文字候选区域之间的视觉相似度关系的具体实施步骤,可以在文字候选区域的位置上进一步提取视觉特征,并计算视觉特征的相似度以提取视觉相似度关系,为后续保证相关关系和视觉相似度关系的一致性时,提供数据支持。
参照图5,图5为本申请多视角图像共存文字检测方法步骤 S111的具体步骤,所述基于笔画宽度变换提取的文字区域信息,包括:
步骤S1111:对所述图像提取基于笔画宽度变换的第一特征点。
对多视角图像集合中的图像使用笔画宽度变换的方法提取特征点。
步骤S1112:将相邻的所述第一特征点聚合,生成所述文字区域;其中所述文字区域的长和宽不小于预设个数个像素点。
基于SWT的第一特征点得到的文字区域更倾向于捕获较小的区域,因此为了能够过滤掉图像中人类也无法辨别的小区域文字,将聚合所得到的区域的长和宽都限制在不小于10个像素点。也可以是其他个数个像素点,在此不作限定。
参照图6,图6为本申请多视角图像共存文字检测方法的第一实施例中步骤S120的具体步骤,所述构建所述多视角图像集合中的任意图像对中共存文字的相关关系,包括:
步骤S121:计算任意图像对之间的相关性矩阵Xij
步骤S122:根据所述Xij组合生成所述多视角图像集合的相关关系矩阵X;其中,Xij属于{0,1}qi*qj且为置换矩阵,且满足自相关性和对称性约束。
对于任意图像对I i I j ,用Xij来表达共存文字的检测和文字之间的相关关系。由于共存文字之间的相关性是必然是一对一的关系,因此,
Figure DEST_PATH_IMAGE009
是一个置换矩阵,满足Xij1=1,
Figure 434531DEST_PATH_IMAGE010
,其中1是全一向量。
除了置换矩阵约束之外,Xij要满足自相关性和对称性约束,即
Figure 427895DEST_PATH_IMAGE011
,Ii是图像I i 的单位矩阵。此外,由于Xij的每行中,只有一个元素可以被赋值为1,所以相关性矩阵是稀疏的。所有图像对之间的相关性矩阵Xij组合成X。
在上述实施例中,提供了构建所述多视角图像集合中的任意图像对共存文字的相关关系的具体实施步骤,保证了相关关系提取的正确性,也为后续进行共存文字的精准探测提供必要条件。
参照图7,图7为本申请多视角图像共存文字检测方法的第一实施例中步骤S130的具体步骤,所述对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系,包括:
步骤S131:构建所述任意图像对之间的基本矩阵Fij
通过对极几何一副图像上的点可以确定另外一幅图像上的一条直线,这种情况用基本矩阵来表示。
步骤S132:构建所述任意图像对之间的几何一致性。
几何一致性(geometric consistency)针对现有一致性改进方法中存在的缺陷,用行几何平均法和几何一致性指数分别作为确定权重的方法和一致性检验的标准,根据可能满意度原理,定义了一致可信度,作为判断矩阵一致性改进的标准。
在上述实施例中提供了对所述多视角图像集合中的任意图像对提供基于对极几何的几何关系的具体实施步骤,保证几何关系提取的正确性,也为后续进行共存文字的精准探测提供必要条件。
参照图8,图8为本申请多视角图像共存文字检测方法中步骤S131的具体
步骤,所述构建所述任意图像对之间的基本矩阵Fij,包括:
步骤S1311:基于尺度不变特征变换和基于笔画宽度变换对图像提取第二特征点。
基于尺度不变特征变换(Scale Invariant Feature Transform (SIFT)),SIFT是用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。
步骤S1312:计算图像对中所述第二特征点之间的尺度不变特征变换特征相似度。
对于图像对(I iI j)计算图像的第二特征点之间的SIFT特征相似度。
步骤S1313:采用随机抽样一致算法估计获得所述基本矩阵Fij
随机抽样一致算法(Random Sample Consensus method (RANSAC)),它采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。 RANSAC是一个非确定性算法,在某种意义上说,它会产生一个在一定概率下合理的结果,而更多次的迭代会使这一概率增加。
在上述实施例中,提供了构建所述任意图像对之间的基本矩阵Fij的具体实施步骤,保证了任意图像对之间的基本矩阵Fij的正确性,从而保证几何关系提取的正确性。
参照图9,图9为本申请多视角图像共存文字检测方法中步骤S132的具体步骤,所述构建所述任意图像对之间的几何一致性,包括:
步骤S1321:根据预设条件筛选出所述文字候选区域的所述第二特征点。
根据预设条件筛选出在相关关注区域内的第二特征点,作为衡量几何约束一致性的元素。
步骤S1322:根据所述第二特征点判断几何约束一致性。
在上述实施例中,提供了构建所述任意图像对之间的几何一致性的具体实施步骤,保证了几何一致性构建的正确性。
在其中一个实施例中,所述预设条件包括:
筛选出的第二特征点满足
Figure 119907DEST_PATH_IMAGE002
;其中Mi属于Rpi*qi为第二特征点到文字候选区域的映射矩阵,pi为特征点的数量,qi为文字候选区域的数量,X为相关性矩阵,1为全一向量。
在其中一个实施例中,所述根据所述第二特征点判断几何约束一致性,包括:
将di排列组合形成与特征点集合Pi维度一致的矩阵Di=[dididi],则将筛选出的第二特征点表示为
Figure 856919DEST_PATH_IMAGE003
,则通过最小化公式:
Figure 380304DEST_PATH_IMAGE004
——公式1
保证特征点
Figure 747832DEST_PATH_IMAGE005
有低基本矩阵响应;其中Pi为第一特征点和第二特征点的并集。
参照图10,图10为本申请多视角图像共存文字检测方法的第一实施例中步骤S140的具体步骤,所述结合所述相关关系与所述几何关系,基于使所述相关关系与所述几何关系保持一致性,生成求解方程并求解,包括:
步骤S141:将相关关系矩阵X的置换矩阵约束替换为双随机约束。
置换矩阵是一个方形二进制矩阵,它在每行和每列中只有一个1,而在其他地方则为0。
步骤S142:将相关关系矩阵X的秩约束替换为相关关系矩阵X的核范数;其中将0范数替换为1范数并将1范数替换为全一向量1和相关关系矩阵X的内积。
秩约束是对相关关系约束的一个条件。
范数是数学中一种基本的函数。常常被用来度量某个向量空间(或矩阵)中的向量的长度或大小。对于模型参数的范数,可以用来作为规则化函数。
核范数是矩阵奇异值的和,用于约束矩阵的低秩,对于稀疏性质的数据而言,其矩阵是低秩且会包含大量冗余信息,这些信息可被用于恢复数据和提取特征。
步骤S143:则求解方程为:
Figure 989457DEST_PATH_IMAGE006
—公式2
根据上述条件,构建出求解方程。
在上述实施例中,提供了结合所述相关关系与所述几何关系,基于使所述相关关系与所述几何关系保持一致性,生成求解方程并求解的具体实施步骤,保证求解方程构建的正确性,同时保证共存文字的精准探测。
参照图11,图11为本申请多视角图像共存文字检测方法的第二实施例,
步骤S210:对多视角图像集合中的图像提取预设数量个文字候选区域的集合。
步骤S220:构建所述多视角图像集合中的任意图像对中共存文字的相关关系。
步骤S230:对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系。
步骤S240:结合所述相关关系与所述几何关系,基于使所述相关关系与所述几何关系保持一致性,生成求解方程并求解。
步骤S250:优化所述求解方程并求解。
对所述求解方程进行优化。
与第一实施例相比,第二实施例包括步骤S210、步骤S220、步骤S230和步骤S240,以上步骤与第一实施例中相同,在此不再赘述。
在上述实施例中存在的有益效果:对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;其中预设数量个文字候选区域的集合提供了共存文字的位置信息,保证共存文字的位置的正确性。构建所述多视角图像集合中的任意图像对中共存文字的相关关系;为后续融合特征提供数据支持,使共存文字的精确探测成为可能。对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;为后续融合特征提供数据支持,使共存文字的精确探测成为可能。基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解;融合相关关系和几何关系,保证共存文字的探测的精确性。优化所述求解方程并求解,使求解结果更加的快捷和准确。解决了多张大视角差异和环境变化图像中的共存文字检测问题。在多视角文字自然场景中对共存文字进行协同检测,同时找到共存文字的位置信息和彼此之间的相互关系,实现共存文字的精准探测。
本申请能够在多视角图像集合中同时挖掘共存文字的位置信息和彼此之间的相互关系,共存文字的位置信息能够辅助相关关系的发现,而相关关系的
表达有利于共存文字位置信息的挖掘,实现多视角图像集合中的共存文字的协同检测。
参照图12,图12为本申请多视角图像共存文字检测方法的第二实施例中步骤S250的具体步骤,所述优化所述求解方程并求解,包括:
步骤S251:将相关关系矩阵X替换为两个矩阵A和B的乘积;其中,A、B属于RQ*r且r<Q。
步骤S252:引入新变量Yij替换掉Xij
步骤S253:将
Figure 264581DEST_PATH_IMAGE007
替换掉最小相关关系矩阵的核范数||X||*
步骤S254:则求解方程优化为:
Figure 908052DEST_PATH_IMAGE008
—公式3。
步骤S255:通过交替更新X、A、B和Y求解优化后的方程。
更新X、A、B和Y时,目标方程为:
Figure 180901DEST_PATH_IMAGE012
—公式4。
求解得到:
Figure 909823DEST_PATH_IMAGE013
,—公式5;
Figure 988637DEST_PATH_IMAGE014
,—公式6;
Figure 424298DEST_PATH_IMAGE015
,—公式7;
在每一个Yij更新中,本申请采用Hungarian算法,其构建的损失矩阵为:
Figure 195945DEST_PATH_IMAGE016
,—公式8;
其中G(Pi,Pj)是图像对(Ii,Ij)的几何响应,更新方式如图13所示。
在上述实施例中提供了优化所述求解方程并求解的具体实施步骤,保证优化求解方程和求解的正确性,从而保证共存文字探测的正确性。
本申请还提供一种计算机可读存储介质,其上存储有多视角图像共存文字检测方法的程序,所述多视角图像共存文字检测方法的程序被处理器执行时实现上述任一所述的方法的步骤。
本申请还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的多视角图像共存文字检测方法程序,所述处理器执行所述多视角图像共存文字检测方法的程序时实现上述任一所述的方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种多视角图像共存文字检测方法,其特征在于,所述方法包括:
对多视角图像集合中的图像提取预设数量个文字候选区域的集合,并提取任意图像对的所述文字候选区域之间的视觉相似度关系;
构建所述多视角图像集合中的任意图像对中共存文字的相关关系;
对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系;
基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解。
2.如权利要求1所述的多视角图像共存文字检测方法,其特征在于,所述提取预设数量个文字候选区域的集合,包括:
采用融合单击文字检测网络挖掘的深度非线性文字表达信息与基于笔画宽度变换提取的文字区域信息的方法,对多视角图像集合中的图像进行提取;
获得预设数量个文字候选区域的集合。
3.如权利要求1所述的多视角图像共存文字检测方法,其特征在于,所述提取任意图像对的所述文字候选区域之间的视觉相似度关系,包括:
计算任意图像对的所述文字候选区域之间的视觉特征相似矩阵
Figure 208351DEST_PATH_IMAGE001
根据所述
Figure 90856DEST_PATH_IMAGE001
组合生成所述视觉相似度矩阵Sv
4.如权利要求2所述的多视角图像共存文字检测方法,其特征在于,所述基于笔画宽度变换提取的文字区域信息,包括:
对所述图像提取基于笔画宽度变换的第一特征点;
将相邻的所述第一特征点聚合,生成所述文字区域;其中所述文字区域的长和宽不小于预设个数个像素点。
5.如权利要求1所述的多视角图像共存文字检测方法,其特征在于,所述构建所述多视角图像集合中的任意图像对中共存文字的相关关系,包括:
计算任意图像对之间的相关性矩阵Xij
根据所述Xij组合生成所述多视角图像集合的相关关系矩阵X;其中,Xij属于{0,1}qi*qj且为置换矩阵,且满足自相关性和对称性约束。
6.如权利要求5所述的多视角图像共存文字检测方法,其特征在于,所述对所述多视角图像集合中的任意图像对提取基于对极几何的几何关系,包括:
构建所述任意图像对之间的基本矩阵Fij
构建所述任意图像对之间的几何一致性。
7.如权利要求6所述的多视角图像共存文字检测方法,其特征在于,所述构建所述任意图像对之间的基本矩阵Fij,包括:
基于尺度不变特征变换和基于笔画宽度变换对图像提取第二特征点;
计算图像对中所述第二特征点之间的尺度不变特征变换特征相似度;
采用随机抽样一致算法估计获得所述基本矩阵Fij
8.如权利要求7所述的多视角图像共存文字检测方法,其特征在于,所述构建所述任意图像对之间的几何一致性,包括:
根据预设条件筛选出所述文字候选区域的所述第二特征点;
根据所述第二特征点判断几何约束一致性。
9.如权利要求8所述的多视角图像共存文字检测方法,其特征在于,所述预设条件包括:
筛选出的第二特征点满足
Figure 443340DEST_PATH_IMAGE002
;其中Mi属于Rpi*qi且为第二特征点到文字候选区域的映射矩阵,pi为特征点的数量,qi为文字候选区域的数量,X为相关性矩阵,1为全一向量。
10.如权利要求9所述的多视角图像共存文字检测方法,其特征在于,所述根据所述第二特征点判断几何约束一致性,包括:
将di排列组合形成与特征点集合Pi维度一致的矩阵Di=[dididi],则将筛选出的第二特征点表示为
Figure 323571DEST_PATH_IMAGE003
,则通过最小化公式:
Figure 761506DEST_PATH_IMAGE004
保证特征点
Figure 182123DEST_PATH_IMAGE005
有低基本矩阵响应;其中Pi为第一特征点和第二特征点的并集。
11.如权利要求10所述的多视角图像共存文字检测方法,其特征在于,所述基于使所述相关关系与所述视觉相似度关系保持一致性,结合所述相关关系与所述几何关系,生成求解方程并求解,包括:
将相关关系矩阵X的置换矩阵约束替换为双随机约束;
将相关关系矩阵X的秩约束替换为相关关系矩阵X的核范数;其中将0范数替换为1范数并将1范数替换为全一向量1和相关关系矩阵X的内积;
则求解方程为:
Figure 654693DEST_PATH_IMAGE006
12.如权利要求11所述的多视角图像共存文字检测方法,其特征在于,还包括:优化所述求解方程并求解。
13.如权利要求12所述的多视角图像共存文字检测方法,其特征在于,所述优化所述求解方程并求解,包括:
将相关关系矩阵X替换为两个矩阵A和B的乘积;其中,A、B属于RQ*r且r<Q;
引入新变量Yij替换掉Xij
Figure 705825DEST_PATH_IMAGE007
替换掉最小相关关系矩阵的核范数||X||*
则求解方程优化为:
Figure 631056DEST_PATH_IMAGE008
通过交替更新X、A、B和Y求解优化后的方程。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多视角图像共存文字检测方法程序,所述多视角图像共存文字检测方法程序被处理器执行时实现权利要求1-13任一所述的方法的步骤。
15.一种设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多视角图像共存文字检测方法程序,所述处理器执行所述多视角图像共存文字检测方法程序时实现权利要求1-13任一所述的方法的步骤。
CN202011291393.8A 2020-11-18 2020-11-18 多视角图像共存文字检测方法、设备及计算机存储介质 Active CN112101324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011291393.8A CN112101324B (zh) 2020-11-18 2020-11-18 多视角图像共存文字检测方法、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011291393.8A CN112101324B (zh) 2020-11-18 2020-11-18 多视角图像共存文字检测方法、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112101324A true CN112101324A (zh) 2020-12-18
CN112101324B CN112101324B (zh) 2021-03-16

Family

ID=73785257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011291393.8A Active CN112101324B (zh) 2020-11-18 2020-11-18 多视角图像共存文字检测方法、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112101324B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN101957919A (zh) * 2010-09-22 2011-01-26 上海交通大学 基于图像局部特征检索的文字识别方法
CN104408449A (zh) * 2014-10-27 2015-03-11 西安电子科技大学宁波信息技术研究院 智能移动终端场景文字处理方法
US20150117780A1 (en) * 2013-10-28 2015-04-30 Victor Erukhimov Fast single-pass interest operator for text and object detection
CN106203342A (zh) * 2016-07-01 2016-12-07 广东技术师范学院 基于多角度局部特征匹配的目标识别方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN110008943A (zh) * 2019-02-11 2019-07-12 阿里巴巴集团控股有限公司 一种图像处理方法及装置、一种计算设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN101957919A (zh) * 2010-09-22 2011-01-26 上海交通大学 基于图像局部特征检索的文字识别方法
US20150117780A1 (en) * 2013-10-28 2015-04-30 Victor Erukhimov Fast single-pass interest operator for text and object detection
CN104408449A (zh) * 2014-10-27 2015-03-11 西安电子科技大学宁波信息技术研究院 智能移动终端场景文字处理方法
CN106203342A (zh) * 2016-07-01 2016-12-07 广东技术师范学院 基于多角度局部特征匹配的目标识别方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN110008943A (zh) * 2019-02-11 2019-07-12 阿里巴巴集团控股有限公司 一种图像处理方法及装置、一种计算设备及存储介质

Also Published As

Publication number Publication date
CN112101324B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
Rocco et al. Efficient neighbourhood consensus networks via submanifold sparse convolutions
US11450063B2 (en) Method and apparatus for training object detection model
CN110245659B (zh) 基于前背景相互关系的图像显著对象分割方法及装置
Jiang et al. Robust feature matching for remote sensing image registration via linear adaptive filtering
CN112541904B (zh) 一种无监督遥感图像变化检测方法、存储介质及计算设备
CN105261014B (zh) 一种多传感器遥感影像匹配方法
Liu et al. Bipartite differential neural network for unsupervised image change detection
Liu et al. A contrario comparison of local descriptors for change detection in very high spatial resolution satellite images of urban areas
Wang et al. Detection based visual tracking with convolutional neural network
Liu et al. Robust feature matching via advanced neighborhood topology consensus
Yang et al. Non-rigid image registration with dynamic Gaussian component density and space curvature preservation
Jiang et al. Robust image matching via local graph structure consensus
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
Masuda et al. Toward unsupervised 3d point cloud anomaly detection using variational autoencoder
CN101650784A (zh) 一种利用结构上下文特征进行图像匹配的方法
CN107481235A (zh) 一种数学形态学滤波结合卡方变换的多时相遥感影像变化检测方法
Demirkus et al. Hierarchical temporal graphical model for head pose estimation and subsequent attribute classification in real-world videos
CN106295710B (zh) 基于非几何约束的图像局部特征匹配方法、装置及终端
Ma et al. Change detection in SAR images based on matrix factorisation and a Bayes classifier
US12002218B2 (en) Method and apparatus with object tracking
Fan et al. VLSG-SANet: A feature matching algorithm for remote sensing image registration
Oga et al. River state classification combining patch-based processing and CNN
Song et al. Small UAV based multi-viewpoint image registration for monitoring cultivated land changes in mountainous terrain
Mayer Efficient hierarchical triplet merging for camera pose estimation
Sreevalsan-Nair et al. Local geometric descriptors for multi-scale probabilistic point classification of airborne LiDAR point clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant