CN112200181B - 一种基于粒子群优化算法的文字形状逼近方法 - Google Patents
一种基于粒子群优化算法的文字形状逼近方法 Download PDFInfo
- Publication number
- CN112200181B CN112200181B CN202010837630.XA CN202010837630A CN112200181B CN 112200181 B CN112200181 B CN 112200181B CN 202010837630 A CN202010837630 A CN 202010837630A CN 112200181 B CN112200181 B CN 112200181B
- Authority
- CN
- China
- Prior art keywords
- text
- particle
- character
- particle swarm
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
- G06V10/471—Contour-based spatial representations, e.g. vector-coding using approximation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
- G06V10/476—Contour-based spatial representations, e.g. vector-coding using statistical shape modelling, e.g. point distribution models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于粒子群优化算法的文字形状逼近方法,首先采用基于回归的自然场景文字检测算法对场景文字图像实现快速的文本框检测;其次用MSER提取算法把场景文字图像中的各个字符框提取出来;再统计得到各扩展文本框中包含的字符框集合;最后利用本发明方法对定位的文字框进行调整得到更准确的文字多边形,本发明克服了基于回归的CNN检测器对任意形状文字定位的局限性,使定位的文本框充分包含并贴紧文字内容,改善了弱检测器的性能,和现有先进的文字检测方法相比在任意形状文字检测上取得了竞争力的结果。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于粒子群优化算法的文 字形状逼近方法。
背景技术
近年来,自然场景文字信息提取已越来越广泛地用于多语言翻译,自主 导航,信息检索,产品和对象识别中。文字提取包括文本检测和文本识别, 作为文本识别的重要前提,文本检测在很大程度上吸引了众多学者和行业研 究人员的关注。基于回归的文本检测方法通常在单词或行级注释的监督下对 文字所在的矩形或四边形进行位置回归。EAST、DeconvNet和Deep Regression算法是近年来性能比较出色的基于回归的自然场景文本检测算 法,具有较高的检测率和召回率,然而由于文本的形状,大小和方向的差异 以及相应的CNN模型的结构限制,基于回归的方法无法处理任意形状的长 文本实例,定位的文字框也常常不能完全包含文字,这是基于回归的目标检 测方法难以解决的问题。
发明内容
本发明的目的是提供一种基于粒子群优化算法的文字形状逼近方法,克 服了基于回归的CNN检测器对任意形状文本定位的局限性,并使定位的文 本框充分包含并贴紧文字内容。
本发明所采用的技术方案是,一种基于粒子群优化算法的文字形状逼近 方法,具体按照以下步骤实施:
步骤1、在官方场景文字数据集中任意下载或拍摄一张自然场景文字图 像Img,图像的宽为W,高为H;
步骤2、将场景文字图像Img输入至文本检测网络模型ModelEAST,得到和 场景文字图像Img大小相同的文本置信度图MW×H和检测的文本框集合 R'={r’t|t∈[1,T]},其中r’t是场景文字图像Img中检测的第t个文本框,T是文本框 总个数,文本框r’t中心点不变,向外进行a倍大小的尺度扩展得到扩展文本 框rt,扩展文本框集合为R={rt|t∈[1,T]};对文本置信度图MW×H进行阈值分割, 得到由黑白像素组成的场景文字图像Img对应的文字二值图BW×H;
步骤3、把场景文字图像Img作为输入,调用开源的求取最大稳定极值 区域的Opencv库函数mser.detectRegions(),计算得到最大稳定极值区域集合, 即连通成分集合Cs={cj|j=1,2,…J},cj表示第j个连通成分,J表示连通成分 总个数;
步骤4、定义粒子群;
步骤5、定义场景文字图像Img中逼近的文字多边形集合变量PS,定义 扩展文本框个数计数器变量为t,PS初始化为空,即PS=NULL,t初始化为 1,即t=1;
步骤6、统计扩展文本框rt中的包含的连通成分集合,记为 表示rt中包含的第m个连通成分;M表示rt中包含 的连通成分总个数;
步骤7、把Ct的所有的中心点坐标作为输入,送入开源的求拟合曲线 的numpy库函数polyfit(),生成拟合的一条字符中心线Lt;
步骤8、在拟合的字符中心线Lt上均匀采样N个点以采样点 />n∈[1,N]为中心,以长度r1为半径构建粒子第n维位置的变化范围 />n∈[1,N];以一维变量d1和d2分别为上下限构建粒子第n维等距值的变 化范围[d1,d2];
步骤9、对粒子群初始化;
步骤10、执行提出的粒子群文字形状逼近算法,输出最优粒子对应的逼 近文字形状的多边形,把/>加入文字多边形集合变量PS中;
步骤11、如果t≥T,执行步骤12;否则,t累加1,即t=t+1;返回步 骤6;
步骤12、在场景文字图像Img上显示PS中的各个文字多边形。
本发明的特点还在于:
步骤1数据集为官方场景文字数据集ICDAR2015、ICDAR2017-MLT、 CTW1500、TOTAL-TEXT和MSRA-TD500中的任意一个。
步骤2中对文本置信度图MW×H进行阈值分割具体过程为:
对文本置信度图MW×H={mw×h|w∈[1,W],h∈[1,H]}进行阈值分割,设置分隔 阈值变量为Thr,任取MW×H中一个元素mw×h,如果元素mw×h大于等于阈值Thr, 即mw×h≥Thr,则bw×h为白像素,取值为1,即bw×h=1;否则,bw×h为黑像素, 取值为0,即bw×h=0,得到由黑白像素组成的场景文字图像Img对应的文字 二值图BW×H,BW×H={bw×h|w∈[1,W],h∈[1,H]}。
步骤4定义粒子群具体过程为:粒子群变量定义为XS, XS={X1,...,Xi,...,XI},粒子的总个数为I,Xi表示粒子群XS中的第i个粒子, 在原有粒子特性的描述上增加等距信息,故Xi由N维速度矢量Xi·v、N维位 置矢量Xi·p和N维等距值矢量Xi·d表示,即Xi={Xi·v,Xi·p,Xi·d}, 定义粒子Xi的个体 历史最优变量为Pbesti。
步骤9中,粒子群XS的初始化具体步骤如下:
步骤9.1、定义粒子个数计数器变量为i,定义第i个粒子的维度计数器 变量为n,i初始化为1,即i=1;
步骤9.2、n初始化为1,即n=1;
步骤9.3、采用开源的随机采样的numpy库函数random.uniform()在粒子 第n维位置的变化范围中随机采样一个点/>把/>的点坐标赋给第i 个粒子的第n维位置变量/>即/>在粒子第n维等距值的 变化范围[d1,d2]中随机采样一个等距值/>把/>赋给第i个粒子的距离变量 />即/>第i个粒子的第n维速度变量初始化为零矢量,即/>
步骤9.4、如果n≥N,进入步骤9.5;否则,n累加1,即n=n+1,返回 步骤9.3;
步骤9.5、如果i≥I,结束粒子群初始化,输出初始化后的粒子群XS; 否则,i累加1,即i=i+1,返回步骤9.2。
步骤10中具体如下:
步骤10.1、输入初始化后的粒子群XS;
步骤10.2、定义粒子群优化过程中的迭代绝对误差变量为Δε,Δε初始 化为最大值Emax;定义迭代次数计数器变量为k,定义粒子群的历史最优变 量为Gbestk,k初始化为1;
步骤10.3、粒子个数计数器变量为i初始化为1;
步骤10.4、把粒子Xi中所有位置点的坐标作为输入,送入开源的求取 拟合曲线的numpy库函数polyfit(),拟合生成一条文本的近似中心线LS;
步骤10.5、根据粒子Xi的第n维的位置信息和距离信息/>按照公式(1)和(2)分别计算粒子Xi第n维位置点/>处法线Ln方向上的上下两个等 距点/>和/>
其中,θn是文本的近似中心线LS上点处的切线Lq与水平正半轴之间 的夹角,即θn=arctan(kn);kn是文本的近似中心线LS上/>点处的切线Lq的斜 率,kn由开源的计算导数的numpy库函数polyval()计算得到;
步骤10.6、把Xi的上等距点和下等距点/>按顺时针顺序相连组成逼近文字的多边形Si,即 />
步骤10.7、将文字二值图BW×H、扩展文字框rt、扩展文字框rt中包含的 字符候选集Ct、粒子Xi对应的多边形Si作为输入,送入到适应度函数 f(MW×H,rt,Ct,Si),计算得到粒子Xi对应的适应度值fXi;
步骤10.8、如果迭代次数k=1,初始化粒子Xi的个体历史最优Pbesti, Pbesti=Xi,初始化粒子个体最优位置Pbesti对应的适应度值 初始化粒子群的历史最优位置Gbestk,Gbestk为/>对应的最优 个体粒子,其中max()是开源的numpy中求最大值的库函数;如果迭代次数 k>1,判断当前粒子的适应度值/>是否大于粒子个体最优位置对应的适应度 值/>即是否满足/>如果满足,则更新粒子个体历史最优位置 Pbesti为Pbesti=Xi,更新粒子个体历史最优Pbesti对应的适应度值为如果不满足,执行步骤10.9;
步骤10.9、如果i≥I,进入步骤10.10;否则,i累加1,即i=i+1,返回 步骤10.4;
步骤10.10、更新粒子群的历史全局最优粒子Gbestk,采用开源的求最 大值的numpy库函数max(),求取粒子群历史全局最优粒子Gbestk对应的适 应度值 用/>对应的粒子更新Gbestk;更 新迭代绝对误差Δε,
步骤10.11、定义粒子个数计数器变量为i,即i=1;
步骤10.12、更新粒子Xi的速度位置/>和等距值/> 其中c1,c2代表加速度系数,μ1,μ2是 服从[0,1]上均匀分布的随机数;Δδ是一个高斯白噪声。
步骤10.13、如果i≥I,进入步骤10.14;否则,i累加1,即i=i+1,返 回步骤10.12;
步骤10.14、如果迭代次数k≥K或者迭代绝对误差Δε≤εmin,停止迭代, 迭代结束时得到粒子群中的历史全局最优粒子Gbestk,把Gbestk对应的多边 形追加进PS中;否则,k累加1,即k=k+1,返回步骤10.3。
步骤10.7中计算得到粒子Xi对应的适应度值具体过程为:
调用开源的Opencv中统计非零像素个数的库函数countNonZero(),统计 文字二值图BW×H中多边形Si对应区域里的白像素个数,记为统计BW×H中 扩展文字框rt区域里的白像素个数,记为/>
调用开源的Opencv中计算区域面积的库函数contourArea(),计算扩展文 字框rt的面积,记为计算多边形Si的面积,记为/>
计算扩展文字框rt区域里的文字聚合度 计算多边形Si区域里的文字聚合度/>
统计多边形Si中包含的字符框个数
计算粒子Xi的适应度值 其中M表示扩 展文字框rt中包含的字符框个数。
本发明的有益效果是:
本发明一种基于粒子群优化算法的文字形状逼近方法,在EAST算法检 测结果的基础上,无需预先训练或学习,就能逼近文本形状,实现对多方向 文字和曲线文字的快速定位,本发明方法在任意形状文字检测上取得了竞争 力的结果,对快速弱检测器的文本定位性能有很大程度的改善。
附图说明
图1是本发明基于粒子群优化算法的文本形状逼近方法的流程图;
图2是本发明基于粒子群优化算法的文字形状逼近方法的粒子群初始化 流程图;
图3是本发明基于粒子群优化算法的文字形状逼近方法的文字形状逼近 多边形求取流程图;
图4是本发明基于粒子群优化算法的文字形状逼近方法的等距点求取示 意图;
图5是本发明基于粒子群优化算法的文字形状逼近方法的适应度函数求 取流程图;
图6是本发明实施例中的一幅场景文字图像;
图7是EAST文本检测网络实施例中对图6检测的文本框结果图;
图8是本发明实施例中对图6检测的文本框结果图;
图9是本发明实施例中的另一幅场景文字图像;
图10是EAST文本检测网络实施例中对图9检测的文本框结果图;
图11是本发明实施例中对图9检测的文本框结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于粒子群优化算法的文字形状逼近方法,如图1所示,具 体按照以下步骤实施:
步骤1、在官方场景文字数据集ICDAR2015、ICDAR2017-MLT、 CTW1500、TOTAL-TEXT和MSRA-TD500中的任意一个中任意下载或拍摄 一张自然场景文字图像Img,图像的宽为W,高为H;
步骤2、将场景文字图像Img输入至现有的文本检测网络模型ModelEAST, 得到和场景文字图像Img大小相同的文本置信度图MW×H和检测的文本框集 合R'={r’t|t∈[1,T]},其中r’t是场景文字图像Img中检测的第t个文本框,T是文本 框总个数,模型ModelEAST采用Xinyu Zhou等人2017年在IEEE Conference on Computer Vision and PatternRecognition(CVPR)会议上提出的名为“East:an efficient and accurate scene textdetector”一文中的文本检测网络模型;文本框 rt'中心点不变,向外进行a倍大小的尺度扩展得到扩展文本框rt,扩展文本框 集合为R={rt|t∈[1,T]};对文本置信度图MW×H进行阈值分割,得到由黑白像素 组成的场景文字图像Img对应的文字二值图BW×H;
对文本框r’t进行a倍大小的尺度扩展具体过程为:
文本框r’t的中心点记为centers,centers={x,y},其中,x,y表示centers在
场景文字图像Img上的水平和垂直坐标;在场景文字图像Img上以centers为中心对文本框r’t进行a倍大小的尺度扩展,得到扩展文本框rt,扩展文本框 rt的中心点是centers,扩展文本框rt的宽和高分别为wt,ht,wt=awr,ht=ahr, 其中wr,hr为文本框r’t的宽和高,本发明方法中a=1.2;
对文本置信度图MW×H进行阈值分割具体过程为:
对文本置信度图MW×H={mw×h|w∈[1,W],h∈[1,H]}进行阈值分割,设置分割 阈值变量为Thr,任取MW×H中一个元素mw×h,如果元素mw×h大于等于阈值Thr, 即mw×h≥Thr,则bw×h为白像素,取值为1,即bw×h=1;否则,bw×h为黑像素, 取值为0,即bw×h=0,由所有黑白像素组成场景文字图像Img对应的文字二 值图BW×H,BW×H={bw×h|w∈[1,W],h∈[1,H]}。
步骤3、把场景文字图像Img作为输入,调用开源的求取最大稳定极值 区域的Opencv库函数mser.detectRegions(),计算得到最大稳定极值区域 (Maximally StableExtremal Region,简称MSER)集合,即连通成分集合 Cs={cjj=1,2,…J},cj表示Img中的第j个连通成分,J表示连通成分总个数;
步骤4、定义粒子群;定义粒子群具体过程为:粒子群变量定义为XS, XS={X1,...,Xi,...,XI},粒子的总个数I=20,Xi表示粒子群XS中的第i个粒子, 在原有粒子特性的描述上增加等距信息,故Xi由N维速度矢量Xi·v、N维位 置矢量Xi·p和N维等距值矢量Xi·d表示,即Xi={Xi·v,Xi·p,Xi·d}, 本发明方法中,N=7; 定义粒子Xi的个体历史最优变量为Pbesti;
步骤5、定义场景文字图像Img中逼近的文字多边形集合变量为PS,定 义扩展文本框个数计数器变量为t,PS初始化为空,即PS=NULL,t初始化 为1,即t=1;
步骤6、统计扩展文本框rt中的包含的连通成分集合,记为 表示rt中包含的第m个连通成分;M表示rt中包含的连通成分总个数;
步骤7、把Ct的所有的中心点坐标作为输入,送入开源的求拟合曲线 的numpy库函数polyfit(),生成拟合的一条字符中心线Lt;
步骤8、在拟合的字符中心线Lt上均匀采样N个点以采样点 />n∈[1,N]为中心,以长度r1为半径构建粒子第n维位置的变化范围 />n∈[1,N];以一维变量d1和d2分别为上下限构建粒子第n维等距值的变 化范围[d1,d2];
步骤9、粒子群初始化;粒子群XS的初始化具体步骤如下,如图2所示:
步骤9.1、定义粒子个数计数器变量为i,定义第i个粒子的维度计数器 变量为n,i初始化为1,即i=1;
步骤9.2、n初始化为1,即n=1;
步骤9.3、采用开源的随机采样的numpy库函数random.uniform()在粒子 第n维位置的变化范围中随机采样一个点/>把/>的点坐标赋给第i 个粒子的第n维位置变量/>即/>在粒子第n维等距值的 变化范围[d1,d2]中随机采样一个等距值/>把/>赋给第i个粒子的距离变量 />即/>第i个粒子的第n维速度变量初始化为零矢量,即/>
步骤9.4、如果n≥N,进入步骤9.5;否则,n累加1,即n=n+1,返回 步骤9.3;
步骤9.5、如果i≥I,结束粒子群初始化,输出初始化后的粒子群XS; 否则,i累加1,即i=i+1,返回步骤9.2。
步骤10、执行提出的粒子群文字形状逼近算法,输出最优粒子对应的逼 近文字形状的多边形把/>加入PS中,如图3所示;具体如下:
步骤10.1、输入初始化后的粒子群XS;
步骤10.2、定义粒子群优化过程中的迭代绝对误差变量、迭代次数计数 器变量和总迭代次数变量分别为Δε、k和K,定义粒子群的历史最优变量为 Gbestk;Δε初始化为最大值Emax,Emax=9999;k初始化为1,即k=1;K=20; 迭代绝对误差最小值εmin=1e-3;
步骤10.3、粒子个数计数器变量为i初始化为1;
步骤10.4、把粒子Xi中所有位置点的坐标作为输入,送入开源的求取 拟合曲线的numpy库函数polyfit(),拟合生成一条文本的近似中心线LS;
步骤10.5、如图4所示,根据粒子Xi的第n维的位置信息和距离信息 />按照公式(1)和(2)分别计算粒子Xi第n维位置点/>处法线Ln方向上 的上下两个等距点/>和
其中,θn是文本的近似中心线LS上点处的切线Lq与水平正半轴之间 的夹角,即θn=arctan(kn);kn是文本的近似中心线LS上/>点处的切线Lq的斜 率,kn由开源的计算导数的numpy库函数polyval()计算得到;
步骤10.6、把Xi的上等距点和下等距点/>按顺时针顺序相连组成逼近文字的多边形Si,即 />
步骤10.7、如图5所示,将文字二值图BW×H、扩展文字框rt、扩展文字 框rt中包含的字符候选集Ct、粒子Xi对应的多边形Si作为输入,送入到适应 度函数f(MW×H,rt,Ct,Si),计算得到粒子Xi对应的适应度值
计算得到粒子Xi对应的适应度值具体过程为:
调用开源的Opencv中统计非零像素个数的库函数countNonZero(),统计 文字二值图BW×H中多边形Si对应区域里的白像素个数,记为统计BW×H中 扩展文字框rt区域里的白像素个数,记为/>
调用开源的Opencv中计算区域面积的库函数contourArea(),计算扩展文 字框rt的面积,记为计算多边形Si的面积,记为/>
计算扩展文字框rt区域里的文字聚合度 计算多边形Si区域里的文字聚合度/>
统计多边形Si中包含的字符框个数
计算粒子Xi的适应度值 其中M表示扩 展文字框rt中包含的字符框个数。
步骤10.8、如果迭代次数k=1,初始化粒子Xi的个体历史最优Pbesti, Pbesti=Xi,初始化粒子个体最优位置Pbesti对应的适应度值 初始化粒子群的历史最优位置Gbestk,Gbestk为/>对应的最优 个体粒子,其中max()是开源的numpy中求最大值的库函数;如果迭代次数 k>1,判断当前粒子的适应度值/>是否大于粒子个体最优位置对应的适应度 值/>即是否满足/>如果满足,则更新粒子个体历史最优位置 Pbesti为Pbesti=Xi,更新粒子个体历史最优Pbesti对应的适应度值为如果不满足,执行步骤10.9;
步骤10.9、如果i≥I,进入步骤10.10;否则,i累加1,即i=i+1,返回 步骤10.4;
步骤10.10、更新粒子群的历史全局最优粒子Gbestk,采用开源的求最 大值的numpy库函数max(),求取粒子群历史全局最优粒子Gbestk对应的适 应度值 用/>对应的粒子更新Gbestk;更 新迭代绝对误差Δε,
步骤10.11、定义粒子个数计数器变量为i,即i=1;
步骤10.12、更新粒子Xi的速度位置/>和等距值/> 其中c1,c2代表加速度系数,本发 明中c1=c2=1.2;μ1,μ2是服从[0,1]上均匀分布的随机数,采用开源的numpy 库函数random.rand()函数得到;Δδ是一个高斯白噪声;
步骤10.13、如果i≥I,进入步骤10.14;否则,i累加1,即i=i+1,返 回步骤10.12;
步骤10.14、如果迭代次数k≥K或者迭代绝对误差Δε≤εmin,停止迭代, 迭代结束时得到粒子群中的历史全局最优粒子Gbestk,把Gbestk对应的多边 形追加进PS中;否则,k累加1,即k=k+1,返回步骤10.3。
步骤11、如果t≥T,执行步骤12;否则,t累加1,即t=t+1;返回步 骤6;
步骤12、在场景文字图像Img上显示PS中的各个文字多边形。
本发明基于粒子群优化算法的文字形状逼近方法,首先采用基于回归的 文字检测方法对场景文字图像中的文字所在矩形或四边形进行检测定位;其 次,用MSER检测算法把场景图像中的各个连通成分提取出来,从而得到一 系列的字符框,再统计得到各扩展文本框中包含的字符框集合;最后,进行 基于粒子群的场景图像中各定位文字框的调整使其逼近文字形状。在原有粒 子群算法的基础上,在粒子的特征描述方面引入一个粒子的等距信息,采用 粒子群的优化迭代过程,使由粒子计算得到的多边形逐渐逼近文字形状最终得到最优的文字外围框。具体过程为:利用各扩展文本框中包含的字符框中 心点拟合一条字符中心线;在字符中心线上均匀采样N个点,以各采样点为 中心以固定长度为半径构建粒子的位置活动范围,以一维区间构建粒子的等 距范围,由粒子的位置和等距值计算得到粒子对应的最初的文字逼近多边 形;通过粒子群的优化过程最终得到文字的最佳逼近多边形。本发明克服了 基于回归的CNN检测器对任意形状文字定位的局限性,并使定位的文本框充 分包含并贴紧文字内容,改善了弱检测器的性能,相对现有先进的文字检测 方法,本发明方法在任意形状文字检测上取得了竞争力的结果。
实施例
本发明从场景文字数据集中取出任意一张图片,分别采用EAST文本检 测网络和本发明的方法进行文字定位,图6表示一幅场景文字图像,图7表 示EAST文本检测网络在图6中检测到的文本框结果图,白色框是文本框, 图8表示本发明的方法在图6中检测到的文本框结果图,白色框是文本框; 图9表示另一幅场景文字图像,图10表示EAST文本检测网络在图9中检 测到的文本框结果图,白色框是文本框,图11表示本发明的方法在图9中 检测到的文本框结果图,白色框是文本框。通过主观效果图对比可以看到 EAST文本检测网络检测到的文本框往往无法包全文字,并且无法适应弯曲 文本的形状,而本发明的方法有效解决了这些问题,既能完整包含文字,又 实现了任意方向文字形状的逼近,保证了文字内容的紧凑型,对EAST弱检 测器的性能在一定程度上进行了改善。
通过文字检测率对本发明的文字逼近效果进行评价,评价结果如表1和 表2所示:
①准确率(Precision,P)。准确率表示检测出的正确目标个数占检测 出的总目标个数的比例。
②召回率(Recall,R)。召回率表示是检测出的正确目标个数占所有 标注的真值框总数目的比例。
③调和平均值(F-measure,F)。调和平均值是对召回率和准确率的 加权平均值,因此F-measure是检测算法性能的综合度量,其值越高即算法 性能越好,其计算表达式为:
表1在多方向文字数据集上的文字检测对比结果表
表2在曲线文字数据集上的文字检测对比结果表
由表1、表2可知,本发明在多个多方向文字数据集和曲线文字数据集 上的文字检测率结果都很高,并且通过表1和表2的客观数据可以看到,本 发明方法在各个数据集上的调和平均值相比EAST方法有了显著提高;由此 可以得出,本发明对快速弱检测器的文本定位性能有很大程度的改善。本发 明可以应用于不同场景、不同远近、不同方向、不同大小、不同颜色的多方 向文字和曲线文字的检测。
通过上述方式,本发明提出了一种基于粒子群优化算法的文字形状逼近 方法,在EAST算法检测结果的基础上,无需预先训练或学习,就能逼近文 字形状,实现对多方向和曲线文字的快速定位,实验验证本发明在任意方向 和任意形状文字检测上取得了竞争力的结果,对快速弱检测器的文本定位性 能有很大程度的改善。
Claims (5)
1.一种基于粒子群优化算法的文字形状逼近方法,其特征在于,具体按照以下步骤实施:
步骤1、在官方场景文字数据集中任意下载或拍摄一张自然场景文字图像Img,图像的宽为W,高为H;
步骤2、将场景文字图像Img输入至文本检测网络模型ModelEAST,得到和场景文字图像Img大小相同的文本置信度图MW×H和检测的文本框集合R'={r′t|t∈[1,T]},其中r′t是场景文字图像Img中检测的第t个文本框,T是文本框总个数,文本框r′t中心点不变,向外进行a倍大小的尺度扩展得到扩展文本框rt,扩展文本框集合为R={rt|t∈[1,T]};对文本置信度图MW×H进行阈值分割,得到由黑白像素组成的场景文字图像Img对应的文字二值图BW×H;
步骤3、把场景文字图像Img作为输入,调用开源的求取最大稳定极值区域的Opencv库函数mser.detectRegions(),计算得到最大稳定极值区域集合,即连通成分集合Cs={cj|j=1,2,…J},cj表示第j个连通成分,J表示连通成分总个数;
步骤4、定义粒子群;所述定义粒子群具体过程为:粒子群变量定义为XS,XS={X1,...,Xi,...,XI},粒子的总个数为I,Xi表示粒子群XS中的第i个粒子,在原有粒子特性的描述上增加等距信息,故Xi由N维速度矢量Xi·v、N维位置矢量Xi·p和N维等距值矢量Xi·d表示,即Xi={Xi·v,Xi·p,Xi·d},定义粒子Xi的个体历史最优变量为Pbesti;
步骤5、定义场景文字图像Img中逼近的文字多边形集合变量PS,定义扩展文本框个数计数器变量为t,PS初始化为空,即PS=NULL,t初始化为1,即t=1;
步骤6、统计扩展文本框rt中的包含的连通成分集合,即字符候选集,记为表示rt中包含的第m个连通成分;M表示rt中包含的连通成分总个数;
步骤7、把Ct的所有的中心点坐标作为输入,送入开源的求拟合曲线的numpy库函数polyfit(),生成拟合的一条字符中心线Lt;
步骤8、在拟合的字符中心线Lt上均匀采样N个点以采样点/>为中心,以长度r1为半径构建粒子第n维位置的变化范围/>以一维变量d1和d2分别为上下限构建粒子第n维等距值的变化范围[d1,d2];
步骤9、对粒子群初始化;
步骤10、执行提出的粒子群文字形状逼近算法,输出最优粒子对应的逼近文字形状的多边形把/>加入文字多边形集合变量PS中;具体如下:
步骤10.1、输入初始化后的粒子群XS;
步骤10.2、定义粒子群优化过程中的迭代绝对误差变量为Δε,Δε初始化为最大值Emax;定义迭代次数计数器变量为k,定义粒子群的历史最优变量为Gbestk,k初始化为1;
步骤10.3、粒子个数计数器变量为i初始化为1;
步骤10.4、把粒子Xi中所有位置点的坐标作为输入,送入开源的求取拟合曲线的numpy库函数polyfit(),拟合生成一条文本的近似中心线LS;
步骤10.5、根据粒子Xi的第n维的位置信息和等距值/>按照公式(1)和(2)分别计算粒子Xi第n维位置点/>处法线Ln方向上的上下两个等距点/>和/>
其中,θn是文本的近似中心线LS上点处的切线Lq与水平正半轴之间的夹角,即θn=arctan(kn);kn是文本的近似中心线LS上/>点处的切线Lq的斜率,kn由开源的计算导数的numpy库函数polyval()计算得到;
步骤10.6、把Xi的上等距点和下等距点/>按顺时针顺序相连组成逼近文字的多边形Si,即/>
步骤10.7、将文字二值图BW×H、扩展文字框rt、扩展文字框rt中包含的字符候选集Ct、粒子Xi对应的多边形Si作为输入,送入到适应度函数f(MW×H,rt,Ct,Si),计算得到粒子Xi对应的适应度值
步骤10.8、如果迭代次数k=1,初始化粒子Xi的个体历史最优Pbesti,Pbesti=Xi,初始化粒子个体最优位置Pbesti对应的适应度值初始化粒子群的历史最优位置Gbestk,Gbestk为/>对应的最优个体粒子,其中max()是开源的numpy中求最大值的库函数;如果迭代次数k>1,判断当前粒子的适应度值/>是否大于粒子个体最优位置对应的适应度值/>即是否满足/>如果满足,则更新粒子个体历史最优位置Pbesti为Pbesti=Xi,更新粒子个体历史最优Pbesti对应的适应度值为如果不满足,执行步骤10.9;
步骤10.9、如果i≥I,进入步骤10.10;否则,i累加1,即i=i+1,返回步骤10.4;
步骤10.10、更新粒子群的历史全局最优粒子Gbestk,采用开源的求最大值的numpy库函数max(),求取粒子群历史全局最优粒子Gbestk对应的适应度值用/>对应的粒子更新Gbestk;更新迭代绝对误差Δε,/>
步骤10.11、定义粒子个数计数器变量为i,即i=1;
步骤10.12、更新粒子Xi的速度位置/>和等距值/> 其中c1,c2代表加速度系数,μ1,μ2是服从[0,1]上均匀分布的随机数;Δδ是一个高斯白噪声;
步骤10.13、如果i≥I,进入步骤10.14;否则,i累加1,即i=i+1,返回步骤10.12;
步骤10.14、如果迭代次数k≥K或者迭代绝对误差Δε≤εmin,停止迭代,迭代结束时得到粒子群中的历史全局最优粒子Gbestk,把Gbestk对应的多边形追加进PS中;否则,k累加1,即k=k+1,返回步骤10.3;
步骤11、如果t≥T,执行步骤12;否则,t累加1,即t=t+1;返回步骤6;
步骤12、在场景文字图像Img上显示PS中的各个文字多边形。
2.根据权利要求1所述的一种基于粒子群优化算法的文字形状逼近方法,其特征在于,步骤1所述数据集为官方场景文字数据集ICDAR2015、ICDAR2017-MLT、CTW1500、TOTAL-TEXT和MSRA-TD500中的任意一个。
3.根据权利要求1所述的一种基于粒子群优化算法的文字形状逼近方法,其特征在于,所述步骤2中对文本置信度图MW×H进行阈值分割具体过程为:
对文本置信度图MW×H={mw×h|w∈[1,W],h∈[1,H]}进行阈值分割,设置分割阈值变量为Thr,任取MW×H中一个元素mw×h,如果元素mw×h大于等于阈值Thr,即mw×h≥Thr,则bw×h为白像素,取值为1,即bw×h=1;否则,bw×h为黑像素,取值为0,即bw×h=0,得到由黑白像素组成的场景文字图像Img对应的文字二值图BW×H,BW×H={bw×h|w∈[1,W],h∈[1,H]}。
4.根据权利要求1所述的一种基于粒子群优化算法的文字形状逼近方法,其特征在于,所述步骤9中,粒子群XS的初始化具体步骤如下:
步骤9.1、定义粒子个数计数器变量为i,定义第i个粒子的维度计数器变量为n,i初始化为1,即i=1;
步骤9.2、n初始化为1,即n=1;
步骤9.3、采用开源的随机采样的numpy库函数random.uniform()在粒子第n维位置的变化范围中随机采样一个点/>把/>的点坐标赋给第i个粒子的第n维位置变量即/>在粒子第n维等距值的变化范围[d1,d2]中随机采样一个等距值/>把/>赋给第i个粒子的距离变量/>即/>第i个粒子的第n维速度变量/>初始化为零矢量,即/>
步骤9.4、如果n≥N,进入步骤9.5;否则,n累加1,即n=n+1,返回步骤9.3;
步骤9.5、如果i≥I,结束粒子群初始化,输出初始化后的粒子群XS;否则,i累加1,即i=i+1,返回步骤9.2。
5.根据权利要求1所述的一种基于粒子群优化算法的文字形状逼近方法,其特征在于,步骤10.7中所述计算得到粒子Xi对应的适应度值具体过程为:
调用开源的Opencv中统计非零像素个数的库函数countNonZero(),统计文字二值图BW×H中多边形Si对应区域里的白像素个数,记为统计BW×H中扩展文字框rt区域里的白像素个数,记为/>
调用开源的Opencv中计算区域面积的库函数contourArea(),计算扩展文字框rt的面积,记为计算多边形Si的面积,记为/>
计算扩展文字框rt区域里的文字聚合度计算多边形Si区域里的文字聚合度/>
统计多边形Si中包含的字符框个数
计算粒子Xi的适应度值
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837630.XA CN112200181B (zh) | 2020-08-19 | 2020-08-19 | 一种基于粒子群优化算法的文字形状逼近方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837630.XA CN112200181B (zh) | 2020-08-19 | 2020-08-19 | 一种基于粒子群优化算法的文字形状逼近方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200181A CN112200181A (zh) | 2021-01-08 |
CN112200181B true CN112200181B (zh) | 2023-10-10 |
Family
ID=74006533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010837630.XA Active CN112200181B (zh) | 2020-08-19 | 2020-08-19 | 一种基于粒子群优化算法的文字形状逼近方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200181B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8254686B2 (en) * | 2008-09-27 | 2012-08-28 | Ningbo Sunrun Elec. & Info. ST & D Co., Ltd. | On-line identifying method of hand-written Arabic letter |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110598832A (zh) * | 2019-08-22 | 2019-12-20 | 西安理工大学 | 一种基于遗传优化算法的文字透视矫正方法 |
CN110751154A (zh) * | 2019-09-27 | 2020-02-04 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN111062393A (zh) * | 2019-11-08 | 2020-04-24 | 西安理工大学 | 一种基于谱聚类的自然场景汉字分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8942484B2 (en) * | 2011-09-06 | 2015-01-27 | Qualcomm Incorporated | Text detection using image regions |
-
2020
- 2020-08-19 CN CN202010837630.XA patent/CN112200181B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8254686B2 (en) * | 2008-09-27 | 2012-08-28 | Ningbo Sunrun Elec. & Info. ST & D Co., Ltd. | On-line identifying method of hand-written Arabic letter |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN110598832A (zh) * | 2019-08-22 | 2019-12-20 | 西安理工大学 | 一种基于遗传优化算法的文字透视矫正方法 |
CN110751154A (zh) * | 2019-09-27 | 2020-02-04 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN111062393A (zh) * | 2019-11-08 | 2020-04-24 | 西安理工大学 | 一种基于谱聚类的自然场景汉字分割方法 |
Non-Patent Citations (2)
Title |
---|
Particle Swarm Optimization Algorithm-Extreme Learning Machine (PSO-ELM) Model for Predicting Resilient Modulus of Stabilized Aggregate Bases;Mosbeh R. Kaloop 等,;《MDPI》;20190807;第2019年卷;全文 * |
自然场景文本定位方法研究;张鹏,;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315;第2018年卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112200181A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929649B2 (en) | Multi-pose face feature point detection method based on cascade regression | |
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
Singh et al. | Svm-bdt pnn and fourier moment technique for classification of leaf shape | |
CN112767485B (zh) | 一种基于静态语义信息的点云地图创建与场景辨识方法 | |
Wang et al. | Feature extraction by rotation-invariant matrix representation for object detection in aerial image | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN105243139B (zh) | 一种基于深度学习的三维模型检索方法及其检索装置 | |
CN106570480B (zh) | 一种基于姿势识别的人体动作分类方法 | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
CN102521616B (zh) | 基于稀疏表示的行人检测方法 | |
CN104966081B (zh) | 书脊图像识别方法 | |
CN108509925B (zh) | 一种基于视觉词袋模型的行人重识别方法 | |
CN108596195B (zh) | 一种基于稀疏编码特征提取的场景识别方法 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN107169117A (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
Wang et al. | A novel method for image classification based on bag of visual words | |
CN109934272A (zh) | 一种基于全卷积网络的图像匹配方法 | |
Kang et al. | Yolo-6d+: single shot 6d pose estimation using privileged silhouette information | |
CN112200181B (zh) | 一种基于粒子群优化算法的文字形状逼近方法 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 | |
Wang et al. | Hypergraph based feature fusion for 3-D object retrieval | |
CN113420760A (zh) | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 | |
Lakshmi et al. | Plant leaf image detection method using a midpoint circle algorithm for shape-based feature extraction | |
Anvaripour et al. | Accurate object detection using local shape descriptors | |
Tang et al. | Rapid forward vehicle detection based on deformable Part Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |