CN111310760B - 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 - Google Patents
结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 Download PDFInfo
- Publication number
- CN111310760B CN111310760B CN202010094934.1A CN202010094934A CN111310760B CN 111310760 B CN111310760 B CN 111310760B CN 202010094934 A CN202010094934 A CN 202010094934A CN 111310760 B CN111310760 B CN 111310760B
- Authority
- CN
- China
- Prior art keywords
- convolution
- region
- layer
- candidate
- oracle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法,属于数字图像处理和古文字信息处理的交叉领域。首先,输入待处理的甲骨刻辞图像I,将其颜色空间从RGB转换到HSV,采用最大类间方差法对其V分量进行二值化,并利用多条件连通区域填充算法得到图像I的粗去噪结果;其次,通过含有6组卷积层的特征提取子网络分析图像I的深度卷积特征;然后,利用含有3组卷积层的区域建议子网络选取感兴趣区域,并计算各个感兴趣区域的评分;最后,利用特征降维子网络和区域分类子网络确定甲骨文字的区域,并经过非极大值抑制算法去除重叠的候选框,生成带有框选结果的结果图像。
Description
技术领域
本发明涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨上的点状噪声、片状斑纹和固有纹理的干扰,准确性高、鲁棒性好、处理速度快、具备自适应能力的结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法。
背景技术
甲骨文是商朝后期用龟甲、兽骨进行记事和占卜的文字。它作为我国迄今为止发现的年代最早的成熟文字系统,具有极其重要的保护价值、研究价值以及崇高的象征意义。甲骨文不仅是我国语言、文化、历史可追溯的最早源头,是汉字的源头和中华优秀传统文化的根脉,是千年中华文明的标志,也印证了历史上一系列古文献的真实性,把有记载的中华文明史向前推进了近五个世纪。因此,自甲骨被发现之日起,我国学者就开始对其进行搜集、鉴定和研究,这促使甲骨文字考释成为古文字研究领域中最重要的内容之一。
因为甲骨文字数量众多,年代久远,其结构不仅明显有别于现代文字,而且形体复杂、字形繁复、异体字众多,所以释读甲骨文要求研究者具有广博的知识基础和长期的专业训练,是一项极具挑战的任务,目前仍存大量甲骨文字未被准确释读,甚至有学者将其归之为“绝学”以内。随着计算机图像识别能力的提升,以计算机视觉技术为基础,结合甲骨文的专业知识,进行甲骨文字识别已成为可能。在这种情况下,在龟甲或兽骨上自动定位到甲骨文字区域,对于保证后续的文字分割和字形复原质量、提高字形特征提取和自动识别精度具有基础且重要的意义。然而,一方面,经过三千余年的土壤压力和腐蚀,又经发掘、运输、辗转流传,很多甲骨均有不同程度的损坏,其文字多已模糊不清,而且龟甲和兽骨的质地亦不光滑,本身又存在齿缝、兆纹、盾纹、刻痕等纹理;另一方面,甲骨文的文例有独特的规律,“沿中缝而刻辞向外,在右右行,在左左行,沿首尾之两边而刻辞者,向内,在右左行,在左右行”。这意味着甲骨文字的分布与边缘的方向存在一定关系,且行不明显,导致甲骨文字往往被大量的固有边缘和纹理所干扰,欲想利用典型的文档分析算法进行处理几乎是不可能的。因此,将甲骨文字从干扰严重的背景中自动地准确检测定位出来,变得异常困难。
针对现代汉字的区域检测,方承志等人提出了一种基于联合边界框校准的自然场景文本检测方法。首先,原始图像经过缩放处理后,输入特征提取层,得到不同尺度和抽象层级的特征图,然后通过特征融合层使得深层语义特征与浅层纹理特征相融合,采用3个相互独立的子网分别对置信度边界框坐标偏移量和旋转角度偏移量进行计算,构建出预测层,进而对最终筛选出的文本对象进行边界框校准,获得最终检测结果。李晓玉等人提出了一种结合感受野增强和全卷积网络的场景文字检测方法,利用全卷积网络构建的特征金字塔网络产生多通道的像素级别的文本得分图和旋转矩形框预测图,再经精细局部感知非极大值抑制,产生最终的结果。但上述两种方法尚存在对于长文本和特大文字检测不全甚至漏检测的现象。唐有宝等人提出了一种基于多层次最大稳定极值区域(Maximally StableExtremal Regions,MSER)的自然场景文本检测方法,输入图像经平滑处理后,进行多层次最大稳定极值候选区域提取,并对候选区域进行特征提取和评分,然后利用自适应阈值实现候选区域的分类,得到最终的文本检测结果。白翔等人提出了一种基于深度卷积神经网络的、端到端的自然场景文字检测方法,通过预测文字框选区域的置信度及其与默认框选区域的坐标偏置,在多个特征层输出目标对应区域的坐标信息。同时,针对文本区域一般呈长方形的特点,一方面,该方法采用长矩形的卷积核来取代传统的正方形卷积核,并调整默认框选区域的长宽比,使其更接近真实的文本区域形态,从而有助于加快神经网络的收敛速度;另一方面,对得到的所有框选区域进行非最大值抑制,滤去重叠度比较高的候选框,降低了文本区域的误检率。然而,由于现代汉字与甲骨文字的特征之间存在显著差异,并且现代汉字的背景干扰较弱,上述方法不适用甲骨刻辞文字的自动区域检测,无法在复杂的背景中定位到甲骨文字。
针对甲骨文字的区域检测,史小松等人提出了一种基于阈值分割和形态学的甲骨文字定位方法,首先对原始拓片图像进行增强,然后采用最大类间方差法实现阈值化,形成候选文字区,再利用数学形态学的连通分量标注及其连通面积统计进行处理,进而确定甲骨文字区域。黄勇杰等人提出了一种基于稀疏活动轮廓模型的甲骨拓片图像的目标自动定位算法,首先以目标形状估计作为约束,仅对图像中部分点的位置进行回归,再通过共同勾画算法学习到目标轮廓模型,在待定位图中扫描出与模型匹配度最高的区域,进而利用基于距离约束的Hough变换来降低噪声影响、减少定位时间。然而,上述两种方法仅能在甲骨拓片图像中定位到拓片的位置,却无法实现甲骨文字的准确提取。
综上所述,目前尚没有一种可有效抵抗龟甲和兽骨上存在的点状噪声、片状斑纹和固有纹理干扰的,准确性高、鲁棒性好、处理速度快、具备自适应能力的甲骨文字自动检测方法。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种准确性高、鲁棒性好、处理速度快、具备自适应能力的结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法。
本发明的技术解决方案是:一种结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法,其特征在于按照如下步骤进行:
步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络Nobc,所述Nobc包含1个用于特征提取的子网络Nfeature、1个用于甲骨文字区域建议的子网络Nrpn、1个用于甲骨文字区域特征降维的子网络Ndim和1个用于区域分类的子网络Ncls;
步骤1.1建立并初始化子网络Nfeature,含有6组卷积层,分别为Conv0、Conv1、Conv2、Conv3、Conv4和Conv5;
所述Conv0包含1层卷积操作和5个由公式(1)定义的预设卷积核,每个卷积核以1个像素为步长进行卷积运算;
所述Conv1包含2层卷积操作和1层池化操作,其中,每个卷积层含有64个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv2包含2层卷积操作和1层池化操作,其中,每个卷积层含有128个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv3包含3层卷积操作和1层池化操作,其中,每个卷积层含有256个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv4包含3层卷积操作和1层池化操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv5包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;
步骤1.2建立并初始化子网络Nrpn,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;
所述RpnConv包含1层卷积操作,含有512个大小为3×3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnPred包含1层卷积操作,含有36个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnScore包含1层卷积操作,含有18个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤1.3建立并初始化子网络Ndim,含有1组剪裁池化层和2组卷积层,分别为CropPool、Conv6和Conv7;
所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14×14像素,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv6包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
所述Conv7包含1层卷积操作,含有4096个大小为1×1的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
步骤1.4建立并初始化子网络Ncls,含有2组全连接层,分别为Fc1和Fc2;
所述Fc1有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;
所述Fc2有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络Nobc进行训练;
步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集Cref和甲骨文字区域标签集Clabel,令迭代次数iter←1,执行步骤2.2~2.11;
步骤2.2将每幅图像T的颜色空间从RGB转换到HSV,并将其V分量记为TV;
步骤2.3采用最大类间方差法计算TV的最优全局阈值,并将TV进行二值化,而保持每幅图像T的饱和度分量TS和色调分量TH不变;
步骤2.4将二值化后的TV分量与饱和度分量TS、色调分量TH从HSV颜色空间转换到RGB空间,令所得图像为T′;
步骤2.5采用子网络Nfeature提取图像T′的特征图;
步骤2.5.1利用卷积层Conv0的5个卷积核对图像T′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)将5个卷积结果进行融合,提取出图像T′的局部先验纹理特征图TF1;
C=C1×w1+C2×w2+C3×w3+C4×w4+C5×w5 (2)
所述w1和w2表示预设权重;
步骤2.5.2利用卷积层Conv1对局部先验纹理特征图TF1进行卷积运算,得到卷积特征图TF2;
步骤2.5.3利用卷积层Conv2对卷积特征图TF2进行卷积运算,得到更大尺度下的卷积特征图TF3;
步骤2.5.4利用卷积层Conv3对卷积特征图TF3进行卷积运算,得到更大尺度下的卷积特征图TF4;
步骤2.5.5利用卷积层Conv4对卷积特征图TF4进行卷积运算,得到更大尺度下的卷积特征图TF5;
步骤2.5.6利用卷积层Conv5对卷积特征图TF5进行卷积运算,得到更大尺度下的卷积特征图TF6;
步骤2.6采用子网络Nrpn选取图像T′的候选甲骨文字区域;
步骤2.6.1利用卷积层RpnConv对卷积特征图TF6进行卷积运算,得到初始区域建议结果TRinit;
步骤2.6.2利用卷积层RpnPred对初始区域建议结果TRinit进行处理,得到区域建议的预测集合TRpred;
步骤2.6.3利用卷积层RpnScore对区域建议的预测集合TRinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合TRscore;
步骤2.6.4根据区域建议的预测集合TRpred和区域建议的可能性评估结果集合TRscore,利用非极大值抑制方法获得图像T′的候选区域集合TRROIs;
步骤2.7对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,采用子网络Ndim提取该区域的卷积特征图;
步骤2.7.1将每个候选甲骨文字区域TRROI作为掩码,提取出卷积特征图TF6中处于该区域的卷积特征子图TF′6;
步骤2.7.2采用剪裁池化层CropPool将卷积特征子图TF′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图TF″6;
步骤2.7.3利用卷积层Conv6对卷积特征子图TF″6进行卷积运算,得到更大尺度下的卷积特征图TF′7;
步骤2.7.4利用卷积层Conv7对卷积特征图TF′7进行卷积运算,得到更大尺度下的卷积特征图TF′8;
步骤2.7.5按照光栅扫描的顺序,将卷积特征图TF′8拉伸成长度为4096的一维向量TF′1d;
步骤2.8对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,根据TRROI所对应的一维向量TF′1d,采用子网络Ncls对其进行分类,计算得出其候选区域的顶点坐标集合、分类置信度向量和分类预测结果;
步骤2.8.1利用全连接层Fc1对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的顶点坐标集合TB′pred;
步骤2.8.2利用全连接层Fc2对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的分类置信度向量TScls,再经过softmax激活函数,得出最终的分类预测结果TS′pred;
步骤2.9将图像T′的每个候选文字区域的顶点坐标集合TB′pred取并集,得到图像T′的所有候选文字区域的集合TBpred;
步骤2.10分别计算分类置信度向量TScls与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss1、所有候选文字区域的集合TBpred与人工标注的甲骨文字区域集合Cref的重叠度损失Loss2、区域建议的可能性评估结果集合TRscore与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss3、区域建议的预测集合TRpred与人工标注的甲骨文字区域集合Cref的重叠度损失Loss4,根据公式(3)~公式(5)计算甲骨文字区域的预测损失TotalLoss;
TotalLoss=Loss+RLoss (5)
所述||·||1表示L1-范数;
步骤2.11若训练集中的所有图像均已处理完毕,则转入步骤2.12,否则从训练集中取出一幅未处理的图像,令其为T,返回步骤2.2;
步骤2.12令iter←iter+1,若迭代次数iter>Total_iter,则得到已训练好的深度卷积神经网络Nobc,转入步骤3,否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新Nobc的参数,转入步骤2.2重新处理训练集中的所有图像,所述Total_iter表示预设的迭代次数;
步骤3.输入待处理的甲骨刻辞图像I,其颜色空间为RGB,采用已完成训练的深度卷积神经网络Nobc检测I中的甲骨文字区域;
步骤3.1将I的颜色空间从RGB转换到HSV,并将其V分量记为IV;
步骤3.2采用最大类间方差法计算IV的最优全局阈值,并将IV进行二值化,保持I的饱和度分量IS和色调分量IH不变;
步骤3.3利用多条件连通区域填充算法对IV进行处理,得到图像I的粗去噪结果;
步骤3.3.1采用尺寸为10×10像素的矩形结构元素,对IV施加形态学开运算,并标记出全部的8-连通区域,令8-连通区域的总数为Nc;
步骤3.3.2采用OpenCV的contourArea方法,计算第i(1≤i≤Nc)个8-连通区域的面积与图像总面积的比值Si;
步骤3.3.3采用OpenCV的convexHull方法,计算第i个8-连通区域的凸包,进而利用contourArea方法计算第i个8-连通区域的轮廓面积与其凸包面积的比值Ki;
步骤3.3.4采用OpenCV的approxPolyDP多边拟合方法,计算第i个8-连通区域的多边形逼近角点数Ni;
步骤3.3.5对于第i个8-连通区域,若其满足Ki<0.4,或Si<0.001,或0.002<Si<0.014,或Ni>12且Si<0.05,则将该8-连通区域用黑色像素进行填充;
步骤3.3.6将处理后的IV分量与饱和度分量IS、色调分量IH从HSV颜色空间转换到RGB空间,令所得图像为I′;
步骤3.4采用子网络Nfeature提取图像I′的特征图;
步骤3.4.1利用卷积层Conv0的5个卷积核对图像I′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)的定义将5个卷积结果进行融合,从而提取出I′的局部先验纹理特征图F1;
步骤3.4.2利用卷积层Conv1对局部先验纹理特征图F1进行卷积运算,得到卷积特征图F2;
步骤3.4.3利用卷积层Conv2对卷积特征图F2进行卷积运算,得到更大尺度下的卷积特征图F3;
步骤3.4.4利用卷积层Conv3对卷积特征图F3进行卷积运算,得到更大尺度下的卷积特征图F4;
步骤3.4.5利用卷积层Conv4对卷积特征图F4进行卷积运算,得到更大尺度下的卷积特征图F5;
步骤3.4.6利用卷积层Conv5对卷积特征图F5进行卷积运算,得到更大尺度下的卷积特征图F6;
步骤3.5采用子网络Nrpn选取图像I′的候选甲骨文字区域;
步骤3.5.1利用卷积层RpnConv对卷积特征图F6进行卷积运算,得到初始区域建议结果Rinit;
步骤3.5.2利用卷积层RpnPred对初始区域建议结果Rinit进行处理,得到区域建议的预测集合Rpred;
步骤3.5.3利用卷积层RpnScore对初始区域建议结果Rinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合Rscore;
步骤3.5.4根据区域建议的预测集合Rpred和区域建议的可能性评估结果集合Rscore,利用非极大值抑制方法获得甲骨文字的候选区域集合RROIs,并相应地更新可能性评估结果集合Rscore;
步骤3.6对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,采用子网络Ndim提取该区域的卷积特征图;
步骤3.6.1将每个候选甲骨文字区域RROI作为掩码,提取出卷积特征图F6中处于该区域的卷积特征子图F′6;
步骤3.6.2采用剪裁池化层CropPool将卷积特征子图F′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图F″6;
步骤3.6.3利用卷积层Conv6对卷积特征子图F″6进行卷积运算,得到更大尺度下的卷积特征图F′7;
步骤3.6.4利用卷积层Conv7对卷积特征图F′7进行卷积运算,得到更大尺度下的卷积特征图F′8;
步骤3.6.5按照光栅扫描的顺序,将卷积特征图F′8拉伸成长度为4096的一维向量F′1d;
步骤3.7对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,根据RROI所对应的一维向量F′1d,采用子网络Ncls对其进行分类,计算得到其候选框的顶点坐标集合、分类置信度向量和分类预测结果;
步骤3.7.1利用全连接层Fc1对一维向量F′1d进行处理,得到候选区域的顶点坐标集合B′pred;
步骤3.7.2利用全连接层Fc2对一维向量F′1d进行处理,得到候选甲骨文字区域RROI的分类置信度向量Scls,再经过softmax激活函数,得出最终的分类预测结果S′pred;
步骤3.7.3若分类预测结果S′pred为“甲骨文字区域”,则保留RROI,否则从RROIs中将RROI删除,从Rscore中删除RROI所对应的评分,并删除顶点坐标集合B′pred;
步骤3.8根据甲骨文字的候选区域集合RROIs中每个候选文字区域RROI的顶点坐标及其评分结果,利用非极大值抑制算法去除重叠的候选框,进而获得最终的甲骨文字区域的顶点坐标集合Bfinal,并更新可能性评估结果集合Rscore;
步骤3.9根据顶点坐标集合Bfinal和可能性评估结果集合Rscore,在待处理图像I上绘制矩形候选框及其置信度,并输出带有框选标记的结果图像。
本发明与现有技术相比,具有如下优点:第一,利用特定卷积核和数学形态学等手段,对文字边缘方向、轮廓面积与凸包面积比、连通区域面积、多边形逼近角点数等局部先验特征进行提取,并采用深度卷积神经网络对甲骨文字的字形特征进行自主学习,从而将局部先验特征和全局深度卷积特征进行有效融合和相互补充、增强,充分发掘了甲骨刻辞文字的连通区域特征和形状特征,可在一定程度上抵抗点状噪声、片状斑纹以及龟甲、兽骨固有纹理的干扰,较为准确地检测出甲骨文字;第二,无需人工交互,可以批量自动处理甲骨文字图像,不仅在时间效率上明显优于人工检测方法和基于联合边界框校准的自然场景文本检测等传统的目标检测方法,而且平均检测精度也高于传统的目标检测方法。本发明平均查全率达到88.9%,平均查准率达到了80.23%,具有准确性高、鲁棒性好、处理速度快、自适应能力强等优点。
附图说明
图1是本发明对不同甲骨拓片图像的文字检测结果图。
具体实施方式
本发明的结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法,按照如下步骤进行;
步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络Nobc,所述Nobc包含1个用于特征提取的子网络Nfeature、1个用于甲骨文字区域建议的子网络Nrpn、1个用于甲骨文字区域特征降维的子网络Ndim和1个用于区域分类的子网络Ncls;
步骤1.1建立并初始化子网络Nfeature,含有6组卷积层,分别为Conv0、Conv1、Conv2、Conv3、Conv4和Conv5;
所述Conv0包含1层卷积操作和5个由公式(1)定义的预设卷积核,每个卷积核以1个像素为步长进行卷积运算;
所述Conv1包含2层卷积操作和1层池化操作,其中,每个卷积层含有64个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化(Max Pooling)运算;
所述Conv2包含2层卷积操作和1层池化操作,其中,每个卷积层含有128个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv3包含3层卷积操作和1层池化操作,其中,每个卷积层含有256个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv4包含3层卷积操作和1层池化操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv5包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;
步骤1.2建立并初始化子网络Nrpn,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;
所述RpnConv包含1层卷积操作,含有512个大小为3×3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnPred包含1层卷积操作,含有36个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnScore包含1层卷积操作,含有18个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤1.3建立并初始化子网络Ndim,含有1组剪裁池化层和2组卷积层,分别为CropPool、Conv6和Conv7;
所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14×14像素,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv6包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
所述Conv7包含1层卷积操作,含有4096个大小为1×1的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
步骤1.4建立并初始化子网络Ncls,含有2组全连接层,分别为Fc1和Fc2;
所述Fc1有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;
所述Fc2有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络Nobc进行训练;
步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集Cref和甲骨文字区域标签集Clabel,令迭代次数iter←1,执行步骤2.2~2.11;
步骤2.2将每幅图像T的颜色空间从RGB转换到HSV,并将其V分量记为TV;
步骤2.3采用最大类间方差法计算TV的最优全局阈值,并将TV进行二值化,而保持每幅图像T的饱和度分量TS和色调分量TH不变;
步骤2.4将二值化后的TV分量与饱和度分量TS、色调分量TH从HSV颜色空间转换到RGB空间,令所得图像为T′;
步骤2.5采用子网络Nfeature提取图像T′的特征图;
步骤2.5.1利用卷积层Conv0的5个卷积核对图像T′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)将5个卷积结果进行融合,提取出图像T′的局部先验纹理特征图TF1;
C=C1×w1+C2×w2+C3×w3+C4×w4+C5×w5 (2)
所述w1和w2表示预设权重;
步骤2.5.2利用卷积层Conv1对局部先验纹理特征图TF1进行卷积运算,得到卷积特征图TF2;
步骤2.5.3利用卷积层Conv2对卷积特征图TF2进行卷积运算,得到更大尺度下的卷积特征图TF3;
步骤2.5.4利用卷积层Conv3对卷积特征图TF3进行卷积运算,得到更大尺度下的卷积特征图TF4;
步骤2.5.5利用卷积层Conv4对卷积特征图TF4进行卷积运算,得到更大尺度下的卷积特征图TF5;
步骤2.5.6利用卷积层Conv5对卷积特征图TF5进行卷积运算,得到更大尺度下的卷积特征图TF6;
步骤2.6采用子网络Nrpn选取图像T′的候选甲骨文字区域;
步骤2.6.1利用卷积层RpnConv对卷积特征图TF6进行卷积运算,得到初始区域建议结果TRinit;
步骤2.6.2利用卷积层RpnPred对初始区域建议结果TRinit进行处理,得到区域建议的预测集合TRpred;
步骤2.6.3利用卷积层RpnScore对区域建议的预测集合TRinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合TRscore;
步骤2.6.4根据区域建议的预测集合TRpred和区域建议的可能性评估结果集合TRscore,利用非极大值抑制(Non-Maximum Suppression,NMS)方法获得图像T′的候选区域集合TRROIs;
步骤2.7对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,采用子网络Ndim提取该区域的卷积特征图;
步骤2.7.1将每个候选甲骨文字区域TRROI作为掩码(mask),提取出卷积特征图TF6中处于该区域的卷积特征子图TF′6;
步骤2.7.2采用剪裁池化层CropPool将卷积特征子图TF′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图TF″6;
步骤2.7.3利用卷积层Conv6对卷积特征子图TF″6进行卷积运算,得到更大尺度下的卷积特征图TF′7;
步骤2.7.4利用卷积层Conv7对卷积特征图TF′7进行卷积运算,得到更大尺度下的卷积特征图TF′8;
步骤2.7.5按照光栅扫描的顺序,将卷积特征图TF′8拉伸成长度为4096的一维向量TF′1d;
步骤2.8对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,根据TRROI所对应的一维向量TF′1d,采用子网络Ncls对其进行分类,计算得出其候选区域的顶点坐标集合、分类置信度向量和分类预测结果;
步骤2.8.1利用全连接层Fc1对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的顶点坐标集合TB′pred;
步骤2.8.2利用全连接层Fc2对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的分类置信度向量TScls,再经过softmax激活函数,得出最终的分类预测结果TS′pred;
步骤2.9将图像T′的每个候选文字区域的顶点坐标集合TB′pred取并集,得到图像T′的所有候选文字区域的集合TBpred;
步骤2.10分别计算分类置信度向量TScls与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss1、所有候选文字区域的集合TBpred与人工标注的甲骨文字区域集合Cref的重叠度(Intersection over Union,IoU)损失Loss2、区域建议的可能性评估结果集合TRscore与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss3、区域建议的预测集合TRpred与人工标注的甲骨文字区域集合Cref的重叠度损失Loss4,根据公式(3)~公式(5)计算甲骨文字区域的预测损失TotalLoss;
TotalLoss=Loss+RLoss (5)
所述||·||1表示L1-范数;
步骤2.11若训练集中的所有图像均已处理完毕,则转入步骤2.12,否则从训练集中取出一幅未处理的图像,令其为T,返回步骤2.2;
步骤2.12令iter←iter+1,若迭代次数iter>Total_iter,则得到已训练好的深度卷积神经网络Nobc,转入步骤3,否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新Nobc的参数,转入步骤2.2重新处理训练集中的所有图像,所述Total_iter表示预设的迭代次数;
步骤3.输入待处理的甲骨刻辞图像I,其颜色空间为RGB,采用已完成训练的深度卷积神经网络Nobc检测I中的甲骨文字区域;
步骤3.1将I的颜色空间从RGB转换到HSV,并将其V分量记为IV;
步骤3.2采用最大类间方差法计算IV的最优全局阈值,并将IV进行二值化,保持I的饱和度分量IS和色调分量IH不变;
步骤3.3利用多条件连通区域填充算法对IV进行处理,得到图像I的粗去噪结果;
步骤3.3.1采用尺寸为10×10像素的矩形结构元素,对IV施加形态学开运算,并标记出全部的8-连通区域,令8-连通区域的总数为Nc;
步骤3.3.2采用OpenCV的contourArea方法,计算第i(1≤i≤Nc)个8-连通区域的面积与图像总面积的比值Si;
步骤3.3.3采用OpenCV的convexHull方法,计算第i个8-连通区域的凸包,进而利用contourArea方法计算第i个8-连通区域的轮廓面积与其凸包面积的比值Ki;
步骤3.3.4采用OpenCV的approxPolyDP多边拟合方法,计算第i个8-连通区域的多边形逼近角点数Ni;
步骤3.3.5对于第i个8-连通区域,若其满足Ki<0.4,或Si<0.001,或0.002<Si<0.014,或Ni>12且Si<0.05,则将该8-连通区域用黑色像素进行填充;
步骤3.3.6将处理后的IV分量与饱和度分量IS、色调分量IH从HSV颜色空间转换到RGB空间,令所得图像为I′;
步骤3.4采用子网络Nfeature提取图像I′的特征图;
步骤3.4.1利用卷积层Conv0的5个卷积核对图像I′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)的定义将5个卷积结果进行融合,从而提取出I′的局部先验纹理特征图F1;
步骤3.4.2利用卷积层Conv1对局部先验纹理特征图F1进行卷积运算,得到卷积特征图F2;
步骤3.4.3利用卷积层Conv2对卷积特征图F2进行卷积运算,得到更大尺度下的卷积特征图F3;
步骤3.4.4利用卷积层Conv3对卷积特征图F3进行卷积运算,得到更大尺度下的卷积特征图F4;
步骤3.4.5利用卷积层Conv4对卷积特征图F4进行卷积运算,得到更大尺度下的卷积特征图F5;
步骤3.4.6利用卷积层Conv5对卷积特征图F5进行卷积运算,得到更大尺度下的卷积特征图F6;
步骤3.5采用子网络Nrpn选取图像I′的候选甲骨文字区域;
步骤3.5.1利用卷积层RpnConv对卷积特征图F6进行卷积运算,得到初始区域建议结果Rinit;
步骤3.5.2利用卷积层RpnPred对初始区域建议结果Rinit进行处理,得到区域建议的预测集合Rpred;
步骤3.5.3利用卷积层RpnScore对初始区域建议结果Rinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合Rscore;
步骤3.5.4根据区域建议的预测集合Rpred和区域建议的可能性评估结果集合Rscore,利用非极大值抑制(Non-Maximum Suppression,NMS)方法获得甲骨文字的候选区域集合RROIs,并相应地更新可能性评估结果集合Rscore;
步骤3.6对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,采用子网络Ndim提取该区域的卷积特征图;
步骤3.6.1将每个候选甲骨文字区域RROI作为掩码,提取出卷积特征图F6中处于该区域的卷积特征子图F′6;
步骤3.6.2采用剪裁池化层CropPool将卷积特征子图F′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图F″6;
步骤3.6.3利用卷积层Conv6对卷积特征子图F″6进行卷积运算,得到更大尺度下的卷积特征图F′7;
步骤3.6.4利用卷积层Conv7对卷积特征图F′7进行卷积运算,得到更大尺度下的卷积特征图F′8;
步骤3.6.5按照光栅扫描的顺序,将卷积特征图F′8拉伸成长度为4096的一维向量F′1d;
步骤3.7对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,根据RROI所对应的一维向量F′1d,采用子网络Ncls对其进行分类,计算得到其候选框的顶点坐标集合、分类置信度向量和分类预测结果;
步骤3.7.1利用全连接层Fc1对一维向量F′1d进行处理,得到候选区域的顶点坐标集合B′pred;
步骤3.7.2利用全连接层Fc2对一维向量F′1d进行处理,得到候选甲骨文字区域RROI的分类置信度向量Scls,再经过softmax激活函数,得出最终的分类预测结果S′pred;
步骤3.7.3若分类预测结果S′pred为“甲骨文字区域”,则保留RROI,否则从RROIs中将RROI删除,从Rscore中删除RROI所对应的评分,并删除顶点坐标集合B′pred;
步骤3.8根据甲骨文字的候选区域集合RROIs中每个候选文字区域RROI的顶点坐标及其评分结果,利用非极大值抑制算法去除重叠的候选框,进而获得最终的甲骨文字区域的顶点坐标集合Bfinal,并更新可能性评估结果集合Rscore;
步骤3.9根据顶点坐标集合Bfinal和可能性评估结果集合Rscore,在待处理图像I上绘制矩形候选框及其置信度,并输出带有框选标记的结果图像。
从《甲骨文合集》中选取1000幅甲骨拓片图像,分别采用CTPN(ConnectionistText Proposal Network)方法、EAST(Efficient and Accurate Scene Text Detector)方法和本发明进行甲骨文字检测得到的平均查全率和查准率结果如表1,本发明实施例对不同甲骨拓片图像的文字检测结果如图1中a~i所示。
从表1可见,由于CTPN方法和EAST方法受到龟甲和兽骨上的点状噪声、片状斑纹和固有纹理的干扰,并且没有充分发掘甲骨文字的本质特征,其查全率和查准率均很低,而本发明则通过将先验特征与深度卷积特征相结合,有效区分甲骨刻辞文字和甲骨固有纹理、噪声,从而提高了检测算法对点状噪声、片状斑纹和固有纹理的鲁棒性,能够准确地检测出拓片图像中的文字区域,有利于提高后续的甲骨文字自动分割和识别的精度。
表1甲骨刻辞文字自动检测的结果统计表
Claims (1)
1.一种结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法,其特征在于按照如下步骤进行:
步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络Nobc,所述Nobc包含1个用于特征提取的子网络Nfeature、1个用于甲骨文字区域建议的子网络Nrpn、1个用于甲骨文字区域特征降维的子网络Ndim和1个用于区域分类的子网络Ncls;
步骤1.1建立并初始化子网络Nfeature,含有6组卷积层,分别为Conv0、Conv1、Conv2、Conv3、Conv4和Conv5;
所述Conv0包含1层卷积操作和5个由公式(1)定义的预设卷积核,每个卷积核以1个像素为步长进行卷积运算;
所述Conv1包含2层卷积操作和1层池化操作,其中,每个卷积层含有64个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv2包含2层卷积操作和1层池化操作,其中,每个卷积层含有128个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv3包含3层卷积操作和1层池化操作,其中,每个卷积层含有256个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv4包含3层卷积操作和1层池化操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv5包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;
步骤1.2建立并初始化子网络Nrpn,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;
所述RpnConv包含1层卷积操作,含有512个大小为3×3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnPred包含1层卷积操作,含有36个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnScore包含1层卷积操作,含有18个大小为1×1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤1.3建立并初始化子网络Ndim,含有1组剪裁池化层和2组卷积层,分别为CropPool、Conv6和Conv7;
所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14×14像素,池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算;
所述Conv6包含3层卷积操作,其中,每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
所述Conv7包含1层卷积操作,含有4096个大小为1×1的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算;
步骤1.4建立并初始化子网络Ncls,含有2组全连接层,分别为Fc1和Fc2;
所述Fc1有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;
所述Fc2有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布进行初始化;
步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络Nobc进行训练;
步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集Cref和甲骨文字区域标签集Clabel,令迭代次数iter←1,执行步骤2.2~2.11;
步骤2.2将每幅图像T的颜色空间从RGB转换到HSV,并将其V分量记为TV;
步骤2.3采用最大类间方差法计算TV的最优全局阈值,并将TV进行二值化,而保持每幅图像T的饱和度分量TS和色调分量TH不变;
步骤2.4将二值化后的TV分量与饱和度分量TS、色调分量TH从HSV颜色空间转换到RGB空间,令所得图像为T′;
步骤2.5采用子网络Nfeature提取图像T′的特征图;
步骤2.5.1利用卷积层Conv0的5个卷积核对图像T′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)将5个卷积结果进行融合,提取出图像T′的局部先验纹理特征图TF1;
C=C1×w1+C2×w2+C3×w3+C4×w4+C5×w5 (2)
所述w1、w2、w3、w4和w5表示预设权重;
步骤2.5.2利用卷积层Conv1对局部先验纹理特征图TF1进行卷积运算,得到卷积特征图TF2;
步骤2.5.3利用卷积层Conv2对卷积特征图TF2进行卷积运算,得到更大尺度下的卷积特征图TF3;
步骤2.5.4利用卷积层Conv3对卷积特征图TF3进行卷积运算,得到更大尺度下的卷积特征图TF4;
步骤2.5.5利用卷积层Conv4对卷积特征图TF4进行卷积运算,得到更大尺度下的卷积特征图TF5;
步骤2.5.6利用卷积层Conv5对卷积特征图TF5进行卷积运算,得到更大尺度下的卷积特征图TF6;
步骤2.6采用子网络Nrpn选取图像T′的候选甲骨文字区域;
步骤2.6.1利用卷积层RpnConv对卷积特征图TF6进行卷积运算,得到初始区域建议结果TRinit;
步骤2.6.2利用卷积层RpnPred对初始区域建议结果TRinit进行处理,得到区域建议的预测集合TRpred;
步骤2.6.3利用卷积层RpnScore对区域建议的预测集合TRinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合TRscore;
步骤2.6.4根据区域建议的预测集合TRpred和区域建议的可能性评估结果集合TRscore,利用非极大值抑制方法获得图像T′的候选区域集合TRROIs;
步骤2.7对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,采用子网络Ndim提取该区域的卷积特征图;
步骤2.7.1将每个候选甲骨文字区域TRROI作为掩码,提取出卷积特征图TF6中处于该区域的卷积特征子图TF′6;
步骤2.7.2采用剪裁池化层CropPool将卷积特征子图TF′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图TF″6;
步骤2.7.3利用卷积层Conv6对卷积特征子图TF″6进行卷积运算,得到更大尺度下的卷积特征图TF′7;
步骤2.7.4利用卷积层Conv7对卷积特征图TF′7进行卷积运算,得到更大尺度下的卷积特征图TF′8;
步骤2.7.5按照光栅扫描的顺序,将卷积特征图TF′8拉伸成长度为4096的一维向量TF′1d;
步骤2.8对于图像T′的候选区域集合TRROIs的每个候选甲骨文字区域TRROI,根据TRROI所对应的一维向量TF′1d,采用子网络Ncls对其进行分类,计算得出其候选区域的顶点坐标集合、分类置信度向量和分类预测结果;
步骤2.8.1利用全连接层Fc1对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的顶点坐标集合TB′pred;
步骤2.8.2利用全连接层Fc2对一维向量TF′1d进行处理,得到候选甲骨文字区域TRROI的分类置信度向量TScls,再经过softmax激活函数,得出最终的分类预测结果TS′pred;
步骤2.9将图像T′的每个候选文字区域的顶点坐标集合TB′pred取并集,得到图像T′的所有候选文字区域的集合TBpred;
步骤2.10分别计算分类置信度向量TScls与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss1、所有候选文字区域的集合TBpred与人工标注的甲骨文字区域集合Cref的重叠度损失Loss2、区域建议的可能性评估结果集合TRscore与人工标注的甲骨文字区域标签集Clabel的交叉熵损失Loss3、区域建议的预测集合TRpred与人工标注的甲骨文字区域集合Cref的重叠度损失Loss4,根据公式(3)~公式(5)计算甲骨文字区域的预测损失TotalLoss;
TotalLoss=Loss+RLoss (5)
所述||·||1表示L1范数;
步骤2.11若训练集中的所有图像均已处理完毕,则转入步骤2.12,否则从训练集中取出一幅未处理的图像,令其为T,返回步骤2.2;
步骤2.12令iter←iter+1,若迭代次数iter>Total_iter,则得到已训练好的深度卷积神经网络Nobc,转入步骤3,否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新Nobc的参数,转入步骤2.2重新处理训练集中的所有图像,所述Total_iter表示预设的迭代次数;
步骤3.输入待处理的甲骨刻辞图像I,其颜色空间为RGB,采用已完成训练的深度卷积神经网络Nobc检测I中的甲骨文字区域;
步骤3.1将I的颜色空间从RGB转换到HSV,并将其V分量记为IV;
步骤3.2采用最大类间方差法计算IV的最优全局阈值,并将IV进行二值化,保持I的饱和度分量IS和色调分量IH不变;
步骤3.3利用多条件连通区域填充算法对IV进行处理,得到图像I的粗去噪结果;
步骤3.3.1采用尺寸为10×10像素的矩形结构元素,对IV施加形态学开运算,并标记出全部的8-连通区域,令8-连通区域的总数为Nc;
步骤3.3.2采用OpenCV的contourArea方法,计算第i(1≤i≤Nc)个8-连通区域的面积与图像总面积的比值Si;
步骤3.3.3采用OpenCV的convexHull方法,计算第i个8-连通区域的凸包,进而利用contourArea方法计算第i个8-连通区域的轮廓面积与其凸包面积的比值Ki;
步骤3.3.4采用OpenCV的approxPolyDP多边拟合方法,计算第i个8-连通区域的多边形逼近角点数Ni;
步骤3.3.5对于第i个8-连通区域,若其满足Ki<0.4,或Si<0.001,或0.002<Si<0.014,或Ni>12且Si<0.05,则将该8-连通区域用黑色像素进行填充;
步骤3.3.6将处理后的IV分量与饱和度分量IS、色调分量IH从HSV颜色空间转换到RGB空间,令所得图像为I′;
步骤3.4采用子网络Nfeature提取图像I′的特征图;
步骤3.4.1利用卷积层Conv0的5个卷积核对图像I′进行卷积运算,令各个卷积核的计算结果分别为C1、C2、C3、C4、C5,再根据公式(2)的定义将5个卷积结果进行融合,从而提取出I′的局部先验纹理特征图F1;
步骤3.4.2利用卷积层Conv1对局部先验纹理特征图F1进行卷积运算,得到卷积特征图F2;
步骤3.4.3利用卷积层Conv2对卷积特征图F2进行卷积运算,得到更大尺度下的卷积特征图F3;
步骤3.4.4利用卷积层Conv3对卷积特征图F3进行卷积运算,得到更大尺度下的卷积特征图F4;
步骤3.4.5利用卷积层Conv4对卷积特征图F4进行卷积运算,得到更大尺度下的卷积特征图F5;
步骤3.4.6利用卷积层Conv5对卷积特征图F5进行卷积运算,得到更大尺度下的卷积特征图F6;
步骤3.5采用子网络Nrpn选取图像I′的候选甲骨文字区域;
步骤3.5.1利用卷积层RpnConv对卷积特征图F6进行卷积运算,得到初始区域建议结果Rinit;
步骤3.5.2利用卷积层RpnPred对初始区域建议结果Rinit进行处理,得到区域建议的预测集合Rpred;
步骤3.5.3利用卷积层RpnScore对初始区域建议结果Rinit进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合Rscore;
步骤3.5.4根据区域建议的预测集合Rpred和区域建议的可能性评估结果集合Rscore,利用非极大值抑制方法获得甲骨文字的候选区域集合RROIs,并相应地更新可能性评估结果集合Rscore;
步骤3.6对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,采用子网络Ndim提取该区域的卷积特征图;
步骤3.6.1将每个候选甲骨文字区域RROI作为掩码,提取出卷积特征图F6中处于该区域的卷积特征子图F6′;
步骤3.6.2采用剪裁池化层CropPool将卷积特征子图F′6缩放变换为14×14像素,得到尺寸归一化后的卷积特征子图F″6;
步骤3.6.3利用卷积层Conv6对卷积特征子图F″6进行卷积运算,得到更大尺度下的卷积特征图F′7;
步骤3.6.4利用卷积层Conv7对卷积特征图F′7进行卷积运算,得到更大尺度下的卷积特征图F′8;
步骤3.6.5按照光栅扫描的顺序,将卷积特征图F′8拉伸成长度为4096的一维向量F′1d;
步骤3.7对于甲骨文字的候选区域集合RROIs的每个候选甲骨文字区域RROI,根据RROI所对应的一维向量F′1d,采用子网络Ncls对其进行分类,计算得到其候选框的顶点坐标集合、分类置信度向量和分类预测结果;
步骤3.7.1利用全连接层Fc1对一维向量F′1d进行处理,得到候选区域的顶点坐标集合B′pred;
步骤3.7.2利用全连接层Fc2对一维向量F′1d进行处理,得到候选甲骨文字区域RROI的分类置信度向量Scls,再经过softmax激活函数,得出最终的分类预测结果S′pred;
步骤3.7.3若分类预测结果S′pred为“甲骨文字区域”,则保留RROI,否则从RROIs中将RROI删除,从Rscore中删除RROI所对应的评分,并删除顶点坐标集合B′pred;
步骤3.8根据甲骨文字的候选区域集合RROIs中每个候选文字区域RROI的顶点坐标及其评分结果,利用非极大值抑制算法去除重叠的候选框,进而获得最终的甲骨文字区域的顶点坐标集合Bfinal,并更新可能性评估结果集合Rscore;
步骤3.9根据顶点坐标集合Bfinal和可能性评估结果集合Rscore,在待处理图像I上绘制矩形候选框及其置信度,并输出带有框选标记的结果图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094934.1A CN111310760B (zh) | 2020-02-13 | 2020-02-13 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094934.1A CN111310760B (zh) | 2020-02-13 | 2020-02-13 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310760A CN111310760A (zh) | 2020-06-19 |
CN111310760B true CN111310760B (zh) | 2023-05-26 |
Family
ID=71158271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010094934.1A Active CN111310760B (zh) | 2020-02-13 | 2020-02-13 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310760B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070684B (zh) * | 2020-08-04 | 2023-05-23 | 辽宁师范大学 | 基于形态先验特征的甲骨刻辞文字修复方法 |
CN112364726B (zh) * | 2020-10-27 | 2024-06-04 | 重庆大学 | 基于改进east的零件喷码字符定位的方法 |
CN112819007B (zh) * | 2021-01-07 | 2023-08-01 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112926581B (zh) * | 2021-03-29 | 2022-11-08 | 中国科学院合肥物质科学研究院 | 一种基于轮廓建模的文本检测方法 |
CN113033539B (zh) * | 2021-03-30 | 2022-12-06 | 北京有竹居网络技术有限公司 | 练字格检测方法、装置、可读介质及电子设备 |
CN113724214B (zh) * | 2021-08-23 | 2024-02-23 | 唯智医疗科技(佛山)有限公司 | 一种基于神经网络的图像处理方法及装置 |
CN113516676B (zh) * | 2021-09-14 | 2021-12-28 | 成都时识科技有限公司 | 角点检测方法、脉冲神经网络处理器、芯片及电子产品 |
CN114494306B (zh) * | 2022-01-27 | 2024-04-05 | 辽宁师范大学 | 边缘梯度协方差引导的甲骨卜辞文字轮廓修复方法 |
CN117809318B (zh) * | 2024-03-01 | 2024-05-28 | 微山同在电子信息科技有限公司 | 基于机器视觉的甲骨文识别方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241982A (zh) * | 2018-09-06 | 2019-01-18 | 广西师范大学 | 基于深浅层卷积神经网络的目标检测方法 |
CN110309830A (zh) * | 2019-06-04 | 2019-10-08 | 辽宁师范大学 | 基于数学形态学和区域连通性的甲骨文字自动分割方法 |
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
-
2020
- 2020-02-13 CN CN202010094934.1A patent/CN111310760B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241982A (zh) * | 2018-09-06 | 2019-01-18 | 广西师范大学 | 基于深浅层卷积神经网络的目标检测方法 |
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
CN110309830A (zh) * | 2019-06-04 | 2019-10-08 | 辽宁师范大学 | 基于数学形态学和区域连通性的甲骨文字自动分割方法 |
Non-Patent Citations (1)
Title |
---|
基于Capsule网络的甲骨文构件识别方法;鲁绪正;蔡恒进;林莉;;智能系统学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111310760A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310760B (zh) | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN107609549B (zh) | 一种自然场景下证件图像的文本检测方法 | |
CN110544251B (zh) | 基于多迁移学习模型融合的大坝裂缝检测方法 | |
CN104751187B (zh) | 抄表图像自动识别方法 | |
CN110717896B (zh) | 基于显著性标签信息传播模型的板带钢表面缺陷检测方法 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN110807422A (zh) | 一种基于深度学习的自然场景文本检测方法 | |
CN111553837B (zh) | 一种基于神经风格迁移的艺术文本图像生成方法 | |
CN110619327A (zh) | 一种复杂场景下基于深度学习的实时车牌识别方法 | |
CN109241973B (zh) | 一种纹理背景下的字符全自动软分割方法 | |
CN103093240A (zh) | 书法字识别方法 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN113139457A (zh) | 一种基于crnn的图片表格提取方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Mello et al. | Automatic image segmentation of old topographic maps and floor plans | |
CN113673384A (zh) | Lm滤波器组引导纹理特征自主学习的甲骨文字检测方法 | |
CN112686265A (zh) | 一种基于层级轮廓提取的象形文字分割方法 | |
CN111310754A (zh) | 一种分割车牌字符的方法 | |
CN107609482B (zh) | 一种基于汉字笔画特征的中文文本图像倒置判别方法 | |
CN112070684B (zh) | 基于形态先验特征的甲骨刻辞文字修复方法 | |
Qin et al. | Robust and accurate text stroke segmentation | |
CN108985294B (zh) | 一种轮胎模具图片的定位方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |