CN109685065A - 试卷内容自动分类的版面分析方法、系统 - Google Patents
试卷内容自动分类的版面分析方法、系统 Download PDFInfo
- Publication number
- CN109685065A CN109685065A CN201811512183.XA CN201811512183A CN109685065A CN 109685065 A CN109685065 A CN 109685065A CN 201811512183 A CN201811512183 A CN 201811512183A CN 109685065 A CN109685065 A CN 109685065A
- Authority
- CN
- China
- Prior art keywords
- communication means
- classification
- text
- energy function
- page analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 238000004891 communication Methods 0.000 claims abstract description 157
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 74
- 238000005381 potential energy Methods 0.000 claims description 71
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000008447 perception Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 11
- 239000012141 concentrate Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000007639 printing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
Abstract
本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;对非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;输出文档图像内容的分类结果。采用本发明的方法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。
Description
技术领域
本发明涉及电子设备技术领域,尤其涉及一种试卷内容自动分类的版面分析方法、系统。
背景技术
复杂文档图像的版面分析算法在文档分析与识别领域占据着至关重要的地位,尤其是随着近些年来深度学习在文字识别领域的应用,单字识别、单词识别以及字符串识别等已经取得了非常高的正确率,使得版面分析成为了整个文档分析与识别流程中的瓶颈所在。在很多情况下,文档中可能存在不止一种内容,而是存在着文字、几何图形、插图、表格、公式、背景噪声等多种内容。对于文字类别而言,又可能存在着印刷体文字、手写体文字、不同语种、不同语言、不同字体、不同风格等多种类型的文字的混合。在进行后续处理之前,往往需要将不同类型的内容分类,然后使用相应的算法进行后续处理。
对于图像中文本/非文本分类以及印刷体手/写体文字分类,常用的算法主要有三类:单元素(像素、连通部件、单词等)独立分类、基于结构化预测的分类以及基于LSTM(长短时记忆递归神经网络)的分类。其中基于LSTM的分类主要针对的是在线手写文本,而其他两类算法既可以处理在线文本也可以处理离线文本。单元素独立分类算法[1]仅考虑局部信息,使用分类器对单个分类基元的特征进行分类,没有考虑上下文信息,因此分类结果会存在较多噪声。基于结构化预测的分类可以考虑上下文信息,将分类问题转化成一个求解联合概率最大的全局优化问题,因此能够达到更高的分类效果。但是目前的结构化预测算法中,二元势能函数往往仅使用简单的函数(例如高斯势能函数[2])来对节点间的相容性进行建模,因此可能会造成分类结果过度平滑,损失细节信息。也有一些学者[3]将条件随机场的一元势能函数和二元势能函数都用多层感知机建模,以求更好地挖掘上下文信息。但是该工作中的文档是在线手写文档,作者使用的图模型结构是线性链条件随机场,而这种结构对于离线文档而言是不适用的。基于LSTM的分类[4]使用LSTM来对时间序列的上下文信息进行建模,但是它往往会忽略空间上的上下文信息,而这些信息可能对于分类是至关重要的。
总的来说,虽然研究者们提出了很多关于文档内容分类的版面分析方法,但是主要关注的还是比较简单的文档图像。对于复杂的试卷文档图像,由于其中包含的内容丰富多样,加上版面结构的复杂多变,给现有的版面分析方法带来了巨大的挑战。虽然有已有一些基于结构化预测的方法,但是所用的势能函数或者是网络结构仍然相对比较初级,对于基于一般无向有环图结构的结构化预测方法还没有进行过充分的研究,因此仍然不能很好地应对具有复杂内容的文档版面分析任务。
鉴于上述原因,有必要提出一种试卷内容自动分类的版面分析方法。
以下文献是与本发明相关的技术背景资料:
[1]E.Indermühle,M.Liwicki,and H.Bunke,“IAMOnDo-database:anonlinehandwritten document database with non-uniform contents,”inProceedings of the9th IAPR International Workshop on DocumentAnalysis Systems(DAS 2010).ACM,2010,pp.97–104.
[2]S.Zheng,S.Jayasumana,B.Romera-Paredes,V.Vineet,Z.Su,D.Du,C.Huang,and P.H.Torr,“Conditional random fields as recurrent neuralnetworks,”inProceedings of the IEEE International Conference on Computer Vision(ICCV2015),2015,pp.1529–1537.
[3]Ye,Jun-Yu,Yan-Ming Zhang,and Cheng-Lin Liu."Joint training ofconditional random fields and neural networks for stroke classification inonline handwritten documents."in Proceedings of the 23rd InternationalConference on Pattern Recognition(ICPR2016).IEEE,2016.
[4]T.Van Phan and M.Nakagawa,“Combination of global and localcontextsfor text/non-text classification in heterogeneous onlinehandwrittendocuments,”Pattern Recognition,vol.51,pp.112–124,2016.
[5]Chang F,Chen C J,Lu C J.A linear-time component-labeling algorithmusing contour tracing technique[J].Computer Vision and Image Understanding,2004,93(2):206-220.
[6]Liu C L,Koga M,Fujisawa H.Lexicon-driven segmentation andrecognition of handwritten character strings for Japanese address reading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(11):1425-1437.
发明内容
本发明的主要目的在于提供一种试卷内容自动分类的版面分析方法、系统,使用人工神经网络(多层感知机或者卷积神经网络)来对条件随机场的一元势能函数和二元势能函数进行建模,从而更好地挖掘元素的上下文信息,然后利用结构化预测方法来对所有元素的类别进行联合预测。结构化预测算法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。
为实现上述目的,本发明提供的一种试卷内容自动分类的版面分析方法,所述方法包括如下步骤:
步骤S10,获取录入的文档图像;
步骤S20,提取所述文档图像的连通部件构成原始联通部件集,并对各连通部件提取特征;
步骤S30,根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;
步骤S40,对步骤S30中得到的非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;
步骤S50,对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;
步骤S60,输出文档图像内容的分类结果。
优选地,所述步骤20之前还包括:
步骤S11,对所述文档图像进行预处理;所述预处理包括灰度变换和二值化处理。
优选地,所述步骤S11中所采用的灰度变换,具体包括:对所述文档图像中的像素(i,j),通过下式进行灰度值变换,获得变换后的灰度值I′(i,j),
其中,I(i,j)为像素(i,j)变换前的灰度值,M(i,j)为以像素(i,j)为中心的预设窗口内的灰度均值,α和K为两个超参数,α=0.5,K=10。
优选地,步骤S30中“对各连通部件进行文本和非文本的分类”,其方法为:
对于原始连通部件集,采用基于多层感知机的条件随机场对进行结构化预测,获取联通部件的文本和非文本的分类。
优选地,步骤S30中所述条件随机场中包含的一元势能函数和二元势能函数采用人工神经网络分别建模得到的第一一元势能函数模型和第一二元势能函数模型;所述第一一元势能函数模型的输入是单个连通部件的特征向量,输出是该连通部件属于各预设类别的概率;第一二元势能函数模型的输入是一对连通部件的特征向量,输出是它们同时属于对应类别的概率。
优选地,步骤S50中“进行印刷体文字和手写体文字的分类”,其方法为:
对于步骤S40中得到的文本连通部件集,采用基于人工神经网络的条件随机场进行结构化预测,获取印刷体文字和手写体文字的分类。
优选地,步骤S50中所述条件随机场中的一元势能函数和二元势能函数采用人工神经网络进行建模分别得到第二一元势能函数模型和第二二元势能函数模型;所述第二一元势能函数模型的输入是归一化尺寸的单个联通部件,输出是该连通部件属于各预设类别的概率;所述第二二元势能函数模型的输入是一对连通部件各自归一化的图像、以及文档图像中包含该对连通部件的最小矩形区域的归一化图像,输出是该对连通部件同时属于各预设类别的概率。
优选地,步骤S50“进行印刷体文字和手写体文字的分类”之前还包括:
对所述第二文本连通部件集中各连通部件,采用基于卷积神经网络的条件随机场算法进行文字粘连部件检测;所述文字粘连部件为同时存在印刷体像素和手写体像素的连通部件;
对检测出每一个文字粘连部件进行切分,得到两个分别包含同一类像素的连通部件。
将各文字粘连部件切分后得到的对应的连通部件增入第二文本连通部件集,得到作为分类对象的第三文本连通部件集。
优选地,步骤S30“对各连通部件进行文本和非文本的分类”,和/或步骤S50“进行印刷体文字和手写体文字的分类”还包括噪声部件的处理方法:
在分类之前,识别并剔除连通部件中的噪声部件;所述噪声部件为像素小于预设值得连通部件;
在分类之后,对噪声部件使用加权的k近邻算法进行分类;其中每个k近邻的加权为该噪声部件所包含的像素数。
此外,本发明还提出一种试卷内容自动分类的版面分析系统,包括存储设备、处理器;所述处理器适于执行各条程序;所述存储设备适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的试卷内容自动分类的版面分析方法的步骤。
本发明试卷内容自动分类的版面分析方法通过获取录入的文档图像;提取所述文档图像的连通部件并对所述连通部件提取特征;采用预设方法根据文档图像的连通部件对所述文档图形进行文本/非文本分类;对上述分出的文本的连通部件,采用预设方法进行分析以分类出印刷体文字和手写体文字;对上述步骤中分出的非文本,采用预设方法对其进行检测和切分以获得粘连在非文本中文字;输出分类结果。采用本发明的方法使用人工神经网络(多层感知机或者卷积神经网络)来对条件随机场的一元势能函数和二元势能函数进行建模,从而更好地挖掘元素的上下文信息,然后利用结构化预测方法来对所有元素的类别进行联合预测。结构化预测算法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为本发明试卷内容自动分类的版面分析方法的一种实施例的流程示意图;
图2为本发明试卷内容自动分类的版面分析方法条件随机场的结构图;
图3为本发明试卷内容自动分类的版面分析方法的另一种实施例的流程示意图;
图4为本发明试卷内容自动分类的版面分析方法的输入的文档图像;
图5为本发明试卷内容自动分类的版面分析方法二值化结果图;
图6为本发明试卷内容自动分类的版面分析方法文本/非文本分类结果;
图7为本发明试卷内容自动分类的版面分析方法印刷体/手写体文字分类结果;
图8为本发明试卷内容自动分类的版面分析方法综合分类结果图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获得的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
本发明提出了一种试卷内容自动分类的版面分析方法、系统,使用人工神经网络(例如多层感知机或者卷积神经网络)来对条件随机场的一元势能函数和二元势能函数进行建模,从而更好地挖掘元素的上下文信息,然后利用结构化预测方法来对所有元素的类别进行联合预测。结构化预测算法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。
本发明的方法基于条件随机场的结构化预测算法可以利用上下文信息来对连通部件进行分类。相对于利用单个连通部件局部特征信息进行分类的一般分类算法而言,使用基于条件随机场的结构化预测算法可以更好地挖掘上下文信息,对文档中所有的连通部件进行联合预测。该算法将文档中所有的连通部件按照k近邻关系连接成一个无向图,图的节点对应连通部件,而图的边对应一对连通部件之间的连接关系,然后将分类问题转化成一个优化问题,如公式(1)所示,公式表示对于给定的x和w,寻找概率最大的类别向量y*。
公式(1)中的Z(x;w)、E(y,x;w)的计算分别如公式(2)、(3)所示。
Z(x;w)=∑yexp[-E(y,x;w)] (2)
其中,x是节点特征向量集合,y代表节点集合的类别向量,w代表系统权重,P(y|x;w)为对于给定的x和w节点集合的类别向量取y时的概率,E表示对于特定的x类别向量取y时的势能函数,E由所有节点的一元势能函数U的和跟所有边上的二元势能函数V的和加权相加得到,Z是归一化因子,p、q分别表示两个相邻的节点,分别为节点p处取类别yp的权重以及节点p和节点q处同时取类别yp和yq的权重,yp、xp、wu分别为节点p处的类别、一元特征、一元势能函数的参数集合,yq、xpq、wv分别为节点q处的类别、节点p和q的二元特征、二元势能函数的参数集合,NU、SV分别为节点和边的数量。
由上述推导可知,基于条件随机场的结构化预测算法,不仅考虑了单个节点局部的特征信息,还考虑了单个节点与其周围附近的节点之间的联合信息,因此能够实现更准确的分类。
条件随机场的一元势能函数和二元势能函数都采用人工神经网络来进行建模。一般的条件随机场,一元势能函数使用某种分类器(例如神经网络或支撑向量机等)来进行建模,而二元分类器则往往只是用一些人工设计的简单函数(例如高斯势能函数等)来建模。然而这种简单的二元势能函数只能对相连接点类别的相容性(例如属于或者不属于同一类别的概率)进行建模,无法表达一对节点分别属于相应类别的概率(例如节点1属于类别A同时节点2属于类别B的概率)。而本发明中的一元势能函数和二元势能函数都采用神经网络来进行建模,其中二元的神经网络可以对一对节点分别属于相应类别的概率进行建模,相比于高斯势能函数而言,能更加有效地挖掘节点的上下文信息,从而提高分类正确率。同时,由于神经网络和条件随机场的参数都可以用随机梯度下降来进行优化,因此神经网络和条件随机场可以进行端到端的联合训练。
本发明的一种试卷内容自动分类的版面分析方法,如图1所示,包括如下步骤:
步骤S10,获取录入的文档图像;
步骤S20,提取所述文档图像的连通部件构成原始联通部件集,并对各连通部件提取特征;
步骤S30,根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;
步骤S40,对步骤S30中得到的非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;
步骤S50,对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;
步骤S60,输出文档图像内容的分类结果。
为了更清晰地对本发明试卷内容自动分类的版面分析方法进行说明,下面对本方发明方法一种实施例中各步骤进行展开详述。
步骤S10,获取录入的文档图像。
本实施例中,将待处理的文档图像录入系统中,具体的录入方式可以通过拍摄得到文档图像然后以蓝牙的方式、或者是有线传输方式、或者是通过存储硬件插入系统等的当时录入,也可以是通过扫描文档的方式录入。此处进对有限的几种方式进行列举,并不限定上述几种方式,当然还可以采用其他获取方式,此处不再进行一一列举。
步骤S20,提取所述文档图像的连通部件构成原始联通部件集,并对各连通部件提取特征。
连通部件提取采用一种基于轮廓追踪的快速连通部件提取算法,该算法的具体实施参见背景技术提及的文献[5]。在进行文本/非文本分类之前,需要为每个连通部件提取特征。系统在每个连通部件上提取的特征示例见表1,共15类,146维。至于每对连通部件之间的二元特征,我们采用将两个连通部件特征串联起来的方式,然后再加上它们的中心点距离和相对角度。
表1
在步骤S20“提取所述文档图像的连通部件”之前还包括:
步骤S11,对所述文档图像进行预处理;所述预处理包括灰度变换和二值化处理。
该步骤中,灰度变换的目的是消除光照不均和复杂背景的影响。
该步骤中,对图形进行灰度变换处理具体包括:
对于步骤S10的输入图像,将该图像中像素(i,j)变换前的灰度值记为I(i,j),以该像素为中心的一个预设窗口内的灰度均值为M(i,j),则变换后该像素的灰度值I′(i,j)如公式(4)所示:
其中α和K为两个超参数,α=0.5,K=10,图像在每个像素处的均值可以由均值滤波得到。
二值化操作采用的是局部自适应二值化算法,首先由原图像计算得到前景的边缘轮廓点,然后在以每个轮廓点为中心的局部预设窗口内进行OTSU二值化操作,得到前景像素点和背景像素点。边缘轮廓点的获取可以通过Canny边缘检测算法,也可以结合图像的局部对比度和梯度等信息。由于每个像素位置可能位于多个局部小窗口之内,因此可能会被多次二值化,系统采用投票机制来确定该像素位置的最终二值化结果。
步骤S30,根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集。
本实施例中,使用基于多层感知机的条件随机场对文档图形进行分析处理。该实施例的试卷内容自动分类的版面分析方法条件随机场的结构图示意图如图2所示。
本实施例的步骤S30中“对各连通部件进行文本和非文本的分类”,其方法为:对于原始连通部件集,采用基于多层感知机的条件随机场对进行结构化预测,获取联通部件的文本和非文本的分类。
该步骤中,所述条件随机场中包含的一元势能函数和二元势能函数采用人工神经网络(例如多层感知机、卷积神经网络)分别建模得到的第一一元势能函数模型和第一二元势能函数模型;所述第一一元势能函数模型的输入是单个连通部件的特征向量,输出是该连通部件属于各预设类别的概率;第一二元势能函数模型的输入是一对连通部件的特征向量,输出是它们同时属于对应类别的概率。
本实施例中,进行文本和非文本的分类所用到的条件随机场,对其中的一元势能函数和二元势能函数采用是多层感知机建模,第一一元势能函数模型为一元多层感知机,第一二元势能函数模型为二元多层感知器。
文该条件随机场由节点和边组成,其中每个节点对应于一个连通部件,每条边对应于一对连通部件之间的关系。每个节点和与它距离最近的k个节点相连接。本实例中k取9。一元多层感知机的输入为单个连通部件的一元特征,输出为该连通部件属于每个类别的概率;二元多层感知机的输入为一对连通部件的二元特征,输出为该对连通部件同时属于对应类别的概率。至于条件随机场的推断算法,本实施例采用信念传播算法。经过文本/非文本分类之后,连通部件被分为文字、图形、图像以及表格等4类。采用多层感知机对条件随机场的一元势能函数和二元势能函数来进行建模,其优势在于:可以使用任意的特征作为网络的输入,从而极大地增强了条件随机场挖掘上下文信息的能力。不仅可以对相邻节点间的相容性进行建模,也可以对相邻节点之间的不相容性进行建模,从而可以避免在不同类别边界处的过度平滑。多层感知机的参数和条件随机场的参数可以进行端到端的联合训练。
步骤S40,对步骤S30中得到的非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集。
此步骤目的在于把粘连在图像、表格等非文本联通部部件中的文字部件检测并切分出来。由于几何图形和表格基本都是线状结构,并且它们的曲率一般相对文字而言较小,因此可以利用轮廓曲率信息进行文字的检测和切分。系统将图形和表格连通部件进行切分,然后使用预先训练好的神经网络分类器对每个小连通部件进行分类,得到粘连在图形和表格中的文字部件。
步骤S50,对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类。
该步骤的分类方法为:对于步骤S40中得到的文本连通部件集,采用基于人工神经网络的条件随机场进行结构化预测,获取印刷体文字和手写体文字的分类。
该步骤中条件随机场中的一元势能函数和二元势能函数采用人工神经网络(例如多层感知机、卷积神经网络)进行建模分别得到第二一元势能函数模型和第二二元势能函数模型;所述第二一元势能函数模型的输入是归一化尺寸的单个联通部件,输出是该连通部件属于各预设类别的概率;所述第二二元势能函数模型的输入是一对连通部件各自归一化的图像、以及文档图像中包含该对连通部件的最小矩形区域的归一化图像,输出是该对连通部件同时属于各预设类别的概率。
本实施例中,进行印刷体文字和手写体文字的分类所用到的条件随机场,对其中的一元势能函数和二元势能函数采用是卷积神经网络建模,第一一元势能函数模型为一元卷积神经网络,第一二元势能函数模型为二元卷积神经网络。
该条件随机场由节点和边组成,其中每个节点对应于一个连通部件,每条边对应于一对连通部件之间的关系。每个节点和与它距离最近的k个节点相连接,本实例中k取9。一元卷积神经网络的输入是归一化尺寸的单个连通部件图像,输出是该连通部件属于每个类别的概率;二元卷积神经网络的输入是一对连通部件各自归一化的图像以及文档中包含它们的最小矩形区域的归一化图像的组合,输出是它们同时属于对应类别的概率。相对于人工设计的特征,卷积神经网络可以自动从样本中学习到有用的特征,尤其是纹理、边缘、曲率等,这对印刷体和手写体文字的分类是非常适合的。至于条件随机场的推断,系统采用信念传播算法。经过此步骤后,文档中所有的文字部件被分为两类:印刷体文字和手写体文字。采用卷积神经网络对条件随机场的一元势能函数和二元势能函数来进行建模,其优势在于:可以自动对图像提取有用的特征。不仅可以对相邻节点间的相容性进行建模,也可以对相邻节点之间的不相容性进行建模,从而可以避免在不同类别边界处的过度平滑。卷积神经网络的参数和条件随机场的参数可以进行端到端的联合训练。
为了获得更好的分类效果,在步骤S50“进行印刷体文字和手写体文字的分类”之前还包括印刷体和手写体粘连部件进行检测和切分步骤,具体方法为:
(1)对所述第二文本连通部件集中各连通部件,采用基于卷积神经网络的条件随机场算法进行文字粘连部件检测;所述文字粘连部件为同时存在印刷体像素和手写体像素的连通部件;
(2)对检测出每一个文字粘连部件进行切分,得到两个分别包含同一类像素的连通部件,切分后的两个连通部件其中一个仅包含印刷体像素,另一个仅包含写体像素;
(3)将各文字粘连部件切分后得到的对应的连通部件增入第二文本连通部件集,得到作为分类对象的第三文本连通部件集。
印刷体和手写体粘连部件的检测和切分目的在于将同时存在印刷体像素和手写体像素的部件检测出来,并将其在粘连位置切开,以期望得到仅包含同一类别的像素的连通部件。本发明的系统采用基于卷积神经网络的条件随机场算法来进行粘连部件的检测,与印刷手写部件分类不同的是,这里采用基于卷积神经网络的条件随机场算法对连通部件分类的类别为粘连部件和不粘连部件,通过分类的方法检测并获取粘连部件。至于切分,我们采用背景技术中的文献[6]中的连通部件切分算法。
步骤S60,输出分类结果。
在获取分类之后,将最终的图像中前景部分的每个像素的灰度值设为该像素的类别,并保存最终的分类结果图。为了方便观看,可以使用不同的颜色来表示不同的类别。
为了得到更精确的分类结果,在一些实施例中,步骤S30“对各连通部件进行文本和非文本的分类”,和/或步骤S50“进行印刷体文字和手写体文字的分类”还包括噪声部件的处理方法:
在分类之前,识别并剔除连通部件中的噪声部件;所述噪声部件为像素小于预设值得连通部件;
在分类之后,对噪声部件使用加权的k近邻算法进行分类;其中每个k近邻的加权为该噪声部件所包含的像素数。
噪声部件是指文档图像中非常小的连通部件(通常只有几个像素),这些连通部件往往无法提供足够的特征来进行分类,如果和其他部件一起分类的话,还可能会对其他部件的分类结果造成一定的干扰。因此,我们在进行步骤S30和步骤S40中的连通部件分类之前,先将噪声部件分离出来,等其他部件分类结束后,再使用加权的k近邻算法来对噪声部件进行分类,其中每个k近邻的加权为该部件所包含的像素数。本实例中,k取9。
经过上述步骤的处理后,可以有效的提取文本图像中的文字部分,并精确进行印刷体文字部分、手写体文字部分的分类。在在一些实施例中,还可以对非文本联通部件进行分类,这样还可以提取文本图像中的图形、图像以及表格。
本发明另一实施例的试卷内容自动分类的版面分析方法如图3所示,输入文档图像;进行图像的预处理,获取二值化图像;进行联通部件的提取后,对联通部件进行文本和非文本的分类;并将非文本分类的连通部件进一步分为图像、表格、几何图像;检测表格、几何图像中的文字部件并进行切分,基于切分后的表格连通部件更新表格分类集合,基于切分后的几何图像连通部件更新几何图像分类集合,基于切分后的文字联通部件更新文本分类集合;对文本分类集合中的各连通部件进行印刷/手写粘连部件的切分,并基于切分后得到的连通部件再次更新文本分类集合;对更新后的文本分类集合中各连通部件进行手写体文字和印刷体文字分类;经相应的去噪后处理后,输出5类分类结果:写体文字、印刷体文字、图像、表格、几何图形。
图4-图8为采用本发明试卷内容自动分类的版面分析方法在分析过程中各环节的效果示例图,其中:图4为本发明试卷内容自动分类的版面分析方法的输入的文档图像;图5为本发明试卷内容自动分类的版面分析方法二值化结果图,其中前景为黑色,背景为白色;图6为本发明试卷内容自动分类的版面分析方法文本/非文本分类结果,按照从左到右从上到下的顺序依次为文本、插图和表格;图7为本发明试卷内容自动分类的版面分析方法印刷体/手写体文字分类结果,按照从左到右顺序依次为印刷体文本和手写体文本;图8为本发明试卷内容自动分类的版面分析方法综合分类结果图,按照从左到右从上到下顺序依次为印刷文本、手写文本、插图以及表格。
此外,本发明还提出一种试卷内容自动分类的版面分析系统,包括存储设备、处理器;所述处理器适于执行各条程序;所述存储设备适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的试卷内容自动分类的版面分析方法的步骤。
此外,本发明还提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的试卷内容自动分类的版面分析方法的步骤。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、存储装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种试卷内容自动分类的版面分析方法,其特征在于,所述方法包括如下步骤:
步骤S10,获取录入的文档图像;
步骤S20,提取所述文档图像的连通部件构成原始联通部件集,并对各连通部件提取特征;
步骤S30,根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;
步骤S40,对步骤S30中得到的非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;
步骤S50,对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;
步骤S60,输出文档图像内容的分类结果。
2.根据权利要求1所述的试卷内容自动分类的版面分析方法,其特征在于,所述步骤20之前还包括:
步骤S11,对所述文档图像进行预处理;所述预处理包括灰度变换和二值化处理。
3.根据权利要求2所述的试卷内容自动分类的版面分析方法,其特征在于,所述步骤S11中所采用的灰度变换,具体包括:对所述文档图像中的像素(i,j),通过下式进行灰度值变换,获得变换后的灰度值I′(i,j),
其中,I(i,j)为像素(i,j)变换前的灰度值,M(i,j)为以像素(i,j)为中心的预设窗口内的灰度均值,α和K为两个超参数,α=0.5,K=10。
4.根据权利要求1所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S30中“对各连通部件进行文本和非文本的分类”,其方法为:
对于原始连通部件集,采用基于多层感知机的条件随机场对进行结构化预测,获取联通部件的文本和非文本的分类。
5.根据权利要求4所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S30中所述条件随机场包含中的一元势能函数和二元势能函数采用人工神经网络分别建模得到的第一一元势能函数模型和第一二元势能函数模型;所述第一一元势能函数模型的输入是单个连通部件的特征向量,输出是该连通部件属于各预设类别的概率;第一二元势能函数模型的输入是一对连通部件的特征向量,输出是它们同时属于对应类别的概率。
6.根据权利要求1所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S50中“进行印刷体文字和手写体文字的分类”,其方法为:
对于步骤S40中得到的文本连通部件集,采用基于人工神经网络的条件随机场进行结构化预测,获取印刷体文字和手写体文字的分类。
7.根据权利要求6所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S50中所述条件随机场中的一元势能函数和二元势能函数采用人工神经网络进行建模分别得到第二一元势能函数模型和第二二元势能函数模型;所述第二一元势能函数模型的输入是归一化尺寸的单个联通部件,输出是该连通部件属于各预设类别的概率;所述第二二元势能函数模型的输入是一对连通部件各自归一化的图像、以及文档图像中包含该对连通部件的最小矩形区域的归一化图像,输出是该对连通部件同时属于各预设类别的概率。
8.根据权利要求1所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S50“进行印刷体文字和手写体文字的分类”之前还包括:
对所述第二文本连通部件集中各连通部件,采用基于卷积神经网络的条件随机场算法进行文字粘连部件检测;所述文字粘连部件为同时存在印刷体像素和手写体像素的连通部件;
对检测出每一个文字粘连部件进行切分,得到两个分别包含同一类像素的连通部件;
将各文字粘连部件切分后得到的对应的连通部件增入第二文本连通部件集,得到作为分类对象的第三文本连通部件集。
9.根据权利要求1~8任一项所述的试卷内容自动分类的版面分析方法,其特征在于,步骤S30“对各连通部件进行文本和非文本的分类”,和/或步骤S50“进行印刷体文字和手写体文字的分类”还包括噪声部件的处理方法:
在分类之前,识别并剔除连通部件中的噪声部件;所述噪声部件为像素小于预设值得连通部件;
在分类之后,对噪声部件使用加权的k近邻算法进行分类;其中每个k近邻的加权为该噪声部件所包含的像素数。
10.一种试卷内容自动分类的版面分析系统,包括存储设备、处理器;所述处理器适于执行各条程序;所述存储设备适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的试卷内容自动分类的版面分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512183.XA CN109685065B (zh) | 2018-12-11 | 2018-12-11 | 试卷内容自动分类的版面分析方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512183.XA CN109685065B (zh) | 2018-12-11 | 2018-12-11 | 试卷内容自动分类的版面分析方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685065A true CN109685065A (zh) | 2019-04-26 |
CN109685065B CN109685065B (zh) | 2021-06-25 |
Family
ID=66187414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811512183.XA Active CN109685065B (zh) | 2018-12-11 | 2018-12-11 | 试卷内容自动分类的版面分析方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685065B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111309953A (zh) * | 2020-02-03 | 2020-06-19 | 联想(北京)有限公司 | 一种图像识别方法和装置 |
RU2744769C1 (ru) * | 2020-07-04 | 2021-03-15 | Общество с ограниченной ответственностью "СЭНДБОКС" | Способ обработки изображений с использованием адаптивных технологий на основе нейросетей и компьютерного зрения |
CN113610068A (zh) * | 2021-10-11 | 2021-11-05 | 江西风向标教育科技有限公司 | 基于试卷图像的试题拆解方法、系统、存储介质及设备 |
US20210374398A1 (en) * | 2020-05-29 | 2021-12-02 | Microsoft Technology Licensing, Llc | Constructing a computer-implemented semantic document |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
CN104376318A (zh) * | 2013-08-15 | 2015-02-25 | 柯尼卡美能达美国研究所有限公司 | 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线 |
-
2018
- 2018-12-11 CN CN201811512183.XA patent/CN109685065B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
CN104376318A (zh) * | 2013-08-15 | 2015-02-25 | 柯尼卡美能达美国研究所有限公司 | 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线 |
Non-Patent Citations (2)
Title |
---|
M.VALIZADEH 等: "A Novel Hybrid Algorithm for Binarization of Badly Illuminated Document Images", 《2009 14TH INTERNATIONAL CSI COMPUTER CONFERENCE》 * |
XIAO-HUI LI 等: "Printed/Handwritten Texts and Graphics Separation in Complex Documents using Conditional Random Fields", 《2018 13TH IAPR INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110363102B (zh) * | 2019-06-24 | 2022-05-17 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
WO2020259060A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111046784B (zh) * | 2019-12-09 | 2024-02-20 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111309953A (zh) * | 2020-02-03 | 2020-06-19 | 联想(北京)有限公司 | 一种图像识别方法和装置 |
CN111309953B (zh) * | 2020-02-03 | 2024-03-29 | 联想(北京)有限公司 | 一种图像识别方法和装置 |
US20210374398A1 (en) * | 2020-05-29 | 2021-12-02 | Microsoft Technology Licensing, Llc | Constructing a computer-implemented semantic document |
US11562593B2 (en) * | 2020-05-29 | 2023-01-24 | Microsoft Technology Licensing, Llc | Constructing a computer-implemented semantic document |
RU2744769C1 (ru) * | 2020-07-04 | 2021-03-15 | Общество с ограниченной ответственностью "СЭНДБОКС" | Способ обработки изображений с использованием адаптивных технологий на основе нейросетей и компьютерного зрения |
CN113610068A (zh) * | 2021-10-11 | 2021-11-05 | 江西风向标教育科技有限公司 | 基于试卷图像的试题拆解方法、系统、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109685065B (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Afzal et al. | Cutting the error by half: Investigation of very deep cnn and advanced training strategies for document image classification | |
CN109685065A (zh) | 试卷内容自动分类的版面分析方法、系统 | |
US20190385054A1 (en) | Text field detection using neural networks | |
Zhai et al. | OCR-based neural network for ANPR | |
Vo et al. | Semantic image segmentation using fully convolutional neural networks with multi-scale images and multi-scale dilated convolutions | |
CN111652332B (zh) | 基于二分类的深度学习手写中文字符识别方法及系统 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
D’souza et al. | Offline handwritten mathematical expression recognition using convolutional neural network | |
Naseer et al. | Meta features-based scale invariant OCR decision making using LSTM-RNN | |
Nguyen et al. | Comic MTL: optimized multi-task learning for comic book image analysis | |
Karunarathne et al. | Recognizing ancient sinhala inscription characters using neural network technologies | |
Chen et al. | Page segmentation for historical handwritten document images using conditional random fields | |
Li et al. | Multilingual text detection with nonlinear neural network | |
Dey et al. | A two-stage CNN-based hand-drawn electrical and electronic circuit component recognition system | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
Khudeyer et al. | Combination of machine learning algorithms and Resnet50 for Arabic Handwritten Classification | |
Sethia et al. | Gesture recognition for American sign language using Pytorch and Convolutional Neural Network | |
Priya et al. | Self-adaptive hybridized lion optimization algorithm with transfer learning for ancient Tamil character recognition in stone inscriptions | |
Sethi et al. | Optical odia character classification using cnn and transfer learning: A deep learning approach | |
Shinde et al. | An improved algorithm for recognizing mathematical equations by using machine learning approach and hybrid feature extraction technique | |
Yadav et al. | Assamese character recognition using convolutional neural networks | |
Bose et al. | Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm | |
Ouyang et al. | Learning from neighboring strokes: Combining appearance and context for multi-domain sketch recognition | |
Shirdhonkar et al. | Discrimination between printed and handwritten text in documents | |
Holi et al. | Convolutional neural network approach for extraction and recognition of digits from bank cheque images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |