CN105469053A - 一种基于贝叶斯优化的图像表格文字切分方法 - Google Patents

一种基于贝叶斯优化的图像表格文字切分方法 Download PDF

Info

Publication number
CN105469053A
CN105469053A CN201510831602.6A CN201510831602A CN105469053A CN 105469053 A CN105469053 A CN 105469053A CN 201510831602 A CN201510831602 A CN 201510831602A CN 105469053 A CN105469053 A CN 105469053A
Authority
CN
China
Prior art keywords
cut
projection
class
subsequent use
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510831602.6A
Other languages
English (en)
Inventor
陈炳章
何宏靖
刘世林
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510831602.6A priority Critical patent/CN105469053A/zh
Publication of CN105469053A publication Critical patent/CN105469053A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Input (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种基于贝叶斯优化的图像表格文字切分方法;本方法首先检测出待识别图像表格中的单元格,将每个单元格中的信息内容整体切分出来,对每个单元格中的文字信息利用投影法找出文字的备用切分点,在此基础上利用贝叶斯分类器对备用切分点进行判断,找出文字信息的准确切分点,并对切分出来的文字子图片进行分类,为文字信息的准确识别创造了有利条件;保证切分出单个文字的完整和准确性。本发明方法解决了图像文字识别领域中一直难以克服的图像表格切分困难的问题,对图像表格文字的切分准确率极高,在图像文字识别,信息挖掘,信息分析领域具有巨大的应用前景。

Description

一种基于贝叶斯优化的图像表格文字切分方法
技术领域
本发明涉及图像识别领域,特别涉及一种基于贝叶斯优化的图像表格文字切分方法。
背景技术
图像识别技术是目前智能识别技术领域中非常重要的发展方向,图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别;其中在众多的图像识别技术中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重要的可利用信息,文字识别一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有三种识别方法:统计模式识别、结构模式识别、模糊模式识别。
随着图像文字的深入发展,越来越多的种类的图像文字资料,被纳入图像文字识别的范畴中,其中表格作为文字数据记录汇总最精简表达方式,或者数据统计、结果分析中最常用的表达格式,是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性,比如对一个企业年度业绩报表,可能包含企业年度业绩中最重要的统计数据和分析结果,这些信息的重要性和概括性是其他任何材料所比拟不了的,目前的网络信息中充斥着各种表格资料,但是很多表格都是以图片的形式提供,比如各种扫描档案文件、PDF文件,自动识别这些图像表格资料,将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。
但是,由于表格资料本身的表格结构特征,使得表格图像文字的识别比一般的普通图像文字资料更加困难,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来。由于表格的框线的存在,直接使用传统的投影发所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多变,复杂多变的轮廓框线使得投影法难以实现将表格文字信息的切分。同时由于图片文字信息中的文字信息的复杂性(比如说左右结构的的汉字),在使用投影法进行切分时,左右结构部件由于之间存在的间隙而容易被切分为独立的两部分,这不利于图像文字信息的准确识别,面对大量的图像表格数据的快速分析需要,亟待一种快速、完整、准确的图像表格文字切分方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于贝叶斯优化的图像表格文字切分方法,能够快速完整的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格轮廓;根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来;通过投影法找出单元格内每个文字块的备用切分坐标位置;最后通过贝叶斯分类器对备用切分点之间的文字块进行分类识别,实现文字部件,数字、字母或者标点符号的分类切分。本发明方法的图像表格文字切分,按照先单元格后单元格内文字信息的切分顺序进行,计算逻辑清晰,切分效率高;而且在上述方法的基础上通过贝叶斯分类器,对切分出来的文字块进行分类,对切分位置进行优化,在保证切分出的文字的完整的前提下也实现了数字,字母以及符号准确切分,提高了文字信息切分的准确性。
为了实现上述发明目的,本发明提供以下技术方案,一种基于贝叶斯优化的图像表格文字切分方法,包含以下实现过程:
将待处理图片进行二值化处理,检测出所述图像表格中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
使用投影法找出子图片中文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出优化切分点,并通过优化切分点将图片中的文字切分出来。具体的,本基于贝叶斯优化的图像表格文字切分方法采用以下实现步骤:
(1)将待处理图像表格进行二值化处理,使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;将检测出的单元格轮廓的点集提取出来放置在对应的点类中。
(2)对所述步骤(1)提取出的单元格轮廓点集,调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)并通过贝叶斯分类器对所述备用切分点进行判断找出优化切分点,将图片中的文字切分出来。
进一步的,所述步骤(3)中,根据横向投影和纵向投影坐标确定每个文字的坐标位置,根据坐标位置可以依次把单个文字切分出来,将子图片中切分出来的文字按照原有的顺序进行识别,保证了子图片中文字识别的顺序和逻辑准确性。
进一步的,所述步骤(3)中对切分出来的单元格文字图像进行侧向投影,计算出一行的非0像素的个数,并将该值放到projection_y类中。每一行非0像素的计算方法为:i是行数,j是列数,pix(i,j)是对应像素值,n+1是像素点的总列数。
进一步的,所述步骤(3)中对projection_y类中的元素进行遍历,变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;如果projection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;top.size()=bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来,对应的两个坐标值也就是该行所有文字的上下两个y坐标。
进一步的,对于切分出来的每一行的文字图像进行垂直投影,计算出一列的非0像素的个数,并将该值放到projection_x类中。每一列非0像素的计算方法为:j是列数,i是行数,pix(i,j)是对应像素值,m+1像素点的总行数。
进一步的,对projection_x类中的元素进行遍历,变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用的备用切分位置(备用切分点)。
根据横向投影和纵向投影坐标就可以确定每个文字块的坐标位置。根据坐标位置可以把单个文字切分出来。
进一步的,本发明方法采用贝叶斯分类器对备用切分点之间的内容进行判断,对文字部件,数字,字母和标点进行分类,以避免某一个文字由于左右部件之间的间隙而被切分成两块,同时保证数字,字母和标点能够被单独切分出来。
进一步的,本发明方法采用的贝叶斯分类器中分类类别包括三大类,第一类为文字部件,第二类为数字、字母,第三类为标点符号。
本发明方法利用贝叶斯分类器对左右两侧切分点之间的内容进行判断,在备用切分点的基础上,找出优化切分位置,提高切分的准确率。优化过程为:在固定的左侧切分坐标(第一备用左侧切分点)后,使用贝叶斯分类器对与其紧连其后的右侧备用切分点(第一备用右侧切分点)之间的内容进行分类;如果是数字、字母或者标点符号,则将其直接按照分类器识别的类型直接切分出来,如果是文字部件,则将判断位置移到下一备用左侧切分位置(第二备用左侧切分点),判断该备用左侧切分点和与其紧接的备用右侧切分点(第二备用右侧切分点)之间的内容是否是文字部件,如果是文字部件,则将第一备用左侧切分点和第二备用右侧切分点之间的文字块作为一个整体切分出来;这样就避免了将左右结构的汉字切分成两个部分进行识别的情况,保证文字切分的完整性。
与现有技术相比,本发明的有益效果:本发明提供一种基于贝叶斯优化的图像表格文字切分方法,本方法首先检测出待识别图像表格中的单元格,将每个单元格中的信息内容整体切分出来形成对应子图片,对每个单元格中的文字信息利用投影法找出备用切分点,在备用切分点的基础上使用贝叶斯分类器对文字块左右切分点之间内容进行分类,找出优化的切分位置,并最终实现单元格文字内容的准确切分;克服了图像表格文字识别中的切分难题;本发明方法中选用的贝叶斯分类器的分类类别包括,文字部件、数字、字母以及标点符号,将文字块左右切分点之间的内容输入贝叶斯分类器中进行分类,可以识别出对应类别属于某一类别的概率,进而识别出对应文字块的类别,将属于数字、字母以及标点符号的文字块按照对应的类别切分出来,将属于文字部件的文字块,按照左右部件组合完整的方式作为一个整体切分出来,这样优化切分方式,极大的提高了图像表格文字信息的切分准确率和完整性,为图像表格文字的识别提供了快速,可靠的切分基础,在图像文字识别,信息挖掘,信息分析领域具有巨大的应用前景。
附图说明:
图1为本基于贝叶斯优化的图像表格文字切分方法的实现过程示意图。
图2为待识别图像表格示意图。
图3为通过openCV中的findcontours函数所提取出的单元格轮廓示意图。
图4为图3中的单元格子图片切范围示意图。
图5为经过图4的切分确定的切分范围所切分出的单元格子图片的示意图。
图6为通过投影法找出的备用切分点示意图。
图7为对图6的备用切分点通过贝叶斯分类器进行优化的判断过程示意图。
需要说明的是,本发明所有附图均为示意性的,不代表实际的尺寸和比例。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种基于贝叶斯优化的图像表格文字切分方法,能够快速准确的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格轮廓;根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来;通过投影法找出单元格内文字信息的每个文字块的备用切分坐标位置;最后通过贝叶斯分类器对备用切分点之间的文字块进行分类识别,实现文字、数字、字母或者标点符号的分别切分。本发明方法的图像表格文字切分,按照先单元格后单元格内文字信息的切分顺序进行,计算逻辑清晰,切分效率高,并且通过贝叶斯分类器,对切分出来的文字块进行分类,对切分位置进行优化,在保证切分出的文字完整的同时也实现了数字,字母以及符号准确切分,提高了文字信息切分的准确性。
为了实现上述发明目的,本发明提供以下技术方案,
一种基于贝叶斯优化的图像表格文字切分方法,包含以下实现过程:
将待处理图片进行二值化处理,检测出所述图像表格中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
再使用投影法找出子图片中的文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出优化切分点,并通过优化切分点将图片中的文字切分出来。
具体的,本基于贝叶斯优化的图像表格文字切分方法采用如图1所示的实现步骤:
(1)将待处理图像表格进行二值化处理,使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;将检测出的单元格轮廓的点集提取出来放置在对应的点类中(如:用Vector1,Vector2,Vector3......来表示);openCV是一种高效的图像处理工具,openCV中包含很多简单高效的图像处理函数,其中findcontours函数能够根据表格框线轮廓的特点将单元格的轮廓检测出来,并将检测出的单元格轮廓点集提取出来,检测效率高,图2为待处理图像表格的一个示例图,经过步骤findcontours函数找出的待识别表格单元格的轮廓线如图3所示。
(2)对所述步骤(1)提取出的单元格轮廓点集,调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片,如图4所示;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)通过贝叶斯分类器对所述备用切分点进行判断找出优化切分点,将图片中的文字切分出来。
进一步的,所述步骤(1)中将各个单元格的轮廓点集组成的类(Vector1,Vector2,Vector3......),放入一个大类:contours中,这样的处理便于在后续步骤中,根据需要调用其中的元素进行相应的计算。
进一步的,所述步骤(2)中遍历contours中的元素,调用minAreaRect函数,这样的遍历操作方式可以保证,对contours中的每个元素进行操作,也就是说,对待识别图像表格中的各个单元格轮廓进行相应的操作,确保计算结果的完整性。
进一步的,所述步骤(2)中将minAreaRect函数构建的旋转矩形区域放置在对应的RotatedRect类中。
进一步的,所述步骤(2)中遍历RotatedRect中的元素,提取每个元素对应旋转矩形区域的四角顶点坐标,遍历的方法可以保证所有的旋转矩形区域都可以被计算到,避免遗漏,保证数据的完整性。
进一步的,所述步骤(2)中根据minAreaRect函数提取出的旋转矩形区域的四角顶点坐标,计算出表格单元文字信息切分点;将四角顶点坐标向矩形区域内的方向相应移动一定距离,所确定的新的区域就能够将单元格的边框切除掉,留下仅包含单元格文字内部文字信息的子图片,具体的过程不再赘述。
进一步的,所述步骤(3)中对切分出来的单元格文字图像进行侧向投影,计算出一行的非0像素的个数,并将该值放到projection_y类中。每一行非0像素的计算方法为:i是行数,j是列数,pix(i,j)是对应像素值,n+1是像素点的总列数。
进一步的,所述步骤(3)中对projection_y类中的元素进行遍历,变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;如果prpjection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;top.size()=bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来,对应的两个坐标值也就是该行所有文字的上下两个v坐标。
进一步的,对于切分出来的每一行的文字图像进行垂直投影,计算出一列的非0像素的个数,并将该值放到projection_x类中。每一列非0像素的计算方法为:j是列数,i是行数,pix(i,j)是对应像素值,m+1是像素点的总行数。
进一步的,对projection_x类中的元素进行遍历,变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用的备用切分位置。
根据横向投影和纵向投影坐标就可以确定每个文字块的坐标位置;根据坐标位置可以把单个文字块切分出来。但是根据投影法的相关原理找出来的切分点为二值化后没有黑色像素点投影的位置,这样的情况下当一个文字为左右结构的文字时,可能因为左右结构部件之间存在的间隙,误将各个文字部件单独切分出来,影响了文字识别的准确性。
进一步的,本发明方法所述步骤(4)中采用贝叶斯分类器对备用切分点之间的内容进行判断,对文字部件,数字,字母和标点进行分类,以避免某一个文字由于左右部件之间的间隙而被切分成两块,同时保证数字,字母和标点能够被单独切分出来。
进一步的,本发明方法采用的贝叶斯分类器中分类类别包括:第一类为文字部件,第二类为数字、字母,第三类为标点符号。
本发明找出文字块的左右备用切分点后,将文字块的宽度和设定的阈值进行比较,如果大于设定的阈值就可以直接将该左右切分点之间的文字块切分出来。这是因为通常情况下打印体的汉字,单个字的宽度相对均一,且大于文字部件、数字、字母或者标点符号的宽度,在进行文字切分时,首先可以通过切分点之间的宽度和设置的阈值进行比较,将宽度较大的相邻左右切分点之间的文字作为单个文字块切分出来。对于左右切分点宽度较小的文字块,可能存在几种情况,比如说可能是文字部件、数字、字母或者标点;仅仅通过宽度不能准确判断该字块属于何种类型,如果对切分点不进行优化可能将左右结构的文字的左右部件因为中间存在的间隙而分别切分出来,影响了文字的识别效果。本发明方法利用贝叶斯分类器对左右两侧备用切分点之间的内容进行判断,在备用切分点的基础上,找出优化切分位置,提高切分的准确率。进行切分点优化时,如图6、图7所示(其中图6为经过投影法所找出的备用切分点的示意图,A、B、C、D为对应文字块的备用左侧切分点,A’、B’、C’、D’为对应文字块的备用右侧切分点,仅为示意性说明,不代表文字块的真实切分点位置;图7为使用贝叶斯分类器对备用切分点进行优化并将内容进行分类切分的过程示意图),在固定的左侧切分坐标(第一左备用侧切分点A)后,使用贝叶斯分类器对与其紧连其后的右侧备用切分点(第一右备用侧切分点A’)之间的内容进行分类;如果是数字、字母或者标点符号,则将其直接按照分类器识别的类型切分出来,如果是文字部件,则将判断位置移到下一备用左侧切分位置(第二备用左侧切分点B),判断该备用左侧切分点和与其紧接的备用右侧切分点(第二备用右侧切分点B’)之间的内容是否是文字部件,如果是文字部件,则将第一备用左侧切分点A和第二备用右侧切分点B’之间的文字块作为一个整体切分出来;这样就避免了将左右结构的汉字切分成两个部分进行识别的情况,保证文字切分的完整性。
具体的,在本发明方法所采取的分类器样本中,选用的特征值包括:高宽比,覆盖率,垂直中心线穿越笔画数,垂直中心线穿越笔画数上下两端最大距离与高度的比值,水平中心线穿越笔画数,水平中心线穿越笔画数左右两端最大距离与宽度的比值;在计算某一对象的分类概率时,所述贝叶斯分类器待识别内容进行分类识别包括以下实现步骤:
首先提取出该对象的6个特征值;将特征值输入所述贝叶斯分类器中,计算该特征值属于各类别的概率;将待识别内容各特征值属于该类的概率相乘,得到该内容属于该类的概率;选择概最大的概率值对应的类别,作为该内容的类别。在计算每个特征的概率p的时候,采用下列公式:p=(w×ni+1)/(w×nj+q),式中w为本发明方法中所用的贝叶斯分类器中三个类别总的特征向量样本数量;ni为该对象的该特征在某一类别中出现的次数(设置阈值范围来判断);nj为该类别中总的特征向量个数;q为经验值。

Claims (12)

1.一种基于贝叶斯优化的图像表格文字切分方法,其特征在于:
将待处理图像表格进行二值化处理,检测出所述图像表格中的单元格;
依次将各单元格中的内容切分出来,形成对应的子图片;
使用投影法找出子图片中文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出切分点,并根据切分点将图片中的文字切分出来。
2.如权利要求1所述的方法,其特征在于:包含以下实现步骤:
(1)使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;并将检测出的单元格的轮廓点集提取出来放入对应的类中;
(2)对所述步骤(1)提取出的单元格轮廓点集对应的类,调用minAreaRect函数,构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)并通过贝叶斯分类器对所述备用切分点进行判断,找出最优切分点,并将图片中的文字切分出来。
3.如权利要求2所述的方法,其特征在于:所述步骤(1)中将各个单元格的轮廓点集组成的类,放入一个大类:contours中;所述步骤(2)中遍历contours中的元素,调用minAreaRect函数。
4.如权利要求3所述的方法,其特征在于:所述步骤(2)中将minAreaRect函数构建的旋转矩形区域放置在对应的RotatedRect类中;遍历RotatedRect中的元素,提取每个元素对应旋转矩形区域的四角顶点坐标。
5.如权利要求4所述的方法,其特征在于:所述步骤(3)中,通过横向投影和纵向投影找出子图片中的文字信息的坐标位置;根据坐标位置依次把单个文字切分出来。
6.如权利要求5所述的方法,其特征在于:所述步骤(3)中,中对切分出来的子图片进行侧向投影,通过公式:计算出一行的非0像素的个数,并将该值放到projection_y类中,其中i是行数,j是列数,pix(i,j)是对应像素值,n是最后一列的坐标值;
projection_y类中的元素进行遍历;如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;
如果projection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;
基于类top和bottom中的元素值将单元格中的文字行向切分出来。
7.如权利要求6所述的方法,其特征在于:对于切分出来的每一行的文字图像进行垂直投影,采用公式:计算出一列的非0像素的个数,并将该值放到projection_x类中,其中j是列数,i是行数,pix(i,j)是对应像素值,m是最后一行的坐标值;
对projection_x类中的元素进行遍历;如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;
如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;
类left和right中的元素值为单文字的备用切分位置。
8.如权利要求1至7之一所述的方法,其特征在于:在进行单个文字切分时,采用贝叶斯分类器来对文字部件、数字、字母和,或标点进行分类;所述方法采用的贝叶斯分类器包括三类,其中,第一类为文字部件,第二类为数字、字母,第三类为标点符号。
9.如权利要求8所述的方法,其特征在于:所述贝叶斯分类器所采取的特征值包括:高宽比,覆盖率,垂直中心线穿越笔画数,垂直中心线穿越笔画数上下两端最大距离与高度的比值,水平中心线穿越笔画数,水平中心线穿越笔画数左右两端最大距离与宽度的比值。
10.如权利要求9所述的方法,其特征在于:步骤(4)包含以下实现过程:
在给定的第一备用左侧切分点坐标后,使用所述贝叶斯分类器来判断所述第一备用左侧切分点与第一备用右侧切分点之间的内容是否是文字部件,如果不是文字部件,则认为该内容是数字、字母或标点,直接将其切分出来;
如果是文字部件,则继续判断第二备用左侧切分点与第二备用右侧切分点之间的内容是否是文字部件,如果是文字部件,则将第一备用左侧切分点和第二备用右侧切分点之间的内容切分出来。
11.如权利要求10所述的方法,其特征在于:所述贝叶斯分类器对待识别内容进行分类包括以下实现步骤:
对待识别内容提取特征值;
将特征值输入所述贝叶斯分类器中,计算该特征值属于各类别的概率;
将待识别内容各特征值属于该类的概率相乘,得到该内容属于该类的概率;
选择概最大的概率值对应的类别,作为该内容的类别。
12.如权利要求11所述的方法,其特征在于:判断特征属于某类概率值的计算公式为:p=(w×ni+1)/(w×nj+q),其中w为所用的贝叶斯分类器中三个类别总的特征向量样本数量;ni为该对象的该特征在某一类别中出现的次数;nj为该类别中总的特征向量个数;q为经验值。
CN201510831602.6A 2015-11-25 2015-11-25 一种基于贝叶斯优化的图像表格文字切分方法 Pending CN105469053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510831602.6A CN105469053A (zh) 2015-11-25 2015-11-25 一种基于贝叶斯优化的图像表格文字切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510831602.6A CN105469053A (zh) 2015-11-25 2015-11-25 一种基于贝叶斯优化的图像表格文字切分方法

Publications (1)

Publication Number Publication Date
CN105469053A true CN105469053A (zh) 2016-04-06

Family

ID=55606724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510831602.6A Pending CN105469053A (zh) 2015-11-25 2015-11-25 一种基于贝叶斯优化的图像表格文字切分方法

Country Status (1)

Country Link
CN (1) CN105469053A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN110298353A (zh) * 2019-07-03 2019-10-01 中国农业银行股份有限公司 一种字符识别方法及系统
CN110660019A (zh) * 2019-09-29 2020-01-07 华北电力大学 一种基于bpl的小数据集简笔画生成方法
CN111563453A (zh) * 2020-05-07 2020-08-21 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
US10817741B2 (en) 2016-02-29 2020-10-27 Alibaba Group Holding Limited Word segmentation system, method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452523A (zh) * 2007-12-07 2009-06-10 汉王科技股份有限公司 一种识别手写表格的方法及装置
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统
US20120290601A1 (en) * 2007-11-15 2012-11-15 Master Wave International Co., Ltd. Image-based Data Management Method and System

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120290601A1 (en) * 2007-11-15 2012-11-15 Master Wave International Co., Ltd. Image-based Data Management Method and System
CN101452523A (zh) * 2007-12-07 2009-06-10 汉王科技股份有限公司 一种识别手写表格的方法及装置
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲小挺: "基于自学习的手写表格数字字符串快速识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817741B2 (en) 2016-02-29 2020-10-27 Alibaba Group Holding Limited Word segmentation system, method and device
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN109325415A (zh) * 2018-08-22 2019-02-12 吴昌议 一种基于图像列对齐特征预测所有目标区域的方法
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN110298353A (zh) * 2019-07-03 2019-10-01 中国农业银行股份有限公司 一种字符识别方法及系统
CN110660019A (zh) * 2019-09-29 2020-01-07 华北电力大学 一种基于bpl的小数据集简笔画生成方法
CN111563453A (zh) * 2020-05-07 2020-08-21 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
CN111563453B (zh) * 2020-05-07 2023-07-04 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN105512611A (zh) 一种表格图像检测识别方法
CN105426856A (zh) 一种图像表格文字识别方法
CN105469053A (zh) 一种基于贝叶斯优化的图像表格文字切分方法
CN105447522A (zh) 一种复杂图像文字识别系统
CN112818812B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109948510B (zh) 一种文档图像实例分割方法及装置
CN107093172B (zh) 文字检测方法及系统
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN105574486A (zh) 一种图像表格文字切分方法
CN103034848B (zh) 一种表单类型的识别方法
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
US20140193029A1 (en) Text Detection in Images of Graphical User Interfaces
CN101777124A (zh) 一种提取视频文本信息的方法及装置
CN111428723A (zh) 字符识别方法及装置、电子设备、存储介质
US9183636B1 (en) Line segmentation method
KR102472821B1 (ko) 혼합 조판 문자를 인식하는 방법, 기기, 칩 회로 및 컴퓨터 프로그램 제품
Salvi et al. Handwritten text segmentation using average longest path algorithm
CN113095267B (zh) 统计图的数据提取方法、电子设备和存储介质
CN110135407B (zh) 样本标注方法及计算机存储介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406

WD01 Invention patent application deemed withdrawn after publication