CN110929561B - 表格文本智能过滤方法、装置及计算机可读存储介质 - Google Patents
表格文本智能过滤方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110929561B CN110929561B CN201910965807.1A CN201910965807A CN110929561B CN 110929561 B CN110929561 B CN 110929561B CN 201910965807 A CN201910965807 A CN 201910965807A CN 110929561 B CN110929561 B CN 110929561B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- image set
- filtering
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000003711 image thresholding Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 12
- 230000002708 enhancing effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241001584785 Anavitrinella pampinaria Species 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种表格文本智能过滤方法,包括:获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集;对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出所述文本的位置,将所述文本过滤后保存对应特征表格图像,若没有检测出所述文本的位置,直接保存对应特征表格图像,从而完成所述表格图像集的文本过滤。本发明还提出一种表格文本智能过滤装置以及一种计算机可读存储介质。本发明实现了表格文本的智能过滤。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种表格文本智能过滤方法、装置及计算机可读存储介质。
背景技术
目前市场上存在各式各样的分类器,但大多数公司都是采用传统的如KNN,SVM,BP神经网络等分类算法。这些传统的分类器通常在表格文本过滤任务中不够有效,分类准确率也一直都达不到很高的水平,尤其对于保险行业的票据表格文本过滤处理而言是个很大的问题。
发明内容
本发明提供一种表格文本智能过滤方法、装置及计算机可读存储介质,其主要目的在于当用户进行对文档的表格文本进行过滤时,给用户呈现出精准的过滤结果。
为实现上述目的,本发明提供的一种表格文本智能过滤方法,包括:
获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;
利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集;
对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;
利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
可选地,所述将所述表格图像集进行预处理操作,得到标准表格图像集,包括:
根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。
可选地,所述利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集,包括:
通过阈值分割法将所述标准表格图像集中的图像前景文字和图像背景图案进行分割;
利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,从而组合形成所述表格关键图像区域集,其中,所述Retinex算法包括:
S(x,y)=R(x,y)×L(x,y)
其中,S(x,y)表示表格关键图像区域,R(x,y)表示反射光图像,L(x,y)代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。
可选地,所述对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集,包括:
将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到所述表格关键图像区域集的特征图谱集,通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
可选地,所述利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,包括:
在所述特征表格图像集中生成一个几何图,并将所述几何图按照预设的比例进行缩放,将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失Lg;
利用类平衡交叉熵计算缩放后的所述几何图中的文本损失Ls;
将缩放后的所述几何图损失和文本损失输入至预设的损失函数中得到损失函数值,根据所述损失函数值对所述特征表格图像集进行文本位置检测。
此外,为实现上述目的,本发明还提供一种表格文本智能过滤装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的表格文本过滤程序,所述表格文本过滤程序被所述处理器执行时实现如下步骤:
获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;
利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集;
对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;
利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
可选地,所述将所述表格图像集进行预处理操作,得到标准表格图像集,包括:
根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。
可选地,所述利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集,包括:
通过阈值分割法将所述标准表格图像集中的图像前景文字和图像背景图案进行分割;
利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,从而组合形成所述表格关键图像区域集,其中,所述Retinex算法包括:
S(x,y)=R(x,y)×L(x,y)
其中,S(x,y)表示表格关键图像区域,R(x,y)表示反射光图像,L(x,y)代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。
可选地,所述对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集,包括:
将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到所述表格关键图像区域集的特征图谱集,通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有表格文本过滤程序,所述表格文本过滤程序可被一个或者多个处理器执行,以实现如上所述的表格文本智能过滤方法的步骤。
本发明提出的表格文本智能过滤方法、装置及计算机可读存储介质,在用户进行表格文本智能过滤时,对获取的基于文档的表格图像集进行预处理操作得到所述表格图像的特征图像集,并集合预先构建的表格文本过滤模型进行文本位置检测,当检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,当没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而可以给用户呈现出精准的过滤结果。
附图说明
图1为本发明一实施例提供的表格文本智能过滤方法的流程示意图;
图2为本发明一实施例提供的表格文本智能过滤装置的内部结构示意图;
图3为本发明一实施例提供的表格文本智能过滤装置中表格文本过滤程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种表格文本智能过滤方法。参照图1所示,为本发明一实施例提供的表格文本智能过滤方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,表格文本智能过滤方法包括:
S1、获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集。
本发明较佳实施例中,所述文档包括word文档。其中,在所述word文档中,会包含大量的以表格形式出现的文本内容,较佳地,本发明中通过对所述以表格形式出现的文本内容进行扫描,得到表格图像,根据所述表格图像组合形成表格图像集。
进一步地,本发明通过以下两种方式获取所述word文档:方式一、利用关键字词从各大搜索引擎中下载得到;方式二、通过从各大专业学术网站中进行下载得到,例如,中国知网。
较佳地,本发明较佳实施例中,所述预处理操作包括:根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。详细地,所述预处理操作如下所示:
a.图像灰度化处理:
所述图像灰度化处理是将彩色图像转换为灰度图像。灰度图像的亮度信息完全能够表达图像的整体和局部的特征,并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。
本发明较佳实施例通过各比例法所述表格图像集转换为灰度表格图像集,所述各比例法实施步骤为:将所述表格图像集中像素点的R、G、B分量转换为YUV的颜色空间的Y分量,即亮度值,所述Y分量的计算方法如下式所示:
Y=0.3R+0.59G+0.11B
其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。
b.对比度增强:
所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸,是目前常用的灰度变换方式。
进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。
c.图像阈值化操作:
所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度表格图像集进行二值化的高效算法。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值,并假设前景点数占图像比例为w0,平均灰度为u0;背景点数占图像比例为w1,平均灰度为u1,则灰度图像的总平均灰度为:
u=w0*u0+w1*u1,
灰度图像的前景和背景图象的方差为:
g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),
其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,从而得到所述标准表格图像集。
S2、利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集。
本发明较佳实施例中,所述图像增强算法包括阈值分割法和Retinex算法。优先的,本发明通过阈值分割法对所述标准表格图像集中的前景文字和背景图案进行分割。所述阈值分割法的核心思想是通过设置一个阈值T,遍历图像中的每个像素点,当像素点的灰度值大于T时,认为是前景文字,否则认为是背景图案。进一步地,对于分割后的所述标准表格图像集中的特殊文字,本发明采用区域增长法进行分割处理。其中,所述特殊文字包含字符,符号等。所述区域增长法的核心思想是根据事先定义的准则将像素或者子区域聚合成更大的区域,从一组生长点开始(生长点可以是单个像素或者一个小区域),将与生长点性质相似的相邻像素或者区域与生长点合并,形成新的生长点,重复此过程直到不能生长为止。
较佳地,本发明中利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,从而组合形成所述表格关键图像区域集,其中,所述Retinex算法包括:
S(x,y)=R(x,y)×L(x,y)
其中,S(x,y)表示表格关键图像区域,R(x,y)表示反射光图像,L(x,y)代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。所述Retinex算法的核心思想为:图像是由亮度图像和反射图像组成,表示为亮度图像和图像反射图像之间像素与对应像素的乘积,通过降低亮度图像对反射图像的影响可以达到图像增强的目的。
S3、对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集。
本发明较佳实施例通过残差块神经网络对所述表格关键图像区域集进行特征图像提取。其中,所述残差块神经网络包括输入层、隐藏层以及输出层。较佳地,本发明通过将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到表格关键图像区域集的特征图谱集,并通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
进一步地,本发明实施例中还包括将shortcut连接加入残差块神经网络中,所述shortcut连接即直连或捷径连接,即以所述残差块神经网络的F(x)+x函数替代原本的H(x)函数,从而达到快速连接。
S4、利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出特征表格图像中文本的位置,将所述文本进行过滤后保存所述特征表格图像,若没有检测出特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
本发明较佳实施例中,所述表格文本过滤模型包括文本检测网络。所述文本位置检测包括:在所述特征表格图像集中生成一个几何图,并将所述几何图按照预设的比例进行缩放,将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失Lg;利用类平衡交叉熵计算缩放后的所述几何图中的文本损失Ls;将缩放后的所述几何图损失和文本损失输入至预设的损失函数中得到损失函数值,根据所述损失函数值对所述特征表格图像集进行文本位置检测。若所述损失函数值小于预设的阈值时,检测出特征表格图像中文本的位置,并将所述文本进行过滤后保存所述特征表格图像,若所述损失函数值大于或等于预设的阈值时,没有检测出特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
优选地,本发明中所述预设的阈值为0.01。其中,所述损失函数包括:
L=Ls+λgLg
其中,L表示损失函数值,Ls和Lg分别表示文本损失和几何图损失,λg表示两个损失之间的重要等级值。
进一步,本发明中所述将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失Lg包括:将缩放后的所述几何图输入到所述表格文本过滤模型的输入层中,通过所述表格文本过滤模型的隐藏层对缩放后的所述几何图进行特征合并,得到特征图,并通过所述表格文本过滤模型的输出层对所述特征图进行边框回归,从而输出所述几何图的损失Lg。其中,所述隐藏层包含卷积层和池化层。
发明还提供一种表格文本智能过滤装置。参照图2所示,为本发明一实施例提供的表格文本智能过滤装置的内部结构示意图。
在本实施例中,所述表格文本智能过滤装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该表格文本智能过滤装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是表格文本智能过滤装置1的内部存储单元,例如该表格文本智能过滤装置1的硬盘。存储器11在另一些实施例中也可以是表格文本智能过滤装置1的外部存储设备,例如表格文本智能过滤装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括表格文本智能过滤装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于表格文本智能过滤装置1的应用软件及各类数据,例如表格文本过滤程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行表格文本过滤程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在表格文本智能过滤装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及表格文本过滤程序01的表格文本智能过滤装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对表格文本智能过滤装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有表格文本过滤程序01;处理器12执行存储器11中存储的表格文本过滤程序01时实现如下步骤:
步骤一、获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集。
本发明较佳实施例中,所述文档包括word文档。其中,在所述word文档中,会包含大量的以表格形式出现的文本内容,较佳地,本发明中通过对所述以表格形式出现的文本内容进行扫描,得到表格图像,根据所述表格图像组合形成表格图像集。
进一步地,本发明通过以下两种方式获取所述word文档:方式一、利用关键字词从各大搜索引擎中下载得到;方式二、通过从各大专业学术网站中进行下载得到,例如,中国知网。
较佳地,本发明较佳实施例中,所述预处理操作包括:根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。详细地,所述预处理操作如下所示:
c.图像灰度化处理:
所述图像灰度化处理是将彩色图像转换为灰度图像。灰度图像的亮度信息完全能够表达图像的整体和局部的特征,并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。
本发明较佳实施例通过各比例法所述表格图像集转换为灰度表格图像集,所述各比例法实施步骤为:将所述表格图像集中像素点的R、G、B分量转换为YUV的颜色空间的Y分量,即亮度值,所述Y分量的计算方法如下式所示:
Y=0.3R+0.59G+0.11B
其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。
d.对比度增强:
所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸,是目前常用的灰度变换方式。
进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。
c.图像阈值化操作:
所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度表格图像集进行二值化的高效算法。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值,并假设前景点数占图像比例为w0,平均灰度为u0;背景点数占图像比例为w1,平均灰度为u1,则灰度图像的总平均灰度为:
u=w0*u0+w1*u1,
灰度图像的前景和背景图象的方差为:
g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),
其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,从而得到所述标准表格图像集。
步骤二、利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集。
本发明较佳实施例中,所述图像增强算法包括阈值分割法和Retinex算法。优先的,本发明通过阈值分割法对所述标准表格图像集中的前景文字和背景图案进行分割。所述阈值分割法的核心思想是通过设置一个阈值T,遍历图像中的每个像素点,当像素点的灰度值大于T时,认为是前景文字,否则认为是背景图案。进一步地,对于分割后的所述标准表格图像集中的特殊文字,本发明采用区域增长法进行分割处理。其中,所述特殊文字包含字符,符号等。所述区域增长法的核心思想是根据事先定义的准则将像素或者子区域聚合成更大的区域,从一组生长点开始(生长点可以是单个像素或者一个小区域),将与生长点性质相似的相邻像素或者区域与生长点合并,形成新的生长点,重复此过程直到不能生长为止。
较佳地,本发明中利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,从而组合形成所述表格关键图像区域集,其中,所述Retinex算法包括:
S(x,y)=R(x,y)×L(x,y)
其中,S(x,y)表示表格关键图像区域,R(x,y)表示反射光图像,L(x,y)代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。所述Retinex算法的核心思想为:图像是由亮度图像和反射图像组成,表示为亮度图像和图像反射图像之间像素与对应像素的乘积,通过降低亮度图像对反射图像的影响可以达到图像增强的目的。
步骤三、对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集。
本发明较佳实施例通过残差块神经网络对所述表格关键图像区域集进行特征图像提取。其中,所述残差块神经网络包括输入层、隐藏层以及输出层。较佳地,本发明通过将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到表格关键图像区域集的特征图谱集,并通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
进一步地,本发明实施例中还包括将shortcut连接加入残差块神经网络中,所述shortcut连接即直连或捷径连接,即以所述残差块神经网络的F(x)+x函数替代原本的H(x)函数,从而达到快速连接。
步骤四、利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出特征表格图像中文本的位置,将所述文本进行过滤后保存所述特征表格图像,若没有检测出特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
本发明较佳实施例中,所述表格文本过滤模型包括文本检测网络。所述文本位置检测包括:在所述特征表格图像集中生成一个几何图,并将所述几何图按照预设的比例进行缩放,将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失Lg;利用类平衡交叉熵计算缩放后的所述几何图中的文本损失Ls;将缩放后的所述几何图损失和文本损失输入至预设的损失函数中得到损失函数值,根据所述损失函数值对所述特征表格图像集进行文本位置检测。若所述损失函数值小于预设的阈值时,检测出特征表格图像中文本的位置,并将所述文本进行过滤后保存所述特征表格图像,若所述损失函数值大于或等于预设的阈值时,没有检测出特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
优选地,本发明中所述预设的阈值为0.01。其中,所述损失函数包括:
L=Ls+λgLg
其中,L表示损失函数值,Ls和Lg分别表示文本损失和几何图损失,λg表示两个损失之间的重要等级值。
进一步,本发明中所述将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失Lg包括:将缩放后的所述几何图输入到所述表格文本过滤模型的输入层中,通过所述表格文本过滤模型的隐藏层对缩放后的所述几何图进行特征合并,得到特征图,并通过所述表格文本过滤模型的输出层对所述特征图进行边框回归,从而输出所述几何图的损失Lg。其中,所述隐藏层包含卷积层和池化层。
可选地,在其他实施例中,表格文本过滤程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述表格文本过滤程序在表格文本智能过滤装置中的执行过程。
例如,参照图3所示,为本发明表格文本智能过滤装置一实施例中的表格文本过滤程序的程序模块示意图,该实施例中,所述表格文本过滤程序可以被分割为图像预处理模块10、增强处理模块20、特征提取模块30以及过滤模块40,示例性地:
所述图像预处理模块10用于:获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集。
所述增强处理模块20用于:利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集。
所述特征提取模块30用于:对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集。
所述过滤模块40用于:利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
上述图像预处理模块10、增强处理模块20、特征提取模块30以及过滤模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有表格文本过滤程序,所述表格文本过滤程序可被一个或多个处理器执行,以实现如下操作:
获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;
利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集;
对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;
利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
本发明计算机可读存储介质具体实施方式与上述表格文本智能过滤装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种表格文本智能过滤方法,其特征在于,所述方法包括:
获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;
利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集,包括:通过所述图像增强算法设置一个阈值T,遍历所述标准表格图像集中的每个像素点,若像素点的灰度值大于阈值T,则将像素点作为前景文字,若像素点的灰度值小于或等于阈值T,则将像素点作为背景图案,对所述标准表格图像集中的前景文字和背景图案进行分割,利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,组合所有的表格关键图像区域形成所述表格关键图像区域集;
对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;
利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,包括:在所述特征表格图像集中生成一个几何图,并将所述几何图按照预设的比例进行缩放,将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失,利用类平衡交叉熵计算缩放后的所述几何图中的文本损失/>,将缩放后的所述几何图损失/>和文本损失/>输入至预设的损失函数中得到损失函数值,根据所述损失函数值对所述特征表格图像集进行文本位置检测;
若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
2.如权利要求1所述的表格文本智能过滤方法,其特征在于,所述将所述表格图像集进行预处理操作,得到标准表格图像集,包括:
根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。
3.如权利要求1所述的表格文本智能过滤方法,其特征在于,所述Retinex算法包括:
其中,表示表格关键图像区域,/>表示反射光图像,/>代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。
4.如权利要求1所述的表格文本智能过滤方法,其特征在于,所述对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集,包括:
将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到所述表格关键图像区域集的特征图谱集,通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
5.一种表格文本智能过滤装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的表格文本过滤程序,所述表格文本过滤程序被所述处理器执行时实现如下步骤:
获取基于文档的表格图像集,将所述表格图像集进行预处理操作,得到标准表格图像集;
利用图像增强算法对所述标准表格图像集进行增强处理,得到表格关键图像区域集,包括:通过所述图像增强算法设置一个阈值T,遍历所述标准表格图像集中的每个像素点,若像素点的灰度值大于阈值T,则将像素点作为前景文字,若像素点的灰度值小于或等于阈值T,则将像素点作为背景图案,对所述标准表格图像集中的前景文字和背景图案进行分割,利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域,得到表格关键图像区域,组合所有的表格关键图像区域形成所述表格关键图像区域集;
对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集;
利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测,包括:在所述特征表格图像集中生成一个几何图,并将所述几何图按照预设的比例进行缩放,将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失,利用类平衡交叉熵计算缩放后的所述几何图中的文本损失/>,将缩放后的所述几何图损失/>和文本损失/>输入至预设的损失函数中得到损失函数值,根据所述损失函数值对所述特征表格图像集进行文本位置检测;
若检测出所述特征表格图像集的特征表格图像中文本的位置,则将所述文本进行过滤后保存所述特征表格图像,若没有检测出所述特征表格图像集的特征表格图像中文本的位置,直接保存所述特征表格图像,从而完成所述表格图像集的文本过滤。
6.如权利要求5所述的表格文本智能过滤装置,其特征在于,所述将所述表格图像集进行预处理操作,得到标准表格图像集,包括:
根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集,利用对比度拉伸方式对所述灰度表格图像集进行对比度增强,将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。
7.如权利要求5所述的表格文本智能过滤装置,其特征在于,所述Retinex算法包括:
其中,表示表格关键图像区域,/>表示反射光图像,/>代表光亮度图像,x表示表格关键图像区域的横坐标,y表示表格关键图像区域的纵坐标。
8.如权利要求5所述的表格文本智能过滤装置,其特征在于,所述对所述表格关键图像区域集进行特征图像提取,得到特征表格图像集,包括:
将所述表格关键图像区域集输入至残差块神经网络输入层中,利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作,得到所述表格关键图像区域集的特征图谱集,通过所述残差块神经网络的输出层输出所述特征图谱集,从而得到所述特征表格图像集。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格文本过滤程序,所述表格文本过滤程序可被一个或者多个处理器执行,以实现如权利要求1至4中任一项所述的表格文本智能过滤方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965807.1A CN110929561B (zh) | 2019-10-11 | 2019-10-11 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
PCT/CN2020/112334 WO2021068682A1 (zh) | 2019-10-11 | 2020-08-30 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965807.1A CN110929561B (zh) | 2019-10-11 | 2019-10-11 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929561A CN110929561A (zh) | 2020-03-27 |
CN110929561B true CN110929561B (zh) | 2024-04-12 |
Family
ID=69848874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910965807.1A Active CN110929561B (zh) | 2019-10-11 | 2019-10-11 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110929561B (zh) |
WO (1) | WO2021068682A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929561B (zh) * | 2019-10-11 | 2024-04-12 | 平安科技(深圳)有限公司 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715748B2 (en) * | 2014-12-04 | 2017-07-25 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for graphical data interaction and vizualization of graphs via paths |
US10740123B2 (en) * | 2017-01-26 | 2020-08-11 | Nice Ltd. | Method and system for accessing table content in a digital image of the table |
CN106897690B (zh) * | 2017-02-22 | 2018-04-13 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN110929561B (zh) * | 2019-10-11 | 2024-04-12 | 平安科技(深圳)有限公司 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
-
2019
- 2019-10-11 CN CN201910965807.1A patent/CN110929561B/zh active Active
-
2020
- 2020-08-30 WO PCT/CN2020/112334 patent/WO2021068682A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021068682A1 (zh) | 2021-04-15 |
CN110929561A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853047B (zh) | 智能图像分割及分类方法、装置及计算机可读存储介质 | |
CN110738203B (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
JP5972468B2 (ja) | 画像からのラベルの検出 | |
WO2019169772A1 (zh) | 图片处理方法、电子装置及存储介质 | |
CN110717497B (zh) | 图像相似度匹配方法、装置及计算机可读存储介质 | |
CN110516544B (zh) | 基于深度学习的人脸识别方法、装置及计算机可读存储介质 | |
Pai et al. | Adaptive thresholding algorithm: Efficient computation technique based on intelligent block detection for degraded document images | |
WO2021203832A1 (zh) | 文本图像中手写内容去除方法、装置、存储介质 | |
WO2021008019A1 (zh) | 姿态跟踪方法、装置及计算机可读存储介质 | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
US9235757B1 (en) | Fast text detection | |
CN110706295A (zh) | 人脸检测方法、装置及计算机可读存储介质 | |
CN112163443A (zh) | 一种扫码方法、扫码装置及移动终端 | |
CN113222921A (zh) | 一种图像处理方法及系统 | |
CN112801232A (zh) | 一种应用于处方录入的扫描识别方法及系统 | |
CN110399812B (zh) | 人脸特征智能提取方法、装置及计算机可读存储介质 | |
CN110705547B (zh) | 图像内文字识别方法、装置及计算机可读存储介质 | |
CN110210467B (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
CN110929561B (zh) | 表格文本智能过滤方法、装置及计算机可读存储介质 | |
CN110795995B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN110222571B (zh) | 黑眼圈智能判断方法、装置及计算机可读存储介质 | |
CN110287988B (zh) | 数据增强方法、装置及计算机可读存储介质 | |
CN115049713B (zh) | 图像配准方法、装置、设备及可读存储介质 | |
CN110717516B (zh) | 票据图像分类方法、装置及计算机可读存储介质 | |
CN110598033A (zh) | 智能自核验车方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |