CN110929561B

CN110929561B - 表格文本智能过滤方法、装置及计算机可读存储介质

Info

Publication number: CN110929561B
Application number: CN201910965807.1A
Authority: CN
Inventors: 石明川; 李路路
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2024-04-12
Anticipated expiration: 2039-10-11
Also published as: WO2021068682A1; CN110929561A

Abstract

本发明涉及一种人工智能技术，揭露了一种表格文本智能过滤方法，包括：获取基于文档的表格图像集，将所述表格图像集进行预处理操作，得到标准表格图像集；利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集；对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集；利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，若检测出所述文本的位置，将所述文本过滤后保存对应特征表格图像，若没有检测出所述文本的位置，直接保存对应特征表格图像，从而完成所述表格图像集的文本过滤。本发明还提出一种表格文本智能过滤装置以及一种计算机可读存储介质。本发明实现了表格文本的智能过滤。

Description

表格文本智能过滤方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种表格文本智能过滤方法、装置及计算机可读存储介质。

背景技术

目前市场上存在各式各样的分类器，但大多数公司都是采用传统的如KNN，SVM，BP神经网络等分类算法。这些传统的分类器通常在表格文本过滤任务中不够有效，分类准确率也一直都达不到很高的水平，尤其对于保险行业的票据表格文本过滤处理而言是个很大的问题。

发明内容

本发明提供一种表格文本智能过滤方法、装置及计算机可读存储介质，其主要目的在于当用户进行对文档的表格文本进行过滤时，给用户呈现出精准的过滤结果。

为实现上述目的，本发明提供的一种表格文本智能过滤方法，包括：

获取基于文档的表格图像集，将所述表格图像集进行预处理操作，得到标准表格图像集；

利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集；

对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集；

利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，若检测出所述特征表格图像集的特征表格图像中文本的位置，则将所述文本进行过滤后保存所述特征表格图像，若没有检测出所述特征表格图像集的特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

可选地，所述将所述表格图像集进行预处理操作，得到标准表格图像集，包括：

根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集，利用对比度拉伸方式对所述灰度表格图像集进行对比度增强，将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。

可选地，所述利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集，包括：

通过阈值分割法将所述标准表格图像集中的图像前景文字和图像背景图案进行分割；

利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域，得到表格关键图像区域，从而组合形成所述表格关键图像区域集，其中，所述Retinex算法包括：

S(x,y)＝R(x,y)×L(x,y)

其中，S(x,y)表示表格关键图像区域，R(x,y)表示反射光图像，L(x,y)代表光亮度图像，x表示表格关键图像区域的横坐标，y表示表格关键图像区域的纵坐标。

可选地，所述对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集，包括：

将所述表格关键图像区域集输入至残差块神经网络输入层中，利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作，得到所述表格关键图像区域集的特征图谱集，通过所述残差块神经网络的输出层输出所述特征图谱集，从而得到所述特征表格图像集。

可选地，所述利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，包括：

在所述特征表格图像集中生成一个几何图，并将所述几何图按照预设的比例进行缩放，将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失L_g；

利用类平衡交叉熵计算缩放后的所述几何图中的文本损失L_s；

将缩放后的所述几何图损失和文本损失输入至预设的损失函数中得到损失函数值，根据所述损失函数值对所述特征表格图像集进行文本位置检测。

此外，为实现上述目的，本发明还提供一种表格文本智能过滤装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的表格文本过滤程序，所述表格文本过滤程序被所述处理器执行时实现如下步骤：

S(x,y)＝R(x,y)×L(x,y)

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有表格文本过滤程序，所述表格文本过滤程序可被一个或者多个处理器执行，以实现如上所述的表格文本智能过滤方法的步骤。

本发明提出的表格文本智能过滤方法、装置及计算机可读存储介质，在用户进行表格文本智能过滤时，对获取的基于文档的表格图像集进行预处理操作得到所述表格图像的特征图像集，并集合预先构建的表格文本过滤模型进行文本位置检测，当检测出所述特征表格图像集的特征表格图像中文本的位置，则将所述文本进行过滤后保存所述特征表格图像，当没有检测出所述特征表格图像集的特征表格图像中文本的位置，直接保存所述特征表格图像，从而可以给用户呈现出精准的过滤结果。

附图说明

图1为本发明一实施例提供的表格文本智能过滤方法的流程示意图；

图2为本发明一实施例提供的表格文本智能过滤装置的内部结构示意图；

图3为本发明一实施例提供的表格文本智能过滤装置中表格文本过滤程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种表格文本智能过滤方法。参照图1所示，为本发明一实施例提供的表格文本智能过滤方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，表格文本智能过滤方法包括：

S1、获取基于文档的表格图像集，将所述表格图像集进行预处理操作，得到标准表格图像集。

本发明较佳实施例中，所述文档包括word文档。其中，在所述word文档中，会包含大量的以表格形式出现的文本内容，较佳地，本发明中通过对所述以表格形式出现的文本内容进行扫描，得到表格图像，根据所述表格图像组合形成表格图像集。

进一步地，本发明通过以下两种方式获取所述word文档：方式一、利用关键字词从各大搜索引擎中下载得到；方式二、通过从各大专业学术网站中进行下载得到，例如，中国知网。

较佳地，本发明较佳实施例中，所述预处理操作包括：根据各比例法对所述表格图像集进行图像灰度化处理后得到灰度表格图像集，利用对比度拉伸方式对所述灰度表格图像集进行对比度增强，将对比度增强后的所述灰度表格图像集进行图像阈值化操作后得到所述标准表格图像集。详细地，所述预处理操作如下所示：

a.图像灰度化处理：

所述图像灰度化处理是将彩色图像转换为灰度图像。灰度图像的亮度信息完全能够表达图像的整体和局部的特征，并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。

本发明较佳实施例通过各比例法所述表格图像集转换为灰度表格图像集，所述各比例法实施步骤为：将所述表格图像集中像素点的R、G、B分量转换为YUV的颜色空间的Y分量，即亮度值，所述Y分量的计算方法如下式所示:

Y＝0.3R+0.59G+0.11B

其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。

b.对比度增强：

所述对比度指的是成像系统中亮度最大值与最小值之间的对比，其中，对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法，利用提高灰度级动态范围的方式，达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸，是目前常用的灰度变换方式。

进一步地，本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸，进一步提高输出图像的对比度。当进行对比度拉伸时，本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换，所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算，灰度变换公式如下所示：

D_b＝f(D_a)＝a*D_a+b

其中a为线性斜率，b为在Y轴上的截距。当a>1时，此时输出的图像对比度相比原图像是增强的。当a<1时，此时输出的图像对比度相比原图像是削弱的，其中D_a代表输入图像灰度值，D_b代表输出图像灰度值。

c.图像阈值化操作：

所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度表格图像集进行二值化的高效算法。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值，并假设前景点数占图像比例为w₀，平均灰度为u₀；背景点数占图像比例为w₁，平均灰度为u₁，则灰度图像的总平均灰度为：

u＝w₀*u₀+w₁*u₁，

灰度图像的前景和背景图象的方差为：

g＝w₀*(u₀-u)*(u₀-u)+w₁*(u₁-u)*(u₁-u)＝w₀*w₁*(u₀-u₁)*(u₀-u₁),

其中，当方差g最大时，则此时前景和背景差异最大，此时的灰度t为最佳阈值，并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255，小于所述灰度t的灰度值设置为0，从而得到所述标准表格图像集。

S2、利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集。

本发明较佳实施例中，所述图像增强算法包括阈值分割法和Retinex算法。优先的，本发明通过阈值分割法对所述标准表格图像集中的前景文字和背景图案进行分割。所述阈值分割法的核心思想是通过设置一个阈值T，遍历图像中的每个像素点，当像素点的灰度值大于T时，认为是前景文字，否则认为是背景图案。进一步地，对于分割后的所述标准表格图像集中的特殊文字，本发明采用区域增长法进行分割处理。其中，所述特殊文字包含字符，符号等。所述区域增长法的核心思想是根据事先定义的准则将像素或者子区域聚合成更大的区域，从一组生长点开始(生长点可以是单个像素或者一个小区域)，将与生长点性质相似的相邻像素或者区域与生长点合并，形成新的生长点，重复此过程直到不能生长为止。

较佳地，本发明中利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域，得到表格关键图像区域，从而组合形成所述表格关键图像区域集，其中，所述Retinex算法包括：

S(x,y)＝R(x,y)×L(x,y)

其中，S(x,y)表示表格关键图像区域，R(x,y)表示反射光图像，L(x,y)代表光亮度图像，x表示表格关键图像区域的横坐标，y表示表格关键图像区域的纵坐标。所述Retinex算法的核心思想为：图像是由亮度图像和反射图像组成，表示为亮度图像和图像反射图像之间像素与对应像素的乘积，通过降低亮度图像对反射图像的影响可以达到图像增强的目的。

S3、对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集。

本发明较佳实施例通过残差块神经网络对所述表格关键图像区域集进行特征图像提取。其中，所述残差块神经网络包括输入层、隐藏层以及输出层。较佳地，本发明通过将所述表格关键图像区域集输入至残差块神经网络输入层中，利用所述残差块神经网络的隐藏层对所述表格关键图像区域集进行卷积操作，得到表格关键图像区域集的特征图谱集，并通过所述残差块神经网络的输出层输出所述特征图谱集，从而得到所述特征表格图像集。

进一步地，本发明实施例中还包括将shortcut连接加入残差块神经网络中，所述shortcut连接即直连或捷径连接，即以所述残差块神经网络的F(x)+x函数替代原本的H(x)函数，从而达到快速连接。

S4、利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，若检测出特征表格图像中文本的位置，将所述文本进行过滤后保存所述特征表格图像，若没有检测出特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

本发明较佳实施例中，所述表格文本过滤模型包括文本检测网络。所述文本位置检测包括：在所述特征表格图像集中生成一个几何图，并将所述几何图按照预设的比例进行缩放，将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失L_g；利用类平衡交叉熵计算缩放后的所述几何图中的文本损失L_s；将缩放后的所述几何图损失和文本损失输入至预设的损失函数中得到损失函数值，根据所述损失函数值对所述特征表格图像集进行文本位置检测。若所述损失函数值小于预设的阈值时，检测出特征表格图像中文本的位置，并将所述文本进行过滤后保存所述特征表格图像，若所述损失函数值大于或等于预设的阈值时，没有检测出特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

优选地，本发明中所述预设的阈值为0.01。其中，所述损失函数包括：

L＝L_s+λ_gL_g

其中，L表示损失函数值，L_s和L_g分别表示文本损失和几何图损失，λ_g表示两个损失之间的重要等级值。

进一步，本发明中所述将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失L_g包括：将缩放后的所述几何图输入到所述表格文本过滤模型的输入层中，通过所述表格文本过滤模型的隐藏层对缩放后的所述几何图进行特征合并，得到特征图，并通过所述表格文本过滤模型的输出层对所述特征图进行边框回归，从而输出所述几何图的损失L_g。其中，所述隐藏层包含卷积层和池化层。

发明还提供一种表格文本智能过滤装置。参照图2所示，为本发明一实施例提供的表格文本智能过滤装置的内部结构示意图。

在本实施例中，所述表格文本智能过滤装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该表格文本智能过滤装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是表格文本智能过滤装置1的内部存储单元，例如该表格文本智能过滤装置1的硬盘。存储器11在另一些实施例中也可以是表格文本智能过滤装置1的外部存储设备，例如表格文本智能过滤装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括表格文本智能过滤装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于表格文本智能过滤装置1的应用软件及各类数据，例如表格文本过滤程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行表格文本过滤程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在表格文本智能过滤装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及表格文本过滤程序01的表格文本智能过滤装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对表格文本智能过滤装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有表格文本过滤程序01；处理器12执行存储器11中存储的表格文本过滤程序01时实现如下步骤：

步骤一、获取基于文档的表格图像集，将所述表格图像集进行预处理操作，得到标准表格图像集。

c.图像灰度化处理：

Y＝0.3R+0.59G+0.11B

其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。

d.对比度增强：

D_b＝f(D_a)＝a*D_a+b

c.图像阈值化操作：

u＝w₀*u₀+w₁*u₁，

灰度图像的前景和背景图象的方差为：

步骤二、利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集。

S(x,y)＝R(x,y)×L(x,y)

步骤三、对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集。

步骤四、利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，若检测出特征表格图像中文本的位置，将所述文本进行过滤后保存所述特征表格图像，若没有检测出特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

L＝L_s+λ_gL_g

可选地，在其他实施例中，表格文本过滤程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述表格文本过滤程序在表格文本智能过滤装置中的执行过程。

例如，参照图3所示，为本发明表格文本智能过滤装置一实施例中的表格文本过滤程序的程序模块示意图，该实施例中，所述表格文本过滤程序可以被分割为图像预处理模块10、增强处理模块20、特征提取模块30以及过滤模块40，示例性地：

所述图像预处理模块10用于：获取基于文档的表格图像集，将所述表格图像集进行预处理操作，得到标准表格图像集。

所述增强处理模块20用于：利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集。

所述特征提取模块30用于：对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集。

所述过滤模块40用于：利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，若检测出所述特征表格图像集的特征表格图像中文本的位置，则将所述文本进行过滤后保存所述特征表格图像，若没有检测出所述特征表格图像集的特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

上述图像预处理模块10、增强处理模块20、特征提取模块30以及过滤模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有表格文本过滤程序，所述表格文本过滤程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述表格文本智能过滤装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种表格文本智能过滤方法，其特征在于，所述方法包括：

利用图像增强算法对所述标准表格图像集进行增强处理，得到表格关键图像区域集，包括：通过所述图像增强算法设置一个阈值T，遍历所述标准表格图像集中的每个像素点，若像素点的灰度值大于阈值T，则将像素点作为前景文字，若像素点的灰度值小于或等于阈值T，则将像素点作为背景图案，对所述标准表格图像集中的前景文字和背景图案进行分割，利用Retinex算法计算出分割后的所述标准表格图像集中的关键信息图像区域，得到表格关键图像区域，组合所有的表格关键图像区域形成所述表格关键图像区域集；

利用预先构建的表格文本过滤模型对所述特征表格图像集进行文本位置检测，包括：在所述特征表格图像集中生成一个几何图，并将所述几何图按照预设的比例进行缩放，将缩放后的所述几何图输入至所述表格文本过滤模型中进行训练后得到缩放后的所述几何图损失，利用类平衡交叉熵计算缩放后的所述几何图中的文本损失/>，将缩放后的所述几何图损失/>和文本损失/>输入至预设的损失函数中得到损失函数值，根据所述损失函数值对所述特征表格图像集进行文本位置检测；

若检测出所述特征表格图像集的特征表格图像中文本的位置，则将所述文本进行过滤后保存所述特征表格图像，若没有检测出所述特征表格图像集的特征表格图像中文本的位置，直接保存所述特征表格图像，从而完成所述表格图像集的文本过滤。

2.如权利要求1所述的表格文本智能过滤方法，其特征在于，所述将所述表格图像集进行预处理操作，得到标准表格图像集，包括：

3.如权利要求1所述的表格文本智能过滤方法，其特征在于，所述Retinex算法包括：

其中，表示表格关键图像区域，/>表示反射光图像，/>代表光亮度图像，x表示表格关键图像区域的横坐标，y表示表格关键图像区域的纵坐标。

4.如权利要求1所述的表格文本智能过滤方法，其特征在于，所述对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集，包括：

5.一种表格文本智能过滤装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的表格文本过滤程序，所述表格文本过滤程序被所述处理器执行时实现如下步骤：

6.如权利要求5所述的表格文本智能过滤装置，其特征在于，所述将所述表格图像集进行预处理操作，得到标准表格图像集，包括：

7.如权利要求5所述的表格文本智能过滤装置，其特征在于，所述Retinex算法包括：

8.如权利要求5所述的表格文本智能过滤装置，其特征在于，所述对所述表格关键图像区域集进行特征图像提取，得到特征表格图像集，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有表格文本过滤程序，所述表格文本过滤程序可被一个或者多个处理器执行，以实现如权利要求1至4中任一项所述的表格文本智能过滤方法的步骤。