CN114926839A

CN114926839A - 基于rpa和ai的图像识别方法及电子设备

Info

Publication number: CN114926839A
Application number: CN202210865587.7A
Authority: CN
Inventors: 刘艳; 卢小鹏
Original assignee: Fujing Technology Shenzhen Co ltd
Current assignee: Fujing Technology Shenzhen Co ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-08-19
Anticipated expiration: 2042-07-22
Also published as: CN114926839B

Abstract

本发明公开了基于RPA和AI的图像识别方法及电子设备，涉及人工智能领域。包括：获取扫描文件灰度图；提取各模糊区域的中轴线像素点得到各组中轴线像素点对应的不同字符角度；计算扫描文件灰度图的方向混乱程度，根据扫面文件灰度图的方向混乱程度进行不同的处理，计算每条中轴线像素点为褶皱像素点的概率；计算扫描文件灰度图中每个像素点的参考权重文本字符的匹配程度进行修正，利用OCR技术对扫描文件进行图像识别提取文本内容。本发明获取纸质文件的扫描图像后，结合褶皱纹理与正常文字的方向差异以及褶皱本身灰度不均匀的特征，对各组数据结合每个像素点的参考权重褶皱概率的进行修正，以提高OCR识别的准确率。

Description

基于RPA和AI的图像识别方法及电子设备

技术领域

本发明涉及人工智能领域，具体涉及基于RPA和AI的图像识别方法及电子设备。

背景技术

机器人流程自动化（Robotic Process Automation，RPA）是一种用于实现用户界面自动化技术的软件工具。它能够按照预先设定好的业务规则和逻辑去完成相应的动作，即以固定的逻辑执行预先编排好的规则，也就是说RPA本身并不具有学习的能力，因此当RPA与AI结合后相当于是在基于规则的自动化基础之上增加了基于人工智能和认知技术的推理、判断和决策能力，可以实现真正的智能流程自动化。

目前大环境中，电脑办公已经是常态化的现象，然而部分工作还是需要纸质版报告或图表，但是在进行远程交接的时候，就需要电子版的报告、图表等，人为重新制表耗时耗力，所以出现了对图像中的文本进行识别的技术，利用电子设备对纸质版图表进行扫描，利用计算机进行文字识别，获取图像中的文本字符，让机器代替人去进行证件审核乃至于文本审核，首先需要让机器看到人所能看到的，因此在RPA进行数据录入时，使用OCR(光学字符识别)技术将RPA机器人对纸质文件的扫描结果进行文字识别，将文本图像转化成文本，而后才是理解人所能看到的，如使用NLP技术进行纠错分词以及文本分类等，并将最终读取到的数据信息自动录入系统并归档。

现有技术中利用OCR技术进行文字识别大多是根据传统图像处理的方法或基于深度学习的OCR技术。除却算法本身，图像质量乃是影响OCR识别准确率的最大因素。但是纸质文件在保存或者使用过程中不可避免的会出现褶皱或者脏污，这些因素除了会改变文字的局部特征，还会将褶皱纹理误识别为纹理，使得文字识别结果不准确，进而导致RPA数据录入结果的不准确。

发明内容

针对上述技术问题，本发明提供了基于RPA和AI的图像识别方法及电子设备。

第一方面，本发明实施例提供了基于RPA和AI的图像识别方法，包括：

获取扫描文件灰度图；

对扫描文件灰度图进行高斯模糊得到模糊区域后再进行阈值分割得到扫描文件二值图，提取扫描文件二值图中每个模糊区域中所有的中轴线，该中轴线是由位于同一条直线上的像素点构成，并获取每条中轴线的字符角度；

利用扫描文件二值图中每条中轴线的字符角度及各字符角度的频率计算该扫描文件二值图的方向混乱程度，根据扫描文件二值图的方向混乱程度对该扫描文件是否为平整纸面进行判断，若该扫描文件为平整纸面直接对该扫描文件使用OCR技术进行文本字符的识别和提取；

若该扫描文件为非平整纸面，利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率；

获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值，将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点；

利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改，得到每条中轴线上像素点为褶皱像素点的最终概率；

获取所有中轴线在扫描文件灰度图中的交点，根据扫描文件灰度图中每个像素点到最近距离的交点的距离、及该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重；

利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正，利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。

扫描文件二值图的方向混乱程度的计算公式如下：

其中，

为扫描文件二值图的方向混乱程度，

为中轴线的字符角度的数量，

为中轴线的字符角度的序号，

表示扫描文件灰度图的中轴线的第

种字符角度，

表示扫描文件灰度图的中轴线的第

种字符角度的频率。

计算扫描文件灰度图中每个像素点的参考权重的过程为：

将存在多个方向的中轴线像素点记为交点，即中轴线的交点，获取扫描文件灰度图中的所有交点；

根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线像素点组为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重，计算公式如下：

其中，

为扫描文件灰度图中第

个像素点的参考权重，

为扫描文件灰度图中第

个像素点到与该像素点最近距离的交点

的距离，

表示与第

个像素点最近距离的交点，

表示存在与该像素点最近距离交点的中轴线上像素点为褶皱像素点的概率的最大值。

每条中轴线的字符角度及各字符角度的频率的获取方法为：

将每条中轴线像素点连接起来得到中轴线，将每条中轴线像素点组成的中轴线向量与水平方向的夹角作为该中轴线的字符角度，并将

与

看作同一种字符角度情况，统计不同的字符角度的频率得到各字符角度的频率。

每条中轴线上像素点为褶皱像素点的最终概率的计算方法如下：

选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度，根据每条中轴线像素点对应的字符角度与标准字符角度的差值绝对值和各中轴线像素点的灰度值对每条中轴线像素点为褶皱像素点的初始概率进行修正，修正初始概率的表达式如下：

式中：

为第

条中轴线上像素点为褶皱像素点的概率，

为第

条中轴线上像素点为褶皱像素点的初始概率，

为标准字符角度，

为第

条中轴线上第

个像素点和第

个像素点所组成的向量与水平向量所成的夹角，

表示第

条中轴线上像素点的序号，

表示第

条中轴线上像素点的数量，

表示第

条中轴线上的参考点，

为第

条中轴线上参考点的灰度值，

为第

条中轴线上第

个像素点与参考点的距离，

为第

条中轴线上第

个像素点的灰度值。

利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率的方法为：

将每条中轴线对应的字符角度的频率作为该中轴线上像素点为文本字符中轴线上像素点的概率，将该中轴线上像素点不是文本字符中轴线上像素点的概率作为该中轴线上像素点为褶皱像素点的初始概率，即：

其中，

为第

条中轴线上像素点为褶皱像素点的初始概率，

表示扫描文件灰度图的中轴线的第

种字符角度的频率，即第

条中轴线的第

种字符角度为文本字符中轴线像素点的概率。

第二方面，本发明实施例提供了基于RPA和AI的图像识别的电子设备，包括：扫描仪、图像处理单元、数据处理单元和智能机器人。

扫描仪：用于扫描需要进行文字识别的文件得到扫描文件图像；

图像处理单元：用于对扫描仪传输的扫描文件图像进行图像处理得到处理后的图像的图像数据进行后续分析，包括：对扫描文件图像进行灰度化处理得到扫描文件灰度图；

对扫描文件灰度图进行高斯模糊得到扫描文件灰度图中的模糊区域，对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图，利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线；

数据处理单元：用于接收图像处理单元得到的处理后的图像的各种图像数据进行计算处理，包括：统计每条中轴线的字符角度的频率；

根据得到的各中轴线的每种字符角度的频率计算扫描文件灰度图的方向混乱程度；

计算该扫描文件灰度图中每条中轴线上像素点为褶皱像素点的初始概率；

根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重；

利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正；

智能机器人：接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断，若该扫描文件为平整文件，对该扫描文件利用OCR技术进行图像识别提取文本内容，若该扫描文件为非平整文件，利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。

相比于现有技术，本发明实施例的有益效果在于：

1. 本发明首先对字体较小的纸质文件进行多次模糊处理，对模糊处理后的结果进行骨架提取，从而得到文字(以及可能包含的褶皱纹理)的整体分布方向，避免文字本身纹理对分布方向的干扰；

2. 本发明首先根据各组数据的分布方向出现的频次计算图像的混乱程度，对图像中是否存在褶皱进行初步判断，提高图像处理的速度；

3. 本发明根据各个方向字符角度出现的频率对图像中的每一段中轴线像素点序列进行初步判断，并基于纸质文件中文字排版方式，结合褶皱纹理与正常文字的方向差异以及褶皱本身灰度不均匀的特征，对各组数据进行褶皱概率的进行修正，从而提高褶皱纹理判断的准确性；

4. 本发明通过各个像素点到褶皱纹理的距离以及褶皱本身的异常程度调整各个像素点在后续文字识别过程中的参考权重，从而提高OCR的文字识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于RPA和AI的图像识别方法提供的方法流程图；

图2为本发明实施例基于RPA和AI的图像识别方法提供的设备运行框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明实施例提供了基于RPA和AI的图像识别方法，如图1与图2所示，具体内容包括：

利用机器视觉通过扫描仪得到需要识别的文件扫描图像，通过处理扫描的纸质文件图像中，初步确定图像中存在褶皱纹理的概率，在根据文字的排布规律计算各段纹理的异常程度，当纸质文件存在褶皱时，根据图像中各个像素点到褶皱纹理之间的距离进行文字识别过程中该像素点的参考权重进行调整，从而提高图像识别的准确率。

针对字体较小的纸质文件，AI平台通过RPA机器人扫描纸质文件图像，再对图像进行处理，根据图像中排版规律所获取图像特征，对各个像素点在文字识别过程中的参考权重。

S101、获取扫描文件灰度图

由于对纸质文件进行文字识别的过程都是基于纸质文件的扫描图像，因此需要利用扫描仪扫描需要进行文字识别的扫描文件得到扫描文件图像，对得到的扫描文件进行灰度化处理得到扫描文件灰度图。

S102、提取每个模糊区域的中轴线像素点

1.图像模糊

由于文字内容本身较为复杂，为了降低文字本身纹理的干扰，本实施例首先对图像进行多次水平方向上的高斯模糊(使用

的卷积核，卷积核中数值大小服从高斯分布)，使得水平方向上不断被模糊，而竖直方向上基本不受影响，因此每一行文字会变成一段模糊的区域，而需要录入的纸质文件多为表格类型，其文字排版方向是固定的，也就是说模糊区域会存在一个或两个方向。

2.骨架提取

对高斯模糊后的扫描文件灰度图进行OTSU自适应阈值分割，得到扫描文件二值图，利用K3M算法对每个模糊区域进行骨架提取。

3.获取每个模糊区域的中轴线上像素点

获取每个模糊区域的中轴线上的像素点作为各模糊区域的中轴线像素点，该中轴线是由位于同一条直线上的像素点构成，并获取每条中轴线的字符角度。

中轴线的字符角度为：第

条中轴线中的第一个中轴线像素点和最后一个中轴线像素点形成的方向向量与水平方向所成的角度

(主方向)，

。

S103、统计每种字符角度的频率

由于RPA需要进行数据录入的文件中多为表格文件，表中的内容也是根据表格方向进行填写的，因此理想情况下，图像中中轴线的字符角度存在两种互相垂直的方向，统计扫描文件二值图中各字符角度的频率，并将

与

看作同一种字符角度情况，统计得到每种字符角度的频率。

S104、计算扫描文件二值图的方向混乱程度

根据得到的各组中轴线像素点形成的每种字符角度的频率计算扫描文件二值图的方向混乱程度，计算公式如下：

其中，

为扫描文件二值图的方向混乱程度，

为中轴线的字符角度的数量，

为中轴线的字符角度的序号，

表示扫描文件灰度图的中轴线的第

种字符角度，

表示扫描文件灰度图的中轴线的第

种字符角度的频率。

S105、根据扫描文件二值图的方向混乱程度对扫描文件进行判断

设置阈值

，当

时，认为图像中方向混乱程度较高，即图像中包含的角度类型较多，存在褶皱的可能性较大，扫描文件为非平整文件，需要对当前扫描图像进行褶皱纹理的去除；

当

时，则认为图像中不存在褶皱，或者褶皱纹理较少，扫描文件为平整文件，对图像中文字识别的影响较小，直接使用OCR技术对扫描图像中的文本信息进行提取即可。

S106、计算每条中轴线上像素点为褶皱像素点的初始概率

由于褶皱的方向并不是固定的，而表格中纹理的方向是相对统一的，因此各个方向出现的概率越高，其属于褶皱的概率越低，因此本实施例中将每条中轴线的字符角度的频率作为该组中轴线上像素点为文本字符像素点的概率，将该组中轴线上不是文本字符像素点的概率作为该中轴线上像素点为褶皱像素点的初始概率，即：

其中，

为第

条中轴线上像素点为褶皱像素点的初始概率，

表示扫描文件灰度图的中轴线的第

种字符角度的频率，即第

条中轴线的第

种字符角度为文本字符中轴线像素点的概率。

S107、得到每条中轴线上像素点为褶皱像素点的概率

正常情况下，文字形成的方向只有一种，表格形成的方向会在上述基础上再包含一个与之垂直的方向，褶皱纹理一般很难与之保持统一，因此可以首先根据各组数据与正常方向之间的方向差异情况进行疑似概率的修正；

但是由于褶皱的方向并不是固定的，而报表中可能也会存在斜线，因此上述方法所得结果并不准确，而二者的区别在于报表中的斜线为人为设定，在纸质文件上显示的灰度一致性较高，而褶皱因受力的位置不同，从受力点位起始位置，该位置所形成的阴影越严重，灰度越低，并向两侧灰度逐渐升高，因此可以结合与标准字符方向之间的方向差异以及该组数据中各中轴线上像素点的灰度差异对第

条中轴线像素点为褶皱像素点的概率进行修正，其中对第

组数据的修正结果记为

，则有：

选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度，根据每条中轴线的字符角度与标准字符角度的差值绝对值和各中轴线上像素点的灰度值对每条中轴线上像素点为褶皱像素点的初始概率进行修正得到每条中轴线上像素点为褶皱像素点的最终概率，修正初始概率的表达式如下：

式中：

为第

条中轴线上像素点为褶皱像素点的概率，

为第

条中轴线上像素点为褶皱像素点的初始概率，

为标准字符角度，

为第

条中轴线上第

个像素点和第

个像素点所组成的向量与水平向量所成的夹角，

表示第

条中轴线上像素点的序号，

表示第

条中轴线上像素点的数量，

表示第

条中轴线上的参考点，

为第

条中轴线上参考点的灰度值，

为第

条中轴线上第

个像素点与参考点的距离，

为第

条中轴线上第

个像素点的灰度值。

由于褶皱纹理从受力点位置开始，向两侧灰度逐渐增加，因此越远离受力点的位置，与该受力点之间的灰度差异越大，该组数据灰度越不均匀，属于褶皱纹理的概率越大，虽然对图像进行模糊之后，仍会在一定程度上保留原来的灰度差异，但总体而言，像素点之间的灰度值之间的差异会变小，因此本实施例使用

表示灰度差异，在以到受力点的距离为权重的基础上，放大像素点之间的灰度差异，该值越大，该像素点属于褶皱像素点的概率越大。

为第

条中轴线上第

个像素点和第

个像素点所组成的向量与水平向量所成的夹角，

;

表示取

与标准字符角度差值绝对值所对应的正弦值与余弦值中的最小值，当该字符角度方向与标准字符角度方向之间是平行关系时，此时该字符角度方向夹角的正弦值最小；当该字符角度方向与标准字符角度方向之间是垂直关系时，此时该字符角度方向夹角的余弦值最小，使用上述方法表示各组数据与标准字符角度方向的偏离程度；

旨在对该方向差异值映射到之间，并随着方向差异值得增大而增大。

S108、计算扫描文件灰度图中每个像素点的参考权重

在中轴线上像素点为褶皱像素点的初始概率的基础上，当中轴线上像素点和与之相邻的像素点形成的字符角度与标准字符角度所产生的方向差异越大，中轴线上像素点为褶皱像素点的概率越高，但是并非所有方向差异大的都是褶皱纹理，还需要结合灰度的差异程度。

由于褶皱会改变文字的特征，在进行文字识别的时候容易产生误差，但是如果直接剔除，又会丢失文字特征，因此本实施例根据扫描文件图像中各个像素点的影响程度(距离越近影响程度越大)，在进行文字识别时，对褶皱附近的像素点的识别结果设置相应较低的参考权重，从而提高文字识别的准确率。

由于交点出现于中轴线像素点交叉的位置，因此对根据扫描文件图像中各个像素点到最邻近交点的距离结合交点所在数据组的疑似概率为各个像素点在后续的识别过程中分配参考权重，将存在多个方向的中轴线像素点记为交点，获取扫描文件灰度图中的所有交点；

其中，

为扫描文件灰度图中第

个像素点的参考权重，

为扫描文件灰度图中第

个像素点到与该像素点最近距离的交点

的距离，

表示与第

个像素点最近距离的交点，

结合该交点所在的各组数据的最大概率，疑似概率表示该纹理的异常程度越大，则距离纹理越近，说明该点受到褶皱纹理干扰的可能性越大，依据该点在后续文字识别过程中得到的识别结果就越不准确，因此对该点的参考权重就需要设置越小越好。

S109、利用OCR技术对扫描文件进行图像识别提取文本内容

利用最近邻分类器比较图像特征和存储的字形特征，并选择特征最接近的进行匹配，结合各个图像特征中像素的参考权重，对所得匹配程度进行修正，选取匹配程度最大的字符即为识别结果。

根据结合参考权重对字符分类识别的结果继续进行OCR技术的后续处理和校正，得到最终识别出的文本字符。

基于与上述方法相同的发明构思，本实施例还提供了基于RPA和AI的图像识别的电子设备，本实施例中基于RPA和AI的图像识别的电子设备包括扫描仪、图像处理单元、数据处理单元和智能机器人，所述扫描仪、图像处理单元、数据处理单元和智能机器人，以实现如基于RPA和AI的图像识别方法的实施例中所描述的利用扫描仪获取扫描文件图像；对扫描仪传输的扫描文件图像进行灰度化处理得到扫描文件灰度图和高斯模糊处理得到扫描文件灰度图中的模糊区域，对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图，利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线；接收图像处理单元得到的处理后的图像的各种图像数据，统计每条中轴线的每种字符角度的频率；根据得到的各条轴线的每种字符角度的频率计算扫描文件二值图的方向混乱程度；计算该扫描文件灰度图中每条中轴线上素点为褶皱像素点的初始概率；获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值，将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点，用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改，得到每条中轴线上像素点为褶皱像素点的最终概率；根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重；利用最近邻分类器结合每个像素点的参考权重对文本字符的匹配程度进行修正；最终利用智能机器人接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断，若该扫描文件为平整文件，对该扫描文件利用OCR进行图像识别提取文本内容，若该扫描文件不是平整文件，根据数据处理单元得到的OCR中修正后的匹配程度对扫描文件进行图像识别提取文本内容。

由于基于RPA和AI的图像识别方法实施例中已经对利用扫描仪获取扫描文件图像；对扫描仪传输的扫描文件图像进行灰度化处理得到扫描文件灰度图和高斯模糊处理得到扫描文件灰度图中的模糊区域，对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图，利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线；接收图像处理单元得到的处理后的图像的各种图像数据，统计每条中轴线的每种字符角度的频率；根据得到的各条轴线的每种字符角度的频率计算扫描文件二值图的方向混乱程度；计算该扫描文件灰度图中每条中轴线上素点为褶皱像素点的初始概率；获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值，将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点，用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改，得到每条中轴线上像素点为褶皱像素点的最终概率；根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重；利用最近邻分类器结合每个像素点的参考权重对文本字符的匹配程度进行修正；最终利用智能机器人接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断，若该扫描文件为平整文件，对该扫描文件利用OCR进行图像识别提取文本内容，若该扫描文件不是平整文件，根据数据处理单元得到的OCR中修正后的匹配程度对扫描文件进行图像识别提取文本内容的方法进行了说明，此处不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。