CN114926839A - 基于rpa和ai的图像识别方法及电子设备 - Google Patents
基于rpa和ai的图像识别方法及电子设备 Download PDFInfo
- Publication number
- CN114926839A CN114926839A CN202210865587.7A CN202210865587A CN114926839A CN 114926839 A CN114926839 A CN 114926839A CN 202210865587 A CN202210865587 A CN 202210865587A CN 114926839 A CN114926839 A CN 114926839A
- Authority
- CN
- China
- Prior art keywords
- central axis
- image
- pixel point
- gray
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000012015 optical character recognition Methods 0.000 claims abstract description 34
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 230000037303 wrinkles Effects 0.000 claims description 67
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 241001270131 Agaricus moelleri Species 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了基于RPA和AI的图像识别方法及电子设备,涉及人工智能领域。包括:获取扫描文件灰度图;提取各模糊区域的中轴线像素点得到各组中轴线像素点对应的不同字符角度;计算扫描文件灰度图的方向混乱程度,根据扫面文件灰度图的方向混乱程度进行不同的处理,计算每条中轴线像素点为褶皱像素点的概率;计算扫描文件灰度图中每个像素点的参考权重文本字符的匹配程度进行修正,利用OCR技术对扫描文件进行图像识别提取文本内容。本发明获取纸质文件的扫描图像后,结合褶皱纹理与正常文字的方向差异以及褶皱本身灰度不均匀的特征,对各组数据结合每个像素点的参考权重褶皱概率的进行修正,以提高OCR识别的准确率。
Description
技术领域
本发明涉及人工智能领域,具体涉及基于RPA和AI的图像识别方法及电子设备。
背景技术
机器人流程自动化(Robotic Process Automation,RPA)是一种用于实现用户界面自动化技术的软件工具。它能够按照预先设定好的业务规则和逻辑去完成相应的动作,即以固定的逻辑执行预先编排好的规则,也就是说RPA本身并不具有学习的能力,因此当RPA与AI结合后相当于是在基于规则的自动化基础之上增加了基于人工智能和认知技术的推理、判断和决策能力,可以实现真正的智能流程自动化。
目前大环境中,电脑办公已经是常态化的现象,然而部分工作还是需要纸质版报告或图表,但是在进行远程交接的时候,就需要电子版的报告、图表等,人为重新制表耗时耗力,所以出现了对图像中的文本进行识别的技术,利用电子设备对纸质版图表进行扫描,利用计算机进行文字识别,获取图像中的文本字符,让机器代替人去进行证件审核乃至于文本审核,首先需要让机器看到人所能看到的,因此在RPA进行数据录入时,使用OCR(光学字符识别)技术将RPA机器人对纸质文件的扫描结果进行文字识别,将文本图像转化成文本,而后才是理解人所能看到的,如使用NLP技术进行纠错分词以及文本分类等,并将最终读取到的数据信息自动录入系统并归档。
现有技术中利用OCR技术进行文字识别大多是根据传统图像处理的方法或基于深度学习的OCR技术。除却算法本身,图像质量乃是影响OCR识别准确率的最大因素。但是纸质文件在保存或者使用过程中不可避免的会出现褶皱或者脏污,这些因素除了会改变文字的局部特征,还会将褶皱纹理误识别为纹理,使得文字识别结果不准确,进而导致RPA数据录入结果的不准确。
发明内容
针对上述技术问题,本发明提供了基于RPA和AI的图像识别方法及电子设备。
第一方面,本发明实施例提供了基于RPA和AI的图像识别方法,包括:
获取扫描文件灰度图;
对扫描文件灰度图进行高斯模糊得到模糊区域后再进行阈值分割得到扫描文件二值图,提取扫描文件二值图中每个模糊区域中所有的中轴线,该中轴线是由位于同一条直线上的像素点构成,并获取每条中轴线的字符角度;
利用扫描文件二值图中每条中轴线的字符角度及各字符角度的频率计算该扫描文件二值图的方向混乱程度,根据扫描文件二值图的方向混乱程度对该扫描文件是否为平整纸面进行判断,若该扫描文件为平整纸面直接对该扫描文件使用OCR技术进行文本字符的识别和提取;
若该扫描文件为非平整纸面,利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率;
获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点;
利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;
获取所有中轴线在扫描文件灰度图中的交点,根据扫描文件灰度图中每个像素点到最近距离的交点的距离、及该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;
利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。
扫描文件二值图的方向混乱程度的计算公式如下:
计算扫描文件灰度图中每个像素点的参考权重的过程为:
将存在多个方向的中轴线像素点记为交点,即中轴线的交点,获取扫描文件灰度图中的所有交点;
根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线像素点组为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重,计算公式如下:
其中,为扫描文件灰度图中第个像素点的参考权重,为扫描文件灰度图中第个像素点到与该像素点最近距离的交点的距离,表示与第个像素点最近距离的交点,表示存在与该像素点最近距离交点的中轴线上像素点为褶皱像素点的概率的最大值。
每条中轴线的字符角度及各字符角度的频率的获取方法为:
每条中轴线上像素点为褶皱像素点的最终概率的计算方法如下:
选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度,根据每条中轴线像素点对应的字符角度与标准字符角度的差值绝对值和各中轴线像素点的灰度值对每条中轴线像素点为褶皱像素点的初始概率进行修正,修正初始概率的表达式如下:
式中:为第条中轴线上像素点为褶皱像素点的概率,为第条中轴线上像素点为褶皱像素点的初始概率,为标准字符角度,为第条中轴线上第个像素点和第个像素点所组成的向量与水平向量所成的夹角,表示第条中轴线上像素点的序号,表示第条中轴线上像素点的数量,表示第条中轴线上的参考点,为第条中轴线上参考点的灰度值,为第条中轴线上第个像素点与参考点的距离,为第条中轴线上第个像素点的灰度值。
利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率的方法为:
将每条中轴线对应的字符角度的频率作为该中轴线上像素点为文本字符中轴线上像素点的概率,将该中轴线上像素点不是文本字符中轴线上像素点的概率作为该中轴线上像素点为褶皱像素点的初始概率,即:
第二方面,本发明实施例提供了基于RPA和AI的图像识别的电子设备,包括:扫描仪、图像处理单元、数据处理单元和智能机器人。
扫描仪:用于扫描需要进行文字识别的文件得到扫描文件图像;
图像处理单元:用于对扫描仪传输的扫描文件图像进行图像处理得到处理后的图像的图像数据进行后续分析,包括:对扫描文件图像进行灰度化处理得到扫描文件灰度图;
对扫描文件灰度图进行高斯模糊得到扫描文件灰度图中的模糊区域,对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图,利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线;
数据处理单元:用于接收图像处理单元得到的处理后的图像的各种图像数据进行计算处理,包括:统计每条中轴线的字符角度的频率;
根据得到的各中轴线的每种字符角度的频率计算扫描文件灰度图的方向混乱程度;
计算该扫描文件灰度图中每条中轴线上像素点为褶皱像素点的初始概率;
利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;
根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;
利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正;
智能机器人:接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断,若该扫描文件为平整文件,对该扫描文件利用OCR技术进行图像识别提取文本内容,若该扫描文件为非平整文件,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。
相比于现有技术,本发明实施例的有益效果在于:
1. 本发明首先对字体较小的纸质文件进行多次模糊处理,对模糊处理后的结果进行骨架提取,从而得到文字(以及可能包含的褶皱纹理)的整体分布方向,避免文字本身纹理对分布方向的干扰;
2. 本发明首先根据各组数据的分布方向出现的频次计算图像的混乱程度,对图像中是否存在褶皱进行初步判断,提高图像处理的速度;
3. 本发明根据各个方向字符角度出现的频率对图像中的每一段中轴线像素点序列进行初步判断,并基于纸质文件中文字排版方式,结合褶皱纹理与正常文字的方向差异以及褶皱本身灰度不均匀的特征,对各组数据进行褶皱概率的进行修正,从而提高褶皱纹理判断的准确性;
4. 本发明通过各个像素点到褶皱纹理的距离以及褶皱本身的异常程度调整各个像素点在后续文字识别过程中的参考权重,从而提高OCR的文字识别准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于RPA和AI的图像识别方法提供的方法流程图;
图2为本发明实施例基于RPA和AI的图像识别方法提供的设备运行框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例提供了基于RPA和AI的图像识别方法,如图1与图2所示,具体内容包括:
利用机器视觉通过扫描仪得到需要识别的文件扫描图像,通过处理扫描的纸质文件图像中,初步确定图像中存在褶皱纹理的概率,在根据文字的排布规律计算各段纹理的异常程度,当纸质文件存在褶皱时,根据图像中各个像素点到褶皱纹理之间的距离进行文字识别过程中该像素点的参考权重进行调整,从而提高图像识别的准确率。
针对字体较小的纸质文件,AI平台通过RPA机器人扫描纸质文件图像,再对图像进行处理,根据图像中排版规律所获取图像特征,对各个像素点在文字识别过程中的参考权重。
S101、获取扫描文件灰度图
由于对纸质文件进行文字识别的过程都是基于纸质文件的扫描图像,因此需要利用扫描仪扫描需要进行文字识别的扫描文件得到扫描文件图像,对得到的扫描文件进行灰度化处理得到扫描文件灰度图。
S102、提取每个模糊区域的中轴线像素点
1.图像模糊
由于文字内容本身较为复杂,为了降低文字本身纹理的干扰,本实施例首先对图像进行多次水平方向上的高斯模糊(使用的卷积核,卷积核中数值大小服从高斯分布),使得水平方向上不断被模糊,而竖直方向上基本不受影响,因此每一行文字会变成一段模糊的区域,而需要录入的纸质文件多为表格类型,其文字排版方向是固定的,也就是说模糊区域会存在一个或两个方向。
2.骨架提取
对高斯模糊后的扫描文件灰度图进行OTSU自适应阈值分割,得到扫描文件二值图,利用K3M算法对每个模糊区域进行骨架提取。
3.获取每个模糊区域的中轴线上像素点
获取每个模糊区域的中轴线上的像素点作为各模糊区域的中轴线像素点,该中轴线是由位于同一条直线上的像素点构成,并获取每条中轴线的字符角度。
S103、统计每种字符角度的频率
由于RPA需要进行数据录入的文件中多为表格文件,表中的内容也是根据表格方向进行填写的,因此理想情况下,图像中中轴线的字符角度存在两种互相垂直的方向,统计扫描文件二值图中各字符角度的频率,并将与看作同一种字符角度情况,统计得到每种字符角度的频率。
S104、计算扫描文件二值图的方向混乱程度
根据得到的各组中轴线像素点形成的每种字符角度的频率计算扫描文件二值图的方向混乱程度,计算公式如下:
S105、根据扫描文件二值图的方向混乱程度对扫描文件进行判断
S106、计算每条中轴线上像素点为褶皱像素点的初始概率
由于褶皱的方向并不是固定的,而表格中纹理的方向是相对统一的,因此各个方向出现的概率越高,其属于褶皱的概率越低,因此本实施例中将每条中轴线的字符角度的频率作为该组中轴线上像素点为文本字符像素点的概率,将该组中轴线上不是文本字符像素点的概率作为该中轴线上像素点为褶皱像素点的初始概率,即:
S107、得到每条中轴线上像素点为褶皱像素点的概率
正常情况下,文字形成的方向只有一种,表格形成的方向会在上述基础上再包含一个与之垂直的方向,褶皱纹理一般很难与之保持统一,因此可以首先根据各组数据与正常方向之间的方向差异情况进行疑似概率的修正;
但是由于褶皱的方向并不是固定的,而报表中可能也会存在斜线,因此上述方法所得结果并不准确,而二者的区别在于报表中的斜线为人为设定,在纸质文件上显示的灰度一致性较高,而褶皱因受力的位置不同,从受力点位起始位置,该位置所形成的阴影越严重,灰度越低,并向两侧灰度逐渐升高,因此可以结合与标准字符方向之间的方向差异以及该组数据中各中轴线上像素点的灰度差异对第条中轴线像素点为褶皱像素点的概率进行修正,其中对第组数据的修正结果记为,则有:
选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度,根据每条中轴线的字符角度与标准字符角度的差值绝对值和各中轴线上像素点的灰度值对每条中轴线上像素点为褶皱像素点的初始概率进行修正得到每条中轴线上像素点为褶皱像素点的最终概率,修正初始概率的表达式如下:
式中:为第条中轴线上像素点为褶皱像素点的概率,为第条中轴线上像素点为褶皱像素点的初始概率,为标准字符角度,为第条中轴线上第个像素点和第个像素点所组成的向量与水平向量所成的夹角,表示第条中轴线上像素点的序号,表示第条中轴线上像素点的数量,表示第条中轴线上的参考点,为第条中轴线上参考点的灰度值,为第条中轴线上第个像素点与参考点的距离,为第条中轴线上第个像素点的灰度值。
由于褶皱纹理从受力点位置开始,向两侧灰度逐渐增加,因此越远离受力点的位置,与该受力点之间的灰度差异越大,该组数据灰度越不均匀,属于褶皱纹理的概率越大,虽然对图像进行模糊之后,仍会在一定程度上保留原来的灰度差异,但总体而言,像素点之间的灰度值之间的差异会变小,因此本实施例使用表示灰度差异,在以到受力点的距离为权重的基础上,放大像素点之间的灰度差异,该值越大,该像素点属于褶皱像素点的概率越大。
为第条中轴线上第个像素点和第个像素点所组成的向量与水平向量所成的夹角,;表示取与标准字符角度差值绝对值所对应的正弦值与余弦值中的最小值,当该字符角度方向与标准字符角度方向之间是平行关系时,此时该字符角度方向夹角的正弦值最小;当该字符角度方向与标准字符角度方向之间是垂直关系时,此时该字符角度方向夹角的余弦值最小,使用上述方法表示各组数据与标准字符角度方向的偏离程度;旨在对该方向差异值映射到之间,并随着方向差异值得增大而增大。
S108、计算扫描文件灰度图中每个像素点的参考权重
在中轴线上像素点为褶皱像素点的初始概率的基础上,当中轴线上像素点和与之相邻的像素点形成的字符角度与标准字符角度所产生的方向差异越大,中轴线上像素点为褶皱像素点的概率越高,但是并非所有方向差异大的都是褶皱纹理,还需要结合灰度的差异程度。
由于褶皱会改变文字的特征,在进行文字识别的时候容易产生误差,但是如果直接剔除,又会丢失文字特征,因此本实施例根据扫描文件图像中各个像素点的影响程度(距离越近影响程度越大),在进行文字识别时,对褶皱附近的像素点的识别结果设置相应较低的参考权重,从而提高文字识别的准确率。
由于交点出现于中轴线像素点交叉的位置,因此对根据扫描文件图像中各个像素点到最邻近交点的距离结合交点所在数据组的疑似概率为各个像素点在后续的识别过程中分配参考权重,将存在多个方向的中轴线像素点记为交点,获取扫描文件灰度图中的所有交点;
根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线像素点组为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重,计算公式如下:
其中,为扫描文件灰度图中第个像素点的参考权重,为扫描文件灰度图中第个像素点到与该像素点最近距离的交点的距离,表示与第个像素点最近距离的交点,表示存在与该像素点最近距离交点的中轴线上像素点为褶皱像素点的概率的最大值。
结合该交点所在的各组数据的最大概率,疑似概率表示该纹理的异常程度越大,则距离纹理越近,说明该点受到褶皱纹理干扰的可能性越大,依据该点在后续文字识别过程中得到的识别结果就越不准确,因此对该点的参考权重就需要设置越小越好。
S109、利用OCR技术对扫描文件进行图像识别提取文本内容
利用最近邻分类器比较图像特征和存储的字形特征,并选择特征最接近的进行匹配,结合各个图像特征中像素的参考权重,对所得匹配程度进行修正,选取匹配程度最大的字符即为识别结果。
根据结合参考权重对字符分类识别的结果继续进行OCR技术的后续处理和校正,得到最终识别出的文本字符。
基于与上述方法相同的发明构思,本实施例还提供了基于RPA和AI的图像识别的电子设备,本实施例中基于RPA和AI的图像识别的电子设备包括扫描仪、图像处理单元、数据处理单元和智能机器人,所述扫描仪、图像处理单元、数据处理单元和智能机器人,以实现如基于RPA和AI的图像识别方法的实施例中所描述的利用扫描仪获取扫描文件图像;对扫描仪传输的扫描文件图像进行灰度化处理得到扫描文件灰度图和高斯模糊处理得到扫描文件灰度图中的模糊区域,对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图,利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线;接收图像处理单元得到的处理后的图像的各种图像数据,统计每条中轴线的每种字符角度的频率;根据得到的各条轴线的每种字符角度的频率计算扫描文件二值图的方向混乱程度;计算该扫描文件灰度图中每条中轴线上素点为褶皱像素点的初始概率;获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点,用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;利用最近邻分类器结合每个像素点的参考权重对文本字符的匹配程度进行修正;最终利用智能机器人接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断,若该扫描文件为平整文件,对该扫描文件利用OCR进行图像识别提取文本内容,若该扫描文件不是平整文件,根据数据处理单元得到的OCR中修正后的匹配程度对扫描文件进行图像识别提取文本内容。
由于基于RPA和AI的图像识别方法实施例中已经对利用扫描仪获取扫描文件图像;对扫描仪传输的扫描文件图像进行灰度化处理得到扫描文件灰度图和高斯模糊处理得到扫描文件灰度图中的模糊区域,对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图,利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线;接收图像处理单元得到的处理后的图像的各种图像数据,统计每条中轴线的每种字符角度的频率;根据得到的各条轴线的每种字符角度的频率计算扫描文件二值图的方向混乱程度;计算该扫描文件灰度图中每条中轴线上素点为褶皱像素点的初始概率;获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点,用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;利用最近邻分类器结合每个像素点的参考权重对文本字符的匹配程度进行修正;最终利用智能机器人接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断,若该扫描文件为平整文件,对该扫描文件利用OCR进行图像识别提取文本内容,若该扫描文件不是平整文件,根据数据处理单元得到的OCR中修正后的匹配程度对扫描文件进行图像识别提取文本内容的方法进行了说明,此处不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于RPA和AI的图像识别方法,其特征在于,包括:
获取扫描文件灰度图;
对扫描文件灰度图进行高斯模糊得到模糊区域后再进行阈值分割得到扫描文件二值图,提取扫描文件二值图中每个模糊区域中所有的中轴线,该中轴线是由位于同一条直线上的像素点构成,并获取每条中轴线的字符角度;
利用扫描文件二值图中每条中轴线的字符角度及各字符角度的频率计算该扫描文件二值图的方向混乱程度,根据扫描文件二值图的方向混乱程度对该扫描文件是否为平整纸面进行判断,若该扫描文件为平整纸面直接对该扫描文件使用OCR技术进行文本字符的识别和提取;
若该扫描文件为非平整纸面,利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率;
获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点;
利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;
获取所有中轴线在扫描文件灰度图中的交点,根据扫描文件灰度图中每个像素点到最近距离的交点的距离、及该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;
利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。
5.根据权利要求1所述的基于RPA和AI的图像识别方法,其特征在于,所述每条中轴线上像素点为褶皱像素点的最终概率的计算方法如下:
选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度,根据每条中轴线像素点对应的字符角度与标准字符角度的差值绝对值和各中轴线像素点的灰度值对每条中轴线像素点为褶皱像素点的初始概率进行修正,修正初始概率的表达式如下:
7.基于RPA和AI的图像识别的电子设备,包括:扫描仪、图像处理单元、数据处理单元和智能机器人,其特征在于:
扫描仪:用于扫描需要进行文字识别的文件得到扫描文件图像;
图像处理单元:用于对扫描仪传输的扫描文件图像进行图像处理得到处理后的图像的图像数据进行后续分析,包括:对扫描文件图像进行灰度化处理得到扫描文件灰度图;
对扫描文件灰度图进行高斯模糊得到扫描文件灰度图中的模糊区域,对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图,利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线;
数据处理单元:用于接收图像处理单元得到的处理后的图像的各种图像数据进行计算处理,包括:统计每条中轴线的字符角度的频率;
根据得到的各中轴线的每种字符角度的频率计算扫描文件灰度图的方向混乱程度;
计算该扫描文件灰度图中每条中轴线上像素点为褶皱像素点的初始概率;
利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;
根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;
利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正;
智能机器人:接收数据处理单元得到的扫描文件灰度图的方向混乱程度对扫描文件是否为平整文件进行判断,若该扫描文件为平整文件,对该扫描文件利用OCR技术进行图像识别提取文本内容,若该扫描文件为非平整文件,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210865587.7A CN114926839B (zh) | 2022-07-22 | 2022-07-22 | 基于rpa和ai的图像识别方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210865587.7A CN114926839B (zh) | 2022-07-22 | 2022-07-22 | 基于rpa和ai的图像识别方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114926839A true CN114926839A (zh) | 2022-08-19 |
CN114926839B CN114926839B (zh) | 2022-10-14 |
Family
ID=82816019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210865587.7A Active CN114926839B (zh) | 2022-07-22 | 2022-07-22 | 基于rpa和ai的图像识别方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926839B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346227A (zh) * | 2022-10-17 | 2022-11-15 | 景臣科技(南通)有限公司 | 一种基于版式文件对电子文件矢量化的方法 |
CN115578729A (zh) * | 2022-11-21 | 2023-01-06 | 国网浙江省电力有限公司信息通信分公司 | 数字员工ai智能流程编排方法 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
CN116777912A (zh) * | 2023-08-22 | 2023-09-19 | 山东明佳科技有限公司 | 乳玻瓶瓶身标签褶皱的识别方法、系统、设备和存储介质 |
CN117197144A (zh) * | 2023-11-08 | 2023-12-08 | 深圳市极摩客科技有限公司 | 基于人工智能的主机外壳质量检测方法 |
CN117935296A (zh) * | 2024-02-06 | 2024-04-26 | 广东度才子集团有限公司 | 一种就业质量报告生成系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272902A (ja) * | 1995-04-03 | 1996-10-18 | Fuji Electric Co Ltd | 異字体異品質文字の認識方法 |
US20100134517A1 (en) * | 2007-05-22 | 2010-06-03 | Manale Saikaly | Method for automatic boundary segmentation of object in 2d and/or 3d image |
CN102555473A (zh) * | 2010-12-17 | 2012-07-11 | 富士胶片株式会社 | 不良记录元件检测设备和方法,以及图像形成设备和方法 |
US9275030B1 (en) * | 2014-09-30 | 2016-03-01 | Konica Minolta Laboratory U.S.A., Inc. | Horizontal and vertical line detection and removal for document images |
WO2018018788A1 (zh) * | 2016-07-29 | 2018-02-01 | 深圳友讯达科技股份有限公司 | 一种基于图像识别的计量表抄表装置及其方法 |
CN111251739A (zh) * | 2018-12-29 | 2020-06-09 | 任磊 | 可写入可变编码信息的安全图案及其制备方法和设备 |
CN112990188A (zh) * | 2019-12-13 | 2021-06-18 | 华为技术有限公司 | 一种文本识别方法及装置 |
WO2021190155A1 (zh) * | 2020-03-23 | 2021-09-30 | Oppo广东移动通信有限公司 | 文本行中的空格识别方法、装置、电子设备及存储介质 |
CN113743416A (zh) * | 2021-08-24 | 2021-12-03 | 的卢技术有限公司 | 一种ocr领域针对无真实样本情形的数据增强方法 |
CN113837119A (zh) * | 2021-09-28 | 2021-12-24 | 福州符号信息科技有限公司 | 一种基于灰度图像识别易混淆字符的方法及设备 |
CN114419632A (zh) * | 2021-12-29 | 2022-04-29 | 北京易道博识科技有限公司 | 一种ocr训练样本生成方法、装置及系统 |
-
2022
- 2022-07-22 CN CN202210865587.7A patent/CN114926839B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272902A (ja) * | 1995-04-03 | 1996-10-18 | Fuji Electric Co Ltd | 異字体異品質文字の認識方法 |
US20100134517A1 (en) * | 2007-05-22 | 2010-06-03 | Manale Saikaly | Method for automatic boundary segmentation of object in 2d and/or 3d image |
CN102555473A (zh) * | 2010-12-17 | 2012-07-11 | 富士胶片株式会社 | 不良记录元件检测设备和方法,以及图像形成设备和方法 |
US9275030B1 (en) * | 2014-09-30 | 2016-03-01 | Konica Minolta Laboratory U.S.A., Inc. | Horizontal and vertical line detection and removal for document images |
WO2018018788A1 (zh) * | 2016-07-29 | 2018-02-01 | 深圳友讯达科技股份有限公司 | 一种基于图像识别的计量表抄表装置及其方法 |
CN111251739A (zh) * | 2018-12-29 | 2020-06-09 | 任磊 | 可写入可变编码信息的安全图案及其制备方法和设备 |
CN112990188A (zh) * | 2019-12-13 | 2021-06-18 | 华为技术有限公司 | 一种文本识别方法及装置 |
WO2021190155A1 (zh) * | 2020-03-23 | 2021-09-30 | Oppo广东移动通信有限公司 | 文本行中的空格识别方法、装置、电子设备及存储介质 |
CN113743416A (zh) * | 2021-08-24 | 2021-12-03 | 的卢技术有限公司 | 一种ocr领域针对无真实样本情形的数据增强方法 |
CN113837119A (zh) * | 2021-09-28 | 2021-12-24 | 福州符号信息科技有限公司 | 一种基于灰度图像识别易混淆字符的方法及设备 |
CN114419632A (zh) * | 2021-12-29 | 2022-04-29 | 北京易道博识科技有限公司 | 一种ocr训练样本生成方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
XIAOPENG LU 等: "Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346227A (zh) * | 2022-10-17 | 2022-11-15 | 景臣科技(南通)有限公司 | 一种基于版式文件对电子文件矢量化的方法 |
CN115578729A (zh) * | 2022-11-21 | 2023-01-06 | 国网浙江省电力有限公司信息通信分公司 | 数字员工ai智能流程编排方法 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
CN116777912A (zh) * | 2023-08-22 | 2023-09-19 | 山东明佳科技有限公司 | 乳玻瓶瓶身标签褶皱的识别方法、系统、设备和存储介质 |
CN116777912B (zh) * | 2023-08-22 | 2023-11-03 | 山东明佳科技有限公司 | 乳玻瓶瓶身标签褶皱的识别方法、系统、设备和存储介质 |
CN117197144A (zh) * | 2023-11-08 | 2023-12-08 | 深圳市极摩客科技有限公司 | 基于人工智能的主机外壳质量检测方法 |
CN117197144B (zh) * | 2023-11-08 | 2024-02-23 | 深圳市极摩客科技有限公司 | 基于人工智能的主机外壳质量检测方法 |
CN117935296A (zh) * | 2024-02-06 | 2024-04-26 | 广东度才子集团有限公司 | 一种就业质量报告生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114926839B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114926839B (zh) | 基于rpa和ai的图像识别方法及电子设备 | |
CN108898610B (zh) | 一种基于mask-RCNN的物体轮廓提取方法 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
CN110781885A (zh) | 基于图像处理的文本检测方法、装置、介质及电子设备 | |
WO2007127085A1 (en) | Generating a bitonal image from a scanned colour image | |
CN111814673B (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
CN108846831B (zh) | 基于统计特征和图像特征相结合的带钢表面缺陷分类方法 | |
CN111652213A (zh) | 一种基于深度学习的船舶水尺读数识别方法 | |
CN113077392B (zh) | 一种针对指针表模糊照片的高准确度自动读数方法 | |
CN114782475A (zh) | 基于人工智能系统的瓦楞纸箱压线缺陷检测优化方法 | |
CN111461100A (zh) | 一种票据识别方法、装置、电子设备和存储介质 | |
CN115346227B (zh) | 一种基于版式文件对电子文件矢量化的方法 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN116152261B (zh) | 一种印刷制品质量的视觉检测系统 | |
CN115497109B (zh) | 基于智能翻译的文字图像预处理方法 | |
CN114266764A (zh) | 一种印刷标签的字符完整性检测方法及其装置 | |
CN115953776A (zh) | 基于机器学习的食品检测系统 | |
CN117635615B (zh) | 基于深度学习实现冲孔模具的缺陷检测方法及系统 | |
CN115512381A (zh) | 文本识别方法、装置、设备、存储介质及作业机械 | |
CN115456113A (zh) | 一种基于星座图多特征提取算法的调制格式识别方法 | |
CN113421257B (zh) | 一种点阵字体文本行旋转校正方法及装置 | |
CN113537216B (zh) | 一种点阵字体文本行倾斜校正方法及装置 | |
CN115471650A (zh) | 一种气体压力仪表读数方法、装置、设备及介质 | |
CN111583502B (zh) | 基于深度卷积神经网络的人民币冠字号多标签识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |