CN114581916A - 结合rpa和ai的基于图像的字符识别方法、装置及设备 - Google Patents
结合rpa和ai的基于图像的字符识别方法、装置及设备 Download PDFInfo
- Publication number
- CN114581916A CN114581916A CN202210152375.4A CN202210152375A CN114581916A CN 114581916 A CN114581916 A CN 114581916A CN 202210152375 A CN202210152375 A CN 202210152375A CN 114581916 A CN114581916 A CN 114581916A
- Authority
- CN
- China
- Prior art keywords
- character
- information
- characteristic information
- feature information
- character image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 125
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 116
- 238000004801 process automation Methods 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims description 123
- 230000004927 fusion Effects 0.000 claims description 38
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 abstract description 14
- 238000012512 characterization method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007499 fusion processing Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本公开提出一种结合RPA和AI的基于图像的字符识别方法、装置及设备,该方法包括:采用RPA(Robotic Process Automation,机器人流程自动化)获取字符图像,采用AI(Artificial Intelligence,人工智能)确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符。通过本公开,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificial Intelligence,人工智能)的基于图像的字符识别方法、装置及设备。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
相关技术中,在对图像中的字符进行识别处理时,通常是参考图像分类选取对比特征。
这种方式下,参考图像分类选取对比特征,容易出现图像表征混乱,导致图像中的字符识别效果较差。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的目的在于提出一种结合RPA和AI的基于图像的字符识别方法、装置、电子设备及存储介质,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性。
本公开第一方面实施例提出的结合RPA和AI的基于图像的字符识别方法,包括:采用机器人流程自动化RPA获取字符图像;采用人工智能AI确定所述字符图像的多维特征信息,其中,所述特征信息,用于基于相应维度描述待识别字符在所述字符图像中的特征;确定所述字符图像的参考位置信息;根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,其中,所述目标特征信息的维度数量小于所述多维特征信息的维度数量;以及根据所述目标特征信息,从所述字符图像中识别出所述待识别字符。
在一种实施方式中,所述确定所述字符图像的参考位置信息,包括:确定所述待识别字符在所述字符图像中的相对位置信息,并将所述相对位置信息作为所述参考位置信息。
在一种实施方式中,所述采用人工智能AI确定所述字符图像的多维特征信息,包括:采用所述AI确定所述待识别字符在所述字符图像中的尺寸特征信息;确定所述待识别字符在所述字符图像中的形态特征信息;确定所述待识别字符在所述字符图像中的深度特征信息;将所述尺寸特征信息、所述形态特征信息、所述深度特征信息共同作为所述多维特征信息。
在一种实施方式中,所述根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,包括:融合所述参考位置信息和所述多维特征信息,以得到融合特征信息;对所述融合特征信息进行采样处理,以得到目标特征信息。
在一种实施方式中,所述融合所述参考位置信息和所述多维特征信息,以得到融合特征信息,包括:将所述参考位置信息融合至所述多维特征信息的尺寸特征信息之中,以得到所述融合特征信息。
在一种实施方式中,所述对所述融合特征信息进行采样处理,以得到目标特征信息,包括:确定需求采样尺度;根据所述需求采样尺度对所述融合特征信息进行上采样和/或下采样处理,以得到所述目标特征信息。
在一种实施方式中,所述融合特征信息包括:高度特征信息和宽度特征信息;其中,所述根据所述需求采样尺度对所述融合特征信息进行上采样和/或下采样处理,以得到所述目标特征信息,包括:对所述高度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息;和/或对所述宽度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息,其中,所述第一目标特征信息和/或所述第二目标特征信息被作为所述目标特征信息。
在一种实施方式中,所述根据所述目标特征信息,从所述字符图像中识别出所述待识别字符,包括:将所述目标特征信息输入至字符识别模型之中,以得到与所述目标特征信息匹配的字符序列特征,其中,所述字符识别模型是采用所述AI中的自监督学习方法训练得到的;根据所述字符序列特征,从所述字符图像中匹配出所述待识别字符。
本公开第二方面实施例提出的结合RPA和AI的基于图像的字符识别装置,包括:获取模块,用于采用机器人流程自动化RPA获取字符图像;第一确定模块,用于采用人工智能AI确定所述字符图像的多维特征信息,其中,所述特征信息,用于基于相应维度描述待识别字符在所述字符图像中的特征;第二确定模块,用于确定所述字符图像的参考位置信息;处理模块,用于根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,其中,所述目标特征信息的维度数量小于所述多维特征信息的维度数量;以及识别模块,用于根据所述目标特征信息,从所述字符图像中识别出所述待识别字符。
在一种实施方式中,所述第二确定模块,具体用于:确定所述待识别字符在所述字符图像中的相对位置信息,并将所述相对位置信息作为所述参考位置信息。
在一种实施方式中,所述第一确定模块,具体用于:采用所述AI确定所述待识别字符在所述字符图像中的尺寸特征信息;确定所述待识别字符在所述字符图像中的形态特征信息;确定所述待识别字符在所述字符图像中的深度特征信息;将所述尺寸特征信息、所述形态特征信息、所述深度特征信息共同作为所述多维特征信息。
在一种实施方式中,所述处理模块,包括:融合子模块,用于融合所述参考位置信息和所述多维特征信息,以得到融合特征信息;处理子模块,用于对所述融合特征信息进行采样处理,以得到目标特征信息。
在一种实施方式中,所述融合子模块,具体用于:将所述参考位置信息融合至所述多维特征信息的尺寸特征信息之中,以得到所述融合特征信息。
在一种实施方式中,所述处理子模块,具体用于:确定需求采样尺度;根据所述需求采样尺度对所述融合特征信息进行上采样和/或下采样处理,以得到所述目标特征信息。
在一种实施方式中,所述融合特征信息包括:高度特征信息和宽度特征信息;其中,所述处理子模块,还用于:对所述高度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息;和/或对所述宽度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息,其中,所述第一目标特征信息和/或所述第二目标特征信息被作为所述目标特征信息。
在一种实施方式中,所述识别模块,具体用于:将所述目标特征信息输入至字符识别模型之中,以得到与所述目标特征信息匹配的字符序列特征,其中,所述字符识别模型是采用所述AI中的自监督学习方法训练得到的;根据所述字符序列特征,从所述字符图像中匹配出所述待识别字符。
本公开第三方面实施例提出的电子设备,包括:至少一个处理器和存储器;存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行本公开第一方面实施例提出的结合RPA和AI的基于图像的字符识别方法。
本公开第四方面实施例提出的计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现本公开第一方面实施例提出的结合RPA和AI的基于图像的字符识别方法。
上述技术方案中的优点或有益效果至少包括:通过采用机器人流程自动化RPA获取字符图像,采用人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本公开进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本公开的一些实施方式,而不应将其视为是对本公开范围的限制。
图1是本公开一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图;
图2是本公开实施例中的图形验证码示意图;
图3是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图;
图4是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图;
图5是是本公开实施例中的字符识别流程示意图;
图6是本公开一实施例提出的结合RPA和AI的基于图像的字符识别装置的结构示意图;
图7是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别装置的结构示意图;
图8示出根据本公开一实施例的电子设备的结构框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。
以下结合附图描述根据本公开实施例的结合RPA和AI的基于图像的字符识别方法。
图1是本公开一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图。
本实施例以结合RPA和AI的基于图像的字符识别方法被配置为结合RPA和AI的基于图像的字符识别装置中来举例说明,本实施例中结合RPA和AI的基于图像的字符识别方法可以被配置在结合RPA和AI的基于图像的字符识别装置中,结合RPA和AI的基于图像的字符识别装置可以设置在服务器中,或者也可以设置在电子设备中,本公开实施例对此不作限制。
本实施例以结合RPA和AI的基于图像的字符识别方法被配置在电子设备中为例。其中,电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
需要说明的是,本公开实施例的执行主体,在硬件上可以例如为服务器或者电子设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为服务器或者电子设备中的相关的后台服务,对此不作限制。
另外,本公开实施例中的“识别”,是指结合机器人流程自动化RPA和人工智能AI的基于图像的字符识别的过程,也即是说,该基于图像的字符识别的过程是一个全流程自动化的基于图像的字符识别的过程,并且该基于图像的字符识别的过程还与人工智能AI相结合,实现自动化地进行自然语言处理(Natural Language Processing,NLP)领域中的图像的字符进行识别。
在本公开的描述中,术语“机器人流程自动化RPA”,是指通过机器人应用软件在计算机上按照规则自动执行流程任务。
在本公开的描述中,术语“人工智能AI”,是指研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
在本公开的描述中,术语“字符图像”,是指待对其进行识别处理的包含字符的图像,该字符图像例如可以为授权登录系统的图形验证码图像,或者可以为任意种类的包含字符的图像,对此不作限制。
在本公开的描述中,术语“待识别字符”,是指字符图像中,当前待对其进行识别处理的字符。
在本公开的描述中,术语“特征信息”,是指用于对待识别字符在字符图像中的特征进行表征的数据信息,字符图像的多维特征信息,可以用于基于相应维度描述待识别字符在字符图像中的特征。
在本公开的描述中,术语“参考位置信息”,是指对字符图像的位置特征信息进行向量化处理后的位置信息,该参考位置信息可以是对字符图像的高度特征信息和宽度特征信息进行向量化处理后得到的二维位置信息。
在本公开的描述中,术语“目标特征信息”,是指对多维特征信息进行降维处理后的特征信息,该目标特征信息的维度小于多维特征信息的维度数量。
在本公开的描述中,术语“尺寸特征信息”,用于描述字符图像中的待识别字符在字符图像中的尺寸特征,该尺寸特征信息可以为待识别字符在字符图像中的高度特征信息和宽度特征信息等。
在本公开的描述中,术语“形态特征信息”,用于描述待识别字符在字符图像中的形态特征,该形态位置信息例如可以为待识别字符的字符种类,以及是否存在翻转等形态信息。
在本公开的描述中,术语“深度特征信息”,用于描述待识别字符在字符图像中存储所需要的存储位数。
在本公开的描述中,术语“相对位置信息”,是指用于描述待识别字符在字符图像中相对位置的二维向量位置信息。
在本公开的描述中,术语“融合特征信息”,是指对参考位置信息和多维特征信息融合处理后的特征信息,该融合特征信息可以用于执行后续的字符识别处理任务。
在本公开的描述中,术语“需求采样尺度”,是指对融合特征信息进行采样处理时需求的尺度,该需求采样尺度可以根据神经网络对融合特征信息进行处理的需求进行适应性配置。
在本公开的描述中,术语“第一目标特征信息”,是指根据需求采样尺度对融合特征信息中的高度特征信息进行上采样和/或下采样处理后得到的特征信息。
在本公开的描述中,术语“第二目标特征信息”,是指根据需求采样尺度对融合特征信息中的宽度特征信息进行上采样和/或下采样处理后得到的特征信息。
在本公开的描述中,术语“字符序列特征”,是指对一维特征进行特征变换处理之后得到的序列特征。
在本公开的描述中,术语“字符识别模型”,是指采用人工智能AI中的自监督学习方法训练得到的,该字符识别处理模型可以根据字符序列特征,执行字符识别处理任务。
本公开可以具体应用于人工智能AI的自然语言处理(Natural LanguageProcessing,NLP)领域,自然语言处理(Natural Language Processing,NLP),即计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
举例而言,本公开实施例中基于该全流程自动化的基于图像的字符识别的过程,可以实现全流程自动化地执行采用机器人流程自动化RPA获取字符图像,采用RPA结合人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符。
如图1所示,该结合RPA和AI的基于图像的字符识别方法,包括:
S101:采用机器人流程自动化RPA获取字符图像。
其中,机器人流程自动化RPA,是指通过机器人应用软件在计算机上按照规则自动执行流程任务。
其中,字符图像是指待对其进行识别处理的包含字符的图像,该字符图像例如可以为授权登录系统的图形验证码图像,或者可以为任意种类的包含字符的图像,对此不作限制。
也即是说,本公开实施例中的一种应用场景可以具体例如为,采用机器人流程自动化RPA获取授权登录系统的图形验证码,而后将获取到的图形验证码作为字符图像,对获取得到的字符进行基于图像的字符识别处理,以得到相应的字符识别处理结果,或者,本公开实施例描述的结合RPA和AI的基于图像的字符识别方法,也可以应用于其他任意可能的字符识别场景中,对此不做限制。
本公开实施例中,在采用机器人流程自动化RPA获取字符图像时,可以预先配置应用程序数据接口,由RPA机器人按照预先设定好的软件操作流程,经由该应用程序数据接口接收授权登录系统的图形验证码,并将获取到的图形验证码图像作为字符图像,或者还可以在结合RPA和AI的基于图像的字符识别装置上配备数据传输接口,经由该数据传输接口接收其他电子设备传输的包含字符的图像作为获取到的字符图像,或者也可以采用其他任意可能的方式获取字符图像,对此不做限制。
举例而言,如图2所示,图2是本公开实施例中的图形验证码示意图,可以采用机器人流程自动化RPA获取授权登录系统的图形验证码,将获取到的图形验证码图像作为字符图像,而后可以对字符图像进行字符识别处理,实现对字符图像中的待识别字符进行识别。
S102:采用人工智能AI确定字符图像的多维特征信息,其中,特征信息,用于基于相应维度描述待识别字符在字符图像中的特征。
其中,字符图像中,当前待对其进行识别处理的字符,可以被称为待识别字符,特征信息,是用于对待识别字符在字符图像中的特征进行表征的数据信息,字符图像的多维特征信息,可以用于基于相应维度描述待识别字符在字符图像中的特征。
本公开实施例在上述采用机器人流程自动化RPA获取字符图像之后,可以人工智能AI确定字符图像的多维特征信息。
本公开实施例中,在采用人工智能AI确定字符图像的多维特征信息时,可以将获取到的字符图像输入到卷积神经网络(Convolutional Neural Networks,CNN)中,利用卷积神经网络对字符图像进行特征分析处理,以得到卷积神经网络的输出结果,并将卷积神经网络的输出结果作为字符图像的多维特征信息。
另一些实施例中,还可以将获取到的字符图像输入至基于自注意力的视觉神经网络(Vision Transformer,VIT)中,利用基于自注意力的视觉神经网络对字符图像进行特征分析处理,以得到基于自注意力的视觉神经网络的输出结果作为字符图像的多维特征信息,或者也可以采用其他任意人工智能AI方式确定字符图像的多维特征信息,对此不做限制。
S103:确定字符图像的参考位置信息。
其中,参考位置信息,是指对字符图像的位置特征信息进行向量化处理后的位置信息,该参考位置信息可以是对字符图像的高度特征信息和宽度特征信息进行向量化处理后得到的二维位置信息。
本公开实施例中,在确定字符图像的参考位置信息时,可以利用卷积神经网络或基于自注意力的视觉神经网络对字符图像进行分析处理,以得到字符图像的高度特征信息、宽度特征信息以及深度特征信息,而后可以对高度特征信息和宽度特征信息进行向量化处理,以得到一个二维位置向量,并将获取到的二维位置向量作为参考位置信息。
S104:根据参考位置信息处理多维特征信息,以得到目标特征信息,其中,目标特征信息的维度数量小于多维特征信息的维度数量。
其中,目标特征信息,是指对多维特征信息进行降维处理后的特征信息,该目标特征信息的维度小于多维特征信息的维度数量。
本公开实施例中,在上述采用人工智能AI确定字符图像的多维特征信息,并确定字符图像的参考位置信息之后,可以根据参考位置信息处理多维特征信息,以得到目标特征信息。
本公开实施例中,在根据参考位置信息处理多维特征信息,以得到目标特征信息时,可以根据参考位置信息对多维特征信息进行降维处理,可以将参考位置信息中的二维向量位置信息进行降维处理,将二维向量位置信息展开成为一维向量信息,以实现根据参考位置信息处理多维特征信息,得到目标特征信息。
S105:根据目标特征信息,从字符图像中识别出待识别字符。
其中,字符图像中,当前待对其进行识别处理的字符,可以被称为待识别字符。
本公开实施例在上述根据参考位置信息处理多维特征信息,以得到目标特征信息之后,可以根据目标特征信息,从字符图像中识别出待识别字符。
本公开实施例中,在根据目标特征信息,从字符图像中识别出待识别字符时,可以预先训练一个自监督学习的对比学习框架,而后对预训练的对比学习框架的参数进行优化调整,以得到优化调整后的对比学习框架,而后可以根据目标特征信息,利用优化调整后的对比学习框架对字符图像进行识别处理,以得到对比学习框架的输出结果,并将对比学习框架的输出结果作为从字符图像中识别出的待识别字符。
另一些实施例中,还可以采用多层感知神经网络(Multi-Layer Perceptron,MLP)根据目标特征信息对字符图像进行字符识别处理,以得到多层感知神经网络的分析处理结果,而后将多层感知神经网络的分析处理结果输入至连接时序分类模型(ConnectionistTemporal Classification,CTC)中进行编码处理,以得到连接时序分类模型输出的字符,并将连接时序分类模型输出的字符作为从字符图像中识别出的待识别字符,或者也可以采用其他任意人工智能AI方式根据目标特征信息,从字符图像中识别出待识别字符,对此不做限制。
本实施例中,通过采用机器人流程自动化RPA获取字符图像,采用人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性。
图3是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图。
如图3所示,该结合RPA和AI的基于图像的字符识别方法,包括:
S301:采用机器人流程自动化RPA获取字符图像。
S301的描述说明可以示例参见上述实施例,在此不再赘述。
S302:采用AI确定待识别字符在字符图像中的尺寸特征信息。
其中,尺寸特征信息用于描述字符图像中的待识别字符在字符图像中的尺寸特征,该尺寸特征信息可以为待识别字符在字符图像中的高度特征信息和宽度特征信息等。
本公开实施例中,在采用机器人流程自动化RPA获取字符图像之后,可以采用AI确定待识别字符在字符图像中的尺寸特征信息,可以采用卷积神经网络对字符图像中的待识别字符进行特征分析处理,以得到卷积神经网络输出的高度特征信息和宽度特征信息作为待识别字符在字符图像中的尺寸特征信息。
S303:确定待识别字符在字符图像中的形态特征信息。
其中,形态特征信息用于描述待识别字符在字符图像中的形态特征,该形态位置信息例如可以为待识别字符的字符种类,以及是否存在翻转等形态信息。
本公开实施例中,在确定待识别字符在字符图像中的形态特征信息时,可以将字符图像输入至视觉神经网络中进行特征分析处理,以得到视觉神经网络的输出结果,并将视觉神经网络输出的形态特征信息作为待识别字符在字符图像中的形态特征信息。
S304:确定待识别字符在字符图像中的深度特征信息。
其中,深度特征信息用于描述待识别字符在字符图像中存储所需要的存储位数。
本公开实施例中,在确定待识别字符在字符图像中的深度特征信息时,可以利用深度特征提取模型对字符图像进行处理,以得到深度特征提取模型提取到的特征信息作为待识别字符在字符图像中的深度特征信息。
S305:将尺寸特征信息、形态特征信息、深度特征信息共同作为多维特征信息。
本公开实施例在上述采用AI确定待识别字符在字符图像中的尺寸特征信息、形态特征信息以及深度特征信息之后,可以将待识别字符在字符图像中的尺寸特征信息、形态特征信息以及深度特征信息共同作为多维特征信息。
本实施例中,通过采用AI确定待识别字符在字符图像中的尺寸特征信息,确定待识别字符在字符图像中的形态特征信息,确定待识别字符在字符图像中的深度特征信息,并将尺寸特征信息、形态特征信息、深度特征信息共同作为多维特征信息,从而可以获取较为丰富的多维特征信息,保证对字符图像进行特征提取的全面性,由于多维特征信息可以用于与参考位置信息进行融合成为融合特征信息进行字符识别,从而可以保障对字符图像进行字符识别的识别效果,有效提升字符识别准确度。
S306:确定待识别字符在字符图像中的相对位置信息,并将相对位置信息作为参考位置信息。
其中,相对位置信息,是指用于描述待识别字符在字符图像中相对位置的二维向量位置信息。
本公开实施例中,在确定待识别字符在字符图像中的相对位置信息时,可以利用卷积神经网络或基于自注意力的视觉神经网络对字符图像进行处理,以得到字符图像的高度特征信息、宽度特征信息以及深度特征信息,而后可以对高度特征信息和宽度特征信息进行向量化处理,以得到一个二维位置向量,并将获取到的二维位置向量作为相对位置信息。
本公开实施例中,在确定待识别字符在字符图像中的相对位置信息之后,可以将相对位置信息作为参考位置信息,而后可以根据参考位置信息对多维特征信息进行处理,具体描述可见后续实施例。
S307:融合参考位置信息和多维特征信息,以得到融合特征信息。
其中,融合特征信息是指对参考位置信息和多维特征信息融合处理后的特征信息,该融合特征信息可以用于执行后续的字符识别处理任务。
本公开实施例在上述采用AI确定待识别字符在字符图像中的尺寸特征信息、形态特征信息以及深度特征信息,并确定待识别字符在字符图像中的相对位置信息作为参考位置信息之后,可以融合参考位置信息和多维特征信息,以得到融合特征信息。
本公开实施例中,在融合参考位置信息和多维特征信息,以得到融合特征信息时,可以预先训练一个人工智能AI处理模型,该预训练的人工智能AI处理模型可以执行特征融合任务,而后将参考位置信息和多维特征信息输入至该人工智能AI处理模型中进行融合处理,以得到融合处理后的特征信息作为融合特征信息。
S308:对融合特征信息进行采样处理,以得到目标特征信息。
本公开实施例在上述融合参考位置信息和多维特征信息,以得到融合特征信息之后,可以对融合特征信息进行采样处理,以得到目标特征信息。
本公开实施例中,在对融合特征信息进行采样处理,以得到目标特征信息时,可以预先设置一个采样尺度,而后可以根据设置的采样尺度,对融合特征信息进行上采样处理或下采样处理,以得到采样处理后的特征信息作为目标特征信息。
另一些实施例中,在根据设置的采样尺度对融合特征信息进行上采样处理或下采样处理时,可以对融合特征信息中的高度特征信息和宽度特征信息进行不同步调的采样处理,也即是说,可以对高度特征信息进行采样处理,不对宽度特征信息进行采样处理,或者对宽度特征信息进行采样处理,不对高度特征信息进行采样处理,以得到采用处理后的特征信息作为目标特征信息。
本实施例中,通过融合参考位置信息和多维特征信息,以得到融合特征信息,并对融合特征信息进行采样处理,以得到目标特征信息,由于是对融合特征信息进行了采样处理,从而可以减少执行后续识别处理任务中的数据量,有效提升字符识别处理效率,对参考位置信息和多维特征信息进行融合处理以得到目标特征信息,从而可以获取较为有效的目标特征信息进行字符图像中待识别字符的识别处理,辅助提升字符识别处理效果。
S309:根据目标特征信息,从字符图像中识别出待识别字符。
S309的描述说明可以示例参见上述实施例,在此不再赘述。
本实施例中,通过采用机器人流程自动化RPA获取字符图像,采用人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性,通过采用AI确定待识别字符在字符图像中的尺寸特征信息,确定待识别字符在字符图像中的形态特征信息,确定待识别字符在字符图像中的深度特征信息,并将尺寸特征信息、形态特征信息、深度特征信息共同作为多维特征信息,从而可以获取较为丰富的多维特征信息,保证对字符图像进行特征提取的全面性,由于多维特征信息可以用于与参考位置信息进行融合成为融合特征信息进行字符识别,从而可以保障对字符图像进行字符识别的识别效果,有效提升字符识别准确度,通过融合参考位置信息和多维特征信息,以得到融合特征信息,并对融合特征信息进行采样处理,以得到目标特征信息,由于是对融合特征信息进行了采样处理,从而可以减少执行后续识别处理任务中的数据量,有效提升字符识别处理效率,对参考位置信息和多维特征信息进行融合处理以得到目标特征信息,从而可以获取较为有效的目标特征信息进行字符图像中待识别字符的识别处理,辅助提升字符识别处理效果。
图4是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别方法的流程示意图。
如图4所示,该结合RPA和AI的基于图像的字符识别方法,包括:
S401:采用机器人流程自动化RPA获取字符图像。
S402:采用AI确定待识别字符在字符图像中的尺寸特征信息。
S403:确定待识别字符在字符图像中的形态特征信息。
S404:确定待识别字符在字符图像中的深度特征信息。
S405:将尺寸特征信息、形态特征信息、深度特征信息共同作为多维特征信息。
S406:确定待识别字符在字符图像中的相对位置信息,并将相对位置信息作为参考位置信息。
S401-S406的描述说明可以示例参见上述实施例,在此不再赘述。
S407:将参考位置信息融合至多维特征信息的尺寸特征信息之中,以得到融合特征信息。
本公开实施例中,在融合参考位置信息和多维特征信息,以得到融合特征信息时,可以将参考位置信息融合至多维特征信息的尺寸特征信息之中,以得到融合特征信息。
本公开实施例中,在将参考位置信息融合至多维特征信息的尺寸特征信息之中,以得到融合特征信息时,可以将参考位置信息和多维特征信息的尺寸特征信息输入至预训练的人工智能AI处理模型中进行融合处理,以得到融合处理后的特征信息作为融合特征信息。
S408:确定需求采样尺度。
其中,需求采样尺度,是指对融合特征信息进行采样处理时需求的尺度,该需求采样尺度可以根据神经网络对融合特征信息进行处理的需求进行适应性配置。
本公开实施例中,在确定需求采样尺度时,可以根据神经网络对融合特征信息进行处理的需求对需求采样尺度进行配置,或者可以从预先设置的采样尺度中选取合适的采样尺度作为需求采样尺度,对此不做限制。
本公开实施例在确定需求采样尺度之后,可以根据需求采样尺度对融合特征信息进行采样处理。
S409:根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息。
本公开实施例中,在上述确定需求采样尺度之后,可以根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息,可以根据需求采样尺度对融合特征信息中的尺寸特征信息进行上采样和/或下采样处理,以得到上采样和/或下采样处理后的特征信息作为目标特征信息。
可选地,一些实施例中,融合特征信息包括:高度特征信息和宽度特征信息,其中,在根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息时,可以对高度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息,和/或对宽度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息,其中,第一目标特征信息和/或第二目标特征信息被作为目标特征信息,从而可以对高度特征信息和/或宽度特征信息进行上采样和/或下采样处理以得到目标特征信息,由于需求采样尺度是根据神经网络对特征信息的处理需求设置的,从而可以使得采样处理得到的目标特征信息可以适应神经网络的特征处理需求,保障根据目标特征信息进行字符识别的识别处理效果。
其中,第一目标特征信息,是指根据需求采样尺度对融合特征信息中的高度特征信息进行上采样和/或下采样处理后得到的特征信息。
其中,第二目标特征信息,是指根据需求采样尺度对融合特征信息中的宽度特征信息进行上采样和/或下采样处理后得到的特征信息。
本公开实施例中,在根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息时,可以对高度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息,和/或对宽度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息。
本公开实施例中,在根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息时,可以将第一目标特征信息和/或第二目标特征信息被作为目标特征信息,也即是说,可以将第一目标特征信息作为目标特征信息,或者可以将第二目标特征信息作为目标特征信息,或者还可以将第一目标特征信息和第二目标特征信息共同作为目标特征信息。
S410:将目标特征信息输入至字符识别模型之中,以得到与目标特征信息匹配的字符序列特征,其中,字符识别模型是采用AI中的自监督学习方法训练得到的。
其中,字符序列特征,是指对一维特征进行特征变换处理之后得到的序列特征。
其中,字符识别模型,是指采用人工智能AI中的自监督学习方法训练得到的,该字符识别处理模型可以根据字符序列特征,执行字符识别处理任务。
本公开实施例中,可以预先采用自监督学习的方式训练人工智能处理模型,也即是说,人工智能处理模型直接从无标签数据中自行学习,采用自监督学习方式训练后的人工智能处理模型可以根据字符序列特征,执行字符识别处理任务。
本公开实施例在上述根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息之后,可以将目标特征信息输入至字符识别模型之中,利用字符识别模型对目标特征信息进行特征变换处理,以得到字符识别模型输出的序列特征,并将字符识别模型输出的序列特征作为目标特征信息匹配的字符序列特征。
S311:根据字符序列特征,从字符图像中匹配出待识别字符。
本公开实施例中,在将目标特征信息输入至字符识别模型之中,以得到与目标特征信息匹配的字符序列特征之后,可以根据字符序列特征,从字符图像中匹配出待识别字符。
本公开实施例中,在根据字符序列特征,从字符图像中匹配出待识别字符时,可以将字符序列特征和字符图像输入至匹配处理模型之中,利用匹配处理模型对字符图像进行匹配识别处理,以得到匹配处理模型输出的字符作为从字符图像中匹配出的待识别字符。
举例而言,如图5所示,图5是本公开实施例中的字符识别流程示意图,采用机器人流程自动化RPA获取验证码图像作为字符图像,而后利用卷积神经网络或基于自注意力的视觉神经网络对字符图像进行特征分析处理,以得到字符图像的多维特征信息,确定字符图像的参考位置信息,而后根据参考位置信息处理多维特征信息,以得到目标特征信息,并将目标特征信息输入至字符识别模型中进行特征转换处理,以得到与目标特征信息匹配的字符序列特征,而后将字符序列特征依次输入至多层感知神经网络和连接时序分类模型中进行处理,以得到从字符图像中识别出的待识别字符。
本实施例中,通过采用机器人流程自动化RPA获取字符图像,采用人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性,对高度特征信息和/或宽度特征信息进行上采样和/或下采样处理以得到目标特征信息,由于需求采样尺度是根据神经网络对特征信息的处理需求设置的,从而可以使得采样处理得到的目标特征信息可以适应神经网络的特征处理需求,保障根据目标特征信息进行字符识别的识别处理效果。
图6是本公开一实施例提出的结合RPA和AI的基于图像的字符识别装置的结构示意图。
如图6所示,该结合RPA和AI的基于图像的字符识别装置60,应用于自然语言处理NLP领域,包括:
获取模块601,用于采用机器人流程自动化RPA获取字符图像;
第一确定模块602,用于采用人工智能AI确定字符图像的多维特征信息,其中,特征信息,用于基于相应维度描述待识别字符在字符图像中的特征;
第二确定模块603,用于确定字符图像的参考位置信息;
处理模块604,用于根据参考位置信息处理多维特征信息,以得到目标特征信息,其中,目标特征信息的维度数量小于多维特征信息的维度数量;以及
识别模块605,用于根据目标特征信息,从字符图像中识别出待识别字符。
在本公开的一些实施例中,其中,第二确定模块603,具体用于:
确定待识别字符在字符图像中的相对位置信息,并将相对位置信息作为参考位置信息。
在本公开的一些实施例中,其中,第一确定模块602,具体用于:
采用AI确定待识别字符在字符图像中的尺寸特征信息;
确定待识别字符在字符图像中的形态特征信息;
确定待识别字符在字符图像中的深度特征信息;
将尺寸特征信息、形态特征信息、深度特征信息共同作为多维特征信息。
在本公开的一些实施例中,如图7所示,图7是本公开另一实施例提出的结合RPA和AI的基于图像的字符识别装置60,其中,处理模块604,包括:
融合子模块6041,用于融合参考位置信息和多维特征信息,以得到融合特征信息;
处理子模块6042,用于对融合特征信息进行采样处理,以得到目标特征信息。
在本公开的一些实施例中,其中,融合子模块6041,具体用于:
将参考位置信息融合至多维特征信息的尺寸特征信息之中,以得到融合特征信息。
在本公开的一些实施例中,其中,处理子模块6042,具体用于:
确定需求采样尺度;
根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息。
在本公开的一些实施例中,其中,融合特征信息包括:高度特征信息和宽度特征信息;
其中,处理子模块6042,还用于:
根据需求采样尺度对融合特征信息进行上采样和/或下采样处理,以得到目标特征信息,包括:
对高度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息;和/或
对宽度特征信息基于需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息,其中,第一目标特征信息和/或第二目标特征信息被作为目标特征信息。
在本公开的一些实施例中,其中,识别模块605,具体用于:
将目标特征信息输入至字符识别模型之中,以得到与目标特征信息匹配的字符序列特征,其中,字符识别模型是采用AI中的自监督学习方法训练得到的;
根据字符序列特征,从字符图像中匹配出待识别字符。
与上述图1至图5实施例提供的结合RPA和AI的基于图像的字符识别方法相对应,本公开还提供一种结合RPA和AI的基于图像的字符识别装置,由于本公开实施例提供的结合RPA和AI的基于图像的字符识别装置与上述图1至图5实施例提供的结合RPA和AI的基于图像的字符识别方法相对应,因此在结合RPA和AI的基于图像的字符识别方法的实施方式也适用于本公开实施例提供的结合RPA和AI的基于图像的字符识别装置,在本公开实施例中不再详细描述。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本实施例中,通过采用机器人流程自动化RPA获取字符图像,采用人工智能AI确定字符图像的多维特征信息,确定字符图像的参考位置信息,根据参考位置信息处理多维特征信息,以得到目标特征信息,根据目标特征信息,从字符图像中识别出待识别字符,能够根据参考位置信息处理字符图像的多维特征信息,以得到较为准确的目标特征信息,当基于该目标特征信息从字符图像中识别出待识别字符,可以有效保证字符图像中待识别字符特征的表征准确性,有效提升字符识别效果和识别准确性。
为了实现上述实施例,本公开还提出一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的结合RPA和AI的基于图像的字符识别方法。
图8示出根据本公开一实施例的电子设备的结构框图。如图8所示,该电子设备80包括:存储器810和处理器820,存储器810内存储有可在处理器820上运行的计算机程序。处理器820执行该计算机程序时实现上述实施例中的结合RPA和AI的基于图像的字符识别方法。存储器810和处理器820的数量可以为一个或多个。
该电子设备80还包括:
通信接口830,用于与外界设备进行通信,进行数据交互传输。
如果存储器810、处理器820和通信接口830独立实现,则存储器810、处理器820和通信接口830可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器810、处理器820及通信接口830集成在一块芯片上,则存储器810、处理器820及通信接口830可以通过内部接口完成相互间的通信。
本公开实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本公开实施例中提供的方法。
本公开实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本公开实施例提供的方法。
本公开实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(Advanced RISC Machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种结合RPA和AI的基于图像的字符识别方法,其特征在于,所述方法包括:
采用机器人流程自动化RPA获取字符图像;
采用人工智能AI确定所述字符图像的多维特征信息,其中,所述特征信息,用于基于相应维度描述待识别字符在所述字符图像中的特征;
确定所述字符图像的参考位置信息;
根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,其中,所述目标特征信息的维度数量小于所述多维特征信息的维度数量;以及
根据所述目标特征信息,从所述字符图像中识别出所述待识别字符。
2.如权利要求1所述的方法,其特征在于,所述确定所述字符图像的参考位置信息,包括:
确定所述待识别字符在所述字符图像中的相对位置信息,并将所述相对位置信息作为所述参考位置信息。
3.如权利要求2所述的方法,其特征在于,所述采用人工智能AI确定所述字符图像的多维特征信息,包括:
采用所述AI确定所述待识别字符在所述字符图像中的尺寸特征信息;
确定所述待识别字符在所述字符图像中的形态特征信息;
确定所述待识别字符在所述字符图像中的深度特征信息;
将所述尺寸特征信息、所述形态特征信息、所述深度特征信息共同作为所述多维特征信息。
4.如权利要求3所述的方法,其特征在于,所述根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,包括:
融合所述参考位置信息和所述多维特征信息,以得到融合特征信息;
对所述融合特征信息进行采样处理,以得到目标特征信息。
5.如权利要求4所述的方法,其特征在于,所述融合所述参考位置信息和所述多维特征信息,以得到融合特征信息,包括:
将所述参考位置信息融合至所述多维特征信息的尺寸特征信息之中,以得到所述融合特征信息。
6.如权利要求5所述的方法,其特征在于,所述对所述融合特征信息进行采样处理,以得到目标特征信息,包括:
确定需求采样尺度;
根据所述需求采样尺度对所述融合特征信息进行上采样和/或下采样处理,以得到所述目标特征信息。
7.如权利要求6所述的方法,其特征在于,所述融合特征信息包括:高度特征信息和宽度特征信息;
其中,所述根据所述需求采样尺度对所述融合特征信息进行上采样和/或下采样处理,以得到所述目标特征信息,包括:
对所述高度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第一目标特征信息;和/或
对所述宽度特征信息基于所述需求采样尺度进行上采样和/或下采样处理,以得到第二目标特征信息,其中,所述第一目标特征信息和/或所述第二目标特征信息被作为所述目标特征信息。
8.如权利要求1-7任一项所述的方法,其特征在于,所述根据所述目标特征信息,从所述字符图像中识别出所述待识别字符,包括:
将所述目标特征信息输入至字符识别模型之中,以得到与所述目标特征信息匹配的字符序列特征,其中,所述字符识别模型是采用所述AI中的自监督学习方法训练得到的;
根据所述字符序列特征,从所述字符图像中匹配出所述待识别字符。
9.一种结合RPA和AI的基于图像的字符识别装置,其特征在于,所述装置包括:
获取模块,用于采用机器人流程自动化RPA获取字符图像;
第一确定模块,用于采用人工智能AI确定所述字符图像的多维特征信息,其中,所述特征信息,用于基于相应维度描述待识别字符在所述字符图像中的特征;
第二确定模块,用于确定所述字符图像的参考位置信息;
处理模块,用于根据所述参考位置信息处理所述多维特征信息,以得到目标特征信息,其中,所述目标特征信息的维度数量小于所述多维特征信息的维度数量;以及
识别模块,用于根据所述目标特征信息,从所述字符图像中识别出所述待识别字符。
10.如权利要求9所述的装置,其特征在于,所述第二确定模块,具体用于:
确定所述待识别字符在所述字符图像中的相对位置信息,并将所述相对位置信息作为所述参考位置信息。
11.如权利要求10所述的装置,其特征在于,所述第一确定模块,具体用于:
采用所述AI确定所述待识别字符在所述字符图像中的尺寸特征信息;
确定所述待识别字符在所述字符图像中的形态特征信息;
确定所述待识别字符在所述字符图像中的深度特征信息;
将所述尺寸特征信息、所述形态特征信息、所述深度特征信息共同作为所述多维特征信息。
12.如权利要求11所述的装置,其特征在于,所述处理模块,包括:
融合子模块,用于融合所述参考位置信息和所述多维特征信息,以得到融合特征信息;
处理子模块,用于对所述融合特征信息进行采样处理,以得到目标特征信息。
13.如权利要求12所述的装置,其特征在于,所述融合子模块,具体用于:
将所述参考位置信息融合至所述多维特征信息的尺寸特征信息之中,以得到所述融合特征信息。
14.一种电子设备,其特征在于,包括:
至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-8任一项所述的结合RPA和AI的基于图像的字符识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-8任一项所述的结合RPA和AI的基于图像的字符识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210152375.4A CN114581916A (zh) | 2022-02-18 | 2022-02-18 | 结合rpa和ai的基于图像的字符识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210152375.4A CN114581916A (zh) | 2022-02-18 | 2022-02-18 | 结合rpa和ai的基于图像的字符识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114581916A true CN114581916A (zh) | 2022-06-03 |
Family
ID=81775046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210152375.4A Pending CN114581916A (zh) | 2022-02-18 | 2022-02-18 | 结合rpa和ai的基于图像的字符识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581916A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115857782A (zh) * | 2022-12-22 | 2023-03-28 | 深圳市普洛威电子有限公司 | 一种基于人工智能的自动化信息录入方法和系统 |
-
2022
- 2022-02-18 CN CN202210152375.4A patent/CN114581916A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115857782A (zh) * | 2022-12-22 | 2023-03-28 | 深圳市普洛威电子有限公司 | 一种基于人工智能的自动化信息录入方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691928B2 (en) | Method and apparatus for facial recognition | |
US12008698B2 (en) | Image segmentation using text embedding | |
US9349076B1 (en) | Template-based target object detection in an image | |
US10878173B2 (en) | Object recognition and tagging based on fusion deep learning models | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN112927234A (zh) | 点云语义分割方法、装置、电子设备和可读存储介质 | |
CN112581567B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN110827236B (zh) | 基于神经网络的脑组织分层方法、装置、计算机设备 | |
CN113159143A (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
US20230137337A1 (en) | Enhanced machine learning model for joint detection and multi person pose estimation | |
CN109740585A (zh) | 一种文本定位方法及装置 | |
CN112085056A (zh) | 目标检测模型生成方法、装置、设备及存储介质 | |
CN111666931B (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN112287947A (zh) | 一种区域建议框检测方法、终端及存储介质 | |
CN109711381A (zh) | 遥感图像的目标识别方法、装置和计算机设备 | |
CN113779356A (zh) | 网页的风险检测方法、装置、计算机设备及存储介质 | |
CN114581916A (zh) | 结合rpa和ai的基于图像的字符识别方法、装置及设备 | |
CN116310744A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN112364828B (zh) | 人脸识别方法及金融系统 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN112329735B (zh) | 人脸识别模型的训练方法及在线教育系统 | |
CN111401335B (zh) | 一种关键点检测方法及装置、存储介质 | |
CN110210314B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN117333892A (zh) | 题干和答案的识别方法、装置、可读存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |