CN112381087A - 结合rpa和ai的图像识别方法、装置、计算机设备和介质 - Google Patents

结合rpa和ai的图像识别方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN112381087A
CN112381087A CN202011242372.7A CN202011242372A CN112381087A CN 112381087 A CN112381087 A CN 112381087A CN 202011242372 A CN202011242372 A CN 202011242372A CN 112381087 A CN112381087 A CN 112381087A
Authority
CN
China
Prior art keywords
text information
text
platform
rpa
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011242372.7A
Other languages
English (en)
Inventor
胡一川
汪冠春
褚瑞
李玮
张金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Publication of CN112381087A publication Critical patent/CN112381087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种结合RPA和AI的图像识别方法、装置、计算机设备和介质,包括:AI平台通过RPA机器人获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;所述AI平台从所述文本信息中识别用于定位的第一文本信息;所述AI平台利用所述第一文本信息,从所述文本信息中搜索与所述第一文本信息匹配的第二文本信息;所述AI平台将每个所述第一文本信息和与其匹配的所述第二文本信息向RPA机器人进行反馈,无需额外进行模型训练即可获取较好的图像识别效果,大大降低了图像识别的成本。

Description

结合RPA和AI的图像识别方法、装置、计算机设备和介质
技术领域
本申请涉及图像识别领域,具体涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificial Intelligence,人工智能)的图像识别方法、装置、计算机设备和介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(ArtificialIntelligence,简称:AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。基于AI的图像识别的应用愈发普遍。
目前,图像识别技术通常用预先训练好的模型对图像进行识别,因此需要进行大量的经人工标注的样本图像进行模型训练才能够进行较好的图像识别,成本较高。
发明内容
本申请实施例公开一种结合RPA和AI的图像识别方法、装置、计算机设备和介质,在特定场景下无需额外进行模型训练即可获取较好的图像识别效果,大大降低了图像识别的成本。
第一方面,本申请实施例公开了一种结合RPA和AI的图像识别方法,包括:AI平台通过RPA机器人获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;
所述AI平台从所述文本信息中识别用于定位的第一文本信息;
所述AI平台利用所述第一文本信息,从所述文本信息中搜索与所述第一文本信息匹配的第二文本信息;
所述AI平台将每个所述第一文本信息和与其匹配的所述第二文本信息向RPA机器人进行反馈。
第二方面,本申请实施例公开了一种AI平台,包括:
获取模块,用于通过RPA机器人获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;
识别模块,用于识别所述至少一条文本信息中用于定位的第一文本信息;
匹配模块,用于从所述至少一条文本信息中搜索与所述第一文本信息匹配的第二文本信息;
反馈模块,用于将每个所述第一文本信息和与其匹配的所述第二文本信息向RPA机器人进行反馈。
第三方面,本申请实施例公开了一种结合RPA和AI的图像识别系统,其特征在于,包括:权利要求10所述AI平台、业务系统和RPA机器人;
所述业务系统通过摄像头拍摄得到所述图像,并将所述图像发送给所述RPA机器人;
所述RPA机器人将所述图像发送给所述AI平台进行处理生成图像识别结果反馈给所述RPA机器人;
所述RPA机器人将所述图像识别结果发送给所述业务系统的数据库存储。
第四方面,本申请实施例公开了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的结合RPA和AI的图像识别方法。
第五方面,本申请实施例公开了一种计算机可读存储介质,该程序被处理器执行时实现如第一方面所述的结合RPA和AI的图像识别方法。
本申请实施例通过结合RPA和AI的图像识别方法,能够利用用于定位的第一文本进行匹配信息的搜索,无需额外进行文字识别的模型训练,在保证识别的效果的同时,有效降低图像识别的成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种结合RPA和AI的图像识别系统的结构示意图;
图2是本申请实施例提供的一种结合RPA和AI的图像识别方法的流程图;
图3是本申请实施例的图像识别的示例图;
图4是本申请实施例提供的另一种结合RPA和AI的图像识别方法的流程图;
图5是本申请实施例提供的又一种结合RPA和AI的图像识别方法的流程图;
图6是本申请实施例提供的再一种结合RPA和AI的图像识别方法的流程图;
图7是本申请实施例提供的再一种结合RPA和AI的图像识别方法的流程图;
图8是本申请实施例提供的一种AI平台的方框示意图;
图9是根据本申请一个实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面将结合附图,对本申请实施例提供的内容进行详细介绍。
具体地,本申请提出一种结合RPA和AI的图像识别方法,通过AI平台实现图像的获取、识别和反馈,通过RPA技术与OCR技术的结合,能够帮助用户更高效的提取图像中的文字信息,极大的提高工作效率和提升数据处理的准确率。
在实际应用中,RPA机器人接收到的图像来自于众多不同的业务,多为开放式图像,图像中文字内容的结构、方向、大小等不尽相同,本申请提出的结合RPA和AI的图像识别方法可以处理上述描述的开放式图像,并且无需额外进行特定场景的模型训练,有效降低图像识别的成本。
为了本领域人员更加清楚本申请实施例描述的结合RPA和AI的图像识别方法,首先结合图1描述一种结合RPA和AI的图像识别系统。
图1为本申请实施例所提供的一种结合RPA和AI的图像识别系统的结构示意图。
如图1所示,该系统包括:AI平台10、RPA机器人20和业务系统30。
其中,业务系统30通过摄像头拍摄得到图像,或者,业务系统30通过扫描仪扫描得到图像发送给RPA机器人20。
RPA机器人20将图像发送给AI平台10进行处理生成图像识别结果反馈给RPA机器人20。
RPA机器人20将图像识别结果发送给业务系统30的数据库存储。
本申请实施例中,AI平台10可以为企业和个人提供专业全面的流程自动化解决方案,RPA机器人20可通过用户使用界面,智能理解企业已有应用,将基于规则的常规操作自动化,如自动重复读取邮件、读取办公软件组件、操作数据库及网页和客户端软件等,采集数据,进行繁琐的计算,大批量生成文件和报告,完成枯燥的文件检查等工作。能够大幅降低人力成本的投入,有效提高现有办公效率,准确、稳定、快捷地完成工作。
作为一种场景举例,比如市政服务综合窗口,RPA机器人20接收业务系统30采集到的各种申请材料图像,然后发送至AI平台10,以使AI平台10将申请材料图像中的文字进行图像提取形成可操作的文本信息,以实现数字化、去人工化。
其中,RPA机器人20接收到的材料图像通常为开放式数据,来自与不同的应用场景。本申请通过RPA及OCR(Optical Character Recognition,光学字符识别)技术集成,可以使得AI平台10能够处理种类多样的图像中的文字提取,RPA机器人20的能力。另外,RPA机器人20将识别后的文本信息发送到业务系统30(比如身份填报系统),实现市政服务系统自动化录入,提高市政服务窗口的处理效率。
图2是本申请实施例提供的一种结合RPA和AI的图像识别方法的流程图。如图2所示,结合RPA和AI的图像识别方法,包括以下步骤:
S1:AI平台通过RPA机器人获取目标图像,并对目标图像进行文字识别获取至少一条文本信息。
其中,可采用通过用文字识别OCR(optical character recognition)技术对图像进行识别,并根据从图像中识别出的文字生成文本信息。
进一步地,可根据识别出的文字之间的间距、语义信息等将文本信息划分成多条,举例来说,可依次识别连续两个文字之间的字间距,若字间距小于或等于预设距离,则确定两个文字属于同一条文本信息,若字间距大于预设距离,则确定在后的文字与在前的文字不属于同一条文字信息,或者,在横排文字中同一横行的文字属于同一条文字信息,在竖排文字中同一竖行的文字属于同一条文字信息。应当理解的是,多种文字信息划分方法可独立和/或结合使用,本申请在此不做限定。
S2:AI平台从文本信息中识别用于定位的第一文本信息。
可选的,用于定位的第一文本信息可为便于文字识别的起始词、结束词等。
举例来说,在进行身份证的图像识别时,可将用于身份信息提取的“姓名”、“性别”、“民族”等作为起始词,以便于通过搜索获取身份信息的内容,或者,在对发票进行图像识别时,可将用于纳税人信息提取的“名称”、“纳税人识别号”等作为起始词。
应当理解的是,每个起始词可作为前一起始词的结束词使用。
S3:AI平台利用第一文本信息,从文本信息中搜索与第一文本信息匹配的第二文本信息。
其中,与第一文本信息匹配的第二文本信息可为根据起始词搜索到的目标信息等,例如,身份证中的身份信息、发票中的纳税人信息等。
S4:AI平台将每个第一文本信息和与其匹配的第二文本信息向RPA机器人进行反馈。
需要说明的是,进行反馈时可根据反馈的需求选择反馈的方式,例如,如图3所示将第一文本信息和与其匹配的第二文本信息进行配对显示,又如,在例如与用于市政服务的系统进行衔接时,可根据图像识别的结果填充至市政服务系统中的相应区域,从而有效降低用户和/或市政服务人员对常规信息进行反复输入,从而有效降低人人力成本,还可避免因人工输入造成的文字错误等问题。
由此,本申请实施例通过结合RPA和AI的图像识别方法,能够利用用于定位的第一文本进行匹配信息的搜索,无需额外进行模型训练,在特定场景下保证识别的效果的同时,有效降低图像识别的成本。
应当理解的是,通过用文字识别OCR本身即需要进行模型训练,本申请是在通过用文字识别OCR的基础上,无需进行额外的模型训练,即可对特定场景的文字做到有效、快速的识别和使用,提高文字识别、提取的效率。
作为一个可行实施例,获取目标图像,可包括:按照预设的存储位置获取目标图像,或者,从交互界面上按照预设区域抓取目标图像。
举例来说,在与用于市政服务的系统进行衔接时,群众在办理业务时,市政服务窗口人员可先根据扫描到的身份证图像进行身份核实办理业务,AI平台则存储身份证图像以便于后期按照存储的身份证图像进行业务归档、核对、整理等工作,或者在办理部分业务时可直接将扫描到的身份证图像进行抓取和图像识别,同时根据第一文本信息完成部分申请表格的录入,有效降低窗口工作人员和办理业务的群众的工作量,降低录入错误率。
进一步地,如图4所示,从文本信息中识别用于定位的第一文本信息,包括:
S21:AI平台将每条文本信息分别与预设的定位文本进行匹配。
需要说明的是,定位文本可根据图像识别应用的场景进行模板设置,例如,应用在市政服务部门,则可预设有针对身份证图像的定位文本、针对营业执照图像的定位文本、应用在税务部门,则可预设有针对营业执照图像的定位文本和发票图像的定位文本。
S22:AI平台将文本信息中与定位文本相符的文本信息,作为第一文本信息。
具体地,将通过通用文字识别OCR技术得到的文本信息分别与预设的定位文本进行匹配,如果通过OCR技术得到的文本信息与定位文本相符,则说明该文本为第一文本信息,如果通过OCR技术得到的文本信息与定位文本不相符,则说明该文本为备选文本信息。
可选的,可利用余弦匹配算法等对文本信息与定位文本进行匹配识别,当文本信息与定位文本之间的匹配度大于或等于预设匹配度时,确定文本信息与定位文本相符,当文本信息与定位文本之间的匹配度小于预设匹配度时,确定文本信息与定位文本不相符。
进一步地,如图5所示,利用第一文本信息,从文本信息中搜索与第一文本信息匹配的第二文本信息,包括:
S31:AI平台分别获取第一文本信息的第一文本区域和备选文本信息的第二文本区域。
其中,备选文本信息为第一文本信息与其沿搜索方向相邻的第一文本信息之间的文本信息。
需要说明的是,文本区域可为文本信息中文字所处的空间区域或者用于容纳文字的文本框空间等,应当理解的是,文本区域具有宽度和高度,在横排文字中,文本区域的高度可为文本字体的高度,文本区域的宽度可为文本字体的宽度与文字个数的乘积,在竖排文字中,文本区域的高度可为文本字体的高度与文字个数的乘积,文本区域的宽度可为文本字体的宽度。
还需要说明的是,由于文字距离较近等因素容易造成定位文本信息和备选文本信息被作为一条文本信息被提取,此时,需要对定位文本信息和备选文本信息进行分割,以便于分别确定定位文本信息和备选文本信息的文本区域。
其中,可根据定位文本信息的尾字作为分割点,即,定位文本尾子之后的部分即被划分为备选文本信息,尾子之前的部分为定位文本信息。
S32:AI平台获取每个第二文本区域与第一文本区域的匹配度。
需要说明的是,只有存在多个第二文本区域时,才进一步判断第二文本区域与第一文本区域的匹配度,即,若仅有一条备选文本信息,则无需判断第二文本区域与第一文本区域的匹配度。应当理解的是,通常情况下由于文本习惯在任意两个第一文本信息之间只存在有一个备选文本信息,但是,由于例如复印件印刷失误等,容易造成在同一区域内有多条备选文本信息,且多条备选文本信息存在重叠,此时,则需要对多条文本信息进行辨析,以确定真实的与第一文本信息匹配的第二文本信息。
作为一个可行实施例,如图6所示,获取每个第二文本区域与第一文本区域的匹配度,包括:
S321:AI平台根据搜索方向,分别从第一文本区域与第二文本区域中提取匹配参数。
需要说明的是,搜索方向可为根据需求设定的用于搜索第二文本信息的方向。
进一步地,匹配参数可包括与搜索方向垂直的区域长度,例如当搜索方向为左右方向时,此时,匹配参数可为文字字体的高度或文本框的高度,即,第一文本区域的第一匹配参数为定位文本信息中文字字体的高度,第二文本区域的第二匹配参数为备选文本信息中文字字体的高度,或者,第一文本区域的第一匹配参数为定位文本信息中文本框的高度,第二文本区域的第二匹配参数为备选文本信息中文本框的高度;同理,当搜索方向为上下方向时,匹配参数可为字体的宽度或文本框的宽度。
需要说明的是,在获取匹配参数之前,还可先获取用户根据第一文本信息设定的第二文本区域对应的匹配参数范围,然后再根据匹配参数范围确定第二文本区域实际的匹配参数。
举例来说,身份证中地址栏的内容通常由于文字数量较多以多行文字的形式呈现,此时,为了保证将地址栏中的全部文字都能够被作为第二文本信息而提取得到,则可将匹配参数的区域进行扩大,例如,将第一文本区域的上边框向上移动宽高的1倍,并将下边框向下移动宽高的1倍,即,获取高度为第一文本区域3倍的第二文本区域,换言之,获取第一文本区域后方三行文字的区域范围,此时,再根据后方三行文字的每行的行高或者文本框高度确定实际的总的匹配区域。
S322:AI平台利用第二文本区域的第二匹配参数与第一文本区域的第一匹配参数的重合量,获取匹配度。
作为一个可行实施例,如图7所示,利用第二文本区域的第二匹配参数与第一文本区域的第一匹配参数的重合量,获取匹配度,包括:
S3221:AI平台获取第二文本区域的第二区域长度与第一文本区域的第一区域长度的重合量。
具体而言,当搜索方向为左右方向时,区域长度可为文本区域的文本框高度,也就是说,获取第二文本区域的文本框高度作为第二区域长度,获取第一文本区域的文本框高度作为第一区域长度,并获取两个文本框高度的重合量,例如,第一区域长度为0.96厘米,第二区域长度为1厘米,则重合量为0.96厘米,或者第一区域长度为0.96厘米,第二区域长度为0.84厘米,则重合量为0.84厘米。
S3222:AI平台获取重合量在第二区域长度中的占比,并将占比作为相应的第二文本区域与第一文本区域的匹配度。
也就是说,在获取到重合量之后,还进一步获取重合量在其所属的第二区域长度中的占比,在上述实施例中,重合量为0.96时,占比可为100%,即匹配度为100%,重合量为0.84时,占比可为87.5%,即匹配度为87.5%。
S33:AI平台将匹配度最高的备选文本信息,作为第一文本信息匹配的第二文本信息。
也就是说,针对上述实施例,则可将匹配度为100%的第二文本信息作为与第一文本信息匹配的第二文本信息。
由此,本申请能够通过对多个第二文本信息与第一文本信息进行匹配,以识别出文本空间与第一文本信息更相似的第二文本信息,从而获取符合第一文本信息的备选文本信息,有效提高图像识别结果的准确性,
作为一个可行实施例,AI平台将每个第一文本信息和与其匹配的第二文本信息进行反馈,包括:AI平台将第二本文信息进行拼接,并将拼接后的第二文本信息进行反馈。
具体地,在多种图片信息中,例如身份证图片的地址信息等,会出现多行文字对应一个定位文本信息的情况,此时,可将搜索到的多个第二文本信息进行拼接,以形成符合图片真实文本内容的第二文本信息进行反馈,以使图像识别的结果更准确,且便于后续根据图片识别结果进行反馈操作。
应当理解的是,在多行文字进行拼接之前,需要AI平台将多个第二文本信息按照预设顺序进行排序,从而保证拼接后的第二文本信息的正确性。
还应当理解的是,AI平台将第二文本信息进行拼接之前,还包括:AI平台识别允许反馈大于预设数量的第二文本信息。
也就是说,在不同应用场景中,可设定不同的反馈量,例如,在统计录入身份证信息中住址的省市信息时,即使通过对身份证图像识别获取到的住址信息对应多条第二文本信息,但由于省市信息通常仅存在于第一条文本信息中,此时,可仅对第一条信息进行反馈,无需反馈过多的第二文本信息。
因此,需要在进行拼接和/或排序之前识别系统允许反馈预设数量的第二文本信息,如果允许反馈预设数量的第二文本信息,则对多条第二文本信息进行拼接和/或排序,如果不允许反馈预设数量的第二文本信息,则直接将识别到的紧邻第一文本信息的第二文本信息进行反馈即可。
由此,本申请能够根据反馈场景的需求对第二文本信息进行处理,获取到最适宜的第二文本信息,在保证第二文本信息符合用户需求的同时,降低数据处理量,提高图像识别的速度。
综上所述,本申请实施例通过结合RPA和AI的图像识别方法,能够利用用于定位的第一文本进行匹配信息的搜索,无需额外进行模型训练,在特定场景下保证识别的效果的同时,有效降低图像识别的成本。
为了实现上述实施例,本申请还提出了一种AI平台。
图8是本申请实施例提供的一种AI平台的方框示意图。如图8所示,AI平台10,包括:
获取模块11,用于获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;
识别模块12,用于识别所述至少一条文本信息中用于定位的第一文本信息;
匹配模块13,用于从所述至少一条文本信息中搜索与所述第一文本信息匹配的第二文本信息;
反馈模块14,用于将每个所述第一文本信息和与其匹配的所述第二文本信息进行反馈。
进一步地,获取模块11,具体用于:按照预设的存储位置获取所述目标图像;或者从交互界面上按照预设区域抓取所述目标图像。
进一步地,识别模块12,具体用于:将每条所述文本信息分别与预设的定位文本进行匹配;将所述文本信息中与所述定位文本相符的所述文本信息,作为所述第一文本信息。
进一步地,匹配模块13,具体用于:分别获取所述第一文本信息的第一文本区域和备选文本信息的第二文本区域,其中,所述备选文本信息为所述第一文本信息与其沿搜索方向相邻的所述第一文本信息之间的所述文本信息;获取每个所述第二文本区域与所述第一文本区域的匹配度;将所述匹配度最高的所述备选文本信息,作为与所述第一文本信息匹配的所述第二文本信息。
进一步地,匹配模块13,具体用于:根据所述搜索方向,分别从所述第一文本区域与所述第二文本区域中提取匹配参数;利用所述第二文本区域的第二匹配参数与所述第一文本区域的第一匹配参数的重合量,获取所述匹配度。
进一步地,所述匹配参数包括与所述搜索方向垂直的区域长度,匹配模块13,具体用于:获取所述第二文本区域的第二区域长度与所述第一文本区域的第一区域长度的重合量;获取所述重合量在所述第一区域长度中的占比,并将所述占比作为相应的所述第二文本区域与所述第一文本区域的匹配度。
进一步地,匹配模块13,具体用于:对所述文本信息进行分割,以获取所述第一文本信息的第一文本区域和备选文本信息的第二文本区域。
进一步地,反馈模块14,具体用于:将所述第二文本信息进行拼接,并将拼接后的所述第二文本信息进行反馈。
进一步地,反馈模块14,具体用于:将多个所述第二文本信息按照预设顺序进行排序。
进一步地,反馈模块14,具体用于:识别允许反馈大于预设数量的所述第二文本信息。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本申请实施例通过结合RPA和AI的图像识别方法,能够利用用于定位的第一文本进行匹配信息的搜索,无需额外进行文字识别的模型训练,在特定场景下保证识别的效果的同时,有效降低图像识别的成本。
为了实现上述实施例,本申请还提出了一种电子设备,图9是根据本申请一个实施例的电子设备的结构示意图。如图9所示,存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的结合RPA和AI的图像识别方法。
进一步地,计算机设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的结合RPA和AI的图像识别。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例通过结合RPA和AI的图像识别方法,能够利用用于定位的第一文本进行匹配信息的搜索,无需进行文字识别的模型训练,在保证识别的效果的同时,有效降低图像识别的成本。
为了实现上述实施例,本申请实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现前述方法实施例所述的结合RPA和AI的图像识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种结合RPA和AI的图像识别方法,其特征在于,包括:
AI平台通过RPA机器人获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;
所述AI平台从所述文本信息中识别用于定位的第一文本信息;
所述AI平台利用所述第一文本信息,从所述文本信息中搜索与所述第一文本信息匹配的第二文本信息;
所述AI平台将每个所述第一文本信息和与其匹配的所述第二文本信息向RPA机器人进行反馈。
2.根据权利要求1所述的结合RPA和AI的图像识别方法,其特征在于,所述AI平台从所述文本信息中识别用于定位的第一文本信息,包括:
所述AI平台将每条所述文本信息分别与预设的定位文本进行匹配;
所述AI平台将所述文本信息中与所述定位文本相符的所述文本信息,作为所述第一文本信息。
3.根据权利要求1所述的结合RPA和AI的图像识别方法,其特征在于,所述AI平台利用所述第一文本信息,从所述文本信息中搜索与所述第一文本信息匹配的第二文本信息,包括:
所述AI平台分别获取所述第一文本信息的第一文本区域和备选文本信息的第二文本区域,其中,所述备选文本信息为所述第一文本信息与其沿搜索方向相邻的所述第一文本信息之间的所述文本信息;
所述AI平台获取每个所述第二文本区域与所述第一文本区域的匹配度;
所述AI平台将所述匹配度最高的所述备选文本信息,作为与所述第一文本信息匹配的所述第二文本信息。
4.根据权利要求3所述的结合RPA和AI的图像识别方法,其特征在于,所述AI平台获取每个所述第二文本区域与所述第一文本区域的匹配度,包括:
所述AI平台根据所述搜索方向,分别从所述第一文本区域与所述第二文本区域中提取匹配参数;
所述AI平台利用所述第二文本区域的第二匹配参数与所述第一文本区域的第一匹配参数的重合量,获取所述匹配度。
5.根据权利要求4所述的结合RPA和AI的图像识别方法,其特征在于,所述匹配参数包括与所述搜索方向垂直的区域长度,所述AI平台利用所述第二文本区域的第二匹配参数与所述第一文本区域的第一匹配参数的重合量,获取所述匹配度,包括:
所述AI平台获取所述第二文本区域的第二区域长度与所述第一文本区域的第一区域长度的重合量;
所述AI平台获取所述重合量在所述第一区域长度中的占比,并将所述占比作为相应的所述第二文本区域与所述第一文本区域的匹配度。
6.根据权利要求3所述的结合RPA和AI的图像识别方法,其特征在于,在所述AI平台分别获取所述第一文本信息的第一文本区域和备选文本信息的第二文本区域之前,还包括:
所述AI平台对所述文本信息进行分割,以获取所述第一文本信息的第一文本区域和备选文本信息的第二文本区域。
7.根据权利要求1所述的结合RPA和AI的图像识别方法,其特征在于,所述AI平台将每个所述第一文本信息和与其匹配的所述第二文本信息进行反馈,包括:
所述AI平台将所述第二文本信息进行拼接,并将拼接后的所述第二文本信息进行反馈。
8.根据权利要求7所述结合RPA和AI的图像识别方法,其特征在于,在所述AI平台将所述第二文本信息进行拼接之前,还包括:
所述AI平台将多个所述第二文本信息按照预设顺序进行排序。
9.根据权利要求7或8所述结合RPA和AI的图像识别方法,其特征在于,在所述AI平台将所述第二文本信息进行拼接之前,还包括:
所述AI平台识别允许反馈大于预设数量的所述第二文本信息。
10.一种AI平台,其特征在于,包括:
获取模块,用于通过RPA机器人获取目标图像,并对所述目标图像进行文字识别获取至少一条文本信息;
识别模块,用于识别所述至少一条文本信息中用于定位的第一文本信息;
匹配模块,用于从所述至少一条文本信息中搜索与所述第一文本信息匹配的第二文本信息;
反馈模块,用于将每个所述第一文本信息和与其匹配的所述第二文本信息向RPA机器人进行反馈。
11.一种结合RPA和AI的图像识别系统,其特征在于,包括:权利要求10所述AI平台、业务系统和RPA机器人;
所述业务系统通过摄像头拍摄得到所述图像,并将所述图像发送给所述RPA机器人;
所述RPA机器人将所述图像发送给所述AI平台进行处理生成图像识别结果反馈给所述RPA机器人;
所述RPA机器人将所述图像识别结果发送给所述业务系统的数据库存储。
12.一种计算设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-9中任一项所述的结合RPA和AI的图像识别方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一所述的结合RPA和AI的图像识别方法。
CN202011242372.7A 2020-08-26 2020-11-09 结合rpa和ai的图像识别方法、装置、计算机设备和介质 Pending CN112381087A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020108703316 2020-08-26
CN202010870331 2020-08-26

Publications (1)

Publication Number Publication Date
CN112381087A true CN112381087A (zh) 2021-02-19

Family

ID=74579107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011242372.7A Pending CN112381087A (zh) 2020-08-26 2020-11-09 结合rpa和ai的图像识别方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN112381087A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495127A (zh) * 2022-03-31 2022-05-13 来也科技(北京)有限公司 基于rpa和ai的商品信息处理方法、装置、设备和介质
WO2023029230A1 (zh) * 2021-09-01 2023-03-09 北京来也网络科技有限公司 基于ai和rpa的文件标注方法、装置、设备和介质
WO2023159771A1 (zh) * 2022-02-25 2023-08-31 来也科技(北京)有限公司 基于rpa和ai的发票处理方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109977935A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 一种文本识别方法及装置
CN110516664A (zh) * 2019-08-16 2019-11-29 咪咕数字传媒有限公司 票据识别方法、装置、电子设备及存储介质
CN111581367A (zh) * 2020-05-11 2020-08-25 广东小天才科技有限公司 一种题目录入的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109977935A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 一种文本识别方法及装置
CN110516664A (zh) * 2019-08-16 2019-11-29 咪咕数字传媒有限公司 票据识别方法、装置、电子设备及存储介质
CN111581367A (zh) * 2020-05-11 2020-08-25 广东小天才科技有限公司 一种题目录入的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029230A1 (zh) * 2021-09-01 2023-03-09 北京来也网络科技有限公司 基于ai和rpa的文件标注方法、装置、设备和介质
WO2023159771A1 (zh) * 2022-02-25 2023-08-31 来也科技(北京)有限公司 基于rpa和ai的发票处理方法、装置、设备和介质
CN114495127A (zh) * 2022-03-31 2022-05-13 来也科技(北京)有限公司 基于rpa和ai的商品信息处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110705405B (zh) 目标标注的方法及装置
CN112381087A (zh) 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN111369294A (zh) 软件造价估算方法及装置
CN112632926B (zh) 票据的数据处理方法、装置、电子设备及存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN111079709B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN110020646B (zh) 文件归档方法、装置、电子设备、及存储介质
CN116661786A (zh) 一种设计页面生成方法及装置
CN115457585A (zh) 作业批改的处理方法、装置、计算机设备及可读存储介质
CN114863459A (zh) 一种乱序文档排序的方法、装置及电子设备
CN114049686A (zh) 签名识别模型训练方法、装置及电子设备
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN112862409A (zh) 提运单核验方法及装置
CN111078067A (zh) 一种信息定位方法及电子设备
CN116127105B (zh) 一种大数据平台的数据汇集方法及装置
CN111046064B (zh) 图书版权信息的获取方法、电子设备及计算机存储介质
CN115098596B (zh) 政务相关数据梳理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination