CN110059688B - 图片信息识别方法、装置、计算机设备和存储介质 - Google Patents
图片信息识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110059688B CN110059688B CN201910207650.6A CN201910207650A CN110059688B CN 110059688 B CN110059688 B CN 110059688B CN 201910207650 A CN201910207650 A CN 201910207650A CN 110059688 B CN110059688 B CN 110059688B
- Authority
- CN
- China
- Prior art keywords
- service
- character
- business
- picture
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005070 sampling Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种图片信息识别方法、装置、计算机设备和存储介质。该方法包括:接收第一终端上传的携带有业务场景信息的业务图片;提取所述业务图片中的字符信息;所述字符信息包括多种业务字符;调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符;获取与所述目标样本字符对应的标准字符;将所述标准字符进行拼接,得到所述业务图片对应的图片信息。采用本方法能够提高图片信息识别效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图片信息识别方法、装置、计算机设备和存储介质。
背景技术
很多业务场景涉及对图片信息的识别。例如,银行需要对业务请求人填写的申请资料识别;旅行社需要对以图片方式进行活动报名的旅客名单进行识别;物流公司需要对物流单据中的收发件人信息进行识别等。然而,传统方式主要采用的OCR(OpticalCharacter Recognition,光学字符识别)技术进行图片识别,但这种方式仅根据图片中像素点的分布进行识别,使得识别准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高图片信息识别效率的图片信息识别方法、装置、计算机设备和存储介质。
一种图片信息识别方法,所述方法包括:接收第一终端上传的携带有业务场景信息的业务图片;提取所述业务图片中的字符信息;所述字符信息包括多种业务字符;调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符;获取与所述目标样本字符对应的标准字符;将所述标准字符进行拼接,得到所述业务图片对应的图片信息。
在一个实施例中,所述接收第一终端上传的携带有业务场景信息的业务图片,包括:接收第一终端发送的业务请求;所述业务请求携带了业务类型;获取所述业务类型对应的源业务页面队列;所述源业务页面队列包括特征页面;所述特征页面包括空白单元;将所述源业务页面队列返回至所述第一终端,使第一终端展示所述源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列;接收第一终端发送的目标业务页面队列,从目标业务页面队列中提取业务数据;所述业务数据包括业务图片。
在一个实施例中,所述获取所述业务类型对应的源业务页面队列之前,还包括:接收第二终端发送的页面录制请求;根据所述页面录制请求,监听所述第二终端展示的多个业务页面;添加每个业务页面的页面标签,生成页面标签与业务页面之间的关联关系;当业务页面包含输入框时,采用空白单元替代所述输入框;根据替换后的业务页面以及所述关联关系生成源业务页面队列。
在一个实施例中,所述调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符之前,还包括:获取多种业务场景的采样图片;识别所述采样图片中的待模仿字符串和手写字符串;对所述待模仿字符串进行拆分,得到多个标准字符;对所述手写字符串进行拆分,得到多个样本字符;将每个样本字符与对应的标准字符进行关联匹配;基于多个标准字符及关联的样本字符构建相应业务场景的业务字库;基于不同的业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型。
在一个实施例中,该方法还包括:当所述业务图片包含图表信息时,确定所述业务图片对应的图表类型;若所述图表类型为第一类型,提取所述业务图片中的图表线条,对多个图表线条进行拼接,得到空白图表;所述空白图表包括多个空白格;识别每个空白格对应的信息文本;将所述空白图表映射为对应的标准图表;所述标准图表包括多个标准格;确定每个标准格相匹配的空白格,将空白格对应的信息文本填充至相匹配的标准格中,得到业务图片对应的业务图表。
在一个实施例中,所述确定每个标准格相匹配的空白格,包括:确定每个标准格的起点坐标,根据起点坐标对所述标准图表进行遍历;查询当前遍历顺序的标准格是否存在起点坐标相同的空白格;若是,将起点坐标相同的空白格标记为相应标准格相匹配的空白格;否则,将同行前一列或者同列前一行标准格相匹配的空白格标记为当前遍历顺序标准格相匹配的空白格;确定下一遍历顺序的标准格相匹配的空白格,直至所述标准图表遍历完成。
一种图片信息识别装置,所述装置包括:场景识别模块,用于接收第一终端上传的携带有业务场景信息的业务图片;提取所述业务图片中的字符信息;所述字符信息包括多种业务字符;字符匹配模块,用于调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符;字符拼接模块,用于获取与所述目标样本字符对应的标准字符;将所述标准字符进行拼接,得到所述业务图片对应的图片信息。
在其中一个实施例中,所述场景识别模块还用于接收第一终端发送的业务请求;所述业务请求携带了业务类型;获取所述业务类型对应的源业务页面队列;所述源业务页面队列包括特征页面;所述特征页面包括空白单元;将所述源业务页面队列返回至所述第一终端,使第一终端展示所述源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列;接收第一终端发送的目标业务页面队列,从所述目标业务页面队列中提取业务数据;所述业务数据包括业务图片。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的图片信息识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的图片信息识别方法的步骤。
上述图片信息识别方法、装置、计算机设备和存储介质,由于在识别得到业务图片中的业务字符后,还利用相应业务场景预设的字符匹配模型,进一步将业务字符与样本字符进行匹配,且将样本字符精准限定到来自于相同业务场景常用的字符,不仅可以提高图片信息识别效果,也可以提高业务字符识别准确率;此外,根据匹配结果将原本的业务字符统一转换为标准字符,可以提高图片信息转换结果可读性。
附图说明
图1为一个实施例中图片信息识别方法的应用场景图;
图2为一个实施例中图片信息识别方法的流程示意图;
图3为一个实施例中业务图片接收的步骤的流程示意图;
图4为一个实施例中图片信息识别装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图片信息识别方法,可以应用于如图1所示的应用环境中。其中,第一终端102与服务器104通过网络进行通信,第二终端106与服务器104通过网络进行通信。其中,第一终端102与第二终端106分别可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。用户在基于第一终端102办理业务时,可以上传业务图片。第一终端将业务图片发送至服务器104。服务器104在业务图片中提取字符信息。字符信息包括多种业务字符。根据业务图片,服务器104可以确定业务场景。服务器104预存储了多种业务场景对应的字符匹配模型。服务器104调用当前业务场景对应的字符匹配模型,通过字符匹配模型将每个业务字符与预存储的样本字符进行匹配。服务器104还预存储了多种标准字符以及每个标准字符关联的样本字符。服务器104获取与业务字符相匹配的样本字符关联的标准字符,并将所述标准字符进行拼接,得到业务图片中字符信息相对应的图片信息,基于识别得到的图片信息进行业务处理。上述图片信息识别过程,基于预设的字符匹配模型进行图片信息识别,可以提高图片信息识别效率;此外,针对不同业务场景采用不同的字符匹配模型和样本字符库,可以提高图片识别准确率。
在一个实施例中,如图2所示,提供了一种图片信息识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,接收第一终端上传的携带有业务场景信息的业务图片。
第一终端上安装了业务平台。当用户需要办理业务时,通过第一终端上的业务平台上传业务资料。业务资料可以是业务文件或业务图片。业务文件中可以包含一张或多张业务图片。业务图片可以是截图、照片等。
业务场景的信息可以是第一终端上传业务图片的业务平台的平台类型的信息,也可以是业务图片的相关描述,比如,业务图片所在业务文件的文件标题、业务图片中的文本信息等。
步骤204,提取业务图片中的字符信息;字符信息包括多种业务字符。
对于包含字符信息的业务图片,服务器直接基于OCR(Optical CharacterRecognition,光学字符识别)技术识别业务图片中的业务字符。业务字符是指从业务图片记录的业务办理信息中提取得到的单个文本字符,可以是汉字、繁体字、字母或数字等。在另一个实施例中,对于不包含字符信息的业务图片,服务器训练对应机器学习模型,利用训练得到的机器学习模型生成业务图片的图片描述信息。服务器按照上述方式提取图片描述信息中的多个业务字符。
步骤206,调用业务场景对应的字符匹配模型将每个业务字符与预存储的样本字符进行匹配。
服务器预存储了多种业务场景对应的业务字库。不同业务场景对应的业务字库可以包含部分重叠业务字符。例如,银行采用的业务字库与旅行社采用业务字库通常都包含用户姓名、联系方式、地址等业务字符。业务字库记录了相应业务场景多种常用的标准业务字符(以下简称“标准字符”)以及每种标准字符关联的多个样本字符。标准字符可以是机打字符。样本字符可以是相应业务场景的业务人员的手写字符。服务器基于不同业务字库作为样本训练集对基础模型训练得到不同业务场景对应的字符匹配模型。
步骤208,获取与目标样本字符对应的标准字符。
步骤210,将标准字符进行拼接,得到业务图片对应的图片信息。
服务器基于字符匹配模型将业务图片中的每个业务字符与对应业务场景的业务字库中的样本字符进行匹配,得到每个业务字符相匹配的样本字符,记作目标样本字符。服务器获取每个目标样本字符关联的标准字符,将获取到的多个标准字符按照业务字符的排列顺序进行拼接,得到业务图片对应的图片信息。
本实施例中,根据第一终端上传的业务图片,可以直接提取得到业务图片中的字符信息;根据业务图片可以确定当前的业务场景;调用业务场景对应的字符匹配模型,可以将字符信息包含的每个业务字符与预存储的样本字符进行匹配;根据相匹配的样本字符,可以获取对应的标准字符;将所述标准字符进行拼接,可以得到业务图片对应的图片信息。由于在识别得到业务图片中的业务字符后,还利用相应业务场景预设的字符匹配模型,进一步将业务字符与样本字符进行匹配,且将样本字符精准限定到来自于相同业务场景常用的字符,不仅可以提高图片信息识别效果,也可以提高业务字符识别准确率;此外,根据匹配结果将原本的业务字符统一转换为标准字符,可以提高图片信息转换结果可读性。
在一个实施例中,如图3所示,接收第一终端上传的携带有业务场景信息的业务图片,即业务图片接收的步骤,包括:
步骤302,接收第一终端发送的业务请求;业务请求携带了业务类型。
服务器根据业务请求向第一终端返回业务页面。业务页面包括第一业务模式和第二业务模式两个选项,业务页面还包括多种业务类型的选项。在每种业务场景中,常需要进行一种或多种类型的业务。例如,在银行业务办理场景中,对应的业务类型可以有账户开通、贷款办理等。第一终端监听业务请求人对业务模式选项以及业务类型选项的选定指令。第一终端根据选定指令生成对应的业务办理请求,将业务办理请求发送至服务器。业务办理请求包含业务类型和业务模式。
步骤304,获取业务类型对应的源业务页面队列;源业务页面队列包括特征页面;特征页面包括空白单元。
若业务模式为第一业务模式,则服务器获取预存储对应业务类型的源业务页面队列。每个源业务页面队列中包含办理相应业务所涉及的所有业务页面。源业务页面队列可以是业务机构在业务平台发布业务产品时进行模拟业务办理预先配置的。源业务页面队列包括有序排列的多个业务页面。源业务页面队列中至少一个业务页面为包含空白单元的特征页面。
在一个实施例中,获取业务类型对应的源业务页面队列之前,还包括:接收第二终端发送的页面录制请求;根据页面录制请求,监听第二终端展示的多个业务页面;添加每个业务页面的页面标签,生成页面标签与业务页面之间的关联关系;当业务页面包含输入框时,采用空白单元替代输入框;根据替换后的业务页面以及关联关系生成源业务页面队列。
源业务页面队列可以是视频,也可以是可以按照预设时间频率或其他预设条件自动切换的动图等。源业务页面队列中多个业务页面的排列顺序可以根据进行相应业务处理时业务页面之间的跳转关系确定。每个业务页面具有对应的页面标签,业务页面之间的排序顺序可以用页面标签与页面之间的关联关系进行表征。例如,触发第一业务页面的第一业务产品标签,显示第一业务产品的详情页面,则建立如第一业务页面的第一业务产品标签与第一业务产品的详情页面之间的关联关系。
步骤306,将源业务页面队列返回至第一终端,使第一终端展示源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列。
服务器将源业务页面队列发送至第一终端。第一终端展示源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成带有业务数据的目标业务页面队列。具体的,业务请求人根据源业务页面队列提示,在第一终端前做出指定动作,录入业务数据。业务数据可以是现实场景数据,如带有业务请求人特征信息的指纹信息、人脸图像,语音授权信息、手持身份证件的录制视频等。第一终端去自动采集业务数据,并自动填入到相应的空白单元。若获取的数据满足条件,则展示下一个业务页面,直至源业务页面队列展示最后一个业务页面,生成目标业务页面队列。目标业务页面队列包括相应业务的办理说明,以及办理该业务需要的业务请求人特征信息。
步骤308,接收第一终端发送的目标业务页面队列,从目标业务页面队列中提取业务数据;业务数据包括业务图片。
第一终端将目标业务页面队列发送至服务器。服务器从目标业务页面队列中提取业务数据,基于业务数据进行业务处理。
本实施例中,用户可根据展示的带有空白单元的源业务页面队列的提示一次性录入申请办理的业务所需要的所有业务数据,生成带有用户特征的目标业务页面队列,然后只需等待后台反馈的业务办理结果即可。用户无需参与到业务办理流程中去逐个节点的输入相应的信息,业务办理占用用户的时间将大大较少。
在一个实施例中,调用业务场景对应的字符匹配模型将每个业务字符与预存储的样本字符进行匹配之前,还包括:获取多种业务场景的采样图片;识别采样图片中的待模仿字符串和手写字符串;对待模仿字符串进行拆分,得到多个标准字符;对手写字符串进行拆分,得到多个样本字符;将每个样本字符与对应的标准字符进行关联匹配;基于多个标准字符及关联的样本字符构建相应业务场景的业务字库;基于不同的业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型。
服务器获取多种业务场景的采样图片。具体的,服务器向多个业务场景的业务人员对应的终端(记作“业务终端”)发放包括至少一个空白单元的采样文件。不同业务场景的采样文件可以不同。采样文件记录了至少一种待模仿字符串,如一段业务描述语句。业务人员打印得到采样文件,并在采样文件的空白单元中填写与待模仿字符串对应的手写字符串。对填写了手写字符串的采样文件进行扫描,得到采样图片,业务终端将采样图片上传至服务器。
服务器基于采样图片构建每种业务场景对应的业务字库。具体的,服务器识别采样图片中的待模仿字符串,对待模仿字符串进行拆分,得到多个标准字符。服务器识别采样图片中的手写字符串,对手写字符串进行拆分,得到多个样本字符。服务器将标准字符与样本字符进行关联匹配。一个标准字符关联的多个样本字符可以具有不同的字样。基于多个标准字符以及每个标准字符关联的样本字符构建相应业务场景的业务字库。
服务器基于不同业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型。具体的,将一种业务字库中的样本字符作为训练集,将对应的标准字符作为样本字符的分类标签,基于训练集对基础模型进行训练。基础模型可以是CRNN(ConvolutionalRecurrent Neural Network,卷积递归神经网络)、BLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆循环神经网络)及CTC(Connectionist temporalclassification,时序分类)的结合。其中,CRNN用于提取样本字符串的字体特征;字体特征包括轮廓、圆润度,紧凑度等。BLSTM用于基于荀子算法对多个字体特征进行组合,得到多种中间字符。CTC用于计算每个中间字符的输出概率,将输出概率最高的中间字符作为目标字符进行输出。
本实施例中,由于基于业务场景构建不同的业务字库,相比传统的采用包罗万象包括全部字符的字库,减少了字符匹配的盲目性,可以提高业务针对性,即提高样本覆盖精度,进而可以提高图片信息识别准确率和效率。
在一个实施例中,该方法还包括:当业务图片包含图表信息时,确定业务图片对应的图表类型;若图表类型为第一类型,提取业务图片中的图表线条,对多个图表线条进行拼接,得到空白图表;空白图表包括多个空白格;识别每个空白格对应的信息文本;将空白图表映射为对应的标准图表;标准图表包括多个标准格;确定每个标准格相匹配的空白格,将空白格对应的信息文本填充至相匹配的标准格中,得到业务图片对应的业务图表。
第一终端上传的业务文件中可以包含一张或多张业务图片,其中至少一张业务图片记录了图表信息。业务图片可以是截图、照片等。服务器对接收到包含图表信息的业务图片进行二值化处理,以将彩色的业务图片转换为黑白图片。
业务图片中图表的图表类型可以是带有表格线条的excel表,也可以是不带有表格线条但具有表格格式的excel表,还可以是柱状图、折线图等。服务器基于包含不同类型图表的样本图片对初始模型进行训练,得到图像处理模型。初始模型可以是卷积神经网络(Convolutional Neural Network,CNN)模型。服务器将二值化处理后的业务图片输入图像处理模型,可以得到业务图片的多种图片信息。图片信息包括图片位置、图表类型以及图元信息。图片位置是指业务图片在业务文件中的页码信息。图元信息包括图元字段和图元坐标等。
若图表类型为第一类型,即为带有表格线条的excel表时,服务器通过腐蚀膨胀方式提取业务图片中的横向线条和纵向线条,将横向线条和竖向线条按照坐标位置进行相交,得到空白图表。空白图表包括多个空白单元格(记作空白格)。容易理解,空白图表可以包括合并单元格。
根据边缘检测得到的每一个单元格坐标,根据单元格坐标剪取每个空白格中的信息区块图。服务器将信息区块图输入预设的卷积神经网络模型,识别得到每个信息区块图对应的信息文本。
服务器确定空白图表对应的最大列数和最大行数,根据最大行数和最大列数生成标准图表。容易理解,标准图表不存在合并单元格。
服务器确定每个标准格相匹配的空白格,将空白格对应的信息文本填充至相匹配的标准格中,得到业务图片对应的业务图表,将业务图表存储至图表库。每个空白格相匹配的标准格可以是多个。例如,若空白格为合并单元格,则存在多个相匹配的同行或同列的标准格。
当接收到第二终端基于业务文件发送的图表查询请求时,服务器根据图表查询请求携带的查询字段,在图表库中查找包含查找字段的业务图表,获取业务图表对应的图片位置,将业务图表以及图片位置发送至第二终端。第二终端根据图片位置对业务图片进行快速定位,并根据图片位置将业务文件中的相业务图片采用获取到的业务图表进行替换。
本实施例中,由于将用户上传的业务图片包含的文本信息提取出来,对于包含合并单元格的图表也可以以图表的方式对文本信息的展示方式进行还原。当用户对业务图片进行查询时,可以直接利用业务图片中的文本信息,大大提高图片信息获取效率。
在一个实施例中,确定每个标准格相匹配的空白格,包括:确定每个标准格的起点坐标,根据起点坐标对标准图表进行遍历;查询当前遍历顺序的标准格是否存在起点坐标相同的空白格;若是,将起点坐标相同的空白格标记为相应标准格相匹配的空白格;否则,将同行前一列或者同列前一行标准格相匹配的空白格标记为当前遍历顺序标准格相匹配的空白格;确定下一遍历顺序的标准格相匹配的空白格,直至标准图表遍历完成。
服务器确定每个标准格的起点坐标,根据起点坐标对标准格进行遍历。每个单元格左上角的位置可以作为起点坐标。按照“Z”字方向对标准图表进行循环扫描遍历。服务器查询当前遍历顺序的标准格是否存在起点坐标相同的空白格。若是,服务器将起点坐标相同的空白格标记为相应标准格相匹配的空白格。
若不存在起点坐标相同的空白格,服务器将同行前一列或者同列前一行标准格相匹配的空白格标记为当前遍历顺序标准格相匹配的空白格。具体的,若一个标准格存在纵坐标相同但横坐标不同的空白格,则表示该标准格与同行前一列的标准格被合并了,服务器将同行前一列标准格相匹配的空白格标记为当前标准格相匹配的空白格。若一个标准格存在横坐标相同但纵坐标不同的空白格,则表示该标准格与同行前一列的标准格被合并了,服务器将同行前一列标准格相匹配的空白格标记为当前标准格相匹配的空白格。在另一个实施例中,服务器计算标准格与空白格的相交度。相交度可以是标准格与空白格的重叠面积比例。相交度可以是25%,50%这样的比例值其中的一个。服务器将相交度符合预设条件的空白格标记为相应标准格相匹配的空白格。
服务器按照上述方式确定下一遍历顺序的标准格相匹配的空白格,直至标准图表中最后一个标准格。
应该理解的是,虽然图2~图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2~图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种图片信息识别装置,包括:场景识别模块402、字符匹配模块404和字符拼接模块406,其中:
场景识别模块402,用于接收第一终端上传的携带有业务场景信息的业务图片;提取业务图片中的字符信息;字符信息包括多种业务字符;
字符匹配模块404,用于调用业务场景对应的字符匹配模型将每个业务字符与预存储的样本字符进行匹配;
字符拼接模块406,用于获取与目标样本字符对应的标准字符;将标准字符进行拼接,得到业务图片对应的图片信息。
在一个实施例中,场景识别模块402还用于接收第一终端发送的业务请求;业务请求携带了业务类型;获取业务类型对应的源业务页面队列;源业务页面队列包括特征页面;特征页面包括空白单元;将源业务页面队列返回至第一终端,使第一终端展示源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列;接收第一终端发送的目标业务页面队列,从目标业务页面队列中提取业务数据;业务数据包括业务图片。
在一个实施例中,场景识别模块402还用于接收第二终端发送的页面录制请求;根据页面录制请求,监听第二终端展示的多个业务页面;添加每个业务页面的页面标签,生成页面标签与业务页面之间的关联关系;当业务页面包含输入框时,采用空白单元替代输入框;根据替换后的业务页面以及关联关系生成源业务页面队列。
在一个实施例中,该装置还包括模型构建模块408,用于获取多种业务场景的采样图片;识别采样图片中的待模仿字符串和手写字符串;对待模仿字符串进行拆分,得到多个标准字符;对手写字符串进行拆分,得到多个样本字符;将每个样本字符与对应的标准字符进行关联匹配;基于多个标准字符及关联的样本字符构建相应业务场景的业务字库;基于不同的业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型。
在一个实施例中,该装置还包括图表还原模块410,用于当业务图片包含图表信息时,确定业务图片对应的图表类型;若图表类型为第一类型,提取业务图片中的图表线条,对多个图表线条进行拼接,得到空白图表;空白图表包括多个空白格;识别每个空白格对应的信息文本;将空白图表映射为对应的标准图表;标准图表包括多个标准格;确定每个标准格相匹配的空白格,将空白格对应的信息文本填充至相匹配的标准格中,得到业务图片对应的业务图表。
在一个实施例中,图表还原模块410还用于确定每个标准格的起点坐标,根据起点坐标对标准图表进行遍历;查询当前遍历顺序的标准格是否存在起点坐标相同的空白格;若是,将起点坐标相同的空白格标记为相应标准格相匹配的空白格;否则,将同行前一列或者同列前一行标准格相匹配的空白格标记为当前遍历顺序标准格相匹配的空白格;确定下一遍历顺序的标准格相匹配的空白格,直至标准图表遍历完成。
关于图片信息识别装置的具体限定可以参见上文中对于图片信息识别方法的限定,在此不再赘述。上述图片信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多种业务场景对应的业务字库。该计算机设备的网络接口用于与外部终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图片信息识别方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的图片信息识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体详细,但并不能因此理解为对发明专利范围的限制。应指出的是,对本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图片信息识别方法,所述方法包括:
接收第一终端上传的携带有业务场景信息的业务图片,包括:接收第一终端发送的业务请求;所述业务请求携带了业务类型;获取所述业务类型对应的源业务页面队列;所述源业务页面队列包括特征页面;所述特征页面包括空白单元;将所述源业务页面队列返回至所述第一终端,使第一终端展示所述源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列;接收第一终端发送的目标业务页面队列,从所述目标业务页面队列中提取业务数据;所述业务数据包括业务图片,业务场景信息包括第一终端上传业务图片的业务平台的平台类型的信息;
提取所述业务图片中的字符信息;所述字符信息包括多种业务字符;
调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符,服务器预存储了多种业务场景对应的业务字库,服务器基于不同业务字库作为样本训练集对基础模型训练得到不同业务场景对应的字符匹配模型,所述字符匹配模型是通过以下方式得到的:获取多种业务场景的采样图片;识别所述采样图片中的待模仿字符串和手写字符串;对所述待模仿字符串进行拆分,得到多个标准字符;对所述手写字符串进行拆分,得到多个样本字符;将每个样本字符与对应的标准字符进行关联匹配; 基于多个标准字符及关联的样本字符构建相应业务场景的业务字库;基于不同的业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型;
获取与所述目标样本字符对应的标准字符;
将所述标准字符进行拼接,得到所述业务图片对应的图片信息。
2.根据权利要求1所述的方法,其特征在于,所述源业务页面队列是业务机构在业务平台发布业务产品时进行模拟业务办理预先配置的。
3.根据权利要求2所述的方法,其特征在于,所述获取所述业务类型对应的源业务页面队列之前,还包括:
接收第二终端发送的页面录制请求;
根据所述页面录制请求,监听所述第二终端展示的多个业务页面;
添加每个业务页面的页面标签,生成页面标签与业务页面之间的关联关系;
当业务页面包含输入框时,采用空白单元替代所述输入框;
根据替换后的业务页面以及所述关联关系生成源业务页面队列。
4.根据权利要求1所述的方法,其特征在于,所述获取多种业务场景的采样图片包括:
服务器向多个业务场景的业务人员对应的终端发放包括至少一个空白单元的采样文件,不同业务场景的采样文件不同,采样文件记录了至少一种待模仿字符串,业务人员打印得到采样文件,并在采样文件的空白单元中填写与待模仿字符串对应的手写字符串,对填写了手写字符串的采样文件进行扫描,得到采样图片,业务终端将采样图片上传至服务器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述业务图片包含图表信息时,确定所述业务图片对应的图表类型;
若所述图表类型为第一类型,提取所述业务图片中的图表线条,对多个图表线条进行拼接,得到空白图表;所述空白图表包括多个空白格;
识别每个空白格对应的信息文本;
将所述空白图表映射为对应的标准图表;所述标准图表包括多个标准格;
确定每个标准格相匹配的空白格,将空白格对应的信息文本填充至相匹配的标准格中,得到业务图片对应的业务图表。
6.根据权利要求5所述的方法,其特征在于,所述确定每个标准格相匹配的空白格,包括:
确定每个标准格的起点坐标,根据起点坐标对所述标准图表进行遍历;
查询当前遍历顺序的标准格是否存在起点坐标相同的空白格;
若是,将起点坐标相同的空白格标记为相应标准格相匹配的空白格;
否则,将同行前一列或者同列前一行标准格相匹配的空白格标记为当前遍历顺序标准格相匹配的空白格;
确定下一遍历顺序的标准格相匹配的空白格,直至所述标准图表遍历完成。
7.一种图片信息识别装置,所述装置包括:
场景识别模块,用于接收第一终端上传的携带有业务场景信息的业务图片;提取所述业务图片中的字符信息;所述字符信息包括多种业务字符,业务场景信息包括第一终端上传业务图片的业务平台的平台类型的信息;
所述场景识别模块还用于接收第一终端发送的业务请求;所述业务请求携带了业务类型;获取所述业务类型对应的源业务页面队列;所述源业务页面队列包括特征页面;所述特征页面包括空白单元;将所述源业务页面队列返回至所述第一终端,使第一终端展示所述源业务页面队列,当显示特征页面时,采集业务数据,将采集的业务数据填入至特征页面的空白单元,生成目标业务页面队列;接收第一终端发送的目标业务页面队列,从所述目标业务页面队列中提取业务数据;所述业务数据包括业务图片;
字符匹配模块,用于调用所述业务场景信息对应的字符匹配模型将所述业务字符与预存储的样本字符进行匹配,得到与所述业务字符相匹配的目标样本字符,服务器预存储了多种业务场景对应的业务字库,服务器基于不同业务字库作为样本训练集对基础模型训练得到不同业务场景对应的字符匹配模型,所述字符匹配模型是通过以下方式得到的:获取多种业务场景的采样图片;识别所述采样图片中的待模仿字符串和手写字符串;对所述待模仿字符串进行拆分,得到多个标准字符;对所述手写字符串进行拆分,得到多个样本字符;将每个样本字符与对应的标准字符进行关联匹配; 基于多个标准字符及关联的样本字符构建相应业务场景的业务字库;基于不同的业务字库对基础模型进行训练,得到每种业务场景适用的字符匹配模型;
字符拼接模块,用于获取与所述目标样本字符对应的标准字符;将所述标准字符进行拼接,得到所述业务图片对应的图片信息。
8.根据权利要求7所述的装置,其特征在于,所述源业务页面队列是业务机构在业务平台发布业务产品时进行模拟业务办理预先配置的。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207650.6A CN110059688B (zh) | 2019-03-19 | 2019-03-19 | 图片信息识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207650.6A CN110059688B (zh) | 2019-03-19 | 2019-03-19 | 图片信息识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059688A CN110059688A (zh) | 2019-07-26 |
CN110059688B true CN110059688B (zh) | 2024-05-28 |
Family
ID=67317086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910207650.6A Active CN110059688B (zh) | 2019-03-19 | 2019-03-19 | 图片信息识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059688B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401137A (zh) * | 2020-02-24 | 2020-07-10 | 中国建设银行股份有限公司 | 证件栏位识别的方法和装置 |
CN111461066A (zh) * | 2020-04-24 | 2020-07-28 | 北京联合普肯工程技术股份有限公司 | 过程工业流程图的识别方法及装置、电子设备 |
CN113326879B (zh) * | 2021-05-31 | 2024-07-19 | 深圳前海微众银行股份有限公司 | 一种业务数据的监测方法及装置 |
CN113947389B (zh) * | 2021-12-20 | 2022-04-22 | 佛山众陶联供应链服务有限公司 | 一种陶瓷供应链系统磅单的数字化方法及其数字化系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589913A (zh) * | 2015-06-15 | 2016-05-18 | 广州市动景计算机科技有限公司 | 一种提取页面信息的方法及装置 |
CN107622233A (zh) * | 2017-09-11 | 2018-01-23 | 畅捷通信息技术股份有限公司 | 一种表格识别方法、识别系统及计算机装置 |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109032810A (zh) * | 2017-06-09 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 业务过程的启动方法和装置 |
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123740A (ja) * | 2009-12-11 | 2011-06-23 | Fujifilm Corp | 閲覧システム、サーバ、テキスト抽出方法及びプログラム |
-
2019
- 2019-03-19 CN CN201910207650.6A patent/CN110059688B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589913A (zh) * | 2015-06-15 | 2016-05-18 | 广州市动景计算机科技有限公司 | 一种提取页面信息的方法及装置 |
CN109032810A (zh) * | 2017-06-09 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 业务过程的启动方法和装置 |
CN107622233A (zh) * | 2017-09-11 | 2018-01-23 | 畅捷通信息技术股份有限公司 | 一种表格识别方法、识别系统及计算机装置 |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110059688A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059688B (zh) | 图片信息识别方法、装置、计算机设备和存储介质 | |
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN110334585B (zh) | 表格识别方法、装置、计算机设备和存储介质 | |
CN110059687B (zh) | 图片信息识别方法、装置、计算机设备和存储介质 | |
CN110705233B (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN111898411B (zh) | 文本图像标注系统、方法、计算机设备和存储介质 | |
CN109033058B (zh) | 合同文本验证方法、装置、计算机设备和存储介质 | |
WO2021012382A1 (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN110728687B (zh) | 文件图像分割方法、装置、计算机设备和存储介质 | |
CN113378710A (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN110363222B (zh) | 用于模型训练的图片标注方法、装置、计算机设备及存储介质 | |
KR102442350B1 (ko) | 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 | |
CN110598008A (zh) | 录制数据的数据质检方法及装置、存储介质 | |
CN111291741B (zh) | 单据识别方法、装置、计算机设备和存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN115223183A (zh) | 一种信息提取方法、装置及电子设备 | |
CN114140649A (zh) | 票据分类方法、票据分类装置、电子设备和存储介质 | |
CN112232336A (zh) | 一种证件识别方法、装置、设备及存储介质 | |
CN109002776A (zh) | 人脸识别方法、系统、计算机设备和计算机可读存储介质 | |
CN110414518B (zh) | 网址识别方法、装置、计算机设备和存储介质 | |
CN113128448B (zh) | 基于肢体识别的视频匹配方法、装置、设备及存储介质 | |
CN114359932A (zh) | 文本检测方法、文本识别方法及装置 | |
CN110245571A (zh) | 合同签字审核方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |