CN116994272A - 一种针对目标图片的识别方法和装置 - Google Patents

一种针对目标图片的识别方法和装置 Download PDF

Info

Publication number
CN116994272A
CN116994272A CN202310835314.2A CN202310835314A CN116994272A CN 116994272 A CN116994272 A CN 116994272A CN 202310835314 A CN202310835314 A CN 202310835314A CN 116994272 A CN116994272 A CN 116994272A
Authority
CN
China
Prior art keywords
sub
region
target
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310835314.2A
Other languages
English (en)
Inventor
黄达安
曾俏俏
张轶强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202310835314.2A priority Critical patent/CN116994272A/zh
Publication of CN116994272A publication Critical patent/CN116994272A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明实施例提供了一种针对目标图片的识别方法和装置,通过获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果,从而实现了提高针对目标图片识别的效率和准确性。

Description

一种针对目标图片的识别方法和装置
技术领域
本发明涉及针对目标图片的识别技术领域,特别是涉及一种针对目标图片的识别方法、一种针对目标图片的识别装置、一种电子设备以及一种计算机可读存储介质。
背景技术
发票管理一直是企业财务中最重要的工作之一,在员工报销、企业采购、销售等业务中,都会产生大量的纸质报账资料,财务人员在进行数据统计或者报账时,需要手工录入信息,不仅消耗了财务人员大量时间,还会产生人工误差,而当采用图像识别技术对纸质报账资料进行识别时,由于纸质报账资料信息复杂繁琐,在识别的过程中,仍需要对纸质报账资料的多个区域进行分别扫描识别,处理效率和识别准确率都较为低下。
因此,如何提升图像识别效率和准确率是本领域技术人员需要克服的问题。
发明内容
本发明实施例是提供一种针对目标图片的识别方法、装置、电子设备以及计算机可读存储介质,以解决提升针对目标图片进行识别的准确率和效率的问题。
本发明实施例公开了一种针对目标图片的识别方法,所述方法应用于图片识别系统,所述图片识别系统包括第一子图像识别模型,和,第二子图像识别模型,和,第三子图像识别模型,可以包括:
获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
可选地,还可以包括:
获取针对所述目标图片的扫描图片;
将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片。
可选地,所述采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域的步骤可以包括:
按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;
基于所述第一方框区域,和,所述第二方框区域确定第三区域;
基于所述第一区域,和,所述第三区域确定第二区域。
可选地,所述第二区域包括表格信息,所述采用所述第二子图像识别模型基于所述第二区域确定第一识别结果的步骤可以包括:
采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;
基于所述合并特征确定针对所述表格信息的待合并行;
基于所述方向特征将所述待合并行合并,生成第一识别结果。
可选地,所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤可以包括:
采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;
将所述字符区域分割,生成多个第一字符图像;
对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;
当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;
对所述第二字符图像进行识别,生成第二字符识别结果;
基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。
可选地,所述第二识别结果包括发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息,所述基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果的步骤可以包括:
基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果。
可选地,所述第三区域包括字段信息,所述字段信息具有对应的格式信息,还可以包括:
当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;
当所述格式信息与所述目标格式信息匹配时,执行所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤;
当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息。
可选地,所述第一子图像识别模型可以为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型。
本发明实施例还公开了一种针对目标图片的识别装置,所述装置应用于图片识别系统,所述图片识别系统包括第一子图像识别模型,和,第二子图像识别模型,和,第三子图像识别模型,可以包括:
初始图片获取模块,用于获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
区域确定模块,用于采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
第一识别结果确定模块,用于采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
第二识别结果确定模块,用于采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
目标识别结果生成模块,用于基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
可选地,还可以包括:
扫描图片获取模块,用于获取针对所述目标图片的扫描图片;
初始图片生成模块,用于将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片。
可选地,所述区域确定模块可以包括:
方框区域划分子模块,用于按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;
第三区域确定子模块,用于基于所述第一方框区域,和,所述第二方框区域确定第三区域;
第二区域确定子模块,用于基于所述第一区域,和,所述第三区域确定第二区域。
可选地,所述第二区域包括表格信息,所述第一识别结果确定模块可以包括:
特征确定子模块,用于采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;
待合并行确定子模块,用于基于所述合并特征确定针对所述表格信息的待合并行;
第一识别结果生成子模块,用于基于所述方向特征将所述待合并行合并,生成第一识别结果。
可选地,所述第二识别结果确定模块可以包括:
目标区域生成子模块,用于采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;
第一字符图像生成子模块,用于将所述字符区域分割,生成多个第一字符图像;
识别概率生成子模块,用于对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;
第二字符图像确定子模块,用于当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;
第二字符识别结果生成子模块,用于对所述第二字符图像进行识别,生成第二字符识别结果;
第二识别结果确定子模块,用于基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。
可选地,所述第二识别结果包括发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息,所述目标识别结果生成模块可以包括:
目标识别结果生成子模块,用于基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果。
可选地,所述第三区域包括字段信息,所述字段信息具有对应的格式信息,还可以包括:
目标格式信息判断模块,用于当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;
调用模块,用于当所述格式信息与所述目标格式信息匹配时,调用所述第二识别结果确定模块;
字段信息修改模块,用于当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息。
可选地,所述第一子图像识别模型可以为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
本发明实施例包括以下优点:
本发明实施例,通过获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果,从而实现了提高针对目标图片识别的效率和准确性。
附图说明
图1是本发明实施例中提供的一种针对目标图片的识别方法的步骤流程图;
图2是本发明实施例中提供的一种第三子图像识别模型示意图;
图3是本发明实施例中提供的一种针对目标图片的识别装置的结构框图;
图4是本发明各实施例中提供的一种电子设备的硬件结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
纸质报账资料通常用于企业的报账场景中,通常可以是由申报表单、发票和收据等组成的纸质资料,一般是由个人按照企业财务相关规定,在指定区域粘贴发票或收据,个人或经办人填制申请表单,交由相关财务负责人审批签字,纸质报账资料的数据则由财务相关人员进行人工录入,在日常工作中,公司的财务人员,往往需要处理大量的发票和员工需要报销的各种票据,通过手工记账、录入发票的方式,不仅工作量大,而且还会有一定的错误率,一旦发生错误,重新核对也耗费大量的时间和人力资源,有的企业也会采取扫描识别的方式对数据进行识别,但现有的扫描识别方式通常为针对纸质报账资料的多个区域采用人工分别进行扫描,即,先通过人工对一份纸质报账资料中不同的票据类型进行分类,再对分类后的票据进行扫描识别,此方法的效率依旧较低,占用较多人工。本发明实施例提供一种针对目标图片的识别方法,结合第一子图像识别模型、第二子图像识别模型和第三子图像识别模型针对目标图片进行识别,以提高图片识别的效率和准确性。
参照图1,示出了本发明实施例中提供的一种针对目标图片的识别方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
步骤102,采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
步骤103,采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
步骤104,采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
步骤105,所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
在实际应用中,本发明实施例可以应用于图片识别系统,图片识别系统可以包括第一子图像识别模型,和,第二子图像识别模型,和,第三子图像识别模型,第一子图像识别模型可以是用来从第一区域中确定出第二区域,和,第三区域的图像识别模型,第二子图像识别模型可以是用来基于第二区域确定第一识别结果的图像识别模型,第三子图像识别模型可以是用来基于第三区域确定第二识别结果的图像识别模型。
在具体实现中,本发明实施例可以获取针对目标图片的初始图片,初始图片具有对应的第一区域;采用第一子图像识别模型从第一区域中确定出第二区域,和,第三区域,第二区域为第一区域中除第三区域外的其他区域;采用第二子图像识别模型基于第二区域确定第一识别结果;采用第三子图像识别模型基于第三区域确定第二识别结果;基于第一识别结果,和,第二识别结果生成针对目标图片的目标识别结果,示例性地,目标图片可以是纸质报账资料,获取针对目标图片的初始图片可以是通过拍照或扫描获得的纸质报账资料的电子图像,将电子图像作为初始图片,可以将初始图片所包含的所有图像区域作为第一区域,并采用第一子图像识别模型从第一区域中确定出第二区域,和,第三区域,其中,第二区域可以为第一区域中除第三区域外的其他区域;例如,第二区域可以是纸质报账资料中的表格区域,第三区域可以是纸质报账资料中除了表格区域外的其他区域,然后,采用第二子图像识别模型基于第二区域确定第一识别结果,例如,“网点编码:44开头”、“网点名称:**社区店”、“合同编码:GDGZA**”、“开始账期:202105”、“结束账期:202107”、“业务类型:成本”、“归属的电信单位:A地”和“商联系人及电话:陈小姐189********”等文本信息,再采用第三子图像识别模型基于第三区域确定第二识别结果,例如,发票包含的文字、图形和数字对应的文本信息,基于第一识别结果和第二识别结果生成针对纸质报账资料的目标识别结果,可以为“网点编码:44开头、网点名称:**社区店、合同编码:GDGZA**、开始账期:202105、结束账期:202107、业务类型:成本、归属的电信单位:A地”和“商联系人及电话:陈小姐189********、发票包含的文字、图形和数字对应的文本信息”。
当然,上述仅作为示例,本领域技术人员可以采用其他数据作为第一识别结果,包括但不限于单据编号、机构名称或结算日期等,本领域技术人员亦可以采用其他数据作为第二识别结果,包括但不限于银行支票、其他表单票据等对应的文字、图形和数字信息所对应的文本信息,对此,本发明实施例不作限制。
本发明实施例,通过获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果,从而实现了提高针对目标图片识别的效率和准确性。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在本发明的一个可选地实施例中,还包括:
获取针对所述目标图片的扫描图片;
将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片。
在实际应用中,为方便进行针对图片的深度学习,通常会将图片调整为正方形,而纸质报账资料通常为长方形,若直接对纸质报账资料对应的图片进行缩放,则会造成内容变形,影响后续的识别结果。
在具体实现中,本发明实施例可以获取针对目标图片的扫描图片;将扫描图片调整至目标尺寸,并在扫描图片边缘添加灰调图像,生成针对目标图片的初始图片,示例性地,当目标图片为纸质报账资料时,可以采用扫描仪或打印机的扫描功能对纸质报账资料进行扫描,获取到针对纸质报账资料的电子扫描件作为扫描图片,进一步地,当有多份纸质报账资料时,可以采用扫描仪或打印机的多页扫描功能,批量的进行扫描,获取扫描图片,减少耗费人工,然后,可以将416*416像素作为目标尺寸,将扫描图片调整至416*416像素大小,并且,在扫描图片的边缘添加灰调图像,例如,当扫描图片不是正方形图片时,扫描图片通常具有长边与短边,可以在长边侧的边缘按照短边与长边的差值添加灰条,使添加灰条后的扫描图片各边长相等,形成正方形图片,在方便进行后续深度学习的基础上,避免了针对扫描图片缩放过程中扫描图片失真,然后,可以将添加灰调图像并按照目标尺寸进行缩放后的针对纸质报账资料的扫描图片作为初始图片。
本发明实施例,通过获取针对所述目标图片的扫描图片;将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片,实现了对扫描图片的尺寸进行调整,为后续深度识别提供了便利,避免了在图像处理过程中由于图像失真、形变而造成识别结果的不准确,从而提升了针对目标图片识别结果的准确性,同时减少了对人力资源的消耗。
在本发明的一个可选地实施例中,所述采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域的步骤包括:
按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;
基于所述第一方框区域,和,所述第二方框区域确定第三区域;
基于所述第一区域,和,所述第三区域确定第二区域。
在实际应用中,进行图像识别时,由于针对图像进行多次卷积压缩,会导致图像中的小物体特征消失,因此,针对不同大小的物体进行分别识别,有利于确定准确的识别结果。
在具体实现中,本发明实施例可以按照第一预设尺寸,和,第二预设尺寸将第一区域划分为多个对应第一预设尺寸的第一方框区域,和,多个对应第二预设尺寸的第二方框区域;第一预设尺寸大于第二预设尺寸;基于第一方框区域,和,第二方框区域确定第三区域;基于第一区域,和,第三区域确定第二区域,示例性地,第一预设尺寸可以为52*52,第二预设尺寸可以为26*26和13*13,其中,第一预设尺寸大于第二预设尺寸,当目标图片为纸质报账资料,针对目标图片的初始图片为通过拍照或扫描获得的纸质报账资料的电子图像,第一区域为初始图片所包含的所有图像区域时,可以采用第一子图像识别模型按照52*52、26*26和13*13的尺寸,将初始图片进行网格划分,形成多个对应52*52的第一方框区域,和,多个对应26*26和13*13的第二方框区域,然后,基于第一方框区域和第二方框区域确定第三区域,例如,可以将52*52对应的第一方框区域用于检测发票这类小物体,将13*13对应的第二方框区域用于检测发票粘贴区域对应的方框区域,具体地,可以采用损失函数,让每个网格负责网格中右下角区域的检测,若检测到物体的中心点落在网格中右下角区域,则此物体的位置就由当前网格确定,依次类推,直至从第一区域中确定出第三区域,其中,第三区域可以为纸质报账资料中的发票粘贴区域,然后,则可以基于第一区域和第三区域确定第二区域,其中,第二区域可以为纸质报账资料中剔除发票粘贴区域以外的区域,例如,模板原始内容区域。
本发明实施例,通过按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;基于所述第一方框区域,和,所述第二方框区域确定第三区域;基于所述第一区域,和,所述第三区域确定第二区域,从而实现了针对区域的准确、高效划分,为后续图像识别提供了可靠基础。
在本发明的一个可选地实施例中,所述采用所述第二子图像识别模型基于所述第二区域确定第一识别结果的步骤包括:
采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;
基于所述合并特征确定针对所述表格信息的待合并行;
基于所述方向特征将所述待合并行合并,生成第一识别结果。
在实际应用中,本发明实施例中的第二区域可以包括表格信息,例如,单元格、单元格所对应的行和列、行和列的数量、单元格文字区域的文本内容、数值类型和格式类型等。
在具体实现中,本发明实施例可以采用第二子图像识别模型对表格信息进行识别,确定针对表格信息的合并特征,和,方向特征;基于合并特征确定针对表格信息的待合并行;基于方向特征将待合并行合并,生成第一识别结果,示例性地,当第二区域为纸质报账资料中的模板原始内容区域时,表格信息可以是模板原始内容区域中表格对应的单元格、单元格所对应的行和列、行和列的数量、单元格文字区域的文本内容、数值类型和格式类型等信息,可以采用第二子图像识别模型对表格信息进行识别,例如,可以采用表格检测神经网络对表格信息进行识别,确定针对表格信息的合并特征和方向特征,其中,合并特征可以是表格信息中每行与表头的相对位置对应关系,每行的列数与表格中最大列数的差异、单元格文字区域是否包括数值型数据、单元格文字区域是否包括预设分隔符等特征,合并方向特征可以是指对大量表格的特点进行数据统计分析后,按照统计学规律得到的能够用于确定待合并行的合并方向特征,例如“向下行合并”和“向上行合并”,具体地,当采用第二子图像识别模型对表格信息进行识别,得知模板原始内容区域中单元格“陈小姐”和单元格“189********”的合并特征为“跨单元格”,则可以将单元格“陈小姐”和单元格“189********”合并为“陈小姐189********”,当得知模板原始内容区域中单元格“商联系人及”和单元格“电话”的合并特征为“跨行”,方向特征为单元格“电话”“向上行合并”,则可以将单元格“商联系人及”和单元格“电话”合并为“商联系人及电话”,然后,可以将“商联系人及电话”和“陈小姐189********”作为第一识别结果。
本发明实施例,通过采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;基于所述合并特征确定针对所述表格信息的待合并行;基于所述方向特征将所述待合并行合并,生成第一识别结果,从而实现了针对纸质报账资料中单元格的准确识别和合并,得到第一识别结果,提升了识别结果的准确性和效率。
在本发明的一个可选地实施例中,所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤包括:
采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;
将所述字符区域分割,生成多个第一字符图像;
对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;
当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;
对所述第二字符图像进行识别,生成第二字符识别结果;
基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。
在实际应用中,会存在有些字符图像本身识别概率较低的情况,针对这类字符图像,可以通过二次识别的方式提升识别的准确性。
在具体实现中,本发明实施例可以采用第三子图像识别模型将第三区域分割,生成多个目标区域;目标区域至少包括字符区域;将字符区域分割,生成多个第一字符图像;对第一字符图像进行识别,生成第一字符识别结果,和,针对第一字符识别结果的识别概率;当识别概率小于预设阈值时,从第一字符图像中确定出第二字符图像;对第二字符图像进行识别,生成第二字符识别结果;基于第一字符识别结果,和,第二字符识别结果确定对应初始图片的第二识别结果,示例性地,当第三区域为纸质报账资料中的发票粘贴区域时,可以采用第三子图像识别模型将发票粘贴区域进行分割,生成多个目标区域,目标区域可以至少包括字符区域,也可以包括二维码区域和红章区域,其中字符区域可以包括买方信息、销售方信息、开票日期、发票编号、货物或服务信息和价税信息等,然后,可以采用第三子图像识别模型将多个字符区域进行分割,得到多个字符图像作为第一字符图像,针对第一字符图像进行识别,生成第一字符识别结果和针对第一字符识别结果的识别概率,其中,可以采用深度学习网络模型对每个字符区域中的字符进行识别。
当针对第一字符识别结果的识别概率小于预设阈值时,可以将识别概率小于预设阈值的第一字符识别结果所对应的第一字符图像作为第二字符图像,具体地,当识别概率大于预设阈值可以认为识别准确,不需要对第一字符图像进行二次识别,而当识别概率小于预设阈值,则识别不理想,需要对第一字符图像进行二次识别,因此,可以将识别概率小于预设阈值的第一字符识别结果所对应的第一字符图像作为第二字符图像,并对第二字符图像进行识别,生成第二字符识别结果,例如,可以采用支持向量机模型对第二字符图像进行识别,得到对应的第二字符识别结果,根据第一字符识别结果和第二字符识别结果可以确定对应纸质报账资料中发票粘贴区域的发票识别结果,并将发票识别结果作为第二识别结果。
本发明实施例,通过采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;将所述字符区域分割,生成多个第一字符图像;对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;对所述第二字符图像进行识别,生成第二字符识别结果;基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。在实际应用中,会存在有些字符图像本身识别概率较低的情况,针对这类字符图像,可以通过二次识别的方式提升识别的准确性,从而实现了将不易识别的字符内容进行二次识别以提高识别结果的准确性,并且通过针对识别概率设定预设阈值进行筛选,减少了识别对象数量,从而提升了识别过程的效率。
在本发明的一个可选地实施例中,所述基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果的步骤包括:
基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果。
在实际应用中,当针对纸质报账材料进行识别时,其中第二识别结果可以包括纸质报账材料中发票所对应的发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息等。
在具体实现中,本发明实施例可以基于发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息,和,第一识别结果生成针对目标图片的目标识别结果,示例性地,目标识别结果可以为“发票代码信息、发票号码信息、日期信息、金额信息、校验码信息、第一识别结果”的文本信息。
本发明实施例,通过基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果,从而针对纸质报账资料的关键信息进行收集,提升了识别结果在财务应用中的实用性和针对性。
在本发明的一个可选地实施例中,还包括:
当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;
当所述格式信息与所述目标格式信息匹配时,执行所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤;
当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息。
在实际应用中,可能存在被识别对象中的文本所表征的含义是相同,但是格式不相同的情况,例如202007和2021年6月可以同样表示时间信息,但识别结果则分别为“202007”和“2021年6月”,若直接将识别结果导出到电子表格中,则会出现格式不兼容的问题,当格式存在严重的不一致时,只能通过后续手动进行调整,产生额外的工作量,若在识别过程中针对不同的格式进行兼容性调整则可以避免这一问题的发生。
在具体实现中,本发明实施例中的第三区域可以包括字段信息,字段信息可以具有对应的格式信息,当字段信息为目标字段信息时,则判断字段信息对应的格式信息是否与目标格式信息匹配;当格式信息与目标格式信息匹配时,执行采用第三子图像识别模型基于第三区域确定第二识别结果的步骤;当格式信息与目标格式信息不匹配时,则基于目标格式信息修改字段信息,示例性地,当第三区域为纸质报账资料中的发票粘贴区域时,其中的字段信息可以包括日期字段、供应商编码字段,和/或,供应商名称字段等,目标字段信息可以为“指定需要被调整的字段”,例如,目标字段信息可以为日期字段,目标格式信息可以为“yyyymm”,当第三区域的字段信息为“202107”、“20210701”和“2021年6月”时,可知字段信息为目标字段信息,然后判断字段信息对应的格式信息,“202107”的格式信息为“yyyymm”,“20210701”的格式信息为“yyyymmdd”,“2021年6月”的格式信息为“yyyy年mm月”,即,字段信息“202107”与目标格式信息“yyyymm”匹配,则可以执行采用第三子图像识别模型基于第三区域进行识别,确定第二识别结果,而字段信息“20210701”和“2021年6月”的格式信息“yyyymmdd”和“yyyy年mm月”与目标格式信息“yyyymm”不匹配,则可以基于目标格式信息“yyyymm”将字段信息“20210701”和“2021年6月”分别修改为“202007”和“202106”,而后可以执行采用第三子图像识别模型基于第三区域进行识别,确定第二识别结果。
本发明实施例,通过当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;当所述格式信息与所述目标格式信息匹配时,执行所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤;当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息,从而实现了令识别结果的格式具备兼容性,方便了后续对于数据的使用,减少了因为格式不兼容而导致的人工调整时间,提升了识别的效率和准确性。
在本发明的一个可选地实施例中,所述第一子图像识别模型为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型。
在具体实现中,本发明实施例中的第一子图像识别模型可以为单次目标识别YOLO模型,第二子图像识别模型可以为表格检测神经网络模型;第三子图像识别模型可以为深度学习神经网络模型,和,支持向量机模型,示例性地,第一子图像识别模型可以为改进后的单次目标识别YOLO模型(You Only Look Once模型,是一种使用卷积神经网络进行目标检测的算法),其中,第一子图像识别模型可以对YOLO系列模型所采用的GIoU(GeneralizedIntersection over Union,又称广义交并比)损失函数改进,GIoU损失函数是一种边界框回归损失函数,优点在于增加错误框选的惩罚,即误差越大惩罚越大,可以在训练过程中对不同比例的检测框检测效果进行提升,但针对包括多种区域的纸质报账资料时,该GIoU损失函数存在目标框回归不稳定的问题,但当IoU(Intersection over Union,又称交并比)为0时,GIoU损失函数容易使检测框和目标框产生重叠,继而惩罚机制逐渐失效,误认为检测框与目标框之间的包含而不重叠也是正确的,因此,可以针对GIoU损失函数增加针对中心点距离的考虑,从而更全面的描述检测框和目标框之间的位置关系,改进后的GIoU损失函数可以为如下公式1所示:
公式1:
其中,LDIoU为DIoU损失函数,IoU为真实框与预测框面积的交并比,b代表预测框中心点坐标,bgt代表真实框中心点坐标,ρ2表示两个中心点的欧式距离,c表示预测框与真实框的最小外接矩形对角线长度。
第二子图像识别模型可以为表格检测神经网络模型,例如具有表格检测功能的卷积神经网络模型,原始的卷积神经网络包括一个七层网络,三层全连接,两层池化,两层卷积,激活函数为Sigmoid函数(又称S型生长曲线),特征提取效果较差,可以将激活函数由Sigmoid函数改为ReLU函数(Rectified Linear Unit,又称线性整流函数),相较于Sigmoid函数,ReLU函数优点在于收敛速度快、计算复杂度低,适合提取发票模板原始内容区域上数据特征,对纸质报账资料分多个模型分区域识别并进行内容矫正后,可以更准确的提取到纸质报账资料扫描图片的内容,其中,ReLU函数可以为如下公式2所示:
公式2:
其中,x为输入,f(x)为输出,y为输出值,n表示为模型的第几层,W表示卷积核的权重,Mi表示被卷积的特征图,θ表示偏置,,j是变量,代表图像中所有的卷积核。
第三子图像识别模型可以为深度学习神经网络模型,和,支持向量机模型,具体地,可以将深度学习神经网络模型和支持向量机模型进行融合,参考图2,图2示出了本发明实施例中提供的一种第三子图像识别模型示意图,深度学习神经网络模型由一个输入层、一个输出层和若干隐藏层组成,可以将完成特征提取和处理的图像输入到输入层,通过模型实现对其识别,并将得出的识别结果作为输出结果,输出结果输入到支持向量机模型,该支持向量机模型由数据处理器、输入向量、核函数、输出向量构成,支持向量机模型使用高斯核函数,便于将算法扩展到需对未知目标据分类的场合,从而得到全局最优解。在训练过程中,可以采用子代遗传方式实现对第三子图像识别模型的自适应调节,并通过调整和优化得到子代遗传结果。在进行迭代过程中,可以将Relu函数作为第三子图像识别模型的激活函数,将交叉熵函数作为第三子图像识别模型的代价函数,其表达式可以为公式3所示:
公式3:
其中,fit(s)为交叉熵函数,e(s)为代价函数,c为常数,针对四层隐含结构,可以将神经元设置为1500、1000、500和100,对第三子图像识别模型进行迭代循环训练,并记录训练后的识别精度。
本发明实施例,通过令所述第一子图像识别模型为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型,从而实现了深度耦合YOLO模型的准确目标检测和定位分类算法、卷积神经网络的识别算法、深度学习神经网络模型和支持向量机模型的识别算法等算法的优点,从而灵活快速识别多种区域,提升了识别结果的效率和准确性。
为使本领域技术人员更好地理解本发明实施例,以下用一完整事例对本发明实施例进行说明。
第一子图像识别模型:第一子图像识别模型改进了YOLO系列模型所釆用的GIoU损失函数,该GIoU损失函数是一种边界框回归损失函数,优点在于增加错误框选的惩罚,也就是误差越大惩罚越大,在训练过程中对不同比例的检测框检测效果提升,其原理如公式4所示:
其中,LGIoU为GIoU损失函数,IoU为真实框与预测框面积的交并比,C为真实框与预测框的最小外接矩形,B为预测框,Bgt为真实框,|C-B∪Bgt|为最小外接矩形与预测框、真实框合集的差集面积。
但针对包括多种区域的纸质报账资料时,该GIoU损失函数存在目标框回归不稳定的问题,但当IoU为0时,GIoU容易使检测框和目标框产生重叠,继而惩罚机制逐渐失效,误认为检测框与目标框之间的包含而不重叠也是正确的。
因此,针对本发明中的纸质报账资料,本发明对YOLO系列模型所釆用的GIoU损失函数进行优化,使用DIoU损失函数进行训练,DIoU损失函数也是一种边界框回归损失函数,但DIoU损失函数相对于GIoU损失函数,增加了对中心点距离的考虑,从而更全面地描述了检测框和目标框之间的位置关系。具体的,改进后的DIoU损失函数公式如前面公式1所示。
经改进后的第一子图像识别模型进行训练,初始学习率0.01,动量0.97,预设衰减系数0.0005,训练批次为2,训练迭代次数为80,第一子图像识别模型训练过程中迭代完成后损失值大约为0.035,mAP@0.5稳定在0.75左右,改进的模型训练结果较为理想,整体表现良好,目标定位准确,识别率较高。
第二子图像识别模型
第二子图像识别模型的算法优化了卷积神经网络模型,原始的卷积神经网络包括一个七层网络,三层全连接,两层池化,两层卷积,激活函数为Sigmoid函数,特征提取效果较差。针对该情况,本发明将第二子图像识别模型的激活函数由Sigmoid函数改为ReLU函数,相较于Sigmoid函数,ReLU函数优点在于收敛速度快、计算复杂度低,适合提取发票模板原始内容区域上数据特征,具体如上公式2所示。
对纸质报账资料扫描图片分多个模型分区域识别并进行内容矫正后,可以更准确的提取到纸质报账资料扫描图片的内容。
第三子图像识别模型
第三子图像识别模型将深度学习神经网络模型和支持向量机模型进行融合,其中,深度学习神经网络模型由一个输入层、一个输出层和若干隐藏层组成,可以将完成特征提取和处理的图像输入到输入层,通过模型实现对其识别,并将得出的识别结果作为输出结果,输出结果输入到支持向量机模型,该支持向量机模型由数据处理器、输入向量、核函数、输出向量构成,支持向量机模型使用高斯核函数,便于将算法扩展到需对未知目标据分类的场合,从而得到全局最优解。
在构建深度学习神经网络模型时,模型可以对图像当中深色像素和浅色像素进行区分,并将深色像素的特征值按照长度设定为0.5-1的数,将浅色相似的特征值按照其长度设定为0-0.5的数。
通过扫描仪对发票图像进行扫描,构建一个特征矩阵,第一,根据计算机图像像素点数量和大小,选择BP神经网络学习速率。第二,针对该神经网络结构的输入层进行设计,对处理后的图像特征空间数据进行确定,确定神经元数量。若提取到的特征分量维度数据为N,则网络神经元数量也为N。第三,设计足够的隐藏层放入到模型中,并在学习过程中根据隐藏层的变化对影响较小的隐藏层进行去除,从而确定隐藏层数量。第四,在输入层样本进行神经元设置,设置数量为图像种类数量。
在训练过程中,采用子代遗传方式实现对第三子图像识别模型的自适应调节,并通过调整和优化得到子代遗传结果。在进行迭代过程中,将Relu函数作为识别模型的激活函数,将交叉熵函数作为识别模型的代价函数,其表达式如上公式3所示。
具体步骤如下:
获取纸质报账资料的扫描图片,并将该扫描图像传入到图像识别模块。
第一子图像识别模型先将扫描图像调整到416*416像素的大小。
第一子图像识别模型在扫描图像的边缘加上灰调,以防止扫描图像失真。
第一子图像识别模型将扫描图像分成13*13,26*26,52*52的网格,并通过这些网格对发票粘贴区域所属区域的方框区域进行检测。
由于扫描图像在多次卷积压缩后,小物体的特征容易消失,所以52*52的网格用于检测小物体,13*13的网格用于检测大物体。由于发票是一个比较小的物体,所以它由52*52的网格检测,每个网格点负责其右下角区域的检测。如果物体的中心点落在这个区域,这个物体的位置就由这个网格点来确定。总结而言,第一子图像识别模型是把一张图片划分成不同的网络,每个网格点负责其右下角区域的预测。只要物体的中心点落在这个区域,这个物体就由这个网格点来确定。
当定位到发票粘贴区域所属区域的方框区域时,将纸质报账资料的扫描图片中剩余的其他区域作为模板原始内容区域。
第二子图像对模板原始内容区域上的表格进行检测,得到候选表格识别结果,并提取候选表格识别结果的合并特征。
其中,合并特征主要包括表格中的每行与表头的相对位置对应关系、每行的列数与表格中最大列数的差异、单元格文字区域是否包括数值型数据、单元格文字区域是否包括预设分隔符等特征。
第二子图像识别模型根据候选表格识别结果的合并特征,确定候选表格识别结果中的待合并行。
第二子图像识别模型提取待合并行的方向特征。
其中,方向特征是指对大量表格的特点进行数据统计分析后,按照统计学规律得到的能够用于确定待合并行的合并方向特征。
第二子图像识别模型根据该方向特征可以用来表征待合并行的合并方向,合并方向包括向下行合并和向上行合并。
第二子图像识别模型根据待合并行和待合并行的合并方向,对候选表格识别结果进行调整,得到模板原始内容区域识别结果。
第三子图像识别模型对发票粘贴区域进行分割得到多个目标区域。
其中,该多个目标区域可以包括字符区域(购买方信息、销售方信息、开票日期、发票编号、货物或服务信息、价税信息)、二维码区域、红章区域等。
第三子图像识别模型对各个目标区域的多个字符区域进行分割得到多个字符图像。
第三子图像识别模型可以对每个字符图像进行识别,得到对应的每个字符图像的第一字符识别结果和与第一字符识别结果对应的识别概率。
其中,第三子图像识别模型中的深度学习网络模型可以对每个字符图像进行识别,该深度学习神经网络模型是通过对海量的字符图像进行学习得到的,能够快速学习图像中的特征,通过该模型对字符图像中的字符进行识别,输出字符识别结果和与字符识别结果对应的识别概率。
第三子图像识别模型根据第一字符识别结果对应的识别概率,在多个字符图像中确定出二次识别字符图像。
其中,该二次识别字符图像指的是需要进行第二次识别的字符图像。具体来说,可以根据第一字符识别结果对应的识别概率确定二次识别字符图像,也可以对识别概率作自定义处理以及对处理后的数据进行判断来确定二次识别字符图像。当识别概率大于预设阈值说明识别准确,不需要二次识别,当识别概率小于预设阈值,说明识别不理想,需要二次识别。
第三子图像识别模型对二次识别字符图像进行二次识别,得到对应的第二字符识别结果。
具体的,第三子图像识别模型中的支持向量机模型可以对二次识别字符图像进行二次识别,得到对应的第二字符识别结果。该支持向量机模型是一种分类器,能使分开的类别有最大间隔,通过该分类器对识别概率较低的字符图像进行识别,得到对应的字符识别结果更为准确,可以作为第二字符识别结果。
第三子图像识别模型根据第一字符识别结果和第二字符识别结果,得到对应的发票识别结果。
具体的,该发票识别结果可以包括发票代码、发票号码、日期、金额、校验码等。
根据模板原始内容区域识别结果与发票识别结果,得到纸质报账资料的识别结果。
例如,在实际报账场景中随机选择一张纸质报账资料,示例性地,可以首先扫描仪扫描图片后,第一子图像识别模型按照52*52的规格把这幅图像划分网络,每个网格点负责其右下角区域的预测。第一子图像识别模型采用改进的损失函数处理,只要物体的中心点落在这个区域,这个物体就由这个网格点来确定。当定位到发票粘贴区域所属区域的方框区域后,纸质报账资料扫描图片中剩余的其他区域则作为模板原始内容区域。
然后,第二子图像识别模型对模板原始内容区域进行识别和提取候选表格识别结果的合并特征,依据待合并行和待合并行的合并方向,对候选表格识别结果进行调整,得到模板原始内容区域识别结果,例如“陈小姐”、“189*****”出现了跨单元格,模型会根据合并特征列数的差异,自动合并为“陈小姐189*****”,而“商联系人及电话”出现了跨行,模型能根据方向特征合并为一个单元格内容。
最后,第三子图像识别模型对发票粘贴区域所属区域进行识别,特别对发票粘贴区域某一字段名称的具体取值又会因为格式问题做兼容性调整。第三子图像识别模型判断字段名称是否为指定需要被调整的字段(如后续举例的日期字段,供应商编码字段,供应商名称字段等),若这一字段名称为指定需要被调整的字段,需先将其以该字段的标准格式进行比对判断是否一致,若不是一致则根据该字段的标准格式调整该字段名称的取值。例如,在日期格式兼容,当输入的是20210701时,识别为202107;如带年月日:取年月,例如:2021年6月,自动识别为202106;如为供应商编码时,注意有可能提供的信息写的不是供应商,会习惯写成代理商编码,识别时要做兼容;如为供应商名称时:注意有可能提供的信息写的不是供应商,会习惯写成代理商名称,识别时要做兼容。
通过上述方式,提升纸质报账资料的识别率、处理速度及准确率,符合纸质报账资料的图像识别准确性与快速性的要求,更全面地描述了检测框和目标框之间的位置关系,避免出现误认为检测框与目标框之间的包含而不重叠也是正确的情况,加快了定位发票粘贴区域所属区域的方框区域的速度,收敛速度快、计算复杂度低,更适合提取发票模板原始内容区域上数据特征,提高了特征提取效果,提高了模板原始内容区域的识别率,提高了字符识别的准确率,从而提高了发票识别结果的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例中提供的一种针对目标图片的识别装置的结构框图,具体可以包括如下模块:
初始图片获取模块301,用于获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
区域确定模块302,用于采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
第一识别结果确定模块303,用于采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
第二识别结果确定模块304,用于采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
目标识别结果生成模块305,用于基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
可选地,还可以包括:
扫描图片获取模块,用于获取针对所述目标图片的扫描图片;
初始图片生成模块,用于将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片。
可选地,所述区域确定模块可以包括:
方框区域划分子模块,用于按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;
第三区域确定子模块,用于基于所述第一方框区域,和,所述第二方框区域确定第三区域;
第二区域确定子模块,用于基于所述第一区域,和,所述第三区域确定第二区域。
可选地,所述第二区域包括表格信息,所述第一识别结果确定模块可以包括:
特征确定子模块,用于采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;
待合并行确定子模块,用于基于所述合并特征确定针对所述表格信息的待合并行;
第一识别结果生成子模块,用于基于所述方向特征将所述待合并行合并,生成第一识别结果。
可选地,所述第二识别结果确定模块可以包括:
目标区域生成子模块,用于采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;
第一字符图像生成子模块,用于将所述字符区域分割,生成多个第一字符图像;
识别概率生成子模块,用于对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;
第二字符图像确定子模块,用于当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;
第二字符识别结果生成子模块,用于对所述第二字符图像进行识别,生成第二字符识别结果;
第二识别结果确定子模块,用于基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。
可选地,所述第二识别结果包括发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息,所述目标识别结果生成模块可以包括:
目标识别结果生成子模块,用于基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果。
可选地,所述第三区域包括字段信息,所述字段信息具有对应的格式信息,还可以包括:
目标格式信息判断模块,用于当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;
调用模块,用于当所述格式信息与所述目标格式信息匹配时,调用所述第二识别结果确定模块;
字段信息修改模块,用于当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息。
可选地,所述第一子图像识别模型可以为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述针对目标图片的识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述针对目标图片的识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
图4为实现本发明各个实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元408为外部装置与电子设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备400包括一些未示出的功能模块,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种针对目标图片的识别方法,其特征在于,所述方法应用于图片识别系统,所述图片识别系统包括第一子图像识别模型,和,第二子图像识别模型,和,第三子图像识别模型,包括:
获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取针对所述目标图片的扫描图片;
将所述扫描图片调整至目标尺寸,并在所述扫描图片边缘添加灰调图像,生成针对所述目标图片的初始图片。
3.根据权利要求1或2所述的方法,其特征在于,所述采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域的步骤包括:
按照第一预设尺寸,和,第二预设尺寸将所述第一区域划分为多个对应所述第一预设尺寸的第一方框区域,和,多个对应所述第二预设尺寸的第二方框区域;所述第一预设尺寸大于所述第二预设尺寸;
基于所述第一方框区域,和,所述第二方框区域确定第三区域;
基于所述第一区域,和,所述第三区域确定第二区域。
4.根据权利要求1所述的方法,其特征在于,所述第二区域包括表格信息,所述采用所述第二子图像识别模型基于所述第二区域确定第一识别结果的步骤包括:
采用所述第二子图像识别模型对所述表格信息进行识别,确定针对所述表格信息的合并特征,和,方向特征;
基于所述合并特征确定针对所述表格信息的待合并行;
基于所述方向特征将所述待合并行合并,生成第一识别结果。
5.根据权利要求1所述的方法,其特征在于,所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤包括:
采用所述第三子图像识别模型将所述第三区域分割,生成多个目标区域;所述目标区域至少包括字符区域;
将所述字符区域分割,生成多个第一字符图像;
对所述第一字符图像进行识别,生成第一字符识别结果,和,针对所述第一字符识别结果的识别概率;
当所述识别概率小于预设阈值时,从所述第一字符图像中确定出第二字符图像;
对所述第二字符图像进行识别,生成第二字符识别结果;
基于所述第一字符识别结果,和,所述第二字符识别结果确定对应所述初始图片的第二识别结果。
6.根据权利要求1所述的方法,其特征在于,所述第二识别结果包括发票代码信息,和,发票号码信息,和,日期信息,和,金额信息,和,校验码信息,所述基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果的步骤包括:
基于所述发票代码信息,和,所述发票号码信息,和,所述日期信息,和,所述金额信息,和,所述校验码信息,和,所述第一识别结果生成针对所述目标图片的目标识别结果。
7.根据权利要求1所述的方法,其特征在于,所述第三区域包括字段信息,所述字段信息具有对应的格式信息,还包括:
当所述字段信息为目标字段信息时,则判断所述字段信息对应的格式信息是否与目标格式信息匹配;
当所述格式信息与所述目标格式信息匹配时,执行所述采用所述第三子图像识别模型基于所述第三区域确定第二识别结果的步骤;
当所述格式信息与所述目标格式信息不匹配时,则基于所述目标格式信息修改所述字段信息。
8.根据权利要求1所述的方法,其特征在于,所述第一子图像识别模型为单次目标识别YOLO模型,所述第二子图像识别模型为表格检测神经网络模型;所述第三子图像识别模型为深度学习神经网络模型,和,支持向量机模型。
9.一种针对目标图片的识别装置,其特征在于,所述装置应用于图片识别系统,所述图片识别系统包括第一子图像识别模型,和,第二子图像识别模型,和,第三子图像识别模型,包括:
初始图片获取模块,用于获取针对所述目标图片的初始图片,所述初始图片具有对应的第一区域;
区域确定模块,用于采用所述第一子图像识别模型从所述第一区域中确定出第二区域,和,第三区域,所述第二区域为所述第一区域中除所述第三区域外的其他区域;
第一识别结果确定模块,用于采用所述第二子图像识别模型基于所述第二区域确定第一识别结果;
第二识别结果确定模块,用于采用所述第三子图像识别模型基于所述第三区域确定第二识别结果;
目标识别结果生成模块,用于基于所述第一识别结果,和,所述第二识别结果生成针对所述目标图片的目标识别结果。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-8任一项所述的方法。
CN202310835314.2A 2023-07-07 2023-07-07 一种针对目标图片的识别方法和装置 Pending CN116994272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310835314.2A CN116994272A (zh) 2023-07-07 2023-07-07 一种针对目标图片的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310835314.2A CN116994272A (zh) 2023-07-07 2023-07-07 一种针对目标图片的识别方法和装置

Publications (1)

Publication Number Publication Date
CN116994272A true CN116994272A (zh) 2023-11-03

Family

ID=88524126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310835314.2A Pending CN116994272A (zh) 2023-07-07 2023-07-07 一种针对目标图片的识别方法和装置

Country Status (1)

Country Link
CN (1) CN116994272A (zh)

Similar Documents

Publication Publication Date Title
CN109919014B (zh) Ocr识别方法及其电子设备
US11200395B2 (en) Graphic code recognition method and apparatus, terminal, and storage medium
US9721156B2 (en) Gift card recognition using a camera
CN109684980B (zh) 自动阅卷方法及装置
CN111586237B (zh) 一种图像显示方法及电子设备
CN107909583B (zh) 一种图像处理方法、装置及终端
CN108229574B (zh) 一种图片筛选的方法、装置和移动终端
CN109495616B (zh) 一种拍照方法及终端设备
CN110674662A (zh) 一种扫描方法及终端设备
CN109753202B (zh) 一种截屏方法和移动终端
CN112464931B (zh) 文本检测方法、模型训练方法及相关设备
CN111222585A (zh) 数据处理方法、装置、设备及介质
CN110463177A (zh) 文档图像的校正方法及装置
CN110933312B (zh) 拍照控制方法及相关产品
CN115205883A (zh) 基于ocr和nlp的资料审核方法、装置、设备、存储介质
CN110431563A (zh) 图像校正的方法和装置
CN110007836B (zh) 一种账单生成方法及移动终端
CN110458563B (zh) 显示界面处理方法和装置、电子设备、可读存储介质
CN110490953B (zh) 基于文本的图像生成方法、终端设备及介质
CN110069774B (zh) 文本处理方法、装置及终端
CN111080305A (zh) 一种风险识别方法、装置及电子设备
CN116994272A (zh) 一种针对目标图片的识别方法和装置
CN107609446B (zh) 一种码图识别方法、终端及计算机可读存储介质
CN111695889B (zh) 账单处理方法、电子设备及介质
CN114840570A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination