CN110442744B - 提取图像中目标信息的方法、装置、电子设备及可读介质 - Google Patents
提取图像中目标信息的方法、装置、电子设备及可读介质 Download PDFInfo
- Publication number
- CN110442744B CN110442744B CN201910735293.0A CN201910735293A CN110442744B CN 110442744 B CN110442744 B CN 110442744B CN 201910735293 A CN201910735293 A CN 201910735293A CN 110442744 B CN110442744 B CN 110442744B
- Authority
- CN
- China
- Prior art keywords
- certificate
- information
- text
- image
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本公开涉及一种提取图像中目标信息的方法、装置、电子设备及计算机可读介质。该方法包括:对图像进行文字识别以获取字符信息;对所述字符信息进行文字合并处理,生成文本块信息;通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。本公开涉及的提取图像中目标信息的方法、装置、电子设备及计算机可读介质,能够快速、准确地由图像中提取证书相关的文字信息。
Description
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种提取图像中目标信息的方法、装置、电子设备及计算机可读介质。
背景技术
随着互联网技术的发展,数字图像已广泛应用于公司日常各项场景。例如,在公司人力部门办公流程中,经常需要录入人员的学历学位证书内容;目前绝大部分情形下都是使用人工的方法,从证书拍照件或者扫描件中录入感兴趣的信息,包括姓名、证书编号、毕业院校、毕业日期等。而纯人工录入的弊端显而易见:效率低,占用大量的人力、时间成本。光学字符识别(Optical Character Recognition,OCR)技术,能够对包含文字的影像件进行识别,将其中的文字转化为可检索的信息(即搜索影像件中的文字区域,并将其识别为计算机能够表示的文字信息)。基于OCR技术,人们已经针对版式固定、文字内容较少、结构化字段抽取难度较低的一些证件类影像实现了自动结构化字段抽取,包括身份证、车牌、银行卡、行驶证、营业执照、增值税发票等,并取得了不错的效果。
但对于学历学位证而言,无论是版式还是文字内容都较为复杂,进而导致在学历学位证书识别中,沿用基于身份证、增值税发票识别中的模板匹配、关键字查找技术并不能取得很好的效果。
因此,需要一种新的提取图像中目标信息的方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种提取图像中目标信息的方法、装置、电子设备及计算机可读介质,能够快速、准确地由图像中提取证书相关的文字信息。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种提取图像中目标信息的方法,该方法包括:对图像进行文字识别以获取字符信息;对所述字符信息进行文字合并处理,生成文本块信息;通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
在本公开的一种示例性实施例中,还包括:基于证书类型的特征对所述目标信息进行交叉验证。
在本公开的一种示例性实施例中,所述字符信息中包括多个文本单元,其中,所述文本单元包括字符和\或文本块;对所述字符信息进行文字合并处理,生成文本块信息包括:获取所述字符信息中每一个文本单元的坐标、角度、以及字号;基于所述坐标、所述角度、以及所述字号确定所述多个文本单元之间的位置关系与文字关系;通过所述位置关系与文字关系判断所述多个文本单元之间是否满足合并条件;以及将满足合并条件的文本单元进行合并处理,生成所述文本块信息。
在本公开的一种示例性实施例中,通过所述文本块信息与证书模板确定所述图像中的证书位置及版式包括:通过所述文本块信息确定证书名称;通过所述文本块信息确定文本行位置;以及通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式。
在本公开的一种示例性实施例中,通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式后还包括:通过所述证书模板对所述文本块信息进行位置过滤以剔除无效文本单元。
在本公开的一种示例性实施例中,通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息包括:基于所述证书位置、所述版式由所述文本块信息中提取姓名信息、专业信息;以及基于所述证书位置、所述版式通过正则匹配方式由所述文本块信息中提取编号信息、时间信息。
在本公开的一种示例性实施例中,还包括:通过所述编号信息确定证书类型信息与毕业院校信息。
在本公开的一种示例性实施例中,基于所述证书位置、所述版式通过文字置信度分析由所述文本块信息中提取姓名信息、专业信息还包括:通过专业列表循环匹配法计算文字置信度分析中的匹配评分。
在本公开的一种示例性实施例中,基于证书类型的特征对所述目标信息进行交叉验证包括:基于所述目标信息判断所述图像的证书类型;通过所述证书类型的特征与目标信息中的姓名信息、专业信息、编号信息、时间信息、证书类型信息与毕业院校信息对所述目标信息进行交叉验证。
在本公开的一种示例性实施例中,还包括:通过所述交叉验证确定所述目标信息的置信度;以及将所述置信度与所述目标信息作为键值对形式输出至用户端。
根据本公开的一方面,提出一种提取图像中目标信息的装置,该装置包括:文字识别模块,用于对图像进行文字识别以获取字符信息;文字合并模块,用于对所述字符信息进行文字合并处理,生成文本块信息;证书识别模块,用于通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及信息提取模块,用于通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
在本公开的一种示例性实施例中,还包括:交叉验证模块,用于基于证书类型的特征对所述目标信息进行交叉验证。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的提取图像中目标信息的方法、装置、电子设备及计算机可读介质,能够快速、准确地由图像中提取证书相关的文字信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种提取图像中目标信息的方法及装置的系统场景框图。
图2是根据一示例性实施例示出的一种提取图像中目标信息的方法的流程图。
图3是根据另一示例性实施例示出的一种提取图像中目标信息的方法的流程图。
图4是根据另一示例性实施例示出的一种提取图像中目标信息的方法的流程图。
图5是根据一示例性实施例示出的一种提取图像中目标信息的方法的流程图。
图6是根据一示例性实施例示出的经过预处理后的原始图像文字分布情况示例图。
图7是根据一示例性实施例示出的一种文本及坐标位置的示意图。
图8是根据一示例性实施例示出的一种证书标题行的示意图。
图9是根据一示例性实施例示出的一种证书的板式示意图。
图10是根据一示例性实施例示出的一种提取图像中目标信息的装置的框图。
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
目前对于学历学位证而言,无论是版式还是文字内容的识别技术实现起来都较为复杂。
证书的版式复杂:大部分学历学位证为上下版式,即标题、正文、编号自上而下排布;但有不少学校的证书为左右排布(标题在左侧,正文可能在左侧,也可能在右侧,空白区域印刷校训,编号可能在标题下方,也可能在正文下方);
证书中文字内容复杂:学历学位证书的关键字段部分文字并不固定(例如姓名部分,有的证书为:学生张三,性别男…;有的证书为:张三,性别男…;而有的为:研究生张三,男…),而身份证、发票这样的关键字段部分,内容都是固定的,因此内容上的不确定带来了关键字段抽取难度的增加。
以上复杂性导致在学历学位证书识别中,沿用基于身份证、增值税发票识别中的模板匹配、关键字查找技术并不能取得很好的效果。因此,设计一种针对于学历学位证书影像进行信息提取的方法,对于提升学位证等复杂证件识别准确率有着重要的意义。
在身份证、银行卡、行驶证、营业执照、增值税发票识别和结构化字段抽取过程中,主要使用的技术方案包括:
1.基于预定义模板的方法,抽取关键字。例如针对于身份证,存在内容和位置相对固定的字段,例如“姓名”、“身份证号”等,如果有一张身份证影像,只要识别到“姓名”、“身份证号”的位置,再根据位置关系,抽取姓名所在区域中的文本,即可认为是姓名;抽取身份证号区域的数字串,即可认为是身份证号…等等。基于预定义模板的方法需要预先定义好各个字段的位置(包括但不仅限于相对位置、绝对位置等),以及各个字段的大致内容、格式。这种方法的优点是对格式较固定的卡证类影像具有处理速度快、简单有效、抗干扰性强且识别率较高的特点;但在学历证书这种版式和内容复杂的场景中处理效果非常不理想。
2.基于关键字词查找匹配的方法,抽取关键字。例如增值税发票,当已知一张图像是增值税票时,想要得到其中的“开票日期”具体年月日,只需要在其中查找“开票日期”右侧对应的年月日即可。这种方法与预定义模板方法类似,都比较适用于版式和内容较固定的影像,而不适用于学历证书这样内容较多变的影像(例如正文部分,不同的学校颁发证书内容就不同,此外有的学校还会印上校训,专业、就读起始结束时间等位置并没有关键字标识…这都会给关键字抽取带来了干扰)。
因此本发明主要是针对以上方法的不足而提出的一整套流程方法。在现有OCR技术的基础上,本发明公开了一种学历学位证书影像结构化字段抽取算法(流程),具有快速、通用、可扩展性和鲁棒性好的特点,能够用于拍照、扫描的学历学位证书影像关键字段抽取,包括姓名、证书编号、所学专业、学习起始时间、结束时间、毕业学校和学历学位证书类型,抽取出的结构化字段能够进行输出或供其他程序调用,从而达到快速录入归档、快速查询等目的。
下面将通过具体的实施例对本公开的详细内容进行描述:
图1是根据一示例性实施例示出的一种提取图像中目标信息的方法及装置的系统场景框图。
如图1所示,系统场景可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
用户可通过终端设备101、102、103获取图片,终端设备101、102、103可例如对图像进行文字识别以获取字符信息;终端设备101、102、103可例如对所述字符信息进行文字合并处理,生成文本块信息;终端设备101、102、103可例如通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及终端设备101、102、103可例如通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
终端设备101、102、103还可例如基于证书类型的特征对所述目标信息进行交叉验证。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所拍摄图片提供支持的后台服务器。服务器105可以对接收到的图片数据进行分析等处理,并将处理结果反馈给终端设备。
用户可通过终端设备101、102、103拍摄图片,终端设备101、102、103可例如将图片转发至服务器105中,服务器105可例如对图像进行文字识别以获取字符信息;服务器105可例如对所述字符信息进行文字合并处理,生成文本块信息;服务器105可例如通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及服务器105可例如通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
服务器105还可例如基于证书类型的特征对所述目标信息进行交叉验证。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的提取图像中目标信息的方法可以由服务器105和/或终端设备101、102、103执行,相应地,提取图像中目标信息的装置可以设置于服务器105和/或终端设备101、102、103中。而提供给用户进行图片输入的请求端一般位于终端设备101、102、103中。
图2是根据一示例性实施例示出的一种提取图像中目标信息的方法的流程图。提取图像中目标信息的方法20至少包括步骤S202至S208。
如图2所示,在S202中,对图像进行文字识别以获取字符信息。
在一个实施例中,还可例如对图像进行预处理之后再进行文字识别,图像的预处理包括但不限于倾斜矫正,投射变换、亮度、对比度调节,图像缩放等操作。其中倾斜矫正和投射变换用于纠正拍照影像中存在的旋转以及近大远小等现象;亮度、对比度调节可使用伽马矫正、直方图变换等现有算法进行纠正;而图像缩放的目的,是当图像过大时(例如当前手机拍照照片分辨率经常能达到4000×3000),为了加快OCR处理速度,可以将图像横向、纵向等比例缩放,但不宜缩放过大以保证识别精度。
在一个实施例中,可通过基于深度学习的OCR引擎基于在手机拍照影像进行字符识别,这种识别方式不仅能够返回识别的字符,也能够返回字符的位置坐标、角度、字号大小、置信度等信息。本发明所述的方法就是基于这些信息来达到较高的准确率。因此预处理图像后即进行OCR识别,这一步可使用本地部署的或者云端在线的OCR识别引擎,对图像中的各个字符进行识别。
在S204中,对所述字符信息进行文字合并处理,生成文本块信息。
在一个实施例中,所述字符信息中包括多个文本单元,其中,所述文本单元包括字符和\或文本块;
其中,字符信息可通过OCR文字识别获取,可包括:
识别后的字符或文本块(Text Block,即处于同一行且认为没有被标点、空格分隔的字符集合);
字符坐标,即以矩形框表示的字符或文本块位置坐标(以像素单位表示)。例如,一张身份证影像中,文本块“姓名”的坐标位置为:左上x:50,左上y:50,宽:100,高:20。
字符角度,即字符朝向。如果定义图像的正上方为0度的话,那么一个字符或一个文本块如果其方向朝正左,那么字符朝向为270度(或-90度)。
字号大小:字符或文本块的字号大小(以像素单位表示),如果OCR服务器不能得到以像素表示的字号大小,那么可以用字符或文本块高度代替,认为其近似等于字号大小(对于汉字来说可近似认为高度等于宽度)。
在一个实施例中,对所述字符信息进行文字合并处理,生成文本块信息包括:获取所述字符信息中每一个文本单元的坐标、角度、以及字号;基于所述坐标、所述角度、以及所述字号判断所述多个文本单元是否满足合并条件;以及将满足合并条件的文本单元进行合并处理,生成所述文本块信息。关于文字合并处理,生成文本块信息的详细内容将在图3对应的实施例中进行详细描述。
在S206中,通过所述文本块信息与证书模板确定所述图像中的证书位置及版式。证书类型的定位和版面分析的目的主要是考虑到在拍摄影像中可能存在的干扰,这些可能的干扰及其解决方案有:
1、一张图像中存在多张证件,例如包含一张学位证书和一张身份证图像;这时需要程序能够定位学位证书的位置,并排除身份证图像和文字信息的干扰。
2、证书在影像中只占一部分,还有大量带有文字的背景干扰;这种情况通常发生在将证书平铺于书本、报纸上进行拍摄的情形;此时也需要程序能够定位证书位置,并排除其它干扰。
3、光照不均、过亮或过暗、反光、拍摄内容缺失等,这几个因素主要影响OCR引擎的识别精度,因此为了保证整个算法精度,需要确保输入的图像是清晰完整无缺失的。
其中干扰因素3涉及到数据质量差、可能存在缺失的问题,在这种情况下即使是人工录入也不可能从有缺失的图像中找出正确的结构化字段,因此这种情形中的光照、畸变因素本发明所述方法中使用预处理算法进行纠正,而内容缺失则不再考虑。
而干扰因素第1、2点则要求算法能够正确定位学历证书的位置并排除其它干扰。可包括:通过所述文本块信息确定证书名称;通过所述文本块信息确定文本行位置;以及通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式。
关于通过所述文本块信息与证书模板确定所述图像中的证书位置及版式的详细内容将在图4对应的实施例中进行详细描述。
在S208中,通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。可例如,基于所述证书位置、所述版式通过文字置信度分析由所述文本块信息中提取姓名信息、专业信息;以及基于所述证书位置、所述版式通过正则匹配方式由所述文本块信息中提取编号信息、时间信息。
在一个实施例中,还包括:通过所述编号信息确定证书类型信息与毕业院校信息。具体可包括:基于所述证书位置、所述版式通过文字置信度分析由所述文本块信息中提取姓名信息、专业信息还包括:通过专业列表循环匹配法计算文字置信度分析中的匹配评分。
在一个实施例中,本公开中的证书类型可为学历证书,具体根据教育部颁布相关文件中的学历证书编码规则规定,学历证书编号的前X位为学校代码,通过证书编号的抽取,可通过导入最新的《全国普通高等学校目录》,通过编号查询的方式,确定毕业学校名称。更进一步的,本公开中的证书类型也可为其他证书,如XX资格证、XX工程师证,后续的处理中,可根据证书类型的不同而由不同的数据源获取编码数据或者其他辅助数据,本公开不以此为限。
证书类型与毕业学校字段抽取方式相同,编码规则规定,学历证书编号的第X位为证书类型的代码,其中普通高校学位证书类型有:学士学位(代码4),硕士学位(代码3),博士学位(代码2);普通高校学历证书(毕业证书)类型有:普通高等教育(代码1),成人高等教育(代码5),高等教育自学考试和高等级教育学历文凭考试(代码6)。通过提取到的证书编号的第X位编号即可确定证书类型。
在所有目标信息中的各个字段抽取完成后,可以用结构化结果来判断当前图像是否为学历学位证书,或者字段抽取是否成功。所有字段为:姓名、证书编号、所学专业、学习起始时间、结束时间、毕业学校和学历学位证书类型,除去学习起始时间、结束时间可能不存在外,剩余五项关键字段中,如果有大于三项关键字段能够抽取到,则认为字段抽取成功(或者说影像中存在学历学位证书),反之则认为抽取失败。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
在一个实施例中,还包括:基于证书类型的特征对所述目标信息进行交叉验证。具体可例如,基于所述目标信息判断所述图像是否为证书图像;在所述图像为证书图像时,通过证书类型的特征与目标信息中的姓名信息、专业信息、编号信息、时间信息、证书类型信息与毕业院校信息对所述目标信息进行交叉验证。
在学历学位证书中,会包含一些重复信息,这些信息可以用来做交叉检验,来提升置信水平:
对于学习结束时间中,由于正文部分可能会有以年月表示的起止时间,同时证书编号中也会存在证书颁发日期,因此可以将证书颁发日期与结束时间进行比较,查看是否符合;如符合,则学习结束时间和证书编号置信度均提升某一数值;
对于毕业学校来说,在正文部分有可能存在完整的学校字符串,此外学校盖章部分也常常有完整学校字符串,因此在交叉检验部分可以将已经从学历证书编号中提取到的学校名称与正文内容进行比对,如有完整匹配,则毕业学校和学历证书编号的置信度均提升某一数值;
对于证书类型来说,证书标题一般包含“学位证”或“毕业证”字样;“学位证”表示当前证书为学位证书,而“毕业证”表示当前证书为学历证书(或毕业证书);因此可以将标题部分与证书编号的证书类型编码进行交叉验证,如符合,则两者置信度均提升某一数值。
在一个实施例中,还包括通过所述交叉验证确定所述目标信息的置信度;以及将所述置信度与所述目标信息作为键值对形式输出至用户端。经过以上步骤,所有字段均得到结构化及交叉检验,并最终输出为带有置信度的Key-Value对,程序可以以JSON或XML方式将结构化的Key-Value对进行输出,方便网络传输和接口调用。
图3是根据另一示例性实施例示出的一种提取图像中目标信息的方法的流程图。图3所示的流程是对图2所示的流程中S204“对所述字符信息进行文字合并处理,生成文本块信息”的详细描述。
如图3所示,在S302中,获取所述字符信息中每一个文本单元的坐标、角度、以及字号。
在S304中,基于所述坐标、所述角度、以及所述字号判断所述多个文本单元是否满足合并条件。
在S306中,将满足合并条件的文本单元进行合并处理,生成所述文本块信息。
目前OCR服务器一般依据文本的间距和行关系,以文本块的方式进行输出。例如,身份证反面的“签发机关”和其后面的“天津市滨海新区公安局”中间有比较大的空隙,因而OCR服务器会把它们当作两个文本块输出,即“签发机关”和“XX市XX区公安局”(以及这两个文本块的坐标、角度、字号等信息);而在学历学位证书中,例如证书标题“毕业证书”这四个字的空隙有可能非常大,OCR系统可能会认为它们不是同一个文本块(即输出为“毕”、“业”、“证”、“书”及其它们的坐标等),因此有必要合并处于同一行的文本块,方便后面的版面分析和结构化字段抽取。
在OCR识别结果中,如果有任意两个或多个文本块符合以下条件,则认为它们属于同一行中的连续文本块,需要将它们合并为一个文本块:
1、在水平方向(这里的水平方向指文本块文字的排列方向)上,两个文本块的水平间距(即空隙)小于某一阈值,这个阈值通常可以用“n个字符的宽度”来表示;
2、在竖直方向(这里的竖直方向指垂直于文字排布的方向)上,两个文本块重叠区域小于某一阈值;也就是说,这两个文本块至少在竖直方向上要有重叠,且重叠区域应满足一定要求,这个阈值可以用像素值,或字符高度的百分比表示。
3、字号(即字体大小)不能相差很多。合并后的文本块将依照从左向右的顺序,对文本进行排序。经过以上步骤,所有大致处于同一行且间距较小的文本块都被合并,即原始OCR输出的零散的文本块被合并成了整行且不中断的文本。
图4是根据另一示例性实施例示出的一种提取图像中目标信息的方法的流程图。图4所示的流程是对图2所示的流程中S206“通过所述文本块信息与证书模板确定所述图像中的证书位置及版式”的详细描述。
如图4所示,在S402中,通过所述文本块信息确定证书名称。原始文本块经过合并后,证书标题、正文等都已经被成行地组织起来。学历学位证书的标题一般为:“普通高等学校/普通高等教育毕业证书”、“(xxxx大学)学士/硕士/博士(研究生)学位证书”、“硕士/博士研究生毕业证书”,并且字号显著大于其他多数文本的字号。因此可以用这些特征找出证书标题文本块:
学历学位证书的标题字号一般显著大于其他多数文本;
学历学位证书的标题包含有“毕业证书”或“学位证书”文字;
符合以上两个条件的(合并)文本块作为证书标题候选,存入到证书标题容器中。
在S404中,通过所述文本块信息确定文本行位置。学历学位证书的正文部分一般有以下特点:
包含有毕业专业。毕业专业部分的关键字检索,可通过导入并查询教育部颁布的《普通高等学校本科专业目录》、《授予博士、硕士学位和培养研究生的学科、专业目录》进行检索;
包含有证书编号,其中证书编号为一串XX位以上的整数数字,且在上下版式中,证书编号一般是正文的最后一行;
包含有(性别)“男”或“女”字样;
可能包含有出生年月日或就读年月等日期信息。
学历学位证书通常包含有多行正文(一般为3~5行),正文文本行的查找并不要求找出所有的行,而是只需要粗略定位正文文本行在哪即可。
在S406中,通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式。
根据教育部规定的学位证书版式规定,以及从近年收集的学历学位证书版式情况归纳,普通高等院校的学历学位证书一般可归为几种版式,因此可以根据S402和S404中检测到的证书标题和正文可能位置,通过枚举组合的方式,选取最可能的学历证书位置及其版式。当位置及版式确定后,接下来采用位置过滤的方式,过滤掉无关的文本块(例如通过标题和正文文本块的坐标,确定一个证书范围的大致四边形区域,然后使用此区域对所有文本块进行过滤)。
在一个实施例中,通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息具体包括:
需要从学历学位证书中抽取的关键字段包括:姓名、证书编号、所学专业、学习起始时间、结束时间、毕业学校和学历学位证书类型。
姓名提取:
学生姓名出现在证书正文的第一行,姓名前面有可能有“研究生”、“学生”字样,由于印刷关系,姓名字符与前后文之间常常有比较明显的间隙,并且姓名后面紧跟着性别;此外,在性别后面会有出生年月(但受限于证书宽度,出生年月有可能印刷在下一行)。因此可以利用以上所述的特征,从正文文本行中抽取姓名。对于每一行文本,如果其全部或部分满足以下条件,则将其作为包含姓名的候选文本行进行抽取(满足的条件越多,则其置信度越高,最终将处理置信度最高的那一行文本):
包含有“男”或者“女”字段(男或女通常为性别,但有姓名中会包含例如“高亚男”,此外有的学校名称也会包含,例如“中华女子学院”);
这一行文本处于证书标题的下方或右侧,通过之前提取到的标题位置信息来判定;
本行或者正下方一行,包含有出生年月日信息,在编程实现中,可以首先将上下两行字符串进行拼接,如果单纯根据位置关系难以判断某一行是否为下文,可使用基于马尔可夫模型的NLP手段(能够通过训练,计算出两串字符在一起出现的概率,例如,“2008北京”与“奥运会”的概率很大,而“2008北京”与“白桦林”同时使用的概率就非常小),选择最大概率的文本块作为下文。拼接后使用正则匹配“某年某月某日”字段进行确认是否包含此字段。
找到最可能包含姓名的文本行后,接下来初始化两个位置信息,分别为姓名起始位置(Start Position)和姓名结束位置(End Position),令Start Position初始化为0,令End Position初始化为文本行的末尾位置。接下来,逐步精确Start Position和EndPosition。
Start Position:如果文本行起始字符为“学生”,那么Start Position向后移动两个汉字字符,跳过学生字符串;如果文本行起始字符为“研究生”,那么Start Position向后移动三个汉字字符,跳过研究生字符串;
End Position:对文本行从右至左查询“男”或者“女”,并且令End Position先暂时移动到所查到“男”或者“女”的位置(从右到左查询的目的是排除姓名中包含男或女字样的影响);然后,查询前面是否存在“性别”字样,如果存在,则将End Position移动到“性别”之前;最后,如果性别之前存在一个“较为明显”的文本空隙,那么将End Position移动到文本空隙所在的位置之前。
此处“较为明显”文本空隙的定义是,存在两个字符间的空隙,大于等于一个字符的宽度。可以利用OCR服务器返回的字符位置坐标进行计算。
然后,验证Start Position和End Position的位置是否合法,即Start Position和End Position是否都处于文本行内部,并且End Position减去Start Position大于等于2个汉字字符(人姓名至少包含两个字)。
最后,Start Position和End Position之间的字符,即证书持有人姓名。
证书编号提取:
学历学位证书编号为单独一行,并且特征比较明显:包含有“证书编号”或“注册号”字样,同时后面跟一串XX位及以上的阿拉伯数字。因此可以使用简单正则匹配的方法,查找每一行文本中符合上述条件的文本,最终抽取其“证书编号”或“注册号”后面的一整串数字,即为证书编号。
专业提取:
学历学位证书的专业关键词在正文中间部分,但在具体哪一行是不确定的。大部分学历学位证书都会包含有“在(本校)或(xxxx大学、学院)xxxx(专业)或(学科)”字样,根据以上特征,对于每一行文本,可以计算一个置信度数值,如果其全部或部分满足以下条件,并且满足的条件越多,则包含专业关键字段的置信度越高:
包含有“在(本校或某大学、学院)某某(专业或学科)”特征;
至少两个字符能够匹配上教育部颁布的《普通高等学校本科专业目录》、《授予博士、硕士学位和培养研究生的学科、专业目录》中的专业名称。可以将这两个目录作为一个列表,导入到程序的一个容器中。然后使用以下方法计算专业匹配置信分值。方法描述如下:
将需要抽取的文本行中的文本称作S1,此外从教育部颁布的《普通高等学校本科专业目录》、《授予博士、硕士学位和培养研究生的学科、专业目录》专业列表中,依次读取一条专业,称作S2。如果S2长度>S1长度,那么结束本次循环,从专业列表中读取下一条专业S2,进行下次循环;
如果S2长度<=S1长度,那么将S2的长度标记为L2,S1长度标记为L1,进入匹配分值计算循环:依次从第S1文本的第0、1、2…n个位置开始,至L1-L2位置结束,取长度为L2的子字符串S1_SubStr,然后从它们的第一个字符开始,依次比较S1_SubStr与S2的相同的字符个数,并依此评估S1_SubStr与S2的匹配分值:
匹配分值=最多相同的字符个数/L2+最多相同的字符个数×0.1 (1)
如果字符串S1“电气工程及其自动化”与字符串S2“电气工程”进行比较的话,当S1字符串取前四个子字符时,相同的字符个数最多,因此依照上式计算,匹配分值=4/4+4*0.1=1.4。
上式不仅考虑了最长共有子字符串的因素,也考虑了保留最长专业匹配的原则。例如,如果证书上印刷的专业名称S1为“国际英语”,而从专业列表中取出“英语”进行匹配的话,专业字符将100%完全匹配,这显然有问题。但依照上式计算的话,专业列表中取出S2“英语”和“国际英语”匹配分值分别为1.2和1.4,显然国际英语的1.4匹配分值更高一些。
目前公开文献中已发表的编辑距离算法和共有字符串算法并不能满足专业匹配要求。例如,编辑距离算法认为字符串S1“abc”与字符串S2“abcd”、S1和字符串S3“ab”之间的距离都是1,无法区分选择哪个专业更合适;而对于共有字符串算法来说,学历证书中的无关字符串“四年制本科学习”与专业列表中的“制造科学与技术”将会有3个共有字符,显然它并不能作为专业匹配的依据。
最终,使用本章节所述方法,经过一次专业列表匹配循环,匹配分值最高的专业,将认为是证书所录专业。
学习起始时间和结束时间提取:
由于并不是所有证书正文中都包含有以年月描述的起始时间和结束时间,因此在抽取学习起始时间和结束时间之前,首先要确定正文中是否包含以年月描述的起始时间和结束时间:
如果正文中包含有,则它们表述方式一般为“某年某月至某年某月…(在某学校某专业)”,因此可以使用简单正则匹配的方法,寻找“某年某月至某年某月”这样的特征。
然而,截至目前进行关键字抽取的都为单行文本进行处理,由于证书排版的限制,“某年某月至某年某月”这样的特征有时会被印刷到两行中。因此在正则匹配之前,需要首先衔接满足以下条件的上下两行。
如果有上下相邻两行满足:
1、它们都包含有“某年(可能有某月)”这样的特征;
2、根据训练好的马尔可夫模型计算出的第一行到第二行文字的概率大于一定数值(也就是语句应当是能衔接的)。
那么它们可以进行衔接处理,如果单一文本行之间已经包含了“某年某月至某年某月”这样的特征,则无需处理直接抽取。最终得到“某年某月至某年某月”字段的第一个年月,为学习起始时间,第二个年月为学习结束时间。如有需要的话,可以将年月中包含的中文数字转化为阿拉伯数字。
如果通过遍历证书正文部分并未发现这样的特征,根据教育部颁布的相关文件中的证书类型(学历证书)编码规则规定,证书类型编号的7~10位为颁布年份,可以此作为学习结束时间。但学习起始时间无法知悉,一种粗略估算是对于本科学生,往前推四年,对于硕士研究生,往前推三年或2.5年;而博士研究生由于学习时间不固定,不再进行估算。任何估算都应给出置信度水平(以小数或分数表示的)。
在一个应用场景中,公司人力部门经常需要将应聘、入职人员的学历信息录入到电子系统,学历学位证书作为最直接、有效的凭证,一般是扫描图像或手机拍摄图像;当公司规模变大,人员流动量随之加大时,学历信息的录入工作显然变成了人力部门的效率瓶颈。、
图5是根据一示例性实施例示出的一种提取图像中目标信息的方法的流程图。图5所示的提取图像中目标信息的方法50描述了通过本公开中的方法提取某学历证书图像中的信息的全过程。
如图5所示,在S502中,读取图像。对学位证书进行信息提取的流程,可例如使用C++编程语言,编写一个计算机程序实现。
在S504中,图像预处理。如果图像存在倾斜,则使用旋转的方法将其矫正,如果存在亮度、对比度差的情况,则使用伽马矫正算法进行矫正;如果图像大于2000*2000像素,则缩放至原来的1/2,这样处理速度可以提升为原来的四倍。以上预处理方法可以使用计算机图像处理的开源库(例如OpenCV)进行处理。
例如图6所示为经过预处理后的原始图像文字分布情况示例。
在S506中,OCR识别。将上述纠正后的图像输入到通用OCR识别系统中,例如,可以通过调用通用文字识别引擎(含位置信息)进行识别。OCR服务器接收影像并进行处理后,返回识别后的文本块及位置等信息,所识别的文本及坐标位置以绿色框表示如图7所示,注意通用OCR系统一般认为字符间明显的空隙为文字的中断,因此会出现一行文本会被分成多个文本块的情况。
在S508中,合并同一行文本。其中,合并原则参数可选择如下:
在水平方向上,两个文本块的水平间距小于这两个文本块较小的文字高度的4倍,如果假设汉字的高度等于宽度,也就是说文本块水平间距应小于4个字符的被合并成一个文本块;在竖直方向上,两个文本块重叠区域小于这两个文本块较小的文字高度的1/2;也就是说,这两个文本块至少在竖直方向上要有重叠,且重叠区域应至少占较小的文本块高度的1/2以上;字号大小不能相差50%以上。合并后的文本块如图7所示。
在S510中,定位和版面分析。可通过使用以下标准对证书标题进行筛选:
其字号显著大于大多数文字50%以上;标题包含有“毕业证书”或“学位证书”文字;经过上述筛选,图8中央偏上的文本行“毕业证书”被识别为证书标题行。
使用以下标准对证书正文进行筛选:
导入并查询教育部颁布的《普通高等学校本科专业目录》、《授予博士、硕士学位和培养研究生的学科、专业目录》到C++vector容器中,然后依次访问容器中的每一个专业名称,与合并后的每一行文本进行匹配,看是否有大于等于2个字符的匹配结果;使用正则匹配(匹配原则为含有“编号”且后面有XX位以上的数字),查找含有证书编号的文本行;某一行包含有(性别)男或女字样;某一行或多行年月日等日期信息。经过以上步骤,图8中的第3、4、8行符合条件,因此认为3~8行为证书正文部分。
经过上述两个步骤的标题和正文定位,可以认为此证书符合图9中的版式A。
在S512中,关键信息抽取。可例如为结构化字段抽取:
姓名:对于每一行文本,使用如下方式进行过滤并取置信得分最高的一行:包含有“男”或者“女”;这一行文本处于证书标题的下方或右侧,即处于证书的正文部分中;本行或者正下方一行,包含有(出生)年月日信息。
经过以上方式过滤后,证书第三行(正文第一行)“学生张三,性别男…”作为置信分数最高的文本行,进行姓名字符串抽取。令Start Position初始化为0,并且文本行起始字符为“学生”,因此向后移动两个汉字字符,Start Position=2;令End Position先移动到rfind(“男|女”)位置(rfind是一个字符串右查找函数),End Position=6;此时令子字符串为Start Position和End Position之间的字符,即子字符串为“张三性别”。程序会检索子字符串中的“性别”字样,并且将End Position移动到“性别”之前,即End Position=4;最终,程序也检测到在“性别”前面有明显字符间隙(使用图6、图7中的文字定位信息进行计算),也使令End Position=4。最终,姓名取Start Position和End Position之间的字符,即“张三”。
证书编号:对于每一行文本,如果其中某一行包含有“证书编号”或“注册号”字符串,并且包含有一串14位以上的数字。依此规则对字符串进行过滤,最终文本行“证书编号:105361200812345678”满足匹配原则。因此使用C++正则匹配算法抽取到的数字为:105361200812345678。即为证书编号。
所学专业:符合专业过滤条件的文本行为正文第二行“年九月至二OO八年六月在本校自动化专业”,然后依次从导入的专业目录中读出每一个专业,使用公式(1)对专业匹配分值进行计算,最终找出最大匹配分值的专业:如果专业目录中抽出一条专业为“机械工程及自动化”,那么其匹配分值=3/8+3*0.1=0.675;如果专业目录中抽出一条专业为“自动化”,那么其匹配分值=3/3+3*0.1=1.3;
经过遍历计算,专业列表中的“自动化”专业匹配分值最高,因此证书中的专业为自动化专业。
起始时间和结束时间:对于正文部分上下两行,首先依照训练好的语料模型对其进行衔接,即把下边一行文本内容附到上一行文本内容之后,然后对这两行的内容进行正则匹配,如果它们包含有“某年某月至某年某月”特征,即认为它包含起始时间和结束时间文本。
经过这样的过滤,文本行“学生三性别男,一九八四年十月十五日生,于二OO四年九月至二OO八年六月在本校自动化专业”这两行满足要求。因此抽取第一个“某年某月至某年某月”字段的第一个年月为起始时间为“二OO四年九月”,抽取第二个为结束时间即“二OO八年六月”。并最终将它们转换为阿拉伯数字:2004年9月,2008年6月。
毕业学校:学校代码为证书编码的前5位,即“10536”,根据在《全国普通高等学校目录》中的查询,毕业学校名称为XX理工大学。
在S514中,判断是否为学历证书。证书类型:学校代码为证书编码的第6位,即1,根据前面章节所述,1代表类型为普通高等教育毕业证书。
在S516中,字段交叉检验。字段交叉检验及最终输出:从正文部分抽取到的学习起止时间为2004年9月至2008年6月;从证书编号中抽取到的学习截止时间为2008年,两者相符,学习结束时间和证书编号置信度均提升0.1;
从证书编号中抽取到的毕业学校为XX理工大学,将XX理工大学与正文所有文本进行匹配,并且发现有一处完整匹配“校名:XX理工大学”,因此毕业学校和证书类型编号的置信度均提升0.1;
从证书编号中抽取到的毕业证书类型为“毕业证”、“普通高等教育”;将“毕业证”与证书标题文本进行匹配,发现有一处完整匹配,毕业证书类型和证书类型编号置信度+0.1。最终,程序可以JSON格式将结构化后的字段进行输出,方便其他程序调用。
在S518中,输出结果。
目前已有卡证类OCR识别方法,只能用于内容简单、格式较固定的身份证、银行卡、行驶证、营业执照等影像,而不能处理学位证书类型这样版式和内容多变的影像,本发明公开的提取图像中目标信息的方法,具有快速、通用、可扩展性和鲁棒性好的优点。本方法证书影像输入的范围广,拍照件、扫描件(黑白,彩色),以及包含有倾斜、畸变、光照不均、复杂背景、与其他证件同时拍摄等影像均可以处理。整个过程无需人工干预,能够以自动、实时或批处理方式完成学历学位证书内容的录入、归档和查询。此外,程序可以输出各个字段的置信度,能够以JSON或XML方式对结构化后的字段进行输出,方便各种应用程序的调用。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图10是根据一示例性实施例示出的一种提取图像中目标信息的装置的框图。提取图像中目标信息的装置10包括:文字识别模块1002,文字合并模块1004,证书识别模块1006,信息提取模块1008。提取图像中目标信息的装置100还可包括:交叉验证模块1010。
文字识别模块1002用于对图像进行文字识别以获取字符信息;
文字合并模块1004用于对所述字符信息进行文字合并处理,生成文本块信息;
证书识别模块1006用于通过所述文本块信息与证书模板确定所述图像中的证书位置及版式;以及
信息提取模块1008用于通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
交叉验证模块1010用于基于证书类型的特征对所述目标信息进行交叉验证。
图11是根据一示例性实施例示出的一种电子设备的框图。
下面参照图11来描述根据本公开的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:至少一个处理单元1110、至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1110可以执行如图2、图3、图4中所示的步骤。
所述存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202,还可以进一步包括只读存储单元(ROM)11203。
所述存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204,这样的程序模块11205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器1060可以通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。例如,所述的电子设备可以实现如上文所示的各个步骤。
通过以上的详细描述,本领域的技术人员易于理解,根据本公开实施例的提取图像中目标信息的方法、装置、电子设备及计算机可读介质具有以下优点中的一个或多个。
能够利用通用OCR识别学历学位证书影像,并从识别结果中利用文字位置信息、版式信息、字符匹配、自然语言处理等技术,抽取感兴趣的关键字段,包括姓名、证书编号、所学专业、学习起始时间、结束时间、毕业学校和学历学位证书类型;
针对姓名、证书编号、所学专业、学习起始时间、结束时间、毕业学校和学历学位证书类型中的每个关键字段,都提出了相应的检测方法(从复杂文本块中的过滤方法)以及关键字段抽取算法;
针对已有字符匹配算法的不足,提出了一种高等院校专业字符串匹配算法,算法通过对每一个候选专业计算匹配分值的方式,从复杂正文内容中找出证书中的专业;
提出了适用于学历学位证书的字段交叉检验方法,充分利用证书中的信息,提升结构化字段抽取结果的置信度;
提出了一种学历学位证书定位和版面分析的方法;
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (9)
1.一种提取图像中目标信息的方法,其特征在于,包括:
对图像进行文字识别以获取字符信息;
对所述字符信息进行文字合并处理,生成文本块信息,其中,所述文字合并处理是合并字符和文本块中的至少一者;
通过所述文本块信息与证书模板确定所述图像中的证书位置及版式,包括:
通过所述文本块信息确定证书名称;
通过所述文本块信息确定文本行位置;以及
通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式;
通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息;以及
基于证书类型的特征对所述目标信息进行交叉验证。
2.如权利要求1所述的方法,其特征在于,所述字符信息包括多个文本单元,所述文本单元包括所述字符和文本块中的至少一者;
对所述字符信息进行文字合并处理,生成文本块信息包括:
获取所述字符信息中每一个文本单元的坐标、角度、以及字号;
基于所述坐标、所述角度、以及所述字号确定所述多个文本单元之间的位置关系与文字关系;
通过所述位置关系与文字关系判断所述多个文本单元之间是否满足合并条件;以及
将满足合并条件的文本单元进行合并处理,生成所述文本块信息。
3.如权利要求1所述的方法,其特征在于,通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息包括:
基于所述证书位置、所述版式由所述文本块信息中提取姓名信息、专业信息;以及
基于所述证书位置、所述版式通过正则匹配方式由所述文本块信息中提取编号信息、时间信息。
4.如权利要求3所述的方法,其特征在于,基于所述证书位置、所述版式通过文字置信度分析由所述文本块信息中提取姓名信息、专业信息还包括:
通过专业列表循环匹配法计算文字置信度分析中的匹配评分。
5.如权利要求1所述的方法,其特征在于,基于证书类型的特征对所述目标信息进行交叉验证包括:
基于所述目标信息判断所述图像的证书类型;
通过所述证书类型的特征与目标信息中的姓名信息、专业信息、编号信息、时间信息、证书类型信息与毕业院校信息对所述目标信息进行交叉验证。
6.一种提取图像中目标信息的装置,其特征在于,包括:
文字识别模块,用于对图像进行文字识别以获取字符信息;
文字合并模块,用于对所述字符信息进行文字合并处理,生成文本块信息,其中,所述字符信息包括字符和文本块中的至少一者;
证书识别模块,用于通过所述文本块信息与证书模板确定所述图像中的证书位置及版式,包括:
通过所述文本块信息确定证书名称;
通过所述文本块信息确定文本行位置;以及
通过所述证书名称和所述文本行位置由所述证书模板中确定所述图像中的证书位置及版式;以及
信息提取模块,用于通过所述证书位置、版式由所述文本块信息中提取所述图像中的目标信息。
7.如权利要求6所述的装置,其特征在于,还包括:
交叉验证模块,用于基于证书类型的特征对所述目标信息进行交叉验证。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910735293.0A CN110442744B (zh) | 2019-08-09 | 2019-08-09 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910735293.0A CN110442744B (zh) | 2019-08-09 | 2019-08-09 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442744A CN110442744A (zh) | 2019-11-12 |
CN110442744B true CN110442744B (zh) | 2022-11-04 |
Family
ID=68434252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910735293.0A Active CN110442744B (zh) | 2019-08-09 | 2019-08-09 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442744B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192149B (zh) * | 2019-11-25 | 2023-06-16 | 泰康保险集团股份有限公司 | 一种核保结果数据生成方法和装置 |
CN111144445B (zh) * | 2019-12-06 | 2024-02-20 | 中交水运规划设计院有限公司 | 印刷书刊书写格式的检错方法及系统、电子设备 |
CN113537221A (zh) * | 2020-04-15 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置和设备 |
CN113822280B (zh) * | 2020-06-18 | 2024-07-09 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置、系统和非易失性存储介质 |
CN111860481B (zh) * | 2020-06-30 | 2021-08-10 | 湖南三湘银行股份有限公司 | 一种基于多识别参量的网上银行服务系统 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
CN112200185A (zh) * | 2020-10-10 | 2021-01-08 | 航天科工智慧产业发展有限公司 | 一种文字反向定位图片的方法及装置、计算机储存介质 |
CN112269872B (zh) * | 2020-10-19 | 2023-12-19 | 北京希瑞亚斯科技有限公司 | 简历解析方法、装置、电子设备及计算机存储介质 |
CN112560859A (zh) * | 2020-11-20 | 2021-03-26 | 中电鸿信信息科技有限公司 | 基于机器视觉及自然语言处理的智能学历信息提取方法 |
CN112667767A (zh) * | 2020-12-31 | 2021-04-16 | 北京百炼智能科技有限公司 | 一种信息处理的方法及装置 |
CN113065554B (zh) * | 2021-04-08 | 2023-05-02 | 读书郎教育科技有限公司 | 一种用于智慧课堂智能批阅的批改区域自动识别方法 |
CN113343968A (zh) * | 2021-05-28 | 2021-09-03 | 广州云从人工智能技术有限公司 | 多模板证书快速审证方法、系统、介质及装置 |
CN113408536A (zh) * | 2021-06-23 | 2021-09-17 | 平安健康保险股份有限公司 | 票据的金额识别方法、装置、计算机设备及存储介质 |
CN113792127B (zh) * | 2021-09-15 | 2023-12-26 | 平安国际智慧城市科技股份有限公司 | 基于大数据的法规识别方法、装置、电子设备及介质 |
CN114462383B (zh) * | 2022-04-12 | 2022-07-08 | 江西少科智能建造科技有限公司 | 建筑图纸设计说明书获取方法、系统、存储介质及设备 |
CN114851729A (zh) * | 2022-05-10 | 2022-08-05 | 重庆邮电大学 | 基于智能物联的自动盖章机 |
CN115376142B (zh) * | 2022-07-20 | 2023-09-01 | 北大荒信息有限公司 | 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
CN108171239A (zh) * | 2018-02-02 | 2018-06-15 | 杭州清本科技有限公司 | 证书图像文字的提取方法、装置及系统、计算机存储介质 |
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
CN109492533A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 利用图像识别技术验证学历的方法、装置和计算机设备 |
-
2019
- 2019-08-09 CN CN201910735293.0A patent/CN110442744B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
CN108171239A (zh) * | 2018-02-02 | 2018-06-15 | 杭州清本科技有限公司 | 证书图像文字的提取方法、装置及系统、计算机存储介质 |
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
CN109492533A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 利用图像识别技术验证学历的方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
中文版面分析和重构;钟辉等;《沈阳建筑大学学报(自然科学版)》;20080315(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442744A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442744B (zh) | 提取图像中目标信息的方法、装置、电子设备及可读介质 | |
US10339378B2 (en) | Method and apparatus for finding differences in documents | |
RU2651144C2 (ru) | Ввод данных с изображений документов с фиксированной структурой | |
US8965112B1 (en) | Sequence transcription with deep neural networks | |
CN112699775B (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
US20130238968A1 (en) | Automatic Creation of a Table and Query Tools | |
US20140245120A1 (en) | Creating Tables with Handwriting Images, Symbolic Representations and Media Images from Forms | |
Chernyshova et al. | Generation method of synthetic training data for mobile OCR system | |
US11715318B2 (en) | Systems and methods for spatial-aware information extraction from electronic source documents | |
RU2656573C2 (ru) | Методы обнаружения введенных пользователем контрольных меток | |
KR20210077251A (ko) | 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법 | |
Thammarak et al. | Automated data digitization system for vehicle registration certificates using google cloud vision API | |
CN114494751A (zh) | 证照信息识别方法、装置、设备及介质 | |
Vanitha et al. | Image and face recognition using CV lens machine learning android application | |
CN114399626B (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
JP4474231B2 (ja) | 文書リンク情報取得システム | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
Pattnaik et al. | A Framework to Detect Digital Text Using Android Based Smartphone | |
CN114821623A (zh) | 文档处理方法、装置、电子设备及存储介质 | |
CN108734167B (zh) | 一种被污染的胶片文字识别方法 | |
Groom | Using legacy botanical literature as a source of phytogeographical data | |
JP3958722B2 (ja) | イメージデータ文書検索システム | |
Al-Barhamtoshy et al. | Universal metadata repository for document analysis and recognition | |
Baumgärtner et al. | Image-based recognition of Braille using neural networks on mobile devices | |
CN113297850B (zh) | 基于区块链技术的跨部门财务支出管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |