CN115294593A - 一种图像信息抽取方法、装置、计算机设备及存储介质 - Google Patents

一种图像信息抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115294593A
CN115294593A CN202210950619.3A CN202210950619A CN115294593A CN 115294593 A CN115294593 A CN 115294593A CN 202210950619 A CN202210950619 A CN 202210950619A CN 115294593 A CN115294593 A CN 115294593A
Authority
CN
China
Prior art keywords
text
image
recognized
key value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210950619.3A
Other languages
English (en)
Inventor
刘东煜
周坤胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210950619.3A priority Critical patent/CN115294593A/zh
Publication of CN115294593A publication Critical patent/CN115294593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

本发明涉及数据库查询技术,提供一种图像信息抽取方法、装置、计算机设备及存储介质,提取待识别图像中每个文本及对应文本在待识别图像中的位置信息,将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息,通过第一分类模型与第二分类模型获得对应的键值与真实值的分类标签,可以将键值与真实值进行快速匹配,提高了图像中文本的抽取效率。

Description

一种图像信息抽取方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据库查询技术,尤其涉及一种图像信息抽取方法、装置、计算机设备及存储介质。
背景技术
出生医学证明作为一种重要的证件,其自动识别技术,对父母及新生儿身份信息进行识别,应用于生育保险报销过程中对生育信息的登记和录入,便于进行被保人信息的核验及管理,大大提升保险报销效率,降低人力成本,控制业务风险等具有重大的意义。
现有技术中,通过OCR识别技术快速识别提取目标出生证图像上的信息内容,以达到识别出生证的目的。然而,OCR技术识别出的结果仅仅是一串可编辑的字符串,不能提取关键信息。对于结果往往需要建立一系列规则筛选各项从而录入,或者直接人工录入,效率较低,因此,如何提高图像信息抽取效率成为了亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种图像信息抽取方法、装置、计算机设备及存储介质,以解决图像信息抽取效率较低的问题。
第一方面,提供一种图像信息抽取方法,所述方法包括:
提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息;
将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,所述键值分类标签为表征对应文本的位置在所述待识别图像中所属的键值分类;
将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,所述真实值类别标签为表征对应文本的位置在所述待识别图像中所属的真实值分类,所述真实值分类与所述键值分类为一一对应;
根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为所述待识别图像的抽取信息。
第二方面,提供一种图像信息抽取装置,所述装置包括:
提取模块,用于提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息;
键值分类标签确定模块,用于将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,所述键值分类标签为表征对应文本的位置在所述待识别图像中所属的键值分类;
真实值类别标签确定模块,用于将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,所述真实值类别标签为表征对应文本的位置在所述待识别图像中所属的真实值分类,所述真实值分类与所述键值分类为一一对应;
待识别图像的抽取信息确定模块,用于根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为所述待识别图像的抽取信息。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的图像信息抽取方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的图像信息抽取方法。
本发明与现有技术相比存在的有益效果是:
提取待识别图像中每个文本及对应文本在待识别图像中的位置信息,将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类,将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,真实值分类与键值分类为一一对应,根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息,通过第一分类模型与第二分类模型获得对应的键值与真实值的分类标签,可以将键值与真实值进行快速匹配,提高了图像中文本的抽取效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种图像信息抽取方法的一应用环境示意图;
图2是本发明一实施例提供的一种图像信息抽取方法的流程示意图;
图3是本发明一实施例提供的一种图像信息抽取方法的流程示意图;
图4是本发明一实施例提供的一种图像信息抽取方法的流程示意图;
图5是本发明一实施例提供的一种图像信息抽取装置的结构示意图;
图6是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的一种图像信息抽取方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明一实施例提供的一种图像信息抽取方法的流程示意图,上述报表生成方法可以应用于图1中的服务端,上述服务端连接相应的客户端,为客户端提供模型训练服务。如图2所示,该图像信息抽取方法可以包括以下步骤。
S201:提取待识别图像中每个文本及对应文本在待识别图像中的位置信息;
在步骤S201中,对待识别图像中每个文本进行文本识别,识别出待识别图像中每个文本的文本信息,其中文本信息包括文本的位置信息,其依据的技术可以是文字识别软件,以实现将待识别图像文本,直接转换为可编辑文本。
本实施例中,提取待识别图像中每个文本及对应文本在待识别图像中的位置信息,提取时,可以将提取的文本信息转化成统一的数据格式,继而可以基于这些统一的数据格式信息进行多维度的特征提取,例如,由位置文本位置信息与文本内容组成的数组,从数组中可以提取对应的文本位置信息。
需要说明的是,待识别图像是对具有固定版面的卡证进行扫描或者拍摄等图像采集方式获取到的图像,具有固定版面的卡证是指具有键值的卡片类型的证件,例如:身份证、出生证等,这些类型的证件中所包含的内容都是按照固定版面排布的,例如:姓名:张三、年龄:20岁、住址:某某街道101号等。在提取文本信息时,提取对应键值检测框中的文本,待识别图像中的键值框是指待识别图像中描述信息类型的键值信息所在的框体区域,键值信息例如:姓名、年龄、住址等,对于同一种版面的证件,其所包含键值信息是固定的。当检测键值对应的真实值时,提取对应真实值检测框中的文本,真实值检测框是指待识别图像中描述键值信息所对应的文字内容所在的框体区域,文字内容例如:张三、20岁、某某街道101号等,对于同一种版面的不同证件,其所包含文字内容可以是不同的。
可以理解,对于同一种证件的版面图像而言,其所包含的键值框相对证件所处的位置和大小是大致不变的,可能因为印刷等因素发生小幅度偏移。而真实值检测框相对证件所处的位置和大小可能随着所包含文字内容的变化而变化,但是相对于其对应的键值框所处的位置是大致不变的,例如:文字内容通常在证件中会临近于其所对应关键字的下侧、右侧等,具体可以针对不同类型证件进行设置,此处不做限定。
可选地,提取待识别图像中每个文本及对应文本在待识别图像中的位置信息,包括:
将待识别图像进行预处理,得到标准待识别图像;
利用文本识别技术对标准待识别图像进行文本识别处理,提取待识别图像中每个文本及对应文本在待识别图像中的位置信息。
本实施例中,对待识别图像进行预处理时,对待识别图像进行边缘检测及图像剪裁,并对待识别图像进行高斯滤波,以去掉待识别图像中的图像噪声,得到降噪图像,避免图像噪声对后续处理的影响,计算降噪图像中每个像素点的梯度值,根据梯度值从降噪图像中的所有像素点中筛选边缘像素点;提取降噪图像中所有边缘像素点围成的区域,本实施例中选择局部梯度值最大的像素点作为其中一个边缘像素点。根据边缘像素点对图像进行矫正处理,对矫正后的图像进行剪裁,得到标准待识别图像。
对标准待识别图像进行文字识别,利用文本识别技术对标准待识别图像进行文本识别处理,其中文本识别技术为OCR识别技术,OCR识别技术通过读取标准待识别图像,对图像进行提取文字,获得标准待识别图像中的文本信息。标准待识别图像中的文本信息包括文本位置信息。
需要说明的时,OCR识别技术对每个文本进行行分割,得到每行字符,接着对每行文本进行列分割,得到一个个单个字符,最后将单个字符送到训练好的OCR模型中进行字符识别,得到识别结果。在实际使用过程中模型识别出来的结果往往是不太准确的,所以需要对识别结果进行矫正和优化,一般是采用一个语言解码模型来检测识别出来的字符是否符合组合逻辑。
S202:将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签。
在步骤S202中,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类。
本实施例中,第一分类模型为为layoutlm模型,layoutlm模型是一个带有空间感知自注意力机制的多模态Transformer编码器模型,用于识别出文本信息中的词向量,LayoutLM模型属于对于待识别图像理解任务简单但有效的预训练模型。受到BERT(Bidirectional EncoderRepresentations from Transformers)模型的启发,LayoutLM模型输入的文本信息主要由文本与文本位置信息,并额外加入输入的嵌入向量的两项,一个位置嵌入向量用于表示待识别的出生证图像内的相对位置标记,一个待识别图像内的内的文本向量用于扫描标记。
需要说明的是,所采用的深度学习模型LayoutLM模型是一种通用待识别图像理解与训练模型,可对待识别图像结构信息(Document Layout Information)和视觉信息(VisualInformation)进行建模,让模型在预训练阶段进行多模态对齐。在现有的预训练模型基础上添加位置嵌入向量和文本向量两种新的Embedding层,这样一来可以有效地结合待识别图像结构和视觉信息。
其中,位置嵌入向量层在实际应用时,先根据OCR识别技术获得的文本的边框以获取文本在待识别图像中的具体位置,然后将边框坐标转化为虚拟坐标之后,计算该坐标对应在x、y、w、h四个嵌入子层的表示,最终的位置嵌入向量为四个子层的向量之和。
需要说明的是,一般LayoutLM模型中表示用于表示向量的左上角坐标的第一位置向量无需更改设置,直接沿用默认设置即可。这样,通过设定在LayoutLM模型处理识别图像文本信息的过程中,将用于表示识别图像文本中的字向量的右下角坐标,替换为检测框对应的中心点坐标,就可以间接引入检测框所检测的文字所在的位置信息,从而提高模型提取特征向量的速度,进而提高LayoutLM模型解析得到解析结果的效率。
文本嵌入向量层在实际应用时,将边框当作Faster R-CNN中的候选框,从而提取对应的局部特征。特殊地,由于[CLS]符号用于表示整个输入文本的语义,同样使用整张待识别图像作为该位置的文本嵌入向量,从而保持模态对齐。在本申请中为了简化获取文本嵌入向量层的输出,直接使用识别文本进行词向量转换,即可得到文本嵌入向量。
将文本嵌入向量和位置嵌入向量组合时,具体是将文本嵌入向量和位置嵌入向量进行求和而得到一个同时具备位置特征和文本特征的综合向量。
最后,深度学习模型的输出值为边框分类标签,边框分类标签是一种字级别的预测标签,边框分类标签的最终结果由该边框的识别文本中每一字对应的字标签投票得到。通过这一方式也可以快速且准确的得到每一边框中实体名称分类标签。例如,标签包括:“新生儿姓名-键值”、“父亲姓名-键值”、“母亲姓名-键值”等出生证模板中所有的键值,每一类键值值都赋予一个分类标签。
需要说明的是,在对第一分类模型进行训练时,通过数据增强的方式获得训练样本,数据增强时,对键值分类将结果进行随机替换,根据标注数据,我们可以得到各个键值分类标签的候选集,即可生成一份新标注数据。对字符坐标加入随机扰动。对每个字符坐标提供上下左右的随机偏移量,可对标注数据进行一定扩充。
S203:将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签。
在步骤S203中,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,所述真实值分类与所述键值分类为一一对应。
本实施例中,将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,其中,第二分类模型的训练过程为:
对带有标注信息的键值分类标签与真实值分类标签的待识别图像进行文本识别,将每个文本及其对应的位置信息和键值分类标签输入第二分类模型中,得到真实值分类标签的预测值,基于带有标注信息的键值分类标签与真实值分类标签与真实值分类标签的预测值计算最小损失值,对第二分类模型的参数进行微调,得到确定的第二分类模型。
需要说明的是,每个文本的位置信息由文本边框表示,多个文本边框按照位置顺序通过连接符进行连接,得到文本边框序列,在文本表框序列句首增加句首符,在文本边框序列结尾增加连接符,例如,句首符用CLS表示,连接符用SEP表示,则文本边框序列为CLS,W11,W12,…,W1n 1,SEP,W21,W22,…,W2n 2,SEP,…,SEP,W101,W102,…,W10n,SEP。
S204:根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息。
在步骤S204中,根据每个文本的键值分类标签,得到每个文本的键值分类类别,根据真实值分类标签,真实值的分类类别,对键值分类类别与真实值的分类类别进行归类处理,得到待识别图像的抽取信息。
本实施例中,根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理时,对键值分类标签与真实值分类标签进行匹配,使键值分类标签与真实值分类标签一一对应,例如,当抽取出生证图像中的信息时,抽取到的出生证图像中的键值可以为姓名,出生地址,出生时间,键值的分类标签为key1,key2,key3,真实值可以为张三,xx省,xxxx年xx月xx日,真实值分类标签分别为val1,val2,val3,则进行归类处理时,将key1与val1进行匹配,key2与val2进行匹配,key3与val3进行匹配,得到对应的匹配结果,姓名张三,出生地址xx省,出生时间xxxx年xx月xx日。得到归类结果,确定归类处理的结果为待识别图像的抽取信息。
提取待识别图像中每个文本及对应文本在待识别图像中的位置信息,将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类,将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,真实值分类与键值分类为一一对应,根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息,通过第一分类模型与第二分类模型获得对应的键值与真实值的分类标签,可以将键值与真实值进行快速匹配,提高了图像中文本的抽取效率。
参见图3,是本发明一实施例提供的一种图像信息抽取方法的流程示意图,如图3,该图像信息抽取方法可以包括以下步骤:
S301:提取待识别图像中每个文本及对应文本在待识别图像中的位置信息;
S302:将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类;
其中,上述步骤S301至步骤S302与上述步骤S201至步骤S202的内容相同,可参考上述步骤S201至步骤S202的描述,在此不再赘述。
S303:将键值分类标签表示层作为第一分类模型新增的输入向量层,构建第二分类模型。
本实施例中,将键值分类标签表示层作为第一分类模型新增的输入向量层,构建第二分类模型,初始化键值分类标签表示层的输入向量,对第二分类模型进行训练,根据第一分类模型,获取图像中的键值分类标签,将键值分类标签作为新增加的输入特征输入至新增的输入向量层中,对新增的输入向量层的参数进行微调,得到第二分类模型。
需要说明的是,当对第二分类模型进行训练时,将对少量图像进行标注处理,标注对应的键值分类标签与真实值对应分类标签作为训练样本,当训练样本较少时,对少量的训练样本进行数据增强处理,数据增强处理时,基于多张的图像,对真实值进行随机替换,根据标注数据,可以得到各个真实值分类标签的候选集,将图像的归属随机替换为其他归属,即可生成一份新的标注数据,也可以通过对字符坐标加入随机扰动,对每个字符坐标提供上下左右的随机便宜量,可对标注数据进行一定扩充。从而获得足够的训练样本。
本实施例中,在训练第二分类模型时,文将损失衰减为0.0001的L2正则化添加到损失函数表达式中。通过动量设为0.9的随机梯度下降方法进行优化训练。学习率初始值设置为0.1,然后每50次迭代除以10。将训练样本中的图像依次输入至第二分类模型中时,根据预设的数据增强方法,对于每个输入图像文本,分别采用对应数据增强的方法生成对应多个额外图像文本,基于生成的额外的图像文本进行训练。
S304:将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,真实值分类与键值分类为一一对应;
S305:根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息。
其中,上述步骤S304至步骤S305与上述步骤S203至步骤S204的内容相同,可参考上述步骤S203至步骤S204的描述,在此不再赘述。
参见图4,是本发明一实施例提供的一种图像信息抽取方法的流程示意图,如图4,该图像信息抽取方法可以包括以下步骤:
S401:提取待识别图像中每个文本及对应文本在待识别图像中的位置信息;
S402:将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类;
S403:将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,真实值分类与键值分类为一一对应;
S404:根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息。
其中,上述步骤S401至步骤S404与上述步骤S201至步骤S204的内容相同,可参考上述步骤S201至步骤S204的描述,在此不再赘述。
S405:基于正则匹配算法,从预设的文本合集中匹配与真实值分类中真实值文本对应的正确文本,若匹配失败,将真实值分类中真实值文本作为待纠错文本;
S406:对待纠错文本进行纠错处理,得到纠错后的抽取信息。
本实施例中,预设的文本合集为根据待识别图像中的键值分类标签预先得到的键值对应的所有可能的正确的真实值信息,其中预设的文本合集中的正确的真实值信息是从标准数据库中的获得的真实值信息。
需要说明的是,正则匹配时一种字符串的匹配模型,配提供强大的字符串处理能力,灵活性、逻辑性和功能性非常的强,可以迅速地用极简单的方式达到字符串的复杂控制,从而极大的提高匹配效率。正则匹配是基于正则表达式进行匹配,是构造正则集的代数表达式,它由普通字符(如a-z字母和数字等有效输入字符)和特殊字符(如元字符)组成,用于各种领域的数据检索。我们可以构造正则表达式,在字符串中定位出自己指定的部分。元字符由位置类、代指类和匹配类等类型组成。其中位置类元字符(如“^”、“$”)用来定位匹配特征在检测字符串中的位置,“^”匹配字符串的开始位置,“$”匹配字符串的结束位置。代指类元字符(如“\w”,“\d”,“\s”)常用于代指某类字符集,其中“\w”用来匹配字母、数字、下划线、或汉字,“\d”匹配数字,“\s”能匹配换行符、空格、制表符、中文全角空格等各种空白符。
正则表达式采用有穷状态自动机,可以在不同的状态下转移,因此能够迅速的进行复杂处理。有穷自动机是由正则表达式编译而成,该正则表达式需要对应真实值信息的字节编码格式预先编写,如真实值为文本数据,文本数据使用UTF-8进行编码,则该正则表达式描述的匹配规则需要对应UTF-8进行编写,以使根据该正则表达式编译的有穷自动机能够依次接受字节序列中的各个字节,并根据接受的字节做出相应的状态改变。
进行匹配时,若匹配成功,则认为在预设的文本合集中存在对应的待识别图像中的真实值数据,则抽取的待识别图像信息时正确的,若匹配失败,则在预设的文本合集中不存在对应的真实值,认为待识别图像的抽取信息存在错误文本,将识别出的文本作为待纠错文本。
对待纠错文本进行纠错处理,得到纠错后的抽取信息,对待纠错文本进行纠错时,将得到的正确文本替换对应的待纠错文本。
可选地,对待纠错文本进行纠错处理,得到纠错后的抽取信息,包括:
从待识别图像中每个文本中获取与待纠错文本对应键值关联的键值分类标签;
基于关联的键值分类标签对应的关联真实值,从预设的文本合集中匹配与关联真实值对应的关联正确文本;
将关联正确文本作为待纠错文本的正确候选集;
根据预设纠错规则,从正确候选集中获取待纠错文本对应的目标文本,将目标文本作为纠错后的抽取信息。
本实施例中,根据待纠错文本,从待识别图像中每个文本中获取与待纠错文本对应键值关联的键值分类标签,例如,当待纠错文本为识别的出生证中的地址信息时,从识别的出生证中的每个文本中获取与出生地址信息相关联的键值,可以获取,父亲住址,母亲住址,或者是出生机构所在的地址等,根据获取到的关联的键值分类标签,根据归类结果,获取关联的键值对应的真实值信息,例如,父亲住址信息,母亲住址信息,出生机构地址信息等,通过正则匹配算法,从预设的文本合集中获取与真实值信息对应的文本合集中的关联正确文本,将关联正确文本作为正确候选集,对待纠错文本进行纠错处理,从正确候选集中获取待纠错文本对应的正确文本,将正确文本作为目标文本,替换对应的待纠错文本。
可选地,基于关联的键值分类标签对应的关联真实值,从预设的文本合集中匹配与关联真实值对应的关联正确文本,包括:
根据关联的键值分类标签,从抽取信息中获取与关联的键值分类标签相关的关联真实值;
根据关联真实值,通过正则匹配算法,从预设的文本合集中匹配与关联真实值对应的关联正确文本。
本实施例中,根据关联的键值分类标签,从抽取信息中获取与关联的键值分类标签相关的关联真实值,抽取信息中待识别图像中的键值与真实值一一对应,当得到键值分类标签时,可以根据对应关系,获得关联真实值,根据关联真实值,通过正则匹配算法,从预设的文本合集中匹配与关联真实值对应的关联正确文本。进行匹配时,可以去除关联真实值中的错误的真实值,从而使候选集中的真实值为正确的真实值,得到正确候选集。
可选地,根据预设纠错规则,从正确候选集中获取待纠错文本对应的目标文本,将目标文本作为纠错后的抽取信息,包括:
计算待纠错文本与正确候选集中关联正确文本之间的编辑距离,从编辑距离中获取最小编辑距离;
当最小编辑距离小于预设阈值时,从正确候选集中关联正确文本中获取目标文本,将目标文本作为纠错后的抽取信息。
本实施例中,当对待纠错文本进行纠错处理时,计算正确候选集中关联正确文本与待纠错文本的编辑距离,编辑距离,又称莱文斯坦(Levenshtein)距离,是指一个字符串转化为另一个字符串所需要的最少操作次数,编辑距离越小,则一个字符串转化为另一个字符串所需要的操作次数越小,两个字符串为相同字符串的可能性越大,就可以将正确候选集中的关联正确文本替换为待纠错文本。
需要说明的是,当待纠错文本与正确候选集中两个或两个以上关联正确文本中的编辑距离相等时,计算每个关联正确文本出现的频次,例如,当选择正确的出生地址时,计算从出生证图像中得到的关于地址的次数,父亲住址,医疗机构地址,母亲住址等,也可以从与地址相关的信息中得到累加次数们可以从父亲身份证号或者母亲身份证号中得到身份证对应的地址信息,从而进行累计,得到不同的文本的累加次数。例如xx省分贝在出生证地址,父亲住址,身份证对应地址中出现,则xx省出现的频次为3次。将频次出现最多的省份作为目标文本对应的省份,将目标文本作为纠错后的抽取信息。
请参阅图5,图5是本发明实施例提供的一种图像信息抽取装置的结构示意图。本实施例中该终端包括的各单元用于执行图2至图4对应的实施例中的各步骤。具体请参阅图2至图4以及图2至图4所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图5,抽取装置50包括:提取模块51,键值分类标签确定模块52,真实值类别标签确定模块53,待识别图像的抽取信息确定模块54。
提取模块51,用于提取待识别图像中每个文本及对应文本在待识别图像中的位置信息。
键值分类标签确定模块52,用于将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,键值分类标签为表征对应文本的位置在待识别图像中所属的键值分类。
真实值类别标签确定模块53,用于将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,真实值类别标签为表征对应文本的位置在待识别图像中所属的真实值分类,真实值分类与键值分类为一一对应。
待识别图像的抽取信息确定模块54,用于根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为待识别图像的抽取信息。
可选的是,上述提取模块51包括:
预处理单元,用于将待识别图像进行预处理,得到标准待识别图像。
文本识别单元,用于利用文本识别技术对标准待识别图像进行文本识别处理,提取待识别图像中每个文本及对应文本在待识别图像中的位置信息。
可选的是,上述抽取装置50还包括:
匹配模块,用于基于正则匹配算法,从预设的文本合集中匹配与真实值分类中真实值文本对应的正确文本,若匹配失败,将真实值分类中真实值文本作为待纠错文本。
纠错模块,用于对待纠错文本进行纠错处理,得到纠错后的抽取信息。
可选的是,上述纠错模块包括:
待纠错文本对应键值关联的键值分类标签确定单元,用于从待识别图像中每个文本中获取与待纠错文本对应键值关联的键值分类标签;
关联正确文本确定单元,用于基于关联的键值分类标签对应的关联真实值,从预设的文本合集中匹配与关联真实值对应的关联正确文本;
正确候选集确定单元,用于将关联正确文本作为待纠错文本的正确候选集;
目标文本确定单元,用于根据预设纠错规则,从正确候选集中获取待纠错文本对应的目标文本,将目标文本作为纠错后的抽取信息。
可选的是,上述关联正确文本确定单元包括:
关联真实值去确定子单元,用于根据关联的键值分类标签,从抽取信息中获取与关联的键值分类标签相关的关联真实值;
正则匹配子单元,用于根据关联真实值,通过正则匹配算法,从预设的文本合集中匹配与关联真实值对应的关联正确文本。
可选的是,上述目标文本确定单元包括:
最小编辑距离确定子单元,用于计算待纠错文本与正确候选集中关联正确文本之间的编辑距离,从编辑距离中获取最小编辑距离;
获取子单元,用于当最小编辑距离小于预设阈值时,从正确候选集中关联正确文本中获取目标文本,将目标文本作为纠错后的抽取信息。
可选的是,上述抽取装置50还包括:
构建模块,用于将键值分类标签表示层作为第一分类模型新增的输入向量层,构建第二分类模型。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图6是本发明实施例提供的一种计算机设备的结构示意图。如图6所示,该实施例的计算机设备包括:至少一个处理器(图6中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个图像信息抽取方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图6仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像信息抽取方法,其特征在于,所述抽取方法包括:
提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息;
将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,所述键值分类标签为表征对应文本的位置在所述待识别图像中所属的键值分类;
将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,所述真实值类别标签为表征对应文本的位置在所述待识别图像中所属的真实值分类,所述真实值分类与所述键值分类为一一对应;
根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为所述待识别图像的抽取信息。
2.如权利要求1所述的图像信息抽取方法,其特征在于,所述方法还包括:
基于正则匹配算法,从预设的文本合集中匹配与所述真实值分类中真实值文本对应的正确文本,若匹配失败,将所述真实值分类中真实值文本作为待纠错文本;
对所述待纠错文本进行纠错处理,得到纠错后的抽取信息。
3.如权利要求2所述的图像信息抽取方法,其特征在于,所述对所述待纠错文本进行纠错处理,得到纠错后的抽取信息,包括:
从所述待识别图像中每个文本中获取与所述待纠错文本对应键值关联的键值分类标签;
基于所述关联的键值分类标签对应的关联真实值,从预设的文本合集中匹配与所述关联真实值对应的关联正确文本;
将所述关联正确文本作为所述待纠错文本的正确候选集;
根据预设纠错规则,从所述正确候选集中获取所述待纠错文本对应的目标文本,将所述目标文本作为纠错后的抽取信息。
4.如权利要求3所述的图像信息抽取方法,其特征在于,所述基于所述关联的键值分类标签对应的关联真实值,从预设的文本合集中匹配与所述关联真实值对应的关联正确文本,包括:
根据所述关联的键值分类标签,从所述抽取信息中获取与所述关联的键值分类标签相关的关联真实值;
根据所述关联真实值,通过正则匹配算法,从预设的文本合集中匹配与所述关联真实值对应的关联正确文本。
5.如权利要求3所述的图像信息抽取方法,其特征在于,所述根据预设纠错规则,从所述正确候选集中获取所述待纠错文本对应的目标文本,将所述目标文本作为纠错后的抽取信息,包括:
计算所述待纠错文本与所述正确候选集中关联正确文本之间的编辑距离,从所述编辑距离中获取最小编辑距离;
当所述最小编辑距离小于预设阈值时,从所述正确候选集中所述关联正确文本中获取目标文本,将所述目标文本作为纠错后的抽取信息。
6.如权利要求1所述的图像信息抽取方法,其特征在于,所述提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息,包括:
将所述待识别图像进行预处理,得到标准待识别图像;
利用文本识别技术对标准待识别图像进行文本识别处理,提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息。
7.如权利要求1所述的图像信息抽取方法,其特征在于,所述将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签之前,还包括:
将所述键值分类标签表示层作为所述第一分类模型新增的输入向量层,构建第二分类模型。
8.一种图像信息抽取装置,其特征在于,所述装置包括:
提取模块,用于提取待识别图像中每个文本及对应文本在所述待识别图像中的位置信息;
键值分类标签确定模块,用于将每个文本及其对应的位置信息分别输入第一分类模型,输出对应文本的键值分类标签,所述键值分类标签为表征对应文本的位置在所述待识别图像中所属的键值分类;
真实值类别标签确定模块,用于将每个文本及其对应的位置信息和键值分类标签输入第二分类模型,输出对应文本的真实值类别标签,所述真实值类别标签为表征对应文本的位置在所述待识别图像中所属的真实值分类,所述真实值分类与所述键值分类为一一对应;
待识别图像的抽取信息确定模块,用于根据每个文本的键值分类标签和真实值分类标签,对所有文本进行归类处理,确定归类处理的结果为所述待识别图像的抽取信息。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的图像信息抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像信息抽取方法。
CN202210950619.3A 2022-08-09 2022-08-09 一种图像信息抽取方法、装置、计算机设备及存储介质 Pending CN115294593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210950619.3A CN115294593A (zh) 2022-08-09 2022-08-09 一种图像信息抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210950619.3A CN115294593A (zh) 2022-08-09 2022-08-09 一种图像信息抽取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115294593A true CN115294593A (zh) 2022-11-04

Family

ID=83828974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210950619.3A Pending CN115294593A (zh) 2022-08-09 2022-08-09 一种图像信息抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115294593A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363677A (zh) * 2023-03-28 2023-06-30 浙江海规技术有限公司 复杂背景下身份证识别方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363677A (zh) * 2023-03-28 2023-06-30 浙江海规技术有限公司 复杂背景下身份证识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10482174B1 (en) Systems and methods for identifying form fields
US11514698B2 (en) Intelligent extraction of information from a document
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US20200004765A1 (en) Unstructured data parsing for structured information
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
EP2671190B1 (en) System for data extraction and processing
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
US11379690B2 (en) System to extract information from documents
US11741735B2 (en) Automatically attaching optical character recognition data to images
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114724166A (zh) 一种标题抽取模型的生成方法、装置及电子设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN112464927B (zh) 一种信息提取方法、装置及系统
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
US11335108B2 (en) System and method to recognise characters from an image
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质
US11763589B1 (en) Detection of blanks in documents
US20230140546A1 (en) Randomizing character corrections in a machine learning classification system
CN116844182A (zh) 一种版式自动识别的卡证文字识别方法
CN112069792A (zh) 命名实体识别方法、装置、设备
CN117009595A (zh) 文本段落获取方法及其装置、存储介质、程序产品
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination