CN117911847A - 图片识别方法、装置、电子设备及存储介质 - Google Patents
图片识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117911847A CN117911847A CN202410098504.5A CN202410098504A CN117911847A CN 117911847 A CN117911847 A CN 117911847A CN 202410098504 A CN202410098504 A CN 202410098504A CN 117911847 A CN117911847 A CN 117911847A
- Authority
- CN
- China
- Prior art keywords
- picture
- recognition
- key region
- identified
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 100
- 238000012015 optical character recognition Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/95—Pattern authentication; Markers therefor; Forgery detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及智能识别技术领域,揭露一种图片识别方法,包括:将待识别图片输入识别模型中,识别出待识别图片的图片类别,根据图片类别从识别模型的示例图片库中获取待识别图片对应的示例图片;利用第一识别模块提取示例图片中第一关键区域框的第一特征向量;根据第一关键区域框的坐标信息,在待识别图片中生成与坐标信息相同的第二关键区域框,提取第二关键区域框的第二特征向量;计算第一特征向量和第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用第二识别模块对待识别图片进行OCR识别。本发明能够准确判断待识别图片是否为伪造图片,以确保识别模型识别结果的可靠性。
Description
技术领域
本发明涉及智能识别技术领域,尤其涉及一种图片识别方法、装置、电子设备及存储介质。
背景技术
在金融科技领域中,使用OCR识别模型对用户端上传的身份证件、信用分截图进行识别,能够提高对图片中的文本数据的提取效率。
然而,常有用户通过Photoshop等修图软件,修改上传图片中的某项信息,利用修改后的图片欺骗OCR识别模型,以满足其非法目的的情况发生。
例如,用户通过修改其身份证图片的某项信息,利用修改后的身份证图片向金融企业进行借款或者信用评分,由于OCR识别模型未能识别出该身份证图片的信息被篡改过,容易造成高风险用户伪造的虚假身份信息未被识别。
虽然金融企业可以通过人工方式审核上传图片,来提高OCR识别模型的识别真伪图片的能力,当大量图片需要识别时,由于人工审核效率低和识别效果也不显著,容易造成整个OCR识别过程中出现了效率低和可靠性低的问题。
因此,如何高效地提高OCR识别模型识别真伪图片的能力,是一个亟待解决的问题。
发明内容
鉴于以上内容,有必要提供一种图片识别方法,其目的是能够准确判断待识别图片是否为伪造图片,以确保识别模型识别结果的可靠性。
本发明提供的图片识别方法,包括:
将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
可选的,所述识别模型包括分类模块,所述识别出所述待识别图片的图片类别,包括:
利用训练好的分类模块对所述待识别图片进行分类识别,得到所述待识别图片的图片类别。
可选的,在所述将待识别图片输入预设的识别模型之前,所述方法还包括:
利用预设的局部特征提取算法和预设的相似度算法构建所述第一识别模块;
利用所述第一识别模块和所述第二识别模块构建所述识别模型,所述第二识别模块为OCR识别模块。
可选的,在所述识别出所述待识别图片的图片类别之前,所述方法还包括:
从预设的每种图片类别的图片集中获取至少一张符合预设标准的图片作为示例图片;
对所述示例图片的关键词文本所在的区域标注第一关键区域框,将标注后的示例图片存储至所述示例图片库中。
可选的,所述利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,包括:
获取所述第一关键区域框的每个关键点的第一信息集,所述第一信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第一特征向量。
可选的,所述根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,包括:
将所述第一关键区域框的坐标信息映射到所述待识别图片中,在所述待识别图片中定位出与所述坐标信息相同的第二关键区域框。
可选的,所述提取所述第二关键区域框的第二特征向量,包括:
获取所述第二关键区域框的每个关键点的第二信息集,所述第二信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第二特征向量。
为了解决上述问题,本发明还提供一种图片识别装置,所述装置包括:
获取模块,用于将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
提取模块,用于利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
匹配模块,用于获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
比对模块,用于计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的图片识别程序,所述图片识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述图片识别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图片识别程序,所述图片识别程序可被一个或者多个处理器执行,以实现上述图片识别方法。
相较现有技术,本发明只需要设定好各种类别的示例图片,利用局部特征提取算法和相似度算法作为识别模型的第一识别模块,及将OCR识别模块作为识别模型的第二识别模块,从而构建出一个具有判断真伪图片的识别模型。
从而解决现有的OCR技术未能有效识别高风险用户伪造的虚假身份信息的问题,能够准确判断待识别图片是否为伪造图片,以确保识别模型识别结果的可靠性。
附图说明
图1为本发明一实施例提供的图片识别方法的流程示意图;
图2为本发明一实施例提供的图片识别装置的模块示意图;
图3为本发明一实施例提供的实现图片识别方法的电子设备的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1所示,为本发明一实施例提供的图片识别方法的流程示意图。该方法由电子设备执行。
本实施例中,图片识别方法包括:
S1、将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块。
在本实施例中,待识别图片是指需要进行识别真伪的图片。
识别模型包括前置的第一识别模块和后置的第二识别模块,识别模型具有判断待识别图片是否被伪造或篡改的功能,同时还具有对待识别图片进行OCR文本识别的功能。
示例图片库存储有各种类别的示例图片,例如,图片类别有“护照”、“身份证”、“驾驶证”和“信用分截图”等类别。
示例图片是指用来作为参考或对比的图片。示例图片是具有特定类别标签的图片,其包含了识别模型需要学习和理解的特征。
当用户端上传一张包含文本信息的待识别图片到识别模型中,识别模型利用训练好的分类模块识别待识别图片的图片类别,根据识别得到的图片类别从识别模型的示例图片库中获取待识别图片对应的示例图片。
例如,当识别出待识别图片的图片类别为“身份证”,从示例图片库中查找并提取出身份证的示例图片。
在一个实施例中,所述识别模型包括分类模块,所述识别出所述待识别图片的图片类别,包括:
利用训练好的分类模块对所述待识别图片进行分类识别,得到所述待识别图片的图片类别。
识别模型还包括训练好的分类模块,训练好的分类模块是指一个经过大量带有标签的图片样本训练过的深度学习模型,并且其参数已经被优化到一定程度的模型。分类模块可以根据输入待识别图片的特征,将待识别图片分类到预定义的图片类别中。
例如,利用带有标签的“护照”、“身份证”、“驾驶证”和“信用分截图”等图片样本训练深度学习模型,得到分类模块,利用分类模块识别新输入的待识别图像属于哪个类别,若待识别图像为“身份证”,则分类模块识别对待识别图像的输出类别为“身份证类别”。
在一个实施例中,在所述将待识别图片输入预设的识别模型之前,所述方法还包括:
利用预设的局部特征提取算法和预设的相似度算法构建所述第一识别模块;
利用所述第一识别模块和所述第二识别模块构建所述识别模型,所述第二识别模块为OCR识别模块。
预设的局部特征提取算法可以是SIFT局部特征提取算法,局部特征提取算法能够提取图片在不同尺度下的关键点和描述子,使得提取到的关键点对于图片尺度的变化具有不变性。也就是说,无论待识别图片是在缩放、旋转或稍微变形,其变换的特征仍能被局部特征提取算法准确检测和匹配。
预设的局部特征提取算法还可以是SURF(Speeded-UpRobustFeatures)、ORB(OrientedFASTand Rotated BRIEF)、AKAZE(Accelerated-KAZE)等算法。
预设的相似度算法可以是Jac card算法,相似度算法还可以是余弦相似度算法。
OCR识别模块为Optical Character Recognition光学字符识别模块,OCR识别模块包括一系列算法和程序,用于从图片中提取文字、分析其形状特征,并将其转换为可编辑和搜索的文本数据。
利用预设的局部特征提取算法和预设的相似度算法构建第一识别模块,可以带来以下好处:
1.提高识别精度:局部特征提取算法能够从图片中提取稳定且独特的关键点和描述子信息。由关键点和描述子信息生成的特征对图片的旋转、缩放和光照变化具有一定的不变性,能够帮助识别模型更准确地匹配和识别图片。
2.加快识别速度:局部特征提取算法可以在相对较短的时间内完成特征提取过程。有助于提高整个识别模型的处理效率,尤其是在需要处理大量图片时。
3.适应性强:通过调整局部特征提取算法和相似度算法的参数,能够在低质量或模糊的图像上进行有效的识别。
利用第一识别模块和第二识别模块构建识别模型,可以带来以下好处:
1.提高识别精度:通过将识别任务分解为多个子任务,分别使用不同的识别模块进行处理,可以提高整体的识别精度。例如,在识别模型中,第一识别模块负责提取图片中的关键区域特征,而第二识别模块则负责识别这些特征并将其转换为文本数据。
2.增强鲁棒性:由于识别模型由多个独立的识别模块组成,即使其中一个模块出现故障或性能下降,也不会导致整个系统的崩溃,使得识别系统更加稳定和可靠。
3.提高性能效率:每个识别模块都可以针对特定的任务进行优化,从而提高整体的识别效率。例如,第一识别模块可以通过高效的特征提取算法来减少计算量,而第二识别模块则可以通过深度学习模型来提高识别准确率。
在一个实施例中,在所述识别出所述待识别图片的图片类别之前,所述方法还包括:
从预设的每种图片类别的图片集中获取至少一张符合预设标准的图片作为示例图片;
对所述示例图片的关键词文本所在的区域标注第一关键区域框,将标注后的示例图片存储至所述示例图片库中。
示例图片是指用来作为参考或对比的图片。例如,有“护照”、“身份证”、“驾驶证”和“信用分截图”等多种类别的图片集。
符合预设标准的图片是指从每种图片类别的图片集中筛选一些具有代表性的、能够清晰反映该类别特征的图片作为示例图片。
使用预设标准的图片作为示例图片是非常重要的,因为其直接影响到识别模型的训练效果和最终的识别性能。如果选择的示例图片质量差、不典型或者有误标,那么识别模型很可能会出现过拟合、欠拟合等问题,从而导致识别精度下降。
标注关键区域框是指在示例图片上标注出一个或多个矩形框,这些矩形框能够定位图片中的某个特定区域,如关键词文本或者人脸等。
需要根据具体的任务需求来确定哪些区域是第一关键区域框,例如,识别身份证任务中,将身份证的证件号码、出生日期、住址等关键词文本所在的区域定义为关键区域,用矩形框标出来将其标注出来,以引导识别模型学习其指定的特征。
通过标注关键区域框有以下好处:
1、可以将识别模型的注意力集中在图片中的关键区域框内,从而提高识别精度。例如,在身份证识别任务中,如果只关注包含关键词文本所在的区域,而不是整个图片,那么识别模型能够准确地和快速地识别出关键区域的特征。
2、标注关键区域框可以减少识别模型需要处理的数据量,从而降低计算复杂性和时间成本。
3.标注关键区域框可以改善数据的质量,可以帮助消除噪声和无关信息,从而使识别模型更容易学习到有用的知识。
S2、利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域。
在本实施例中,获取示例图片的处理格式,根据示例图片的处理格式对待识别图片进行格式处理,使待识别图片与示例图片具有相同的处理格式,能够提高识别模型的识别效率。例如,示例图片是HSV的处理格式,而待识别图片是BGR,对待识别图片进行格式处理,使待识别图片和示例图片都处于相同的HSV颜色空间。
提取第一关键区域框的每个关键点的坐标信息和描述子信息,得到第一特征向量。
第一关键区域框为示例图片中的关键词文本所在的区域。例如,识别身份证任务中,将身份证的证件号码、出生日期、住址等关键词文本所在的区域定义为第一关键区域框。第一关键区域框可以根据具体的识别任务来定义,在此并不作限定。
在一个实施例中,所述利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,包括:
获取所述第一关键区域框的每个关键点的第一信息集,所述第一信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第一特征向量。
在一个实施例中,所述提取所述第一关键区域框的每个关键点的第一信息集,包括:
提取所述每个关键点的坐标信息,及提取所述每个关键点的描述子信息;
将所述每个关键点的坐标信息和描述子信息作为所述每个关键点的第一信息集。
关键点是指图片中具有显著特征的特征点。例如,关键点是图片的角点、边缘等的局部特性。
坐标信息是指用来确定一个关键点在图片空间中的位置数据。
描述子信息用于描述一个关键点在第一关键区域框内的局部特性,及用于描述第一关键区域框相邻的区域特征的数据,例如,相邻的区域特征的数据为颜色、纹理、形状、梯度直方图、颜色直方图等。也就是说,一个描述子信息包括两方面信息,一方面是第一关键区域框的角点、边缘等的局部特性等信息,另一方面是相邻区域的颜色、纹理、形状、梯度直方图、颜色直方图等信息,将这两方面信息作为描述子信息并写入第一特征向量中。
利用局部特征提取算法提取第一关键区域框的每个关键点,每个关键点包含有坐标信息和描述子信息。
提取第一关键区域框的每个关键点的坐标信息和描述子信息的特征向量进行拼接,生成第一关键区域的第一特征向量,通过提取第一特征向量实现从示例图片中提取出具有显著的特征,并为后续的匹配和识别任务提供基础数据。
S3、获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量。
在本实施例中,读取示例图片中的第一关键区域框的左上角和右下角的坐标值作为第一关键区域框的坐标信息,将第一关键区域框的坐标信息映射到所述待识别图片中,在待识别图片中生成与坐标信息相同的第二关键区域框。也就是说,将第一关键区域框的坐标信息映射到待识别图片上,以在待识别图片中定位出与示例图片中的第一关键区域框相同的区域大小、方向和位置,从而得到待识别图片的第二关键区域框。
例如,当前是一个身份证识别的任务,在示例身份证图片中,第一关键区域框包括身份证号码、出生日期和住址等至少一种关键词文本的区域。第一关键区域框的坐标信息包括左上角坐标(x1,y1)和右下角坐标(x2,y2),
将坐标信息(x1,y1,x2,y2)从示例身份证图片映射到待识别的身份证图片上,在待识别的身份证图片中生成与示例图片中第一关键区域框相同的位置、大小和方向的第二关键区域框。这个第二关键区域框恰好覆盖住待识别身份证图片中的身份证号码、出生日期和住址等关键词文本所在区域。
提取第二关键区域框的第二特征向量,第二特征向量包含了第二关键区域框的关键点(例如,关键点包括视觉特征,如颜色、纹理、形状等信息)。
第二关键区域框为待识别图片中的关键词文本所在的区域。第二关键区域框为待识别图片中的关键词文本所在的区域。例如,识别身份证任务中,将身份证的证件号码、出生日期、住址等关键词文本所在的区域定义为第二关键区域框。
在待识别图片中生成第二关键区域框,是为了精确地定位出与示例图片中关键词文本所在区域相对应的部分。有助于将识别的焦点集中在包含重要信息的特定区域,而不是整个图片。
第二关键区域框的作用是帮助识别模型在待识别图片中找到与示例图片中关键词文本区域相似的部分,并为后续的图像分析和文本识别提供准确的定位和特征信息。
提取第二关键区域框的每个关键点的坐标信息和描述子信息的特征向量,得到第二特征向量。
根据第一关键区域框的坐标信息,在待识别图片中生成与坐标信息相同的第二关键区域框有以下好处:
1.通过在示例图片中预先确定第一关键区域框的位置和大小,再将第一关键区域框的位置和大小映射到待识别图片上,可以减少对整个图片进行处理的时间和计算资源。
2.通过关注第一和第二关键区域框内的内容,可以降低由于背景噪声或其他无关因素导致的错误率。
3.通过精确地定位第一和第二关键区域框,可以提高对第一和第二关键区域框的关键词文本的识别精度。
在一个实施例中,所述根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,包括:
将所述第一关键区域框的坐标信息映射到所述待识别图片中,在所述待识别图片中定位出与所述坐标信息相同的第二关键区域框。
读取示例图片中的第一关键区域框的左上角和右下角的坐标值作为第一关键区域框的坐标信息,也可以读取示例图片中的第一关键区域框的左下角和右上角的坐标值,或者左右下角和左右上角的坐标值作为第一关键区域框的坐标信息,在此并不作限定。
根据预设的局部特征提取算法,将第一关键区域框的坐标信息映射到待识别图片上,以在待识别图片中定位出与示例图片中的第一关键区域框相同的区域大小、方向和位置,从而得到待识别图片的第二关键区域框。
在一个实施例中,所述局部特征提取算法为:
(kpA,desA)=SIFT(A),(kpB,desB)=SIFT(B)
其中,kpA表示示例图片的关键点,desA表示示例图片的关键点的描述子信息,SIFT(A)表示一个预设的第一函数,SIFT(A)用于接收示例图片作为输入并返回示例图片的关键点集合以及每个关键点的相关描述子信息,
kpB表示待识别图片的关键点,desB表示待识别图片的关键点的描述子信息,SIFT(B)表示一个预设的第二函数,SIFT(B)用于接收待识别图片作为输入并返回待识别图片的关键点集合以及每个关键点的相关描述子信息。
通过比较示例图片与待识别图片之间的关键点集合并计算两者之间的度量值,可以从待识别图片中找出与第一关键区域框的最接近区域,根据这些关键点的位置关系,将最接近区域作为待识别图片上的第二关键区域框,第二关键区域框的大小、方向和位置都与示例图片的第一关键区域框相同。
在一个实施例中,所述提取所述第二关键区域框的第二特征向量,包括:
获取所述第二关键区域框的每个关键点的第二信息集,所述第二信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第二特征向量。
获取第二关键区域框的每个关键点的第二信息集,提取第二信息集内的坐标信息的特征和描述子信息的向量特征进行拼接,生成第二特征向量,从待识别图片中提取出具有显著的特征,并在后续的判断中,通过判断第一特征向量与第二特征向量之间的描述子信息,能够准确得出待识别图片的第二关键区域框的数据,是否发生某种变换或处理操作。
S4、计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
在本实施例中,基于预设的相似度算法计算第一特征向量和第二特征向量之间的相似度,得到相似度结果值,例如,相似度算法可以为Jaccard相似度算法,还可以为余弦相似度算法。
将相似度结果值与预设阈值(例如,预设阈值为0.15)比对,从而帮助判断待识别图片是否被伪造或篡改,若相似度结果值小于或等于预设阈值时,则说明待识别图片的第二关键区域框与示例图片的第一关键区域框之间的距离比较接近,即,待识别图片没有被伪造或篡改。将待识别图片输入第二识别模块中进行OCR识别,得到待识别图片的文本内容。
若相似度结果值大于预设阈值时,则说明待识别图片的第二关键区域框与示例的第一关键区域框之间的距离相差很大,即,待识别图片的第二关键区域的数据被伪造或篡改。根据相似度结果值小于预设阈值的结果,触发停止指令并停止将待识别图片输入第二识别模块中进行OCR识别,以避免识别模型提取到错误/伪造的文本数据。并产生第一提醒消息(你好,识别该图片可能为伪造图片,请留意)发送给后台工作人员,同时还产生第二提醒消息(你好,你提供的图片存在修改痕迹,不符合审核标准,请重新提供图片)反馈至用户端。
在一个实施例中,所述计算所述第一特征向量和所述第二特征向量之间的相似度,包括:
获取所述第一特征向量的第一元素数量,及获取所述第二特征向量的第二元素数量;
根据所述第一元素数量与所述第二元素数量,利用预设的相似度算法计算所述第一特征向量与所述第二特征向量之间的相似度,得到相似度结果值。
在一个实施例中,所述相似度算法为:
其中,J表示相似度结果值,A表示示例图片的第一特征向量,B表示待识别图片的第二特征向量;dj表示第一特征向量和第二特征向量之间的距离。距离越大表示第一特征向量和第二特征向量之间的差异越大,即示例图片与待识别图片相似性越低。
特征向量的元素是组成特征向量的各个分量,各个分量代表关键点的向量及其描述子的向量。也就是说,特征向量的元素是由关键点及其描述子构成的。
关键点是指图片中的某些具有稳定性和唯一性的位置。关键点对于光照、尺度变换或旋转等变化具有一定的不变性。描述子信息用来表示一个关键点的局部特性和该关键点相邻的区域特征的数据。
每个关键点都有一个与其相关的描述子信息,该描述子信息包括两方面信息,一方面是第一关键区域框的角点、边缘等的局部特性等信息,另一方面是相邻区域的颜色、纹理、形状、梯度直方图、颜色直方图等信息。
遍历第一特征向量的所有元素并记录其数量,得到第一特征向量的第一元素数量,及遍历第二特征向量的所有元素并记录其数量,得到第二特征向量的第二元素数量。
根据第一元素数量与第二元素数量,利用预设的相似度算法计算第一和第二特征向量之间的相似度,相当于比对示例图片与待识别图片之间的关键点(角点、边缘等)的局部特性等信息、及该关键点的相邻区域的颜色、纹理、形状、梯度直方图、颜色直方图等信息,得到相似度结果值。通过将相似度结果值与预设阈值之间的比对,可以识别出待识别图片是否被伪造或篡改。
在步骤S1-S4中,本发明不需要获取大量的训练图集训练识别模型,本发明只需要设定好各种类别的示例图片,利用局部特征提取算法和相似度算法作为识别模型的第一识别模块,及将OCR识别模块作为识别模型的第二识别模块,构建出一个具有判断真伪图片的识别模型/系统,从而解决现有的OCR技术未能有效识别高风险用户伪造的虚假身份信息的问题。
如图2所示,为本发明一实施例提供的图片识别装置的模块示意图。
本发明所述图片识别装置100可以安装于电子设备中。根据实现的功能,所述图片识别装置100可以包括获取模块110、提取模块120、匹配模块130及比对模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
提取模块120,用于利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
匹配模块130,用于获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
比对模块140,用于计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
在一个实施例中,所述识别模型包括分类模块,所述识别出所述待识别图片的图片类别,包括:
利用训练好的分类模块对所述待识别图片进行分类识别,得到所述待识别图片的图片类别。
在一个实施例中,在所述将待识别图片输入预设的识别模型之前,所述方法还包括:
利用预设的局部特征提取算法和预设的相似度算法构建所述第一识别模块;
利用所述第一识别模块和所述第二识别模块构建所述识别模型,所述第二识别模块为OCR识别模块。
在一个实施例中,在所述识别出所述待识别图片的图片类别之前,所述方法还包括:
从预设的每种图片类别的图片集中获取至少一张符合预设标准的图片作为示例图片;
对所述示例图片的关键词文本所在的区域标注第一关键区域框,将标注后的示例图片存储至所述示例图片库中。
在一个实施例中,所述利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,包括:
获取所述第一关键区域框的每个关键点的第一信息集,所述第一信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第一特征向量。
在一个实施例中,所述根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,包括:
将所述第一关键区域框的坐标信息映射到所述待识别图片中,在所述待识别图片中定位出与所述坐标信息相同的第二关键区域框。
在一个实施例中,所述提取所述第二关键区域框的第二特征向量,包括:
获取所述第二关键区域框的每个关键点的第二信息集,所述第二信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第二特征向量。
如图3所示,为本发明一实施例提供的实现图片识别方法的电子设备的结构示意图。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有图片识别程序10,所述图片识别程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及图片识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的图片识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行图片识别程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的图片识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
具体地,所述处理器12对上述图片识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有图片识别程序10,所述图片识别程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述图片识别方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种图片识别方法,其特征在于,所述方法包括:
将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
2.如权利要求1所述的图片识别方法,其特征在于,所述识别模型包括分类模块,所述识别出所述待识别图片的图片类别,包括:
利用训练好的分类模块对所述待识别图片进行分类识别,得到所述待识别图片的图片类别。
3.如权利要求1所述的图片识别方法,其特征在于,在所述将待识别图片输入预设的识别模型之前,所述方法还包括:
利用预设的局部特征提取算法和预设的相似度算法构建所述第一识别模块;
利用所述第一识别模块和所述第二识别模块构建所述识别模型,所述第二识别模块为OCR识别模块。
4.如权利要求1所述的图片识别方法,其特征在于,在所述识别出所述待识别图片的图片类别之前,所述方法还包括:
从预设的每种图片类别的图片集中获取至少一张符合预设标准的图片作为示例图片;
对所述示例图片的关键词文本所在的区域标注第一关键区域框,将标注后的示例图片存储至所述示例图片库中。
5.如权利要求1所述的图片识别方法,其特征在于,所述利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,包括:
获取所述第一关键区域框的每个关键点的第一信息集,所述第一信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第一特征向量。
6.如权利要求1所述的图片识别方法,其特征在于,所述根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,包括:
将所述第一关键区域框的坐标信息映射到所述待识别图片中,在所述待识别图片中定位出与所述坐标信息相同的第二关键区域框。
7.如权利要求1所述的图片识别方法,其特征在于,所述提取所述第二关键区域框的第二特征向量,包括:
获取所述第二关键区域框的每个关键点的第二信息集,所述第二信息集包括坐标信息和描述子信息;
提取所述坐标信息的特征向量和所述描述子信息的特征向量进行拼接,生成所述第二特征向量。
8.一种图片识别装置,其特征在于,所述装置包括:
获取模块,用于将待识别图片输入预设的识别模型中,识别出所述待识别图片的图片类别,根据所述图片类别从所述识别模型的示例图片库中获取所述待识别图片对应的示例图片,所述识别模型包括第一识别模块和第二识别模块;
提取模块,用于利用所述第一识别模块提取所述示例图片中第一关键区域框的第一特征向量,所述第一关键区域框用于定位所述示例图片中的关键词文本所在的区域;
匹配模块,用于获取所述第一关键区域框在所述示例图片中的坐标信息,根据所述第一关键区域框的坐标信息,在所述待识别图片中生成与所述坐标信息相同的第二关键区域框,提取所述第二关键区域框的第二特征向量;
比对模块,用于计算所述第一特征向量和所述第二特征向量之间的相似度,若相似度结果值大于或者等于预设阈值,则利用所述第二识别模块对所述待识别图片进行OCR识别。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的图片识别程序,所述图片识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的图片识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图片识别程序,所述图片识别程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的图片识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410098504.5A CN117911847A (zh) | 2024-01-23 | 2024-01-23 | 图片识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410098504.5A CN117911847A (zh) | 2024-01-23 | 2024-01-23 | 图片识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117911847A true CN117911847A (zh) | 2024-04-19 |
Family
ID=90685095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410098504.5A Pending CN117911847A (zh) | 2024-01-23 | 2024-01-23 | 图片识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117911847A (zh) |
-
2024
- 2024-01-23 CN CN202410098504.5A patent/CN117911847A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US10943105B2 (en) | Document field detection and parsing | |
US10140511B2 (en) | Building classification and extraction models based on electronic forms | |
Gonçalves et al. | Benchmark for license plate character segmentation | |
Yi et al. | Scene text recognition in mobile applications by character descriptor and structure configuration | |
Wang et al. | Word spotting in the wild | |
US6996295B2 (en) | Automatic document reading system for technical drawings | |
US20190362193A1 (en) | Eyeglass positioning method, apparatus and storage medium | |
WO2019061661A1 (zh) | 图像篡改检测方法、电子装置及可读存储介质 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
CN113673500A (zh) | 证件图像识别方法、装置、电子设备及存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
Fatema et al. | Developing a system for automatic detection of books | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
Shahin et al. | Machine-based identification system via optical character recognition | |
CN114359928B (zh) | 一种电子发票识别方法、装置、计算机设备及存储介质 | |
CN117911847A (zh) | 图片识别方法、装置、电子设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
Shahin et al. | Deploying Optical Character Recognition to Improve Material Handling and Processing | |
CN114443834A (zh) | 一种证照信息提取的方法、装置及存储介质 | |
CN112418265A (zh) | 一种标签检测方法、装置及存储介质 | |
CN114202761B (zh) | 一种基于图片信息聚类的信息批量提取方法 | |
Umatia et al. | Text Recognition from Images | |
Bharadwaj et al. | Web Application Based on Optical Character Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |