CN113537199B - 图像边界框筛选方法、系统、电子装置及介质 - Google Patents

图像边界框筛选方法、系统、电子装置及介质 Download PDF

Info

Publication number
CN113537199B
CN113537199B CN202110933008.3A CN202110933008A CN113537199B CN 113537199 B CN113537199 B CN 113537199B CN 202110933008 A CN202110933008 A CN 202110933008A CN 113537199 B CN113537199 B CN 113537199B
Authority
CN
China
Prior art keywords
target
bounding box
pictures
screening
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110933008.3A
Other languages
English (en)
Other versions
CN113537199A (zh
Inventor
王守一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202110933008.3A priority Critical patent/CN113537199B/zh
Publication of CN113537199A publication Critical patent/CN113537199A/zh
Application granted granted Critical
Publication of CN113537199B publication Critical patent/CN113537199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及图像处理领域,针对构建边框筛选条件质量差效率低、筛选效率和准确率低等缺陷,提出了本发明的图像边界框筛选方法、系统、装置及介质,旨在解决如何高效自动准确筛选边界框的技术问题。为此,本发明的方法主要通过对目标图片的图像识别处理,获得一个或多个目标边界框,并记录少量目标边界框中的数据,进而将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框。由此通过实际边界框动态构建筛选条件,筛选更合理、便捷、准确。

Description

图像边界框筛选方法、系统、电子装置及介质
技术领域
本发明涉及图像处理领域,具体而言,涉及一种图像边界框筛选方法、系统、装置及介质。
背景技术
在各种业务平台涉及数据、人员等的风险控制需求环境或者说风控场景里,经常需要从视频等图像影像中提取特定的文本信息(比如姓名、年龄等),供风控使用。而一般这些信息在不同的具体应用场景里,例如视频里的不同的图片中,因而需要从特定的图片里提取这些信息。而现有技术中,从监控视频、图像/图片等影像类中获取这些特定的图片的方式是通过通过目标检测算法从这些影像类的图像帧/图片帧中,获得许多大大小小的边界框,并且,需要提取特定的边界框中的文本信息。但是,由于检测出的边界框非常多且由于不同视频中获取到的所需边界框的大小也不一样,现有技术大多通过:定向训练仅有所需边界框的模型、手动设置筛选条件来获取所需边界框这两种方式来找到所需字段。而第一种方式需要耗费大量的人力;第二种方式虽然相对便捷,但手动设置的筛选条件准确度不够高,容易出现没有考虑到的异常情况。
因而针对上述两种方式的弊端,需要改进筛选边界框的方式,更便捷、更准确地获得边界框、进而提取文本信息。
发明内容
针对现有技术中的上述缺陷,本发明提供了一种图像边界框筛选方法、系统、装置及介质的技术方案,旨在解决如何实现图像的边界框的自动筛选的技术问题;进一步,解决如何高效、便捷、更准确地自动筛选边界框的技术问题,以避免现有筛选方式人力成本过高、准确度不够等情况。
为了解决上述技术问题,本发明第一方面提出一种图像边界框筛选方法,包括:基于对目标图片的图像识别处理,获得一个或多个目标边界框;记录至少预设数量的所述目标图片所对应的目标边界框中的数据;将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框。
优选地,基于对目标图片的图像识别处理,获得一个或多个目标边界框,具体包括:根据图像分类模型进行图像分类,以获得一个或多个目标图片集合;基于图像识别和目标检测算法,对所述每个目标图片集合中的图片进行识别和检测,以获得对应每个目标图片的一个或多个目标边界框。
优选地,所述图像分类模型至少包括:基于深度学习的通用图像分类模型;和/或,所述图像识别至少包括:图片的文本信息识别以及对应所述图片的文本信息识别的置信度;和/或,所述目标检测算法至少包括:基于深度学习的R-CNN算法或YOLO算法;和/或,所述目标边界框至少包括边界框的坐标数据。
优选地,记录少量所述目标图片所对应的目标边界框中的数据,具体包括:从所述目标图片集合中抽取少量目标图片;将少量所述目标图片所对应的一个或多个目标边界框的坐标数据进行记录,存储记录的坐标数据。
优选地,将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框,具体包括:根据记录了数据的目标边界框的坐标数据确定筛选用的每个角的坐标位置的最大值和最小值范围,形成筛选目标边界框的大小范围;从获得的一个或多个目标边界框中提取每个目标边界框的每个角的坐标位置的坐标数据;将每个目标边界框的每个角的坐标位置的坐标数据分别与对应的筛选用的每个角的坐标位置的大小范围进行比较,以筛选出优选的边界框。
优选地,将每个目标边界框的每个角的坐标位置的坐标数据分别与对应的筛选用的每个角的坐标位置的大小范围进行比较,以筛选出优选的边界框,具体包括:如果每个角的坐标位置的坐标数据都在对应的筛选用的角的坐标位置的所述大小范围内,则符合条件,将相应的目标边界框作为优选边界框;否则滤掉相应的目标边界框。
优选地,还包括:获取筛选出的优选的目标边界框对应的目标图片在识别时的文本信息的置信度,以确定最优的目标边界框,并获取所述最优的目标边界框对应的目标图片的文本信息。
为了解决上述技术问题,本发明第二方面提出一种图像边界框筛选系统,包括:边界框获取模块,用于基于对目标图片的图像识别处理,获得一个或多个目标边界框;记录模块,用于记录至少预设数量的所述目标图片所对应的目标边界框中的数据;筛选模块,用于将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框。
为了解决上述技术问题,本发明第三方面提出一种电子装置,其包括处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第一方面提出的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读介质,该所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现第一方面提出的方法。
本发明的一个实施例,通过对目标图片识别检测获并抽取少量记录少量目标图片目标边界框中的字段,将边界框大小在边界框最大值和最小值之间遍历后的结果和记录的字段比较,筛选准确率最高的边界框。由此,不需要人为手动设定筛选边界框的条件而根据实际的边界框情况动态变化、自动筛选,效率高;进而,该筛选条件是动态匹配相应实际获得的边界框的情况,其简单高效、且更准确,无需依赖人力过多干预,以及避免了人力成本过高、筛选条件不准确导致的筛选结果不准确等缺陷。
进一步,其使用遍历算法对比从不同大小目标边界框获得的所需字段的准确率,从而自动化筛选出最优大小的边界框,克服了不易获取所需边界框的困难,在保证准确率的基础上,节省了大量人力资源。
进一步,其并不对各种目标检测算法做改进而是在筛选过程中进行改进,简单容易实现,能够与各种目标检测算法匹配使用,可扩展性强,能够适应更多的图像识别、图像数据处理场景,并且提升数据处理、识别的效率和准确性。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据本发明的图像边界框筛选方法的一个实施例的主要流程图;
图2是根据本发明的图像边界框筛选系统的一个实施例的结构框图;
图3是根据本发明的一种电子装置的一个示例性实施例的结构框图;
图4是根据本发明的一个计算机可读介质的一个逻辑示例性的实施例的示意图;
图5是根据本发明的技术方案在一个应用场景下的原理示例图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明的技术方案主要实现目标图片中检测到的诸多边界框的自动、准确的筛选,匹配实际对应的图片的状态,便捷、效率高且准确。
参见图5所示的风控场景下对特定文本信息提取而进行的图像处理筛选边界框的原理。
1、根据已有分类模型对图片进行分类,获得目标图片集合。
2、对目标图片进行识别和检测。
3、抽取少量目标图片(例如50张),记录目标边界框中的字段。
4、将边界框的大小在第3步中边界框的最大值和最小值之间进行遍历,并将获得的数据结果与第3步所记录的数据结果进行比较,筛选出准确率最高的边界框即最优的边界框。
5、使用准确率最高的边界框,识别该边界框中的文本信息,获取所需字段。
下面对本发明涉及的部分技术名词进行说明:
边界框:目标检测算法所获得的一个矩形框,可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。
【实施例1】
下面结合图1所示的根据本发明的方法的一个实施例的主要流程图,对本发明的图像边界框自动筛选的实现过程进行说明。该实施例中,主要通过少量边界框确定范围和记录数据、将获取的边界框的大小在该范围内遍历并对比数据,确定最优大小的边界框,由此非人工定义特征筛选边界框,能自动筛选、并且效率高、筛选结果更准确。
步骤S110,基于对目标图片的图像识别处理,获得一个或多个目标边界框。
一个实施方式中,可以根据图像分类模型进行图像分类,以获得目标图片集合;基于图像识别和目标检测算法,对所述目标图片集合中的图片进行识别和检测,以获得对应目标图片的一个或多个目标边界框。
进一步,在风控场景里,经常需要从视频中提取特定的文本信息(比如姓名等),供风控使用。一般这些信息在不同的风控场景里出现,即多个目标视频里不同的图片中,需要从每个视频的特定的图片里提取这些信息,即需要识别这些图片或者说对这些图片进行图片分类,确定其分类或者说类别,确定其是否为需要的图片。比如,可以将一拍摄的视频影像存储,提取出多帧图像,对这些图像可以进行分类处理以找出需要后续识别处理的图像。由分类算法获得分类后的图像,如一张或多张图片即目标图片。这些图片形成一个或多个集合即目标图片集合。又比如,从视频中获取特定图片可以通过使用图片分类模型例如CNN等对视频每一帧所获得的图片进行分类,这种方式准确率较高。
进一步,利用图像识别处理,如包括图像识别算法和目标检测算法等,可以对目标图片集合中的所有图片进行图像识别和目标检测,例如:可以识别文本信息部分、图像特征等等,以及可以检测每个集合中的图片中的各种大小的目标边界框等。进而从这些目标边界框中筛选出最优的,最符合需求(例如最终识别框中的信息是最准确最有用)的一个或多个边界框。这些目标边界框至少包括边界框的各个角所在位置的坐标,以矩形框为例,包括矩形坐标(左上角x、y坐标和右下角x、y坐标)。进而,在识别中可以获得相应图片上的文本信息,甚至更具体地获得图片上边界框内的文本信息/文本或文字内容等。以便通过确定了最优的目标边界框后提取相应需要的文本、图内容等信息。
进一步,所述图像分类模型至少包括:基于深度学习的通用图像分类模型。例如:VGG16、VGG19、InceptionV3、ZF_Net、ResNet18、CNN等等,图像分类算法。通过图像分类算法可以获得每帧图像作为目标图片,也可以直接获得分割后的目标图片作为识别结果(例如基于深度学习的分类算法)。
进一步,所述图像识别算法至少包括:图片的文本信息识别(文字、字符等)、物体识别(背景、灰度等)等等图像识别算法。例如:模版匹配算法、模式识别算法,以及以各种图像分割算法为前提的基于深度学习的图像分类算法进行识别。若采用基于深度学习的图像分类算法,一般可以获得每帧图像分割后识别的目标图片。
其中,所述目标检测算法至少包括:基于深度学习的R-CNN算法或YOLO算法等等。例如:基于静态或动态图片的目标检测,帧间差分法、背景建模法、点检测法、图像分割法、聚类分析法和运动矢量场法等等。由检测算法获得一系列目标图片上的边界框,即目标边界框。
进一步,在执行图像识别算法、检测算法后除了可以输出相应识别、检测的图片的文本信息、文字内容等,还可以输出从这些图片识别、检测的这些文本信息、文字内容等对应的置信度,例如:可信程度的高低分数、概率、范围等。
上述各种算法均可以采用已有的分类、识别和检查算法,在此不再赘述。
由此,自动识别处理快速获得需要的筛选的边界框,效率高、识别准确度高。
步骤S120,记录至少预设数量的所述目标图片所对应的目标边界框中的数据。
一个实施方式中,从所述目标图片集合中抽取至少预设数量的目标图片;将这些所述目标图片所对应的目标边界框中的数据进行记录,存储记录的数据结果。其中,至少预设数量表示少量,具体表示为小于总数量一半的数量,例如:当实际应用场景下分类、识别检测处理后得到的某一个目标图片集合i中,图片总数量为Sumi,该“少量”即预设数量可以是根据实际需求动态设定的一个数量,并保证设定的该数量必须小于Sumi/2,即不到总数量的一半。这里,i为大于等于0的自然数,表示个数。由此,可以动态设定数量,且根据需要或实际情况,设定更少数量来构建筛选条件,能进一步提升效率。
例如:多个目标图片集合中,选择集合1,该集合1中是车辆监控识别的正面图A1、A2、A3……A200,抽取少量目标图片即正面图片例如30张、50张等,按顺序或随机抽取,在每个目标图片上都有1个或多个目标边界框,例如可以得到大于等于30或50个的边界框,并记录这些目标边界框中的数据。例如,最简单的记录方式可以包括:只需要记录这些边界框的坐标数据即可(可以不需要记录边界框的其他内容,进一步提升筛选条件确定效率)。具体如,从该目标图片集合中提取较为少量的图片假设50张目标图片,这些少量的目标图片,每个都对应有一个或多个边界框,假设50张目标图片则具有等于或大于50个的目标边界框,这样,对这些同样相对少量的目标边界框的坐标数据进行记录,该记录的坐标数据既能体现每个边界框的位置也能体现每个边界框的大小。
其中,以边界框为四边形(包括但不限于矩形/长方形、正方形、菱形、平行四边形等)为例,可以记录左上角和右下角的坐标、或者、记录每个角的坐标等,坐标数据主要可以是边界框每个角所在位置的x、y轴的xy坐标数据。具体地,A1图片上有边界框a1坐标数据:左上角xy坐标(80,150)、右上角坐标(120,150)、左下角(80,100)、右下角(120,100);有边界框a2坐标数据:左上角(85,160)、右上角(110,160)、左下角(85,110)、右下角(110,160);等等。这些少量的目标边界框的坐标数据均可以根据实际场景需求,进行记录,作为对应各个目标边界框的字段信息,进而以此为基础构建筛选条件。
由此,以实际应用场景下识别处理后检测的同一个集合内的图片中相对更少的数据量的图片及其对应目标边界框为基础,根据边界框的角(即顶点)所在位置坐标即可以动态建立筛选条件,能进一步提升自动处理筛选的效率,即需要处理的数据量减少、筛选条件依据实际场景下边界框坐标数据的变化来动态确定;同时,又符合实际应用场景实际检测识别的目标对象的情形,与实际需求更匹配,进一步提升了筛选条件的正确性和筛选准确程度。
步骤S130,将获得的一个或多个目标边界框在根据记录了数据的目标边界框所确定的最大值和最小值范围(大小范围)之间进行遍历,以筛选出优选的边界框。
一个实施方式中,根据记录的字段信息例如前述记录的目标边界框的坐标数据,确定了最大值和最小值范围,具体例如确定边界框的每个角的位置的最大值和最小值的范围。以目标边界框是矩形/长方形为例,可以是指矩形框的最大值和最小值。再通过遍历算法,将获得的一个或多个目标边界框(例如该目标图片集合1里的所有目标边界框),通过获取每个目标边界框的数据结果/字段(优选例如:边界框大小或者说边界框的每个位置的坐标数据),与记录的数据所分析的结果进行比较(优选例如:在所述最大值和最值范围之间进行遍历),得到优选的边界框结果。
一个实施方式中,假设目标边界框是矩形框,并且,每个目标边界框的四个坐标数据都有记录,由此确定目标边界框的最大值和最小值范围。例如:根据记录的字段信息即坐标数据,确定了目标边界框在图片的四个坐标位置范围为:左上角(80-90,150-160),右上角(110-120,150-160),左下角(80-90,100-110),右下角(110-120,100-110),即该例子中,能够确定矩形框的最大值坐标数据为:左上角(90,160)、右上角(120,160)、左下角(90,110)、右下角(120,110)等,而能够确定矩形框的最小值坐标数据依前述位置顺序分别为:(80,150)、(110,150)、(80,100)、(110,100)等,从而该最大值和最小值范围之间即每个角位置的范围左上角(80-90,150-160),右上角(110-120,150-160),左下角(80-90,100-110),右下角(110-120,100-110)。由此,根据记录了数据的目标边界框确定了后续进行遍历的最大值和最小值范围。
一个实施方式中,可以通过遍历算法将该目标图片集合比如集合1中的所有目标边界框(包括没有记录过数据的其他目标边界框)在该最大值和最小值范围中进行遍历。将所有边界框的坐标数据与之前选定/确定好的坐标最大值和最小值范围进行比较,如果在目标边界框的坐标数据大小范围内,则符合要求,否则就过滤掉。
例如:最简单的一种方式可以通过一个比较算法对集合1中的所有目标边界框的坐标数据与前述定好的最大值和最小值范围的坐标数据进行比较,具体如:矩形的边界框an的左上角、右上角、左下角、右下角的坐标分别与前述确定的左上角、右上角、左下角、右下角的坐标范围(如前述左上角(80-90,150-160),右上角(110-120,150-160),左下角(80-90,100-110),右下角(110-120,100-110)),进行比较,如果an的每个角都在该范围内,则符合要求,筛选出来备用,如果an的任一个角不在该范围内就滤掉,筛选出去。其中,an可以为非少量的50张目标图片中的目标边界框,即未记录过坐标数据的边界框中的一个,n表示大于等于0的自然数,表示第n个
进一步,集合1中200张图片,至少预设/设定数量即少量目标图片为50张,假定每张图片有一个边界框即50个目标边界框,假设为边界框a1至a50,记录了坐标数据,由此确定了最大值和最小值范围即大小范围:比如四边形边界框,优选的如矩形的四个角中每个角的坐标最大值和最小值形成的范围即需要遍历该集合中所有目标边界框的范围。进一步,将集合1中所有的目标边界框a1至a200的四个角的坐标数据分别在对应的角的大小范围内(最大值和最小值范围之间)进行比较,即在构建的筛选条件(每个角的坐标位置所确定的大小范围)遍历这200个边界框,实现坐标数据或者说字段信息的比较,筛选出合适的边界框,假设筛选出的优选的目标边界框为a1至a60。
上述例子仅为举例说明实现方式,并不作为对遍历方式的限定。
由此遍历方式,对需要的最优的边界框实现了自动筛选、效率高且更准确。
步骤S140,获取筛选出的优选的目标边界框对应的目标图片在识别时的文本信息的置信度,以确定最优的目标边界框,并获取所述最优的目标边界框对应的目标图片的文本信息。
一个实施方式中,从筛选出的优选的目标边界框中,进一步筛选出准确率最高的边界框。具体可以根据每个优选的目标边界框对应的目标图片在图像识别时输出的获得文本信息/文本内容的置信度来筛选出准确率最高(例如置信度最高)的边界框,作为最优的准确率最高的目标边界框。即在筛选过的边界框中再次通过置信度实现准确率筛选,确定最优对象,效率更高也更准确。从而,在保证筛选准确率的基础上节省了大量的人力资源。
一个实施方式中,对最优的边界框所对应的文本信息进行识别或者说提取,获得对应文本信息的字段。例如:将筛选出的最优的目标边界框中的文本信息/文本内容提取出来即得到其具体内容,从而实现最终的需要的特定文本信息的提取,如风控场景下的特定文本信息提取。
一个应用的例子如:某支付软件APP的身份证页面,由于用户会停留约3秒,因此会获得并分割出3张类似的图片。在深度学习算法中,可以将三张图片为目标图片,并分为一类即同一个集合中。对这三张图片进行识别时,除了输出边界框(包括边界框的坐标数据)和对应图片的文本内容,还会输出该本文内容的置信度即三个置信度。对于这三张图片,前述筛选条件即记录少量边界框的坐标数据所确定的大小范围,筛选出合适的目标边界框即优选的目标边界框后,再选择这些边界框对应的图片的三个置信度最高的那个文本内容,作为最后的需要获得的结果,如果已经获取过则对应提取即可,如果未获取过则可以在此获取。
该方式准确确定最优的边界框并获得对应置信度相对最高的图片的文本信息/文本内容/文字内容等,进一步提升筛选效率和准确率以及获取文本的效率,例如根据识别时已经提取的对应的文本内容直接提取等。
【实施例2】
下面结合应用到风控场景中,本发明的系统实现的一个例子,进行说明。通常,在风控场景里,经常需要从视频中提取特定的文本信息(比如姓名等),供风控使用。参见图2所示的本发明的系统的一个实施例的结构框图。
边界框获取模块110,用于基于对目标图片的图像识别处理,获得一个或多个目标边界框;具体功能参见步骤S110的具体内容,在此不再赘述。
记录模块120,用于记录至少预设数量的所述目标图片所对应的目标边界框中的数据。具体功能参见步骤S120的具体步骤和内容,在此不再赘述。
筛选模块130,用于将获得的一个或多个目标边界框在记录了数据的目标边界框的最大值和最小值之间进行遍历,以筛选出最优的边界框。具体功能参见步骤S130的具体内容,在此不再赘述。
特征获取模块140,用于对最优的边界框中的文本信息进行识别,以获取对应文本信息的字段。具体功能参见步骤S140的具体内容,在此不再赘述。
【实施例3】
具体地,还包括一种电子装置的一个实施例,其包括处理器以及存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被执行时使所述处理器执行如前述实施例中涉及的本发明的方法的实施例步骤。
下面描述本发明的电子装置的一个实施例,该电子装置可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子装置的该实施例中描述的细节,应视为对于上述方法或装置/系统的实施例的补充;对于在本发明电子装置的实施例中未披露的细节,可以参照上述方法或装置/系统实施例来实现。
图3是根据本发明的一种电子装置的示例性实施例的结构框图。图3显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,该示例性实施例的电子装置200以通用数据处理设备的形式表现。电子装置200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行前述实施例1至2的方法的各个步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子装置200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子装置200交互,和/或使得该电子装置200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,电子设备200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
【实施例4】
具体地,还包括一种计算机可读介质,所述计算机可读介质存储一个或多个程序,其中,当所述一个或多个程序被处理器执行时,实现前述实施例中涉及本发明的方法的实施例步骤。
图4是本发明的一个计算机可读介质实施例的示意图。如图4所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:服务端提供的配置服务管理,生成与域名相关的配置文件;当请求业务服务期间出现域名故障时,客户端通过根据所述配置文件进行的配置更新以实现域名访问的自动切换。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、系统、电子装置或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种图像边界框筛选方法,其特征在于,包括:
基于对目标图片集合中的目标图片的图像识别处理,获得一个或多个目标边界框;
记录至少预设数量的所述目标图片所对应的目标边界框中的数据,包括:将至少预设数量的所述目标图片所对应的一个或多个目标边界框的坐标数据进行记录,存储记录的坐标数据;
其中,至少预设数量的所述目标图片包括从一所述目标图片集合中抽取至少预设数量的所述目标图片,并且,所述至少预设数量表示小于所述目标图片集合中的目标图片总数量的一半的少量目标图片的数量,由此动态设定需要的目标图片的数量以记录相对少量的目标边界框中的数据;以及,其中,记录的所述目标边界框中的数据作为目标边界框的字段信息;
将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框,包括:根据记录了数据的目标边界框的坐标数据确定筛选用的每个角的坐标位置的最大值和最小值范围,形成筛选目标边界框的大小范围;从获得的所有一个或多个目标边界框中提取每个目标边界框的每个角的坐标位置的坐标数据;将每个目标边界框的每个角的坐标位置的坐标数据分别与对应的筛选用的每个角的坐标位置的所述大小范围进行比较,以筛选出优选的边界框;
其中,所述获得的一个或多个目标边界框为从所述目标图片集合中获得的所有的一个或多个目标边界框。
2.如权利要求1所述的方法,其特征在于,基于对目标图片集合中的目标图片的图像识别处理,获得一个或多个目标边界框,具体包括:
根据图像分类模型进行图像分类,以获得一个或多个目标图片集合;
基于图像识别和目标检测算法,对每个所述目标图片集合中的图片进行识别和检测,以获得每个集合中对应每个目标图片的一个或多个目标边界框。
3.如权利要求2所述的方法,其特征在于,
所述图像分类模型至少包括:基于深度学习的通用图像分类模型;
和/或,
所述图像识别至少包括:图片的文本信息识别以及对应所述图片的文本信息识别的置信度;
和/或,
所述目标检测算法至少包括:基于深度学习的R-CNN算法或YOLO算法;
和/或,
所述目标边界框至少包括边界框的坐标数据。
4.如权利要求3所述的方法,其特征在于,将每个目标边界框的每个角的坐标位置的坐标数据分别与对应的筛选用的每个角的坐标位置的所述大小范围进行比较,以筛选出优选的边界框,具体包括:
如果每个角的坐标位置的坐标数据都在对应的筛选用的角的坐标位置的所述大小范围内,则符合条件,将相应的目标边界框作为优选边界框;
否则滤掉相应的目标边界框。
5.如权利要求1至4任一项所述的方法,其特征在于,还包括:
获取筛选出的优选的目标边界框对应的目标图片在识别时的文本信息的置信度,以确定最优的目标边界框,并获取所述最优的目标边界框对应的目标图片的文本信息。
6.一种图像边界框筛选系统,其特征在于,包括:
边界框获取模块,用于基于对目标图片集合中的目标图片的图像识别处理,获得一个或多个目标边界框;
记录模块,用于记录至少预设数量的所述目标图片所对应的目标边界框中的数据,包括:将至少预设数量的所述目标图片所对应的一个或多个目标边界框的坐标数据进行记录,存储记录的坐标数据;其中,至少预设数量的所述目标图片包括从一所述目标图片集合中抽取至少预设数量的所述目标图片,并且,所述至少预设数量表示小于所述目标图片集合中的目标图片总数量的一半的少量目标图片的数量,由此动态设定需要的目标图片的数量以记录相对少量的目标边界框中的数据;其中,记录的所述目标边界框中的数据作为目标边界框的字段信息;
筛选模块,用于将获得的一个或多个目标边界框在记录了数据的目标边界框所确定的大小范围之间进行遍历,以筛选出优选的边界框,包括:根据记录了数据的目标边界框的坐标数据确定筛选用的每个角的坐标位置的最大值和最小值范围,形成筛选目标边界框的大小范围;从获得的所有一个或多个目标边界框中提取每个目标边界框的每个角的坐标位置的坐标数据;将每个目标边界框的每个角的坐标位置的坐标数据分别与对应的筛选用的每个角的坐标位置的所述大小范围进行比较,以筛选出优选的边界框;其中,所述获得的一个或多个目标边界框为从所述目标图片集合中获得的所有的一个或多个目标边界框。
7.一种电子装置,包括处理器以及存储计算机可执行指令的存储器,其特征在于,所述计算机可执行指令在被执行时使所述处理器执行如权利要求1至5任一项所述的方法。
8.一种计算机可读介质,其特征在于,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1至5任一项所述的方法。
CN202110933008.3A 2021-08-13 2021-08-13 图像边界框筛选方法、系统、电子装置及介质 Active CN113537199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110933008.3A CN113537199B (zh) 2021-08-13 2021-08-13 图像边界框筛选方法、系统、电子装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110933008.3A CN113537199B (zh) 2021-08-13 2021-08-13 图像边界框筛选方法、系统、电子装置及介质

Publications (2)

Publication Number Publication Date
CN113537199A CN113537199A (zh) 2021-10-22
CN113537199B true CN113537199B (zh) 2023-05-02

Family

ID=78091570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110933008.3A Active CN113537199B (zh) 2021-08-13 2021-08-13 图像边界框筛选方法、系统、电子装置及介质

Country Status (1)

Country Link
CN (1) CN113537199B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950543A (zh) * 2019-05-14 2020-11-17 北京京东尚科信息技术有限公司 一种目标检测方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021848B (zh) * 2016-11-03 2021-06-01 浙江宇视科技有限公司 客流量统计方法及装置
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN112507782A (zh) * 2020-10-22 2021-03-16 广东省电信规划设计院有限公司 文本图像的识别方法及装置
CN112288716B (zh) * 2020-10-28 2023-10-27 中冶赛迪信息技术(重庆)有限公司 一种钢卷打捆状态检测方法、系统、终端及介质
CN113033441A (zh) * 2021-03-31 2021-06-25 广州敏视数码科技有限公司 一种基于广角成像的行人碰撞预警方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950543A (zh) * 2019-05-14 2020-11-17 北京京东尚科信息技术有限公司 一种目标检测方法和装置

Also Published As

Publication number Publication date
CN113537199A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US9235759B2 (en) Detecting text using stroke width based text detection
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN112561080B (zh) 样本筛选方法、样本筛选装置及终端设备
CN110443212B (zh) 用于目标检测的正样本获取方法、装置、设备及存储介质
Li et al. Automatic comic page segmentation based on polygon detection
CN112419202B (zh) 基于大数据及深度学习的野生动物图像自动识别系统
CN110084289B (zh) 图像标注方法、装置、电子设备及存储介质
CN112070135A (zh) 电力设备图像检测方法、装置、电力设备及存储介质
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN112784835B (zh) 圆形印章的真实性识别方法、装置、电子设备及存储介质
CN113361643A (zh) 基于深度学习的通用标志识别方法、系统、设备及存储介质
CN113688839B (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
CN112966687B (zh) 图像分割模型训练方法、装置及通信设备
CN112149570B (zh) 多人活体检测方法、装置、电子设备及存储介质
CN113076889A (zh) 集装箱铅封识别方法、装置、电子设备和存储介质
WO2019071663A1 (zh) 电子装置、虚拟样本生成方法及存储介质
CN113537199B (zh) 图像边界框筛选方法、系统、电子装置及介质
CN109934185B (zh) 数据处理方法及装置、介质和计算设备
CN111783561A (zh) 审图结果修正方法、电子设备及相关产品
US20220122341A1 (en) Target detection method and apparatus, electronic device, and computer storage medium
CN113160258B (zh) 建筑物矢量多边形的提取方法、系统、服务器及存储介质
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
CN111124862B (zh) 智能设备性能测试方法、装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant