CN115565046A - 一种用于图像对象识别的方法、系统、装置和介质 - Google Patents
一种用于图像对象识别的方法、系统、装置和介质 Download PDFInfo
- Publication number
- CN115565046A CN115565046A CN202211011559.5A CN202211011559A CN115565046A CN 115565046 A CN115565046 A CN 115565046A CN 202211011559 A CN202211011559 A CN 202211011559A CN 115565046 A CN115565046 A CN 115565046A
- Authority
- CN
- China
- Prior art keywords
- class
- objects
- unknown
- vector
- unknown class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种用于图像对象识别的方法、系统、装置和介质。该方法主要包括开集目标检测部分和特征搜索匹配部分。在开集目标检测部分,将图像中的对象分别识别为已知类别对象和未知类别对象,并对每个对象的位置进行标识。在特征搜索匹配部分中,根据被识别为未知类别对象的位置,对该未知类别对象进行特征抽取,并在底库中搜索与该未知类别对象的特征向量相匹配的底库参考向量,以将该未知类别对象的类别识别为该匹配的底库参考向量所关联的类别。之后,通过将开集目标检测部分识别的对象类别和特征搜索匹配部分搜索出的对象类别进行聚合,由此输出图像中每个对象的具体类别。
Description
技术领域
本发明涉及图像处理技术,更具体地,涉及对图像中的对象进行识别的方法、系统、装置和计算机可读存储介质。
背景技术
如今,在各类应用的使用中,基于图像的风险防控变得愈发重要。
例如,在涉及终端(例如,移动设备等)用户的场景中,越来越多的终端用户通过终端应用(例如,支付宝等)进行在线交易。例如,终端用户可使用终端应用来扫描第三方在线提供的、被该应用导航到的或本地存储的图像中用于付款的二维码以进行在线支付。此外,随着线上交易的普及化,终端用户也可通过终端应用或在线应用来搜索各种商户(或组织)或商品,通过搜索到的商户或商品介绍页面(该页面也可被视为“图像”)中的链接进行在线交易。然而,实践中,一些商户可能存在已知的欺诈风险,而一些用于付款的图像中的商户标识也可能是仿冒的(例如,与真实的商户商标非常类似),如果应用不能及时地从以上提及的用于付款的图像或具有购买链接的图像中识别出商户或商品标识,用户损失钱财的概率相对较高。此外,即使在非在线交易场景中,如果应用可通过实时地识别用户当前浏览的页面中各对象的类别,提早对潜在的欺诈风险进行防控,也能大大降低用户被欺诈的可能性。
又例如,在不涉及终端用户的使用场景中,应用可以在有新的商户/商品注册时、或以预定周期、或基于指定的触发规则来对商户或第三方提供的图像材料进行审核,诸如通过识别图像材料中对象的类别来评估该商户或第三方的欺诈风险。
因此,对图像中的商户或商品标识进行准确且快速的识别对风险防控是重要的。尤其,正确地对图像中的商品商标进行识别可以有效地降低用户被欺诈的可能性。
一般而言,在风险防控领域,例如对于包括商品或商户的商标的图像,该商标可被视为图像中的风险元素(即,图像中可能会具有风险的对象)。目前,通常采用经训练的模型来对图像中的对象进行识别。如果经训练的模型对于图像中的某个对象无法进行识别,则对于该模型而言,该对象可被视为新的风险元素。在通常情况下,模型迭代需要经过获取数据,标注数据和模型训练三个过程,但这种方式的人力成本较高,并且模型迭代周期较长,无法快速防控新出现的风险元素。
因此,需要一种能够在图像中出现新的风险元素时快速地对该新的风险元素进行识别的技术,由此能够及时地进行风险防控。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
在一个方面中,提供了一种图像对象识别方法,包括:接收包括一个或多个对象的图像;通过开集目标检测将所述一个或多个对象识别为已知类别对象和未知类别对象;对所述未知类别对象进行特征抽取,以获取所述未知类别对象的特征向量;基于所述未知类别对象的特征向量搜索底库,以确定所述未知类别对象的类别。
优选地,其中所述方法还包括将所述已知类别对象的类别与所述未知类别对象的类别进行聚合,以输出所述图像的所述一个或多个对象中每一者的类别。
优选地,其中将所述一个或多个对象识别为已知类别对象和未知类别对象还包括标识所述一个或多个对象的位置。
优选地,其中对所述未知类别对象中的每一者进行特征抽取,以获取所述未知类别对象的特征向量还包括基于所述未知类别对象中每一者的位置,对所述未知类别对象进行特征抽取。
优选地,所述底库中的类别与底库参考向量相关联地存储,其中基于所述未知类别对象的特征向量搜索底库还包括:采用向量匹配算法来计算所述未知类别对象的特征向量与所述底库中所存储的底库参考向量之间的距离;以及将相似分最高的底库参考向量所关联的类别作为所述未知类别对象的类别。
优选地,基于所述未知类别对象的特征向量搜索底库还包括:将所述未知类别对象的特征向量作为查询向量输入到线上向量搜索引擎,其中所述底库中的信息被离线地同步到向量搜索引擎数据库;所述向量搜索引擎在所述向量搜索引擎数据库中搜索与所述查询向量相匹配的底库参考向量。
优选地,所述方法还包括:如果所述底库中不存在与所述未知类别对象的特征向量匹配的类别,则将所述位置类别对象的特征向量与所述未知类别对象的类别相关联地更新到所述底库中。
在另一方面,提供了一种图像对象识别系统,包括:开集目标检测模块,所述开集目标检测模块被配置成采用开集目标检测来将图像中的一个或多个对象分别识别为已知类别对象和未知类别对象;特征提取模块,所述特征提取模块被配置成对所述未知类别对象中的每一者进行特征抽取,以获取所述未知类别对象的特征向量;以及特征搜索匹配模块,所述特征搜索匹配模块被配置成基于所述未知类别对象的特征向量搜索底库,以确定所述未知类别对象的类别。
优选地,所述系统还包括聚合类别模块,所述聚合类别模块被配置成将所述已知类别对象的类别与所述未知类别对象的类别进行聚合,以输出所述图像的所述一个或多个对象中每一者的类别。
在又另一方面中,提供了一种用于图像对象识别的装置,包括:存储器;以及处理器,所述处理器被配置成执行如上文任一项所述的方法。
在又另一方面中,提供了一种存储指令的计算机可读存储介质,该指令当被计算机执行时,使所述计算机执行上述方法。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的开集目标检测算法框架(YOLO-OSOD)的示意图100。
图2示出了根据本发明的一个实施例的基于开集目标检测和特征搜索来进行图像对象识别的方法200的流程图。
图3示出了根据本发明的一个实施例的开集目标检测结果的示意图300。
图4示出了根据本发明的一个实施例的特征搜索匹配的数据流图400。
图5示出了根据本发明的一个实施例的特征搜索匹配结果的示意图500。
图6示出了根据本发明的一个实施例的基于开集目标检测和特征搜索来进行图像对象识别的系统600的框图。
图7示出了用于实现根据本发明的一个或多个实施例的系统或方法的装置700的示意框图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
以下具体描述参考示出本发明的示例性实施例的附图。但是,本发明的范围不限于这些实施例,而是由所附权利要求书定义。因此,诸如所示实施例的修改版本之类的在附图所示之外的实施例仍然由本发明所包含。
本说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指的是该实施例可包括特定的特征、结构或特点,但是每一实施例不一定包括该特定的特征、结构或特点。此外,这些短语不一定指相同的实施例。此外,当结合实施例描述具体特征、结构或特性时,应当理解在相关领域的技术人员的知识范围内能够结合其他实施例来实现具体特征、结构或特性,无论是否被显式地描述。
以下,对本发明中出现的技术术语进行简要介绍。所列技术术语并没有偏离其在本领域的常规解释和/或本领域技术人员对其的一般理解。
目标检测:在一张图像中定位出多个目标对象,并对多个目标对象进行分类。
已知(Known)类别:模型训练集和模型测试集同时存在的类别。
未知(Unknown)类别:模型测试集中存在,但模型训练集中不存在的类别。
开集目标检测(Open-Set Object Detection,OSOD):模型训练集和模型测试集中的对象都属于已知具体类别的检测任务属于闭集检测任务。相反地,模型训练集中的对象属于已知类别而模型测试集中的对象属于未知类别的检测任务属于开集目标检测任务。即,在闭集检测任务中,只能对已知类别进行检出,但现实世界中包含的对象很多不属于训练数据集中的类别,即需要对未知类别进行检测。具体而言,在开集目标检测中,在一张图像中可以定位出已知类别的目标对象,并对其进行分类。同时可以定位出未知类别的目标对象,并将其分类为未知类别。
底库:一般而言,底库中具有不被包括在模型训练集和模型测试集中的对象,并且底库可独立于模型训练而被单独地维护(例如,添加新的对象条目、修改当前的对象条目等等)。在本发明中,底库中的每个条目可例如包括对象的索引、对象的特征向量、对象的类别、对象的其他属性信息(诸如,对象的存储时间等等)。由此,每个条目可唯一地标识一个对象。
查询(Query)向量:将对比底库而被搜索的特征向量。
参考(Reference)向量:底库中存储的特征向量。
YOLO目标检测算法:YOLO是You only look once(仅看一次)几个单词的缩写,即看一次就可进行预测。YOLO可一次性输出所有检测到的目标信息,包括目标的类别和图像中的位置。
在本发明的描述中,“对象”、“目标”和“元素”可被互换地使用,其表示图像中可被检测并识别的部分。
目前,正如先前提到的,一般在实现对图像的目标检测时,需要对风险元素进行大量的人工标注,并基于标注后的数据对模型进行重新训练。这种方式有如下两个重大缺陷:1.部分风险元素很难获得大量数据,例如:一些在图像中不常见的元素(诸如,指示“残联”、“妇联”、“创和基金”等等组织/商户的商标),在无法获得大量数据的条件下,目标检测模型很难对这些风险元素进行准确的识别;2.部分风险元素虽然可以获得大量数据(诸如,指示支付宝、微信、抖音等等商户的商标),但这些数据必须经过人工标注后才能用于目标检测模型的迭代,大量的人工标注需要极大的人力成本和时间,此外,模型重新训练也需要时间成本。由此,现有技术采用了多阶段的图像对象识别方案,无法对新增的风险元素进行快速防控,并且需要很高的人力成本。为此,本发明提出一种利用开集目标检测和特征搜索的方法,实现单阶段的图像对象识别方案,可以在降低人力成本的同时对图像中的新增风险元素进行实时地识别。
总体而言,在本发明的技术方案中,大致可分为两个个部分。
第一部分涉及开集目标检测。在此部分,通过开集目标检测将图像中的对象分别识别为已知类别对象和未知类别对象,并对每个对象的位置进行标识。
第二部分涉及特征搜索匹配。在此部分,根据被识别为未知类别对象的位置,对该对象进行特征抽取,并在底库中搜索与该对象的特征向量相匹配的底库参考向量,将该未知类别对象的类别识别为该匹配的底库参考向量所关联的类别。
之后,可以将第一部分识别的对象类别和第二部分搜索出的对象类别进行聚合,由此输出图像中每个对象的具体类别。由此可见,本发明将开集目标检测和特征搜索匹配相结合,在无需对模型进行重新训练的情况下对图像中的所有对象进行类别识别。
在实践中,实施本发明的应用在得到图像中每个对象的具体类别后,可以根据这些类别来判断是否具有潜在的欺诈风险,并在具有潜在的欺诈风险时向用户进行进一步的警示、中断用户当前的交易、向商户进行反馈或采取其他措施以向相关联的一方或多方来提示该潜在的欺诈风险。
图1示出了根据本发明的一个实施例的开集目标检测算法框架(YOLO-OSOD)的示意图100。
在数据预处理阶段,将输入图像预处理为图像对。在实践中,可以根据业务需求以及图像的格式来进行预处理。例如,可通过DOA、SOA等方式来进行处理。具体而言,该预处理可包括例如先通过Mixup(混合增强)方法来增加图像中的目标数量,再通过色彩变换,采用Cutout(剪裁)方法来修改图像特征。
之后的“半监督模型”、“骨干(Backbone)和FPN(Feature Pyramid Network,特征金字塔网络)”和“YOLO-OSOD检测头(Head)”构成了YOLO-OSOD检测器,用于识别图像中各对象的位置和类别。
具体而言,经预处理的图像被输入到半监督模型中进行对象识别。根据本发明的一个实施例,该半监督模型可为经训练的开集目标检测模型。通过该半监督模型的预测,可得到图像中各对象的类别以及具体位置。例如,参见图1,对于模型训练集和模型测试集中均存在的对象,该对象可被分类为具体的类别(例如,“人”),对于模型训练集中不存在的对象,该对象可被分类为“未知类别”。
基于半监督模型对被分类为“未知类别”对象的位置标识,对“未知类别”对象进行特征抽取。根据本发明的一个实施例,可采用骨干和FPN来进行特征抽取。骨干主要指用于特征提取的,已在大型数据集(例如ImageNet|COCO)等上完成预训练,拥有预训练参数的卷积神经网络,例如:ResNet-50、Darknet53等。FPN用于在不同的尺度上提取不同尺度的信息,并进行融合,充分利用骨干提取的所有的特征信息,从而让后续YOLO-OSOD头部检测器(Head)能够更好地检测对象。即,通过FPN,骨干提取出的信息可以被利用的更加充分,使得YOLO-OSOD头部检测器能够很好地应对多尺度情况。
基于骨干和FPN提取的特征信息,YOLO-OSOD检测头对“未知类别”对象进行特征搜索和匹配,以识别具体的类别。根据本发明的一个实施例,可采用YOLOX版本的检测头。具体而言,YOLO-OSOD检测头采用解耦合头,获得四个分支。其中,第一分支Cluster Branch(h,w,256)用于对特征进行聚类,以进行与底库的特征向量的匹配;第二分支Cls(h,w,c(类别数量))用于判断目标框所包含的物体分类;第三分支Reg(h,w,4)用于判断目标框的坐标信息;第四分支Obj(h,w,1)用于判断目标框是前景还是背景。通过整合四个分支的预测判断结果,能够得到图像上“未知类别”对象的具体类别和位置。
通过将YOLO-OSOD检测头预测的结果返回到半监督模型,可以进一步更新该半监督模型的参数。例如,通过将原本被该半监督模型识别为“未知类别”的对象识别为“长颈鹿”,并将该识别结果返回到半监督模型,能够更好地训练该半监督模型,并实现模型的自我学习。
图2示出了根据本发明的一个实施例的基于开集目标检测和特征搜索来进行图像对象识别的方法200的流程图。该方法200可由各应用(诸如,终端应用或线上应用)来实现。为了便于清楚起见,如上所述,该方法200主要可分为两个部分。在第一部分200-1(例如,步骤202),通过开集目标检测将接收到的图像中的一个或多个对象识别为已知类别对象和未知类别对象。在第二部分200-2(例如,步骤203-206),对未知类别对象进行特征抽取,以获取未知类别对象的特征向量,并且基于未知类别对象的特征向量搜索底库,以确定未知类别对象的类别。
在步骤201,接收图像,该图像包括一个或多个对象。根据本发明的另一个实施例,该图像可已经被预处理,以满足各应用的不同业务需求或实际的应用场景。
在步骤202,通过开集目标检测来识别图像中的一个或多个对象中的每一者的类别,并对该对象进行定位。步骤202进一步包括子步骤202-1和子步骤202-2。在子步骤202-1,将该一个或多个对象中的一者或多者识别为已知类别对象,并对其进行定位。在子步骤202-2,将该一个或多个对象中的一者或多者识别为“未知类别”对象,并对其进行定位。本领域的技术人员完全可以理解,步骤202-1和202-2可以并行地进行,两者之间并无数据流上的关联性。例如,在具体实践中,存在图像中的一个或多个对象均被识别为“未知类别”对象的情况。
进一步而言,例如:如果模型训练集中有“支付宝”类别,则当图像中含有表示“支付宝”的对象时,开集目标检测模型将该对象识别为“支付宝”类别,并准确定位该表示“支付宝”的对象的位置。如果模型训练集中没有“支付宝”类别,则当图像中含有表示“支付宝”的对象时,开集目标检测模型将该对象识别为“未知类别”,并准确定位该“未知类别”对象的位置。
图3示出了根据本发明的一个实施例的开集目标检测结果的示意图300。如图3所示,由于模型训练集中并不包括表示“创金HEXIN”的对象,则图像中表示“创金HEXIN”的对象(例如,商标)被识别为“未知类别”。由此,图像中该对象出现的位置处,均标记有“未知类别(unknown)”。
在步骤203,对步骤202-2中识别的“未知类别”对象进行特征抽取,以获取该对象的特征向量。根据本发明的一个实施例,可基于步骤202-2中所确定的对象位置,来对该对象进行特征抽取。
优选地,可针对图像中每一个“未知类别”对象来执行步骤203以及之后的步骤,以识别出每个“未知类别”对象的具体类别。优选地,也可基于指定的规则(例如,业务需求)、网络情况等实时条件来识别一部分“未知类别”对象的具体类别。
在步骤204,在底库中搜索与“未知类别”对象的特征向量相匹配的底库参考向量,以确定底库中是否存在匹配的类别。如果存在,则进入步骤205,如果不存在,则可进入步骤206或步骤208。
如上所描述的,底库包括多个条目,每个条目对应于一对象,包括该对象的特征向量、该对象的类别以及该对象的其他属性信息。
根据本发明的一个实施例,考虑到进行图像对象识别的设备(例如,实施方法200的设备)和底库很可能并不在同一物理范围中(例如,相同的局域网、相同的计算设备等),可采用线上向量搜索引擎来在线地执行步骤204,由此实时地返回搜索结果。其中,底库中的信息可通过离线的方式(例如,按一定周期、在底库有更新时、网络空闲时等)同步到向量搜索引擎数据库,以缩短实时搜索的反馈时间。
图4描述了根据本发明的一个实施例的特征搜索匹配的数据流图400。例如,步骤203中获取的“未知类别”对象的特征向量可作为“查询向量”来输入到向量搜索引擎中,该向量搜索引擎可将接收到的查询向量与向量搜索引擎数据库中的参考向量进行比对,并返回查询结果。
根据本发明的一个实施例,可采用向量匹配算法来在查询向量和参考向量之间进行匹配。例如,可采用HNSW算法来计算查询向量与参考向量的L2距离,最后返回相似分最高的topK(前K)个参考向量,同时带回对应的类别。优选地,也可返回与相似分最高的一个参考向量相关联的类别。
本领域的技术人员完全可以理解,在实施方法200的设备与底库处于相同的物理范围中时,步骤204也可以在不采用在线向量搜索引擎的情况下来进行。即,直接将步骤203获取的特征向量与底库的参考向量进行比对,以返回匹配的类别。
图5示出了根据本发明的一个实施例的特征搜索匹配结果的示意图500。为了清晰的目的,该示意图500是以程序代码的方式来示出的。继续图3的示例,如图5中所示,通过特征向量搜索,图3中表示“创金HEXIN”的对象(即,在图3中被识别为“unknown”的对象)与向量搜索引擎数据库中的“创金合信基金”类别的相似分为最高(84.61057000000001)。
在步骤205,将该“未知类别”对象的类别识别为步骤204中从底库搜索到的匹配类别。继续图3和图5的示例,图3中的“unknown”对象的类别此时被识别为图5中的“创金合信基金”类别。
可选地,在步骤206,在步骤204中未搜索到匹配的参考向量的情况下,可返回指示搜索失败的消息。在此情况下,“未知类别”对象将依然被识别为“未知类别”。
在步骤207,将步骤202-1中识别的对象类别以及步骤205和206中识别的对象类别聚合,由此输出图像中每一对象的类别。根据本发明的一个实施例,通过将步骤202-1中通过开集模型识别的对象类别和步骤205和206中通过特征搜索识别的对象类别进行聚合,图像中的每一对象的类别可被识别。例如,参考图1中的示意图,可以理解,假设步骤202-1中通过开集目标检测模型识别了对象“人”,步骤202-2中通过同样的开集目标检测模型识别了对象“未知类别”,在步骤204中可通过特征搜索将步骤202-2中识别的对象“未知类别”识别为“长颈鹿”,并且在步骤207中,将步骤202-1中识别的对象“人”和步骤205中识别的对象“长颈鹿”进行聚合,由此输出图像中每一对象的具体类别。
本领域的技术人员可以理解,步骤207中得到的识别结果可被反馈到开集目标检测模型,以更新该开集目标检测模型的参数,实现该模型的自我学习功能。此外,实施方法200的应用在得到步骤207的识别结果后,可以根据该识别结果来判断是否存在潜在的欺诈风险,以采取相应的动作,例如,中止交易,提供警示,上报风险等等。
可选地,在步骤208,当有新的对象(即,底库中未存储的对象)需要进行管控时,可对该新的对象进行特征抽取,以得到其特征向量,并将该特征向量、该对象的分类和/或该对象的其他属性添加到底库中以更新底库。本领域的技术人员可以理解,步骤208是独立于步骤201-207的,其可离线地进行(例如,在适当时由底库管理人员来实现对底库的更新/修改等)。例如,当步骤204中未搜索到匹配的参考向量时,可表明底库中不存在关于该对象的特征向量,可在适当的时候时针对该对象进行特征提取,并连同其类别添加到底库中。
和现有技术相比,本发明的主要优势在于:通过开集目标检测算法将新增风险元素识别为“未知类别”,然后通过搜索匹配算法将“未知类别”对象实时地识别为具体的新增风险类别,可以在低成本的条件下,实现对新增风险元素的快速防控。
图6示出了根据本发明的一个实施例的基于开集目标检测和特征搜索来进行图像对象识别的系统600的框图。如图6所示,该系统600可包括开集目标检测模块601、特征提取模块602、特征搜索匹配模块603和聚合类别模块604。各模块的具体细节可参考上文对相关操作的描述。
根据本发明的一个实施例,开集目标检测模块601被配置成将图像中的对象分别识别为已知类别对象和未知类别对象,并对每个对象的位置进行标识。
根据本发明的一个实施例,特征提取模块602被配置成根据未知类别对象的位置,对该对象进行特征抽取,以获取该未知类别对象的特征向量。
根据本发明的一个实施例,特征搜索匹配模块603被配置成基于未知类别对象的特征向量搜索底库,以确定未知类别对象的类别。根据本发明的一个实施例,特征搜索匹配模块603被进一步配置成在底库中搜索与未知类别对象的特征向量相匹配的底库参考向量,以确定底库中是否存在匹配的类别。如果存在匹配的类别,则将未知类别对象的类别识别为该匹配的类别。如果不存在匹配的类别,则可返回指示搜索失败的消息或者指示更新底库以包括该对象。
根据本发明的一个实施例,聚合类别模块604被配置成将开集目标检测模块601识别的对象类别和特征搜索匹配模块603搜索出的对象类别进行聚合,由此输出图像中每个对象的具体类别。
图7示出用于实现根据本发明的一个或多个实施例的系统或方法的装置700的示意框图。该装置可包括处理器710以及存储器715,所述处理器被配置成执行如上所述的任何方法。
该装置700可包括网络连接元件725,例如可包括通过有线连接或无线连接来连接到其它设备的网络连接设备。该无线连接例如可以为WiFi连接、蓝牙连接、3G/4G/5G网络连接等。
该装置还可选地包括其它外围元件720,例如输入装置(如键盘、鼠标)、输出装置(如显示器)等。例如,在基于用户输入的方法中,用户可经由输入装置执行输入操作。还可经由输出装置向用户输出相应的信息。
这些模块中的每一者可彼此直接或间接通信,例如,经由一条或多条总线(例如总线705)。
而且,本申请还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。
此外,本申请还公开了一种装置,该装置包括处理器以及存储有计算机可执行指令的存储器,所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。
此外,本申请还公开了一种系统,该系统包括用于实现本文所述的各实施例的方法的装置。
可以理解,根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。
应该理解,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
应该理解,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
应该理解,本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外,本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件,且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。
还应理解,本文采用的术语和表述方式只是用于描述,本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征,应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的,权利要求应视为覆盖所有这些等效物。
同样,需要指出的是,虽然已参考当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本说明书的一个或多个实施例,在没有脱离本发明精神的情况下还可做出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。
Claims (11)
1.一种图像对象识别方法,包括:
接收包括一个或多个对象的图像;
通过开集目标检测将所述一个或多个对象识别为已知类别对象和未知类别对象;
对所述未知类别对象进行特征抽取,以获取所述未知类别对象的特征向量;
基于所述未知类别对象的特征向量搜索底库,以确定所述未知类别对象的类别。
2.如权利要求1所述的方法,进一步包括:将所述已知类别对象的类别与所述未知类别对象的类别进行聚合,以输出所述图像的所述一个或多个对象中每一者的类别。
3.如权利要求1所述的方法,其中,将所述一个或多个对象识别为已知类别对象和未知类别对象进一步包括:标识所述一个或多个对象的位置。
4.如权利要求3所述的方法,其中,对所述未知类别对象中的每一者进行特征抽取,以获取所述未知类别对象的特征向量进一步包括:基于所述未知类别对象中每一者的位置,对所述未知类别对象进行特征抽取。
5.如权利要求1所述的方法,其中,所述底库中的类别与底库参考向量相关联地存储,其中基于所述未知类别对象的特征向量搜索底库进一步包括:
采用向量匹配算法来计算所述未知类别对象的特征向量与所述底库中所存储的底库参考向量之间的距离;以及
将相似分最高的底库参考向量所关联的类别作为所述未知类别对象的类别。
6.如权利要求1所述的方法,其中,基于所述未知类别对象的特征向量搜索底库进一步包括:
将所述未知类别对象的特征向量作为查询向量输入到线上向量搜索引擎,其中所述底库中的信息被离线地同步到向量搜索引擎数据库;
所述向量搜索引擎在所述向量搜索引擎数据库中搜索与所述查询向量相匹配的底库参考向量。
7.如权利要求1所述的方法,进一步包括:如果所述底库中不存在与所述未知类别对象的特征向量匹配的类别,则将所述位置类别对象的特征向量与所述未知类别对象的类别相关联地更新到所述底库中。
8.一种图像对象识别系统,包括,
开集目标检测模块,所述开集目标检测模块被配置成采用开集目标检测来将图像中的一个或多个对象分别识别为已知类别对象和未知类别对象;
特征提取模块,所述特征提取模块被配置成对所述未知类别对象中的每一者进行特征抽取,以获取所述未知类别对象的特征向量;以及
特征搜索匹配模块,所述特征搜索匹配模块被配置成基于所述未知类别对象的特征向量搜索底库,以确定所述未知类别对象的类别。
9.如权利要求8所述的图像对象识别系统,进一步包括:
聚合类别模块,所述聚合类别模块被配置成将所述已知类别对象的类别与所述未知类别对象的类别进行聚合,以输出所述图像的所述一个或多个对象中每一者的类别。
10.一种用于图像对象识别的装置,包括:
存储器;以及
处理器,所述处理器被配置成执行如权利要求1-7中任一项所述的方法。
11.一种存储指令的计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211011559.5A CN115565046A (zh) | 2022-08-23 | 2022-08-23 | 一种用于图像对象识别的方法、系统、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211011559.5A CN115565046A (zh) | 2022-08-23 | 2022-08-23 | 一种用于图像对象识别的方法、系统、装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565046A true CN115565046A (zh) | 2023-01-03 |
Family
ID=84738519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211011559.5A Pending CN115565046A (zh) | 2022-08-23 | 2022-08-23 | 一种用于图像对象识别的方法、系统、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565046A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863250A (zh) * | 2023-09-01 | 2023-10-10 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
-
2022
- 2022-08-23 CN CN202211011559.5A patent/CN115565046A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863250A (zh) * | 2023-09-01 | 2023-10-10 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
CN116863250B (zh) * | 2023-09-01 | 2024-05-03 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11804035B2 (en) | Intelligent online personal assistant with offline visual search database | |
US11416867B2 (en) | Machine learning system for transaction reconciliation | |
US10970768B2 (en) | Method, medium, and system for image text localization and comparison | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
CN111931049B (zh) | 基于大数据和人工智能的业务处理方法及区块链金融系统 | |
CN112163156B (zh) | 基于人工智能和云计算的大数据处理方法及云端服务中心 | |
US11294971B1 (en) | Systems and methods for modeling item similarity using converted image information | |
EP3944145A2 (en) | Method and device for training image recognition model, equipment and medium | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
US11854001B2 (en) | Account entity location based navigation and display for a projectable transaction card | |
CN112100193A (zh) | 基于大数据和云计算的业务处理方法及电子商务协同平台 | |
US20220215293A1 (en) | Method to identify incorrect account numbers | |
KR20220148053A (ko) | 그래프 합성곱 신경망을 이용한 다중 객체 추적 장치 및 방법 | |
CN116307671A (zh) | 风险预警方法、装置、计算机设备、存储介质 | |
CN113158777A (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
CN115565046A (zh) | 一种用于图像对象识别的方法、系统、装置和介质 | |
CN112967138A (zh) | 基于区块链和云计算的信息推送方法及信息推送系统 | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN115994331A (zh) | 基于决策树的报文分拣方法及装置 | |
CN114913016A (zh) | 基于大数据的债券交易风险提示方法、装置、设备及介质 | |
US11593740B1 (en) | Computing system for automated evaluation of process workflows | |
US20220237618A1 (en) | System for detecting associated records in a record log | |
CN115271920A (zh) | 一种面向供应链金融的欺诈检测系统 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN113392630A (zh) | 一种基于语义分析的中文句子相似度计算方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |