CN117541824A - 标识的识别方法和装置、存储介质及电子设备 - Google Patents
标识的识别方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117541824A CN117541824A CN202311488488.2A CN202311488488A CN117541824A CN 117541824 A CN117541824 A CN 117541824A CN 202311488488 A CN202311488488 A CN 202311488488A CN 117541824 A CN117541824 A CN 117541824A
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- target
- feature vector
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 423
- 238000001514 detection method Methods 0.000 claims abstract description 245
- 238000000605 extraction Methods 0.000 claims abstract description 189
- 238000012549 training Methods 0.000 claims description 390
- 238000004590 computer program Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 239000000758 substrate Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 27
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种标识的识别方法和装置、存储介质及电子设备。其中,该方法包括:对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识。本申请解决了由于需要直接检测出标识的类型,导致图像标识的识别方式复杂,标识识别效率较低的技术问题。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种标识的识别方法和装置、存储介质及电子设备。
背景技术
目前,相关技术中主要通过训练目标检测模型来识别标识,在目标检测模型的训练过程中往往需要新增标识,或者删除标识来适配不同的业务场景,此时就需要重新训练目标检测模型,也就是说,只要对标识进行了修改,就需要再次训练目标检测模型,使得模型训练成本较高,图像标识的识别方式复杂,导致图像标识的识别效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种标识的识别方法和装置、存储介质及电子设备,以至少解决由于需要直接检测出标识的类型,导致图像标识的识别方式复杂,标识识别效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种标识的识别方法,包括:对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,所述一组候选区域表示从所述目标图像中检测到存在标识的至少一个图像区域;对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,所述样本图像表示所述样本图像中的样本区域标注为存在样本标识的图像,所述样本特征向量是对所述样本区域进行特征提取得到的特征向量;根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,其中,所述目标特征向量是对所述目标区域进行特征提取得到的特征向量,所述目标特征向量与所述样本特征向量之间的相似度满足预设条件,所述一组候选区域包括所述目标区域。
根据本申请实施例的另一方面,还提供了一种标识的识别装置,包括:检测模块,用于对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,所述一组候选区域表示从所述目标图像中检测到存在标识的至少一个图像区域;提取模块,用于对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,所述样本图像表示所述样本图像中的样本区域标注为存在样本标识的图像,所述样本特征向量是对所述样本区域进行特征提取得到的特征向量;确定模块,用于根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,其中,所述目标特征向量是对所述目标区域进行特征提取得到的特征向量,所述目标特征向量与所述样本特征向量之间的相似度满足预设条件,所述一组候选区域包括所述目标区域。
在一个示例性的实施例中,所述装置用于通过如下方式对样本图像使用目标特征提取模型进行特征提取,得到样本特征向量:获取所述样本图像,其中,所述样本图像预先标注了所述样本标识的类型以及所述样本标识在所述样本图像的位置;对所述样本图像使用所述目标检测模型进行检测,得到一组样本候选区域,并根据所述样本标识在所述样本图像的位置从所述一组样本候选区域中确定出所述样本区域;对所述样本区域使用所述目标特征提取模型进行特征提取,得到所述样本特征向量。
在一个示例性的实施例中,所述装置用于通过如下方式对所述一组候选区域使用目标特征提取模型分别进行特征提取,得到一组候选特征向量:分批次对所述一组候选区域中各个候选区域进行特征提取,得到所述一组候选特征向量,其中,每批次进行特征提取的候选区域数量与所述目标特征提取模型的处理能力相关;所述装置用于通过如下方式根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,包括:将每一批次得到的所述候选特征向量分别与所述样本特征向量执行点积操作,得到每一批次对应的相似度集合;将所述相似度集合中取值最高的相似度对应的候选特征向量确定为所述目标特征向量或者将所述相似度集合中取值排名前N的多个候选特征向量确定为所述目标特征向量,N为大于1的正整数。
在一个示例性的实施例中,所述装置还用于:所述对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域之前,获取已标注的第一训练图像和未标注的第二训练图像,其中,所述第一训练图像标注了是否存在标识,所述第二训练图像未标注是否存在标识;根据所述第一训练图像和所述第二训练图像对初始检测模型进行半监督训练,得到所述目标检测模型。
在一个示例性的实施例中,所述装置用于通过如下方式根据所述第一训练图像和所述第二训练图像对初始检测模型进行半监督训练,得到所述目标检测模型:根据所述第一训练图像对初始检测模型进行训练,得到中间检测模型,其中,所述中间检测模型用于对所述第一训练图像进行检测,确定所述第一训练图像是否存在标识的预测结果,并根据所述预测结果和标注的所述第一训练图像是否存在标识调整所述初始检测模型,直到确定所述中间检测模型;将所述第二训练图像输入所述中间检测模型进行标注,生成伪标签数据,其中,所述伪标签数据用于标注所述第二训练图像是否存在标识;根据所述第一训练图像、所述第二训练图像以及所述伪标签数据对所述中间检测模型进行训练,得到所述目标检测模型。
在一个示例性的实施例中,所述装置用于通过如下方式根据所述第一训练图像对初始检测模型进行训练,得到中间检测模型:将所述第一训练图像输入所述初始检测模型,得到一组第一训练候选区域以及与所述一组第一训练候选区域一一对应的一组第一训练置信度,其中,所述初始检测模型设置有第一训练置信度阈值,所述第一训练图像标注了标识在所述第一训练图像中所处的第一标注位置;根据所述一组第一训练置信度和所述第一训练置信度阈值从所述一组第一训练候选区域中确定出一组第一训练目标区域,其中,所述一组第一训练目标区域包括所述第一训练置信度大于或等于所述第一训练置信度阈值的所述第一训练候选区域;根据所述一组第一训练目标区域和所述第一标注位置对所述初始检测模型进行训练,得到中间检测模型,其中,所述中间检测模型用于根据所述一组第一训练目标区域确定标识在所述第一训练图像中的第一预测位置,并根据所述第一预测位置和所述第一标注位置调整所述初始检测模型,直到满足第一训练条件,确定所述中间检测模型。
在一个示例性的实施例中,所述装置还用于:所述根据所述一组第一训练目标区域和标识在所述第一训练图像中所处的位置对所述初始检测模型进行训练,得到中间检测模型之后,将所述第一训练置信度阈值降低为第二训练置信度阈值,将所述第二训练图像输入所述中间检测模型,得到一组第二训练候选区域与所述一组第二训练候选区域一一对应的一组第二训练置信度,其中,所述中间检测模型设置有所述第二训练置信度阈值,所述第二训练图像通过所述中间检测模型标注了标识在所述第二训练图像中所处的第二标注位置;根据所述一组第二训练置信度和所述第二训练置信度阈值从所述一组第二训练候选区域中确定出一组第二训练目标区域,其中,所述一组第二训练目标区域包括所述第二训练置信度大于或等于所述第二训练置信度阈值的所述第二训练候选区域;根据所述第一标注位置、所述第一预测位置、所述第二标注位置以及第二预测位置对所述中间检测模型进行训练,调整所述中间检测模型,直到满足第二训练条件,得到所述目标检测模型,其中,所述第二预测位置表示所述中间检测模型根据所述一组第二训练目标区域预测得到的标识在所述第二训练图像中的位置。
在一个示例性的实施例中,所述装置还用于:所述对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量之前,获取锚点样本区域、正样本区域和负样本区域,其中,所述正样本区域与所述锚点样本区域均具有第一样本标识,所述负样本区域具有第二样本标识,所述第一样本标识与第二样本标识属于不同类别;根据所述锚点样本区域、所述正样本区域和所述负样本区域对初始特征提取模型训练,得到所述目标特征提取模型。
在一个示例性的实施例中,所述装置用于通过如下方式根据所述锚点样本区域、所述正样本区域和所述负样本区域对初始特征提取模型训练,得到所述目标特征提取模型:将所述锚点样本区域、所述正样本区域和所述负样本区域分别输入所述初始特征提取模型进行特征提取,得到锚点特征向量、正样本特征向量和负样本特征向量;利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型,直到满足第三训练条件,确定所述目标特征提取模型。
在一个示例性的实施例中,所述装置用于通过如下方式利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型,直到满足第三训练条件,确定所述目标特征提取模型:根据所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算第一损失值,其中,所述目标损失值包括所述第一损失值,所述第一损失值表示第一相似度之和与第二相似度之和的比值,所述第一相似度之和表示所述锚点特征向量与各个所述负样本特征向量的相似度之和,所述第二相似度之和表示所述锚点特征向量与各个所述正样本特征向量的相似度以及所述锚点特征向量与各个所述负样本特征向量的相似度之和;通过最大化所述第一相似度之和,且最小化所述第二相似度之和调整所述初始特征提取模型,直到满足所述第三训练条件,确定所述目标特征提取模型。
在一个示例性的实施例中,所述装置用于通过如下方式利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型的模型参数,直到满足预设训练条件,确定所述目标特征提取模型:根据所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算第二损失值,其中,所述目标损失值包括所述第二损失值,所述第二损失值表示第一距离和第二距离的差值,所述第一距离表示所述锚点特征向量与所述正样本特征向量在预设向量空间中的距离,所述第二距离表示所述锚点特征向量与所述负样本特征向量在所述预设向量空间中的距离;通过最小化所述第一距离,且最大化所述第二距离调整所述初始特征提取模型,直到满足所述第三训练条件,确定所述目标特征提取模型。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述标识的识别方法。
根据本申请实施例的又一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上标识的识别方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的标识的识别方法。
在本申请实施例中,采用对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,一组候选区域表示从目标图像中检测到存在标识的至少一个图像区域,对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,样本图像表示样本图像中的样本区域标注为存在样本标识的图像,样本特征向量是对样本区域进行特征提取得到的特征向量,根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,其中,目标特征向量是对目标区域进行特征提取得到的特征向量,目标特征向量与样本特征向量之间的相似度满足预设条件,一组候选区域包括目标区域的方式,通过使用目标检测模型对目标图像进行检测,可以得到一组候选区域,这些候选区域表示从目标图像中检测到存在标识的至少一个图像区域,然后,使用目标特征提取模型对一组候选区域和样本图像进行特征提取,可以得到一组候选特征向量和样本特征向量,根据一组候选特征向量和样本特征向量来确定目标特征向量,通过计算一组候选特征向量与样本特征向量之间的相似度,确定出满足预设条件的目标特征向量,可以达到将样本特征向量对应的样本标识确定为目标图像中存在的标识的目的,从而实现了降低图像标识的识别方式复杂度,提高标识识别效率的技术效果,进而解决了由于需要直接检测出标识的类型,导致图像标识的识别方式复杂,标识识别效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的标识的识别方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的标识的识别方法的流程示意图;
图3是根据本申请实施例的一种可选的标识的识别方法的示意图;
图4是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图5是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图6是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图7是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图8是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图9是根据本申请实施例的又一种可选的标识的识别方法的示意图;
图10是根据本申请实施例的一种可选的标识的识别装置的结构示意图;
图11是根据本申请实施例的一种可选的标识的识别产品的结构示意图;
图12是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
Object Detection:目标检测。
Logo:指类似媒体平台标识、APP标识等。
Batch:一批训练样本。
Anchor:用来作为锚点的样本。
Embedding:向量,本申请中可以理解为图像特征向量。
下面结合实施例对本申请进行说明:
根据本申请实施例的一个方面,提供了一种标识的识别方法,可选地,在本实施例中,上述标识的识别方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示,服务器101通过网络与终端设备103进行连接,可用于为终端设备或终端设备上安装的应用程序提供服务,应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,例如,游戏数据存储服务器,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,终端设备103可以是配置有应用程序的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器、虚拟现实(Virtual Reality,简称VR)终端、增强现实(Augmented Reality,简称AR)终端、混合现实(Mixed Reality,简称MR)终端等计算机设备,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。
结合图1所示,上述标识的识别方法可以由电子设备执行,该电子设备可以是终端设备或服务器,上述标识的识别方法可以由终端设备或服务器分别实现,或由终端设备和服务器共同实现。
上述仅是一种示例,本实施例不做具体的限定。
可选地,作为一种可选的实施方式,如图2所示,上述标识的识别方法包括:
S202,对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,一组候选区域表示从目标图像中检测到存在标识的至少一个图像区域;
可选地,在本实施例中,上述标识的识别方法可以包括但不限于应用于社交、游戏、电商、视频播放、交通、视频分享等各种应用场景。
以应用于交通场景为例,可以通过行车记录仪的图像采集设备采集图像进行标识的识别,也可以通过导航应用所在的用户终端实现图像采集和标识识别。
需要说明的是,上述标识的识别方法可以包括但不限于应用于智能交通系统或智能车路协同系统。
其中,智能交通系统(Intelligent Traffic System,ITS)又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。或者;
智能车路协同系统(Intelligent Vehicle Infrastructure CooperativeSystems,IVICS),简称车路协同系统,是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同,保证交通安全,提高通行效率,从而形成的安全、高效和环保的道路交通系统。
在一个示例性的实施例中,上述标识的识别方法可以包括但不限于基于人工智能实现。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
自动驾驶技术,指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景,目前的领域为物流、公共交通、出租车、智慧交通领域外,未来将得到进一步发展。
可选地,在本实施例中,上述目标图像可以包括但不限于对人拍摄得到的图像,对风景拍摄得到的图像,对路口拍摄得到的图像、视频中的封面图像、视频内部的帧图像等,上述目标图像可以包括但不限于通过PC、手机、平板电脑等设备进行获取。上述目标检测模型是一种深度学习模型,它可以对图像中的目标进行定位和分类。它能够识别出图像中存在的多个目标,并用一个边界框来标记它们的位置。
需要说明的是,目标检测模型包括但不限于:
R-CNN系列模型:包括R-CNN、Fast R-CNN、Faster R-CNN等,通过使用regionproposals(区域建议)来提取候选目标区域,并对每个候选区域进行分类和边界框回归。
YOLO系列模型:包括YOLO、YOLOv2、YOLOv3、YOLOv4等,通过将目标检测问题转化为回归问题,直接在图像上进行目标检测和定位,具有实时性能。
SSD模型:Single Shot MultiBox Detector(SSD),通过在不同尺度的特征图上应用多个预定义的锚框(anchor)来进行目标检测和定位。
RetinaNet模型:通过使用特征金字塔网络(Feature Pyramid Network,FPN)和Focal Loss来解决目标检测中的类别不平衡问题,提高小目标检测的性能。
Mask R-CNN模型:在R-CNN基础上加入了实例分割的功能,不仅可以检测目标,还可以生成每个目标的精确分割掩膜。
EfficientDet模型:通过使用EfficientNet作为主干网络和BiFPN(Bi-Directional Feature Pyramid Network)作为特征融合网络,实现高效且准确的目标检测。
这些是目标检测领域较为常见的模型,每个模型都有其特点和适用场景,选择合适的模型取决于具体的需求和资源限制。
在一个示例性的实施例中,在目标检测领域,可以使用目标检测模型来对待识别的目标图像进行检测,图3是根据本申请实施例的一种可选的标识的识别方法的示意图,如图3所示,以yolo-v8为例,包括但不限于如下步骤:
S302,数据集准备:首先需要准备包含了标注框和类别信息的训练数据集,用于训练模型。每个样本应该包含图像数据和对应的标注框信息。需要说明的是,在本实施例中,可以采用少量的包含了标注框和类别信息的训练样本以及大量未包括标注框和类别信息的训练样本共同组成上述训练数据集;
S304,模型构建:使用yolo-v8模型的架构构建网络模型。yolo-v8模型是一种基于卷积神经网络的目标检测模型,其中包含多个卷积层、池化层和全连接层。网络的最后一层使用一个特殊的卷积层来输出目标的边界框和类别信息。
S306,模型训练:使用准备好的训练数据集对模型进行训练。训练的过程中,通过反向传播算法来更新模型的参数,使得模型能够更准确地检测目标。
S308,模型评估:使用一个独立的验证数据集来评估训练好的模型的性能。可以计算模型在验证集上的准确率、召回率等指标来评估模型的性能。
S310,模型部署:将训练好的模型部署到实际应用中。可以通过将训练好的模型加载到一个目标检测系统中,对输入图像进行目标检测。
S312,目标检测:对于输入的图像,通过将其输入到训练好的模型中,模型会输出检测到的目标的边界框和类别信息。可以根据输出的边界框在图像上绘制框来标示出检测到的目标。
可选地,在本实施例中,上述候选区域包括但不限于在目标检测模型中,通过一系列算法和策略,从目标图像中提取出的可能包含目标的图像区域。这些区域是模型认为有较高概率存在目标的区域。
示例性地,以目标图像是道路交通摄像头捕捉到的图像,希望通过目标检测模型来检测是否存在特定标识,可以将图像输入目标检测模型中,模型将输出一组候选区域。这些候选区域可能是图像中可能存在特定识的区域。
需要说明的是,本申请使用的目标检测模型可以为通用标识检测模型,也即,只需要识别出图像中可能存在标识的候选区域即可,无需识别出该标识的类型。
在一个示例性的实施例中,图4是根据本申请实施例的另一种可选的标识的识别方法的示意图,如图4所示,将目标图像输入目标检测模型,可以得到如候选区域401的一组候选区域,该组候选区域中每个候选区域均被认为是可能存在标识的图像区域。
S204,对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,样本图像表示样本图像中的样本区域标注为存在样本标识的图像,样本特征向量是对样本区域进行特征提取得到的特征向量;
可选地,在本实施例中,上述样本图像可以理解为已标注为存在样本标识,且标注了样本标识所在的样本区域的样本图像。上述样本标识可以包括但不限于媒体发布平台标识、企业标识、运营商标识、道路标识等等需要检测出的标识。
需要说明的是,上述样本图像可以理解为需要人工预先确定的图像,也即,根据业务需求确定上述样本图像并进行标注,以执行后续步骤,完成上述业务需求,该业务需求至少包括需要识别出某个图像是否包括与样本图像一样的标识。
可选地,在本实施例中,上述目标特征提取模型可以理解为用于从图像中提取出特征信息,并生成对应特征向量的特征提取模型。
示例性地,上述目标特征提取模型可以包括但不限于如下类型:
卷积神经网络(CNN):CNN是最常见的图像特征提取模型之一,可以通过多个卷积层和池化层来提取图像的局部特征。一些经典的CNN模型包括LeNet-5、AlexNet、VGG16和ResNet等。
稀疏编码模型:稀疏编码模型使用稀疏表示来提取图像的特征。常用的稀疏编码模型包括K-SVD和OMP等。
高斯混合模型(GMM):GMM是一种概率模型,可以通过对图像像素进行建模来提取图像的特征。GMM将图像像素分解为多个高斯分布的混合成分,每个混合成分对应一个特定的图像区域。
主成分分析(PCA):PCA是一种降维技术,可以通过线性变换将高维图像数据转换为低维的特征表示。PCA通过找到数据中的主要方差方向来提取图像的特征。
局部二值模式(LBP):LBP是一种用于纹理特征提取的方法,可以通过对图像的局部区域进行编码来提取图像的纹理特征。
在一个示例性的实施例中,以上述目标特征提取模型是CNN为例,为了轻量化,采用轻量化模型mobilenetv3。
其中,MobileNetV3是一种轻量级的卷积神经网络模型,适用于移动设备和嵌入式设备上的计算。它在保持较高的准确性的同时,具有较低的计算和内存需求。
图5是根据本申请实施例的又一种可选的标识的识别方法的示意图,MobileNetV3模型的特征提取的一个简单示例如图5所示:
S502,加载预训练的MobileNetV3模型;
S504,加载并预处理上述一组候选图像;
S506,对上述一组候选图像进行过特征提取,得到一组候选特征向量;
S508,打印一组候选特征向量的形状。
在上述示例中,首先加载了预训练的MobileNetV3Small模型,并指定了使用ImageNet数据集上预训练的权重。然后,加载并预处理了一张图像。接下来,使用预训练的模型对图像进行特征提取,得到一个特征向量。需要注意的是,由于MobileNetV3是用于图像分类任务的模型,因此它的最后一层是全局平均池化层,将图像特征转换为固定长度的特征向量。这个特征向量可以用于后续的分类、检索等任务。
需要说明的是,上述样本特征向量也是输入上述目标特征提取模型确定的特征向量,通过将样本图像中存在样本标识的样本区域输入上述目标特征提取模型,得到指示存在上述样本标识的样本特征向量。
在一个示例性的实施例中,以计算机视觉领域为背景,候选区域:指的是一个图像中可能包含目标物体的矩形区域,可以通过目标检测算法(如Faster R-CNN、YOLO等)得到。样本图像:表示一张完整的图像,其中可能包含多个样本标识。样本区域:指的是样本图像中标注为存在样本标识的部分图像区域,即需要检测出的标识在样本图像中所处的位置。
示例性地,图6是根据本申请实施例的又一种可选的标识的识别方法的示意图,如图6所示,通过使用一个目标特征提取模型,例如,预训练的卷积神经网络(CNN)模型,对候选区域和样本图像进行特征提取,包括但不限于如下步骤:
S602,对候选区域进行特征提取,以候选区域为输入,通过目标特征提取模型,可以得到对应的候选特征向量。这个向量可以看作是对候选区域的抽象表示,包含了该区域的特征信息,假设使用了一个经过预训练的ResNet模型,输入一个候选区域,该模型会输出一个向量,表示该候选区域的特征。例如,在一张街景图像中检测汽车标识。首先使用目标检测算法得到多个候选区域,然后将这些区域输入到ResNet模型中进行特征提取。对于每个候选区域,我们都可以得到一个候选特征向量,描述该区域的汽车标识特征,例如颜色、纹理、形状等。
S604,对样本图像进行特征提取,对于样本图像,需要将其中的样本区域提取出来,并对这些样本区域进行特征提取。这样可以得到样本特征向量,用于与候选特征向量进行比较。例如,需要进行企业标识识别。收集一组带有企业标识标注的图像作为样本图像。对于每张样本图像,通过检测算法找到其中的企业标识所在区域,然后将这些区域输入到目标特征提取模型中进行特征提取。最终,可以得到一组样本特征向量,每个向量表示一个企业标识所在区域的特征。
通过以上流程,可以得到了一组候选特征向量和一组样本特征向量,再用各种相似性度量方法(如欧氏距离、余弦相似度等)来计算候选特征向量与样本特征向量之间的相似程度,从而进行目标识别、检测或分类等任务。
S206,根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,其中,目标特征向量是对目标区域进行特征提取得到的特征向量,目标特征向量与样本特征向量之间的相似度满足预设条件,一组候选区域包括目标区域。
可选地,在本实施例中,上述目标特征向量可以理解为上述一组候选特征向量中与上述样本特征向量相似的向量,判断相似的标准可以包括但不限于依次判断一组候选特征向量与样本特征向量之间的相似度,组成相似度集合,将大于某个相似度阈值的多个候选特征向量中相似度排序前N个确定为上述目标特征向量。
也即,上述预设条件可以包括但不限于最低相似度阈值和top N,最低相似度阈值用于表示一组候选特征向量中是否存在与样本特征向量相似的特征向量,当不存在时,可以认为上述目标图像中不存在上述样本标识,当存在多个与样本特征向量相似的特征向量时,通过选择相似度最高的N个特征向量作为上述目标特征向量,确定出该目标图像中多个位置均存在上述样本标识。
当然,上述样本特征向量的数量可以为多个,则通过依次将一组候选特征向量与多个不同的样本特征向量进行比对,确定出与各个样本特征向量分别相似的多个目标特征向量,此时,可以理解为目标图像存在多个不同的样本标识。
可选地,在本实施例中上述目标区域可以理解为提取出上述目标特征向量的图像区域,上述目标图像的目标区域上存在样本标识可以理解为目标图像存在与样本标识相似的标识。
在一个示例性的实施例中,图7是根据本申请实施例的又一种可选的标识的识别方法的示意图,如图7所示,以对视频内容进行平台标识识别为例,包括但不限于如下步骤:
S1,从待识别的视频内容中逐帧筛选出每一帧视频图像,并将每一帧视频图像作为上述目标图像输入目标检测模型;
S2,使用目标检测模型对目标图像进行检测,得到作为目标图像的一帧视频图像中的候选区域702、候选区域704以及候选区域706共同组成的一组候选区域;
S3,将候选区域702、候选区域704以及候选区域706分别输入目标特征提取模型,得到特征向量A、特征向量B以及特征向量C,并获取预先由平台标识样本图像确定的样本特征向量M;
S4,分别计算特征向量A、特征向量B以及特征向量C与样本特征向量M之间的相似度,确定特征向量A是与样本特征向量M相似的特征向量;
S5,确定该帧视频图像存在平台标识708,且平台标识708所在区域即为特征向量A所对应的区域。
在另一个示例性的实施例中,图8是根据本申请实施例的又一种可选的标识的识别方法的示意图,如图8所示,以对行车记录仪内容进行车辆标识识别为例,包括但不限于如下步骤:
S1,从待识别的行车视频内容中逐帧筛选出每一帧行车图像,并将每一帧行车图像作为上述目标图像输入目标检测模型;
S2,使用目标检测模型对目标图像进行检测,得到作为目标图像的一帧行车图像中的候选区域802、候选区域804以及候选区域806共同组成的一组候选区域;
S3,将候选区域802、候选区域804以及候选区域806分别输入目标特征提取模型,得到特征向量A、特征向量B以及特征向量C,并获取预先由车辆标识样本图像确定的样本特征向量M;
S4,分别计算特征向量A、特征向量B以及特征向量C与样本特征向量M之间的相似度,确定特征向量A是与样本特征向量M相似的特征向量;
S5,确定该帧行车图像存在车辆标识808,且车辆标识808所在区域即为特征向量A所对应的区域。
需要说明的是,此时,即使该帧行车图像中可能存在多个车辆标识,但是,与车辆标识样本图像的车辆标识相同的车辆标识包括车辆标识808,而不包括特征向量B、特征向量C对应的车辆标识。
通过本实施例,采用对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,一组候选区域表示从目标图像中检测到存在标识的至少一个图像区域,对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,样本图像表示样本图像中的样本区域标注为存在样本标识的图像,样本特征向量是对样本区域进行特征提取得到的特征向量,根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,其中,目标特征向量是对目标区域进行特征提取得到的特征向量,目标特征向量与样本特征向量之间的相似度满足预设条件,一组候选区域包括目标区域的方式,通过使用目标检测模型对目标图像进行检测,可以得到一组候选区域,这些候选区域表示从目标图像中检测到存在标识的至少一个图像区域,然后,使用目标特征提取模型对一组候选区域和样本图像进行特征提取,可以得到一组候选特征向量和样本特征向量,根据一组候选特征向量和样本特征向量来确定目标特征向量,通过计算一组候选特征向量与样本特征向量之间的相似度,确定出满足预设条件的目标特征向量,可以达到将样本特征向量对应的样本标识确定为目标图像中存在的标识的目的,从而实现了降低图像标识的识别方式复杂度,提高标识识别效率的技术效果,进而解决了由于需要直接检测出标识的类型,导致图像标识的识别方式复杂,标识识别效率较低的技术问题。
作为一种可选的方案,对样本图像使用目标特征提取模型进行特征提取,得到样本特征向量,包括:
获取样本图像,其中,样本图像预先标注了样本标识的类型以及样本标识在样本图像的位置;
对样本图像使用目标检测模型进行检测,得到一组样本候选区域,并根据样本标识在样本图像的位置从一组样本候选区域中确定出样本区域;
对样本区域使用目标特征提取模型进行特征提取,得到样本特征向量。
可选地,在本实施例中,上述样本图像表示已标注为存在样本标识,样本标识的类型确定,且样本标识在样本图像的位置确定的图像。
在一个示例性的实施例中,首先,获取需要预先标注的样本图像,即在样本图像中标注出样本标识的类型以及样本标识在图像中的位置。接下来,使用目标检测模型对样本图像进行检测。目标检测是一种用于检测图像中特定目标的技术。例如,可以使用YOLO、Faster R-CNN等目标检测模型来检测样本图像中样本标识可能存在的一组样本候选区域。然后,需要根据样本标识在样本图像中的位置,从一组样本候选区域中确定出样本区域。这一步可以通过计算候选区域与样本标识位置之间的距离或重叠度来实现。例如,如果样本标识是一个矩形框,可以计算候选区域与矩形框的重叠度,从而确定出样本区域。最后,对样本区域使用目标特征提取模型进行特征提取,得到样本特征向量。目标特征提取是一种将图像转化为特征向量的技术,用于表示图像的内容。例如,们可以使用卷积神经网络(CNN)作为目标特征提取模型,将样本区域输入网络中,得到样本的特征向量。
通过本实施例,通过获取样本图像,使用目标检测模型进行检测,根据样本标识位置确定样本区域,并使用目标特征提取模型进行特征提取,完成了对样本图像的处理流程,达到了快速生成样本特征向量的目的。
作为一种可选的方案,对一组候选区域使用目标特征提取模型分别进行特征提取,得到一组候选特征向量,包括:分批次对一组候选区域中各个候选区域进行特征提取,得到一组候选特征向量,其中,每批次进行特征提取的候选区域数量与目标特征提取模型的处理能力相关;根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,包括:将每一批次得到的候选特征向量分别与样本特征向量执行点积操作,得到每一批次对应的相似度集合;将相似度集合中取值最高的相似度对应的候选特征向量确定为目标特征向量或者将相似度集合中取值排名前N的多个候选特征向量确定为目标特征向量,N为大于1的正整数。
可选地,在本实施例中,上述分批次对一组候选区域中各个候选区域进行特征提取可以理解为根据部署目标特征提取模型的终端设备的处理能力确定每个批次允许执行特征提取的最大图像数量,例如,终端设备包括32个线程,则上述终端设备每个批次允许执行特征提取的最大图像数量即为32个,此时,当一组候选区域中候选区域数量小于32个时,则直接在同一批次实现特征提取,当一组候选区域中候选区域数量大于32个时,例如,64个,此时,可以分两批对一组候选区域中各个候选区域进行特征提取,每批进行特征提取的候选区域为32个。
可选地,在本实施例中,上述将相似度集合中取值最高的相似度对应的候选特征向量确定为目标特征向量可以理解为从一组候选特征向量中选择出相似程度最高的候选特征向量作为上述目标特征向量,上述将相似度集合中取值排名前N的多个候选特征向量确定为目标特征向量可以理解为从一组候选特征向量中选择出相似程度最高的N个候选特征向量作为上述目标特征向量。
在一个示例性的实施例中,在图像识别中,希望通过对图像中的候选区域进行特征提取,来判断图像中是否包含某个标识。假设有一张包含汽标识1、标识2、物体3等物体的图像,将图像分成多个候选区域,每个候选区域都有可能包含标识。利用目标特征提取模型对每个候选区域进行特征提取,得到一组候选特征向量。这些特征向量表示了对应候选区域的特征。将每一批次得到的候选特征向量分别与样本特征向量执行点积操作,得到每一批次对应的相似度集合。通过计算候选特征向量与样本特征向量的点积,可以得到它们之间的相似度,相似度越高表示候选区域与目标物体越相似。一种方法是选择相似度集合中取值最高的相似度对应的候选特征向量作为目标特征向量,因为最高的相似度意味着该候选区域存在标识的可能性最大。另一种方法是选择相似度集合中取值排名前N的多个候选特征向量作为目标特征向量,其中N是大于1的正整数。这种方法可以考虑到多个候选区域均可能存在标识,从而提高识别准确度。
作为一种可选的方案,对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域之前,上述方法还包括:获取已标注的第一训练图像和未标注的第二训练图像,其中,第一训练图像标注了是否存在标识,第二训练图像未标注是否存在标识;根据第一训练图像和第二训练图像对初始检测模型进行半监督训练,得到目标检测模型。
可选地,在本实施例中,上述已标注的第一训练图像可以理解为标注了是否存在标识的,用于训练初始检测模型的训练图像,而第二训练图像可以理解为未标注的是否存在标识,用于训练初始检测模型的训练图像第二训练图像。
需要说明的是,上述初始检测模型的训练模式是半监督学习模式,也即,可以先获取少量的标注训练数据,基于标注训练数据先对初始检测模型进行初步训练,当初步训练结束之后,可以利用初步训练得到的中间检测模型为未标注训练数据进行标注,再基于标注训练数据和未标注训练数据对中间检测模型进行统一训练,最终得到上述目标检测模型。
作为一种可选的方案,根据第一训练图像和第二训练图像对初始检测模型进行半监督训练,得到目标检测模型,包括:
根据第一训练图像对初始检测模型进行训练,得到中间检测模型,其中,中间检测模型用于对第一训练图像进行检测,确定第一训练图像是否存在标识的预测结果,并根据预测结果和标注的第一训练图像是否存在标识调整初始检测模型,直到确定中间检测模型;
将第二训练图像输入中间检测模型进行标注,生成伪标签数据,其中,伪标签数据用于标注第二训练图像是否存在标识;
根据第一训练图像、第二训练图像以及伪标签数据对中间检测模型进行训练,得到目标检测模型。
可选地,在本实施例中,上述伪标签数据可以包括但不限于将未标注的第二训练数据输入预训练的中间检测模型,根据中间检测模型的输出结果进行标注。
在一个示例性的实施例中,在训练目标检测模型的过程中,需要经历一系列步骤,包括初始检测模型训练、中间检测模型生成和目标检测模型训练等。
初始检测模型训练包括:根据第一训练图像对初始检测模型进行训练,目的是通过机器学习算法使模型能够准确地识别出第一训练图像是否存在标识。例如,可以使用初始检测模型来检测第一训练图像是否存在媒体信息发布平台标识。
中间检测模型生成包括:利用初始检测模型对第一训练图像进行检测,确定第一训练图像是否存在标识的预测结果。根据预测结果和标注的第一训练图像是否存在标识,调整初始检测模型,直到生成中间检测模型。
伪标签数据生成包括:将第二训练图像输入中间检测模型进行标注,生成伪标签数据。这些伪标签数据用于标注第二训练图像是否存在标识,为后续的目标检测模型训练提供参考。
目标检测模型训练包括:根据第一训练图像、第二训练图像以及伪标签数据对中间检测模型进行训练,得到最终的目标检测模型。该模型能够在图像中准确地检测和定位感兴趣的目标物体。
作为一种可选的方案,根据第一训练图像对初始检测模型进行训练,得到中间检测模型,包括:
将第一训练图像输入初始检测模型,得到一组第一训练候选区域以及与一组第一训练候选区域一一对应的一组第一训练置信度,其中,初始检测模型设置有第一训练置信度阈值,第一训练图像标注了标识在第一训练图像中所处的第一标注位置;
根据一组第一训练置信度和第一训练置信度阈值从一组第一训练候选区域中确定出一组第一训练目标区域,其中,一组第一训练目标区域包括第一训练置信度大于或等于第一训练置信度阈值的第一训练候选区域;
根据一组第一训练目标区域和第一标注位置对初始检测模型进行训练,得到中间检测模型,其中,中间检测模型用于根据一组第一训练目标区域确定标识在第一训练图像中的第一预测位置,并根据第一预测位置和第一标注位置调整初始检测模型,直到满足第一训练条件,确定中间检测模型。
可选地,在本实施例中,上述一组第一训练候选区域是初始检测模型从第一训练图像中检测出可能存在标识的图像区域,上述第一训练置信度阈值可以根据实际需要预先设置,上述第一训练候选区域的第一训练置信度大于或等于第一训练置信度阈值。
需要说明的是,上述根据第一预测位置和第一标注位置调整初始检测模型可以理解为根据第一预测位置和第一标注位置计算检测模型损失函数,并基于检测模型损失函数进行反向传播,调整初始检测模型的模型参数,直到满足第一训练条件。
在一个示例性的实施例中,上述第一训练条件可以包括但不限于训练轮次达到某个预设轮次,初始检测模型在验证集上的准确率、召回率等指标达到某个预设指标值等。
作为一种可选的方案,根据一组第一训练目标区域和标识在第一训练图像中所处的位置对初始检测模型进行训练,得到中间检测模型之后,方法还包括:
将第一训练置信度阈值降低为第二训练置信度阈值,将第二训练图像输入中间检测模型,得到一组第二训练候选区域与一组第二训练候选区域一一对应的一组第二训练置信度,其中,中间检测模型设置有第二训练置信度阈值,第二训练图像通过中间检测模型标注了标识在第二训练图像中所处的第二标注位置;
根据一组第二训练置信度和第二训练置信度阈值从一组第二训练候选区域中确定出一组第二训练目标区域,其中,一组第二训练目标区域包括第二训练置信度大于或等于第二训练置信度阈值的第二训练候选区域;
根据第一标注位置、第一预测位置、第二标注位置以及第二预测位置对中间检测模型进行训练,调整中间检测模型,直到满足第二训练条件,得到目标检测模型,其中,第二预测位置表示中间检测模型根据一组第二训练目标区域预测得到的标识在第二训练图像中的位置。
可选地,在本实施例中,上述一组第二训练候选区域是中间检测模型从第二训练图像中检测出可能存在标识的图像区域,上述第二训练置信度阈值可以根据实际需要预先设置为小于第一训练置信度,上述第二训练候选区域的第二训练置信度大于或等于第二训练置信度阈值。
其中,上述将第一训练置信度阈值降低为第二训练置信度阈值可以增加第二训练目标区域的数量,也即,可以确定出相较于第一训练目标区域更多的第二训练目标区域。
需要说明的是,上述根据第二预测位置和第二标注位置调整中间检测模型可以理解为根据第二预测位置和第二标注位置计算检测模型损失函数,并基于检测模型损失函数进行反向传播,调整初始检测模型的模型参数,直到满足第二训练条件。
在一个示例性的实施例中,上述第二训练条件可以包括但不限于训练轮次达到某个预设轮次,中间检测模型在验证集上的准确率、召回率等指标达到某个预设指标值等。
需要说明的是,上述第二训练条件可以与第一训练条件不同。
作为一种可选的方案,对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量之前,方法还包括:
获取锚点样本区域、正样本区域和负样本区域,其中,正样本区域与锚点样本区域均具有第一样本标识,负样本区域具有第二样本标识,第一样本标识与第二样本标识属于不同类别;
根据锚点样本区域、正样本区域和负样本区域对初始特征提取模型训练,得到目标特征提取模型。
在一个示例性的实施例中,获取锚点样本区域、正样本区域和负样本区域,是指在目标检测或图像识别任务中,根据已有的标注信息和预定义的规则,从原始图像中选取具有特定属性的区域作为不同类别的样本。
下面将以目标检测任务为例,对这一流程进行详细说明。
假设要进行标识检测任务,其中锚点样本区域、正样本区域和负样本区域的定义如下:
锚点样本区域:指的是在原始图像中,与真实标识位置相近的区域。这些区域通常是根据标识标注框的位置和大小,以一定的比例缩放或扩展得到的。
正样本区域:指的是包含真实标识的区域,其位置和大小与锚点样本区域一致。这些区域是根据标识标注框的位置和大小,直接在原始图像中截取得到的。
负样本区域:指的是不包含真实标识的区域,与锚点样本区域的位置和大小一致。这些区域可以是在锚点样本区域周围随机选取的,或者是在图像中与真实标识位置相隔较远的区域。
接下来,将使用获取的锚点样本区域、正样本区域和负样本区域来训练初始特征提取模型。特征提取模型是一个神经网络,用于从图像中提取具有区分度的特征表示。训练过程一般包括以下几个步骤:
S1,数据准备:将获取的锚点样本区域、正样本区域和负样本区域转换为网络输入的格式,通常是将图像进行预处理(如尺寸调整、归一化等)。
S2,构建网络结构:设计并构建一个适合目标检测任务的特征提取网络,常见的有卷积神经网络(CNN)。
S3,模型训练:使用获取到的锚点样本区域、正样本区域和负样本区域作为训练数据,通过反向传播和优化算法(如随机梯度下降)来更新网络参数,使得网络能够学习到良好的特征表示。
S4,模型评估:使用验证集或测试集对训练得到的特征提取模型进行评估,计算模型在目标检测指标上的表现,如准确率、召回率等。
最终,通过多次训练和调整网络结构,可以得到一个目标特征提取模型,该模型能够从输入图像中提取到具有区分度的特征表示,用于后续的目标检测任务。
通过本实施例,获取锚点样本区域、正样本区域和负样本区域,并根据这些区域进行特征提取模型训练,是目标检测任务中的重要步骤。这一流程通过使用具体应用场景中的样本数据,能够有效地提高特征提取模型的性能,从而提升目标检测的准确性和鲁棒性。
作为一种可选的方案,根据锚点样本区域、正样本区域和负样本区域对初始特征提取模型训练,得到目标特征提取模型,包括:
将锚点样本区域、正样本区域和负样本区域分别输入初始特征提取模型进行特征提取,得到锚点特征向量、正样本特征向量和负样本特征向量;
利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
可选地,在本实施例中,上述锚点样本区域是指在目标检测任务中,通过定义一系列锚点(也称为先验框)来表示可能包含目标的区域。这些锚点通常是在图像上以一定的规则生成的,可以覆盖不同大小、长宽比的目标。
单一尺度的锚点样本区域:在这种情况下,所有锚点的大小和长宽比都是相同的。例如,可以使用一个固定大小和长宽比的锚点网格,覆盖整个图像,每个锚点都被认为是一个样本区域。
多尺度的锚点样本区域:在这种情况下,不同尺度的锚点被用来检测不同大小的目标。例如,可以定义一系列具有不同大小和长宽比的锚点,然后将这些锚点应用于图像的不同区域,以覆盖不同尺度的目标。
长宽比变化的锚点样本区域:在这种情况下,锚点的长宽比会随着位置的变化而变化。例如,在图像的上部分,可以定义一组更适合于检测竖直目标的锚点,而在图像的中部,可以定义一组更适合于检测水平目标的锚点。
不规则形状的锚点样本区域:在这种情况下,锚点的形状可以是不规则的,以适应特定目标的形状。
这些只是锚点样本区域的一些举例,实际上在目标检测领域中有很多不同的方法和技术来定义和生成锚点样本区域。
在一个示例性的实施例中,使用一个初始特征提取模型来提取锚点样本区域、正样本区域和负样本区域的特征。特征提取模型通常是由卷积神经网络构成,可以将输入图像转换为一个固定长度的特征向量。通过对锚点样本区域、正样本区域和负样本区域分别输入特征提取模型,可以得到锚点特征向量、正样本特征向量和负样本特征向量。接下来,利用这些特征向量来计算目标损失值。目标损失值是衡量模型预测结果与真实标签之间差异的指标。常用的目标损失函数包括交叉熵损失和均方误差损失。通过计算锚点特征向量、正样本特征向量和负样本特征向量与对应的标签之间的损失,可以得到目标损失值。根据目标损失值,调整初始特征提取模型,使得模型能够更好地适应训练数据。这个调整过程通常通过反向传播算法和优化算法来实现。反向传播算法可以计算出目标损失函数对于模型参数的梯度,而优化算法则根据梯度来更新模型参数。通过多次迭代调整模型,可以逐渐减小目标损失值,提高模型的性能。
在一个示例性的实施例中,上述第三训练条件可以包括但不限于训练轮次达到某个预设轮次,中间检测模型在验证集上的准确率、召回率等指标达到某个预设指标值等。
需要说明的是,上述第三训练条件可以与第一训练条件和第二训练条件不同。满足第三训练条件,即目标特征提取模型已经达到了预期的性能水平。
作为一种可选的方案,利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型,包括:
根据锚点特征向量、正样本特征向量和负样本特征向量计算第一损失值,其中,目标损失值包括第一损失值,第一损失值表示第一相似度之和与第二相似度之和的比值,第一相似度之和表示锚点特征向量与各个负样本特征向量的相似度之和,第二相似度之和表示锚点特征向量与各个正样本特征向量的相似度以及锚点特征向量与各个负样本特征向量的相似度之和;
通过最大化第一相似度之和,且最小化第二相似度之和调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
在一个示例性的实施例中,使用锚点特征向量、正样本特征向量和负样本特征向量来计算第一损失值。这个第一损失值是目标损失值中的一部分,它表示第一相似度之和与第二相似度之和的比值。
需要说明的是,上述第一相似度之和是指锚点特征向量与各个负样本特征向量的相似度之和。这个相似度可以通过某种相似度度量方法,比如余弦相似度,来计算得到。第二相似度之和则表示锚点特征向量与各个正样本特征向量的相似度以及锚点特征向量与各个负样本特征向量的相似度之和。通过计算这个比值,可以评估目标特征提取模型在正样本和负样本之间的相对相似度。
为了调整初始特征提取模型,希望最大化第一相似度之和,同时最小化第二相似度之和。通过这样的调整,可以使得目标特征提取模型更好地区分正样本和负样本。不断迭代地进行这个调整过程,直到满足第三训练条件。
作为一种可选的方案,利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型的模型参数,直到满足预设训练条件,确定目标特征提取模型,包括:
根据锚点特征向量、正样本特征向量和负样本特征向量计算第二损失值,其中,目标损失值包括第二损失值,第二损失值表示第一距离和第二距离的差值,第一距离表示锚点特征向量与正样本特征向量在预设向量空间中的距离,第二距离表示锚点特征向量与负样本特征向量在预设向量空间中的距离;
通过最小化第一距离,且最大化第二距离调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
在一个示例性的实施例中,第一距离表示锚点特征向量与正样本特征向量在预设向量空间中的距离,它衡量了两个向量在特征空间中的相似度。第二距离表示锚点特征向量与负样本特征向量在预设向量空间中的距离,它衡量了锚点特征向量与负样本特征向量之间的差异。通过最小化第一距离,可以使得锚点特征向量与正样本特征向量更加接近,从而提高模型对正样本的识别准确性。同时,通过最大化第二距离,可以使得锚点特征向量与负样本特征向量之间的差异更大,从而增加模型对负样本的区分能力。
在调整初始特征提取模型的过程中,通过不断迭代来优化模型。具体而言,通过计算第二损失值,并利用梯度下降等优化方法来更新模型参数,以达到最小化第一距离和最大化第二距离的目标。这个过程会一直进行,直到满足第三训练条件为止。
下面结合具体的示例,对本申请进行进一步的解释说明:
本申请的技术关键点包括但不限于Logo识别的算法方案。其大致分为训练和推理两个部分:
模型训练阶段:
S1,通用Logo检测:利用深度学习的目标检测算法Yolo-v8,在训练集图像中检测出所有可能的Logo区域。将这些检测到的Logo区域作为训练样本,为后续的识别步骤提供基础。
S2,基于对比学习的Logo识别:首先,使用对比学习训练一个图像特征提取器。这个提取器可以从检测到的疑似Logo区域中提取有用的特征信息。
在线推理阶段:
S1,Logo检测:使用训练好的目标检测模型,在输入图像中检测出可能存在Logo的Logo区域。
S2,区域特征提取:使用训练好的特征提取器,从疑似Logo区域中提取特征信息。
S3,相似度比对:特征与业务Logo库中的Logo特征进行相似度比对,根据阈值得到结果。
通过本实施例,可以降低标注成本:只需要收集个位数logo样本即可匹配识别;可以快速适应业务变化:当业务需要增加或删除Logo类别时,只需更新Logo库,而无需重新训练整个模型,这大大提高了业务适应性和灵活性,缩短了业务上线时间;可以保持模型稳定性:由于新增Logo不需要重新训练模型,因此原有类别的效果不会受到衰减,保证了模型在不同类别上的稳定性和准确性。本申请通过将检测和比对两个阶段通用化,使模型不用在新增Logo时重复训练,降低训练成本;针对每个Logo,业务仅需准备个位数的比对模板,降低Logo标注成本,同时,加强了业务对策略的管控。
需要说明的是,针对待检测的图像是单个图像,本申请可以返回检测出来的每个Logo的[名字,位置(x,y,w,h),置信度(0~1)],针对待检测的图像是某个视频中的图像,会在上述信息基础上,增加一个Logo出现时间。
在一个示例性的实施例中,本申请包括但不限于由三部分组成,1)疑似Logo区域检测模块(对应于前述的目标检测模型);2)区域特征提取模块(对应于前述的目标特征提取模型);3)Logo库特征相似比对模块;其中,疑似Logo区域检测模块、区域特征提取模块需要训练一次,Logo库特征相似比对模块无须训练。
其中,Logo区域检测模块的作用是对图像中疑似Logo的区域进行检出,在这里主要用到了目标检测、半监督学习的技术,包括但不限于如下内容:当前,最常见的目标检测模型是yolo系列,它是一系列单阶段的目标检测器。经过社区迭代,当前的yolo-v8是一个SOTA模型,它建立在以前YOLO版本的成功基础上,并引入了新的功能和改进,以进一步提升性能和灵活性,可以在从CPU到GPU的各种硬件平台上运行。本申请可以包括但不限于利用yolo-v8作为检测器,也可以替换其他目标检测模型。
在模型训练的时候,通过引入半监督学习的模式,来尽可能提取所有的疑似Logo区域。图9是根据本申请实施例的又一种可选的标识的识别方法的示意图,半监督学习如图9所示,首先通过已标注数据(labeled data)训练得到一个model,然后用model对未标注的数据(unlabeled data)进行标注,得到伪标签数据(pseudo labeled data),用合并起来的数据,训练新的模型。
需要说明的是,通过已有的训练数据,将所有标识默认成一类,即通用Logo,可以训练得到一个Logo的base模型。然后用该base模型对训练数据进行推理,通过降低置信度,生成新的检测框,作为伪标签。伪标签数据和原来的标签数据合并,训练得到新的模型。这个新模型相比老模型拥有更通用的Logo检测能力。
在推理环节,采用训练完成的模型,对图像的Logo区域进行检测。检测出Logo后,由于Logo通常不会占据非常大的空间,采用一个Logo相对面积,对候选区域进行过滤,得到疑似Logo区域。
其中,区域特征提取模块可以包括但不限于由一个轻量级的CNN网络得到,通过引入对比学习的方式,来增强模型对区域的特征表达。CNN模型即卷积神经网络,常用于图像分类等任务。这里为了轻量化,采用了比较常用的轻量化模型,即mobilenetv3,这里不再赘述结构和原理,主要讲述训练方案,也可以替换为别的CNN模型。
对比学习的主要目的是得到一个输入的embedding向量,使得在这个embedding空间中,相似对象间的距离小,不相似对象间的距离大。以此来达到通过相似度比对来进行图像验证的问题。
具体实现过程中,使用了Info-NCE Loss+Triplet Loss合并的方式,来对模型的特征进行提取,下面分别介绍一下这两个Loss:
Info-NCE(对应于前述的第一损失值):
该Loss的设定是针对anchor样本区域,采样N个样本区域,其中,a个为正样本,和N-a个负样本区域,通过最大化锚点样本区域和正样本区域以及负样本区域的相似度之和,最小化锚点样本区域与负样本区域的相似度之和,来对embedding进行优化,如下:
选定一个训练样本上检测出的候选训练区域,认定为anchor样本区域,在同一批数据集再采样N个样本区域,要求有正样本区域和负样本区域。
针对Logo场景,由于已经在训练数据对Logo的类别进行了标注,同一个batch内可能存在多个与Anchor为同一类别的样本区域,所以对Info-NCE如下:
L(anchor,positive,negatives)=-log(exp(anchor*positive))/
(exp(anchor*positive))+sum(exp(anchor*negatives))
其中,anchor表示上述锚点样本区域,positives表示上述正样本区域,negatives上述负样本区域,sum表示求和函数运算,exp表示指数函数运算,log表示对数函数运算。即在Loss的分母处,将多个正样本区域的相似度相加,Info-NCE Loss被用在原始数据集上。Pseudo label数据集上采用原生的Loss。
Triplet Loss(对应于前述的第二损失值):
Triplet Loss基于三元组(锚点样本区域、正样本区域和负样本区域)进行训练,优化目标是使得锚点与正样本之间的欧氏距离尽可能小,同时使得锚点与负样本之间的欧氏距离尽可能大。Triplet Loss直接优化样本之间的距离,关注距离度量。其Loss形式如下:
L(anchor,positive,negative)=max(0,D(anchor,positive)-D(anchor,
negative)+margin)
其中,anchor表示上述锚点样本区域,positives表示上述正样本区域,negatives上述负样本区域,D表示距离,margin表示锚点和负样本之间的距离和锚点与正样本之间的距离之间差值的阈值。
针对Triplet Loss,应用到原生的label上,pseudo label上不进行计算。
通过对比学习训练得到的模型,可以对检测出来的Logo区域进行良好的特征提取。在推理时,针对图像,采用Batch化推理,即同时对一张图像的多个区域进行特征提取,提升推理速度。针对视频,对多个采样帧的区域,进行Batch化推理,同样是用于提升速度。
其中,相似度比对模块主要用于对提取出来的区域特征,进行特征相似比对。在这里,首先对业务需要识别的Logo,建立一个logo图像库,然后对其提取特征embedding并存储,用于后续比对。线上模型获取到图像后,经过检测和特征提取,可以得到区域embedding,并与业务图像库做点积,得到embedding间的相似度。根据预先设置的相似度阈值,对是否命中业务logo做筛选,给出logo识别结果。
需要说明的是,还可以整合上述区域检测和特征提取这两个流程,直接在检测的时候,将区域的embedding也提取出来,提升模型推理速度。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述标识的识别方法的标识的识别装置,图10是根据本申请实施例的一种可选的标识的识别装置的结构示意图,如图10所示,该装置包括:
检测模块1002,用于对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,一组候选区域表示从目标图像中检测到存在标识的至少一个图像区域;
提取模块1004,用于对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,样本图像表示样本图像中的样本区域标注为存在样本标识的图像,样本特征向量是对样本区域进行特征提取得到的特征向量;
确定模块1006,用于根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,其中,目标特征向量是对目标区域进行特征提取得到的特征向量,目标特征向量与样本特征向量之间的相似度满足预设条件,一组候选区域包括目标区域。
作为一种可选的方案,装置用于通过如下方式对样本图像使用目标特征提取模型进行特征提取,得到样本特征向量:获取样本图像,其中,样本图像预先标注了样本标识的类型以及样本标识在样本图像的位置;对样本图像使用目标检测模型进行检测,得到一组样本候选区域,并根据样本标识在样本图像的位置从一组样本候选区域中确定出样本区域;对样本区域使用目标特征提取模型进行特征提取,得到样本特征向量。
作为一种可选的方案,装置用于通过如下方式对一组候选区域使用目标特征提取模型分别进行特征提取,得到一组候选特征向量:分批次对一组候选区域中各个候选区域进行特征提取,得到一组候选特征向量,其中,每批次进行特征提取的候选区域数量与目标特征提取模型的处理能力相关;装置用于通过如下方式根据一组候选特征向量和样本特征向量确定目标特征向量,并根据目标特征向量确定目标图像的目标区域上存在样本标识,包括:将每一批次得到的候选特征向量分别与样本特征向量执行点积操作,得到每一批次对应的相似度集合;将相似度集合中取值最高的相似度对应的候选特征向量确定为目标特征向量或者将相似度集合中取值排名前N的多个候选特征向量确定为目标特征向量,N为大于1的正整数。
作为一种可选的方案,装置还用于:对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域之前,获取已标注的第一训练图像和未标注的第二训练图像,其中,第一训练图像标注了是否存在标识,第二训练图像未标注是否存在标识;根据第一训练图像和第二训练图像对初始检测模型进行半监督训练,得到目标检测模型。
作为一种可选的方案,装置用于通过如下方式根据第一训练图像和第二训练图像对初始检测模型进行半监督训练,得到目标检测模型:根据第一训练图像对初始检测模型进行训练,得到中间检测模型,其中,中间检测模型用于对第一训练图像进行检测,确定第一训练图像是否存在标识的预测结果,并根据预测结果和标注的第一训练图像是否存在标识调整初始检测模型,直到确定中间检测模型;将第二训练图像输入中间检测模型进行标注,生成伪标签数据,其中,伪标签数据用于标注第二训练图像是否存在标识;根据第一训练图像、第二训练图像以及伪标签数据对中间检测模型进行训练,得到目标检测模型。
作为一种可选的方案,装置用于通过如下方式根据第一训练图像对初始检测模型进行训练,得到中间检测模型:将第一训练图像输入初始检测模型,得到一组第一训练候选区域以及与一组第一训练候选区域一一对应的一组第一训练置信度,其中,初始检测模型设置有第一训练置信度阈值,第一训练图像标注了标识在第一训练图像中所处的第一标注位置;根据一组第一训练置信度和第一训练置信度阈值从一组第一训练候选区域中确定出一组第一训练目标区域,其中,一组第一训练目标区域包括第一训练置信度大于或等于第一训练置信度阈值的第一训练候选区域;根据一组第一训练目标区域和第一标注位置对初始检测模型进行训练,得到中间检测模型,其中,中间检测模型用于根据一组第一训练目标区域确定标识在第一训练图像中的第一预测位置,并根据第一预测位置和第一标注位置调整初始检测模型,直到满足第一训练条件,确定中间检测模型。
作为一种可选的方案,装置还用于:根据一组第一训练目标区域和标识在第一训练图像中所处的位置对初始检测模型进行训练,得到中间检测模型之后,将第一训练置信度阈值降低为第二训练置信度阈值,将第二训练图像输入中间检测模型,得到一组第二训练候选区域与一组第二训练候选区域一一对应的一组第二训练置信度,其中,中间检测模型设置有第二训练置信度阈值,第二训练图像通过中间检测模型标注了标识在第二训练图像中所处的第二标注位置;根据一组第二训练置信度和第二训练置信度阈值从一组第二训练候选区域中确定出一组第二训练目标区域,其中,一组第二训练目标区域包括第二训练置信度大于或等于第二训练置信度阈值的第二训练候选区域;根据第一标注位置、第一预测位置、第二标注位置以及第二预测位置对中间检测模型进行训练,调整中间检测模型,直到满足第二训练条件,得到目标检测模型,其中,第二预测位置表示中间检测模型根据一组第二训练目标区域预测得到的标识在第二训练图像中的位置。
作为一种可选的方案,装置还用于:对一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量之前,获取锚点样本区域、正样本区域和负样本区域,其中,正样本区域与锚点样本区域均具有第一样本标识,负样本区域具有第二样本标识,第一样本标识与第二样本标识属于不同类别;根据锚点样本区域、正样本区域和负样本区域对初始特征提取模型训练,得到目标特征提取模型。
作为一种可选的方案,装置用于通过如下方式根据锚点样本区域、正样本区域和负样本区域对初始特征提取模型训练,得到目标特征提取模型:将锚点样本区域、正样本区域和负样本区域分别输入初始特征提取模型进行特征提取,得到锚点特征向量、正样本特征向量和负样本特征向量;利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
作为一种可选的方案,装置用于通过如下方式利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型:根据锚点特征向量、正样本特征向量和负样本特征向量计算第一损失值,其中,目标损失值包括第一损失值,第一损失值表示第一相似度之和与第二相似度之和的比值,第一相似度之和表示锚点特征向量与各个负样本特征向量的相似度之和,第二相似度之和表示锚点特征向量与各个正样本特征向量的相似度以及锚点特征向量与各个负样本特征向量的相似度之和;通过最大化第一相似度之和,且最小化第二相似度之和调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
作为一种可选的方案,装置用于通过如下方式利用锚点特征向量、正样本特征向量和负样本特征向量计算目标损失值,根据目标损失值调整初始特征提取模型的模型参数,直到满足预设训练条件,确定目标特征提取模型:根据锚点特征向量、正样本特征向量和负样本特征向量计算第二损失值,其中,目标损失值包括第二损失值,第二损失值表示第一距离和第二距离的差值,第一距离表示锚点特征向量与正样本特征向量在预设向量空间中的距离,第二距离表示锚点特征向量与负样本特征向量在预设向量空间中的距离;通过最小化第一距离,且最大化第二距离调整初始特征提取模型,直到满足第三训练条件,确定目标特征提取模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理器1101(Central Processing Unit,CPU),其可以根据存储在只读存储器1102(Read-Only Memory,ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中,还存储有系统操作所需的各种程序和数据。中央处理器1101、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口,即I/O接口)也连接至总线1104。
以下部件连接至输入/输出接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时,执行本申请的系统中限定的各种功能。
在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时,执行本申请实施例提供的各种功能。
根据本申请实施例的又一个方面,还提供了一种用于实施上述标识的识别方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图12所示,该电子设备包括存储器1202和处理器1204,该存储器1202中存储有计算机程序,该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行本申请各实施例中的方法。
可选地,本领域普通技术人员可以理解,图12所示的结构仅为示意,图12其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等),或者具有与图12所示不同的配置。
其中,存储器1202可用于存储软件程序以及模块,如本申请实施例中的标识的识别方法和装置对应的程序指令/模块,处理器1204通过运行存储在存储器1202内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的标识的识别方法。存储器1202可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1202可进一步包括相对于处理器1204远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1202具体可以但不限于用于存储特征向量等信息。作为一种示例,如图12所示,上述存储器1202中可以但不限于包括上述标识的识别装置中的检测模块1002、提取模块1004以及确定模块1006。此外,还可以包括但不限于上述标识的识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1206包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1206为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1208,用于显示上述识别出的标识;和连接总线1210,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机可读存储介质,电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述标识的识别方面的各种可选实现方式中提供的标识的识别方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行本申请各实施例中的方法。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台电子设备执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的应用程序,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (15)
1.一种标识的识别方法,其特征在于,包括:
对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,所述一组候选区域表示从所述目标图像中检测到存在标识的至少一个图像区域;
对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,所述样本图像表示所述样本图像中的样本区域标注为存在样本标识的图像,所述样本特征向量是对所述样本区域进行特征提取得到的特征向量;
根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,其中,所述目标特征向量是对所述目标区域进行特征提取得到的特征向量,所述目标特征向量与所述样本特征向量之间的相似度满足预设条件,所述一组候选区域包括所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述对样本图像使用目标特征提取模型进行特征提取,得到样本特征向量,包括:
获取所述样本图像,其中,所述样本图像预先标注了所述样本标识的类型以及所述样本标识在所述样本图像的位置;
对所述样本图像使用所述目标检测模型进行检测,得到一组样本候选区域,并根据所述样本标识在所述样本图像的位置从所述一组样本候选区域中确定出所述样本区域;
对所述样本区域使用所述目标特征提取模型进行特征提取,得到所述样本特征向量。
3.根据权利要求1所述的方法,其特征在于,
所述对所述一组候选区域使用目标特征提取模型分别进行特征提取,得到一组候选特征向量,包括:分批次对所述一组候选区域中各个候选区域进行特征提取,得到所述一组候选特征向量,其中,每批次进行特征提取的候选区域数量与所述目标特征提取模型的处理能力相关;
所述根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,包括:将每一批次得到的所述候选特征向量分别与所述样本特征向量执行点积操作,得到每一批次对应的相似度集合;将所述相似度集合中取值最高的相似度对应的候选特征向量确定为所述目标特征向量或者将所述相似度集合中取值排名前N的多个候选特征向量确定为所述目标特征向量,N为大于1的正整数。
4.根据权利要求1所述的方法,其特征在于,所述对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域之前,所述方法还包括:
获取已标注的第一训练图像和未标注的第二训练图像,其中,所述第一训练图像标注了是否存在标识,所述第二训练图像未标注是否存在标识;
根据所述第一训练图像和所述第二训练图像对初始检测模型进行半监督训练,得到所述目标检测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一训练图像和所述第二训练图像对初始检测模型进行半监督训练,得到所述目标检测模型,包括:
根据所述第一训练图像对初始检测模型进行训练,得到中间检测模型,其中,所述中间检测模型用于对所述第一训练图像进行检测,确定所述第一训练图像是否存在标识的预测结果,并根据所述预测结果和标注的所述第一训练图像是否存在标识调整所述初始检测模型,直到确定所述中间检测模型;
将所述第二训练图像输入所述中间检测模型进行标注,生成伪标签数据,其中,所述伪标签数据用于标注所述第二训练图像是否存在标识;
根据所述第一训练图像、所述第二训练图像以及所述伪标签数据对所述中间检测模型进行训练,得到所述目标检测模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一训练图像对初始检测模型进行训练,得到中间检测模型,包括:
将所述第一训练图像输入所述初始检测模型,得到一组第一训练候选区域以及与所述一组第一训练候选区域一一对应的一组第一训练置信度,其中,所述初始检测模型设置有第一训练置信度阈值,所述第一训练图像标注了标识在所述第一训练图像中所处的第一标注位置;
根据所述一组第一训练置信度和所述第一训练置信度阈值从所述一组第一训练候选区域中确定出一组第一训练目标区域,其中,所述一组第一训练目标区域包括所述第一训练置信度大于或等于所述第一训练置信度阈值的所述第一训练候选区域;
根据所述一组第一训练目标区域和所述第一标注位置对所述初始检测模型进行训练,得到中间检测模型,其中,所述中间检测模型用于根据所述一组第一训练目标区域确定标识在所述第一训练图像中的第一预测位置,并根据所述第一预测位置和所述第一标注位置调整所述初始检测模型,直到满足第一训练条件,确定所述中间检测模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述一组第一训练目标区域和标识在所述第一训练图像中所处的位置对所述初始检测模型进行训练,得到中间检测模型之后,所述方法还包括:
将所述第一训练置信度阈值降低为第二训练置信度阈值,将所述第二训练图像输入所述中间检测模型,得到一组第二训练候选区域与所述一组第二训练候选区域一一对应的一组第二训练置信度,其中,所述中间检测模型设置有所述第二训练置信度阈值,所述第二训练图像通过所述中间检测模型标注了标识在所述第二训练图像中所处的第二标注位置;
根据所述一组第二训练置信度和所述第二训练置信度阈值从所述一组第二训练候选区域中确定出一组第二训练目标区域,其中,所述一组第二训练目标区域包括所述第二训练置信度大于或等于所述第二训练置信度阈值的所述第二训练候选区域;
根据所述第一标注位置、所述第一预测位置、所述第二标注位置以及第二预测位置对所述中间检测模型进行训练,调整所述中间检测模型,直到满足第二训练条件,得到所述目标检测模型,其中,所述第二预测位置表示所述中间检测模型根据所述一组第二训练目标区域预测得到的标识在所述第二训练图像中的位置。
8.根据权利要求1所述的方法,其特征在于,所述对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量之前,所述方法还包括:
获取锚点样本区域、正样本区域和负样本区域,其中,所述正样本区域与所述锚点样本区域均具有第一样本标识,所述负样本区域具有第二样本标识,所述第一样本标识与第二样本标识属于不同类别;
根据所述锚点样本区域、所述正样本区域和所述负样本区域对初始特征提取模型训练,得到所述目标特征提取模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述锚点样本区域、所述正样本区域和所述负样本区域对初始特征提取模型训练,得到所述目标特征提取模型,包括:
将所述锚点样本区域、所述正样本区域和所述负样本区域分别输入所述初始特征提取模型进行特征提取,得到锚点特征向量、正样本特征向量和负样本特征向量;
利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型,直到满足第三训练条件,确定所述目标特征提取模型。
10.根据权利要求9所述的方法,其特征在于,所述利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型,直到满足第三训练条件,确定所述目标特征提取模型,包括:
根据所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算第一损失值,其中,所述目标损失值包括所述第一损失值,所述第一损失值表示第一相似度之和与第二相似度之和的比值,所述第一相似度之和表示所述锚点特征向量与各个所述负样本特征向量的相似度之和,所述第二相似度之和表示所述锚点特征向量与各个所述正样本特征向量的相似度以及所述锚点特征向量与各个所述负样本特征向量的相似度之和;
通过最大化所述第一相似度之和,且最小化所述第二相似度之和调整所述初始特征提取模型,直到满足所述第三训练条件,确定所述目标特征提取模型。
11.根据权利要求9所述的方法,其特征在于,所述利用所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算目标损失值,根据所述目标损失值调整所述初始特征提取模型的模型参数,直到满足预设训练条件,确定所述目标特征提取模型,包括:
根据所述锚点特征向量、所述正样本特征向量和所述负样本特征向量计算第二损失值,其中,所述目标损失值包括所述第二损失值,所述第二损失值表示第一距离和第二距离的差值,所述第一距离表示所述锚点特征向量与所述正样本特征向量在预设向量空间中的距离,所述第二距离表示所述锚点特征向量与所述负样本特征向量在所述预设向量空间中的距离;
通过最小化所述第一距离,且最大化所述第二距离调整所述初始特征提取模型,直到满足所述第三训练条件,确定所述目标特征提取模型。
12.一种标识的识别装置,其特征在于,包括:
检测模块,用于对待识别的目标图像使用目标检测模型进行检测,得到一组候选区域,其中,所述一组候选区域表示从所述目标图像中检测到存在标识的至少一个图像区域;
提取模块,用于对所述一组候选区域和样本图像使用目标特征提取模型分别进行特征提取,得到一组候选特征向量和样本特征向量,其中,所述样本图像表示所述样本图像中的样本区域标注为存在样本标识的图像,所述样本特征向量是对所述样本区域进行特征提取得到的特征向量;
确定模块,用于根据所述一组候选特征向量和所述样本特征向量确定目标特征向量,并根据所述目标特征向量确定所述目标图像的目标区域上存在所述样本标识,其中,所述目标特征向量是对所述目标区域进行特征提取得到的特征向量,所述目标特征向量与所述样本特征向量之间的相似度满足预设条件,所述一组候选区域包括所述目标区域。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的计算机程序,其中,所述计算机程序可被电子设备运行时执行所述权利要求1至11任一项中所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11任一项中所述方法的步骤。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311488488.2A CN117541824A (zh) | 2023-11-08 | 2023-11-08 | 标识的识别方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311488488.2A CN117541824A (zh) | 2023-11-08 | 2023-11-08 | 标识的识别方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117541824A true CN117541824A (zh) | 2024-02-09 |
Family
ID=89795072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311488488.2A Pending CN117541824A (zh) | 2023-11-08 | 2023-11-08 | 标识的识别方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541824A (zh) |
-
2023
- 2023-11-08 CN CN202311488488.2A patent/CN117541824A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lian et al. | Road extraction methods in high-resolution remote sensing images: A comprehensive review | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN108304835A (zh) | 文字检测方法和装置 | |
CN112101165A (zh) | 兴趣点识别方法、装置、计算机设备和存储介质 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
Alsabhan et al. | Automatic building extraction on satellite images using Unet and ResNet50 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
Yadav et al. | An improved deep learning-based optimal object detection system from images | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN114418021B (zh) | 模型优化方法、装置及计算机程序产品 | |
CN106355210A (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
Kurath et al. | OSMDeepOD-Object Detection on Orthophotos with and for VGI | |
CN116664873B (zh) | 图像信息处理方法、装置及存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 | |
Zhang et al. | Wild plant data collection system based on distributed location | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 | |
CN112015937B (zh) | 一种图片地理定位方法及系统 | |
CN114663835A (zh) | 一种行人跟踪方法、系统、设备及存储介质 | |
CN117541824A (zh) | 标识的识别方法和装置、存储介质及电子设备 | |
CN113282781A (zh) | 图像检索方法及装置 | |
CN117058498B (zh) | 分割图评估模型的训练方法、分割图的评估方法及装置 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |