CN118015290A - 图像特征处理方法、图像对比方法、模型训练方法及装置 - Google Patents
图像特征处理方法、图像对比方法、模型训练方法及装置 Download PDFInfo
- Publication number
- CN118015290A CN118015290A CN202410418358.XA CN202410418358A CN118015290A CN 118015290 A CN118015290 A CN 118015290A CN 202410418358 A CN202410418358 A CN 202410418358A CN 118015290 A CN118015290 A CN 118015290A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- vector
- sample
- modified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000003672 processing method Methods 0.000 title claims abstract description 38
- 238000012986 modification Methods 0.000 claims abstract description 239
- 230000004048 modification Effects 0.000 claims abstract description 239
- 238000003384 imaging method Methods 0.000 claims abstract description 134
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 198
- 230000000007 visual effect Effects 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 50
- 238000006243 chemical reaction Methods 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010191 image analysis Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012821 model calculation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 101100012775 Zea mays FEA2 gene Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像特征处理方法、图像对比方法、模型训练方法、装置、电子设备及计算机可读存储介质,图像特征处理方法包括:获取待处理图像;从待处理图像中提取出预设特征类型的目标特征;获取用自然语言描述的修改指令,修改指令用于指示将目标特征修改为与预设成像条件相对应的特征;将目标特征修改为与修改指令所指示的预设成像条件相对应的修改后特征。本申请提供的方案能够从待处理图像中识别出与所需成像条件相匹配的图像特征,这样,当将参考图像的成像条件作为所需成像条件时,能够使得识别出的图像特征与参考图像的成像条件相一致,更好地避免了进行图像特征对比时出错的现象,提高了应用图像特征提取进行图像分析的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种图像特征处理方法、图像对比方法、模型训练方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能AI技术的发展,图像检索被越来越广泛地应用与各行各业,图像检索通常是从待处理图像中识别出所需特征,并将识别出的特征与参考图像的特征进行对比以进行后续相关分析。例如,可以识别图像中的人脸并与参考图像的人脸进行对比而追踪某个人的行踪,识别图像中的车辆并与参考图像的车辆进行对比以统计某种类型车的车流量,识别图像中的行人并与参考图像的行人进行对比而统计顾客人群分布、分析商品关注度分布等。
然而,在实际应用中,待处理图像的成像条件与参考图像的成像条件可能并不相同,例如,参考图像是夜晚照片而待处理图像是白天照片,参考图像是手机拍摄的图像而待处理图像是监控摄像头拍摄的图像,待处理图像与参考图像中人体的身体姿态、动作存在差异等,这些成像条件的差异可能会导致对比存在误差,使得图像对比检索出错,影响了应用图像识别进行图像分析的准确性。
发明内容
本申请提供一种图像特征处理方法、图像对比方法、装置、电子设备及计算机可读存储介质。能够从待处理图像中识别出与所需成像条件相匹配的图像特征,这样,当将参考图像的成像条件作为所需成像条件时,能够使得识别出的图像特征与参考图像的成像条件相一致,更好地避免了进行图像特征对比时出错的现象,提高了应用图像特征提取进行图像分析的准确性。具体方案如下:
第一方面,本申请提供了一种图像特征处理方法,所述方法包括:
获取待处理图像;
从所述待处理图像中提取出预设特征类型的目标特征;
获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
第二方面,本申请实施例提供了一种图像对比方法,所述方法包括:
获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一方面中任一项所述的图像特征处理方法处理得到的修改后特征;
将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
第三方面,本申请还提供了一种模型训练方法,包括:
获取训练样本,所述训练样本包括第一样本图像、第二样本图像与样本修改指令,所述第二样本图像与所述第一样本图像对应的预设特征类型的特征身份相同,且所述第二样本图像与所述第一样本图像的预设类型的成像条件不同,所述样本修改指令用于指示将所述第一样本图像的特征修改为与所述第二样本图像的所述预设类型的成像条件相对应的特征;
从所述第一样本图像中提取出所述预设特征类型的目标特征;
通过待训练特征修改模型,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征;
从所述第二样本图像中提取出所述预设特征类型的目标特征;
基于所述第二样本图像的目标特征与所述输出修改后特征之间的差别,调整所述待训练特征修改模型的模型参数,得到训练后的特征修改模型。
第四方面,本申请还提供一种图像特征处理装置,所述装置包括:
第一获取单元,用于获取待处理图像;
提取单元,用于从所述待处理图像中提取出预设特征类型的目标特征;
所述第一获取单元还用于获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
修改单元,用于基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
第五方面,本申请还提供一种图像对比装置,所述装置还包括:
第二获取单元,用于获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一方面任一项所述的图像特征处理方法处理得到的修改后特征;
对比单元,用于将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
第六方面,本申请还提供一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在处理器上运行的计算机程序指令;所述处理器执行所述计算机程序指令时实现如第一方面任一项所述的方法。
第七方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的方法。
与现有技术相比,本申请具有以下优点:
本申请提供的图像特征处理方法,从待处理图像中提取出与预设特征类型相匹配的目标特征,并获取用自然语言描述的修改指令,由于上述修改指令用于指示将目标特征修改为与预设成像条件相对应的特征,因此基于该修改指令,能够将目标特征修改为与上述修改指令所指示的预设成像条件相对应的修改后特征。
本申请提供的方案由于能将待处理图像的目标特征修改为与预设成像条件相对应的修改后特征,当本申请提供的方案用于进行图像特征对比检索时,可以将参考图像的成像条件作为预设成像条件,这样,使用本申请提供的方案能够将待处理图像的目标特征修改为与参考图像的成像条件相对应的修改后特征,这样,在将待处理图像的目标特征与参考图像的特征进行对比时 ,是将相同成像条件的两个特征进行对比的,从而可以提高图像特征的对比准确性,更好地避免了图像对比检索出错的现象,提高了应用图像特征识别进行图像分析的准确性。
附图说明
图1是本申请提供的本申请提供的应用场景示意图。
图2是本申请实施例提供的图像特征处理方法的一例的流程示意图。
图3是本申请实施例提供的图像特征处理方法的另一例的流程示意图。
图4是本申请实施例提供的模型训练方法的一例的流程图。
图5是本申请实施例提供的模型训练方法的另一例的流程图。
图6是本申请实施例提供的图像特征处理装置的单元框图。
图7是本申请实施例提供的电子设备的结构框图。
具体实施方式
为了使本领域的技术人员能够更好的理解本申请的技术方案,下面结合本申请实施例中的附图,对本申请进行清楚、完整地描述。但本申请能够以很多不同于下述描述的其他方式进行实施,因此,基于本申请提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本申请保护的范围。
需要说明的是,本申请的权利要求书、说明书及附图中的术语“第一”、“源域”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本申请的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解本申请的各实施例,对实施例的应用背景进行说明。
随着人工智能AI技术的发展,图像检索被越来越广泛地应用与各行各业。例如,基于行人重识别或人脸识别模型的人体比对和检索技术是智能视频分析领域的重要技术,能够实现在多摄像头网络中跨越时间和空间的高效人找人应用,极大地扩展了在复杂场景下对个体追踪和身份确认的能力。例如,在公共安全与智能安防领域,人体检索技术扮演着关键角色,在大型公共场所、商业楼宇及城市监控系统中,行人重识别技术能够跨摄像头识别同一人的行踪轨迹,而人脸识别则可在面部出现时进行精确的身份识别。在智慧城市管理中,人体检索技术被用于交通管理、人流统计分析和行为预测。在商业零售领域,通过行人重识别技术,在不获取用户身份敏感信息的条件下,仅依赖衣着外观特征,也能实现顾客计数、同行关系分析、品牌和业态热度分析、关联性分析、商品关注度分析等,为商业决策和提高服务质量提供依据。在社区管理、智慧园区、智慧校园中,该技术可应用于无感通行、访客管理、考勤和归寝管理等,显著提高安全管理的智能化水平。
行人重识别和人脸识别都依赖特征的相似度计算。具体来说,图像检索通常是从待处理图像中识别出所需特征,并将识别出的特征与底库中的一张参考图像或者大量参考图像的特征进行对比,计算得到对比相似度,根据相似度进行后续的相关分析,例如根据相似度判断待处理图像与参考图像中是否是同一个人,或者,哪一张参考图像与待处理图像是同一个人。示例性的,图像检索技术可以用于识别图像中的人脸并与参考图像的人脸进行对比而追踪某个人的行踪,识别图像中的车辆并与参考图像的车辆进行对比以统计某种类型车的车流量,识别图像中的行人并与参考图像的行人进行对比而统计顾客人群分布、分析商品关注度分布等。
然而,在实际应用中,待处理图像的成像条件与参考图像的成像条件可能并不相同,例如,参考图像是夜晚照片而待处理图像是白天照片,参考图像是手机拍摄的图像而待处理图像是监控摄像头拍摄的图像,待处理图像与参考图像中人体的身体姿态、动作存在差异,待处理图像是可见光照片,参考图像是监控相机切换到夜间模式后得到的近红外光照下的照片,待处理图像是被遮挡、截断后的不完整照片,底库图像是完整照片,待处理图像与参考图像之间存在背包、帽子、眼镜等局部变化,待处理图像与参考图像之间存在视角的较大差异,待处理图像与参考图像之间的分辨率、清晰度、白平衡等成像条件存在较大差异等,这些成像条件的差异可能导致同一个人在不同成像条件下获取的两张图像的相似度偏低,也可能导致不同人之间的相似度偏高,从而导致对比存在误差,使得图像对比检索出错,影响了应用图像识别进行图像分析的准确性。
为了解决以上问题,本申请实施例提供一种图像特征处理方法、图像对比方法、模型训练方法、装置、电子设备及计算机可读存储介质。旨在能够从待处理图像中识别出与所需成像条件相匹配的图像特征,这样,当将参考图像的成像条件作为所需成像条件时,能够使得识别出的图像特征与参考图像的成像条件相一致,更好地避免了进行图像特征对比时出错的现象,提高了应用图像特征提取进行图像分析的准确性。本申请提供的图像特征处理方法可以用于通过人体或人脸识别追踪特定人员的行踪;或者用于通过人体识别统计商场或者其他场所的人流量;或者用于在商业零售领域通过识别行人的衣着外观特征进行顾客计数、同行关系分析、品牌和业态热度分析、关联性分析、商品关注度分析等,为商业决策和提高服务质量提供依据;或者用于识别车辆特征统计车流量;或者用于识别其他特征进行数据分析。本申请对具体应用领域不做限制,仅仅是为了叙述方便,以下主要以人脸特征识别作为典型的应用场景,并围绕该场景说明本申请提供的上述方法,当然,本申请各实施例也可应用于车辆识别场景、人体衣着外观识别场景、动物识别场景、车牌识别场景等的图像特征识别。
为了便于理解本申请的方法实施例,对其应用场景进行介绍。请参考图1,图1为本申请方法实施例的应用场景示意图。可以应用于进行图像处理端,该应用场景为一种示意性的举例说明,并不作为限定其应用场景的具体描述,图像处理端可以为服务端,也可以为其他电子设备端,服务端可以为云服务端,也可以替换为其他服务端。如图1所示,在该应用场景中设置有图像获取端101和图像处理端102。在本实施例中,图像获取端101与图像处理端102之间直接通过网络通信建立连接。
图像获取端101可以为摄像头、监控设备、手机、平板电脑(pad)、智能手表等能够拍摄图像的设备,这种情况下,图像获取设备可以将所拍摄的图像作为待处理图像,图像获取设备也可以为台式电脑、车载设备、可穿戴设备等能够存储并传输图像的设备,这种情况下,可以人工将待处理图像存储在图像获取设备,这样,图像获取设备能够将待处理图像发送给图像处理设备。
在图像获取端101和图像处理端102之间需要建立特定的通信连接,从而进行图像传输。
图像处理端102具有较高的运算能力。图像处理端102可以为服务器,图像处理端102具有高速的处理器(central processing unit,CPU)运算能力、长时间的可靠运行、强大的输入/输出(input / output,I/O)外部数据吞吐能力以及更好的扩展性。图像处理端102可以是单个服务器,也可以是服务器集群。图像处理端102为进行图像特征处理或者图像对比的一端。
图像获取端101可以与图像处理端102进行通信。图像获取端101与图像处理端102可以利用各种通信系统进行通信,例如可以是利用有线通信系统或无线通信系统。无线通信系统例如可以是全球移动通信(global system for mobile communications,GSM)系统、码分多址(code division multiple access,CDMA)系统、宽带码分多址(widebandcode division multiple access,WCDMA)系统、通用分组无线服务(general packetradio service,GPRS)、长期演进(long term evolution,LTE)系统、LTE频分双工(frequency division duplex,FDD)系统、LTE时分双工(time division duplex,TDD)、通用移动通信系统(universal mobile telecommunication system,UMTS)、全球互联微波接入(worldwide interoperability for microwave access,WiMAX)通信系统、未来的第五代(5th generation,5G)系统或新无线(new radio,NR)、卫星通信系统等。
在本实施例中,图像获取端101主要用于拍摄或者通过其他方式获取待出路图像,并通过网络通信连接传输给图像处理端102;图像处理端102接收到图像获取端101发送的待处理图像后进行图像特征处理。
本申请实施例提供的方法实施例的应用场景也可以只包括一个电子设备,该电子设备既能够获取待处理图像,也能够进行图像特征处理,例如,用户可以将待处理图像输入到该电子设备,电子设备获取到用户输入的待处理图像后对待处理图像进行特征处理。
实施例一
本申请第一实施例提供一种图像特征处理方法,该方法的执行主体可以是电子设备,该电子设备可以是服务器、台式电脑、笔记本电脑、智能移动终端、图像采集设备、智能电视、监控设备等,也可以是其他具有数据处理能力的电子设备。
如图2、图3所示,本申请第一实施例提供的图像特征处理方法包括以下步骤S110~步骤S140。
步骤S110:获取待处理图像。
上述待处理图像可以是人工输入到电子设备的图像,当电子设备为具有图像采集功能的设备时,待处理图像也可以为电子设备采集的图像,或者,待处理图像也可以为电子设备从图像采集设备接收到的图像。待处理图像可以为实时采集的图像,也可以为离线图像。本申请不具体限定待处理图像的获取途径。
待处理图像可以为包含人脸的图像、包含人身体的图像、包含车辆的图像、包含动物的图像等,也可以为未确定包含何种特征的图像,本申请不具体限定待处理图像包含的内容。
本申请实施例中,图像特征处理所应用的具体场景不同,待处理图像通常也不同。例如,当图像特征处理用于进行特定人的轨迹追踪时,待处理图像可以为各个监控地点设置的监控摄像头拍摄的图像,当图像特征处理用于统计商场的人流量时,待处理图像可以为商场设置的监控摄像头拍摄的图像,当图像特征处理用于统计路上的车流量时,待处理图像可以为公路上设置的监控摄像头。
步骤S120:从上述待处理图像中提取出预设特征类型的目标特征。
上述预设特征类型与本申请实施例的应用场景相匹配,例如,当应用场景为进行人脸识别进行轨迹追踪时,预设特征类型为人脸特征,应用场景为人体识别进行人流统计分析时,预设特征类型为人体特征,应用场景为车流统计时,预设特征类型为车辆特征,应用场景为特定车辆轨迹追踪时,预设特征类型为车牌特征。
本申请实施例中,可以人工预先设定预设特征类型并输入电子设备,从而使电子设备获取到人工输入的预设特征类型。或者,电子设备也可以从其他设备获取预设特征类型。
本步骤中,示例性的,当预设特征类型为人脸特征时,可以从待处理图像中提取出人脸特征作为目标特征,当预设特征类型为车牌特征时,可以从待处理图像中提取出车牌特征作为目标特征。
在一个具体实施例中,可以通过预先训练的特征提取模型从待处理图像中提取出与预设特征类型相匹配的目标特征。具体的,可以将待处理模型输入预先训练的特征提取模型中,输出待处理图像对应的与预设特征类型相匹配的目标特征。预先训练的特征提取模型用于从图像中提取与预设特征类型相匹配的目标特征。
特征提取模型可以通过预先训练得到,特征提取模型的训练方式不是本申请的发明重点,特征提取模型可以通过相关技术中的有监督学习算法或者半监督学习算法训练得到,因此不再对特征提取模型的训练过程进行详细介绍。
本申请实施例中,所提取出的目标特征可以为向量形式表示的目标特征向量,通过向量可以更全面准确地表示目标特征,也便于后续更准确地通过目标特征向量进行特征修改等计算,提高了特征修改的准确性。
步骤S130:获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征。
上述预设成像条件可以为底库中的参考图像的成像条件相同。例如,参考图像的成像条件为白天拍摄,则预设成像条件可以包括白天拍摄,参考图像的成像条件为从背面拍摄,则预设成像条件可以包括从背面拍摄。
预设成像条件可以包括一个成像条件,也可以包括多个成像条件,具体包含的成像条件的数量可以根据待处理图像与参考图像之间的成像条件差别确定,例如,参考图像与待处理图像一个是白天拍摄另一个是夜晚拍摄、一个是手机拍摄另一个是监控摄像头拍摄、一个是顶视角拍摄一个是平视角拍摄,则预设成像条件可以包括“白天拍摄”、“手机拍摄”、“顶视视角”三个预设成像条件,相应的,修改指令用于将目标特征修改为与“白天拍摄”、“手机拍摄”、“顶视视角”三个预设成像条件相对应的特征,示例性的,修改指令可以为“改为白天、且通过手机从顶视角拍摄”。当预设成像条件包括一个时,修改指令可以为“改为白天拍摄”或者“改为通过手机拍摄”等。本申请不具体限定。
本申请实施例中,可以人工基于实际需求设置修改指令,电子设备可以获取人工设置的修改指令。或者,当本申请提供的方案用于图像特征对比时,电子设备也可以对比待处理图像与参考图像之间的成像差别,并根据该成像差别确定预设成像条件,基于预设成像条件生成用自然语言描述的修改指令。
步骤S140:基于上述修改指令,将目标特征修改为与修改指令所指示的预设成像条件相对应的修改后特征。
示例性的,若待处理图像为夜晚拍摄的图像,当修改指令用于指示将目标特征修改为白天拍摄的图像的特征时,则步骤S140可以将目标特征修改为与白天拍摄的图像相对应的特征,修改后,待处理图像的目标特征具有白天拍摄的图像的属性特点。
在一个具体实施例中,为了方便、快速且准确地将待处理图像的目标特征修改为上述修改后特征,步骤S140可以通过预先训练的特征修改模型,将目标特征修改为与修改指令所指示的预设成像条件相对应的修改后特征。其中,特征修改模型能够将目标特征修改为与一个或者多个预设成像条件向对应的特征。例如,可以将待处理图像的目标特征以及上述修改指令输入特征修改模型,输出目标特征对应的与预设成像条件相对应的修改后特征;或者,也可以将待处理图像的目标特征以及上述修改指令进行各种数据处理、或者再添加其他辅助数据后生成便于模型计算的数据类型后再输入特征修改模型而输出目标特征对应的与预设成像条件相对应的修改后特征,具体处理方式后文将会详细介绍。
预先训练的特征修改模型可以基于相关技术中的有监督学习算法训练得到。具体的,如图4、图5所示,本申请实施例还提供一种模型训练方法,该模型训练方法通过以下步骤S210~250训练特征修改模型。
步骤S210:获取训练样本。
训练样本包括第一样本图像、第二样本图像与样本修改指令,本申请实施例中的训练样本可以理解为包含样本三元组,样本三元组中包含上述第一样本图像、上述第二样本图像与上述样本修改指令。
第二样本图像与第一样本图像对应的预设特征类型的特征身份相同。例如,当预设特征类型为人脸时,第二样本图像与第一样本图像对应的为同一个人的人脸,当预设特征类型为人体时,第二样本图像与第一样本图像对应的为同一个人的人体,当预设特征类型为车牌时,第二样本图像与第一样本图像对应的为同一辆车的车牌。
第二样本图像与第一样本图像的预设类型的成像条件不同。预设类型可以包括拍摄时间段、拍摄设备、拍摄光源、拍摄角度中的至少一种,但不限于此。具体可以根据实际应用时待处理图像所需修改的成像条件的类型确定。例如,在使用特征修改模型时若需要将待处理图像的目标特征修改为红外光拍摄图像所对应的特征,那么,第一样本图像与第二样本图像的成像光源这个成像条件可以不同,即第一样本图像为可见光图像,第二样本图像为红外光图像,若需要将待处理图像的目标特征修改为白天拍摄图像所对应的特征,那么,第一样本图像为夜晚拍摄的图像,第二样本图像为白天拍摄的图像,第一样本图像与第二样本图像的拍摄时间这个成像条件也可以不同,即第二样本图像与第一样本图像的拍摄时间和拍摄光源这两个类型的成像条件不同。
本申请实施例在收集训练样本时,可以从进行常规的特征识别的样本图像中获取上述样本三元组,从而可以快速高效地获取到训练样本。为了丰富训练样本,还可以将具有明显成像条件差异的两个相同身份特征的图像组成样本三元组。在训练过程中,可以先使用从常规的特征识别的样本图像中获取的样本三元组进行模型训练,得到基本符合需求的特征修改模型,再使用具有明显成像条件差异的两个相同身份特征的图像组成的样本三元组对特征修改模型进行优化训练,提高模型的推理准确性。
样本修改指令用于指示将第一样本图像的特征修改为与第二样本图像的预设类型的成像条件相对应的特征。例如,预设类型为拍摄时间段,第二样本图像的拍摄时间段为白天,第一样本图像的拍摄时间段为夜晚,则样本修改指令可以用于指示将第一样本图像的特征修改为与白天拍摄的图像相对应的特征。
步骤S220:从第一样本图像中提取出预设特征类型的目标特征。
步骤S230:通过待训练特征修改模型,将第一样本图像的目标特征修改为与样本修改指令所指示的第二样本图像的预设类型的成像条件相对应的输出修改后特征。
步骤S240:从第二样本图像中提取出预设特征类型的目标特征。
步骤S230与步骤S140通过预先训练的特征修改模型将目标特征修改为与预设成像条件相对应的修改后特征的过程相似,此处不再详述。本实施例中,步骤S220和步骤S240可以通过已经训练好的现有的特征提取模型提取各自的目标特征。
上述待训练特征修改模型可以使用相关技术中的大语言模型的结构和参数,即在相关技术中的大语言模型的基础上进行训练而得到特征修改模型,以提高训练效率。上述大语言模型可以为开源的Meta AI大语言模型(Large Language Model Meta AI,简称LLaMA)或千问大语言模型(Qwen)等,但不限于此。
由于修改指令是通过自然语言描述的,而大语言模型在自然语言处理上具有非常高的准确率和效率,因此,特征修改模型在大语言模型的基础上训练得到,使得特征修改模型能够更好地基于修改指令对目标特征进行修改。
步骤S250:基于第二样本图像的目标特征与上述输出修改后特征之间的差别,调整待训练特征修改模型的模型参数,得到训练后的特征修改模型。
具体的,可以基于使第二样本图像的目标特征与上述输出修改后特征之间的差别小于预设差别为收敛条件调整待训练特征修改模型的模型参数,从而得到训练后的特征修改模型。例如,可以通过以下公式(1)以最小化第一样本图像对应的输出修改后特征与第二样本图像的目标特征/>的均方误差(MSE)为原则调整调整待训练特征修改模型的模型参数/>。
(1)
其中,为后文中的待训练特征输出模型的模型参数,/>分别为后文中待训练第一维度转换模型、待训练第二维度转换模型的模型参数。
在一种实施方式中,在步骤S140之前,还可以包括以下步骤S130a。
步骤S130a:确定待处理图像对应的视觉语言特征,上述视觉语言特征用于通过向量表示待处理图像。
视觉语言特征具体可以用于通过向量表示待处理图像的图像内容、图像尺寸、图像像素信息等,但不限于此,视觉语言特征用于将待处理图像通过向量全面地描述出来。由于在模型推理过程中通常都是基于向量进行数据运算的,这样可以提高信息全面性和准确性,从而提高模型推理的准确性,因此,通过确定待处理图像对应的视觉语言特征能够提高提高图像特征转换的准确性。
具体的,步骤S130a可以基于预先训练的视觉语言提取模型确定待处理图像的视觉语言特征。
视觉语言提取模型用于确定图像对应的视觉语言特征。视觉语言提取模型可以预先通过对待训练视觉语言提取模型进行训练得到,具体训练方式可以参考相关技术,该训练方式不作为本申请重点。本实施例通过视觉语言模型能够快速准确地获取得到待处理图像的视觉语言特征。
对应的,步骤S140可以按以下步骤S141实现。
步骤S141:通过预先训练的特征修改模型,并基于上述视觉语言特征,将目标特征修改为与修改指令所指示的预设成像条件相对应的修改后特征。
具体的,可以将待处理图像的目标特征、上述修改指令以及视觉语言特征输入特征修改模型,输出目标特征的与预设成像条件相对应的修改后特征;或者,也可以将待处理图像的目标特征、上述修改指令以及上述视觉语言特征进行数据处理后生成便于模型计算的数据类型后再输入特征修改模型而输出目标特征对应的与预设成像条件相对应的修改后特征。
上述视觉语言特征提取模型可以采用对比语言-图像预训练(ContrastiveLanguage-Image Pre-training,简称CLIP)模型中的视觉编码器,例如可以为对比语言-图像预训练-视觉Transformer(即Contrastive Language-Image Pre-training-VisionTransformer,CLIP-ViT)模型,或者可以为高效视觉注意力-对比语言-图像预训练-视觉Transformer(Efficient Vision Attention-Contrastive Language-Image Pre-training-Vision Transformer,简称EVA-CLIP-ViT)模型。
通过CLIP-ViT模型可以得到用于描述待处理图像的多个向量,例如,通过CLIP-ViT模型可以将待处理图像划分为尺寸相同的一系列区域patch,如16×16个patch,每个patch中的所有像素值经过线性变换、与位置编码相加以及一系列transformer层的计算后,形成一个embedding表示,即图像patch的特征向量,如768维向量,所以待处理图像对应的视觉语言特征包括256个768维的向量。
由于CLIP-ViT这样的视觉语言模型是通过大规模的图像-文字对训练,学习图像和语言的表征,因此用CLIP-ViT提取出的视觉语言特征能够更好地与自然语言对齐。
在一种实施方式中,在上述模型训练方法训练特征修改模型的过程中,上述步骤S230可以按以下步骤S231~步骤S232实现。
步骤S231:将第一样本图像输入视觉语言提取模型,输出第一样本图像对应的视觉语言特征。
步骤S232:通过待训练特征修改模型,并基于上述视觉语言特征,将第一样本图像的目标特征修改为与样本修改指令所指示的第二样本图像的成像条件相对应的输出修改后特征。
步骤S232的执行过程与上述步骤S141的执行过程相似,此处不再详述。
本实施方式由于提取了与文本语言对齐的视觉语言特征,因此,可以使得特征修改模型更好地理解待处理图像的图像信息,从而使得特征修改模型能够在准确获取待处理图像的图像信息的基础上进行更准确的特征修改,当特征修改模型是在相关技术中的大语言模型的基础上训练得到的模型时,由于大语言模型对于文本语言的理解能力更强,因此通过与文本语言对齐的视觉语言特征能够进一步提高特征修改模型对待处理图像的理解,从而提高特征修改的准确性。
在一种实施方式中,当上述特征修改模型为在相关技术中的大语言模型的基础上进行训练而得到的情况下,由于大语言模型输入文本的时候都是以向量形式输入的,因此,需要将上述修改指令转换为向量形式表示的修改指令向量,同时,待处理图像的目标特征为向量形式表示的目标特征向量,所以,步骤S141可以按以下步骤S141a~步骤S141b实现。
步骤S141a:将上述修改指令转换为向量形式表示的修改指令向量。
具体的,为了提高向量转换效率和准确性,可以将上述修改指令输入预先训练的嵌入向量转换模型,得到上述修改指令对应的修改指令向量。嵌入向量转换模型用于将自然语言文本转换为向量。或者,也可以通过其他方式将修改指令转换为向量形式表示的修改指令向量。
步骤S141b:通过预先训练的特征修改模型,并基于上述视觉语言特征以及所上述修改指令向量,将目标特征向量修改为与上述修改指令所指示的预设成像条件相对应的修改后特征。
具体的,可以将待处理图像的目标特征向量、上述修改指令向量以及上述视觉语言特征向量输入特征修改模型,输出目标特征向量的与预设成像条件相对应的修改后特征。或者,也可以将待处理图像的目标特征向量、上述修改指令向量以及上述视觉语言特征向量进行特定数据处理后生成便于模型计算的数据类型后再输入特征修改模型而输出目标特征对应的与预设成像条件相对应的修改后特征。
本实施方式通过将各个特征修改模型的各个输入数据进行向量化处理,能够使得特征修改模型更准确、高效地进行模型推理,提高特征修改的准确性。
可选地,在通过上述模型训练方法训练特征修改模型的过程中,第一样本图像的目标特征为向量形式表示的样本目标特征向量,上述步骤S232可以按以下步骤S232a~步骤S232b实现。
步骤S232a:将上述样本修改指令输入待训练嵌入向量转换模型,得到上述样本修改指令对应的样本修改指令向量。
步骤S232b:通过待训练特征修改模型,并基于上述输出视觉语言特征以及上述样本修改指令向量,将上述样本目标特征向量修改为与上述样本修改指令所指示的上述第二样本图像的成像条件相对应的输出修改后特征。
步骤S232b的执行过程与步骤S141b相似,此处不再详述。
上述模型训练方法还可以包括以下步骤S270。
步骤S270:基于第二样本图像的目标特征与上述输出修改后特征之间的差别,调整上述待训练嵌入向量转换模型的模型参数,得到训练后的嵌入向量转换模型。
嵌入向量转换模型可以采用与大语言模型所使用的对自然语言进行向量化处理的模型相同结构的模型,具体的,嵌入向量转换模型在将修改指令转换为修改指令向量的过程中,可以先使用Byte Pair Encoding (BPE)或SentencePiece方法将修改指令转换为一系列词汇单元(token),再用大语言模型的文本嵌入矩阵将各词汇单元用嵌入向量的形式表示,得到修改指令向量。
在一种实施方式中,上述步骤S141b可以按以下步骤A~步骤C实现。
步骤A:将上述视觉语言特征、目标特征向量、修改指令向量转换为维度相同的转换后视觉语言特征、转换后目标特征向量、转换后修改指令向量。
由于视觉语言特征、目标特征向量和修改指令向量这三个向量的向量维度可能并不相同,为了便于计算,可以将这三个向量转换为同一维度的向量。
具体的,为了高效、快速地进行向量维度转换,可以通过预先训练的第一维度转换模型将视觉语言特征转换为与修改指令向量维度相同的转换后视觉语言特征,通过预先训练的第二维度转换模型将目标特征向量转换为与修改指令向量维度相同的转换后目标特征向量,将修改指令向量确定为转换后修改指令向量。即以修改指令向量为基准,将视觉语言特征、目标特征向量转换为与修改指令向量相同维度的向量。
上述第一维度转换模型、第二维度转换模型也可以理解为是第一映射函数、第二映射函数。
步骤B:将上述转换后视觉语言特征、上述转换后修改指令向量与上述转换后目标特征向量输入预先训练的特征修改模型,输出上述转换后目标特征向量的与上述修改指令所指示的成像条件相对应的修改后输出特征向量。
步骤B中,可以分别将转换后视觉语言特征、转换后修改指令向量与转换后目标特征向量输入预先训练的特征修改模型。可选地,为了便于模型计算,如图3所示,也可以将转换后视觉语言特征、转换后目标特征向量与转换后修改指令向量进行拼接,得到拼接向量,再将该拼接向量输入预先训练的特征修改模型,输出转换后目标特征向量的与预设成像条件相对应的修改后输出特征向量。
步骤C:根据上述修改后输出特征向量确定与上述修改指令所指示的上述预设成像条件相对应的修改后特征。
步骤C中,可以将上述修改后输出特征向量确定为预设成像条件相对应的修改后特征,也可以对修改后输出特征向量进行处理后得到修改后特征。
示例性的,可以将修改后输出特征向量转换为与特征提取模型输出的向量维度相同的向量,作为与上述预设成像条件相对应的修改后特征。其中,特征提取模型为步骤S120中提取待处理图像的目标特征的模型。这样,所输出的修改后特征与所提取的目标特征具有相同的维度,更便于后续进行特征对比或者其他图像数据分析。
具体的,可以通过预先训练的特征输出模型将修改后输出特征向量转换为与特征提取模型输出的向量相同维度的向量。所述特征输出模型用于将向量转换为与上述特征提取模型输出的向量维度相同的向量。
在一种实施方式中,上述模型训练方法的步骤S232b可以按以下步骤a~步骤d实现。
步骤a:将上述输出视觉语言特征输入待训练第一维度转换模型,得到上述输出视觉语言特征对应的与上述样本修改指令向量的维度相同的转换后输出视觉语言特征。
步骤b:将上述样本目标特征向量输入待训练第二维度转换模型,得到上述样本目标特征向量对应的与上述样本修改指令向量的维度相同的转换后样本目标特征向量。
步骤c:将上述转换后输出视觉语言特征、上述样本修改指令向量以及上述转换后样本目标特征向量输入待训练特征修改模型,输出上述转换后样本目标特征向量的与上述样本修改指令所指示的上述第二样本图像的成像条件相对应的输出修改后特征向量。
步骤d:根据上述输出修改后特征向量确定与上述样本修改指令所指示的上述第二样本图像的成像条件相对应的输出修改后特征。
步骤a~步骤d的执行过程可以参考上述步骤A~C的过程,此处不再详述。
相应的,上述模型训练方法还可以包括以下步骤S280。
步骤S280:基于上述第二样本图像的目标特征与上述输出修改后特征之间的差别,调整上述待训练第一维度转换模型、待训练第二维度转换模型的模型参数,得到训练后的第一维度转换模型、训练后的第二维度转换模型。
在一个具体实施例中,上述步骤d可以通过以下步骤实现:将上述输出修改后特征向量输入待训练特征输出模型,得到与样本修改指令所指示的第二样本图像的成像条件相对应的输出修改后特征。相应的,上述模型训练方法还可以包括以下步骤S290。
步骤S290:基于第二样本图像的目标特征与输出修改后特征之间的差别,调整待训练特征输出模型的模型参数,得到训练后的特征输出模型。
步骤S270~步骤S290的参数调整方式也可以参考步骤S250调整待训练特征修改模型的参数的过程,此处不再详述。本实施例在训练特征修改模型的同时同步训练嵌入向量转换模型、第一维度转换模型、第二维度转换模型和特征输出模型,能够提高训练效率,同时提高不同模型之间的配合性,从而使得整体的特征修改准确率更高。
本申请提供的方案由于能将待处理图像的目标特征修改为与预设成像条件相对应的修改后特征,当本申请提供的方案用于进行图像特征对比检索时,可以将参考图像的成像条件作为预设成像条件,这样,使用本申请提供的方案能够将待处理图像的目标特征修改为与参考图像的成像条件相对应的修改后特征,这样,在将待处理图像的目标特征与参考图像的特征进行对比时 ,是将相同成像条件的两个特征进行对比的,从而可以提高图像特征的对比准确性,更好地避免了图像对比检索出错的现象,提高了应用图像特征识别进行图像分析的准确性。
另外,本申请提供的方案在训练特征修改模型时,可以根据特征修改的需求通过多种训练样本将特征修改模型训练为具有多种不同预设成像条件修改功能的模型,即特征修改模型能够将待处理图像的目标特征修改为与多个预设成像条件均对应的修改后特征,提高了修改效率,更便于用户使用。本申请实施例提供的方案采用自然语言作为修改指令对待处理图像的目标特征进行修改,具有修改类型方面的通用性,也就是可以将多种类型的修改通过一个模型实现,降低了比对和检索系统的研发和部署成本,在对待处理图像的目标特征进行修改时,支持复合修改,即支撑通过一个模型修改多种类型的成像条件,只要在训练样本中添加相应的样本即可,提高了特征修改的效率。
实施例二
本申请第二实施例提供了一种图像特征处理方法,本实施例提供的方法是对实施例一所提供方法的一个具体示例。如图3所示,本实施例提供的图像特征处理方法包括以下步骤S1~步骤S10。
步骤S1:获取待处理图像I。
步骤S2:获取用自然语言描述的修改指令XINST。
步骤S3:从待处理图像I中进行预设特征类型的特征提取,得到待处理图像I的预设特征类型的目标特征向量f。
步骤S4:从待处理图像I中进行视觉语言特征提取,得到待处理图像对应的视觉语言特征。
步骤S5:将修改指令XINST转换为修改指令向量FINST。
步骤S6:将目标特征向量f、视觉语言特征和修改指令向量FINST换为维度相同的向量后再进行拼接,得到拼接向量/>。
步骤S7:将拼接向量输入特征修改模型/>,得到修改后输出特征向量/>。
例如,拼接向量可以为:。
其中<FEA1>和</FEA1>是两个特殊词汇单元,用来表示目标特征向量的开始和结束,<FEA2>和</FEA2>是两个特殊词汇单元,用来表示视觉语言特征的开始和结束,<EOS>用来表示整个输入序列(即拼接向量)的结束,经过特征修改模型推理后,<EOS>位置对应的输出就是。
步骤S8:将修改后输出特征向量输入特征输出模型/>,得到修改后特征。
其中,可以为多层感知器(Multilayer Perceptron,简称MLP)模型、Transformer模型等。
实施例二的具体实现过程已经在实施例一中进行了详细说明,此处不再详述。
实施例三
本申请第三实施例提供了一种图像对比方法,该方法的执行主体可以是电子设备,该电子设备可以是服务器、台式电脑、笔记本电脑、智能移动终端、图像采集设备等,也可以是其他具有数据处理能力的电子设备。该方法可以用于进行行人轨迹追踪过程中的人脸图像对比识别、车辆轨迹追踪过程中的车辆图像对比识别、图像中的人体识别等,但不限于此。
本申请第二实施例提供的图像对比方法包括以下步骤S310~步骤S320。
步骤S310:获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一实施例中任一项所述的图像特征处理方法处理得到的修改后特征。
本步骤在图像特征处理方法处理得到修改后特征(即待对比特征)的过程中所使用的修改指令用于指示将目标特征修改为与参考图像的成像条件(即预设成像条件)相对应的特征。
步骤S320:将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
参考图像的参考特征可以基于第一实施例中的特征提取模型提取得到,此处不再详述。步骤S320可以计算待对比特征与参考图像的参考特征之间的相似度,并根据计算出的相似度判定所述待处理图像与所述参考图像是否匹配。
本实施例为对第一实施例所述的图像特征处理方法的应用示例,具体过程在实施例一种已详细说明,此处不再赘述。
实施例四
本申请第四实施例提供了一种模型训练方法,该方法为第一实施例中提供的模型训练方法的具体示例。如图5所示,本实施例提供的模型训练方法包括以下步骤S41~步骤S49。
步骤S41:获取训练样本。
训练样本包括第一样本图像、第二样本图像与样本修改指令。
步骤S42:将第一样本图像输入预先训练好的特征提取模型进行预设特征类型的特征提取,得到第一样本图像的预设特征类型的第一样本目标特征向量。
步骤S43:将第一样本图像输入视觉语言提取模型进行视觉语言特征提取,得到第一样本图像对应的输出视觉语言特征。
步骤S44:将样本修改指令输入待训练嵌入向量转换模型,得到样本修改指令向量。
步骤S45:将样本目标特征向量输入待训练第二维度转换模型得到转换后样本目标特征向量,将输出视觉语言特征输入待训练第一维度转换模型得到转换后输出视觉语言特征,将转换后样本目标特征向量、转换后输出视觉语言特征以及样本修改指令向量进行拼接得到样本拼接向量。
步骤S46:将样本拼接向量输入待训练特征修改模型,得到输出修改后特征向量。
步骤S47:将输出修改后输出特征向量输入待训练特征输出模型,得到输出修改后特征。
步骤S48:将第二样本图像输入上述训练好的特征提取模型进行预设特征类型的特征提取,得到第二样本图像的预设特征类型的第二样本目标特征。
步骤S49:基于第二样本目标特征与上述输出修改后特征之间的差别,调整步骤S41~步骤S48中各个待训练模型的模型参数,得到训练后的各个模型。
实施例四的具体实现过程已经在实施例一中的模型训练方法中进行了详细说明,此处不再详述。
实施例五
本申请第五实施例还提供与上述图像特征处理方法实施例相对应的图像特征处理装置。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分以及实现的效果请参见上述提供的图像特征处理方法实施例的对应说明即可。如图6所示,本申请提供的图像特征处理装置包括:
第一获取单元501,用于获取待处理图像;
提取单元502,用于从所述待处理图像中提取出预设特征类型的目标特征;
所述第一获取单元还用于获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
修改单元503,用于基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
实施例六
本申请第六实施例还提供与上述图像对比方法实施例相对应的图像对比装置。本申请提供的图像对比装置包括:
第二获取单元,用于获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一实施例中任一项所述的图像特征处理方法处理得到的修改后特征;
对比单元,用于将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
实施例七
本申请第七实施例还提供与上述模型训练方法实施例相对应的模型训练装置。本申请提供的模型训练装置包括:
样本获取单元,用于获取训练样本,所述训练样本包括第一样本图像、第二样本图像与样本修改指令,所述第二样本图像与所述第一样本图像对应的预设特征类型的特征身份相同,且所述第二样本图像与所述第一样本图像的预设类型的成像条件不同,所述样本修改指令用于指示将所述第一样本图像的特征修改为与所述第二样本图像的所述预设类型的成像条件相对应的特征;
样本提取单元,用于从所述第一样本图像中提取出所述预设特征类型的目标特征;
样本修改单元,用于通过待训练特征修改模型,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征;
所述样本提取单元还用于从所述第二样本图像中提取出所述预设特征类型的目标特征;
参数调整单元,用于基于所述第二样本图像的目标特征与所述输出修改后特征之间的差别,调整所述待训练特征修改模型的模型参数,得到训练后的特征修改模型。
实施例八
本申请第八实施例还提供与上述图像特征处理方法实施例和图像特征处理装置实施例相对应的电子设备实施例,下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下:
请参考图7理解上述电子设备,图7为电子设备的示意图。本实施例提供的电子设备包括:处理器1001、存储器1002、通信总线1003、通信接口1004;
该存储器1002用于存储数据处理的计算机指令,该计算机指令在被处理器1001读取执行时,执行以下步骤:
获取待处理图像;
从所述待处理图像中提取出预设特征类型的目标特征;
获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
实施例九
本申请第九实施例还提供与上述图像对比方法实施例和图像对比装置实施例相对应的电子设备实施例,下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下:
本实施例提供的电子设备包括:处理器、存储器、通信总线、通信接口;
该存储器用于存储数据处理的计算机指令,该计算机指令在被处理器读取执行时,执行以下步骤:
获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一实施例中任一项所述的图像特征处理方法处理得到的修改后特征;
将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
本申请第十实施例还提供用于实现上述图像特征处理方法的计算机可读存储介质。本申请提供的计算机可读存储介质实施例描述得比较简单,相关部分请参见上述方法实施例的对应说明即可,下述描述的实施例仅仅是示意性的。
本实施例提供的计算机可读存储介质上存储有计算机指令,该指令被处理器执行时实现以下步骤:
获取待处理图像;
从所述待处理图像中提取出预设特征类型的目标特征;
获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
本申请第十一实施例还提供用于实现上述图像对比方法的计算机可读存储介质。本申请提供的计算机可读存储介质实施例描述得比较简单,相关部分请参见上述方法实施例的对应说明即可,下述描述的实施例仅仅是示意性的。
本实施例提供的计算机可读存储介质上存储有计算机指令,该指令被处理器执行时实现以下步骤:
获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过第一实施例中任一项所述的图像特征处理方法处理得到的修改后特征;
将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、 其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (18)
1.一种图像特征处理方法,其特征在于,所述方法包括:
获取待处理图像;
从所述待处理图像中提取出预设特征类型的目标特征;
获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
2.根据权利要求1所述的图像特征处理方法,其特征在于,所述基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征,包括:
通过预先训练的特征修改模型,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
3.根据权利要求2所述的图像特征处理方法,其特征在于,在所述基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征之前,所述方法还包括:
确定所述待处理图像对应的视觉语言特征,所述视觉语言特征用于通过向量表示所述待处理图像;
所述通过预先训练的特征修改模型,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征,包括:
通过预先训练的特征修改模型,并基于所述视觉语言特征,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
4.根据权利要求3所述的图像特征处理方法,其特征在于,所述确定所述待处理图像对应的视觉语言特征,包括:
基于预先训练的视觉语言提取模型确定所述待处理图像对应的视觉语言特征,所述视觉语言提取模型用于确定图像对应的视觉语言特征。
5.根据权利要求3所述的图像特征处理方法,其特征在于,所述目标特征为向量形式表示的目标特征向量;
所述通过预先训练的特征修改模型,并基于所述视觉语言特征,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征,包括:
将所述修改指令转换为向量形式表示的修改指令向量;
通过预先训练的特征修改模型,并基于所述视觉语言特征以及所述修改指令向量,将所述目标特征向量修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
6.根据权利要求4所述的图像特征处理方法,其特征在于,所述通过预先训练的特征修改模型,并基于所述视觉语言特征以及所述修改指令向量,将所述目标特征向量修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征,包括:
将所述视觉语言特征、所述目标特征向量、所述修改指令向量转换为维度相同的转换后视觉语言特征、转换后目标特征向量、转换后修改指令向量;
将所述转换后视觉语言特征、所述转换后修改指令向量与所述转换后目标特征向量输入预先训练的特征修改模型,输出所述转换后目标特征向量的与所述修改指令所指示的成像条件相对应的修改后输出特征向量;
根据所述修改后输出特征向量确定与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
7.根据权利要求4所述的图像特征处理方法,其特征在于,所述将所述视觉语言特征、所述目标特征向量、所述修改指令向量转换为维度相同的转换后视觉语言特征、转换后目标特征向量、转换后修改指令向量,包括:
通过预先训练的第一维度转换模型将所述视觉语言特征转换为与所述修改指令向量维度相同的转换后视觉语言特征;
通过预先训练的第二维度转换模型将所述目标特征向量转换为与所述修改指令向量维度相同的转换后目标特征向量;
将所述修改指令向量确定为转换后修改指令向量。
8.根据权利要求6所述的图像特征处理方法,其特征在于,所述将所述转换后视觉语言特征、所述转换后目标特征向量与所述转换后修改指令向量输入预先训练的特征修改模型,输出所述转换后目标特征向量的与所述修改指令所指示的成像条件相对应的修改后输出特征向量,包括:
将所述转换后视觉语言特征、所述转换后目标特征向量与所述转换后修改指令向量进行拼接,得到拼接向量;
将所述拼接向量输入预先训练的特征修改模型,输出所述转换后目标特征向量的与所述修改指令所指示的成像条件相对应的修改后输出特征向量。
9.根据权利要求8所述的图像特征处理方法,其特征在于,所述从所述待处理图像中提取出与预设特征类型相匹配的目标特征,包括:
通过预先训练的特征提取模型从所述待处理图像中提取出与预设特征类型相匹配的目标特征;
所述根据所述修改后输出特征向量确定与所述修改指令所指示的所述预设成像条件相对应的修改后特征,包括:
将所述修改后输出特征向量转换为与所述特征提取模型输出的向量维度相同的向量,作为与所述预设成像条件相对应的修改后特征。
10.一种图像对比方法,其特征在于,所述方法包括:
获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过权利要求1至9中任一项所述的图像特征处理方法处理得到的修改后特征;
将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
11.一种模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括第一样本图像、第二样本图像与样本修改指令,所述第二样本图像与所述第一样本图像对应的预设特征类型的特征身份相同,且所述第二样本图像与所述第一样本图像的预设类型的成像条件不同,所述样本修改指令用于指示将所述第一样本图像的特征修改为与所述第二样本图像的所述预设类型的成像条件相对应的特征;
从所述第一样本图像中提取出所述预设特征类型的目标特征;
通过待训练特征修改模型,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征;
从所述第二样本图像中提取出所述预设特征类型的目标特征;
基于所述第二样本图像的目标特征与所述输出修改后特征之间的差别,调整所述待训练特征修改模型的模型参数,得到训练后的特征修改模型。
12.根据权利要求11所述的模型训练方法,其特征在于,所述通过待训练特征修改模型,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征,包括:
将所述第一样本图像输入视觉语言提取模型,输出所述第一样本图像对应的输出视觉语言特征;
通过待训练特征修改模型,并基于所述输出视觉语言特征,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征。
13.根据权利要求12所述的模型训练方法,其特征在于,所述第一样本图像的目标特征为向量形式表示的样本目标特征向量;
所述通过待训练特征修改模型,并基于所述输出视觉语言特征,将所述第一样本图像的目标特征修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征,包括:
将所述样本修改指令输入待训练嵌入向量转换模型,得到所述样本修改指令对应的样本修改指令向量;
通过待训练特征修改模型,并基于所述输出视觉语言特征以及所述样本修改指令向量,将所述样本目标特征向量修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征;
所述方法还包括:
基于所述第二样本图像的目标特征与所述输出修改后特征之间的差别,调整所述待训练嵌入向量转换模型的模型参数,得到训练后的嵌入向量转换模型,所述嵌入向量转换模型用于将修改指令转换为向量形式表示的修改指令向量。
14.根据权利要求13所述的模型训练方法,其特征在于,所述通过待训练特征修改模型,并基于所述输出视觉语言特征以及所述样本修改指令向量,将所述样本目标特征向量修改为与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征,包括:
将所述输出视觉语言特征输入待训练第一维度转换模型,得到所述输出视觉语言特征对应的与所述样本修改指令向量的维度相同的转换后输出视觉语言特征;
将所述样本目标特征向量输入待训练第二维度转换模型,得到所述样本目标特征向量对应的与所述样本修改指令向量的维度相同的转换后样本目标特征向量;
将所述转换后输出视觉语言特征、所述样本修改指令向量以及所述转换后样本目标特征向量输入待训练特征修改模型,输出所述转换后样本目标特征向量的与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征向量;
根据所述输出修改后特征向量确定与所述样本修改指令所指示的所述第二样本图像的成像条件相对应的输出修改后特征;
所述方法还包括:
基于所述第二样本图像的目标特征与所述输出修改后特征之间的差别,调整所述待训练第一维度转换模型、待训练第二维度转换模型的模型参数,得到训练后的第一维度转换模型、训练后的第二维度转换模型。
15.一种图像特征处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理图像;
提取单元,用于从所述待处理图像中提取出预设特征类型的目标特征;
所述第一获取单元还用于获取用自然语言描述的修改指令,所述修改指令用于指示将所述目标特征修改为与预设成像条件相对应的特征;
修改单元,用于基于所述修改指令,将所述目标特征修改为与所述修改指令所指示的所述预设成像条件相对应的修改后特征。
16.一种图像对比装置,其特征在于,所述装置还包括:
第二获取单元,用于获取待对比图像的与预设特征类型相对应的待对比特征,所述待对比特征为通过权利要求1至9中任一项所述的图像特征处理方法处理得到的修改后特征;
对比单元,用于将所述待对比特征与参考图像的参考特征进行对比,并根据对比结果判定所述待处理图像与所述参考图像是否匹配,所述参考特征为所述参考图像对应的所述预设特征类型的特征。
17.一种电子设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在处理器上运行的计算机程序指令;所述处理器执行所述计算机程序指令时实现如上述权利要求1-14任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述权利要求1-14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410418358.XA CN118015290B (zh) | 2024-04-08 | 2024-04-08 | 图像特征处理方法、图像对比方法、模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410418358.XA CN118015290B (zh) | 2024-04-08 | 2024-04-08 | 图像特征处理方法、图像对比方法、模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118015290A true CN118015290A (zh) | 2024-05-10 |
CN118015290B CN118015290B (zh) | 2024-09-13 |
Family
ID=90958034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410418358.XA Active CN118015290B (zh) | 2024-04-08 | 2024-04-08 | 图像特征处理方法、图像对比方法、模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118015290B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118334604A (zh) * | 2024-06-12 | 2024-07-12 | 海信集团控股股份有限公司 | 基于多模态大模型的事故检测、数据集构建方法及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062865A (zh) * | 2020-03-18 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111524207A (zh) * | 2020-04-21 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、电子设备 |
WO2021055837A1 (en) * | 2019-09-20 | 2021-03-25 | Canon U.S.A., Inc. | Artificial intelligence coregistration and marker detection, including machine learning and using results thereof |
CN113159095A (zh) * | 2021-01-30 | 2021-07-23 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN114187165A (zh) * | 2021-11-09 | 2022-03-15 | 阿里巴巴云计算(北京)有限公司 | 图像处理方法和装置 |
CN115861393A (zh) * | 2023-02-16 | 2023-03-28 | 中国科学技术大学 | 图像匹配方法、航天器着陆点定位方法及相关装置 |
CN115908991A (zh) * | 2022-07-28 | 2023-04-04 | 陕西科技大学 | 基于特征融合的图像描述模型方法、系统、设备及介质 |
-
2024
- 2024-04-08 CN CN202410418358.XA patent/CN118015290B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021055837A1 (en) * | 2019-09-20 | 2021-03-25 | Canon U.S.A., Inc. | Artificial intelligence coregistration and marker detection, including machine learning and using results thereof |
CN111062865A (zh) * | 2020-03-18 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111524207A (zh) * | 2020-04-21 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、电子设备 |
CN113159095A (zh) * | 2021-01-30 | 2021-07-23 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN114187165A (zh) * | 2021-11-09 | 2022-03-15 | 阿里巴巴云计算(北京)有限公司 | 图像处理方法和装置 |
CN115908991A (zh) * | 2022-07-28 | 2023-04-04 | 陕西科技大学 | 基于特征融合的图像描述模型方法、系统、设备及介质 |
CN115861393A (zh) * | 2023-02-16 | 2023-03-28 | 中国科学技术大学 | 图像匹配方法、航天器着陆点定位方法及相关装置 |
Non-Patent Citations (3)
Title |
---|
ANDREJ KARPATHY等: "Deep Visual-Semantic Alignments for Generating Image Descriptions", CVP PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2015, 31 December 2015 (2015-12-31), pages 3128 - 3137 * |
MAX KU等: "ImagenHub: Standardizing the evaluation of conditional image generation models", COMPUTER VISION AND PATTERN RECOGNITION, 17 October 2023 (2023-10-17) * |
张天序;翁文杰;冯军: "三维运动目标的多尺度智能递推识别新方法", 自动化学报, no. 005, 31 December 2006 (2006-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118334604A (zh) * | 2024-06-12 | 2024-07-12 | 海信集团控股股份有限公司 | 基于多模态大模型的事故检测、数据集构建方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN118015290B (zh) | 2024-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN118015290B (zh) | 图像特征处理方法、图像对比方法、模型训练方法及装置 | |
CN110853033B (zh) | 基于帧间相似度的视频检测方法和装置 | |
US8463025B2 (en) | Distributed artificial intelligence services on a cell phone | |
EP3893125A1 (en) | Method and apparatus for searching video segment, device, medium and computer program product | |
CN113537254B (zh) | 图像特征提取方法、装置、电子设备及可读存储介质 | |
CN111368943A (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
CN111666922A (zh) | 视频匹配方法、装置、计算机设备和存储介质 | |
CN112037142B (zh) | 一种图像去噪方法、装置、计算机及可读存储介质 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN116129330B (zh) | 基于视频的图像处理、行为识别、分割、检测方法及设备 | |
CN114140708A (zh) | 视频处理方法、装置及计算机可读存储介质 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN111444957A (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
Liu et al. | Edge-to-fog computing for color-assisted moving object detection | |
CN114170425A (zh) | 模型训练、图像分类方法、服务器及存储介质 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113190701A (zh) | 图像检索方法、装置、设备、存储介质以及计算机程序产品 | |
CN114639076A (zh) | 目标对象检测方法、装置、存储介质以及电子装置 | |
CN117292139A (zh) | 特征提取模型的训练方法及图像处理方法、设备及介质 | |
CN111259701B (zh) | 行人再识别方法、装置及电子设备 | |
CN113243015B (zh) | 视频监控系统 | |
CN113515983A (zh) | 模型训练方法、移动对象识别方法、装置及设备 | |
CN111310595A (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |