CN116433939B - 样本图像生成方法、训练方法、识别方法以及装置 - Google Patents
样本图像生成方法、训练方法、识别方法以及装置 Download PDFInfo
- Publication number
- CN116433939B CN116433939B CN202310414279.7A CN202310414279A CN116433939B CN 116433939 B CN116433939 B CN 116433939B CN 202310414279 A CN202310414279 A CN 202310414279A CN 116433939 B CN116433939 B CN 116433939B
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- feature
- sample
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013136 deep learning model Methods 0.000 claims description 73
- 238000000605 extraction Methods 0.000 claims description 58
- 230000033001 locomotion Effects 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 13
- 230000009189 diving Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010606 normalization Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000146 jump and return pulse sequence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了样本图像生成方法、训练方法、识别方法以及装置,涉及图像处理技术领域,尤其涉及计算机视觉技术领域和人工智能技术领域。样本图像生成方法的具体实现方案为:样本图像生成方法,包括:获取待处理图像集和参考图像,其中,所述参考图像与具有目标类型的目标对象相关;确定所述待处理图像集中的待处理图像,与所述参考图像之间的相似度结果;根据所述相似度结果,从所述待处理图像集中确定目标图像;以及根据所述目标图像,生成样本图像。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及计算机视觉技术领域和人工智能技术领域。
背景技术
在体育运动赛事转播等场景中,通常需要识别视频画面中运动员的身份,以帮助观看赛事的观赛用户及时关注比赛过程中不同运动员的表现情况,提升观赛用户的赛事观赏体验。
发明内容
本公开提供了一种样本图像生成方法、训练方法、识别方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种样本图像生成方法,包括:获取待处理图像集和参考图像,其中,参考图像与具有目标类型的目标对象相关;确定待处理图像集中的待处理图像,与参考图像之间的相似度结果;根据相似度结果,从待处理图像集中确定目标图像;以及根据目标图像,生成样本图像。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:获取样本图像,样本图像是根据本公开实施例的样本图像生成方法得到的;利用样本图像训练初始深度学习模型,得到训练后的深度学习模型。
根据本公开的另一方面,提供了一种目标对象识别方法,包括:获取与具有目标类型的目标对象相关的初始图像;将初始图像输入至深度学习模型中,输出针对目标对象的识别结果;其中,深度学习模型是根据本公开实施例的深度学习模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种样本图像生成装置,包括:图像获取模块,用于获取待处理图像集和参考图像,其中,参考图像与具有目标类型的目标对象相关;相似度结果确定模块,用于确定待处理图像集中的待处理图像,与参考图像之间的相似度结果;目标图像确定模块,用于根据相似度结果,从待处理图像集中确定目标图像;以及样本图像生成模块,用于根据目标图像,生成样本图像。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:样本图像获取模块,用于获取样本图像,所述样本图像是根据本公开实施例的样本图像生成方法得到的;训练模块,用于利用所述样本图像训练初始深度学习模型,得到训练后的深度学习模型。
根据本公开的另一方面,提供了一种目标对象识别装置,包括:初始图像获取模块,用于获取与具有目标类型的目标对象相关的初始图像;识别结果获得模块,用于将初始图像输入至深度学习模型中,输出针对目标对象的识别结果;其中,深度学习模型是根据本公开实施例的深度学习模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少-个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用样本图像生成方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的样本图像生成方法的流程图;
图3示意性示出了根据本公开实施例的样本图像生成方法的原理图;
图4示意性示出了根据本公开另一实施例的样本图像生成方法的原理图;
图5A示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;
图5B示意性示出了根据本公开实施例的深度学习模型的原理图;
图6示意性示出了根据本公开实施例的目标对象识别方法的流程图;
图7示意性示出了根据本公开实施例的样本图像生成装置的框图;
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;
图9示意性示出了根据本公开实施例的目标对象识别装置的框图;以及
图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
针对转播视频画面中运动员的识别任务可以是赛事转播的前置任务。转播视频画面中当前运动员识别的相关工作通常基于人工识别来完成,效率较低。同时由于运动员之间的衣着、身材等特征信息的相似程度较高,且运动员在执行运动动作的过程中通常会遮挡面部,或背对拍摄装置。因此用于自动识别运动员身份的识别算法难以准确地识别运动员的身份信息,尤其难以实现运动员在执行运动动作的全过程的身份识别。而发明人创造性地发现,用于训练相关目标对象识别模型的样本数据规模较小,导致目标对象识别精度较低。
本公开的实施例提供了样本图像生成方法、训练方法、识别方法、装置、电子设备、存储介质以及计算机程序产品。该样本图像生成方法包括:获取待处理图像集和参考图像,其中,参考图像与具有目标类型的目标对象相关;确定待处理图像集中的待处理图像,与参考图像之间的相似度结果;根据相似度结果,从待处理图像集中确定目标图像;以及根据目标图像,生成样本图像。
根据本公开的实施例,通过确定待处理图像集中的待处理图像和参考图像之间的相似度结果,并根据相似度结果从待处理图像集中确定与参考图像相似程度较高的目标图像,从而可以使得到的目标图像,包含有与具有目标类型的目标对象相似的图像特征。因此根据目标图像生成的样本图像,可以适用于训练识别具有目标类型的目标对象的深度学习模型,从而扩充了训练深度学习模型的训练数据的数据规模,实现提升深度学习模型的训练效果,以及提升深度学习模型的识别精度。
图1示意性示出了根据本公开实施例的可以应用样本图像生成方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用样本图像生成方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的样本图像生成方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的样本图像生成方法一般可以由服务器105执行。相应地,本公开实施例所提供的样本图像生成装置一般可以设置于服务器105中。本公开实施例所提供的样本图像生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的样本图像生成装置也可以设置于不同于服务器105且能够与终端设备1 01、102、103和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的样本图像生成方法一般也可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的样本图像生成装置也可以设置于终端设备101、102、或103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的样本图像生成方法的流程图。
如图2所示,该样本图像生成方法包括操作S210~S240。
在操作S210,获取待处理图像集和参考图像,其中,参考图像与具有目标类型的目标对象相关。
在操作S220,确定待处理图像集中的待处理图像,与参考图像之间的相似度结果。
在操作S230,根据相似度结果,从待处理图像集中确定目标图像。
在操作S240,根据目标图像,生成样本图像。
根据本公开的实施例,参考图像可以是记录具有目标类型的目标对象的图像,目标对象可以包括任意类型的生物体,例如人类、猫、狗等哺乳类动物,但不仅限于此,还可以包括鸟类等其他类型的生物体,本公开的实施例对目标对象的具体类型不做限定。目标类型可以包括生物体类型,例如可以为人体、猫、狗等生物体类型。但不仅限于此,还可以包括目标对象的运动状态的类型,例如进行长跑运动的人体类型、做出空翻动作的人体类型等等。本公开的实施例对目标类型的具体类型种类不做限定,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,待处理图像集中的待处理图像,可以是与任意类型的目标对象相关的图像,例如公开数据库中与行人相关的图像等等。
根据本公开的实施例,可以基于相似度算法来确定待处理图像与参考图像之间的相似度结果,例如可以基于余弦相似度算法处理待处理图像与参考图像,得到相似度结果。但不仅限于此,还可以基于聚类算法来处理待处理图像与参考图像,得到包含有参考图像的聚类图像集合,从而可以根据聚类图像结合来确定相似度结果。本公开的实施例对确定相似度结果的具体方式不做限定,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,相似度结果可以表征待处理图像与参考图像之间的相似程度。因此根据相似度结果,从待处理图像集中确定目标图像,可以使得到的目标图像包含有能够表征具有目标类型的目标对象的图像特征,或者目标图像所包含的图像特征与参考图像所包含的图像特征相似程度较高。从而使根据目标图像生成的样本图像,可以适用于训练识别具有目标类型的目标对象的深度学习模型,进而提升了训练数据的数据规模,提升深度学习模型的训练效果。
下面结合具体实施例,并参考图3和图4对图2所示的方法做进一步说明。
根据本公开的实施例,参考图像包括以下至少一项:
目标对象准备执行运动动作的图像、目标对象执行运动动作过程的图像、目标对象执行完成运动动作的图像。
根据本公开的实施例,运动动作可以包括任意类型的动作,例如可以为加速跑动作、空中翻腾动作等等。本公开的实施例对运动动作的具体类型不做限定。
根据本公开的实施例,目标对象准备执行运动动作的图像,可以是表征目标对象执行运动动作的前序动作的图像。例如,体操运动员在执行空中翻腾动作的助跑前序动作、跳水运动员在准备执行空中翻腾动作前的走板动作等。
根据本公开的实施例,目标对象执行完成运动动作的图像,可以是表征目标对象执行运动动作的后续动作的图像。例如,体操运动员在执行完成空中翻腾动作的站立姿态后续动作、跳水运动员在执行完成空中翻腾动作后的入水动作等。
根据本公开的实施例,在参考图像为目标对象准备执行运动动作的图像的情况下,根据本公开实施例提供的样本图像生成方法得到的目标图像,可以与目标对象准备执行运动动作的图像相似程度较高,即目标图像可以包含有与目标对象准备执行运动动作相似程度较高的图像特征。这样可以使根据目标图像生成的样本图像扩充训练深度学习模型的训练数据规模,使训练后的深度学习模型可以较为精准地识别准备执行运动动作的目标对象的身份信息,从而在目标对象的面部被遮挡较多的情况下,仍可以实现准确识别得到目标对象,提升目标对象识别精度。
根据本公开的实施例,在参考图像为目标对象执行运动动作过程的图像的情况下,根据本公开实施例提供的样本图像生成方法得到的目标图像,可以与目标对象执行运动动作过程的图像相似程度较高,即目标图像可以包含有与目标对象执行运动动作过程相似程度较高的图像特征。这样可以使根据目标图像生成的样本图像扩充训练深度学习模型的训练数据规模,使训练后的深度学习模型可以较为精准地识别执行运动动作过程的目标对象的身份信息,从而在目标对象的面部被遮挡较多的情况下,仍可以实现准确识别得到目标对象,提升目标对象识别精度。
根据本公开的实施例,在参考图像为目标对象执行完成运动动作的图像的情况下,根据本公开实施例提供的样本图像生成方法得到的目标图像,可以与目标对象执行完成运动动作的图像相似程度较高,即目标图像可以包含有与执行完成运动动作相似程度较高的图像特征。这样可以使根据目标图像生成的样本图像扩充训练深度学习模型的训练数据规模,使训练后的深度学习模型可以较为精准地识别执行完成运动动作的目标对象的身份信息,从而在目标对象的面部被遮挡较多的情况下,仍可以实现准确识别得到目标对象,提升目标对象识别精度。
需要说明的是,根据本公开实施例提供的样本图像生成方法生成的样本图像,可以分别训练用于识别准备执行运动动作的目标对象、执行运动动作过程的目标对象或者执行完成运动动作的目标对象中任意一种的深度学习模型。或者也可以应用本公开实施例提供的样本图像生成方法,来训练能够同时识别准备执行运动动作的目标对象、执行运动动作过程的目标对象或者执行完成运动动作的目标对象的深度学习模型。从而可以在输入深度学习模型的图像遮挡目标对象面部的情况下,准确地识别目标对象身份,有助于相关人员在运动员训练、考核等应用场景中快速地分辨不同的运动员身份,以提升训练效率或考核分析效率。
根据本公开的实施例,确定待处理图像集中的待处理图像,与参考图像之间的相似度结果可以包括:分别基于第一图像特征提取模型和第二图像特征提取模型,提取待处理图像的图像特征,得到第一待处理图像特征和第二待处理图像特征;其中,第一图像特征提取模型是根据待处理图像集训练初始图像特征提取模型后得到的,第二图像特征提取模型是根据参考图像训练第一图像特征提取模型后得到的;确定第一待处理图像特征和第二待处理图像特征之间的特征相似度信息;以及将特征相似度信息确定为相似度结果。
根据本公开的实施例,可以基于相似度算法来处理第一待处理图像特征和第二待处理图像特征,得到特征相似度信息。例如可以基于余弦相似度算法处理第一待处理图像特征和第二待处理图像特征,但不仅限于此,还可以基于其他类型的相似度算法来处理第一待处理图像特征和第二待处理图像特征,只要能够得到特征相似度信息即可。
图3示意性示出了根据本公开实施例的样本图像生成方法的原理图。
如图3所示,分别基于第一图像特征提取模型和第二图像特征提取模型,提取待处理图像的图像特征,可以是将待处理图像310分别输入值第一图像特征提取模型321和第二图像特征提取模型322。第一图像特征提取模型321输出第一待处理图像特征311,第二图像特征提取模型322输出第二待处理图像特征312。第一图像特征提取模型321和第二图像特征提取模型322可以是基于卷积神经网络算法构建得到的。待处理图像310可以是待处理图像集中的至少一个待处理图像。
确定第一待处理图像特征和第二待处理图像特征之间的特征相似度信息,如图3所示,可以将第一待处理图像特征311输入第一图像特征嵌入网络331,输出第一图像特征313。还可以将第二待处理图像特征312输入第二图像特征嵌入网络332,输出第二图像特征314。
第一图像特征嵌入网络331和第二图像特征嵌入网络332可以是基于多层感知器(Muti-Layer Perception,MLP)构建得到的。将第一待处理图像特征311和第二待处理图像特征312分别输入至第一图像特征嵌入网络331和第二图像特征嵌入网络332,可以使第一待处理图像特征311和第二待处理图像特征312分别被嵌入到适用于进行相似度对比的特征空间,从而可以使生成的第一图像特征313和第二图像特征314适用于进行相似度检测。
如图3所示,确定第一待处理图像特征和第二待处理图像特征之间的特征相似度信息,可以是将第一图像特征31 3、第二图像特征314、第一待处理图像特征311和第二待处理图像特征312输入第一相似度检测网络340,输出特征相似度信息350。
根据本公开的实施例,确定第一待处理图像特征和第二待处理图像特征之间的特征相似度信息可以包括:基于相对熵算法处理第一待处理图像特征和第二待处理图像特征,得到初始特征相似度信息;根据初始特征相似度信息,以及第一待处理图像特征和第二待处理图像特征各自的范数,确定特征相似度信息。
根据本公开的实施例,如图3所示,基于相对熵算法处理第一待处理图像特征和第二待处理图像特征,可以是将第一图像特征313和第二图像特征314输入第一相似度检测网络340。第一相似度检测网络340可以基于如下公式(1)来得到特征相似度信息350。
公式(1)中,表示特征相似度信息350,为/>表示第一待处理图像特征311,/>表示第二待处理图像特征312,/>表示第一图像特征313,/>表示第二图像特征314,/>可以表示待处理图像集中的待处理图像310。θs可以表示第一图像特征提取模型321的模型参数,θt可以表示第二图像特征提取模型322的模型参数。可以表示第一待处理图像特征311的二范数,/>表示第二待处理图像特征312的二范数。
D()可以是基于相对熵算法构建得到的公式,例如D()可以通过如下公式(2)来表示。
应该理解的是,公式(2)对应的计算结果可以表示初始特征相似度信息。相似度信息可以表征第一图像特征313和第二图像特征314之间的距离。在相似度信息/>较小的情况下,例如相似度信息/>小于预设相似度阈值的情况下,可以确定第一图像特征313和第二图像特征314之间的距离较小,进而可以表示利用第二图像特征314的特征分布来表示第一图像特征313的特征分布,所产生的信息损失较小。由于是基于相同的待处理图像310来得到第一图像特征313和第二图像特征314,因此相似度信息/>小于预设相似度阈值的情况下,可以确定用于训练第一图像特征提取模型321和第二图像特征提取模型322的数据相似度较高,即待处理图像集与参考图像的相似度较高。
根据本公开的实施例,通过本公开实施例提供的方法,可以首先通过待处理图像集训练初始图像特征提取模型,得到第一图像特征提取模型。再根据参考图像训练第一图像特征提取模型,得到第二图像特征提取模型。然后基于第一图像特征提取模型和第二图像特征提取模型处理待处理图像,并得到第一待处理图像特征和第二待处理图像特征之间的特征相似度信息。因此可以根据特征相似度信息来确定第二图像特征提取模型相对于第一图像特征提取模型的遗忘程度。即在特征相似度信息表征第一待处理图像特征和第二待处理图像特征之间相似度较高的情况下,可以确定第二图像特征提取模型的遗忘程度较小,即第二图像特征提取模型仍能够针对原始的待处理图像数据集具有良好的识别性能,从而确定分别输入至第一图像特征提取模型和第二图像特征提取模型的待处理图像,与参考图像的相似程度较高,实现从待处理图像集中筛选出目标图像。
根据本公开的实施例,确定待处理图像集中的待处理图像,与参考图像之间的相似度结果还可以包括:分别提取待处理图像和参考图像各自的图像特征,得到第三待处理图像特征和参考图像特征;融合第三待处理图像特征和参考图像特征,得到融合图像特征;以及根据融合图像特征、第三待处理图像特征和参考图像特征,得到相似度结果。
根据本公开的实施例,可以基于神经网络算法来分别提取待处理图像和参考图像各自的图像特征,例如可以基于卷积神经网络算法来分别提取待处理图像和参考图像各自的图像特征。但不仅限于此,还可以基于其他方式来分别提取待处理图像和参考图像各自的图像特征,例如可以基于图像编码器来分别提取待处理图像和参考图像各自的图像特征,本公开的实施例对提取图像特征的具体方式不做限定。
根据本公开的实施例,可以基于神经网络算法来融合第三待处理图像特征和参考图像特征,例如可以基于注意力网络算法,例如Transformer算法来融合第三待处理图像特征和参考图像特征。但不仅限于此,还可以基于其他方式来融合第三待处理图像特征和参考图像特征,例如还可以基于计算得到第三待处理图像特征和参考图像特征的内积,来实现融合第三待处理图像特征和参考图像特征。本公开的实施例对融合第三待处理图像特征和参考图像特征的具体方式此不做限定。
图4示意性示出了根据本公开另一实施例的样本图像生成方法的原理图。
如图4所示,分别提取待处理图像和参考图像各自的图像特征,可以是将待处理图像411和参考图像421输入至第三图像特征提取模型430,输出第三待处理图像特征412和参考图像特征422。待处理图像411可以是待处理图像集中的至少一个待处理图像。第三图像特征提取模型430可以是基于Faster RCNN(Regions with CNN features)算法构建得到的。
如图4所示,融合第三待处理图像特征和参考图像特征,得到融合图像特征,可以是将第三待处理图像特征412和参考图像特征422输入至融合模型440,输出融合图像特征451。
融合模型440可以基于如下公式(3)构建得到。
公式(3)中,R表示出融合图像特征451,表示第三待处理图像特征412,表示参考图像特征422,θu表示第三图像特征提取模型430的模型参数。表示计算第三待处理图像特征412与参考图像特征422之间的内积。
根据本公开的实施例,根据融合图像特征、第三待处理图像特征和参考图像特征,得到相似度结果,可以是如图4所示,将融合图像特征451、第三待处理图像特征412和参考图像特征422输入至第二相似度检测网络460,输出相似度指数470。相似度指数470可以用于确定相似度结果。
第二相似度检测网络460可以基于如下公式(4)构建得到。
公式(4)中,表示第三待处理图像特征412的二范数,/>表示参考图像特征422的二范数,R可以表示融合图像特征451。/>可以表示待处理图像集中的待处理图像411,/>可以表示参考图像421,θu可以表示第三图像特征提取模型430的模型参数,表示待处理图像411与参考图像421之间的相似度指数470。
根据本公开的实施例,在相似度指数470大于预设相似度指数阈值的情况下,可以确定待处理图像411与参考图像421之间的相似程度较高,因此可以将待处理图像411确定为目标图像,并根据目标图像生成适用于训练深度学习模型的样本图像,以扩充用于训练深度学习模型的数据规模,提升深度学习模型的训练效果。
根据本公开的实施例,根据目标图像,生成样本图像可以包括:根据目标图像和参考图像,构建样本数据集;以及根据样本数据集,以及和样本数据集中的样本数据对应的标签,确定样本图像。
根据本公开的实施例,标签可以是表征参考图像中具有目标类型的目标对象的身份标签,还可以是表征目标图像中目标对象的身份标签。可以根据与目标图像对应的标签来对样本数据集中的目标图像进行标注,得到样本图像,还可以根据与参考图像对应的标签来对样本数据集中的参考图像进行标注,得到样本图像。
需要说明的是,本公开实施例中涉及的数据收集处理过程,例如参考图像、待处理图像的收集,可以是在获取到对应的目标对象授权后进行的,或者还可以是在经过授权后从公开的样本数据库中收集的。相应地,本公开实施例中提供的样本图像生成方法,可以是对收集的相关数据采用必要的保密措施,保密措施包括但不限于加密措施,以保护相关目标对象的个人隐私,符合相关法律法规的要求。
图5A示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
如图5A所示,深度学习模型的训练方法可以包括操作S510~操作S520。
在操作S510,获取样本图像,样本图像是根据上述实施例提供的样本图像生成方法得到的。
在操作S520,利用样本图像训练初始深度学习模型,得到训练后的深度学习模型。
根据本公开的实施例,样本图像可以是能够表征具有目标类型的目标对象的特征信息的图像,例如可以包括上述实施例中提供的参考图像,或者还可以包括根据本公开实施例提供的样本图像生成方法得到的目标图像。应该理解的是,样本图像可以关联有相对应的标签,标签例如可以是表征对应的样本图像中,目标对象的身份信息的身份标签。
根据本公开的实施例,初始深度学习模型可以是基于神经网络算法构建得到的,例如可以基于卷积神经网络构建得到初始深度学习模型。但不仅限于此,还可以基于其他类型的算法来构建得到初始深度学习模型,例如还可以基于注意力网络算法来构建初始深度学习模型。本公开的实施例对构建初始深度学习模型的具体算法类型不做限定。
根据本公开的实施例,根据样本图像训练得到的深度学习模型,可以对具有目标类型的目标对象的身份信息进行检测,以提升针对面部遮挡的目标对象的识别精度,例如可以提升运动员训练过程中的身份识别精度,实现提升相关运动训练分析效率,提升运动考核的考核效率。
图5B示意性示出了根据本公开实施例的深度学习模型的原理图。
如图5B所示,深度学习模型500可以至少可以包括:第一卷积层511、第一归一化层512、第二卷积层521、第二归一化层522、第三卷积层531、第三归一化层532和第四卷积层541。
第一卷积层511可以基于尺寸为7×7的卷积核构建得到,第一归一化层512可以基于IN(Instance Normalization)层和BN(Batch Normalization)层构建得到。可以基于IN来将每个样本数据的均值和标准差归一化到特定的值,以加速深度学习模型的训练过程,提高深度学习模型的稳健性。BN层可以有效地控制梯度爆炸,并防止梯度消失和过拟合问题,提升训练后的深度学习模型的鲁棒性。
第二卷积层521可以基于尺寸为3×3的卷积核构建得到,第二归一化层522可以基于IN(Instance Normalization)层和BN(Batch Normalization)层构建得到。第三卷积层531可以基于尺寸为3×3的卷积核构建得到,第三归一化层532可以基于BN(BatchNormalization)层构建得到。第四卷积层541可以基于尺寸为16×16的卷积核构建得到。
需要说明的是,本公开实施例中提供的深度学习模型的训练方法所涉及的技术术语,包括但不限于样本图像、目标对象,可以参考上述实施例中提供的样本图像生成方法中相同或相应的技术术语,本公开的实施例在此不再赘述。
图6示意性示出了根据本公开实施例的目标对象识别方法的流程图。
如图6所示,目标对象识别方法包括操作S610~操作S620。
在操作S610,获取与具有目标类型的目标对象相关的初始图像。
在操作S620,将初始图像输入至深度学习模型中,输出针对目标对象的识别结果;其中,深度学习模型是根据上述实施例提供的深度学习模型的训练方法训练得到的。
根据本公开的实施例,针对目标对象的识别结果,可以是表征初始图像中目标对象的身份信息的身份识别结果,通过上述实施例提供的深度学习训练方法,来获得用于识别具有目标类型的目标对象的识别结果,可以基于深度学习模型针对具有目标类型的目标对象的高精度识别能力,提升针对跳水运动员、体操运动员等体态相似度较高,面部被遮挡,且衣着特点相似程度高的目标对象的识别精度,适用于在运动员训练、比赛、考核等场景中保持全过程、高精度的身份识别,以辅助相关人员提升训练效率,提升比赛转播质量,并提升考核结果可靠性。
本公开的实施例还提供了一种视频信息生成方法,包括:检测与目标对象相关的初始视频流,得到目标对象检测结果;根据有限状态机处理目标对象检测结果,得到装置控制信息;以及根据装置控制信息对初始视频流进行视频剪辑操作,得到目标视频信息。
根据本公开的实施例,初始视频流可以是针对目标对象相关的场景进行拍摄的视频。例如可以是针对跳水运动员相关的跳台场景区域进行拍摄产生的视频流。
根据本公开的实施例,检测与目标对象相关的初始视频流,得到目标对象检测结果,可以包括检测初始视频流中目标对象的身份信息。例如可以获取初始视频流中任意采样时刻的初始视频帧,基于上述实施例提供的目标对象识别方法来处理初始视频帧,得到该采样时刻对应的目标对象的身份信息。
根据本公开的实施例,检测与目标对象相关的初始视频流,得到目标对象检测结果,还可以包括检测初始视频流中目标对象的位置信息。例如可以检测得到初始视频帧中目标对象的目标对象像素坐标位置,基于拍摄装置的装置内参与装置外参(也称相机内参与相机外参)对像素坐标位置进行坐标转换,得到目标对象在世界坐标系中的目标对象地理坐标位置。
根据本公开的实施例,目标对象检测结果还可以包括目标对象的位置信息和目标对象的身份信息。
根据本公开的实施例,根据有限状态机(Finite State Machine)处理目标对象检测结果,例如在跳水运动员训练的过程中,基于有限状态机识别目标对象的身份信息。在目标对象的身份信息与预设有限状态机数据库中的身份信息匹配的情况下,得到开始剪辑信息(装置控制信息),对初始视频流执行第一剪辑操作,第一剪辑操作可以标记为与该身份信息对应的视频剪辑起始点。在识别到初始视频流中的目标对象的身份信息消失的情况下,得到结束剪辑信息(装置控制信息),对初始视频流执行第二剪辑操作,第二剪辑操作可以标记为与该身份信息对应的视频剪辑结束点。根据第一剪辑操作与第二剪辑操作自动地对初始视频流进行视频剪辑操作,得到与跳水运动员的整体运动过程相匹配的目标视频信息。
根据本公开的实施例,根据有限状态机(Finite State Machine)处理目标对象检测结果,还可以在跳水运动员训练的场景中,基于有限状态机识别目标对象的位置信息。在目标对象地理坐标位置到达跳台起始位置(第1位置)的情况下,得到开始剪辑信息,对初始视频流执行第一剪辑操作。在目标对象地理坐标位置到达跳台起跳的边缘位置(第2位置),又返回第1位置的情况下,控制对初始视频流执行删除操作,并基于重新到达的第1位置对初始视频流执行第一剪辑操作。直至检测到目标对象的位置为空,即检测到目标对象完成跳水动作进入水中,或者目标对象从跳台起始位置离开,对初始视频流执行第二剪辑操作。根据第一剪辑操作与第二剪辑操作自动地对初始视频流进行视频剪辑操作,得到与跳水运动员的整体运动过程相匹配的目标视频信息。完成针对目标对象全训练过程的视频自动剪辑,提升视频剪辑效率。
图7示意性示出了根据本公开实施例的样本图像生成装置的框图。
如图7所示,样本图像生成装置700,包括:图像获取模块710、相似度结果确定模块720、目标图像确定模块730和样本图像生成模块740。
图像获取模块710,用于获取待处理图像集和参考图像,其中,参考图像与具有目标类型的目标对象相关。
相似度结果确定模块720,用于确定待处理图像集中的待处理图像,与参考图像之间的相似度结果。
目标图像确定模块730,用于根据相似度结果,从待处理图像集中确定目标图像。
样本图像生成模块740,用于根据目标图像,生成样本图像。
根据本公开的实施例,相似度结果确定模块包括:第一特征提取单元、特征相似度信息确定单元和第一相似度结果确定单元。
第一特征提取单元,用于分别基于第一图像特征提取模型和第二图像特征提取模型,提取待处理图像的图像特征,得到第一待处理图像特征和第二待处理图像特征;其中,第一图像特征提取模型是根据待处理图像集训练初始图像特征提取模型后得到的,第二图像特征提取模型是根据参考图像训练第一图像特征提取模型后得到的。
特征相似度信息确定单元,用于确定第一待处理图像特征和第二待处理图像特征之间的特征相似度信息。
第一相似度结果确定单元,用于将特征相似度信息确定为相似度结果。
根据本公开的实施例,特征相似度信息确定单元包括:初始特征相似度信息获得子单元和特征相似度信息确定子单元。
初始特征相似度信息获得子单元,用于基于相对熵算法处理第一待处理图像特征和第二待处理图像特征,得到初始特征相似度信息。
特征相似度信息确定子单元,用于根据初始特征相似度信息,以及第一待处理图像特征和第二待处理图像特征各自的范数,确定特征相似度信息。
根据本公开的实施例,相似度结果确定模块还包括:第二特征提取单元、特征融合单元和第二相似度结果确定单元。
第二特征提取单元,用于分别提取待处理图像和参考图像各自的图像特征,得到第三待处理图像特征和参考图像特征。
特征融合单元,用于融合第三待处理图像特征和参考图像特征,得到融合图像特征。
第二相似度结果确定单元根据融合图像特征、第三待处理图像特征和参考图像特征,得到相似度结果。
根据本公开的实施例,样本图像生成模块包括:样本数据集构建单元和样本图像确定单元。
样本数据集构建单元,用于根据目标图像和参考图像,构建样本数据集。
样本图像确定单元,用于根据样本数据集,以及和样本数据集中的样本数据对应的标签,确定样本图像。
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
如图8所示,深度学习模型的训练装置800包括:样本图像获取模块810和训练模块820。
样本图像获取模块810,用于获取样本图像,样本图像是根据上述实施例提供的样本图像生成方法得到的。
训练模块820,用于利用样本图像训练初始深度学习模型,得到训练后的深度学习模型。
图9示意性示出了根据本公开实施例的目标对象识别装置的框图。
如图9所示,目标对象识别装置900包括:初始图像获取模块910和识别结果获得模块920。
初始图像获取模块910,用于获取与具有目标类型的目标对象相关的初始图像。
识别结果获得模块920,用于将初始图像输入至深度学习模型中,输出针对目标对象的识别结果;其中,深度学习模型是根据上述实施例提供的深度学习模型的训练方法训练得到的。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如样本图像生成方法、深度学习模型的训练方法或者目标对象识别方法。例如,在一些实施例中,样本图像生成方法、深度学习模型的训练方法或者目标对象识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1 000上。当计算机程序加载到RAM 1003并由计算单元1 001执行时,可以执行上文描述的样本图像生成方法、深度学习模型的训练方法或者目标对象识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1 001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本图像生成方法、深度学习模型的训练方法或者目标对象识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种样本图像生成方法,包括:
获取待处理图像集和参考图像,其中,所述参考图像与具有目标类型的目标对象相关;
确定所述待处理图像集中的待处理图像,与所述参考图像之间的相似度结果;
根据所述相似度结果,从所述待处理图像集中确定目标图像;以及
根据所述目标图像,生成样本图像;
其中,所述确定所述待处理图像集中的待处理图像,与所述参考图像之间的相似度结果包括:
分别基于第一图像特征提取模型和第二图像特征提取模型,提取所述待处理图像的图像特征,得到第一待处理图像特征和第二待处理图像特征;其中,所述第一图像特征提取模型是根据所述待处理图像集训练初始图像特征提取模型后得到的,所述第二图像特征提取模型是根据所述参考图像训练所述第一图像特征提取模型后得到的;
确定所述第一待处理图像特征和所述第二待处理图像特征之间的特征相似度信息;以及
将所述特征相似度信息确定为所述相似度结果。
2.根据权利要求1所述的方法,其中,所述确定所述第一待处理图像特征和所述第二待处理图像特征之间的特征相似度信息包括:
基于相对熵算法处理所述第一待处理图像特征和所述第二待处理图像特征,得到初始特征相似度信息;
根据所述初始特征相似度信息,以及所述第一待处理图像特征和所述第二待处理图像特征各自的范数,确定所述特征相似度信息。
3.根据权利要求1所述的方法,其中,所述确定所述待处理图像集中的待处理图像,与所述参考图像之间的相似度结果还包括:
分别提取所述待处理图像和所述参考图像各自的图像特征,得到第三待处理图像特征和参考图像特征;
融合所述第三待处理图像特征和所述参考图像特征,得到融合图像特征;
根据所述融合图像特征、所述第三待处理图像特征和所述参考图像特征,得到所述相似度结果。
4.根据权利要求1所述的方法,其中,所述根据所述目标图像,生成样本图像包括:
根据所述目标图像和所述参考图像,构建样本数据集;以及
根据所述样本数据集,以及和所述样本数据集中的样本数据对应的标签,确定所述样本图像。
5.根据权利要求1所述的方法,其中,所述参考图像包括以下至少一项:
所述目标对象准备执行运动动作的图像、所述目标对象执行运动动作过程的图像、所述目标对象执行完成运动动作的图像。
6.一种深度学习模型的训练方法,包括:
获取样本图像,所述样本图像是根据权利要求1至5中任一项所述的样本图像生成方法得到的;
利用所述样本图像训练初始深度学习模型,得到训练后的深度学习模型。
7.一种目标对象识别方法,包括:
获取与具有目标类型的目标对象相关的初始图像;
将所述初始图像输入至深度学习模型中,输出针对所述目标对象的识别结果;
其中,所述深度学习模型是根据权利要求6所述的方法训练得到的。
8.一种样本图像生成装置,包括:
图像获取模块,用于获取待处理图像集和参考图像,其中,所述参考图像与具有目标类型的目标对象相关;
相似度结果确定模块,用于确定所述待处理图像集中的待处理图像,与所述参考图像之间的相似度结果;
目标图像确定模块,用于根据所述相似度结果,从所述待处理图像集中确定目标图像;以及
样本图像生成模块,用于根据所述目标图像,生成样本图像;
其中,所述相似度结果确定模块包括:
第一特征提取单元,用于分别基于第一图像特征提取模型和第二图像特征提取模型,提取所述待处理图像的图像特征,得到第一待处理图像特征和第二待处理图像特征;
其中,所述第一图像特征提取模型是根据所述待处理图像集训练初始图像特征提取模型后得到的,所述第二图像特征提取模型是根据所述参考图像训练所述第一图像特征提取模型后得到的;
特征相似度信息确定单元,用于确定所述第一待处理图像特征和所述第二待处理图像特征之间的特征相似度信息;以及
第一相似度结果确定单元,用于将所述特征相似度信息确定为所述相似度结果。
9.根据权利要求8所述的装置,其中,所述特征相似度信息确定单元包括:
初始特征相似度信息获得子单元,用于基于相对熵算法处理所述第一待处理图像特征和所述第二待处理图像特征,得到初始特征相似度信息;
特征相似度信息确定子单元,用于根据所述初始特征相似度信息,以及所述第一待处理图像特征和所述第二待处理图像特征各自的范数,确定所述特征相似度信息。
10.根据权利要求8所述的装置,其中,所述相似度结果确定模块还包括:
第二特征提取单元,用于分别提取所述待处理图像和所述参考图像各自的图像特征,得到第三待处理图像特征和参考图像特征;
特征融合单元,用于融合所述第三待处理图像特征和所述参考图像特征,得到融合图像特征;
第二相似度结果确定单元根据所述融合图像特征、所述第三待处理图像特征和所述参考图像特征,得到所述相似度结果。
11.根据权利要求8所述的装置,其中,所述样本图像生成模块包括:
样本数据集构建单元,用于根据所述目标图像和所述参考图像,构建样本数据集;以及
样本图像确定单元,用于根据所述样本数据集,以及和所述样本数据集中的样本数据对应的标签,确定所述样本图像。
12.一种深度学习模型的训练装置,包括:
样本图像获取模块,用于获取样本图像,所述样本图像是根据权利要求1至5中任一项所述的样本图像生成方法得到的;
训练模块,用于利用所述样本图像训练初始深度学习模型,得到训练后的深度学习模型。
13.一种目标对象识别装置,包括:
初始图像获取模块,用于获取与具有目标类型的目标对象相关的初始图像;
识别结果获得模块,用于将所述初始图像输入至深度学习模型中,输出针对所述目标对象的识别结果;
其中,所述深度学习模型是根据权利要求6所述的方法训练得到的。
14.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310414279.7A CN116433939B (zh) | 2023-04-18 | 2023-04-18 | 样本图像生成方法、训练方法、识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310414279.7A CN116433939B (zh) | 2023-04-18 | 2023-04-18 | 样本图像生成方法、训练方法、识别方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116433939A CN116433939A (zh) | 2023-07-14 |
CN116433939B true CN116433939B (zh) | 2024-02-20 |
Family
ID=87090534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310414279.7A Active CN116433939B (zh) | 2023-04-18 | 2023-04-18 | 样本图像生成方法、训练方法、识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433939B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596338A (zh) * | 2018-05-09 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种神经网络训练集的获取方法及其系统 |
WO2019233421A1 (zh) * | 2018-06-04 | 2019-12-12 | 京东数字科技控股有限公司 | 图像处理方法及装置、电子设备、存储介质 |
CN113947701A (zh) * | 2021-10-18 | 2022-01-18 | 北京百度网讯科技有限公司 | 训练方法、对象识别方法、装置、电子设备以及存储介质 |
CN114494784A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法和对象识别方法 |
-
2023
- 2023-04-18 CN CN202310414279.7A patent/CN116433939B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596338A (zh) * | 2018-05-09 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种神经网络训练集的获取方法及其系统 |
WO2019233421A1 (zh) * | 2018-06-04 | 2019-12-12 | 京东数字科技控股有限公司 | 图像处理方法及装置、电子设备、存储介质 |
CN113947701A (zh) * | 2021-10-18 | 2022-01-18 | 北京百度网讯科技有限公司 | 训练方法、对象识别方法、装置、电子设备以及存储介质 |
CN114494784A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法和对象识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116433939A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936911B2 (en) | Logo detection | |
CN111259751B (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
WO2022041830A1 (zh) | 行人重识别方法和装置 | |
JP6362085B2 (ja) | 画像認識システム、画像認識方法およびプログラム | |
WO2021143865A1 (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN110956131B (zh) | 单目标追踪方法、装置及系统 | |
CN108229494B (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
WO2020107847A1 (zh) | 基于骨骼点的跌倒检测方法及其跌倒检测装置 | |
CN112561879B (zh) | 模糊度评价模型训练方法、图像模糊度评价方法及装置 | |
CN111126254A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN111382791B (zh) | 深度学习任务处理方法、图像识别任务处理方法和装置 | |
CN113557546B (zh) | 图像中关联对象的检测方法、装置、设备和存储介质 | |
CN116453222B (zh) | 目标对象姿态确定方法、训练方法、装置以及存储介质 | |
CN110728172B (zh) | 基于点云的人脸关键点检测方法、装置、系统及存储介质 | |
CN116433939B (zh) | 样本图像生成方法、训练方法、识别方法以及装置 | |
US20230131717A1 (en) | Search processing device, search processing method, and computer program product | |
CN116403285A (zh) | 动作识别方法、装置、电子设备以及存储介质 | |
US20220385810A1 (en) | Panoramic Video Data Process | |
CN113255512B (zh) | 用于活体识别的方法、装置、设备以及存储介质 | |
CN113544701B (zh) | 关联对象的检测方法及装置、电子设备及存储介质 | |
CN114067394A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN108694347B (zh) | 图像处理方法和装置 | |
CN111783519A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112115740A (zh) | 用于处理图像的方法和装置 | |
CN116189028B (zh) | 图像识别方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |