CN111626212B - 图片中对象的识别方法和装置、存储介质及电子装置 - Google Patents
图片中对象的识别方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN111626212B CN111626212B CN202010463332.9A CN202010463332A CN111626212B CN 111626212 B CN111626212 B CN 111626212B CN 202010463332 A CN202010463332 A CN 202010463332A CN 111626212 B CN111626212 B CN 111626212B
- Authority
- CN
- China
- Prior art keywords
- picture
- sample
- target
- neural network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims abstract description 135
- 238000012549 training Methods 0.000 claims description 100
- 230000006870 function Effects 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000005192 partition Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图片中对象的识别方法和装置、存储介质及电子装置。其中,该方法包括:将待识别对象的第一图片和第二图片输入到满足正样本图片对是正样本图片对集合中距离最大的特征,负样本图片对是负样本图片对集合中距离最小的特征的损失函数的目标神经网络模型中目的,即目标神经网络模型满足具有两张图片中相同对象的距离更小,不同对象的距离更大,换句话说,目标神经网络模型满足类内的正样本图片对的距离更小与类间的负样本图片对的距离更大,从而可以精确的识别两张图片中存在的目标对象是否是同一个目标对象的技术效果,进而解决了图像中对象识别的准确性较低的技术问题。
Description
技术领域
本发明涉及图片识别领域,具体而言,涉及一种图片中对象的识别方法和装置、存储介质及电子装置。
背景技术
行人重识别(Person re-identification缩写ReID)技术是一项利用计算器视觉技术在图片库或者视频库中检索特定行人的技术,被广泛应用于智能监控、安防等领域。实际场景中,抓拍到的行人很容易被各种静态或动态的物体所遮挡,而且由于抓拍角度的不同和行人自身移动导致的较大的视角和姿态变化,以及由于天气、时间等造成的光线变化等等都会对行人重识别的最终效果产生比较大的影响。
目前,ReID中现有的相同部分对齐的方案是:在利用深度神经网络提取整张图片的特征后,在竖直方向上将提取好的图片特征均等分,将每一块划分视为抽象的部件特征;然后,利用动态规划方法匹配每一块特征。
由上可知,现有的对齐基本考虑的都是抽象部件间的对齐,几乎都是在垂直方向上的均等划分。划分的粒度相对较大,但实际上一个图片对的差异可能在一个很小的地方。另外,上述这种特征匹配规则会造成图中的一个划分与另一张图的多个划分相匹配,也会造成每一个划分至少和另一张图的某个划分相匹配。如果对于非完整人体和图像遮挡的情况,现有技术中的图像识别计算量较大的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片中对象的识别方法和装置、存储介质及电子装置,以至少解决图像中对象识别的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种图片中对象的识别方法,包括:获取第一图片和第二图片,其中,所述第一图片中包括第一对象,所述第二图片中包括第二对象;将所述第一图片和所述第二图片输入目标神经网络模型,得到所述第一图片的第一特征图和所述第二图片的第二特征图,其中,所述目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,所述训练样本图片集合包括多张样本图片,所述多张样本图片中共包括多个不同的样本对象,每个所述样本对象出现在所述多张样本图片中的至少一张样本图片中,所述目标神经网络模型满足目标损失条件,所述目标损失条件包括第一损失函数的取值小于第一阈值,所述第一损失函数与所述多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,所述目标正样本图片对是所述每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,所述目标负样本图片对的特征是所述每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,所述正样本图片对集合均包括相同的对象,所述负样本对集合中的每对负样本图片对中仅有一张负样本图片包括所述相同的对象。
根据本发明实施例的另一方面,还提供了一种图片中对象的识别装置,包括:第一获取单元,用于获取第一图片和第二图片,其中,所述第一图片中包括第一对象,所述第二图片中包括第二对象;处理单元,用于将所述第一图片和所述第二图片输入目标神经网络模型,得到所述第一图片的第一特征图和所述第二图片的第二特征图,其中,所述目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,所述训练样本图片集合包括多张样本图片,所述多张样本图片中共包括多个不同的样本对象,每个所述样本对象出现在所述多张样本图片中的至少一张样本图片中,所述目标神经网络模型满足目标损失条件,所述目标损失条件包括第一损失函数的取值小于第一阈值,所述第一损失函数与所述多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,所述目标正样本图片对是所述每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,所述目标负样本图片对的特征是所述每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,所述正样本图片对集合均包括相同的对象,所述负样本对集合中的每对负样本图片对中仅有一张负样本图片包括所述相同的对象;识别单元,用于通过所述目标神经网络模型对所述第一图片的所述第一特征图和所述第二图片的所述第二特征图进行处理,得到识别结果,其中,所述识别结果用于指示所述第一图片中的所述第一对象和所述第二图片中的所述第二对象为同一对象或者为不同对象。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图片中对象的识别方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的图片中对象的识别方法。
在本发明实施例中,通过获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象;将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象;通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象,达到了将待识别对象的第一图片和第二图片输入到满足正样本图片对是正样本图片对集合中距离最大的特征,负样本图片对是负样本图片对集合中距离最小的特征的损失函数的目标神经网络模型中目的,即目标神经网络模型满足具有两张图片中相同对象的距离更小,不同对象的距离更大,换句话说,目标神经网络模型满足类内正图片对的距离更小与类间负样本图片对的距离更大,从而可以精确的识别两张图片中存在的目标对象是否是同一个目标对象的技术效果,进而解决了图像中对象识别的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图片中对象的识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的图片中对象的识别方法的流程图;
图3是根据本发明实施例的一种可选的图片中对象的识别方法的模型处理过程示意图;
图4是根据本发明实施例的另一种可选的图片中对象的识别方法的模型处理过程示意图;
图5是根据本发明实施例的又一种可选的图片中对象的识别方法的模型处理过程示意图;
图6是根据本发明实施例的另一种可选的图片中对象的识别方法的应用场景示意图;
图7是根据本发明实施例的一种可选的图片中对象的识别装置的结构示意图;
图8是根据本发明实施例的一种可选的图片中对象的识别方法的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习、云服务器等技术,具体通过如下实施例进行说明。
根据本发明实施例的一个方面,提供了一种基于云服务器与人工智能的图像中对象的识别方法,可选地,作为一种可选的实施方式,上述图片中对象的识别方法可以但不限于应用于如图1所示的环境中。
图1中拍摄设备104可以拍摄用户102的图片。拍摄设备104中包含有存储器106,用于存储拍摄的图片、传输装置108,用于传输数据。拍摄设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有处理模块114,用于处理传输的数据。
上述拍摄设备104可以但不限于为拍摄装置,如摄像头等,或者为手机、平板电脑、笔记本电脑、PC机等终端,上述网络110可以包括但不限于无线网络或有线网络。其中,该无线网络包括:WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。
上述服务器112可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本方案中的上述服务器112可以部署有上述目标神经网络模型,通过目标神经网络模型获取到第一图片与第二图片,并实现识别第一图片与第二图片中的目标对象是否为同一对象。
其中,目标神经网络模型可以通过不断的机器学习进行优化,进而满足目标神经网络模型的快速计算要求。
可选地,作为一种可选的实施方式,如图2所示,上述图片中对象的识别方法包括:
步骤S202,获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象。
步骤S204,将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括每个样本对象对应的第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象。
步骤S206,通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象。
可选的,在本实施例中,上述图像中对象的识别方法可以但不限于应用于图像识别比对的过程中,例如,比对两张图片中所包含的对象是否为同一对象的过程中。具体的应用领域本实施例并不做具体限定。例如,应用于对象匹配领域、移动轨迹确定领域、对象轨迹跟踪领域等,或者应用于智能交通、智能零售、智能安防等诸多场景。例如,一个对象超出一个摄像头的拍摄范围,被另一个摄像头捕捉,这种情况下利用本方案的技术就能将两个摄像头捕捉地两条轨迹串联起来,进而可以获得顾客在商超内的整个轨迹,有利于后续的各项数据挖掘与分析。
其中,正样本图片对是两张图片都包括对象A,负样本图片对是一张图片张包括对象A,另一种图片中不存在对象A。
在实际应用中,以对象匹配领域为例,预先保存有多个对象并记录有多个对象的信息,在获取到一张图片后,可以匹配识别比对一张图片中的对象是哪一个对象,实现对象的身份识别。例如,第一张图片中存在对象A,第二张图片中存在对象B,通过目标神经网络模型识别出对象A与对象B是同一个对象。
以移动轨迹确定领域为例,可以识别多张图片中的对象是否为同一对象,获取属于同一对象的图片的拍摄时间与拍摄位置,按照时间先后将位置连线,得到该对象的移动轨迹。
以对象轨迹跟踪领域为例,使用不同的摄像头可以拍摄不同的图片,如果两个摄像头分别拍摄的图片中的对象为同一对象,可以获取两个摄像头分别拍摄的该对象的图像,并分别获取两个摄像头拍摄的该对象的移动轨迹,将两个摄像头拍摄的该对象的移动轨迹拼接,得到该对象的移动轨迹路线,实现该对象的轨迹跟踪。
以上仅为示例,并不是对本方案的应用场景的限定。
通过本申请提供的实施例,将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象;通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象,达到了将待识别对象的第一图片和第二图片输入到满足正样本图片对是正样本图片对集合中距离最大的特征,负样本图片对是负样本图片对集合中距离最小的特征的损失函数的目标神经网络模型中目的,即目标神经网络模型满足具有两张图片中相同对象的距离更小,不同对象的距离更大,换句话说,目标神经网络模型满足类内正图片对的距离更小与类间负样本图片对的距离更大,从而可以精确的识别两张图片中存在的目标对象是否是同一个目标对象的技术效果,进而解决了图像中对象识别的准确性较低的技术问题。
需要说明的是,本实施例中,通过匹配样本中最相似特征块信息强化网络训练,拉大类间差异,使得类间差异尽可能地大于类内差异,从而增强特征的区分能力。进而提高图像
可选的,在本实施例中,将第一图片和第二图片输入目标神经网络模型之前,可以包括:
获取训练样本图片集合,其中,训练样本图片集合包括N张样本图片,N张样本图片中共包括K个不同的样本对象,每个样本对象出现在N张样本图片中的P张样本图片中,N和K为大于1的自然数,P为自然数;
使用训练样本图片集合对待训练神经网络模型进行训练,得到满足目标损失函数的目标神经网络模型。
例如,训练样本图片集合中包括100张图片,其中,100张图片中包含10个人,每个人包含10张人体图像。即训练样本图片集合中存在10个对象,其中每个对象由10张图片。
需要说明的是,使用训练样本图片集合对待训练神经网络模型进行训练,可以包括:
S1,将N张样本图片输入待训练神经网络模型中,通过待训练神经网络模型获取每张样本图片的C个特征图,得到N*C个特征图,其中,N*C个特征图中的每个特征图的高为H,宽为W,H和W为大于1的自然数,C为自然数;
S2,根据N*C个特征图中正样本图片对的特征以及负样本图片对的特征,获取第一损失函数的取值,其中,正样本图片对的特征是N*C个特征图中距离最大的特征,负样本图片对的特征是N*C个特征图中距离最小的特征;
S3,在待训练神经网络模型满足目标损失条件的情况下,结束对待训练神经网络模型的训练,将结束训练时的待训练神经网络模型确定为目标神经网络模型。
还需要说明的是,根据N*C个特征图中正样本图片对的特征以及负样本图片对的特征,获取第一损失函数的取值,包括:
Ltop_k=max(0,Tmax(fa,fp)-Tmin(fa,fn)+m)
其中,fa,fp是训练样本图片集合中第a张图片与其余任意一张图片p的组成正样本对,正样本对对应的特征图之间的距离,fa,fn是训练样本图片集合中第a张图片与其余任意一张图片n组成负样本对,负样本对对应的特征图之间距离,m是常量;
其中,
Z={(i,j)|0≤i<HW,0≤j<HW,(xi-yj)2≤Top(x-y)}
其中,xi是训练样本图片集合中第x张图片对应的特征图的第i个单元格对应特征值,yj是训练样本图片集合中第y张图片对应的特征图的第j个单元格对应特征值,单元格是对第x张图片和y张图片进行相同大小网格化确定的,z是第x张图片被网格化的个数。
神经网络模型的训练可以在利用深度神经网络提取整张图片的特征后,在竖直方向上将提取好的图片特征均等分,将每一块划分视为抽象的部件特征,然后利用动态规划方法匹配每一块特征抽象部件间的对齐,几乎都是在垂直方向上的均等划分。划分的粒度相对较大,但实际上一个图片对的差异可能在一个很小的地方。另外,上述这种特征匹配规则会造成图中的一个划分与另一张图的多个划分相匹配,也会造成每一个划分至少和另一张图的某个划分相匹配。如果对于非完整人体和图像遮挡的情况,将会存在识别不准确。
而在本实施例中,将经目标深度神经网络提取特征得到的特征图(feature map)的每一个单元视作每一个划分单元,这样划分的粒度就会非常细,更有利于特征匹配。同时通过选取最相似的前top_k特征进行匹配用来进一步特征强化。从而提高图片中对象的识别精确度。
作为一种可选的实施例,在得到N*C个特征图之后,将N*C个特征图进行降维处理,得到N*C个目标特征值,其中,每个目标特征值是对N*C个特征图中的一个特征图中的特征值进行处理得到的;根据N*C个目标特征值,获取第二损失函数的取值;
在结束对待训练神经网络模型的训练之前,确定待训练神经网络模型是否满足目标损失条件,其中,目标损失条件包括:每个样本对象对应的第一损失函数的取值小于第一阈值、第二损失函数的取值小于第二阈值。
以下结合一个具体示例说明上述图片中对象的识别方法。
首先本方案需要预训练一个目标神经网络模型,目标神经网络模型通过样本图片组训练原始神经网络模型获得。本方案中的样本图片组可以包括多张图片,多张图片中的对象可以相同也可以不同,也可以多张图片中的一部分图片中的对象为同一对象,另外部分图片中的对象为不同对象,其中,同一对象的两张图片为正样本图片对,不同对象的两张图片为负样本图对。本实施例并不做具体限定。
在获取到训练样本图片集合后,将样本图片集合中的图片输入到待训练神经网络模型(例如ResNet-50)中,由待训练神经网络模型提取每一张图的特征,得到特征图(feature map)集合M,此处的特征图集合是识别多张图片所得到的多个特征图组的集合,识别每一张图片会得到多张特征图,多张特征图组成一个特征图组,识别多张图片后,得到多个特征图组组成上述特征图集合。M维度是(B,H,W,C),其中,B(batch size)是每次从训练集中获取到的参与训练的图片的张数(batch是每次从训练集中获取到的参与训练的图片),H是特征图的高,W是特征图的宽,C是通道数,也就是卷积层特征图的个数,也是卷积核的个数。例如,假设一次参与训练的图片为10张,则可以表示为B为10。H是识别样本图片后得到的特征图的高,W是上述特征图的宽,例如,识别1张图片得到一个特征图组,特征图组中包括10张特征图,每张特征图的高是5,宽是6,则M中H为5,W为6。C是通道数,也就是卷积层特征图的个数,也是卷积核的个数。例如,识别1张图片得到一个特征图组,特征图组中包括10张特征图,则C为10。举一个例子,每次从训练集中获取到的参与训练的图片的张数为2,识别2张图片,得到2个特征图组,每个特征图组中包括10张特征图,每张特征图高为5,宽为6,则M为(2,5,6,10)。
接下来对M采用全局平均池化以及降维得到全连接层(embedding),得到其维度为(B,C)的矩阵,训练时全连接层用于分类器(softmax)分类以及基于难样本挖掘的损失(triplet)。
同时可以对对M进行水平和垂直方向上的均等分划,计算平均损失函数(top_kloss)。例如,通过如下公式计算训练样本图片集合中所有图片对对应的特征图划分后每个单元格之间的距离:
Z={(i,j)|0≤i<HW,0≤j<HW,(xi-yj)2≤Top(x-y)}
Ltop_k=max(0,Tmax(fa,fp)-Tmin(fa,fn)+m)
其中,fa,fp是样本挖掘得到所有正样本图片对对应特征图之间的距离,fa,fn是样本挖掘得到的所有正样本图片对对应特征图之间的距离。
通过本实施例,训练时:输入一个训练样本集batch(batch是每次从训练集中获取到的参与训练的图片),batch中包含K个人,每个人包含P张人体图像。最终的损失函数可以包含每张图独立的损失(ID loss)以及每张图独立的三重态损失(Triplet Loss),也包括平均损失函数(top_k loss)。
上述训练过程可以结合图3进行说明。如图3所示,图3为目标神经网络模型训练的结构图,两张图片输入到骨架神经网络模型(backbone)中,每张图独立的由模型获取到特征图张量302与特征图张量304,得到2张图片的特征图张量M,对M采用全局平均池化以及降维得到全连接侧输出的矩阵(embedding),其维度为(B,C),训练时全连接层用于分类器(softmax)分类以及基于难样本挖掘的损失。对M进行水平和垂直方向上的均等分划,计算平均损失函数。
需要说明的是,骨架网络模型除了ResNet网络也可使用金字塔结构网络VGGNet,密集连接的卷积网络(densenet),NASNet网络等各种深度网络。损失函数除了交叉熵损失函数(cross entropy loss)也可以使用不同类之间距离的损失函数Arcface loss等其他损失函数。通过不同的样本挖掘方法得到的特征对。
经过上述训练过程,得到目标神经网络模型,目标神经网络模型可以识别两张图片中的对象是否为同一对象。在输入第一图片与第二图片之后,首先通过目标神经网络模型识别两张图片的特征图张量,然后确定第一图片与第二图片的特征图之间的距离,确定过程不再赘述。通过目标神经网络模型识别特征之间的距离可以得到第一识别结果,第一识别结果是一个数值,如0.8,该数值如果大于或者等于第二预定阈值,如0.7,则认为第一图片与第二图片中的目标对象为同一对象。
上述目标神经网络模型可以应用在多种场景。
例如,如图4所示,图4中预先存储有N张图片402,N为正整数,每张图片402中记录有一个对象与该对象的身份信息,在输入图片404到目标神经网络模型中后,目标神经网络模型输出图4中的对象与图片402中哪一个对象为同一对象。
例如,如图5所示,将10张图片502输入到目标神经网络模型中,10张图片可能为N个对象的图片,N为小于11的正整数,由目标神经网络模型将10张图片中属于同一对象的图片筛选出,并基于筛选出的图片704,如筛选出4张图片,按照图片产生的先后顺序与位置确定出4个位置,进而确定出4张图片中对象1的移动轨迹506。
例如,如图6所示,将摄像头602与摄像头604拍摄的图像进行识别比对,比对出同一对象在摄像头602与摄像头604下的图像比对完成后,将摄像头602与摄像头604拍摄得到的该对象的轨迹进行拼接,得到该对象的总轨迹。
通过上述方法,通过在比对两张图片中的目标对象是否为同一对象的过程中,获取的是两张图片的特征图张量之后,获取到的是两张特征图张量进行划分,进而确定每个单元格之间的距离,从而比对过程中将两张图片分割成多块进行比对,得到第一识别结果,从而实现了提高第一识别结果的准确度的效果。
作为一种可选的实施例,在得到识别结果之后,还可以包括:
S1,在识别结果大于或等于第三阈值的情况下,确定第一图片中的第一对象与第二图片中的第二对象为同一对象;
S2,在识别结果小于第三阈值的情况下,确定第一图片中的第一对象与第二图片中的第二对象为不同对象。
作为一种可选的实施例,在确定第一图片中的第一对象与第二图片中的第二对象为同一对象之后,还可以包括:
在第一图片为第一拍摄设备拍摄到的图片、且第二图片为第二拍摄设备拍摄到的图片的情况下,将第一对象的第一移动轨迹和第二对象的第二移动轨迹进行拼接,得到第一对象的目标移动轨迹,其中,第一移动轨迹为第一拍摄设备获取到第一对象的移动轨迹,第二移动轨迹为第二拍摄设备获取到第二对象的移动轨迹。
通过本实施例提供的上述方法,从而实现了确定对象的轨迹的准确度的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图片中对象的识别方法的图片中对象的识别装置。如图7所示,该图片中对象的识别装置包括:第一获取单元71、处理单元73以及识别单元75。
第一获取单元71,用于获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象。
处理单元73,用于将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象。
识别单元75,用于通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象。
通过本申请提供的实施例,第一获取单元71获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象;处理单元73将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象;识别单元75通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象。达到了将待识别对象的第一图片和第二图片输入到满足正样本图片对是正样本图片对集合中距离最大的特征,负样本图片对是负样本图片对集合中距离最小的特征的损失函数的目标神经网络模型中目的,即目标神经网络模型满足具有两张图片中相同对象的距离更小,不同对象的距离更大,换句话说,目标神经网络模型满足类内正图片对的距离更小与类间负样本图片对的距离更大,从而可以精确的识别两张图片中存在的目标对象是否是同一个目标对象的技术效果,进而解决了图像中对象识别的准确性较低的技术问题。
作为一种可选的实施例,上述装置还可以包括:
第二获取单元,用于将第一图片和第二图片输入目标神经网络模型之前,获取训练样本图片集合,其中,训练样本图片集合包括N张样本图片,N张样本图片中共包括K个不同的样本对象,每个样本对象出现在N张样本图片中的P张样本图片中,N和K为大于1的自然数,P为自然数;
训练单元,用于使用训练样本图片集合对待训练神经网络模型进行训练,得到满足目标损失函数的目标神经网络模型。
其中,上述训练单元,可以包括:
第一获取模块,用于将N张样本图片输入待训练神经网络模型中,通过待训练神经网络模型获取每张样本图片的C个特征图,得到N*C个特征图,其中,N*C个特征图中的每个特征图的高为H,宽为W,H和W为大于1的自然数,C为自然数;
第二获取模块,用于根据N*C个特征图中正样本图片对的特征以及负样本图片对的特征,获取第一损失函数的取值,其中,正样本图片对的特征是N*C个特征图中距离最大的特征,负样本图片对的特征是N*C个特征图中距离最小的特征;
第一确定模块,用于在待训练神经网络模型满足目标损失条件的情况下,结束对待训练神经网络模型的训练,将结束训练时的待训练神经网络模型确定为目标神经网络模型。
可选的,在本实施例中,上述装置还可以包括:处理模块,用于在得到N*C个特征图之后,将N*C个特征图进行降维处理,得到N*C个目标特征值,其中,每个目标特征值是对N*C个特征图中的一个特征图中的特征值进行处理得到的;根据N*C个目标特征值,获取第二损失函数的取值;
上述装置还可以包括:在结束对待训练神经网络模型的训练之前,第二确定模块,用于确定待训练神经网络模型是否满足目标损失条件,其中,目标损失条件包括:第一损失函数的取值小于第一阈值、第二损失函数的取值小于第二阈值。
作为一种可选的实施例,上述装置还可以包括:
第一确定单元,用于在得到识别结果之后,在识别结果大于或等于第三阈值的情况下,确定第一图片中的第一对象与第二图片中的第二对象为同一对象;
第二确定单元,用于在识别结果小于第三阈值的情况下,确定第一图片中的第一对象与第二图片中的第二对象为不同对象。
作为一种可选的实施例,上述装置还可以包括:
拼接单元,用于在确定第一图片中的第一对象与第二图片中的第二对象为同一对象之后,在第一图片为第一拍摄设备拍摄到的图片、且第二图片为第二拍摄设备拍摄到的图片的情况下,将第一对象的第一移动轨迹和第二对象的第二移动轨迹进行拼接,得到第一对象的目标移动轨迹,其中,第一移动轨迹为第一拍摄设备获取到第一对象的移动轨迹,第二移动轨迹为第二拍摄设备获取到第二对象的移动轨迹。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片中对象的方法的电子装置,如图8所示,该电子装置包括存储器802和处理器804,该存储器802中存储有计算机程序,该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象;
S2,将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括每个样本对象对应的第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象;
S3,通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象。
可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。
其中,存储器802可用于存储软件程序以及模块,如本发明实施例中的图像中对象的识别方法和装置对应的程序指令/模块,处理器804通过运行存储在存储器802内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像中对象的识别方法。存储器802可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器802可进一步包括相对于处理器804远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器802具体可以但不限于用于存储比对内容与比对结果等信息。作为一种示例,如图8所示,上述存储器802中可以但不限于包括上述图像中对象的识别装置中的第一获取单元71、处理单元73以及识别单元75。此外,还可以包括但不限于上述图像中对象的识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置806包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置806为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器808,用于显示上述识别的结果;和连接总线810,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一图片和第二图片,其中,第一图片中包括第一对象,第二图片中包括第二对象;
S2,将第一图片和第二图片输入目标神经网络模型,得到第一图片的第一特征图和第二图片的第二特征图,其中,目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,训练样本图片集合包括多张样本图片,多张样本图片中共包括多个不同的样本对象,每个样本对象出现在多张样本图片中的至少一张样本图片中,目标神经网络模型满足目标损失条件,目标损失条件包括每个样本对象对应的第一损失函数的取值小于第一阈值,第一损失函数与多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,目标正样本图片对是每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,目标负样本图片对的特征是每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,正样本图片对集合均包括相同的对象,负样本对集合中的每对负样本图片对中仅有一张负样本图片包括相同的对象;
S3,通过目标神经网络模型对第一图片的第一特征图和第二图片的第二特征图进行处理,得到识别结果,其中,识别结果用于指示第一图片中的第一对象和第二图片中的第二对象为同一对象或者为不同对象。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种图片中对象的识别方法,其特征在于,包括:
获取第一图片和第二图片,其中,所述第一图片中包括第一对象,所述第二图片中包括第二对象;
将所述第一图片和所述第二图片输入目标神经网络模型,得到所述第一图片的第一特征图和所述第二图片的第二特征图,其中,所述目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,所述训练样本图片集合包括多张样本图片,所述多张样本图片中共包括多个不同的样本对象,每个所述样本对象出现在所述多张样本图片中的至少一张样本图片中,所述目标神经网络模型满足目标损失条件,所述目标损失条件包括每个样本对象对应的第一损失函数的取值小于第一阈值,所述第一损失函数与所述多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,所述目标正样本图片对是所述每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,所述目标负样本图片对的特征是所述每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,所述正样本图片对集合均包括相同的对象,所述负样本对集合中的每对负样本图片对中仅有一张负样本图片包括所述相同的对象;
通过所述目标神经网络模型对所述第一图片的所述第一特征图和所述第二图片的所述第二特征图进行处理,得到识别结果,其中,所述识别结果用于指示所述第一图片中的所述第一对象和所述第二图片中的所述第二对象为同一对象或者为不同对象。
2.根据权利要求1所述的方法,其特征在于,将所述第一图片和所述第二图片输入目标神经网络模型之前,所述方法包括:
获取所述训练样本图片集合,其中,所述训练样本图片集合包括N张样本图片,所述N张样本图片中共包括K个不同的样本对象,每个所述样本对象出现在所述N张样本图片中的P张样本图片中,N和K为大于1的自然数,P为自然数;
使用所述训练样本图片集合对所述待训练神经网络模型进行训练,得到满足目标损失函数的所述目标神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述使用所述训练样本图片集合对所述待训练神经网络模型进行训练,包括:
将所述N张样本图片输入所述待训练神经网络模型中,通过所述待训练神经网络模型获取每张所述样本图片的C个特征图,得到N*C个特征图,其中,所述N*C个特征图中的每个特征图的高为H,宽为W,H和W为大于1的自然数,C为自然数;
根据所述N*C个特征图中所述正样本图片对的特征以及所述负样本图片对的特征,获取所述第一损失函数的取值,其中,所述正样本图片对的特征是所述N*C个特征图中距离最大的特征,所述负样本图片对的特征是所述N*C个特征图中距离最小的特征;
在所述待训练神经网络模型满足所述目标损失条件的情况下,结束对所述待训练神经网络模型的训练,将结束训练时的所述待训练神经网络模型确定为所述目标神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述N*C个特征图中所述正样本图片对的特征以及所述负样本图片对的特征,获取所述第一损失函数的取值,包括:
Ltop_k=max(0,Tmax(fa,fp)-Tmin(fa,fn)+m)
其中,fa,fp是所述训练样本图片集合中第a张图片与其余任意一张图片p的组成正样本对,所述正样本对对应的特征图之间的距离,fa,fn是所述训练样本图片集合中第a张图片与其余任意一张图片n组成负样本对,所述负样本对对应的特征图之间距离,m是常量;
其中,
Z={(i,j)|0≤i<HW,0≤j<HW,(xi-yj)2≤Top(x-y)}
其中,所述xi是所述训练样本图片集合中第x张图片对应的特征图的第i个单元格对应特征值,所述yj是所述训练样本图片集合中第y张图片对应的特征图的第j个单元格对应特征值,所述单元格是对所述第x张图片和所述y张图片进行相同大小网格化得到的。
5.根据权利要求3所述的方法,其特征在于,
在得到N*C个特征图之后,所述方法还包括:将所述N*C个特征图进行降维处理,得到所述N*C个目标特征值,其中,每个所述目标特征值是对所述N*C个特征图中的一个特征图中的特征值进行处理得到的;根据所述N*C个目标特征值,获取第二损失函数的取值;
在所述结束对所述待训练神经网络模型的训练之前,所述方法还包括:确定所述待训练神经网络模型是否满足所述目标损失条件,其中,所述目标损失条件包括:所述每个样本对象对应的所述第一损失函数的取值小于所述第一阈值、所述第二损失函数的取值小于第二阈值。
6.根据权利要求1所述的方法,其特征在于,在得到所述识别结果之后,所述方法还包括:
在所述识别结果大于或等于第三阈值的情况下,确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为同一对象;
在所述识别结果小于所述第三阈值的情况下,确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为不同对象。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为同一对象之后,所述方法还包括:
在所述第一图片为第一拍摄设备拍摄到的图片、且所述第二图片为第二拍摄设备拍摄到的图片的情况下,将所述第一对象的第一移动轨迹和所述第二对象的第二移动轨迹进行拼接,得到所述第一对象的目标移动轨迹,其中,所述第一移动轨迹为所述第一拍摄设备获取到所述第一对象的移动轨迹,所述第二移动轨迹为所述第二拍摄设备获取到所述第二对象的移动轨迹。
8.一种图片中对象的识别装置,其特征在于,包括:
第一获取单元,用于获取第一图片和第二图片,其中,所述第一图片中包括第一对象,所述第二图片中包括第二对象;
处理单元,用于将所述第一图片和所述第二图片输入目标神经网络模型,得到所述第一图片的第一特征图和所述第二图片的第二特征图,其中,所述目标神经网络模型是通过训练样本图片集合对待训练神经网络模型进行训练得到的模型,所述训练样本图片集合包括多张样本图片,所述多张样本图片中共包括多个不同的样本对象,每个所述样本对象出现在所述多张样本图片中的至少一张样本图片中,所述目标神经网络模型满足目标损失条件,所述目标损失条件包括第一损失函数的取值小于第一阈值,所述第一损失函数与所述多张样本图片中的目标正样本图片对的特征图以及目标负样本图片对的特征图相关,所述目标正样本图片对是所述每个样本对象对应的正样本图片对集合中特征距离最大的一对正样本图片对,所述目标负样本图片对的特征是所述每个样本对象对应的负样本图片对集合中特征距离最小的一对负样本图片对,所述正样本图片对集合均包括相同的对象,所述负样本对集合中的每对负样本图片对中仅有一张负样本图片包括所述相同的对象;
识别单元,用于通过所述目标神经网络模型对所述第一图片的所述第一特征图和所述第二图片的所述第二特征图进行处理,得到识别结果,其中,所述识别结果用于指示所述第一图片中的所述第一对象和所述第二图片中的所述第二对象为同一对象或者为不同对象。
9.根据权利要求8所述的装置,其特征在于,所述装置包括:
第二获取单元,用于将所述第一图片和所述第二图片输入目标神经网络模型之前,获取所述训练样本图片集合,其中,所述训练样本图片集合包括N张样本图片,所述N张样本图片中共包括K个不同的样本对象,每个所述样本对象出现在所述N张样本图片中的P张样本图片中,N和K为大于1的自然数,P为自然数;
训练单元,用于使用所述训练样本图片集合对所述待训练神经网络模型进行训练,得到满足目标损失函数的所述目标神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述训练单元,包括:
第一获取模块,用于将所述N张样本图片输入所述待训练神经网络模型中,通过所述待训练神经网络模型获取每张所述样本图片的C个特征图,得到N*C个特征图,其中,所述N*C个特征图中的每个特征图的高为H,宽为W,H和W为大于1的自然数,C为自然数;
第二获取模块,用于根据所述N*C个特征图中所述正样本图片对的特征以及所述负样本图片对的特征,获取所述第一损失函数的取值,其中,所述正样本图片对的特征是所述N*C个特征图中距离最大的特征,所述负样本图片对的特征是所述N*C个特征图中距离最小的特征;
第一确定模块,用于在所述待训练神经网络模型满足所述目标损失条件的情况下,结束对所述待训练神经网络模型的训练,将结束训练时的所述待训练神经网络模型确定为所述目标神经网络模型。
11.根据权利要求10所述的装置,其特征在于,
在得到N*C个特征图之后,所述装置还包括:处理模块,用于将所述N*C个特征图进行降维处理,得到所述N*C个目标特征值,其中,每个所述目标特征值是对所述N*C个特征图中的一个特征图中的特征值进行处理得到的;根据所述N*C个目标特征值,获取第二损失函数的取值;
在所述结束对所述待训练神经网络模型的训练之前,所述装置还包括:第二确定模块,用于确定所述待训练神经网络模型是否满足所述目标损失条件,其中,所述目标损失条件包括:所述第一损失函数的取值小于所述第一阈值、所述第二损失函数的取值小于第二阈值。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一确定单元,用于在得到所述识别结果之后,在所述识别结果大于或等于第三阈值的情况下,确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为同一对象;
第二确定单元,用于在所述识别结果小于所述第三阈值的情况下,确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为不同对象。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述装置还包括:
拼接单元,用于在确定所述第一图片中的所述第一对象与所述第二图片中的所述第二对象为同一对象之后,在所述第一图片为第一拍摄设备拍摄到的图片、且所述第二图片为第二拍摄设备拍摄到的图片的情况下,将所述第一对象的第一移动轨迹和所述第二对象的第二移动轨迹进行拼接,得到所述第一对象的目标移动轨迹,其中,所述第一移动轨迹为所述第一拍摄设备获取到所述第一对象的移动轨迹,所述第二移动轨迹为所述第二拍摄设备获取到所述第二对象的移动轨迹。
14.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463332.9A CN111626212B (zh) | 2020-05-27 | 2020-05-27 | 图片中对象的识别方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463332.9A CN111626212B (zh) | 2020-05-27 | 2020-05-27 | 图片中对象的识别方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626212A CN111626212A (zh) | 2020-09-04 |
CN111626212B true CN111626212B (zh) | 2023-09-26 |
Family
ID=72271266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010463332.9A Active CN111626212B (zh) | 2020-05-27 | 2020-05-27 | 图片中对象的识别方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626212B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239217B (zh) * | 2021-06-04 | 2024-02-06 | 图灵深视(南京)科技有限公司 | 图像索引库构建方法及系统,图像检索方法及系统 |
CN116772803B (zh) * | 2023-08-24 | 2024-02-09 | 陕西德鑫智能科技有限公司 | 一种无人机探测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
CN108388888A (zh) * | 2018-03-23 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN111062424A (zh) * | 2019-12-05 | 2020-04-24 | 中国科学院计算技术研究所 | 小样本食品图像识别模型训练方法及食品图像识别方法 |
-
2020
- 2020-05-27 CN CN202010463332.9A patent/CN111626212B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN108388888A (zh) * | 2018-03-23 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN111062424A (zh) * | 2019-12-05 | 2020-04-24 | 中国科学院计算技术研究所 | 小样本食品图像识别模型训练方法及食品图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111626212A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368943B (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN104933414B (zh) | 一种基于wld-top的活体人脸检测方法 | |
CN111754396B (zh) | 脸部图像处理方法、装置、计算机设备和存储介质 | |
WO2018065158A1 (en) | Computer device for training a deep neural network | |
CN111402294A (zh) | 目标跟踪方法、装置、计算机可读存储介质和计算机设备 | |
WO2021218238A1 (zh) | 图像处理方法和图像处理装置 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
TW202141424A (zh) | 目標跟蹤方法及裝置、存儲介質 | |
CN111626212B (zh) | 图片中对象的识别方法和装置、存储介质及电子装置 | |
CN109902550A (zh) | 行人属性的识别方法和装置 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN113011387A (zh) | 网络训练及人脸活体检测方法、装置、设备及存储介质 | |
CN111126250A (zh) | 一种基于ptgan的行人重识别方法及装置 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN113706550A (zh) | 图像场景识别和模型训练方法、装置和计算机设备 | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和系统及存储介质 | |
CN111062275A (zh) | 一种多层次监督的人群计数方法、装置、介质及电子设备 | |
CN112749711B (zh) | 视频获取方法和装置及存储介质 | |
CN114663835A (zh) | 一种行人跟踪方法、系统、设备及存储介质 | |
CN115082873A (zh) | 基于通路融合的图像识别方法、装置及存储介质 | |
CN111275183A (zh) | 视觉任务的处理方法、装置和电子系统 | |
Boughrara et al. | Facial expression recognition based on perceived facial images and local feature matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |