CN111368943A

CN111368943A - 图像中对象的识别方法和装置、存储介质及电子装置

Info

Publication number: CN111368943A
Application number: CN202010458657.8A
Authority: CN
Inventors: 俞福福; 蒋忻洋; 孙星; 彭湃; 郭晓威; 黄小明; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-07-03
Anticipated expiration: 2040-05-27
Also published as: CN111368943B

Abstract

本发明公开了一种基于人工智能与云服务器的图像中对象的识别方法和装置、存储介质及电子装置，其中，该方法包括：在获取到第一图片与第二图片之后，获取第一图片的第一特征图和第二图片的第二特征图，其中，第一图片中包括第一对象，第二图片中包括第二对象；获取第一特征图中的每一个像素与第二特征图中的每一个像素，得到第一像素集；确定第一像素集中的任意两个像素之间的相似度，得到二维矩阵；将二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；对二维邻接矩阵进行处理，得到第一识别结果。本发明解决了比对图片中对象是否为同一对象准确度低的技术问题。

Description

图像中对象的识别方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像中对象的识别方法和装置、存储介质及电子装置。

背景技术

现有技术中，通常需要比对两张图片中的对象是否为一个对象，例如用于监控的两个摄像头拍摄的视频中的图片中包含对象，通过比对对象可以匹配到同一个人，实现跨摄像头追踪等。

然而，在现有的图片比对的过程中，仅仅是将图片进行拆分比对，比对步骤简单，比对的准确度低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像中对象的识别方法和装置、存储介质及电子装置，以至少解决比对图片中对象是否为同一对象准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种图像中对象的识别方法，包括：在获取到第一图片与第二图片之后，获取上述第一图片的第一特征图和上述第二图片的第二特征图，其中，上述第一图片中包括第一对象，上述第二图片中包括第二对象；获取所述第一特征图中的每一个像素与所述第二特征图中的每一个像素，得到第一像素集；确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；将上述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；对上述二维邻接矩阵进行处理，得到第一识别结果，其中，上述第一识别结果用于指示上述第一对象与上述第二对象为同一对象或者为不同对象。

根据本发明实施例的另一方面，还提供了一种图像中对象的识别装置，包括：第一获取单元，用于在获取到第一图片与第二图片之后，获取上述第一图片的第一特征图和上述第二图片的第二特征图，其中，上述第一图片中包括第一对象，上述第二图片中包括第二对象；第二获取单元，用于获取所述第一特征图中的每一个像素与所述第二特征图中的每一个像素，得到第一像素集；第一确定单元，用于确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；调整单元，用于将上述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；处理单元，用于对上述二维邻接矩阵进行处理，得到第一识别结果，其中，上述第一识别结果用于指示上述第一对象与上述第二对象为同一对象或者为不同对象。

作为一种可选的示例，上述处理单元包括：转换模块，用于将上述二维邻接矩阵转换为度矩阵；输入模块，用于将上述二维邻接矩阵、上述度矩阵、上述第一特征图与上述第二特征图输入到预定公式中，得到上述第一图片与上述第二图片的融合特征；识别模块，用于使用目标神经网络模型识别上述融合特征，得到上述第一识别结果。

作为一种可选的示例，上述装置还包括：第二确定单元，用于在得到上述第一识别结果之后，在上述第一识别结果大于或等于第二预定阈值的情况下，确定上述第一对象与上述第二对象为同一对象；第三确定单元，用于在上述第一识别结果小于上述第二预定阈值的情况下，确定上述第一对象与上述第二对象为不同对象。

作为一种可选的示例，上述装置还包括：第三获取单元，用于在获取上述第一图片的上述第一特征图和上述第二图片的上述第二特征图之前，获取一组样本图片组；训练单元，用于将上述一组样本图片组输入到原始神经网络模型中，训练上述原始神经网络模型，直到得到目标神经网络模型，其中，上述目标神经网络模型用于识别上述第一对象与上述第二对象是否为同一对象。

作为一种可选的示例，上述训练单元包括：第二确定模块，用于从上述样本图片组中确定出第一样本图片与第二样本图片；第三确定模块，用于确定上述第一样本图片与上述第二样本图片的融合特征；第四确定模块，用于通过上述融合特征确定出上述原始神经网络模型损失参数；调整模块，用于在上述损失参数大于第三预定阈值的情况下，调整上述原始神经网络模型，直到上述损失参数小于或等于上述第三预定阈值。

作为一种可选的示例，上述装置还包括：拼接单元，用于在确定上述第一对象与上述第二对象为同一对象之后，在上述第一识别结果指示上述第一对象与上述第二对象为同一对象、且上述第一图片为第一拍摄设备拍摄到的图片、上述第二图片为第二拍摄设备拍摄到的图片的情况下，将上述第一对象的第一移动轨迹和上述第二对象的第二移动轨迹进行拼接，得到上述第一对象的目标移动轨迹，其中，上述第一移动轨迹为上述第一拍摄设备获取到上述第一对象的移动轨迹，上述第二移动轨迹为上述第二拍摄设备获取到上述第二对象的移动轨迹。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述图像中对象的识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的图像中对象的识别方法。

在本发明实施例中，采用了在获取到第一图片与第二图片之后，获取上述第一图片的第一特征图和上述第二图片的第二特征图，其中，上述第一图片中包括第一对象，上述第二图片中包括第二对象；获取第一特征图中的每一个像素与第二特征图中的每一个像素，得到第一像素集；确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；将上述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；对上述二维邻接矩阵进行处理，得到第一识别结果，其中，上述第一识别结果用于指示上述第一对象与上述第二对象为同一对象或者为不同对象的方法，由于在上述方法中，在比对两张图片中的第一对象与第二对象是否为同一对象的过程中，获取的是两张图片的特征图之后，特征图中像素的相似度，得到二维矩阵，从而比对过程中并不是将两张图片分割成多块进行比对，而是融合两张图片的特征进行比对，得到二维矩阵后，通过调整二维矩阵得到二维邻接矩阵，以及通过目标神经网络模型对二维邻接矩阵进行处理，得到第一识别结果，从而实现了提高第一识别结果的准确度的效果，进而解决了比对图片中对象是否为同一对象准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的图像中对象的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的图像中对象的识别方法的流程示意图；

图3是根据本发明实施例的一种可选的图像中对象的识别方法的神经网络模型结构示意图；

图4是根据本发明实施例的一种可选的图像中对象的识别方法的模型处理过程示意图；

图5是根据本发明实施例的另一种可选的图像中对象的识别方法的模型处理过程示意图；

图6是根据本发明实施例的又一种可选的图像中对象的识别方法的模型处理过程示意图；

图7是根据本发明实施例的一种可选的图像中对象的识别方法的应用场景示意图；

图8是根据本发明实施例的又一种可选的图像中对象的识别方法的应用场景示意图；

图9是根据本发明实施例的又一种可选的图像中对象的识别方法的应用场景示意图；

图10是根据本发明实施例的一种可选的图像中对象的识别装置的结构示意图；

图11是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明。

根据本发明实施例的一个方面，提供了一种基于云服务器与人工智能的图像中对象的识别方法，可选地，作为一种可选的实施方式，上述图像中对象的识别方法可以但不限于应用于如图1所示的环境中。

图1中拍摄设备104可以拍摄用户102的图片。拍摄设备104中包含有存储器106，用于存储拍摄的图片、传输装置108，用于传输数据。拍摄设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有处理模块114，用于处理传输的数据。

上述拍摄设备104可以但不限于为拍摄装置，如摄像头等，或者为手机、平板电脑、笔记本电脑、PC机等终端，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括： WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。

上述服务器112可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本方案中的上述服务器112可以部署有上述目标神经网络模型，通过目标神经网络模型获取到第一图片与第二图片，并实现识别第一图片与第二图片中的目标对象是否为同一对象。

可选地，作为一种可选的实施方式，如图2所示，上述图像中对象的识别方法包括：

S202，在获取到第一图片与第二图片之后，获取第一图片的第一特征图和第二图片的第二特征图，其中，第一图片中包括第一对象，第二图片中包括第二对象；

S204，获取第一特征图中的每一个像素与第二特征图中的每一个像素，得到第一像素集；

S206，确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；

S208，将二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；

S210，对二维邻接矩阵进行处理，得到第一识别结果，其中，第一识别结果用于指示第一对象与第二对象为同一对象或者为不同对象。

可选地，上述图像中对象的识别方法可以但不限于应用于图像识别比对的过程中，例如，比对两张图片中所包含的对象是否为同一对象的过程中。具体的应用领域本实施例并不做具体限定。例如，应用于对象匹配领域、移动轨迹确定领域、对象轨迹跟踪领域等，或者应用于智能交通、智能零售、智能安防等诸多场景。例如，一个对象超出一个摄像头的拍摄范围，被另一个摄像头捕捉，这种情况下利用本方案的技术就能将两个摄像头捕捉地两条轨迹串联起来，进而可以获得顾客在商超内的整个轨迹，有利于后续的各项数据挖掘与分析。

例如，以对象匹配领域为例，预先保存有多个对象并记录有多个对象的信息，在获取到一张图片后，可以匹配识别比对一张图片中的对象是哪一个对象，实现对象的身份识别。

以移动轨迹确定领域为例，可以识别多张图片中的对象是否为同一对象，获取属于同一对象的图片的拍摄时间与拍摄位置，按照时间先后将位置连线，得到该对象的移动轨迹。

以对象轨迹跟踪领域为例，使用不同的摄像头可以拍摄不同的图片，如果两个摄像头分别拍摄的图片中的对象为同一对象，可以获取两个摄像头分别拍摄的该对象的图像，并分别获取两个摄像头拍摄的该对象的移动轨迹，将两个摄像头拍摄的该对象的移动轨迹拼接，得到该对象的移动轨迹路线，实现该对象的轨迹跟踪。

以上仅为示例，并不是对本方案的应用场景的限定。

本方案中在将第一图片与第二图片输入到目标神经网络模型中之后，可以由目标神经网络模型获取第一图片的第一特征图与第二图片的第二特征图，并通过目标神经网络模型确定第一特征图与第二特征图中的每一个像素与第一特征图与第二特征图中的每一个像素之间的相似度，得到二维矩阵，将二维矩阵中小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵，最后通过目标神经网络模型对二维邻接矩阵进行处理，得到第一识别结果，第一识别结果用于指示第一图片与第二图片中的对象是否为同一对象。本方案由于在模型识别图片的对象的过程中，是获取的第一图片的第一特征图和第二图片的第二特征图，并获取了两张图片中像素组成的二维矩阵，从而在对象比对的过程中，并不是对图片进行划分并进行依次比对，而是融合两张图片的特征进行综合比对，实现了提高比对图片中对象是否为同一对象的准确度的效果。

可选地，本方案中的目标神经网络模型为使用样本图片组对原始识别模型进行训练得到的模型，样本图片组中包括有多张图片，将样本图片组输入到原始神经网络模型中，训练原始神经网络模型，不断完善原始神经网络模型中的参数与权重，直到得到目标神经网络模型。目标神经网络模型的识别准确度大于一个预先设定的准确度。

可选地，本方案中在训练目标神经网络模型的过程中，可以从样本图片组中确定出第一样本图片与第二样本图片。此处的第一样本图片与第二样本图片可以为相同图片，也可以为不同的图片。确定第一样本图片与第二样本图片的融合特征；通过融合特征确定出原始神经网络模型损失参数；在损失参数大于第三预定阈值的情况下，调整原始神经网络模型，直到损失参数小于或等于第三预定阈值。

经过多次训练，得到目标神经网络模型之后，目标神经网络模型可以用于识别两张图片中的目标对象是否为同一对象。

可选地，本方案中确定二维矩阵的过程中，需要确定第一特征图与第二特征图中的每一个像素与第一特征图与第二特征图中的每一个像素之间的相似度，得到二维矩阵。

以确定第一组相似度为例，如果第一特征图中包含10个像素，第二特征图中包含10个像素，则第一特征图与第二特征图共20个像素，20个像素中每一个像素与20个像素中每一个像素计算相似度，得到400个相似度，400个相似度组成二维矩阵。

可选地，以下提供一种组成二维矩阵的方法：将第一特征图中的每一个像素与第一特征图、第二特征图中的每一个像素的相似度构成一个数组，遍历第一特征图与第二特征图，得到多个数组，多个数组组成二维矩阵。N为第一特征图与第二特征图中像素的个数和。

可选地，上述确定两个像素的相似度的过程可以为计算两个像素的内积。两个像素作为两个向量，计算两个向量的内积，得到一个计算结果，计算结果属于[-1,1]。用于表示两个像素的相似度。

可选地，在将二维矩阵转换为二维邻接矩阵的过程中，可以将二维矩阵中的每一个小于第一预定阈值的相似度调整为第一预定阈值，从而减少模型识别过程的计算量。第一预定阈值可以为零。

可选地，在获取到二维邻接矩阵之后，将二维邻接矩阵转换为度矩阵，然后，将二维邻接矩阵，度矩阵，第一特征图与第二特征图输入到预定公式中，求得融合特征，最后根据融合特征得到第一识别结果，第一识别结果为一个参数，如果该第一识别结果小于了第二预定阈值，则认为第一图片与第二图片中的目标对象是两个不同的对象，如果第一识别结果大于或者等于第一阈值，则认为第一图片与第二图片中的目标对象为同一个对象。

以下结合一个具体示例说明上述图片中对象的识别方法。

首先本方案需要预训练一个目标神经网络模型，目标神经网络模型通过样本图片组训练原始神经网络模型获得。本方案中的样本图片组可以包括多张图片，多张图片中的对象可以相同也可以不同，也可以多张图片中的一部分图片中的对象为同一对象，另外部分图片中的对象为不同对象，本实施例并不做具体限定。

在获取到样本图片组后，将样本图片组输入到原始神经网络模型(例如 ResNet-50)中，由原始神经网络模型提取每一张图的特征，得到特征图(feature map)集合M，此处的特征图集合是识别多张图片所得到的多个特征图组的集合，识别每一张图片会得到多张特征图，多张特征图组成一个特征图组，识别多张图片后，得到多个特征图组组成上述特征图集合。M的维度是（B,H,W,C），其中B（batch size）是每次从训练集中获取到的参与训练的图片的张数（batch是每次从训练集中获取到的参与训练的图片），例如，假设一次参与训练的图片为10张，则可以表示为B为10。H是识别样本图片后得到的特征图的高，W是上述特征图的宽，例如，识别1张图片得到一个特征图组，特征图组中包括10张特征图，每张特征图的高是5，宽是6，则M中H为5，W为6。C是通道数，也就是卷积层特征图的个数，也是卷积核的个数。例如，识别1张图片得到一个特征图组，特征图组中包括10张特征图，则C为10。举一个例子，每次从训练集中获取到的参与训练的图片的张数为2，识别2张图片，得到2个特征图组，每个特征图组中包括10张特征图，每张特征图高为5，宽为6，则M为（2,5,6,10）。

接下来需要计算每两张样本图片，如第一样本图片与第二样本图片之间的相似度，构成二维矩阵。具体为，将两张样本图片中（1,1，C）的单元格视作一个像素（pixel），获取两张样本图片的每一个像素，组成第一像素集，计算第一像素集中每两个像素（可以重复）的相似度r，得到二维矩阵S。S的维度是（2H*W，2H*W）。例如，第一张图片的特征图包含了两个像素，分别为A1，A2，第二张图片的特征图包含了两个像素，分别为B1，B2，则将A1分别与A1、A2 、B1和B2的相似度共四个相似度作为二维矩阵中的第一个数组，将A2、与A1、A2 、B1和B2的相似度共四个相似度作为二维矩阵中的第二个数组，将B1与A1、A2 、B1和B2的相似度共四个相似度作为二维矩阵中的第三个数组，将B2与A1、A2 、B1和B2的相似度共四个相似度作为二维矩阵中的第四个数组，得到二维矩阵。

在得到二维矩阵后，将每个像素视为一个顶点。如果两个像素的相似度r>0, 则认为两个顶点相邻，两个顶点的距离就是r。否则认为两个顶点不相邻。将不相邻的顶点间的相似度调整为0，这样就得到了一个二维邻接矩阵A=max（0，S）。

接下来需要由图卷积提取两张图融合特征：由邻接矩阵A可得度矩阵D=diag(sum(A,axis=1))， axis是一个参数。在将邻接矩阵转换为度矩阵的过程中，将邻接矩阵每一列的数据的和作为度矩阵中的数据，如邻接矩阵第1列数据的和作为度矩阵第1行第1列的数据，邻接矩阵第2列数据的和作为度矩阵第2行第2列的数据，邻接矩阵第N列数据的和作为度矩阵第N行第N列的数据，度矩阵中其他位置的数据为零。得到度矩阵后，提取两张图片的融合特征：

（1）

其中，上述公式1中，conv代表卷积操作，D为上述度矩阵，M为上述特征图集合，A为上述二维邻接矩阵。得到的T之后，T为两张图片的融合特征，可以使用T训练原始神经网络模型的参数。对于一组样本图片组中的多张图片，可以提取每两张图片的融合特征训练原始神经网络模型。

本方案中原始神经网络模型的结构可以如图3所示。图3中，模型结构主要包括了三层，分别为单图特征提取层302、点匹配层304与融合特征提取层306。

如图4所示，图4为单图特征提取层（individual Feature Embedding）层，两张图片输入到神经网络模型（backbone）中，由神经网络模型获取到特征图402与特征图404，提取到特征图之后，特征图将由点匹配层进行点匹配。此外，单图特征提取层还包括有一个交叉熵损失计算模块，该模块获取到两张图片的两个特征图402和404之后，两个特征图经过编码器进行降维，得到降维特征（encoder），再对降维特征进行处理得到特征图向量406和408，并进一步计算得到每张图独立的交叉熵损失（cross entropy loss）。本步骤计算的交叉熵损失用于计算模型的总损失，根据总损失决定是否调整模型的参数与权重。

图5为点匹配层（Key-point Alignment），图4中的第一特征图402与第二特征图404经过注意力机制（Corres-pondence Attention）比对关键点。比对关键点的过程中，计算出第一特征图与第二特征图的二维矩阵。并将二维矩阵转换为二维邻接矩阵。

比对关键点后，如图6所示，融合特征提取层（Conditional Feature Embedding）通过基于差异的图卷积GCN网络提取融合特征，同时，本层中还添加了三重态损失确定模块和分类损失确定模块，三重态损失确定模块用于确定出每张图独立的三重态损失（TripletLoss），由分类损失模块确定出用于对多张图进行分类的分类损失（mixed-up loss）。如图6中将第一特征图602与第二特征图604提取融合特征之后，还需要进行降维，得到降维特征，以及进一步计算得到第一向量606与第二向量608，根据第一向量606与第二向量608计算出三重态损失和分类损失。

例如对于一个训练集，每次从训练集中获取的参与训练的图片为N张， N张图片为K个人的图片，每个人体包含P张人体图像。图像类型有U种。N、K、P、U为正整数，P*K=N，U、P、K小于N。可以确定损失函数为：

（2）

其中，上述公式2中，L_CE为交叉熵损失， p_ij 是图片i属于类j的概率， y_ij取值0或1，表示图片i是否属于类j，0表示不属于。图片i是N张图片中的一张，类j是U种类型中的一种。

（3）

其中，上述公式3中，L_tri是三重态损失的公式。 f_a是降维特征（encoder）， f_p是正样本特征， f_n是负样本特征，m是一个大于零且小于1的参数，。f_a -f_p计算的是降维特征与正样本特征的距离，f_a –f_n计算的是降维特征与负样本特征的距离。

（4）

其中，L_min-up 是分类损失，α是取值0到1的混合系数（mixup）， L_CE是交叉熵损失，v（I_i|I_j）是N张图片中第i张图与第j张图的融合特征，y_i与y_j分别为第i张图的交叉熵损失与第j张图的交叉熵损失，(y_i, v（I_i|I_j）)是指融合特征与第i张图更相似的概率，(y_j v（I_i|I_j）)是指融合特征与第j张图更相似的概率。

在计算得到上述交叉熵损失、三重态损失和分类损失之后，计算三者的和，得到总损失，总损失与第三预定阈值进行比较。如果总损失大于了第三预定阈值，则调整原始识别模型中的参数与权重，直到总损失小于或等于第三预定阈值。将训练好的原始识别模型作为目标识别模型进行使用。目标识别模型的识别准确度高于一个值，如识别准确度高于99%。

经过上述训练过程，得到目标神经网络模型，目标神经网络模型可以识别两张图片中的对象是否为同一对象。在输入第一图片与第二图片之后，首先通过目标神经网络模型识别两张图片的特征图，然后确定第一图片与第二图片的融合特征，确定过程不再赘述。通过目标神经网络模型识别融合特征可以得到第一识别结果，第一识别结果是一个数值，如0.8，该数值如果大于或者等于第二预定阈值，如0.7，则认为第一图片与第二图片中的目标对象为同一对象。

上述目标神经网络模型可以应用在多种场景。

例如，如图7所示，图7中预先存储有N张图片702，N为正整数，每张图片702中记录有一个对象与该对象的身份信息，在输入图片704到目标神经网络模型中后，目标神经网络模型输出图片704中的对象与图片702中哪一个对象为同一对象。

例如，如图8所示，将10张图片802输入到目标神经网络模型中，10张图片可能为N个对象的图片，N为小于11的正整数，由目标神经网络模型将10张图片中属于同一对象的图片筛选出，并基于筛选出的图片804，如筛选出4张图片，按照图片产生的先后顺序与位置确定出4个位置，进而确定出4张图片中对象1的移动轨迹806。

例如，如图9所示，将摄像头902与摄像头904拍摄的图像进行识别比对，比对出同一对象在摄像头902与摄像头904下的图像比对完成后，将摄像头902与摄像头904拍摄得到的该对象的轨迹进行拼接，得到该对象的总轨迹。

通过上述方法，通过在比对两张图片中的目标对象是否为同一对象的过程中，获取的是两张图片的特征图之后，获取到的是两张特征图各自的以及之间的第一组相似度、第二组相似度、第三组相似度和第四组相似度，得到二维矩阵，从而比对过程中并不是将两张图片分割成多块进行比对，而是融合两张图片的特征进行比对，得到二维矩阵后，通过调整二维矩阵得到二维邻接矩阵，以及通过目标神经网络模型对二维邻接矩阵进行处理，得到第一识别结果，从而实现了提高第一识别结果的准确度的效果。

作为一种可选的示例，确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵，包括：

S1，将第一像素集中的每一个像素确定为当前像素，执行以下步骤，直到遍历第一像素集：

S2，计算当前像素与第一像素集中的每一个像素的相似度，将计算得到的多个相似度确定为二维矩阵中的一个数组。

通过本实施例，通过上述方法，从而实现了提高获取二维矩阵的效率的效果。

作为一种可选的示例，确定两个像素之间的相似度包括：

S1，计算两个像素的内积，得到计算结果；

S2，将计算结果确定为两个像素之间的相似度。

通过本实施例，通过上述方法，从而实现了提高确定像素间相似度的效率的效果。

作为一种可选的示例，将二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵，包括：

S1，将二维矩阵中的每一个值确定为当前值，执行以下步骤，直到遍历二维矩阵：获取当前值；在当前值小于第一预定阈值的情况下，将当前值调整为第一预定阈值；

S2，在遍历完成后，将调整后的二维矩阵确定为二维邻接矩阵。

作为一种可选的示例，对二维邻接矩阵进行处理，得到第一识别结果，包括：

S1，将二维邻接矩阵转换为度矩阵；

S2，将二维邻接矩阵、度矩阵、第一特征图与第二特征图输入到预定公式中，得到第一图片与第二图片的融合特征；

S3，使用目标神经网络模型识别融合特征，得到第一识别结果。

通过本实施例，通过上述方法，从而实现了确定第一识别结果的准确度的效果。

作为一种可选的示例，在得到第一识别结果之后，方法还包括：

S1，在第一识别结果大于或等于第二预定阈值的情况下，确定第一对象与第二对象为同一对象；

S2，在第一识别结果小于第二预定阈值的情况下，确定第一对象与第二对象为不同对象。

通过本实施例，通过上述方法，从而实现了确定图片中对象是否为同一对象的准确度的效果。

作为一种可选的示例，在获取第一图片的第一特征图和第二图片的第二特征图之前，方法还包括：

S1，获取一组样本图片组；

S2，将一组样本图片组输入到原始神经网络模型中，训练原始神经网络模型，直到得到目标神经网络模型，其中，目标神经网络模型用于识别第一对象与第二对象是否为同一对象。

通过本实施例，通过上述方法，从而实现了提高对原始识别模型的训练效率的效果。

作为一种可选的示例，将一组样本图片组输入到原始神经网络模型中，训练原始神经网络模型，直到得到目标神经网络模型包括：

S1，从样本图片组中确定出第一样本图片与第二样本图片；

S2，确定第一样本图片与第二样本图片的融合特征；

S3，通过融合特征确定出原始神经网络模型损失参数；

S4，在损失参数大于第三预定阈值的情况下，调整原始神经网络模型，直到损失参数小于或等于第三预定阈值。

作为一种可选的示例，在确定第一对象与第二对象为同一对象之后，方法还包括：

S1，在第一识别结果指示第一对象与第二对象为同一对象、且第一图片为第一拍摄设备拍摄到的图片、第二图片为第二拍摄设备拍摄到的图片的情况下，将第一对象的第一移动轨迹和第二对象的第二移动轨迹进行拼接，得到第一对象的目标移动轨迹，其中，第一移动轨迹为第一拍摄设备获取到第一对象的移动轨迹，第二移动轨迹为第二拍摄设备获取到第二对象的移动轨迹。

通过本实施例，通过上述方法，从而实现了确定对象的轨迹的准确度的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述图像中对象的识别方法的图像中对象的识别装置。如图10所示，该装置包括：

（1）第一获取单元1002，用于在获取到第一图片与第二图片之后，获取第一图片的第一特征图和第二图片的第二特征图，其中，第一图片中包括第一对象，第二图片中包括第二对象；

第二获取单元1004，用于获取第一特征图中的每一个像素与第二特征图中的每一个像素，得到第一像素集；

（2）第一确定单元1006，用于确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；

（3）调整单元1008，用于将二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；

（4）处理单元1010，用于对二维邻接矩阵进行处理，得到第一识别结果，其中，第一识别结果用于指示第一对象与第二对象为同一对象或者为不同对象。

可选地，上述图像中对象的识别装置可以但不限于应用于图像识别比对的过程中，例如，比对两张图片中所包含的对象是否为同一对象的过程中。具体的应用领域本实施例并不做具体限定。例如，应用于对象匹配领域、移动轨迹确定领域、对象轨迹跟踪领域等，或者应用于智能交通、智能零售、智能安防等诸多场景。例如，一个对象超出一个摄像头的拍摄范围，被另一个摄像头捕捉，这种情况下利用本方案的技术就能将两个摄像头捕捉地两条轨迹串联起来，进而可以获得顾客在商超内的整个轨迹，有利于后续的各项数据挖掘与分析。

以上仅为示例，并不是对本方案的应用场景的限定。

作为一种可选的方案，上述第一确定单元包括：

（1）第一处理模块，用于将第一像素集中的每一个像素确定为当前像素，执行以下步骤，直到遍历第一像素集：

计算当前像素与第一像素集中的每一个像素的相似度，将计算得到的多个相似度确定为二维矩阵中的一个数组。

作为一种可选的方案，上述第一处理模块包括：

（1）计算子模块，用于计算两个像素的内积，得到计算结果；

（2）确定子模块，用于将计算结果确定为两个像素之间的相似度。

作为一种可选的方案，上述调整单元包括：

（1）第二处理模块，用于将二维矩阵中的每一个值确定为当前值，执行以下步骤，直到遍历二维矩阵：获取当前值；在当前值小于第一预定阈值的情况下，将当前值调整为第一预定阈值；

（2）第一确定模块，用于在遍历完成后，将调整后的二维矩阵确定为二维邻接矩阵。

通过本实施例，通过上述方法，从而实现了减少模型计算量，提高模型比对效率的效果。

作为一种可选的方案，上述处理单元包括：

（1）转换模块，用于将二维邻接矩阵转换为度矩阵；

（2）输入模块，用于将二维邻接矩阵、度矩阵、第一特征图与第二特征图输入到预定公式中，得到第一图片与第二图片的融合特征；

（3）识别模块，用于使用目标神经网络模型识别融合特征，得到第一识别结果。

作为一种可选的方案，上述装置还包括：

（1）第二确定单元，用于在得到第一识别结果之后，在第一识别结果大于或等于第二预定阈值的情况下，确定第一对象与第二对象为同一对象；

（2）第三确定单元，用于在第一识别结果小于第二预定阈值的情况下，确定第一对象与第二对象为不同对象。

作为一种可选的方案，上述装置还包括：

（1）第三获取单元，用于在获取第一图片的第一特征图和第二图片的第二特征图之前，获取一组样本图片组；

（2）训练单元，用于将一组样本图片组输入到原始神经网络模型中，训练原始神经网络模型，直到得到目标神经网络模型，其中，目标神经网络模型用于识别第一对象与第二对象是否为同一对象。

作为一种可选的方案，上述训练单元包括：

（1）第二确定模块，用于从样本图片组中确定出第一样本图片与第二样本图片；

（2）第三确定模块，用于确定第一样本图片与第二样本图片的融合特征；

（3）第四确定模块，用于通过融合特征确定出原始神经网络模型损失参数；

（4）调整模块，用于在损失参数大于第三预定阈值的情况下，调整原始神经网络模型，直到损失参数小于或等于第三预定阈值。

作为一种可选的方案，上述装置还包括：

（1）拼接单元，用于在确定第一对象与第二对象为同一对象之后，在第一识别结果指示第一对象与第二对象为同一对象、且第一图片为第一拍摄设备拍摄到的图片、第二图片为第二拍摄设备拍摄到的图片的情况下，将第一对象的第一移动轨迹和第二对象的第二移动轨迹进行拼接，得到第一对象的目标移动轨迹，其中，第一移动轨迹为第一拍摄设备获取到第一对象的移动轨迹，第二移动轨迹为第二拍摄设备获取到第二对象的移动轨迹。

根据本发明实施例的又一个方面，还提供了一种用于实施上述图像中对象的识别方法的电子装置，如图11所示，该电子装置包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在获取到第一图片与第二图片之后，获取第一图片的第一特征图和第二图片的第二特征图，其中，第一图片中包括第一对象，第二图片中包括第二对象；

S2，获取第一特征图中的每一个像素与第二特征图中的每一个像素，得到第一像素集；

S3，确定第一像素集中的每一个像素与第一像素集中的每一个像素之间的相似度，得到二维矩阵；

S4，将二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；

S5，对二维邻接矩阵进行处理，得到第一识别结果，其中，第一识别结果用于指示第一对象与第二对象为同一对象或者为不同对象。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件（如网络接口等），或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的图像中对象的识别方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像中对象的识别方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储比对内容与比对结果等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述图像中对象的识别装置中的输入单元1002、第一确定单元1004、调整单元1006与处理单元1008。此外，还可以包括但不限于上述图像中对象的识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1108，用于显示第一识别结果；和连接总线1110，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像中对象的识别方法，其特征在于，包括：

在获取到第一图片与第二图片之后，获取所述第一图片的第一特征图和所述第二图片的第二特征图，其中，所述第一图片中包括第一对象，所述第二图片中包括第二对象；

获取所述第一特征图中的每一个像素与所述第二特征图中的每一个像素，得到第一像素集；

确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；

将所述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；

对所述二维邻接矩阵进行处理，得到第一识别结果，其中，所述第一识别结果用于指示所述第一对象与所述第二对象为同一对象或者为不同对象。

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵，包括：

将所述第一像素集中的每一个像素确定为当前像素，执行以下步骤，直到遍历所述第一像素集：

计算所述当前像素与所述第一像素集中的每一个像素的相似度，将计算得到的多个所述相似度确定为所述二维矩阵中的一个数组。

3.根据权利要求2所述的方法，其特征在于，确定两个所述像素之间的相似度包括：

计算两个所述像素的内积，得到计算结果；

将所述计算结果确定为两个所述像素之间的所述相似度。

4.根据权利要求1所述的方法，其特征在于，所述将所述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵，包括：

将所述二维矩阵中的每一个值确定为当前值，执行以下步骤，直到遍历所述二维矩阵：获取所述当前值；在所述当前值小于所述第一预定阈值的情况下，将所述当前值调整为所述第一预定阈值；

在遍历完成后，将调整后的所述二维矩阵确定为所述二维邻接矩阵。

5.根据权利要求1所述的方法，其特征在于，所述对所述二维邻接矩阵进行处理，得到第一识别结果，包括：

将所述二维邻接矩阵转换为度矩阵；

将所述二维邻接矩阵、所述度矩阵、所述第一特征图与所述第二特征图输入到预定公式中，得到所述第一图片与所述第二图片的融合特征；

使用目标神经网络模型识别所述融合特征，得到所述第一识别结果。

6.根据权利要求1所述的方法，其特征在于，在得到所述第一识别结果之后，所述方法还包括：

在所述第一识别结果大于或等于第二预定阈值的情况下，确定所述第一对象与所述第二对象为同一对象；

在所述第一识别结果小于所述第二预定阈值的情况下，确定所述第一对象与所述第二对象为不同对象。

7.根据权利要求1所述的方法，其特征在于，在获取所述第一图片的所述第一特征图和所述第二图片的所述第二特征图之前，所述方法还包括：

获取一组样本图片组；

将所述一组样本图片组输入到原始神经网络模型中，训练所述原始神经网络模型，直到得到目标神经网络模型，其中，所述目标神经网络模型用于识别所述第一对象与所述第二对象是否为同一对象。

8.根据权利要求7所述的方法，其特征在于，所述将所述一组样本图片组输入到原始神经网络模型中，训练所述原始神经网络模型，直到得到目标神经网络模型包括：

从所述样本图片组中确定出第一样本图片与第二样本图片；

确定所述第一样本图片与所述第二样本图片的融合特征；

通过所述融合特征确定出所述原始神经网络模型损失参数；

在所述损失参数大于第三预定阈值的情况下，调整所述原始神经网络模型，直到所述损失参数小于或等于所述第三预定阈值。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在确定所述第一对象与所述第二对象为同一对象之后，所述方法还包括：

将所述第一对象的第一移动轨迹和所述第二对象的第二移动轨迹进行拼接，得到所述第一对象的目标移动轨迹，其中，所述第一移动轨迹为第一拍摄设备获取到所述第一对象的移动轨迹，所述第二移动轨迹为第二拍摄设备获取到所述第二对象的移动轨迹。

10.一种图像中对象的识别装置，其特征在于，包括：

第一获取单元，用于在获取到第一图片与第二图片之后，获取所述第一图片的第一特征图和所述第二图片的第二特征图，其中，所述第一图片中包括第一对象，所述第二图片中包括第二对象；

第二获取单元，用于获取所述第一特征图中的每一个像素与所述第二特征图中的每一个像素，得到第一像素集；

第一确定单元，用于确定所述第一像素集中的任意两个像素之间的相似度，得到二维矩阵；

调整单元，用于将所述二维矩阵中的小于第一预定阈值的相似度调整为第一预定阈值，得到二维邻接矩阵；

处理单元，用于对所述二维邻接矩阵进行处理，得到第一识别结果，其中，所述第一识别结果用于指示所述第一对象与所述第二对象为同一对象或者为不同对象。

11.根据权利要求10所述的装置，其特征在于，所述第一确定单元包括：

第一处理模块，用于将所述第一像素集中的每一个像素确定为当前像素，执行以下步骤，直到遍历所述第一像素集：

12.根据权利要求11所述的装置，其特征在于，所述第一处理模块包括：

计算子模块，用于计算两个所述像素的内积，得到计算结果；

确定子模块，用于将所述计算结果确定为两个所述像素之间的所述相似度。

13.根据权利要求10所述的装置，其特征在于，所述调整单元包括：

第二处理模块，用于将所述二维矩阵中的每一个值确定为当前值，执行以下步骤，直到遍历所述二维矩阵：获取所述当前值；在所述当前值小于所述第一预定阈值的情况下，将所述当前值调整为所述第一预定阈值；

第一确定模块，用于在遍历完成后，将调整后的所述二维矩阵确定为所述二维邻接矩阵。

14.一种计算机可读的存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至9任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至9任一项中所述的方法。