CN114119960A

CN114119960A - 人物关系识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114119960A
Application number: CN202111338961.XA
Authority: CN
Inventors: 范文洋
Original assignee: Shenzhen Yishi Huolala Technology Co Ltd
Current assignee: Shenzhen Yishi Huolala Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-01

Abstract

本申请涉及一种人物关系识别方法、装置、计算机设备和存储介质。所述方法包括：采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标；使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。本申请实施例能够提高对车内人物关系的识别准确率。

Description

人物关系识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理领域，特别是涉及一种人物关系识别方法、装置、计算机设备和存储介质。

背景技术

针对司乘之间的关系难以判断，不能及时排查出危险，缺乏有效的手段。尽管目前大部分网约车内都安装有监控设备，然而这些监控设备只具备拍摄功能，具体行为识别需要事后由人工完成，而无法在车辆行驶中及时发现并制止。由于现实条件制约，也不可能每辆车都配备人力去监视全程来做到危险行为预警。

目前有一些方案提出利用深度学习方法来判断司乘情绪，比如利用目标检测网络检测出人脸位置，并将人脸图像传入到情绪检测网络中来判断人员情绪如何。当识别出激动的情绪时进行预警，或者人工干预。然而，有些人情绪不会体现在脸上，喜怒不形于色，难以判断真实情绪，对于这种情况，上述方案的准确率不高。

发明内容

本申请针对上述不足或缺点，提供了一种人物关系识别方法、装置、计算机设备和存储介质，本申请实施例能够提高对车内人物关系的识别准确率。

本申请根据第一方面提供了一种人物关系识别方法，在一个实施例中，该方法包括：

采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；

通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标；

使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。

在一个实施例中，人物关系识别结果用于表征第一人物和第二人物之间有无矛盾；

在人物关系识别结果表征第一人物和第二人物之间有矛盾时，该方法还包括：

采集多张时间上连续的目标车内图片；

检测每张目标车内图片中包含的第一人物和第二人物之间的人物关系是否均为有矛盾；

若是，通知人工对第一人物和第二人物之间的人物关系进行协调。

在一个实施例中，人物关系识别模型的训练过程，包括：

构建训练样本集，训练样本集包括多条训练样本，训练样本为包含第一人物和第二人物的车内图片；

对每条训练样本进行标注标签，标注用的标签用于表征第一人物和第二人物之间的人物关系有无矛盾；

对每条训练样本中的第一人物和第二人物的人脸框进行标注；

基于预设的深度学习训练框架来根据该多条训练样本以及各条训练样本对应的标注数据进行模型训练，得到训练好的人物关系识别模型。

在一个实施例中，该方法应用于具有计算功能的拍照设备；

该方法还包括：将训练好的人物关系识别模型部署于拍照设备。

在一个实施例中，使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果，包括：

设目标车内图片的像素尺寸为M*N；

利用特征提取网络对目标车内图片进行特征提取，得到像素尺寸为M1*N1的第一特征图；

将第一人物的人脸坐标和第二人物的人脸坐标按比例转换到第一特征图中，并从中提取区域大小为Wd*Hd与Wp*Hp的两个第二特征图；

利用特征提取网络分别对两个第二特征图进行特征提取，得到两个第三特征图；

使用线性插值将两个第三特征图调整为相同的像素尺寸，并使用全连接网络从调整像素尺寸后的两个第三特征图中分别提取出维度为V的特征向量；

对提取出的两个特征向量进行矩阵计算，得到维度为V*V的用于表征第一人物和第二人物之间的人脸情绪是否相似的权重矩阵，对权重矩阵进行插值，得到像素尺寸为M1*N1的权重特征图；

将权重特征图加到第一特征图上得到新的像素尺寸为M1*N1第一特征图

利用特征提取网络对新的第一特征图进行特征提取，并使用sigmoid函数对从新的第一特征图中提取的特征进行分类，得到第一人物和第二人物之间的人物关系识别结果。

在一个实施例中，采集目标车内图片之前还包括：

采集车内声音；

检测采集到的声音中是否包含人声；

采集目标车内图片，包括：

响应于采集到的声音中包含人声，采集目标车内图片。

在一个实施例中，采集目标车内图片，包括：

连续拍摄车内图片；

从拍摄得到的车内图片中筛选出目标车内图片。

本申请根据第二方面提供了一种人物关系识别装置，在一个实施例中，该装置包括：

采集模块，用于采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；

人脸坐标获取模块，用于通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标；

人物关系识别模块，用于使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。

本申请根据第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

在本申请实施例中，通过采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标；使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。本申请实施例在对第一人物和第二人物之间的关系进行识别时，不仅考虑到人物的人脸信息，还结合人物的肢体信息，从而能够提高对车内人物关系的识别准确率。

附图说明

图1为一个实施例中一种人物关系识别方法的流程示意图；

图2为一个实施例中人物关系识别模型处理数据的流程示意图；

图3为一个实施例中人物关系识别模型的结构示意图；

图4为一个实施例中一种人物关系识别装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供了一种人物关系识别方法。在一个实施例中，该人物关系识别方法包括如图2所示的步骤。

S110：采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；

其中，目标车内图片是指包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息的车内图片。

第一人物和第二人物是指车内的司机和乘客。目标车内图片可以通过车载摄像头来采集，由于车载摄像头在车内的安装位置通常是固定的，而司机和乘客的位置也是固定的，比如，司机位于驾驶座，乘客位于非驾驶座，比如副驾驶座或者后排座椅。因此，可以将目标车内图片中的位于驾驶座的人物确定为第一人物(即司机)，将目标车内图片中的位于非驾驶座的人物确定为第二人物(即乘客)。

人脸信息可以是指人物的脸部，肢体信息可以是指人物的手部。

S120：通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标。

人脸坐标是指第一人物或第二人物在目标车内图片中的坐标。

S130：使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。

其中，人物关系识别结果用于表征第一人物和第二人物之间有无矛盾。

在本实施例中，考虑到当司乘之间发生冲突时，两者都会情绪激动，愤怒且出现肢体冲突，而当两者情绪平稳或情绪不同(如，一方情绪平稳，另一方情绪激动)时，则通常没有发生冲突。因此，本实施例在识别车内人物关系时，不仅考虑车内人物的人脸的面部情绪信息，还会综合考虑到第一人物和第二人物，即司乘的肢体动作，相比现有的单纯凭借人脸特征来进行情绪识别以及人物关系识别的方式，可以更为准确地判断司机和乘客之间是否处于激动状态，肢体冲突等过激行为，这样有利于在冲突加剧之前通过预警或人工干预等方式来化解冲突。

在一个实施例中，上述的人物关系识别模型的训练过程，包括：

对每条训练样本进行标注标签，标注用的标签用于表征第一人物和第二人物之间的人物关系有无矛盾；比如，标签0表示无矛盾(即第一人物和第二人物的情绪平稳或情绪不同)，标签1表示有矛盾(即第一人物和第二人物均情绪激动)。

其中，该预设的深度学习训练框架可以是常规的深度学习训练框架，本实施例对采用何种训练框架不进行具体限定。

进一步地，训练好的模型可部署在车载设备，也可以部署在服务器上。在一个实施例中，本实施例提供的人物关系识别方法可以应用于具有计算功能的拍照设备；相应地，该方法还包括：将训练好的人物关系识别模型部署于拍照设备。这样可以通过该拍照设备来实时跟踪监测，不需要人力监督，降低了人力成本

在一个实施例中，使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果，如图2所示，包括：

S131：设目标车内图片的像素尺寸为M*N，利用特征提取网络对目标车内图片进行特征提取，得到像素尺寸为M1*N1的第一特征图；

S132：将第一人物的人脸坐标和第二人物的人脸坐标按比例转换到第一特征图中，并从中提取区域大小为Wd*Hd与Wp*Hp的两个第二特征图；

S133：利用特征提取网络分别对两个第二特征图进行特征提取，得到两个第三特征图；

S134：使用线性插值将两个第三特征图调整为相同的像素尺寸，并使用全连接网络从调整像素尺寸后的两个第三特征图中分别提取出维度为V的特征向量；

S135：对提取出的两个特征向量进行矩阵计算，得到维度为V*V的用于表征第一人物和第二人物之间的人脸情绪是否相似的权重矩阵，对权重矩阵进行插值，得到像素尺寸为M1*N1的权重特征图；

S136：将权重特征图加到第一特征图上得到新的像素尺寸为M1*N1第一特征图；

S137：利用特征提取网络对新的第一特征图进行特征提取，并使用sigmoid函数对从新的第一特征图中提取的特征进行分类，得到第一人物和第二人物之间的人物关系识别结果。

在本实施例中，模型(指人物关系识别模型)的输入为目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标。

以下通过一个示例对模型的处理过程进行说明。

模型在本示例中的结构请参见图3，模型的处理过程如下：

需要说明的是，模型需要提取图片特征，因此采用特征提取网络(比如resnet)来作为基本模块来进行特征提取。首先利用人脸检测器获得司机和乘客的人脸坐标，同目标车内图片一同作为模型输入。设输入的图片的像素尺寸为M*N；

利用resnet对像素尺寸为M*N的图片进行特征提取，得到像素尺寸为M1xN1的特征图，即第一特征图；

将得到的司机和乘客的人脸坐标按比例转换到该第一特征图中，并从中提取区域大小为Wd*Hd与Wp*Hp的两个特征图，即第二特征图；再利用resnet单独提取这两部分的特征，得到两个特征图，即第三特征图；用线性插值的方式将两个第三特征图调整为相同的像素尺寸，并使用全连接网络提取出两个第三特征图的特征向量，维度为V；

对两个特征向量进行矩阵计算，得到维度为V*V的相关矩阵，作为人脸情绪是否相似的权重矩阵，再通过插值的方式得到像素尺寸为M1*N1的权重特征图；

将插值后的权重特征图加到原尺寸为M1*N1的第一特征图上，得到新的M1*N1的第一特征图；

利用resnet对新的第一特征图进行特征提取，并通过sigmoid函数来进行分类，得到是否具有司乘矛盾与冲突的判断。

在本示例中，通过对司机和乘客的人脸单独提取特征来获得人脸的情绪信息，并通过建立相似矩阵(即权重矩阵)来对司乘之间是否情绪相同建立权值；被加权的特征图可以反映场景和肢体冲突信息；利用人脸情绪相似度，来综合判断是否有司乘冲突；只需要输入司乘图片和人脸信息就可以直接得到司乘矛盾判断结果。

在一个实施例中，在人物关系识别结果表征第一人物和第二人物之间有矛盾时，该方法还包括：

采集多张时间上连续的目标车内图片；

在本实施例中，为了提高精确度，可以通过多帧进行滑动判断。在一定连续帧内，都检测到司乘矛盾，即可进行警告并记录，提前进行人工干预。

在一个实施例中，采集目标车内图片之前还包括：采集车内声音；检测采集到的声音中是否包含人声；

相应地，采集目标车内图片，包括：

响应于采集到的声音中包含人声，采集目标车内图片。

在本实施例中，假如没有人声，那么第一人物和第二人物出现冲突的可能性极低，因此，在识别出车内有人声之后再采集图片，可以有效减少工作量。

在一个实施例中，采集目标车内图片，包括：连续拍摄车内图片；从拍摄得到的车内图片中筛选出目标车内图片。

在本实施例中，车内的人物可能会做一些活动(比如转头、低头等动作)，这可能导致拍摄到的车内照片中没有包含人物(指第一人物和/或第二人物)的完整的人脸信息和/或肢体信息，因此，当需要采集目标车内图片时，通过拍照设备例如车载摄像头连续拍摄得到多张照片，再从中筛选出一张(或称为一帧)车内图片作为目标车内图片，这样可以提高人物关系的识别准确性。

图1-2为一个实施例中人物关系识别方法的流程示意图。应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于相同的发明构思，本申请还提供了一种人物关系识别装置。在本实施例中，如图4所示，该人物关系识别装置包括以下模块：

采集模块110，用于采集目标车内图片，目标车内图片中包含第一人物和第二人物，且记录有第一人物和第二人物的人脸信息和肢体信息；

人脸坐标获取模块120，用于通过人脸检测器获取第一人物的人脸坐标和第二人物的人脸坐标；

人物关系识别模块130，用于使用人物关系识别模型对目标车内图片、第一人物的人脸坐标和第二人物的人脸坐标进行处理，得到第一人物和第二人物之间的人物关系识别结果。

在一个实施例中，人物关系识别结果用于表征第一人物和第二人物之间有无矛盾。

采集模块，还用于在人物关系识别结果表征第一人物和第二人物之间有矛盾时，采集多张时间上连续的目标车内图片；

该装置还包括：

检测模块，用于检测每张目标车内图片中包含的第一人物和第二人物之间的人物关系是否均为有矛盾；

通知模块，用于在每张目标车内图片中包含的第一人物和第二人物之间的人物关系均为有矛盾时，通知人工对第一人物和第二人物之间的人物关系进行协调。

在一个实施例中，该装置还包括：

训练样本集构建模块，用于构建训练样本集，训练样本集包括多条训练样本，训练样本为包含第一人物和第二人物的车内图片；

第一标注模块，用于对每条训练样本进行标注标签，标注用的标签用于表征第一人物和第二人物之间的人物关系有无矛盾；

第二标注模块，用于对每条训练样本中的第一人物和第二人物的人脸框进行标注；

模型训练模块，用于基于预设的深度学习训练框架来根据该多条训练样本以及各条训练样本对应的标注数据进行模型训练，得到训练好的人物关系识别模型。

在一个实施例中，该装置为具有计算功能的拍照设备；该装置还包括部署模块，部署模块，用于将训练好的人物关系识别模型部署于该拍照设备。

在一个实施例中，人物关系识别模块，包括：

第一特征图获得子模块，用于设目标车内图片的像素尺寸为M*N，利用特征提取网络对目标车内图片进行特征提取，得到像素尺寸为M1*N1的第一特征图；

第二特征图获得子模块，用于将第一人物的人脸坐标和第二人物的人脸坐标按比例转换到第一特征图中，并从中提取区域大小为Wd*Hd与Wp*Hp的两个第二特征图；

第三特征图获得子模块，用于利用特征提取网络分别对两个第二特征图进行特征提取，得到两个第三特征图；

特征向量提取子模块，用于使用线性插值将两个第三特征图调整为相同的像素尺寸，并使用全连接网络从调整像素尺寸后的两个第三特征图中分别提取出维度为V的特征向量；

权重特征图获得子模块，用于对提取出的两个特征向量进行矩阵计算，得到维度为V*V的用于表征第一人物和第二人物之间的人脸情绪是否相似的权重矩阵，对权重矩阵进行插值，得到像素尺寸为M1*N1的权重特征图；

新的第一特征图获得子模块，用于将权重特征图加到第一特征图上得到新的像素尺寸为M1*N1第一特征图

分类子模块，用于利用特征提取网络对新的第一特征图进行特征提取，并使用sigmoid函数对从新的第一特征图中提取的特征进行分类，得到第一人物和第二人物之间的人物关系识别结果。

在一个实施例中，该装置还包括声音采集模块和人声检测模块。

声音采集模块，用于在采集目标车内图片之前，采集车内声音；

人声检测模块，用于检测采集到的声音中是否包含人声；

相应地，采集模块，具体用于响应于采集到的声音中包含人声，采集目标车内图片。

在一个实施例中，采集模块，具体还用于连续拍摄车内图片，从拍摄得到的车内图片中筛选出目标车内图片。

关于人物关系识别装置的具体限定可以参见上文中对于人物关系识别方法的限定，在此不再赘述。上述人物关系识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储车内图片等数据，具体存储的数据还可以参见上述方法实施例中的限定。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人物关系识别方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人物关系识别方法，其特征在于，所述方法包括：

采集目标车内图片，所述目标车内图片中包含第一人物和第二人物，且记录有所述第一人物和所述第二人物的人脸信息和肢体信息；

通过人脸检测器获取所述第一人物的人脸坐标和所述第二人物的人脸坐标；

使用人物关系识别模型对所述目标车内图片、所述第一人物的人脸坐标和所述第二人物的人脸坐标进行处理，得到所述第一人物和所述第二人物之间的人物关系识别结果。

2.如权利要求1所述的方法，其特征在于，所述人物关系识别结果用于表征所述第一人物和所述第二人物之间有无矛盾；

在所述人物关系识别结果表征所述第一人物和所述第二人物之间有矛盾时，所述方法还包括：

采集多张时间上连续的目标车内图片；

检测每张目标车内图片中包含的所述第一人物和所述第二人物之间的人物关系是否均为有矛盾；

若是，通知人工对所述第一人物和所述第二人物之间的人物关系进行协调。

3.如权利要求1所述的方法，其特征在于，所述人物关系识别模型的训练过程，包括：

构建训练样本集，所述训练样本集包括多条训练样本，所述训练样本为包含第一人物和第二人物的车内图片；

对每条所述训练样本进行标注标签，标注用的标签用于表征第一人物和第二人物之间的人物关系有无矛盾；

对每条所述训练样本中的第一人物和第二人物的人脸框进行标注；

基于预设的深度学习训练框架来根据所述多条训练样本以及各条训练样本对应的标注数据进行模型训练，得到训练好的人物关系识别模型。

4.如权利要求3所述的方法，其特征在于，所述方法应用于具有计算功能的拍照设备；

所述方法还包括：将所述训练好的人物关系识别模型部署于所述拍照设备。

5.如权利要求1所述的方法，其特征在于，所述使用人物关系识别模型对所述目标车内图片、所述第一人物的人脸坐标和所述第二人物的人脸坐标进行处理，得到所述第一人物和所述第二人物之间的人物关系识别结果，包括：

设所述目标车内图片的像素尺寸为M*N；

利用特征提取网络对所述目标车内图片进行特征提取，得到像素尺寸为M1*N1的第一特征图；

将所述第一人物的人脸坐标和所述第二人物的人脸坐标按比例转换到所述第一特征图中，并从中提取区域大小为Wd*Hd与Wp*Hp的两个第二特征图；

利用所述特征提取网络分别对所述两个第二特征图进行特征提取，得到两个第三特征图；

使用线性插值将所述两个第三特征图调整为相同的像素尺寸，并使用全连接网络从调整像素尺寸后的所述两个第三特征图中分别提取出维度为V的特征向量；

对提取出的两个特征向量进行矩阵计算，得到维度为V*V的用于表征所述第一人物和所述第二人物之间的人脸情绪是否相似的权重矩阵，对所述权重矩阵进行插值，得到像素尺寸为M1*N1的权重特征图；

将所述权重特征图加到所述第一特征图上得到新的像素尺寸为M1*N1第一特征图

利用所述特征提取网络对所述新的第一特征图进行特征提取，并使用sigmoi d函数对从所述新的第一特征图中提取的特征进行分类，得到所述第一人物和所述第二人物之间的人物关系识别结果。

6.如权利要求1所述的方法，其特征在于，所述采集目标车内图片之前还包括：

采集车内声音；

检测采集到的声音中是否包含人声；

所述采集目标车内图片，包括：

响应于采集到的声音中包含人声，采集目标车内图片。

7.如权利要求1所述的方法，其特征在于，所述采集目标车内图片，包括：

连续拍摄车内图片；

从拍摄得到的车内图片中筛选出目标车内图片。

8.一种人物关系识别装置，其特征在于，所述装置包括：

采集模块，用于采集目标车内图片，所述目标车内图片中包含第一人物和第二人物，且记录有所述第一人物和所述第二人物的人脸信息和肢体信息；

人脸坐标获取模块，用于通过人脸检测器获取所述第一人物的人脸坐标和所述第二人物的人脸坐标；

人物关系识别模块，用于使用人物关系识别模型对所述目标车内图片、所述第一人物的人脸坐标和所述第二人物的人脸坐标进行处理，得到所述第一人物和所述第二人物之间的人物关系识别结果。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。