CN112232223A

CN112232223A - 多模态图像处理方法、装置、设备及存储介质

Info

Publication number: CN112232223A
Application number: CN202011118853.7A
Authority: CN
Inventors: 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15
Also published as: US20210319251A1; EP3944135A2; EP3944135A3; EP3944135B1; US11600057B2

Abstract

本申请公开了一种多模态图像处理方法、装置、设备及存储介质，涉及人工智能中的计算机视觉和深度学习技术领域。具体实现方案为：多种视觉传感器设置在第一预设身份识别场景中，该方法包括：若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息；根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。

Description

多模态图像处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能中的计算机视觉和深度学习技术领域，尤其涉及一种多模态图像处理方法、装置、设备及存储介质。

背景技术

多模态图像是指采用不同的视觉传感器采集同一对象获得的多个图像。多模态图像广泛应用在生物识别领域中，生物识别技术在公安、国防、交通、金融、医疗及民用安全控制等场景中都有广泛的应用需求。

现有技术中，在对多模态图像进行采集并确定图像对应的对象标识的处理时，需要设置特定的采集场景，并获取特定的采集对象。然后将特定的采集对象放置在特定的采集场景中采用对应的视觉传感器进行定向采集，并人工记录所采集图像对应的对象标识，导致对多模态图像处理的效率较低，采集和处理的成本较高。

发明内容

本申请提供了一种多模态图像处理方法、装置、设备及存储介质的方法、装置、设备以及存储介质。解决了现有技术中对多模态图像处理的效率较低，采集和处理的成本较高的技术问题。

根据本申请的一方面，提供了一种多模态图像处理方法，所述多模态图像采用多种视觉传感器采集，所述多种视觉传感器设置在第一预设身份识别场景中，所述方法包括：

若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对所述生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息；

根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；

根据各目标视觉图像的采集时间信息和所述第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。

根据本申请的另一方面，提供了一种多模态图像处理装置，所述多模态图像采用多种视觉传感器采集，所述多种视觉传感器设置在第一预设身份识别场景中，所述装置包括：

图像采集控制模块，用于若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对所述生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息；

身份识别模块，用于根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；

标识确定模块，用于根据各目标视觉图像的采集时间信息和所述第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面中所述的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述一方面中所述的方法。

根据本申请的多模态图像处理方法、装置、设备及存储介质，通过若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息；根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。由于利用身份识别场景原有的视觉传感器采集的目标视觉图像可对目标对象进行识别，并且多个视觉传感器间采集对应目标视觉图像的时间有关联关系，所以可通过各目标视觉图像的采集时间信息确定出其他类型的目标视觉图像对应的对象标识信息。实现了对多模态图像的自动化采集和对象标识的确定。提高了对多模态图像处理的效率，并且降低了采集和处理的成本。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的多模态图像处理方法的一种应用场景图；

图2是根据本申请第一实施例提供的多模态图像处理方法的流程示意图；

图3是根据本申请第二实施例提供的多模态图像处理方法的流程示意图；

图4是根据本申请第三实施例提供的多模态图像处理方法的流程示意图；

图5是根据本申请第四实施例提供的多模态图像处理方法的流程示意图；

图6是根据本申请第五实施例提供的多模态图像处理方法的应用场景图；

图7为根据本申请第六实施例提供的多模态图像处理装置的结构示意图；

图8为根据本申请第七实施例提供的多模态图像处理装置的结构示意图；

图9是用来实现本申请实施例的多模态图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了清楚理解本申请的技术方案，首先对现有技术的技术方案进行详细介绍。

现有技术中，在采集多模态图像时，首先需要在特定的采集场景中设置对应的视觉传感器。例如在一个空旷的房间中安装NIR视觉传感器和激光雷达。其次确定特定的采集对象，例如确定需要采集某一公司的员工的人脸图像，与该公司的员工进行预约。然后将特定的采集对象放置在特定的采集场景中采用对应的视觉传感器进行定向采集，并人工记录所采集图像对应的对象标识。例如使公司的员工依次进入到房间中，分别由NIR视觉传感器和激光雷达进行人脸图像的采集。并将采集的人脸图像上传到电子设备中后，人工标记采集的人脸图像的员工的姓名和身份证号等信息。所以现有技术中对多模态图像进行采集并确定图像对应的对象标识时，需要先在特定采集场景安装多模态视觉传感器，还要确定和预约采集对象，在采集完多模态图像后，还要人工记录采集的多模态图像对应的对象标识，使对多模态图像处理的效率较低，并且采集和处理的成本较高。

所以在面对现有技术中对多模态图像处理的效率较低，并且采集和处理的成本较高的技术问题时，发明人在研究中发现，由于目前单一的视觉传感器通过采集生物识别部位图像，并根据该生物识别部位图像对目标对象进行身份识别，已广泛应用在身份识别场景中。而且身份识别场景广泛应用在公安、国防、交通、金融、医疗及民用安全控制等领域。所以可利用现有的身份识别场景中原有的视觉传感器对生物识别部位进行图像采集，并且在原有的一种视觉传感器的基础上，安装其他类型的视觉传感器。则可在原有的视觉传感器检测到目标对象的生物识别部位后，控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息。然后根据原有的视觉传感器采集的目标视觉图像对目标对象进行身份识别，确定出目标视觉图像对应的对象标识信息后，根据所有目标视觉图像的采集时间信息和原有的视觉传感器采集的目标视觉图像对应的对象标识信息确定其他类型视觉传感器采集的目标视觉图像对应的对象标识信息。

由于利用身份识别场景原有的视觉传感器采集的目标视觉图像可对目标对象进行身份识别，并且多个视觉传感器间采集对应目标视觉图像的时间有关联关系，所以可通过各目标视觉图像的采集时间信息确定出其他类型的目标视觉图像对应的对象标识信息。实现了对多模态图像的自动化采集和对象标识的确定。提高了对多模态图像处理的效率，并且降低了采集和处理的成本。

发明人基于上述的创造性发现，提出了本申请的技术方案。下面对本申请提供的多模态图像处理方法的应用场景进行介绍。

如图1所示，本申请实施例提供的一种应用场景中可包括多种视觉传感器和电子设备。如图1所示，多种视觉传感器可包括：可见光视觉传感器11，NIR视觉传感器12及激光雷达13。电子设备2与多种视觉传感器进行通信。多种视觉传感器设置在第一预设身份识别场景中，如设置在门禁门、闸机等装置上。如图1中，多种视觉传感器设置在闸机1上。则目标对象需要通过身份识别，在身份识别通过后，打开门禁门或闸机，以进行通过。在目标对象出现在门禁门或闸机前时，第一视觉传感器检测目标对象的生物识别部位，如可以为人脸，掌纹，指纹，虹膜等部位。在电子设备确定第一视觉传感器检测到目标对象的生物识别部位后，控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息。例如在图1中，获得的目标视觉图像包括：可见光目标视觉图像(即第一目标视觉图像)，NIR目标视觉图像和深度目标视觉图像。然后根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。最后电子设备2可将其他类型目标视觉图像及对应的对象标识信息关联存储到数据库中。

可以理解的是，本申请提供的多模态图像处理方法还可以应用在其他应用场景中，本实施例中对此不作限定。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2是根据本申请第一实施例提供的多模态图像处理方法的流程示意图，如图2所示，本申请实施例的执行主体为多模态图像处理装置，该多模态图像处理装置可以集成在电子设备中。其中，多模态图像采用多种视觉传感器采集，多种视觉传感器设置在第一预设身份识别场景中。则本实施例提供的多模态图像处理方法包括以下几个步骤。

步骤101，若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息。

本实施例中，第一预设身份识别场景可以为门禁场景，安防场景等身份识别场景。则多种视觉传感器可设置在门禁门或闸机等装置上。其中，第一视觉传感器为第一预设身份识别场景中原有的视觉传感器。如可以为可见光视觉传感器。除第一视觉传感器外的其他类型视觉传感器可以为NIR视觉传感器，激光雷达等。

本实施例中，电子设备与多种视觉传感器建立通信，具体的通信方式可以为：全球移动通讯(Global System of Mobile communication，简称GSM)、码分多址(CodeDivision Multiple Access，简称CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，简称WCDMA)、时分同步码分多址(Time Division-Synchronous CodeDivision Multiple Access，简称TD-SCDMA)、长期演进(Long Term Evolution，简称LTE)系统及5G等。可以理解的是，电子设备与多种视觉传感器的通信方式还可以为无线通信方式，无线通信方式可以为紫蜂zigbee通信、蓝牙BLE通信或行动热点wifi通信等。

具体地，本实施例中，在需要进行多模态图像采集的目标对象出现在第一视觉传感器的视野范围内时，第一视觉传感器检测目标对象的生物识别部位，若检测到目标对象的生物识别部位，则可向电子设备发送检测提示信息，则电子设备根据检测提示信息确定出第一视觉传感器检测到目标对象的生物识别部位。然后控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，每种视觉传感器采集到对应类型的目标视觉图像，并获得目标视觉图像的采集时间信息。

其中，生物识别部位可预先设定，如可以为人脸，掌纹，指纹或虹膜等。

其中，每种视觉传感器对应的目标视觉图像的采集时间信息可以包括采集的起始时间和终止时间。

本实施例中，可选地，控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集的方式可以为：控制各视觉传感器同时对生物识别部位进行一次图像采集。或者可选地，在各视觉传感器同时对生物识别部位完成一次图像采集后，再控制各视觉传感器同时对生物识别部位进行第二次图像采集，直到达到预设的采集次数为止。

需要说明的是，控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集的方式还可以为其他方式，本实施例中对此不作限定。

步骤102，根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息。

本实施例中，由第一视觉传感器采集的包括目标对象的生物识别部位的图像为第一目标视觉图像。

具体地，本实施例中，可采用预设的识别模型对第一目标视觉图像进行特征提取并识别，通过预设的识别模型输出该第一目标视觉图像对应的目标对象的对象标识信息，或者也可采用其他方式根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息，本实施例中对此不作限定。

其中，对象标识信息可以为目标对象的姓名，身份证号，手机号码，邮箱中的一种或多种，以通过对象标识信息确定该目标对象的唯一身份信息。

步骤103，根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。

本实施例中，获取第一目标视觉传感器对应的对象标识信息，并获取对应的采集时间信息。可将其他类型视觉传感器采集的目标视觉图像的采集时间信息与第一目标视觉传感器对应的采集时间信息进行对比，若根据对比结果确定其他类型视觉传感器采集的目标视觉图像与第一目标视觉传感器采集的第一目标视觉图像为同一目标对象对应的不同类型的视觉图像，则将第一目标视觉图像对应的对象标识信息确定为其他类型的目标视觉图像对应的对象标识信息。

本实施例提供的多模态图像处理方法，通过若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息；根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息；根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。由于利用身份识别场景原有的视觉传感器采集的目标视觉图像可对目标对象进行识别，并且多个视觉传感器间采集对应目标视觉图像的时间有关联关系，所以可通过各目标视觉图像的采集时间信息确定出其他类型的目标视觉图像对应的对象标识信息。实现了对多模态图像的自动化采集和对象标识的确定。提高了对多模态图像处理的效率，并且降低了采集和处理的成本。

实施例二

图3是根据本申请第二实施例提供的多模态图像处理方法的流程示意图，如图3所示，本实施例提供的多模态图像处理方法，是在本申请第一实施例提供的多模态图像处理方法的基础上，对步骤101-步骤103的进一步细化。并且还包括了获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像；接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息；对各第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储的步骤。本实施例中第一视觉传感器为可见光视觉传感器，其他类型传感器为NIR视觉传感器和激光雷达。则本实施例提供的多模态图像处理方法包括以下步骤。

步骤201，获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像。

具体地，本实施例中，电子设备根据第一预设身份识别场景，确定在第一预设身份识别场景中的所有目标对象的用户终端，可向用户终端发送图像采集请求，用户终端根据图像采集请求控制第一视觉传感器采集对应目标对象的视觉图像。该视觉图像为第一注册视觉图像。

可选地，本实施例中，第一视觉传感器为可见光视觉传感器，如可以为用户终端上的拍摄摄像头。

其中，在第一注册视觉图像中包括目标对象的生物识别部位。

可选地，本实施例中，生物识别部位为人脸，则第一注册视觉图像为采用第一视觉传感器采集的RGB人脸图像。

步骤202，接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息。

具体地，本实施例中，可向用户终端发送对象标识信息获取请求，以使用户终端根据对象标识信息获取请求在屏幕上显示对象标识信息输入窗口，电子设备接收用户通过对象标识信息输入窗口输入的对象标识信息。

步骤203，对各第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储。

具体地，本实施例中，采用特征提取算法对每个目标对象的第一注册视觉图像的生物识别部位进行特征提取，如对人脸进行特征提取，将提取的特征信息作为注册特征信息与对应的对象标识信息进行关联存储。具体可关联存储到数据库中。

步骤204，若确定第一视觉传感器检测到目标对象的生物识别部位，则确定目标对象通过第一预设身份识别场景中指定地点的流量。

本实施例中，步骤204-步骤206为实施例一中的步骤101的一种可选实施方式。

具体地，本实施例中，在电子设备确定第一视觉传感器检测到目标对象的生物识别部位后，确定目标对象通过第一预设身份识别场景中指定地点的流量。

本实施例中，对确定目标对象通过第一预设身份识别场景中指定地点的流量进行示例性说明。例如目标对象为小区的住户，指定地点为小区的入口。则在电子设备确定第一视觉传感器检测到目标对象的生物识别部位后，确定小区的住户通过小区入口的人流量。

步骤205，若流量大于预设流量阈值，则控制第一视觉传感器对生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对生物识别部位进行图像采集。

本实施例中，将确定出的流量与预设流量阈值进行对比，若确定出的流量大于预设流量阈值，则说明流量较大，需要对每个目标对象进行快速身份识别，以避免造成拥堵现象。则在进行身份识别前，由于第一视觉传感器为可见光视觉传感器，采集第一目标视觉图像的时间较长，而其他类型视觉传感器采集对应目标视觉传感器的时间较短。所以控制第一视觉传感器对生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对生物识别部位进行图像采集。则其他类型视觉传感器能够对目标对象采集多幅目标视觉图像，由于对目标对象采集图像期间，目标对象会有些许移动，所以多幅目标视觉图像能够显示不同角度的生物识别部位。

步骤206，若流量小于或等于预设流量阈值，则控制各视觉传感器在预设时间段内对生物识别部位周期性进行图像采集。

本实施例中，将确定出的流量与预设流量阈值进行对比，若确定出的流量小于或等于预设流量阈值，则说明流量较小，可以对每个目标对象进行较长时间地多模态图像的采集。则控制各视觉传感器在预设时间段内对生物识别部位周期性进行图像采集。其中，预设时间段大于第一视觉传感器对生物识别部位进行图像采集时间，所以各个视觉传感器在预设时间段内均能够采集到对应的多幅目标视觉图像。并且每幅目标视觉图像能够显示不同角度的生物识别部位。

步骤207，对第一目标视觉图像进行特征提取，以获得目标特征信息；将目标特征信息与各注册特征信息进行匹配；若目标特征信息与某注册特征信息匹配，则将相匹配的注册特征信息对应的对象标识信息确定为第一目标视觉图像对应的对象标识信息。

本实施例中，步骤207为实施例一中的步骤102的一种可选实施方式。

具体地，采用目标对象进行注册时相同的特征提取算法对第一目标视觉图像进行特征提取，获得特征信息作为目标特征信息。然后将目标特征信息与数据库中存储的各注册特征信息采用预设匹配算法进行匹配，根据匹配结果判断目标特征信息与各注册特征信息是否匹配，若确定目标特征信息与某注册特征信息相匹配，则获取与相匹配的注册特征信息关联存储的对象标识信息，将该关联存储的对象标识信息确定为第一目标视觉图像对应的对象标识信息。

步骤208，将其他类型视觉图像对应的采集时间信息与第一目标视觉图像对应的采集时间信息进行对比；

步骤209，若其他类型视觉图像对应的采集时间在第一目标视觉图像对应的采集时间范围内，则将第一目标视觉图像对应的对象标识信息确定为其他目标视觉图像对应的对象标识信息。

本实施例中，步骤208-步骤209为实施例一中的步骤103的一种可选实施方式。

本实施例中，其他类型视觉图像对应的采集时间信息包括采集起始时间和终止时间。第一目标视觉图像对应的采集时间信息也包括采集起始时间和终止时间。

具体地，本实施例中，将其他类型视觉图像对应的采集时间信息与第一目标视觉图像对应的采集时间信息进行对比，判断其他类型视觉图像对应的采集时间是否落在第一目标视觉图像对应的采集时间范围内，若是，则说明其他类型目标视觉图像与第一目标视觉图像采集的是同一目标对象对应的视觉图像。则将第一目标视觉图像对应的对象标识信息确定为其他目标视觉图像对应的对象标识信息。若否，则无法准确确定出其他类型目标视觉图像对应的目标对象，可对该其他类型目标视觉图像进行删除。

本实施例提供的多模态图像处理方法，在根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息之前，获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像；接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息；对各第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储。并且在根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息时，对第一目标视觉图像进行特征提取，以获得目标特征信息；将目标特征信息与各注册特征信息进行匹配；若目标特征信息与某注册特征信息匹配，则将相匹配的注册特征信息对应的对象标识信息确定为第一目标视觉图像对应的对象标识信息。由于预先将提取的各注册特征信息与对应的对象标识信息进行关联存储，所以在获取到第一目标视觉图像后，能够通过对图像特征信息进行匹配的方式快速并且准确地对第一目标视觉图像对应的目标对象进行身份识别。

本实施例提供的多模态图像处理方法，在控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息时，确定目标对象通过第一预设身份识别场景中指定地点的流量；若流量大于预设流量阈值，则控制第一视觉传感器对生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对生物识别部位进行图像采集；若流量小于或等于预设流量阈值，则控制各视觉传感器在预设时间段内对生物识别部位周期性进行图像采集。能够在保证对目标对象进行身份识别不会造成拥堵的情况下，最大限度地采集多模态图像，使采集的多模态图像更加丰富。

实施例三

图4是根据本申请第三实施例提供的多模态图像处理方法的流程示意图，如图4所示，本实施例提供的多模态图像处理方法，是在本申请第一实施例或第二实施例提供的多模态图像处理方法的基础上，在根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息之后，还包括了对预设的识别模型进行训练的步骤。则本实施例提供的多模态图像处理方法还包括以下步骤。

步骤301，对其他类型目标视觉图像进行对象标识信息的标注，以作为模型训练样本。

本实施例中，在确定出每种其他类型目标视觉图像对应的对象标识信息后，可将每种其他类型目标视觉图像与对应的对象标识信息进行关联存储，如存储到数据库中。然后可从数据库中获取每种其他类型目标视觉图像与对应的对象标识信息，将每种其他类型目标视觉图像进行对象标识信息的标注，将标注对象标识信息后的每种其他类型目标视觉图像可作为对应预设识别模型的训练样本。

示例性地，其他类型目标视觉图像可包括：NIR目标视觉图像和深度目标视觉图像。则对每个目标对象的NIR目标视觉图像进行对象标识信息的标注，作为对应的预设NIR图像识别模型的训练样本。对每个目标对象的深度目标视觉图像进行对象标识信息的标注，作为对应的预设深度图像识别模型的训练样本。

步骤302，采用模型训练样本对预设的识别模型进行训练，以获得训练至收敛的识别模型。

具体地，本实施例中，采用预设NIR图像识别模型的训练样本对预设NIR图像识别模型进行训练，调整预设NIR图像识别模型中的参数，判断是否达到预设的收敛条件，若达到预设收敛条件，则将满足预设收敛条件的NIR图像识别模型确定为训练至收敛的NIR图像识别模型。

同理，采用预设深度图像识别模型的训练样本对预设深度图像识别模型进行训练，调整预设深度图像识别模型中的参数，判断是否达到预设的收敛条件，若达到预设收敛条件，则将满足预设收敛条件的深度图像识别模型确定为训练至收敛的深度图像识别模型。

其中，训练至收敛的NIR图像识别模型和/或训练至收敛的深度图像识别模型可以为深度学习模型，机器学习模型等。

可以理解的是，在确定出训练至收敛的识别模型后，对训练至收敛的识别模型进行存储。

本实施例提供的多模态图像处理方法，在根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息之后，还包括：对其他类型目标视觉图像进行对象标识信息的标注，以作为模型训练样本；采用模型训练样本对预设的识别模型进行训练，以获得训练至收敛的识别模型。能够获得其他类型视觉图像对应的训练至收敛的识别模型，为采用其他类型视觉图像对身份进行识别做准备。

实施例四

图5是根据本申请第四实施例提供的多模态图像处理方法的流程示意图，图6是根据本申请第五实施例提供的多模态图像处理方法的应用场景图，如图5和图6所示，本实施例提供的多模态图像处理方法，是在本申请第三实施例提供的多模态图像处理方法的基础上，还包括了采用对应视觉传感器采集图像并对目标对象进行身份识别的步骤。则本实施例提供的多模态图像处理方法还包括以下步骤。

步骤401，确定第二预设身份识别场景的采集环境信息。

本实施例中，第二预设身份识别场景中的目标对象可以为第一预设识别场景中的部分或全部目标对象。例如第一预设识别场景为小区门禁的场景，第二预设识别场景可以为单元楼门禁的场景。

本实施例中，采集环境信息可以为可见光充足场景，或者可以为可将光不足场景。

具体地，本实施例中，可采用可见光传感器采集第二预设身份识别场景的采集环境信息，并将采集环境信息发送给电子设备。或者可获取当前采集时间和当前采集天气信息，根据当前采集时间和当前采集天气信息确定第二预设身份识别场景的采集环境信息，本实施例中对此不作限定。

步骤402，若采集环境信息为可见光充足环境，则采用第一视觉传感器采集目标对象的第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别。

其中，第一视觉传感器为可见光视觉传感器。

本实施例中，若确定采集环境信息是可见光充足环境，则说明适合可见光视觉传感器对目标对象的生物识别部位进行图像采集，则采用可见光视觉传感器对目标对象的生物识别部位进行采集，获得第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别。

其中，本实施例中，根据第一目标视觉图像对目标对象进行身份识别的方式与实施例一或实施例二中对应的方式类似，在此不再一一赘述。

步骤403，若采集环境信息为可见光不足环境，则采用其他视觉传感器采集目标对象对应的目标视觉图像，并根据对应的目标视觉图像和训练至收敛的识别模型对目标对象进行身份识别。

本实施例中，若确定采集环境信息是可见光不足环境，则说明不适合可见光视觉传感器对目标对象的生物识别部位进行图像采集，而适合其他类型视觉传感器对目标对象的生物识别部位进行图像采集，如其他类型视觉传感器可以为NIR视觉传感器或深度视觉传感器。则采用其他类型视觉传感器对目标对象的生物识别部位进行采集，获得对应的目标视觉图像，并根据对应的目标视觉图像对目标对象进行身份识别。

在根据对应的目标视觉图像对目标对象进行身份识别时，将目标视觉图像输入到训练至收敛的识别模型中，训练至收敛的识别模型对目标视觉图像进行特征提取，并进行目标对象的识别，输出该目标视觉图像对应的目标对象的对象标识信息。

本实施例提供的多模态图像处理方法，确定第二预设身份识别场景的采集环境信息；若采集环境信息为可见光充足环境，则采用第一视觉传感器采集目标对象的第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别；若采集环境信息为可见光不足环境，则采用其他视觉传感器采集目标对象对应的目标视觉图像，并根据对应的目标视觉图像和训练至收敛的识别模型对目标对象进行身份识别，在第二预设身份识别场景中，根据第二预设身份识别场景的采集环境信息，采用最适合的视觉传感器对目标对象进行图像采集，并进行身份识别，能够在不同的采集环境下均能够准确对目标对象进行身份识别。

实施例五

图7为根据本申请第六实施例提供的多模态图像处理装置的结构示意图，如图7所示，本实施例提供的多模态图像处理装置中，多模态图像采用多种视觉传感器采集，多种视觉传感器设置在第一预设身份识别场景中。该多模态图像处理装置700包括：图像采集控制模块701，身份识别模块702及标识确定模块703。

其中，图像采集控制模块701，用于若确定第一视觉传感器检测到目标对象的生物识别部位，则控制各视觉传感器按照预设的采集策略分别对生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息。身份识别模块702，用于根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息。标识确定模块703，用于根据各目标视觉图像的采集时间信息和第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息。

本实施例提供的多模态图像处理装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

实施例六

图8为根据本申请第七实施例提供的多模态图像处理装置的结构示意图，如图8所示，本实施例提供的多模态图像处理装置800在本申请实施例五提供的多模态图像处理装置700的基础上，还包括：注册存储模块801，模型训练模块802，及环境确定模块803。

可选地，第一目标视觉图像为RGB图像。

其中，其他类型目标视觉图像包括以下图像中的任意一种或多种：

NIR图像，深度图像，三维点云图像。

相应地，图像采集控制模块701，具体用于：

确定目标对象通过第一预设身份识别场景中指定地点的流量；若流量大于预设流量阈值，则控制第一视觉传感器对生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对生物识别部位进行图像采集；若流量小于或等于预设流量阈值，则控制各视觉传感器在预设时间段内对生物识别部位周期性进行图像采集。

其中，目标对象的生物识别部位包括以下部位的任意一种：

人脸部位，虹膜部位，掌纹部位，指纹部位。

可选地，注册存储模块801，用于：

获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像；接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息；对各第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储。

可选地，身份识别模块702，具体用于：

对第一目标视觉图像进行特征提取，以获得目标特征信息；将目标特征信息与各注册特征信息进行匹配；若目标特征信息与某注册特征信息匹配，则将相匹配的注册特征信息对应的对象标识信息确定为第一目标视觉图像对应的对象标识信息。

可选地，标识确定模块703，具体用于：

将其他类型目标视觉图像对应的采集时间信息与第一目标视觉图像对应的采集时间信息进行对比；若其他类型目标视觉图像对应的采集时间在第一目标视觉图像对应的采集时间范围内，则将第一目标视觉图像对应的对象标识信息确定为其他目标视觉图像对应的对象标识信息。

可选地，模型训练模块802，用于：

对其他类型目标视觉图像进行对象标识信息的标注，以作为模型训练样本；采用模型训练样本对预设的识别模型进行训练，以获得训练至收敛的识别模型。

可选地，多种视觉传感器设置在第二预设身份识别场景中，环境确定模块803，用于：确定第二预设身份识别场景的采集环境信息。身份识别模块702，还用于：若采集环境信息为可见光充足环境，则采用第一视觉传感器采集目标对象的第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别；若采集环境信息为可见光不足环境，则采用其他视觉传感器采集目标对象对应的目标视觉图像，并根据对应的目标视觉图像和训练至收敛的识别模型对目标对象进行身份识别。

本实施例提供的多模态图像处理装置可以执行图3-图5所示方法实施例的技术方案，其实现原理和技术效果与图3-图5所示方法实施例类似，在此不再一一赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。

如图9所示，是根据本申请实施例的多模态图像处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的多模态图像处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的多模态图像处理方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的多模态图像处理方法对应的程序指令/模块(例如，附图7所示的图像采集控制模块701，身份识别模块702及标识确定模块703)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多模态图像处理方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多模态图像处理方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

多模态图像处理方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请提供一种多模态图像处理方法、装置、设备及存储介质，涉及人工智能中的计算机视觉和深度学习技术领域。根据本申请实施例的技术方案，由于利用身份识别场景原有的视觉传感器采集的目标视觉图像可对目标对象进行识别，并且多个视觉传感器间采集对应目标视觉图像的时间有关联关系，所以可通过各目标视觉图像的采集时间信息确定出其他类型的目标视觉图像对应的对象标识信息。实现了对多模态图像的自动化采集和对象标识的确定。提高了对多模态图像处理的效率，并且降低了采集和处理的成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种多模态图像处理方法，所述多模态图像采用多种视觉传感器采集，所述多种视觉传感器设置在第一预设身份识别场景中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述第一目标视觉图像为RGB图像；

所述控制各视觉传感器按照预设的采集策略分别对所述生物识别部位进行图像采集，以获得对应类型的目标视觉图像及目标视觉图像的采集时间信息，包括：

确定目标对象通过所述第一预设身份识别场景中指定地点的流量；

若所述流量大于预设流量阈值，则控制第一视觉传感器对所述生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对所述生物识别部位进行图像采集；

若所述流量小于或等于预设流量阈值，则控制各视觉传感器在预设时间段内对所述生物识别部位周期性进行图像采集。

3.根据权利要求1所述的方法，所述根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息之前，还包括：

获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像；

接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息；

对各所述第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储。

4.根据权利要求3所述的方法，其中，所述根据第一目标视觉图像对目标对象进行身份识别，以确定第一目标视觉图像对应的对象标识信息，包括：

对所述第一目标视觉图像进行特征提取，以获得目标特征信息；

将所述目标特征信息与各注册特征信息进行匹配；

若所述目标特征信息与某注册特征信息匹配，则将相匹配的注册特征信息对应的对象标识信息确定为所述第一目标视觉图像对应的对象标识信息。

5.根据权利要求1所述的方法，其中，所述根据各目标视觉图像的采集时间信息和所述第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息，包括：

将所述其他类型目标视觉图像对应的采集时间信息与所述第一目标视觉图像对应的采集时间信息进行对比；

若其他类型目标视觉图像对应的采集时间在所述第一目标视觉图像对应的采集时间范围内，则将第一目标视觉图像对应的对象标识信息确定为其他目标视觉图像对应的对象标识信息。

6.根据权利要求1-5任一项所述的方法，所述根据各目标视觉图像的采集时间信息和所述第一目标视觉图像对应的对象标识信息确定除第一目标视觉图像外其他类型目标视觉图像对应的对象标识信息之后，还包括：

对所述其他类型目标视觉图像进行对象标识信息的标注，以作为模型训练样本；

采用所述模型训练样本对预设的识别模型进行训练，以获得训练至收敛的识别模型。

7.根据权利要求6所述的方法，所述多种视觉传感器设置在第二预设身份识别场景中，所述方法还包括：

确定所述第二预设身份识别场景的采集环境信息；

若所述采集环境信息为可见光充足环境，则采用所述第一视觉传感器采集所述目标对象的第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别；

若所述采集环境信息为可见光不足环境，则采用所述其他视觉传感器采集所述目标对象对应的目标视觉图像，并根据对应的目标视觉图像和所述训练至收敛的识别模型对目标对象进行身份识别。

8.根据权利要求1-7任一项所述的方法，其中，所述其他类型目标视觉图像包括以下图像中的任意一种或多种：

NIR图像，深度图像，三维点云图像。

9.根据权利要求1-7任一项所述的方法，其中，所述目标对象的生物识别部位包括以下部位的任意一种：

人脸部位，虹膜部位，掌纹部位，指纹部位。

10.一种多模态图像处理装置，所述多模态图像采用多种视觉传感器采集，所述多种视觉传感器设置在第一预设身份识别场景中，所述装置包括：

11.根据权利要求10所述的装置，其中，所述第一目标视觉图像为RGB图像；

所述图像采集控制模块，具体用于：

确定目标对象通过所述第一预设身份识别场景中指定地点的流量；若所述流量大于预设流量阈值，则控制第一视觉传感器对所述生物识别部位进行图像采集期间，控制其他类型视觉传感器周期性对所述生物识别部位进行图像采集；若所述流量小于或等于预设流量阈值，则控制各视觉传感器在预设时间段内对所述生物识别部位周期性进行图像采集。

12.根据权利要求10所述的装置，还包括：

注册存储模块，用于：

获取各用户终端中第一视觉传感器采集的目标对象对应的第一注册视觉图像；接收用户通过对应用户终端发送的第一注册视觉图像对应的对象标识信息；对各所述第一注册视觉图像进行特征提取，并将提取的各注册特征信息与对应的对象标识信息进行关联存储。

13.根据权利要求12所述的装置，其中，所述身份识别模块，具体用于：

对所述第一目标视觉图像进行特征提取，以获得目标特征信息；将所述目标特征信息与各注册特征信息进行匹配；若所述目标特征信息与某注册特征信息匹配，则将相匹配的注册特征信息对应的对象标识信息确定为所述第一目标视觉图像对应的对象标识信息。

14.根据权利要求10所述的装置，其中，所述标识确定模块，具体用于：

将所述其他类型目标视觉图像对应的采集时间信息与所述第一目标视觉图像对应的采集时间信息进行对比；若其他类型目标视觉图像对应的采集时间在所述第一目标视觉图像对应的采集时间范围内，则将第一目标视觉图像对应的对象标识信息确定为其他目标视觉图像对应的对象标识信息。

15.根据权利要求10-14任一项所述的装置，还包括：

模型训练模块，用于：

对所述其他类型目标视觉图像进行对象标识信息的标注，以作为模型训练样本；采用所述模型训练样本对预设的识别模型进行训练，以获得训练至收敛的识别模型。

16.根据权利要求15所述的装置，所述多种视觉传感器设置在第二预设身份识别场景中，所述装置还包括：环境确定模块；

所述环境确定模块，用于：确定所述第二预设身份识别场景的采集环境信息；

身份识别模块，还用于：若所述采集环境信息为可见光充足环境，则采用所述第一视觉传感器采集所述目标对象的第一目标视觉图像，并根据第一目标视觉图像对目标对象进行身份识别；若所述采集环境信息为可见光不足环境，则采用所述其他视觉传感器采集所述目标对象对应的目标视觉图像，并根据对应的目标视觉图像和所述训练至收敛的识别模型对目标对象进行身份识别。

17.根据权利要求10-16任一项所述的装置，其中，所述其他类型目标视觉图像包括以下图像中的任意一种或多种：

NIR图像，深度图像，三维点云图像。

18.根据权利要求10-16任一项所述的装置，其中，所述目标对象的生物识别部位包括以下部位的任意一种：

人脸部位，虹膜部位，掌纹部位，指纹部位。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。