CN114663733A

CN114663733A - 多模态特征的融合方法、装置、设备、介质及产品

Info

Publication number: CN114663733A
Application number: CN202210151570.5A
Authority: CN
Inventors: 余威; 王昆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-06-24

Abstract

本公开提供了一种多模态特征的融合方法、装置、设备、介质及产品，涉及图像处理技术领域，尤其涉及计算机视觉和深度学习技术领域。具体实现方案为：获取同一图像的多种模态特征；对所述多种模态特征中的每种模态特征进行编码；采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；将所述多个初始融合特征再次进行融合，得到目标融合特征。本公开采用多头注意力机制对多种模态特征的编码特征进行交叉融合，使各编码特征间能够进行充分的融合。并对交叉融合产生的多个初始融合特征进行再次融合，最终得到的目标融合特征能够准确的描述图像中的POI特征，进而提高召回率。

Description

多模态特征的融合方法、装置、设备、介质及产品

技术领域

本公开涉及图像处理技术领域，尤其涉及计算机视觉和深度学习技术领域。

背景技术

在兴趣点(Points Of Interest，POI)生产过程中，将同一招牌图像的多模态特征进行融合，能够提高召回率。但若采用相关技术中将多模态特征进行拼接以实现融合的方式进行融合，得到的融合特征不仅存在冗余信息，而且判别性低，反而导致召回率降低，无法在生产中应用。

发明内容

本公开提供了一种用于多模态特征的融合方法、装置、设备、介质及产品。

根据本公开的一方面，提供了一种多模态特征的融合方法，包括：获取同一图像的多种模态特征；对所述多种模态特征中的每种模态特征进行编码；采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；将所述多个初始融合特征再次进行融合，得到目标融合特征。

根据本公开的另一方面，提供了一种多模态特征的融合装置，包括：获取单元，用于获取同一图像的多种模态特征；编码单元，用于对所述多种模态特征中的每种模态特征进行编码；第一融合单元，用于采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；第二融合单元，用于将所述多个初始融合特征再次进行融合，得到目标融合特征。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的自动化生产主要流程的示意图；

图2是根据本公开实施例提供的多模态特征的融合方法流程图；

图3是根据本公开实施例提供的进行多模态特征融合的框图；

图4是根据一示例性实施例示出的多模态特征的融合装置框图；

图5是用来实现本公开实施例的多模态特征的融合方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开应用于地图POI数据生产的场景。具体是指将招牌图像挂接到POI库中的场景。图1是根据本公开实施例提供的自动化生产主要流程的示意图。如图1所示，POI的自动化生产的主要流程包括：对招牌图像进行光学字符识别(Optical CharacterRecognition，OCR)，得到招牌图像的文本特征。将招牌图像输入图像特征提取网络进行图像特征提取。图像特征提取网络可以为VIT(Vision Transformer)网络或深度残差网络(Deep residual network，ResNet)。基于招牌图像中POI所在的坐标进行距离索引。可以理解为，在招牌图像中POI所在坐标的50米范围内对POI名称和POI图像分别进行召回。将召回的POI名称和POI图像分别与提取到的文本特征和图像特征进行文本匹配和图像匹配。文本匹配和图像匹配的过程可以理解为特征相似度检索。整合上述的匹配结果，得到招牌图像的挂接结果。招牌图像中含有POI，故招牌图像也称POI图像。图1中的img表征招牌图像。

按照上述流程得到的招牌图像挂接结果，存在的缺陷包括，利用图像特征、文本特征和空间坐标信息分别进行数据的召回一方面增加了整个系统的复杂度以及计算量，导致生产效率低。另一方面，单模态的信息无法准确刻画POI特征使得召回存在损失。将图像特征，文本特征以及POI坐标等多模特征融合，可以解决上述缺陷。但利用特征拼接无法有效融合多种模态的特征，得到的融合特征不仅存在冗余信息且判别性不够。通过拼接得到的融合特征召回率低，无法直接在生产中应用。

鉴于此，本公开提供了一种多模态特征融合方法。通过多头注意力机制将多模特征进行交叉融合，得到有效且更具判别性的融合特征。将通过本公开得到的融合特征用于POI的自动化生产，能够提升生产效率和召回率。

本公开下述实施例将结合附图，对多模态特征的融合方法进行说明。

图2是根据本公开实施例提供的多模态特征的融合方法流程图。如图2所示，本公开提供的多模态特征的融合方法，包括以下步骤。

在步骤S201中，获取同一图像的多种模态特征。

模态特征包括图像特征，文本特征和图像中兴趣点POI坐标。除了图像特征，文本特征和图像中兴趣点POI坐标以外，模态特征还可以包括图像中POI的属性信息，例如拍摄图像的拍摄角度，拍摄图像的时间和图像所在区域等。

通过本公开不仅可以对图像特征和文本特征进行融合处理，还可以对拍摄图像的拍摄角度，拍摄图像的时间和图像所在区域进行融合处理。使得融合特征能够更准确的对图像进行描述。

图像特征可以通过已有的图像特征提取网络获取。获取图像特征的图像特征提取网络可以为深度卷积神经网络(convolutional neural network，CNN)。文本特征可以通过对图像进行OCR识别获取。除了通过OCR识别获取文本特征外还可以采用BERT(Bidirectional Encoder Representations from Transformers)、ERNIE等网络获取文本特征。需说明，本公开并不限定获取各模态特征的方式。

在步骤S202中，对多种模态特征中的每种模态特征进行编码。

对各模态特征进行编码，在保证原始信息不损失的情况下，使各模态特征具备相同维度。

在步骤S203中，采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征。

将编码得到的编码特征赋值给多头注意力机制中的参数，利用多头注意力机制对各编码特征进行交叉融合，得到多个初始融合特征。相比于相关技术，在多头注意力机制中能够对各编码特征进行充分融合，并不是简单的拼接。

在步骤S204中，将多个初始融合特征再次进行融合，得到目标融合特征。

本公开实施例将多个初始特征输入多层感知机(Multilayer Perceptron，MLP)进行再次融合，得到目标融合特征。利用多层感知机对多个初始融合特征进行再次融合，得到的目标融合特征能够准确刻画POI特征。

在本公开实施例中可以采用除MLP外的其他网络模型，对多个初始特征进行融合，并不仅限于采用MLP。

本公开对多种模态特征进行编码，对编码特征采用多头注意力机制进行交叉融合，使各编码特征间能够进行充分的融合。并对交叉融合产生的多个初始融合特征进行再次融合，最终得到的目标融合特征能够准确的描述图像中的POI特征，进而提高召回率。

在本公开实施例中，对于不同的模态特征采用不同的编码方式。

针对图像特征，确定表征图像特征的特征图的特征维度。若其特征维度为(B，H*W，C)满足进行融合的要求，则不对该图像特征进行进一步处理。若其特征维度不满足进行融合的要求，则利用预设的神经网络从该图像特征中提取满足融合要求的图像特征。其中B表示批大小。C表示特征图中包括的通道数。H表示特征图的高度。W表示特征图的宽度。

针对POI坐标，利用GeoHash对POI坐标进行向量编码，并对编码得到的向量进行向量升维。基于向量升维后的编码向量，对POI坐标进行编码。具体过程为：利用GeoHash对POI坐标进行0，1向量编码。利用向量升维的方式将0，1向量转化为二维矩阵向量，其维度为(B，H*W,C)。需说明，本公开的向量升维是对每一个1进行位置编码，例如1110可以编码为：[[1，0，0，0]，[0，1，0，0]，[0，0，1，0]]。

本公开采用GeoHash对POI坐标进行向量编码，并对编码得到的向量进行向量升维的方式，使POI坐标的维度与其他模态特征的维度一致，便于与其他模态特征进行交叉融合。

针对文本特征，利用word2Vec进行编码，使编码后的文本特征的维度同样为(B，H*W，C)。在本公开中word to vector是一群用来产生词向量的相关模型。

本公开实施例对除图像特征以及POI坐标之外的其他模态特征，例如拍摄图像的拍摄角度，以及拍摄图像的时间等均采用word2vec的编码方式进行编码。

本公开对除图像特征和POI坐标外的其他模态特征，采用word2vec的编码方式均进行编码，使待融合的各模态特征具有相同的维度，为交叉融合做准备。

在本公开实施例中，对于不同数量的模态特征，采用多头注意力机制(Multi-head-attention)融合时的方式不同。

在本公开实施例中，若模态特征的数量小于或等于预设数量，则将编码得到的所有编码特征直接采用多头注意力机制，进行特征交叉融合。

在本公开实施例中，预设数量可以为3。由于本公开针对多模态特征进行融合。故，至少需要两种模态特征。

在一种实施方式中，采用多头注意力机制对两种模态特征对应的编码特征进行交叉融合。假设两种模态特征分别为图像特征和文本特征。图像特征对应的编码特征为图像编码特征。文本特征对应的编码特征为文本编码特征。将图像编码特征和文本编码特征分别赋值给多头注意力机制中的参数O，K和V。第一种赋值方式为，将图像编码特征赋值给O，将文本编码特征赋值给K，并将文本编码特征赋值给V。第二种赋值方式为，将文本编码特征赋值给O，将图像编码特征赋值给K，并将图像编码特征赋值给V。在上述两种赋值方式下，进行两两组合得到多个初始融合特征。

在另一种实施方式中，采用多头注意力机制对三种模态特征对应的编码特征进行交叉融合。假设三种模态特征分别为图像特征、文本特征以及POI坐标。图像特征对应的编码特征为图像编码特征。文本特征对应的编码特征为文本编码特征。POI坐标对应的编码特征为POI编码坐标。将图像编码特征、文本编码特征以及POI编码坐标分别赋值给多头注意力机制中的参数O，K和V。在多头注意力机制中对各编码特征进行两两排列组合，得到6个一维向量的初始融合特征。将6个初始融合特征利用MLP再次进行融合，得到目标融合特征。

通过本公开实施例，对于小于或等于预设数量的模态特征，直接利用多头注意力机制对模态特征对应的编码特征进行交叉融合，提高了融合效果。

在本公开实施例中，若模态特征的数量大于预设数量，则对模态特征编码得到的所有编码特征，按照预设数量进行组合；将组合后得到的所有组合结果中的各组合结果，分别采用多头注意力机制，进行特征交叉融合。

在一种实施方式中，若有5种模态特征，且预设数量为3，则每次从5种模态特征对应的编码特征中取出3种编码特征进行组合，得到所有的组合结果。即总共有10种组合结果。针对每种组合结果，采用多头注意力机制，进行特征交叉融合。一种组合结果可以得到6个初始融合特征，10种组合结果可以得到60种初始融合特征。将60种初始融合特征输入MLP中再次进行融合，得到目标融合特征。

在本公开实施例中，对于大于预设数量的模态特征，先按照预设数量进行组合，再对每种组合结果中模态特征对应的编码特征利用多头注意力机制进行交叉融合，确保多模态特征进行充分的交叉融合，使得融合特征更具判别性。

在本公开实施例中，将实现上述多模态特征的融合方法的网络结构进行组合，并利用度量学习等方法对组合后的结构进行训练，生成多模态特征融合模型。利用多模态特征融合模型得到的特征即可满足业务应用需求。

图3是根据本公开实施例提供的进行多模态特征融合的框图。如图3所示，利用本公开进行多模态特征融合时，在多模态特征融合模型中需要经过编码层对各模态特征进行编码。将编码得到的编码特征进行交叉融合，得到多个初始融合特征。将多个初始融合特征输入MLP模型中再次进行融合，得到目标融合特征。如图3所示，将POI图像，POI坐标，POI的文本特征(POI OCR)输入多模态特征融合模型。在多模态特征融合模型的编码层中，对POI图像进行特征图提取。对POI坐标进行GeoHash编码以及向量升维。对POI的文本特征采用word2Vec进行编码。本公开提供的多模态特征融合模型的复杂度更低，便于在生产中应用，能够提高效率的同时提升召回。

基于相同的构思，本公开实施例还提供一种多模态特征的融合装置。

可以理解的是，本公开实施例提供的多模态特征的融合装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图4是根据一示例性实施例示出的多模态特征的融合装置框图。参照图4，该装置400包括获取单元401，编码单元402，第一融合单元403和第二融合单元404。

获取单元401，用于获取同一图像的多种模态特征；编码单元402，用于对多种模态特征中的每种模态特征进行编码；第一融合单元403，用于采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；第二融合单元404，用于将多个初始融合特征再次进行融合，得到目标融合特征。

在一种实施方式中，第一融合单元403用于：若模态特征的数量小于或等于预设数量，则将编码得到的所有编码特征直接采用多头注意力机制，进行特征交叉融合。

在一种实施方式中，第一融合单元403还用于：若模态特征的数量大于预设数量，则对编码得到的所有编码特征，按照预设数量进行组合；将组合后得到的所有组合结果中的各组合结果，分别采用多头注意力机制，进行特征交叉融合。

在一种实施方式中，模态特征包括：图像特征，文本特征，图像中兴趣点POI坐标，拍摄图像的拍摄角度，拍摄图像的时间和/或图像所在区域。

在一种实施方式中，编码单元402，用于若模态特征为POI坐标，则利用GeoHash对POI坐标进行向量编码，并对编码得到的向量进行向量升维；基于向量升维后的编码向量，对POI坐标进行编码。

在一种实施方式中，编码单元402，用于若模态特征为除图像特征和POI坐标外的其他模态特征，则利用word2Vec对其他模态特征进行编码。

在一种实施方式中，第二融合单元404，用于利用多层感知机对多个初始融合特征进行再次融合，得到目标融合特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如多模态特征的融合方法。例如，在一些实施例中，多模态特征的融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的多模态特征的融合方法中的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多模态特征的融合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多模态特征的融合方法，包括：

获取同一图像的多种模态特征；

对所述多种模态特征中的每种模态特征进行编码；

采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；

将所述多个初始融合特征再次进行融合，得到目标融合特征。

2.根据权利要求1所述的方法，其中，所述采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，包括：

若模态特征的数量小于或等于预设数量，则将编码得到的所有编码特征直接采用多头注意力机制，进行特征交叉融合。

3.根据权利要求1所述的方法，其中，所述采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，包括：

若模态特征的数量大于预设数量，则对模态特征进行编码得到的所有编码特征，按照所述预设数量进行组合；

将组合后得到的所有组合结果中的各组合结果，分别采用多头注意力机制，进行特征交叉融合。

4.根据权利要求1-3中任意一项所述的方法，其中，所述模态特征包括：

图像特征，文本特征，图像中兴趣点POI坐标，拍摄图像的拍摄角度，拍摄图像的时间和/或图像所在区域。

5.根据权利要求4所述的方法，其中，所述对所述多种模态特征中的每种模态特征进行编码，包括：

若所述模态特征为POI坐标，则利用GeoHash对所述POI坐标进行向量编码，并对编码得到的向量进行向量升维；

基于向量升维后的编码向量，对所述POI坐标进行编码。

6.根据权利要求4所述的方法，其中，所述对所述多种模态特征中的每种模态特征进行编码，包括：

若所述模态特征为除图像特征和POI坐标外的其他模态特征，则利用word2Vec对所述其他模态特征进行编码。

7.根据权利要求1-3中任意一项所述的方法，其中，所述将所述多个初始融合特征再次进行融合，得到目标融合特征，包括：

利用多层感知机对所述多个初始融合特征进行再次融合，得到目标融合特征。

8.一种多模态特征的融合装置，包括：

获取单元，用于获取同一图像的多种模态特征；

编码单元，用于对所述多种模态特征中的每种模态特征进行编码；

第一融合单元，用于采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；

第二融合单元，用于将所述多个初始融合特征再次进行融合，得到目标融合特征。

9.根据权利要求8所述的装置，其中，所述第一融合单元用于：

10.根据权利要求8所述的装置，其中，所述第一融合单元还用于：

11.根据权利要求8-10中任意一项所述的装置，其中，所述模态特征包括：

12.根据权利要求11所述的装置，其中，所述编码单元，用于：

基于向量升维后的编码向量，对所述POI坐标进行编码。

13.根据权利要求11所述的装置，其中，所述编码单元，用于：

14.根据权利要求8-10中任意一项所述的装置，其中，所述第二融合单元，用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。