CN114969534A

CN114969534A - 一种融合多模态数据特征的移动群智感知任务推荐方法

Info

Publication number: CN114969534A
Application number: CN202210626624.9A
Authority: CN
Inventors: 王健; 颜钰萍; 赵国生
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-06-04
Filing date: 2022-06-04
Publication date: 2022-08-30

Abstract

任务推荐是目前移动群智感知研究的热点和难点，现有的任务推荐忽略了历史数据模态的多样性，以及为了弥补异质性差异，目前的方法大多遵循通过构建公共空间来融合多模态数据特征，导致不同模态缺乏了在不同粒度的特征融合。针对以上的不足，本发明通过对感知用户的历史任务数据进行交叉引导自注意力挖掘出不同粒度的数据融合特征，实现了模态内和模态间的互补性，降低了融合不相关数据的风险。本发明提出的方法从多模态角度研究移动群智感知的任务推荐问题，通过对多种模态的历史数据的融合，生成了与感知用户偏好更匹配的任务推荐，不仅提高了系统性能，同时也提高了感知用户参与任务的积极性，保障了感知数据质量。

Description

一种融合多模态数据特征的移动群智感知任务推荐方法

技术领域

本发明属于移动群智感知领域，具体涉及一种融合多模态数据特征的移动群智感知任务推荐方法。

背景技术

随着拥有丰富传感器的移动设备的迅速普及，移动群智感知(Mobile CrowdSensing, MCS)作为一种新型的众包范式，已经成为当今一种新兴的、有前景的传感技术。MCS利用全球范围内可用的智能手机的感知能力，例如GPS、相机和数字指南针，来收集分布式的感知数据。与传统的固定部署感知模式相比，MCS具有部署灵活、感知数据多源异构、覆盖范围广泛均匀和高扩展多功能等诸多优点。

在通信技术的快速发展下，现已实现了各种MCS服务的信息采集与传播。然而，大规模传感收集的数据通常包括各种模态的数据。我们所处的环境是多元的，我们对这个世界的感知也包含多种因素，这通过语言、视觉、声音、动作、触觉共同完成。人类通过将视觉、听觉、触觉、嗅觉、味觉等不同感官模式的信息整合为连贯的表征，形成有意义的感知体验。由于来自不同感觉模态的信息可以相互补充，提供更丰富的信息，因此多模态数据分析越来越受到重视。

任务推荐在MCS的一个基本问题，对MCS系统的效率和有效性至关重要。在现有的感知系统中，感知用户会执行许多不同的感知任务并上传感知数据，随着时间的推移，感知数据会在系统中产生严重的信息过载，这就需要从众多不同模态的数据信息中找到感知用户感兴趣的信息，以此将合适的感知任务推荐给感知用户。因此，如何设计高效的多模态数据融合机制准确地将感知用户的的历史任务与新任务进行关联以降低感知成本、提高系统性能还有待进一步研究。

目前移动群智感知任务推荐忽略了历史数据的多样性，如在感知任务执行的过程中需要的传感器类型可以是速度加速器、摄像头、麦克风等。因此，需要充分挖掘和理解潜在的跨模态相关性，这就需要一种理解和推理多模态数据的能力。然而，不同模态数据之间存在语义差距，这给处理多模态数据带了很大的困难。为了弥补异质性差异，现有的方法大多遵循通过构建公共空间来融合多模态数据特征，通过在公共空间中的特征距离来衡量多模态数据的相似性。但是，这种方法通过将多模态数据嵌入到公共空间来学习多模态特征，缺乏了偏好和注意机制，容易导致不相关的数据融合，并且忽略了不同模态在不同粒度上的特征融合，故而降低了数据融合的效率和准确性。本发明通过对感知用户的历史任务数据进行交叉引导自注意力机制提取出多模态数据特征，然后进行跨模态层次融合对不同粒度的融合特征进行联合优化，从而实现了模态内和模态间的互补性，并降低了融合不相关数据的风险，进一步提高感知用户历史任务信息融合的准确度。最后通过计算历史任务与新任务之间的任务相似度，来判断新任务是否适合推荐给感知用户。该方法综合了多种模态的历史数据，生成了与感知用户偏好更匹配的任务推荐，不仅可以提高感知用户参与任务的积极性，同时也保障了感知数据质量。

发明内容

本发明的目的是针对现有技术的不足，提出一种融合多模态数据特征的移动群智感知任务推荐方法。

本发明是通过以下技术方案来实现的：一种融合多模态数据特征的移动群智感知任务推荐方法，捕捉多模态数据之间的相关性，挖掘多种模态在不同粒度上的融合特征，对不同粒度的融合特征进行联合优化，通过对感知用户的多模态历史数据进行融合，计算历史任务与新任务之间的任务相似度，进而为感知用户推荐与偏好更加匹配的新任务。

本发明的总体逻辑框架如图1所示，主要包括交叉引导自注意力框架(CrossGuided Self-Attention, CGSA)，CGSA框架的具体实现细节如图2所示。CGSA包含了以下步骤：对多模态历史数据进行特征提取，实现多模态引导自注意力进行语义对齐，对不同的特征进行跨模态层次融合。

对多模态历史数据进行特征提取：本发明提取文本信息特征和图像信息的区域特征，然后将提取的特征分别使用自注意力机制进行特征自我注意。

实现多模态引导自注意力进行语义对齐：对不同模态的自注意特征分别使用引导自注意力机制进行交叉引导，进行语义对齐。

对不同的特征进行跨模态层次融合：对多模态数据的自注意特征和引导自注意特征进行跨模态层次融合，通过联合优化在不同粒度上的融合特征，最终得到多模态历史数据的融合特征。

与现有技术相比，本发明的有益效果是：针对现有的多模态融合方法大多遵循通过构建公共空间来融合多模态数据特征，导致缺乏偏好和注意机制，且忽略了不同模态在不同粒度上的特征融合，本发明首先使用自注意力(Self-Attention)机制生成自注意特征，使模态捕捉自身内部的相关性。然后实现了交叉引导注意力机制生成引导注意特征，实现了在模态间共享模态各自重要的信息，有效降低了融合不相关模态特征的风险；采用了跨模态层次融合方法捕获单个模态内的隐式特征和多个模态间的互补特征，对不同粒度的融合特征进行联合优化，从而实现了模态内和模态间的互补性，进一步提高感知用户历史任务信息融合的准确度；通过从多模态角度研究移动群智感知的任务推荐问题，融合多模态历史数据的有效信息，最终使得对感知任务的融合更准确，产生与感知用户偏好更匹配的任务推荐，有效提高了MCS系统性能，同时也提高了感知用户的积极性，保障了感知数据质量。

附图说明

图1为本发明的总体逻辑框架。

图2为交叉引导自注意力框架。

图3为文本引导图像注意过程。

具体实施方式

对于文本信息，采用预训练的BERT编码器对文本T进行特征提取，得到文本特征向量F_t=BERT(T)；对于图像信息，采用预训练的Faster-RCNN从图像I中提取图像区域特征F_v=Faster-RCNN(I)。

将提取出的文本特征F_t和图像特征F_v分别使用自注意力机制，生成文本注意特征F_tatt和图像注意特征F_vatt。当注意力机制中的Query和Key相同时，即为自注意力，可以捕捉模态自身内部相关性。

为了将文本和图像信息进行语义对齐，实现了交叉引导自注意机制，有利于模态之间将各自重要的信息进行相互补充。

假设文本注意特征F_tatt的向量序列和图像注意特征F_vatt的向量序列分别为{t¹,t², …, t^h}，{i¹, i², …, i^g}。

文本引导图像特征过程如图3所示。在这个过程中，将{t¹, t², …, t^h}用作Query，将{i¹, i², …, i^g}用作Key和Value。文本注意特征向量序列中的每个向量都将计算与图像注意特征向量序列中每个向量之间的关联性，这个计算过程是并行的。将关联性记作a，令m，j分别表示F_tatt向量序列和F_vatt向量序列中的某个向量的下标。则F_tatt中的某个query向量q^m与F_vatt向量序列中某个key向量k^j的关联性为a_m,j=dot(q^m, k^j)，其中dot(*)为Dot-product点积操作。

故而，可以计算出q^m对Fvatt向量序列的所有关注权重为A_m={a_m,1, a_m,2, …, a_m,g}后，然后使用softmax将其归一化处理为A'm={ a'_m,1, a'_m,2, …, a'_m,g }，其中，a'_m,j=exp(a_m,j)/∑_l exp(a_m,l)。

将归一化后的值分别与对应的value向量v^j相乘并相加求和，则得到了t_m的注意向量，为b^m=∑_j a'_m,j* av^j。

重复上述计算过程，我们就可以得到由{t¹, t², …, t^h}从{i¹, i², …, i^g}查询的输出结果为B={b¹, b², …, b^m}，B即为文本引导注意特征F_tv。

这个过程也能表达为矩阵运算。文本注意特征F_tatt向量序列与W_q相乘得到由向量序列{q¹, q², …, q^h}组成的查询矩阵Q，图像注意特征Fvatt向量序列分别与W_k，W_v相乘得到键矩阵K和值矩阵V。键矩阵K由{k¹, k², …, k^g}组成，值矩阵V由{v¹, v², …, v^g}组成。K的转置与Q相乘得到了相关性矩阵A，然后将其进行softmax归一化处理得到A'。最后，将得到的A'与矩阵V相乘到矩阵B，也就是我们需要的文本引导注意特征F_tv。

相同的，在图像引导注意特征的计算过程中，应将{i¹, i², …, i^g}用作Query，将{t¹, t², …, t^h}用作Key和Value，与生成文本引导注意特征F_tv的过程类似，可以得到图像引导注意特征F_tv。

至此，经过交叉引导自注意力，我们得到了文本引导主义特征F_tv和图像引导注意特征F_vt。

我们将多模态自注意特征和多模态引导注意特征进行跨模态层次融合，对不同粒度的融合特征进行联合优化，可以捕获单个模态内的隐式特征和多个模态间的互补特征，使框架充分考虑到了模内和模间的互补性。将文本注意特征F_tatt、图像注意特征F_vatt、文本引导注意特征F_tv以及图像引导注意特征F_vt，这四种特征在一个模态内和多个模态之间进行分层融合。该模块由特征采样层、跨模态融合层，全局融合层和分类层组成。

在特征采样层，将对这四种特征进行采样，保证维度相同以便后续的融合。分别得到F'_tatt，F'_vatt, F'_tv, F'_vt。

跨模态融合层对采样出的四种特征进行四种融合操作，可以表示为：F_tatt,vatt=dot(F'_tatt, F'_vatt)，F_vatt,vt=dot(F'_vatt, F'_vt)，F_tatt,tv=dot(F'_tatt, F'_tv)，F_tv,vt=dot(F'_tv,F'_vt)，分别是文本注意特征与图像注意特征的融合，这是在粗粒度上的融合；图像注意特征与图像引导注意特征的融合，文本注意特征与文本引导注意特征的融合，这两者是在粗粒度与细粒度结合上的融合特征；文本引导注意特征和图像引导注意特征的融合，这是细粒度的融合特征。得到这些不同的融合特征，为后面联合优化在不同粒度下的历史数据融合特征作了铺垫。

全局融合层用于融合跨模态融合层输出的所有融合特征向量，最终的融合结果表示为F_global=dot(F_tatt,vatt, F_vatt,v, F_tatt,tv, F_tv,vt)。最后，分类层将前三层的融合特征向量串联起来，利用softmax进行分类。因此，我们得到了三个预测结果：y_pre1, y_pre2, y_pre3。然后对这三个预测进行拼接再进行预测得到最终预测结果y_preall。F_global将作为我们最后的融合特征结果。预测结果与期望结果y之间的误差由交叉熵损失函数进行计算。前三个预测结果的损失为L(F_i)=CrossEntropyloss(y_prei, y)，i属于集合[1, 2, 3]。最终预测结果y_preall的损失L(F₄)=CrossEntropyloss(y_preall, y)。

采用联合优化方法对预测结果的总损失L=L(F₁)+L(F₂)+L(F₃)+L(F₄)进行优化，使用Adma优化器来最小化总损失函数L进行训练。通过这种联合优化方法，框架可以训练跨模态层次融合的前三层不同粒度的特征，充分考虑到了模内和模间的相关性和互补性，有效提高了多模态历史数据融合的准确度。

通过以上方法将多模态历史数据进行融合后，得到了感知用户的历史数据融合特征，该融合特征隐式包含了感知用户对完成任务的偏好。因此，使用此特征融合结果来计算历史任务与新任务之间的相似度更加合理，并设置一个过滤阈值，当相似度高于这个阈值时，认为该新任务适合推荐给感知用户。

综上所述，本发明提出的一种融合多模态数据特征的移动群智感知任务推荐方法，为MCS领域提供了一种高效的多模态融合机制。本发明通过这种融合机制，有效地融合感知用户的多模态历史数据，从而生成与感知用户偏好更匹配的任务推荐，以此提高了MCS系统的性能，同时增加了感知用户完成感知任务的兴趣，提高感知用户的积极性，进而为感知数据质量提供了保障。

上述实施方法为本发明较佳的实施方式，但本发明的实施方式并不受上述方法的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种融合多模态数据特征的移动群智感知任务推荐方法，其特征在于，获取感知用户的多模态历史数据在不同粒度上的融合特征，对不同粒度的融合特征进行联合优化，通过计算新任务与历史任务之间的多模态相似度，进而为用户推荐新的任务。

2.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法，其特征在于，使用BERT编码器和Faster-RCNN分别提取文本信息特征和图像信息区域特征，借助自注意力机制对提取出的两种模态特征进行自注意，生成文本注意特征和图像注意特征。

3.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法，其特征在于，实现了交叉引导自注意力，使得到文本注意特征和图像注意特征相互引导进行语义对齐，得到文本引导注意特征和图像引导注意特征。

4.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法，其特征在于，通过跨模态层次融合，将感知用户的多模态历史数据在不同的粒度上的融合特征进行联合优化，得到历史数据的总融合特征，进而计算历史任务与新任务的任务相似度，并完成感知用户新任务的推荐。