CN114610911A

CN114610911A - 多模态知识本征表示学习方法、装置、设备及存储介质

Info

Publication number: CN114610911A
Application number: CN202210214990.3A
Authority: CN
Inventors: 刘鑫; 李春豹; 崔莹; 黄刘; 陈莹; 张海瀛
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-10
Anticipated expiration: 2042-03-04
Also published as: CN114610911B

Abstract

本发明公开了一种多模态知识本征表示学习方法、装置、设备及存储介质，该方法包括获取多模态知识样本，并对多模态知识样本进行知识增强；利用向量信息编码器处理知识增强样本，获得每个知识增强样本对应的特征向量；将特征向量投影到对比空间，获得特征向量对应的投影向量；基于任意两个投影向量的相似度，优化多模态知识表征学习模型；将多模态知识输入优化的多模态知识表征学习模型，以获得学习结果。本发明通过在多模态知识增强基础上，通过对比表示学习方式对多模态知识本征表示学习模型进行训练，促使模型学习到不同模态知识的最本质特征，实现了模态不同的相同知识之间的融合互补，能够得到多模态知识本质特征的鲁棒学习结果。

Description

多模态知识本征表示学习方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及到一种多模态知识本征表示学习方法、装置、设备及存储介质。

背景技术

随着数据红利的逐渐消耗殆尽，在人工智能领域未来发展过程中，知识的重要性愈发凸显，其将会改变传统的“见过才会”“见多识广”的机器学习/深度学习处理模式，只有引入了多类型的知识，当前基于深度学习框架的智能处理算法模型才能不受数据质量影响，具备良好的泛化性和鲁棒性。

然而，由于知识来源广泛，最常见的数据形态的知识也存在着文本、音频、图像、视频等多种模态，也就是说，即使是同一个知识，其在不同场景下也可能有音视图文等多种表现形式。目前，对于不同模态的知识，已经发展出了不同的知识表示方法，如谓词逻辑、概率模型、本体等等，但是这些针对单一模态知识的表示方法得到的同一个知识的特征表示结果是不同的，无法让多模态知识参与下游任务的统一计算，从而带来了多模态知识关联融合的困难。因此，如何实现基于多模态知识的本征表示学习，增强学习算法的鲁棒性和泛化性，是一个亟需解决的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种多模态知识本征表示学习方法、装置、设备及存储介质，旨在解决目前基于多模态知识的本征表示学习鲁棒性和泛化性不高的技术问题。

为实现上述目的，本发明提供一种多模态知识本征表示学习方法，所述方法包括以下步骤：

获取多模态知识样本，并对所述多模态知识样本进行知识增强处理，获得多个知识增强样本；

利用向量信息编码器处理所述知识增强样本，获得每个所述知识增强样本对应的特征向量；

将所述特征向量投影到对比空间，获得特征向量对应的投影向量；

基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型；

在接收到多模态知识时，将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果。

优选的，所述多模态知识样本包括文本知识、图像知识、音频知识和视频知识。

优选的，所述对所述多模态知识样本进行知识增强处理步骤，具体包括：

对所述文本知识，经过文本知识增强操作，获得增强后的文本知识；

对所述图像知识，经过图像知识增强操作，获得增强后的图像知识；

对所述音频知识，经过语音转写为文本知识，再经过文本知识增强操作，获得增强后的文本知识；

对于所述视频知识，经过音轨提取和关键帧提取，再将音轨经过文本知识增强操作以及将关键帧经过图像知识增强操作，获得增强后的文本知识和增强后的图像知识。

优选的，所述文本知识增强操作包括同义词替换、非核心词替换或回译中的一种或多种；所述图像知识增强操作包括旋转、缩放、随机噪声添加、对比度变化、剪裁中的一种或多种。

优选的，所述基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型步骤，具体包括：

在对比空间中采用余弦相似度计算任意两个投影向量的相似度，并根据所述相似度将知识增强样本划分为相似样本和不相似样本；

利用最小化噪声对比估计损失函数增大所述相似样本的相似度，降低不相似样本的相似度，以优化多模态知识表征学习模型。

优选的，所述余弦相似度计算任意两个投影向量的相似度的表达式为：

其中，S为任意两个投影向量的相似度，Z为特征向量投影到对比空间的投影向量。

优选的，所述噪声对比估计的表达式为：

其中，z_j为z_i的正例，z_k为z_i的负例，τ为温度超参，用于调节对负例的感知程度。

此外，为了实现上述目的，本发明还提供了一种多模态知识本征表示学习装置，所述多模态知识本征表示学习装置包括：

获取模块，用于获取多模态知识样本，并对所述多模态知识样本进行知识增强处理，获得多个知识增强样本；

处理模块，用于利用向量信息编码器处理所述知识增强样本，获得每个所述知识增强样本对应的特征向量；

投影模块，用于将所述特征向量投影到对比空间，获得特征向量对应的投影向量；

优化模块，用于基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型；

学习模块，用于在接收到多模态知识时，将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果

此外，为了实现上述目的，本发明还提供了一种多模态知识本征表示学习设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多模态知识本征表示学习程序，所述多模态知识本征表示学习程序被所述处理器执行时实现上述的多模态知识本征表示学习方法的步骤。

此外，为了实现上述目的，本发明还提供了一种存储介质，所述存储介质上存储有多模态知识本征表示学习程序，所述多模态知识本征表示学习程序被处理器执行时实现上述的多模态知识本征表示学习方法的步骤。

本发明实施例提出的一种多模态知识本征表示学习方法、装置、设备及存储介质，该方法包括获取多模态知识样本，并对多模态知识样本进行知识增强；利用向量信息编码器处理所述知识增强样本，获得每个所述知识增强样本对应的特征向量；将所述特征向量投影到对比空间，获得特征向量对应的投影向量；基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型；将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果。本发明通过在多模态知识增强基础上，通过对比表示学习方式对多模态知识本征表示学习模型进行训练，促使模型学习到不同模态知识的最本质特征，实现了模态不同的相同知识之间的融合互补，能够得到多模态知识本质特征的鲁棒学习结果。

附图说明

图1为本发明实施例中多模态知识本征表示学习设备的结构示意图；

图2为本发明实施例中多模态知识本征表示学习方法的流程示意图；

图3为本发明实施例中知识增强处理的示意图；

图4为本发明实施例中特征向量生成与投影的示意图；

图5为本发明实施例中多模态知识本征表示学习方法的原理示意图；

图6为本发明实施例中多模态知识本征表示学习装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了解决这一问题，提出本发明的多模态知识本征表示学习方法的各个实施例。本发明提供的多模态知识本征表示学习方法通过在多模态知识增强基础上，通过对比表示学习方式对多模态知识本征表示学习模型进行训练，促使模型学习到不同模态知识的最本质特征，实现了模态不同的相同知识之间的融合互补，能够得到多模态知识本质特征的鲁棒学习结果。

参照图1，图1为本发明实施例方案涉及的多模态知识本征表示学习设备的结构示意图。

设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。设备可能被称为用户终端、便携式终端、台式终端等。

通常，设备包括：至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的多模态知识本征表示学习程序，所述多模态知识本征表示学习程序配置为实现如前所述的多模态知识本征表示学习方法的步骤。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关多模态知识本征表示学习操作，使得多模态知识本征表示学习模型可以自主训练学习，提高效率和准确度。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的多模态知识本征表示学习方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信，从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near FieldCommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时，显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时，显示屏305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，电子设备的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在电子设备的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在电子设备的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对多模态知识本征表示学习设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例提供了一种多模态知识本征表示学习方法，参照图2，图2为本发明多模态知识本征表示学习方法的实施例的流程示意图。

本实施例中，所述多模态知识本征表示学习方法包括以下步骤：

步骤S100，获取多模态知识样本，并对所述多模态知识样本进行知识增强处理，获得多个知识增强样本。

容易理解的，在知识表征表示学习过程中，由于来源不同、存储管理方式不同、用于下游任务不同等多种原因，不论相同知识还是不同知识都有着较大差异的呈现形态，形成了文本知识、图像知识、音频知识、视频知识等多模态知识。由于模态特征的影响，导致单一模态知识表示学习得到的特征表示结果往往无法表征知识的本质特征，这导致了即使是内容一样的知识(例如文本描述的汽车和汽车的图像)，通过传统知识表示学习后得到的结果在特征空间仍有差异，无法参与后续统一的计算过程。

具体而言，如图3所示，在本实施例中，多模态知识样本包括文本知识、图像知识、音频知识和视频知识。基于此，在对不同模态的知识样本进行知识增强处理时，对应的知识增强操作可以为：

(1)对所述文本知识，经过文本知识增强操作，获得增强后的文本知识；

(2)对所述图像知识，经过图像知识增强操作，获得增强后的图像知识；

(3)对所述音频知识，经过语音转写为文本知识，再经过文本知识增强操作，获得增强后的文本知识；

(4)对于所述视频知识，经过音轨提取和关键帧提取，再将音轨经过文本知识增强操作以及将关键帧经过图像知识增强操作，获得增强后的文本知识和增强后的图像知识。

进一步的，在对文本知识进行文本知识增强操作时，可对文本知识执行包括同义词替换、非核心词替换或回译中的一种或多种操作。

进一步的，在对图像知识进行图像知识增强操作时，可对图像知识执行包括旋转、缩放、随机噪声添加、对比度变化、剪裁中的一种或多种操作。

在针对不同模态的知识(文本、音频、视频、图像等模态)，可采用多模态知识增强环境中提到的不同的知识增强方式，形成m个增强后的样本。

步骤S200，利用向量信息编码器处理所述知识增强样本，获得每个所述知识增强样本对应的特征向量。

具体而言，如图4所示，在本实施例中，将m个增强后的样本经过Transformer编码器得到m个样本知识的特征表示h₁，h₂，…，h_m。

步骤S300，将所述特征向量投影到对比空间，获得特征向量对应的投影向量。

具体而言，在本实施例中，将m个知识特征表示投影到对比空间得到投影向量z₁，z₂，…，z_m。

容易理解的，对于文本知识、图像知识、音频知识和视频知识的具体知识样本，经过多种随机知识增强操作，得到一系列扩充后的知识样本；进而在多模态知识增强基础上，通过对比表示学习方式对多模态知识本征表示学习模型进行训练，促使模型学习到不同模态知识的最本质特征；在此之后，将多模态知识本征表示学习模型输出的特征向量投影到对比空间进行相似度计算，用于后续优化多模态知识本征表示学习模型。

步骤S400，基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型。

具体而言，在获得所有特征向量在对比空间的投影向量后，可基于任意两个投影向量的相似度，优化学习模型。

容易理解的，在对比空间中采用余弦相似度计算任意两个投影向量的相似度，并根据所述相似度将知识增强样本划分为相似样本和不相似样本；利用最小化噪声对比估计损失函数增大所述相似样本的相似度，降低不相似样本的相似度，以优化多模态知识表征学习模型。

需要说明的是，余弦相似度计算任意两个投影向量的相似度的表达式为：

需要说明的是，噪声对比估计的表达式为：

在本实施例中，通过在对比空间中采用余弦相似度衡量任意两个投影向量的相似性，再通过最小化噪声对比估计(Noise Contrastive Estimation,NCE)损失函数来增大正例(相似样本)的相似度，降低负例(不相似样本)的相似度来对多模态知识表征学习模型进行优化。本发明中多模态知识对比表示学习的核心思想在于通过知识增强构造正样本(相似样本)和负样本(不相似样本)，将正负样本投影至特征表示空间，同时拉近正样本距离，推远负样本距离，从而促使模型忽略样本表层信息，学习到样本内在一致结构信息。

步骤S500，在接收到多模态知识时，将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果。

在获得优化后的多模态知识表征学习模型后，可将接收到的多模态知识输入模型，最终获得学习结果。

在本实施例中，如图5所示，提出了多模态知识的对比表示学习技术，通过对文本、音频、图像、视频等模态的知识实例样本进行对比，实现了模态不同的相同知识之间的融合互补，能够得到多模态知识本质特征的鲁棒学习结果。同时，在涉及音视图文等不同模态知识的增强操作时，以文本知识增强和图像知识增强为基础，将其他模态知识的内容经过简单的操作巧妙地转化为文本知识和图像知识，实现了文本和图像知识增强的推广与泛化。

参照图6，图6为本发明多模态知识本征表示学习装置实施例的结构框图。

如图6所示，本发明实施例提出的多模态知识本征表示学习装置包括：

获取模块10，用于获取多模态知识样本，并对所述多模态知识样本进行知识增强处理，获得多个知识增强样本；

处理模块20，用于利用向量信息编码器处理所述知识增强样本，获得每个所述知识增强样本对应的特征向量；

投影模块30，用于将所述特征向量投影到对比空间，获得特征向量对应的投影向量；

优化模块40，用于基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型；

学习模块50，用于在接收到多模态知识时，将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果。

本发明多模态知识本征表示学习装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有多模态知识本征表示学习程序，所述多模态知识本征表示学习程序被处理器执行时实现如上文所述的多模态知识本征表示学习方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种多模态知识本征表示学习方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的多模态知识本征表示学习方法，其特征在于，所述多模态知识样本包括文本知识、图像知识、音频知识和视频知识。

3.如权利要求2所述的多模态知识本征表示学习方法，其特征在于，所述对所述多模态知识样本进行知识增强处理步骤，具体包括：

4.如权利要求3所述的多模态知识本征表示学习方法，其特征在于，所述文本知识增强操作包括同义词替换、非核心词替换或回译中的一种或多种；所述图像知识增强操作包括旋转、缩放、随机噪声添加、对比度变化、剪裁中的一种或多种。

5.如权利要求1所述的多模态知识本征表示学习方法，其特征在于，所述基于任意两个所述投影向量的相似度，优化多模态知识表征学习模型，以获得优化的多模态知识表征学习模型步骤，具体包括：

6.如权利要求1所述的多模态知识本征表示学习方法，其特征在于，所述余弦相似度计算任意两个投影向量的相似度的表达式为：

7.如权利要求1所述的多模态知识本征表示学习方法，其特征在于，所述噪声对比估计的表达式为：

8.一种多模态知识本征表示学习装置，其特征在于，所述多模态知识本征表示学习装置包括：

学习模块，用于在接收到多模态知识时，将所述多模态知识输入所述优化的多模态知识表征学习模型，以获得学习结果。

9.一种多模态知识本征表示学习设备，其特征在于，所述多模态知识本征表示学习设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多模态知识本征表示学习程序，所述多模态知识本征表示学习程序被所述处理器执行时实现如权利要求1至7中任一项所述的多模态知识本征表示学习方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有多模态知识本征表示学习程序，所述多模态知识本征表示学习程序被处理器执行时实现如权利要求1至7中任一项所述的多模态知识本征表示学习方法的步骤。