CN116108147A

CN116108147A - 基于特征融合的跨模态检索方法、系统、终端及存储介质

Info

Publication number: CN116108147A
Application number: CN202310390669.5A
Authority: CN
Inventors: 孔欧
Original assignee: Beijing Midu Information Technology Co ltd
Current assignee: Beijing Midu Information Technology Co ltd
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-05-12

Abstract

本申请提供一种基于特征融合的跨模态信息检索方法、系统、终端及存储介质，包括以下步骤：输入跨模态数据信息；提取所述跨模态数据信息的语义特征和词汇特征；融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息；基于所述跨模态特征信息实现跨模态信息检索任务。本申请提供的基于特征融合的跨模态信息检索方法、系统、终端及存储介质强化了模态数据的特征表示，实现了音频模态与文本模态之间的跨模态信息检索；通过融合模态的语义特征向量和词汇特征向量来表征模态，提高了模态自身的语义信息的表示内容，提高了召回率。

Description

基于特征融合的跨模态检索方法、系统、终端及存储介质

技术领域

本申请属于数据处理技术领域，特别是涉及一种基于特征融合的跨模态检索方法、系统、终端及存储介质。

背景技术

现有的检索技术包括单模态检索和多模态检索。单模态检索要求查询词和检索集属于同一种模态类型，例如以文本检索文本，以图像检索图像等。多模态检索则是融合不同模态进行检索，通过利用不同模态的互补信息达到提高检索准确率的目的。随着移动设备、社交网络和自媒体平台的快速发展，近年来文本、图像、视频和音频等多媒体数据呈现爆炸式增长。面对如此巨大而相互关联的多媒体数据，用户迫切希望能够利用其中一种模态同时检索到与之相关的其他模态结果，即跨模态检索，例如通过查询“老虎”文本词汇，返回老虎的图像。

早期的跨模态检索研究通常是基于无监督的，没有考虑模态间的语义信息。而跨模态检索的关键正是建立不同模态之间的关联。因此，有必要从模态间语义类关联、模态共生关联、局部结构相似性关联等角度建立模态间多层次、多结构的关联，以实现跨模态检索任务。

发明内容

本申请的目的在于提供一种基于特征融合的跨模态检索方法、系统、终端及存储介质，用于解决现有技术中采用单模态自身的特征向量表征模态而导致的召回率低的技术问题。

第一方面，本申请提供一种基于特征融合的跨模态信息检索方法包括以下步骤：

输入跨模态数据信息；

提取所述跨模态数据信息的语义特征和词汇特征；

融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息；

基于所述跨模态特征信息实现跨模态信息检索任务。

本申请中，强化了模态数据的特征表示，实现了音频模态与文本模态之间的跨模态信息检索。

在第一方面的一种实现方式中，所述跨模态数据信息包括语音模态数据和文本模态数据。

在第一方面的一种实现方式中，提取所述跨模态数据信息的语义特征和词汇特征包括以下步骤：

在输入语音模态数据时，使用预训练语音模型获取所述语音模态数据的音频特征；

使用预训练词汇模型对所述音频特征进行处理，以获取所述语音模态数据的词汇特征。

在输入文本模态数据时，使用预训练语言模型获取所述文本模态数据的句子特征；

使用预训练词汇模型对所述句子特征进行处理，以获取所述文本模态数据的词汇特征。

在第一方面的一种实现方式中，融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息包括以下步骤：

融合所述语音模态数据的音频特征和所述语音模态数据的词汇特征，以生成语音模态特征信息；

融合所述文本模态数据的句子特征和所述文本模态数据的词汇特征，以生成文本模态特征信息。

计算所述跨模态数据信息的语义特征和词汇特征的均值；

将所述均值作为所述跨模态特征信息。

本实现方式中，通过融合模态的语义特征向量和词汇特征向量来表征模态，提高了模态自身的语义信息的表示内容，提高了召回率。

在第一方面的一种实现方式中，基于所述跨模态特征信息实现跨模态信息检索任务包括以下步骤：

计算所述语音模态特征信息和所述文本模态特征信息的余弦相似度；

基于所述余弦相似度实现跨模态信息检索任务。

第二方面，本申请提供一种基于特征融合的跨模态信息检索系统，包括：

输入模块，用于输入跨模态数据信息；

提取模块，用于提取所述跨模态数据信息的语义特征和词汇特征；

融合模块，用于融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息；

检索模块，用于基于所述跨模态特征信息实现跨模态信息检索任务。

第三方面，本申请提供一种基于特征融合的跨模态信息检索终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述基于特征融合的跨模态信息检索终端执行上述任一项基于特征融合的跨模态信息检索方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于特征融合的跨模态信息检索方法。

如上所述，本申请所述的基于特征融合的跨模态检索方法、系统、终端及存储介质，具有以下有益效果。

（1）强化了模态数据的特征表示，实现了音频模态与文本模态之间的跨模态信息检索。

（2）通过融合模态的语义特征向量和词汇特征向量来表征模态，提高了模态自身的语义信息的表示内容，提高了召回率。

附图说明

图1显示为本申请实施例所述的基于特征融合的跨模态信息检索方法的流程图。

图2显示为本申请实施例所述的基于特征融合的跨模态信息检索系统的结构示意图。

图3显示为本申请实施例所述的基于特征融合的跨模态信息检索系统的又一结构示意图。

图4显示为本申请实施例所述的基于特征融合的跨模态信息检索终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本申请以下实施例提供了一种基于特征融合的跨模态检索方法，其可应用于如图4所示的终端。本申请中所述终端可以包括具备无线充电功能的手机、平板电脑、笔记本电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(VirtualReality，VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等，本申请实施例对终端的具体类型不作任何限制。

例如，所述终端可以是具备无线充电功能的WLAN中的站点(STAION，ST)，可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理 (PersonalDigital Assistant，PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G 网络中的移动终端、未来演进的公共陆地移动网络 (PublicLand Mobile Network，PLMN)中的移动终端或者未来演进的非地面网络（Non-terrestrial Network，NTN）中的移动终端等。

例如，所述终端可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统 (GlobalSystem of Mobilecommunication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址 (Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)、BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System，GPS)，全球导航卫星系统 (GlobalNavigation Satellite System，GLONASS)，北斗卫星导航系统(BeiDou navigationSatellite System，BDS)，准天顶卫星系统(Quasi-Zenith Satellite System，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。以下将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

如图1所示，本实施例提供一种基于特征融合的跨模态信息检索方法，包括以下步骤。

S1、输入跨模态数据信息。

于一实施例中，所述跨模态数据信息包括语音模态数据和文本模态数据。

文本模态数据记录了人类的自然语言，对于人类而言可以正常地被理解，但是计算机却不能够直接理解这种形式的信息内容。通过文字特征向量提取，文本模态数据能够按照计算机可以理解的形式进行表示，且提取的文字特征向量能够完整地包含文本模态数据中的原始信息。语音模态数据中包含能反映说话者情感的语音特征，例如说话频率、强度、语速和清晰度等方面。类似于从文本模态数据中提取文字特征向量，从语音模态数据中提取的是语音特征向量。本申请实施例中的文本模态数据来自于通用语料库，语音模态数据来自于通用语音库，在此本实施例对所述语料库和语音库中保存的模态数据内容及格式不作限定。

S2、提取所述跨模态数据信息的语义特征和词汇特征。

于一实施例中，提取所述跨模态数据信息的语义特征和词汇特征包括以下步骤。

S211、在输入语音模态数据时，使用预训练语音模型获取所述语音模态数据的音频特征。

具体地，所述预训练语音模型包括滤波器组（Filter Bank，FBank）、卷积神经网络（Convolutional Neural Network，CNN）和自注意力层（Self Attention layer）。

本实施例中FBank的输入为wave格式的所述语音模态数据，输出为[N, 80]的特征矩阵A，N为自然数。所述FBank使用类似于人耳的方式对所述语音模态数据进行处理，能够从语音模态数据中提取代表性强、区分度高、能够反映其中本质内容的语音特征，一定程度上减少了人工设计特征带来的信息损失，能够更充分地发挥CNN的特征提取能力。

接着将特征矩阵A作为CNN的输入，以进一步从特征矩阵A中学习知识，并提取特征。本实施例中采用的是一维卷积神经网络（1D CNN），其输入为特征矩阵A，输出为[M,256]的特征矩阵B，M为自然数，且M<N。

特征矩阵B继续作为Self Attention层的输入，输出为[M+1, 768]的特征矩阵C；接着对所述特征矩阵C进行归一化，或者取所述特征矩阵C的第一行特征值，得到[1, 768]的768个特征值，将所述768个特征值作为所述音频特征。为了提升预训练语音模型的特征抽取能力，本实施例将Self Attention设置为6层，使其能够有效发现音频模态数据中相互关联的语义特征，提高模型处理效率。

S212、使用预训练词汇模型对所述音频特征进行处理，以获取所述语音模态数据的词汇特征。

具体地，所述预训练词汇模型包括连接时序分类（Connectionist TemporalClassification，CTC）解码模块、Jieba分词模块、全连接层（Fully Connected layers，FC）。

本实施例中CTC解码模块使用最优路径方法将所述[1, 768]的音频特征转化成文本序列E；Jieba分词模块对所述文本序列E进行分词，以获取P个中文词汇集（即P个文字特征向量）；全连接层对所述P个文字特征向量进行求均值运算，最终输出与所述P个文字特征向量对应的768个特征值。需要说明的是，所述预训练词汇模型的输出数据维度和输入数据维度一致。

S221、在输入文本模态数据时，使用预训练语言模型获取所述文本模态数据的句子特征。

具体地，采用BERT模型作为本申请实施例中的预训练语言模型。BERT模型是一种建立在神经网络上的语言处理模型，相较于其他预训练语言模型，BERT模型更加注重识别句子中单词与单词之间的关系或者句子与句子之间的关系。本实施例中BERT模型的输入为所述文本模态数据，输出为[M+1, 768]的文字特征矩阵，M为自然数；对所述文字特征矩阵进行归一化，或者取所述文字特征矩阵的第一行特征值，得到[1,768]的768个文字特征值，将所述768个文字特征值作为所述句子特征。

S222、使用预训练词汇模型对所述句子特征进行处理，以获取所述文本模态数据的词汇特征。

本实施例中，所述预训练词汇模型与上述S212中的预训练词汇模型的数据处理过程相同，此处不再赘述。

S3、融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息。

于一实施例中，融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息包括以下步骤。

S31、融合所述语音模态数据的音频特征和所述语音模态数据的词汇特征，以生成语音模态特征信息。

S32、融合所述文本模态数据的句子特征和所述文本模态数据的词汇特征，以生成文本模态特征信息。

于另一实施例中，融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息包括以下步骤。

计算所述跨模态数据信息的语义特征和词汇特征的均值；将所述均值作为所述跨模态特征信息。

具体地，计算所述语音模态数据的音频特征和所述语音模态数据的词汇特征的均值，将所述均值作为语音模态特征信息；计算所述文本模态数据的句子特征和所述文本模态数据的词汇特征的均值，将所述均值作为文本模态特征信息。

S4、基于所述跨模态特征信息实现跨模态信息检索任务。

于一实施例中，基于所述跨模态特征信息实现跨模态信息检索任务包括以下步骤。

计算所述语音模态特征信息和所述文本模态特征信息的余弦相似度；基于所述余弦相似度实现跨模态信息检索任务。

具体地，采用余弦相似度度量所述语音模态特征信息和文本模态特征信息之间的距离，若余弦相似度数值越大，则说明语音模态数据和文本模态数据之间的检索结果越相似。

本申请实施例所述的基于特征融合的跨模态信息检索方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

如图2和图3所示，本实施例提供一种基于特征融合的跨模态信息检索系统，包括：输入模块1、提取模块2、融合模块3和检索模块4。

所述输入模块1用于输入跨模态数据信息。

所述提取模块2用于提取所述跨模态数据信息的语义特征和词汇特征。

所述融合模块3用于融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息。

所述检索模块4用于基于所述跨模态特征信息实现跨模态信息检索任务。

需要说明的是，所述输入模块1、提取模块2、融合模块3和检索模块4的结构和原理与上述基于特征融合的跨模态信息检索方法中的步骤一一对应，故在此不再赘述。

本申请实施例提供的基于特征融合的跨模态信息检索系统可以实现本申请所述的基于特征融合的跨模态信息检索方法，但本申请所述的基于特征融合的跨模态信息检索方法的实现装置包括但不限于本实施例列举的基于特征融合的跨模态信息检索系统的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

如图4所示，本实施例提供一种基于特征融合的跨模态信息检索终端，包括：处理器51及存储器52。

所述存储器52用于存储计算机程序。

所述处理器51用于执行所述存储器存储的计算机程序，以使所述跨模态敏感信息识别终端执行上述基于特征融合的跨模态信息检索方法。

优选地，所述处理器51可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于特征融合的跨模态信息检索方法。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetic tape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

综上所述，本申请提供的基于特征融合的跨模态信息检索方法、系统、终端及存储介质强化了模态数据的特征表示，实现了音频模态与文本模态之间的跨模态信息检索；通过融合模态的语义特征向量和词汇特征向量来表征模态，提高了模态自身的语义信息的表示内容，提高了召回率。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于特征融合的跨模态信息检索方法，其特征在于，包括以下步骤：

输入跨模态数据信息；

提取所述跨模态数据信息的语义特征和词汇特征；

基于所述跨模态特征信息实现跨模态信息检索任务。

2.根据权利要求1所述的基于特征融合的跨模态信息检索方法，其特征在于，所述跨模态数据信息包括语音模态数据和文本模态数据。

3.根据权利要求2所述的基于特征融合的跨模态信息检索方法，其特征在于，提取所述跨模态数据信息的语义特征和词汇特征包括以下步骤：

4.根据权利要求2所述的基于特征融合的跨模态信息检索方法，其特征在于，提取所述跨模态数据信息的语义特征和词汇特征包括以下步骤：

5.根据权利要求2所述的基于特征融合的跨模态信息检索方法，其特征在于，融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息包括以下步骤：

6.根据权利要求1所述的基于特征融合的跨模态信息检索方法，其特征在于，融合所述跨模态数据信息的语义特征和词汇特征，以生成跨模态特征信息包括以下步骤：

计算所述跨模态数据信息的语义特征和词汇特征的均值；

将所述均值作为所述跨模态特征信息。

7.根据权利要求5所述的基于特征融合的跨模态信息检索方法，其特征在于，基于所述跨模态特征信息实现跨模态信息检索任务包括以下步骤：

基于所述余弦相似度实现跨模态信息检索任务。

8.一种基于特征融合的跨模态信息检索系统，其特征在于，包括：

输入模块，用于输入跨模态数据信息；

9.一种基于特征融合的跨模态信息检索终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述基于特征融合的跨模态信息检索终端执行权利要求1至7中任一项所述的基于特征融合的跨模态信息检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的基于特征融合的跨模态信息检索方法。