CN116628258A

CN116628258A - 特征提取与跨模态匹配检索方法、装置、设备及介质

Info

Publication number: CN116628258A
Application number: CN202310373167.1A
Authority: CN
Inventors: 林凯; 沈涛
Original assignee: Shenzhen Hengyang Data Co ltd
Current assignee: Shenzhen Hengyang Data Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-08-22

Abstract

本发明涉及到跨模态匹配检索领域，具体而言，涉及到一种特征提取与跨模态匹配检索方法、装置、设备及介质。本发明公开了一种特征提取与跨模态匹配检索方法，对文本进行主题词抽取和句法分析，可以准确剖析文本真实的搜索意图，然后对文本构建语义图来捕捉全局和局部的文本语义信息，利用注意力机制的图推理方法来捕捉全局特征和局部特征的交互信息，使得全局和局部信息相互补充，提高文本‑视频检索的准确率，再采用注意力机制的文本‑视频层次特征进行跨模态对齐匹配，使得全局信息和局部信息得到充分匹配，从而可以实现文本‑视频检索中的跨模态细粒度搜索，可以实现包含数量、动作、状态和场景的细粒度文本来检索对应的视频。

Description

特征提取与跨模态匹配检索方法、装置、设备及介质

技术领域

本发明涉及到跨模态匹配检索领域，具体而言，涉及到一种特征提取与跨模态匹配检索方法、装置、设备及介质。

背景技术

跨模态检索是指用一种模态信息全方位获取该对象其他模态的信息，同时处理不同模态的数据，寻找它们的内在关联并完成相似性的度量。具体而言是指利用其中一种数据模态作为查询对象来检索具有相似语义的另一种数据模态的内容，跨模态检索技术能有效满足人们对信息检索方式多样化的需要，更为方便的为用户提供服务。

但是随着互联网和移动终端的快速发展，文本、图像和视频等多模态数据爆炸式增长；而多模态数据的剧增，使得单一模态的信息检索无法满足用户日益变化的多维度检索需求。因此，文本、图像和视频之间的跨模态检索功能显得越发重要。当前，以文搜图或以文搜视频主要采用关键词文本来匹配图像(或者视频)的标签、标题及简介等文本字段；其次，对于文本-图像跨模态的检索还有尝试使用文本-图像的联合视觉语义编码空间，分别提取文本和图像在联合编码空间的各自特征向量，并计算向量距离来进行相似度匹配。虽然，以上方法可以实现跨模态之间的检索，但是也存在一定的不足：(1)、采用文本关键词和标签进行匹配，需要为所有图像和视频提前人工打上对应的标签，这样需要耗费大量的人力和物力；(2)、同时，对于标签、标题较短或者语义与图像(视频)内容本身差异较大的情况下，导致检索精度较差；(3)、对于利用一个联合视觉语义编码空间来度量跨模态相似性，然而，使用单一全局特征编码不足以表示复杂的视觉和文本细节，如场景、物体、动作及其组成，导致细粒度的跨模态检索精度不高。

发明内容

本发明的主要目的为提供一种特征提取与跨模态匹配检索方法、装置、设备及介质，旨在解决针对关键词文本匹配无法准确实现跨模态检索、单一跨模态特征编码无法较好实现细粒度的检索的技术问题。

本发明公开了以下技术方案：

一种特征提取与跨模态匹配检索方法，包括：

获取跨模态数据集，所述数据集包括文本数据和视频数据；

提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征；

基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co；

通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo；

将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度；

基于每对跨模态数据之间的相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练。

进一步地，所述提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征的步骤，包括：

基于主题词提取模型和句法分析工具spaCy提取所述文本数据的主要成分；

根据所述主要成分，提取不同层次的语义角色短语；

根据所述语义角色短语构建语义拓扑图；

根据所述语义拓扑图提取所述文本数据的文本全局事件特征和文本局部特征。

进一步地，所述根据所述语义角色短语构建语义拓扑图之后的步骤，包括：

所述文本数据包括短语，将所述短语输入到一个预训练的BERT语言编码模型，取其最后一层的768维的隐含层来表示整个短语的信息；

将所有节点的特征编码向量进行求解，得到全局节点编码向量、行为节点编码向量和主体节点编码向量。

进一步地，所述基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co的步骤，包括：

基于GCN网络对语义图进行推理求解；

将所述GCN网络中多关联权重分解为两部分，其中，所述两部分包括共有的公共转换矩阵和不同语义角色的嵌入矩阵；

所述公共转换矩阵设为Wt∈R^D*D,所述不同语义角色的嵌入矩阵设为Wr∈R^D*K,其中，D为节点向量的维数，K为语义角色的个数，R为矩阵；

对于所述GCN网络第一层的输入，将节点嵌入向量gi与其对应的语义角色相乘，其中，gi为节点i在GCN第l层的输出表示；

利用所述注意力的图推理从相邻节点中选择相关上下文来增强每个节点的表示；

根据所述公共转换矩阵Wt，将上下文从相关节点转换到具有残差连接的节点i；

将最终的层次文本表示为在所述GCN网络的第L层的输出，得到所述文本全局节点Ce、所述文本行为节点Ca和所述文本主体节点Co。

进一步地，所述通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo的步骤，包括：

将所述视频数据进行采样抽帧；

利用三个不同变换矩阵编码所述视频数据的三个层次的特征；

所述视频全局事件特征Ve的每帧计算使用注意力机制；

所述视频行为特征Va和所述视频主体特征Vo的每帧计算分别由抽取的每帧层次特征组合而成。

进一步地，所述将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度的步骤，包括：

计算所述文本全局节点Ce和所述视频全局事件特征Ve进行全局匹配；

计算每一对所述跨模态数据集之间的相似度；

将计算得到的所述相似度向量进行归一化；

计算不同层次局部匹配对齐得分；

将所述对齐得分进行融合，得到所述文本数据和所述视频数据最终的匹配得分。

进一步地，所述基于每对跨模态数据之间的总相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练的步骤，包括：

根据所述每对跨模态数据之间的总相似度筛选出对正样本集(v⁺，c⁺)，相应负样本集(v^-，c⁺)和(v⁺，c^-)；

将所述正样本集和所述负样本集代入所述损失函数计算，公式如下：

L(v⁺,c⁺)＝[Δ+s(v⁺,c^-)-s(v⁺,c⁺)]₊+[Δ+s(v^-,c⁺)-s(v⁺,c⁺)]₊

其中，Δ为预设值，s(v⁺,c⁺)为正样本集匹配得分，s(v⁺,c^-)和s(v^-,c⁺)为负样本集匹配得分；

优化所述损失函数，对整个文本-视频检索模型架构中参数进行训练。

本发明还提出一种特征提取与跨模态匹配检索装置，包括：

获取模块，用于获取跨模态数据集，所述数据集包括文本数据和视频数据；

第一提取模块，用于提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征；

节点获取模块，用于基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co；

第二提取模块，用于通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo；

对齐匹配模块，用于将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度；

优化模块，用于基于每对跨模态数据之间的相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练。

本发明还提出一种计算机设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

有益效果：本发明公开了一种特征提取与跨模态匹配检索方法，通过对文本进行主题词抽取和句法分析，可以准确剖析文本真实的搜索意图，然后对文本构建语义图来捕捉全局和局部的文本语义信息，利用注意力机制的图推理方法来捕捉全局特征和局部特征的交互信息，使得全局和局部信息相互补充，提高文本-视频检索的准确率，再采用注意力机制的文本-视频层次特征进行跨模态对齐匹配，使得全局信息和局部信息得到充分匹配，可以进一步提高文本-视频跨模态的检索精度，从而可以实现文本-视频检索中的跨模态细粒度搜索，可以实现包含数量、动作、状态和场景的细粒度文本来检索对应的视频。

附图说明

图1是本发明一实施例中一种特征提取与跨模态匹配检索方法步骤示意图；

图2是本发明一实施例的一种特征提取与跨模态匹配检索装置的结构示意框图；

图3是本发明一实施例的计算机设备的结构示意框图；

图4是本发明另一实施例中一种特征提取与跨模态匹配检索方法示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

参照图1和图4，本发明实施例提供一种特征提取与跨模态匹配检索方法，包括以下步骤S1-S6：

S1:获取跨模态数据集，所述数据集包括文本数据和视频数据；

在步骤S1中，模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据，也可能需要其他模态的数据来丰富我们对同一事物或事件的认知，此时就需要跨模态检索来实现不同模态数据之间的检索，在本实施例中的跨模态数据集包括文本数据和视频数据，文本数据包括短语和句子，视频数据包括视频。

S2:提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征；

在步骤S2中，对中文句子利用主题词提取模型和句法分析工具spaCy来提取句子的主要成分，从而获取句子的多层次语义角色，然后进一步提取不同层次的语义角色短语。例如对句子“一架飞机停在停机坪”第一层次语义角色为全局事件特征，即由整个句子表示；第二层次语义角色为行为特征，即由句子中的所有动词组成，例如：“停在”；第三层次语义角色为主体特征，即由句子中的名词和量词短语组成，例如：“一架”、“停机坪”和“飞机”。此步骤分析可以得到不同层次语义角色短语集合，例如：全局事件特征集合为{“一架停在停机坪的飞机”}、行为特征短语集合为{“停在”}、主体特征短语集合为{“一架”，“停机坪”，“飞机”}。由此从文本数据中提取相应的文本全局事件特征和文本局部特征。

S3:基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co；

在步骤S3中，根据步骤S2得到的不同层次语义角色短语集合，来生成文本多层次语义编码特征,首先由步骤S2得到的不同层次语义角色，来构建语义拓扑图。第一层次语义角色记为全局节点，全局节点与行为节点直接相连，行为节点与主体节点按照具体的语义关系进行连接，主体节点之间根据具体的语义修饰关系进行连接，最终全局节点、行为节点和主体节点可以形成整体到局部的语义图结构；语义图构建完成后，需要对每个节点求解特征编码。由于每个节点是句子或短语，可以将句子或短语输入到一个预训练的BERT语言编码模型，取其最后一层的768维的隐含层来表示整个短语的信息，最后可以求解所有节点的特征编码向量，全局节点编码向量记为g_e，行为节点编码向量记为g_a＝{g_a,1,...,g_a,N_a}和主体节点编码向量记为g_o＝{g_o,1,...,g_o,N_o}，其中N_a和N_o分别为行为节点和主体节点的数量。

进一步地，利用GCN网络来对语义图进行推理求解，但是为了解决GCN网络中参数过多的问题，将GCN中多关联权重分解两部分：对所有关系类型，共有的公共转换矩阵设为Wt∈R^D*D，对于不同语义角色的嵌入矩阵记为Wr∈R^D*K，其中D为节点向量的维数，K为语义角色的个数；

对于GCN第一层的输入，将节点嵌入向量g_i∈{g_e,g_a,g_o}与其对应的语义角色相乘：

其中，为节点i在GCN网络中第0层的输出表示，r_ij是一个one-hot编码向量，表示节点i和节点j的语义关系类型，中间的符号为矩阵中点乘符号，W_r为不同语义角色的嵌入矩阵。

假设是节点i在GCN第l层的输出表示，利用注意力图网络从相邻节点中选择相关上下文来增强每个节点的表示为：

其中，β_ij为增强每个节点的权重表示，为增强每个节点的表示的预估值，N_i表示节点i的领域节点集合，/>和/>是注意力图网络的参数，exp()表示以自然常数e为底的指数函数。

然后，利用公共转换矩阵Wt，将上下文从相关节点转换到具有残差连接的节点i的公式为：

其中是节点i在GCN第l+1层的输出表示，g_i ^l是节点i在GCN第l层的输出表示，β_ij为增强每个节点的权重，N_i表示节点i的领域节点集合；

结合上面的公式，以GCN第一层为例，计算结果如下：

最终的层次文本表示为GCN第L层的输出，全局节点最终表示记为Ce，行为节点最终表示记为Ca，主体节点编码向量记为Co。

S4:通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo；

在步骤S4中，首先对视频进行降采样抽帧处理得到M帧，记为{f1,…,fM}；为了获取与文本相应的三个层次特征，利用三个不同变换矩阵来编码视频的三个层次的特征，记为

该三个变换矩阵通过基于Adam优化算法训练学习得到，视频每帧的三个层次编码计算方式如下：

其中，x∈{e,a,o}，为变换矩阵，f_i为视频降采样抽帧的第i帧；

进一步地，视频对应的全局事件特征v_e，使用注意力机制来进行计算：

其中，W_e参数通过学习得到，α_e,i为增强每个节点的权重表示，N_i表示节点i的领域节点集合，exp()表示以自然常数e为底的指数函数。

进一步地，视频的行为特征v_a和主体特征v_o，分别由抽取的每帧层次特征组合而成，公式为：

v_a＝{v_a,1,...,v_a,M}

v_o＝{v_o,1,...,v_o,M}

S5:将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度。

在步骤S5中，首先进行全局匹配，直接由文本和视频的全局特征向量计算得到，计算如下：

s_e＝cos(v_e,c_e)，其中s_e为全局特征向量，v_e为视频全局特征向量，c_e为文本全局特征向量；

然后进行局部匹配，即包括文本行为节点和文本主体节点，主要计算步骤如下：

计算每一对跨模态之间的相似度，公式为：

其中，v_x,j为视频层次x中节点j的特征向量；c_x,i为文本层次x中节点i的特征向量；

对步骤上述中得到的向量进行归一化，如下：

其中[·]₊＝max(·,0)，[·]₊为代表一个自然数的值，若此自然数为负数则为0；

进一步地，计算不同层次局部匹配对齐得分，公式为：

s_x＝Σ_is_x,i

最后对三个层次的对齐得分进行融合，可以得到文本和视频最终的匹配得分，公式为：

s(v,c)＝(s_e+s_a+s_o)/3。

S6:基于每对跨模态数据之间的相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练。

在步骤S6中，整个跨模态文本-视频细粒度检索计算中有相关参数需要训练得到，因此，需要定义该模型的损失函数来训练样本集，对于每对正样本集(v+,c+)，相应负样本集(v-,c+)和(v+,c-)的损失函数计算如下：

在以上S1-S6的步骤中，通过对文本进行主题词抽取和句法分析，可以准确剖析文本真实的搜索意图，然后对文本构建语义图来捕捉全局和局部的文本语义信息，利用注意力机制的图推理方法来捕捉全局特征和局部特征的交互信息，使得全局和局部信息相互补充，提高文本-视频检索的准确率，再采用注意力机制的文本-视频层次特征进行跨模态对齐匹配，使得全局信息和局部信息得到充分匹配，可以进一步提高文本-视频跨模态的检索精度，从而可以实现文本-视频检索中的跨模态细粒度搜索，可以实现包含数量、动作、状态和场景的细粒度文本来检索对应的视频。

在一个实施例中，所述提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征的步骤，包括：

根据所述主要成分，提取不同层次的语义角色短语；

根据所述语义角色短语构建语义拓扑图；

在本实施例中，spaCy是Python和Cython中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。spaCy为一个句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合，利用主题词提取模型和句法分析工具spaCy提取所述文本数据的主要成分，从而获取句子的多层次语义角色，然后进一步提取不同层次的语义角色短语。例如对句子“一架飞机停在停机坪”第一层次语义角色为全局事件特征，即由整个句子表示；第二层次语义角色为行为特征，即由句子中的所有动词组成，例如：“停在”；第三层次语义角色为主体特征，即由句子中的名词和量词短语组成，例如：“一架”、“停机坪”和“飞机”。此步骤分析可以得到不同层次语义角色短语集合，例如：全局事件特征集合为{“一架停在停机坪的飞机”}、行为特征短语集合为{“停在”}、主体特征短语集合为{“一架”，“停机坪”，“飞机”}。由此从文本数据中提取相应的文本全局事件特征和文本局部特征。

在一个实施例中，所述根据所述语义角色短语构建语义拓扑图之后的步骤，包括：

在本实施例中，BERT(Bidirectional Encoder Representations fromTransformers)是一个语言表示模型(language representationmodel)；对于文本数据所对应的短语或句子，使用Bert提取每个短语或句子的特征作为局部特征，特征维度为768，最终得到具有描述文本短语或句子长度的768维特征向量集合，以此作为文本数据的序列特征集合。最后可以求解所有节点的特征编码向量，全局节点编码向量记为g_e，行为节点编码向量记为g_a＝{g_a,1,...,g_a,N_a}和主体节点编码向量记为g_o＝{g_o,1,...,g_o,N_o}，其中N_a和N_o分别为行为节点和主体节点的数量。

在一个实施例中，所述基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co的步骤，包括：

基于GCN网络对语义图进行推理求解；

在本实施例中，GCN是一类非常强大的用于图数据的神经网络架构。利用GCN网络来对语义图进行推理求解，但是为了解决GCN网络中参数过多的问题，将GCN中多关联权重分解两部分：对所有关系类型，共有的公共转换矩阵设为Wt∈R^D*D，对于不同语义角色的嵌入矩阵记为Wr∈R^D*K，其中D为节点向量的维数，K为语义角色的个数；

其中是节点i在GCN第l+1层的输出表示，/>是节点i在GCN第l层的输出表示，β_ij为增强每个节点的权重表示，N_i表示节点i的领域节点集合；

结合上面的公式，以GCN第一层为例，计算结果如下：

在一个实施例中，所述通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo的步骤，包括：

将所述视频数据进行采样抽帧；

所述视频全局事件特征Ve的每帧计算使用注意力机制；

在本实施例中，首先对视频进行降采样抽帧处理得到M帧，记为{f1,…,fM}；为了获取与文本相应的三个层次特征，利用三个不同变换矩阵来编码视频的三个层次的特征，记为，

v_a＝{v_a,1,...,v_a,M}

v_o＝{v_o,1,...,v_o,M}

在一实施例中，所述将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度的步骤，包括：

计算每一对所述跨模态数据集之间的相似度；

将计算得到的所述相似度向量进行归一化；

计算不同层次局部匹配对齐得分；

在本实施例中，首先进行全局匹配，直接由文本和视频的全局特征向量计算得到，计算如下：

计算每一对跨模态之间的相似度，公式为：

对步骤上述中得到的向量进行归一化，如下：

进一步地，计算不同层次局部匹配对齐得分，公式为：

s_x＝Σ_is_x,i

s(v,c)＝(s_e+s_a+s_o)/3。

在一实施例中，所述基于每对跨模态数据之间的总相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练的步骤，包括：

在本实施例中，整个跨模态文本-视频细粒度检索计算中有相关参数需要训练得到，因此，需要定义该模型的损失函数来训练样本集，对于每对正样本集(v+,c+)，相应负样本集(v-,c+)和(v+,c-)的损失函数计算如下：

参照图2，本申请还提供一种特征提取与跨模态匹配检索装置，包括：

获取模块100，用于获取跨模态数据集，所述数据集包括文本数据和视频数据；

第一提取模块200，用于提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征；

节点获取模块300，用于基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co；

第二提取模块400，用于通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo；

对齐匹配模块500，用于将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度；

优化模块600，用于基于每对跨模态数据之间的相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练。

在本实施例中，通过第一提取模块200对文本进行主题词抽取和句法分析，可以准确剖析文本真实的搜索意图，然后通过和节点获取模块300对文本构建语义图来捕捉全局和局部的文本语义信息，加上第二提取模块400利用注意力机制的图推理方法来捕捉全局特征和局部特征的交互信息，使得全局和局部信息相互补充，提高文本-视频检索的准确率，再采用对齐匹配模块500注意力机制的文本-视频层次特征进行跨模态对齐匹配，使得全局信息和局部信息得到充分匹配，最后通过优化模块600优化函数值，可以进一步提高文本-视频跨模态的检索精度，从而可以实现文本-视频检索中的跨模态细粒度搜索，可以实现包含数量、动作、状态和场景的细粒度文本来检索对应的视频。

进一步地，第一提取模块200，还包括：

第一提取单元，用于基于主题词提取模型和句法分析工具Spacy提取所述文本数据的主要成分；

第二提取单元，用于根据所述主要成分，提取不同层次的语义角色短语；

构建单元，用于根据所述语义角色短语构建语义拓扑图；

第三提取单元，用于根据所述语义拓扑图提取所述文本数据的文本全局事件特征和文本局部特征。

进一步地，构建单元，还包括：

标识单元，用于所述文本数据包括短语，将所述短语输入到一个预训练的BERT语言编码模型，取其最后一层的768维的隐含层来表示整个短语的信息；

第一得到单元，用于将所有节点的特征编码向量进行求解，得到全局节点编码向量、行为节点编码向量和主体节点编码向量。

进一步地，节点获取模块300，还包括：

推理单元，用于基于GCN网络对语义图进行推理求解；

分解单元，用于将所述GCN网络中多关联权重分解为两部分，其中，所述两部分包括共有的公共转换矩阵和不同语义角色的嵌入矩阵；

设定单元，用于所述公共转换矩阵设为Wt∈R^D*D,所述不同语义角色的嵌入矩阵设为Wr∈R^D*K,其中，D为节点向量的维数，K为语义角色的个数，R为矩阵；

嵌入单元，用于对于所述GCN网络第一层的输入，将节点嵌入向量gi与其对应的语义角色相乘，其中，gi为节点i在GCN第l层的输出表示；

增强单元，用于利用所述注意力的图推理从相邻节点中选择相关上下文来增强每个节点的表示；

转换单元，用于根据所述公共转换矩阵Wt，将上下文从相关节点转换到具有残差连接的节点i；

第二得到单元，用于将最终的层次文本表示为在所述GCN网络的第L层的输出，得到所述文本全局节点Ce、所述文本行为节点Ca和所述文本主体节点Co。

进一步地，第二提权模块400，还包括：

采样单元，用于将所述视频数据进行采样抽帧；

编码单元，用于利用三个不同变换矩阵编码所述视频数据的三个层次的特征；

第一计算单元，用于所述视频全局事件特征Ve的每帧计算使用注意力机制；

第二计算单元，用于所述视频行为特征Va和所述视频主体特征Vo的每帧计算分别由抽取的每帧层次特征组合而成。

进一步地，对齐匹配500，还包括：

第三计算单元，用于计算所述文本全局节点Ce和所述视频全局事件特征Ve进行全局匹配；

第四计算单元，用于计算每一对所述跨模态数据集之间的相似度；

归一化单元，用于将计算得到的所述相似度向量进行归一化；

第五计算单元，用于计算不同层次局部匹配对齐得分；

融合单元，用于将所述对齐得分进行融合，得到所述文本数据和所述视频数据最终的匹配得分。

进一步地，优化模块600，包括

筛选单元，用于根据所述每对跨模态数据之间的总相似度筛选出对正样本集(v⁺，c⁺)，相应负样本集(v^-，c⁺)和(v⁺，c^-)；

第六计算单元，用于将所述正样本集和所述负样本集代入所述损失函数计算，公式如下：

优化单元，用于优化所述损失函数，对整个文本-视频检索模型架构中参数进行训练。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于特征提取与跨模态匹配检索方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征提取与跨模态匹配检索方法。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种特征提取与跨模态匹配检索方法，包括步骤：获取跨模态数据集，所述数据集包括文本数据和视频数据；提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征；基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co；通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo；将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度；基于每对跨模态数据之间的相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征提取与跨模态匹配检索方法，其特征在于，所述方法包括：

获取跨模态数据集，所述数据集包括文本数据和视频数据；

2.根据权利要求1所述的特征提取与跨模态匹配检索方法，其特征在于，所述提取所述文本数据的文本全局事件特征和文本局部特征，其中，所述文本局部特征包括文本行为特征和文本主体特征的步骤，包括：

根据所述主要成分，提取不同层次的语义角色短语；

根据所述语义角色短语构建语义拓扑图；

3.根据权利要求2所述的特征提取与跨模态匹配检索方法，其特征在于，所述根据所述语义角色短语构建语义拓扑图之后的步骤，包括：

4.根据权利要求2所述的特征提取与跨模态匹配检索方法，其特征在于，所述基于所述文本全局特征和所述文本局部特征，利用注意力的图推理得到文本全局节点Ce、文本行为节点Ca和文本主体节点Co的步骤，包括：

基于GCN网络对语义图进行推理求解；

5.根据权利要求1所述的特征提取与跨模态匹配检索方法，其特征在于，所述通过不同层次变换矩阵，提取所述视频数据中与所述文本全局事件特征和文本局部特征对应的视频全局事件特征Ve和视频局部特征，其中，所述视频局部特征包括视频行为特征Va和视频主体特征Vo的步骤，包括：

将所述视频数据进行采样抽帧；

所述视频全局事件特征Ve的每帧计算使用注意力机制；

6.根据权利要求1所述的特征提取与跨模态匹配检索方法，其特征在于，所述将所述文本全局节点Ce和所述视频数据的全局事件特征Ve、所述文本数据的局部特征和所述视频数据的局部特征进行对齐匹配，计算每一对跨模态数据之间的相似度的步骤，包括：

计算每一对所述跨模态数据集之间的相似度；

将计算得到的所述相似度向量进行归一化；

计算不同层次局部匹配对齐得分；

7.根据权利要求6所述的特征提取与跨模态匹配检索方法，其特征在于，所述基于每对跨模态数据之间的总相似度构建损失函数，以所述损失函数取得最小值为目标进行优化，对整个文本-视频检索模型架构中参数进行训练的步骤，包括：

8.一种特征提取与跨模态匹配检索装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。