CN109697236A

CN109697236A - 一种多媒体数据匹配信息处理方法

Info

Publication number: CN109697236A
Application number: CN201811311172.5A
Authority: CN
Inventors: 林路路
Original assignee: Jianhu Yunfei Data Technology Co Ltd
Current assignee: Jianhu Yunfei Data Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-30

Abstract

本发明公开了一种多媒体数据匹配信息处理方法，所述方法包括：获取第一样本以及第二样本的全局信息特征和局部信息特征，其中所述第一样本为图像样本，所述第二样本为视频样本，将所述全局信息特征和局部信息特征输入初始神经网络模型，通过预设的迭代函数对所述初始神经网络模型进行训练，以得到目标神经网络模型，所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度。本发明提供的多媒体数据匹配信息处理方法，基于图像和视频各自的全局信息特征和局部信息特征，在进行图像与视频的匹配计算时，能够提升匹配计算的准确性。

Description

一种多媒体数据匹配信息处理方法

技术领域

本申请涉及人工智能技术领域，尤其涉及多媒体数据匹配信息处理方法。

背景技术

如何确定图像和视频之间的关联关系是当前人工智能领域需要解决的一大技术问题。现有技术中通常采用单一方面的信息来进行图像与视频之间的匹配关系鉴别，因此采用现有技术无法全面衡量图像和视频之间的匹配度，准确性有待提升。

发明内容

鉴于此，本发明提供了一种多媒体数据匹配信息处理方法，包括如下步骤：

获取第一样本以及第二样本的全局信息特征和局部信息特征，其中所述第一样本为图像样本，所述第二样本为视频样本；

将所述全局信息特征和局部信息特征输入初始神经网络模型，通过预设的迭代函数对所述初始神经网络模型进行训练，以得到目标神经网络模型，所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度，其中所述第一目标对象为图像，所述第二目标对象为视频；

所述目标神经网络模型分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作，映射到指定语义空间；将第一样本和第二样本各自的局部信息特征映射到指定语义空间，计算异构样本对之间的局部信息特征的相似度；根据全局信息特征的相似度的预设权值，以及局部信息特征的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度；

所述全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度；

所述预置目标函数为：

其中，表示预置目标函数；表示第二样本；表示第一样本；当确定全局信息特征的相似度时，d()表示第二样本和第一样本的全局信息特征的相似度；当确定局部信息特征的相似度时，d()表示第二样本和第一样本的局部信息特征的相似度；λ₁和λ₂均表示预置系数；表示语义关联的异构样本对的相似度；和均表示非语义关联的异构样本对的相似度；u₁和u₂均表示预设阈值。

本发明提供的多媒体数据匹配信息处理方法，基于图像和视频各自的全局信息特征和局部信息特征，在进行图像与视频的匹配计算时，能够提升匹配计算的准确性。

附图说明

图1为本申请提供的多媒体数据匹配信息处理方法的流程示意图。

具体实施方式

为了便于理解本申请实施例提供的技术方案，下面结合说明书附图对本申请实施例作进一步详细描述。

如图1所示，本发明提供的一种多媒体数据匹配信息处理方法，包括如下步骤：

步骤1、获取第一样本以及第二样本的全局信息特征和局部信息特征，其中所述第一样本为图像样本，所述第二样本为视频样本。

步骤2、将所述全局信息特征和局部信息特征输入初始神经网络模型，通过预设的迭代函数对所述初始神经网络模型进行训练，以得到目标神经网络模型，所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度，其中所述第一目标对象为图像，所述第二目标对象为视频。

在上述实施例中，所述迭代函数可采用目前通用的损失函数，例如，所述损失函数L_mse(θ)满足：

其中，L_k和R_k分别为第k组第一样本以及第二样本构成的异构样本对的全局信息特征和局部信息特征，f为匹配算法模型，所述匹配算法模型由三层卷积神经网络组成；f(L_k,θ)为对所述第k组第k组第一样本以及第二样本构成的异构样本对的全局信息特征进行匹配处理后得到的数值，θ为所述匹配算法模型中的权重参数，k为不大于K的正整数。

所述目标神经网络模型分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作，映射到指定语义空间；将第一样本和第二样本各自的局部信息特征映射到指定语义空间，计算异构样本对之间的局部信息特征的相似度；根据全局信息特征的相似度的预设权值，以及局部信息特征的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

这样，得到的匹配度是基于图像和视频各自的全局信息特征和局部信息特征。将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。

本实施例中，所述全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度；

所述预置目标函数为：

本实施例中，根据提取的全局信息特征和局部信息特征，训练得到目标神经网络模型，以使该目标神经网络模型能够基于全局信息特征和局部信息特征确定图像和视频之间的匹配度。

其中，该目标神经网络模型将第一样本和第二样本各自的全局信息特征映射到指定语义空间，计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度；以及，将第一样本和第二样本各自的局部信息特征映射到指定语义空间，计算异构样本对之间的局部信息特征的相似度；并，根据全局信息特征的相似度的预设权值，以及局部信息特征的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

所述目标神经网络模型针对输入的图像，采用局部图像卷积神经网络提取图像的局部信息特征；并，采用全局图像CNN提取图像的全局信息特征。针对输入的视频，采用局部语句编码器提取视频的局部信息特征，并采用全局语句编码器提取视频的全局信息特征。在提取了图像和视频的局部信息特征和全局信息特征后，局部深度匹配表示将图像和视频各自的局部信息特征映射到指定语义空间，并在该指定语义空间中确定图像和视频构成的异构样本对之间的局部信息特征的相似度；同理，全局深度匹配表示将图像和视频各自的局部信息特征映射到指定语义空间，并在该指定语义空间中确定图像和视频构成的异构样本对之间的全局信息特征的相似度。然后，通过模型集成，根据全局信息特征的相似度的预设权值，以及局部信息特征的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

上述的关于映射到指定语义空间，在一个实施例中，为了能够准确的得到图像和视频之间的全局信息特征的相似度以及局部信息特征的相似度，本文中将第一样本和第二样本各自的全局信息特征映射到指定语义空间，具体包括：分别将第一样本和第二样本各自的全局信息特征通过至少两层全连接层进行全连接操作，映射到指定语义空间；将第一样本和第二样本各自的局部信息特征映射到指定语义空间，具体包括：分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作，映射到指定语义空间；其中，全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度；或者，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度。

通过多个全连接层来准确的分析视频和图像各自的全局信息特征和局部信息特征，以便于将视频和图像的全局信息特征和局部信息特征映射到同一语义空间中。而且，全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况，准确确定出异构视频对的相似度。

此外，通过多个全连接层，可以对视频与图像描述进行多层的非线性变换，进而可以进一步挖掘图像与视频之间的直接匹配关系。

考虑到一般一个图像都会与多个样本语义关联。为了提高目标神经网络模型的准确性，需要使得与同一图像语义关联的视频之间的相似度，也要高于这些视频与其他图像具有语义关联关系的视频之间的相似度。预置目标函数需要同时要求同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度。为达到该目的，同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度的预置目标函数公式如下：

L(S_i，S_l，S_j)＝max(0，u₃+d(S_i，S_l)-d(S_i，S_j))

其中，L(S_i，S_l，S_j)表示要求同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度的预置目标函数；S_i，S_l表示同一第一样本语义关联的第二样本；S_i，S_j表示不同第一样本关联的第二样本；当确定全局信息特征的相似度时，d()表示第二样本之间的的全局信息特征的相似度；当确定局部信息特征的相似度时，d()表示第二样本之间的局部信息特征的相似度；u₃表示预设阈值。

根据预置目标函数，可以训练深度目标神经网络模型。图像和视频的特征向量映射到同一指定语义空间后，计算特征向量之间的距离。例如， S_m表示视频的特征向量，I₁和I_n表示图像的特征向量。在该指定语义空间中，根据预置目标函数计算图像和视频之间的距离。若采用的特征向量为用于表示全局信息特征的特征向量，则计算的结果为全局信息特征之间的相似度，若采用的特征向量为表示局部信息特征的特征向量，则计算的结果为局部信息特征之间的相似度。

第一样本全局信息特征和局部信息特征的提取，具体实施时可以采用图像的卷积神经网络的全连接层的特征表示图像的全局信息特征，如前述的CNN，这里的CNN可以选择大规模图像识别的深度卷积网络、残差网络以及全卷积网络来提取图像的全局信息特征。

提取第一样本的局部信息特征的具体实现步骤包括：

将第一样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成第一样本的局部信息特征。

本实施例中，提取出第二样本的全局信息特征，包括：对第二样本进行分词；针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；将同一第二样本的分词的向量，输入给预先构建的用于提取视频的全局信息特征的神经网络，得到该第二样本的全局信息特征；其中，用于提取第二样本的全局信息特征的神经网络中包括多个卷积层以及连接在该多个卷积层之后的弱卷积层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

具体实施时可用如下公式表示卷积层的卷积操作：

其中，r表示指定大小的视野域；l-1表示第l-1层卷积层(即上一层卷积层)；l表示第l层卷积层(即下一层卷积层)；W_l，f表示乘积矩阵；f表示第f个特征；i表示第i个位置信息；表示第l层卷积层提取的特征对应i位置的f特征。

其中，弱卷积层的操作可以用如下公式表示：

其中，表示弱卷积层的输出；l+1表示弱卷积层；表示第l层提取的第M×i特征；M表示一个常数用于控制池化操作的大小。

这样，本申请实施例通过多个卷积层实现对第二样本特征的提取，然后通过弱卷积层来过滤无用的特征信息。而其中，在使用多个卷积层进行卷积操作时，采用的是指定大小的视野域，由于该视野域中包括了多个分词的特征，所以相当于实现了第二样本的全局信息特征中学习了相邻分词之间的组织以及交互信息，使得最终提取的全局信息特征更加合理准确。

第二样本的局部信息特征可以更集中于每一个分词，采用TF-IDF或FisherVector作用于每一个分词的向量上，或者分词的向量的平均值。这样的表示更加集中于分词本身，而不是整体考虑每个分词跟分词之间的相关性，故此可以被认为是视频的局部信息特征。

本申请实施例实现了基于全局信息特征和局部信息特征的目标神经网络模型来搜索参考样本的相应素材，使得最终得到的匹配结果更加准确。。例如搜索与视频匹配的图像，或者搜索与图像匹配的问题。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多媒体数据匹配信息处理方法，其特征在于，包括：

所述预置目标函数为：