CN109697236A - 一种多媒体数据匹配信息处理方法 - Google Patents
一种多媒体数据匹配信息处理方法 Download PDFInfo
- Publication number
- CN109697236A CN109697236A CN201811311172.5A CN201811311172A CN109697236A CN 109697236 A CN109697236 A CN 109697236A CN 201811311172 A CN201811311172 A CN 201811311172A CN 109697236 A CN109697236 A CN 109697236A
- Authority
- CN
- China
- Prior art keywords
- sample
- similarity
- information features
- local information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 9
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 abstract description 2
- 210000005036 nerve Anatomy 0.000 abstract 2
- 239000000523 sample Substances 0.000 description 93
- 239000013598 vector Substances 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多媒体数据匹配信息处理方法,所述方法包括:获取第一样本以及第二样本的全局信息特征和局部信息特征,其中所述第一样本为图像样本,所述第二样本为视频样本,将所述全局信息特征和局部信息特征输入初始神经网络模型,通过预设的迭代函数对所述初始神经网络模型进行训练,以得到目标神经网络模型,所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度。本发明提供的多媒体数据匹配信息处理方法,基于图像和视频各自的全局信息特征和局部信息特征,在进行图像与视频的匹配计算时,能够提升匹配计算的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及多媒体数据匹配信息处理方法。
背景技术
如何确定图像和视频之间的关联关系是当前人工智能领域需要解决的一大技术问题。现有技术中通常采用单一方面的信息来进行图像与视频之间的匹配关系鉴别,因此采用现有技术无法全面衡量图像和视频之间的匹配度,准确性有待提升。
发明内容
鉴于此,本发明提供了一种多媒体数据匹配信息处理方法,包括如下步骤:
获取第一样本以及第二样本的全局信息特征和局部信息特征,其中所述第一样本为图像样本,所述第二样本为视频样本;
将所述全局信息特征和局部信息特征输入初始神经网络模型,通过预设的迭代函数对所述初始神经网络模型进行训练,以得到目标神经网络模型,所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度,其中所述第一目标对象为图像,所述第二目标对象为视频;
所述目标神经网络模型分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作,映射到指定语义空间;将第一样本和第二样本各自的局部信息特征映射到指定语义空间,计算异构样本对之间的局部信息特征的相似度;根据全局信息特征的相似度的预设权值,以及局部信息特征的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
所述全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度;
所述预置目标函数为:
其中,表示预置目标函数;表示第二样本;表示第一样本;当确定全局信息特征的相似度时,d()表示第二样本和第一样本的全局信息特征的相似度;当确定局部信息特征的相似度时,d()表示第二样本和第一样本的局部信息特征的相似度;λ1和λ2均表示预置系数;表示语义关联的异构样本对的相似度;和均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
本发明提供的多媒体数据匹配信息处理方法,基于图像和视频各自的全局信息特征和局部信息特征,在进行图像与视频的匹配计算时,能够提升匹配计算的准确性。
附图说明
图1为本申请提供的多媒体数据匹配信息处理方法的流程示意图。
具体实施方式
为了便于理解本申请实施例提供的技术方案,下面结合说明书附图对本申请实施例作进一步详细描述。
如图1所示,本发明提供的一种多媒体数据匹配信息处理方法,包括如下步骤:
步骤1、获取第一样本以及第二样本的全局信息特征和局部信息特征,其中所述第一样本为图像样本,所述第二样本为视频样本。
步骤2、将所述全局信息特征和局部信息特征输入初始神经网络模型,通过预设的迭代函数对所述初始神经网络模型进行训练,以得到目标神经网络模型,所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度,其中所述第一目标对象为图像,所述第二目标对象为视频。
在上述实施例中,所述迭代函数可采用目前通用的损失函数,例如,所述损失函数Lmse(θ)满足:
其中,Lk和Rk分别为第k组第一样本以及第二样本构成的异构样本对的全局信息特征和局部信息特征,f为匹配算法模型,所述匹配算法模型由三层卷积神经网络组成;f(Lk,θ)为对所述第k组第k组第一样本以及第二样本构成的异构样本对的全局信息特征进行匹配处理后得到的数值,θ为所述匹配算法模型中的权重参数,k为不大于K的正整数。
所述目标神经网络模型分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作,映射到指定语义空间;将第一样本和第二样本各自的局部信息特征映射到指定语义空间,计算异构样本对之间的局部信息特征的相似度;根据全局信息特征的相似度的预设权值,以及局部信息特征的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
这样,得到的匹配度是基于图像和视频各自的全局信息特征和局部信息特征。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。
本实施例中,所述全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度;
所述预置目标函数为:
其中,表示预置目标函数;表示第二样本;表示第一样本;当确定全局信息特征的相似度时,d()表示第二样本和第一样本的全局信息特征的相似度;当确定局部信息特征的相似度时,d()表示第二样本和第一样本的局部信息特征的相似度;λ1和λ2均表示预置系数;表示语义关联的异构样本对的相似度;和均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
本实施例中,根据提取的全局信息特征和局部信息特征,训练得到目标神经网络模型,以使该目标神经网络模型能够基于全局信息特征和局部信息特征确定图像和视频之间的匹配度。
其中,该目标神经网络模型将第一样本和第二样本各自的全局信息特征映射到指定语义空间,计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度;以及,将第一样本和第二样本各自的局部信息特征映射到指定语义空间,计算异构样本对之间的局部信息特征的相似度;并,根据全局信息特征的相似度的预设权值,以及局部信息特征的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
所述目标神经网络模型针对输入的图像,采用局部图像卷积神经网络提取图像的局部信息特征;并,采用全局图像CNN提取图像的全局信息特征。针对输入的视频,采用局部语句编码器提取视频的局部信息特征,并采用全局语句编码器提取视频的全局信息特征。在提取了图像和视频的局部信息特征和全局信息特征后,局部深度匹配表示将图像和视频各自的局部信息特征映射到指定语义空间,并在该指定语义空间中确定图像和视频构成的异构样本对之间的局部信息特征的相似度;同理,全局深度匹配表示将图像和视频各自的局部信息特征映射到指定语义空间,并在该指定语义空间中确定图像和视频构成的异构样本对之间的全局信息特征的相似度。然后,通过模型集成,根据全局信息特征的相似度的预设权值,以及局部信息特征的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。
上述的关于映射到指定语义空间,在一个实施例中,为了能够准确的得到图像和视频之间的全局信息特征的相似度以及局部信息特征的相似度,本文中将第一样本和第二样本各自的全局信息特征映射到指定语义空间,具体包括:分别将第一样本和第二样本各自的全局信息特征通过至少两层全连接层进行全连接操作,映射到指定语义空间;将第一样本和第二样本各自的局部信息特征映射到指定语义空间,具体包括:分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作,映射到指定语义空间;其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度。
通过多个全连接层来准确的分析视频和图像各自的全局信息特征和局部信息特征,以便于将视频和图像的全局信息特征和局部信息特征映射到同一语义空间中。而且,全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况,准确确定出异构视频对的相似度。
此外,通过多个全连接层,可以对视频与图像描述进行多层的非线性变换,进而可以进一步挖掘图像与视频之间的直接匹配关系。
考虑到一般一个图像都会与多个样本语义关联。为了提高目标神经网络模型的准确性,需要使得与同一图像语义关联的视频之间的相似度,也要高于这些视频与其他图像具有语义关联关系的视频之间的相似度。预置目标函数需要同时要求同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度。为达到该目的,同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度的预置目标函数公式如下:
L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))
其中,L(Si,Sl,Sj)表示要求同一第一样本关联的第二样本之间的相似度高于不同第一样本关联的第二样本之间的相似度的预置目标函数;Si,Sl表示同一第一样本语义关联的第二样本;Si,Sj表示不同第一样本关联的第二样本;当确定全局信息特征的相似度时,d()表示第二样本之间的的全局信息特征的相似度;当确定局部信息特征的相似度时,d()表示第二样本之间的局部信息特征的相似度;u3表示预设阈值。
根据预置目标函数,可以训练深度目标神经网络模型。图像和视频的特征向量映射到同一指定语义空间后,计算特征向量之间的距离。例如, Sm表示视频的特征向量,I1和In表示图像的特征向量。在该指定语义空间中,根据预置目标函数计算图像和视频之间的距离。若采用的特征向量为用于表示全局信息特征的特征向量,则计算的结果为全局信息特征之间的相似度,若采用的特征向量为表示局部信息特征的特征向量,则计算的结果为局部信息特征之间的相似度。
第一样本全局信息特征和局部信息特征的提取,具体实施时可以采用图像的卷积神经网络的全连接层的特征表示图像的全局信息特征,如前述的CNN,这里的CNN可以选择大规模图像识别的深度卷积网络、残差网络以及全卷积网络来提取图像的全局信息特征。
提取第一样本的局部信息特征的具体实现步骤包括:
将第一样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成第一样本的局部信息特征。
本实施例中,提取出第二样本的全局信息特征,包括:对第二样本进行分词;针对每个分词,确定该分词的向量,其中,不同分词的向量长度相同;将同一第二样本的分词的向量,输入给预先构建的用于提取视频的全局信息特征的神经网络,得到该第二样本的全局信息特征;其中,用于提取第二样本的全局信息特征的神经网络中包括多个卷积层以及连接在该多个卷积层之后的弱卷积层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入,该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
具体实施时可用如下公式表示卷积层的卷积操作:
其中,r表示指定大小的视野域;l-1表示第l-1层卷积层(即上一层卷积层);l表示第l层卷积层(即下一层卷积层);Wl,f表示乘积矩阵;f表示第f个特征;i表示第i个位置信息;表示第l层卷积层提取的特征对应i位置的f特征。
其中,弱卷积层的操作可以用如下公式表示:
其中,表示弱卷积层的输出;l+1表示弱卷积层;表示第l层提取的第M×i特征;M表示一个常数用于控制池化操作的大小。
这样,本申请实施例通过多个卷积层实现对第二样本特征的提取,然后通过弱卷积层来过滤无用的特征信息。而其中,在使用多个卷积层进行卷积操作时,采用的是指定大小的视野域,由于该视野域中包括了多个分词的特征,所以相当于实现了第二样本的全局信息特征中学习了相邻分词之间的组织以及交互信息,使得最终提取的全局信息特征更加合理准确。
第二样本的局部信息特征可以更集中于每一个分词,采用TF-IDF或FisherVector作用于每一个分词的向量上,或者分词的向量的平均值。这样的表示更加集中于分词本身,而不是整体考虑每个分词跟分词之间的相关性,故此可以被认为是视频的局部信息特征。
本申请实施例实现了基于全局信息特征和局部信息特征的目标神经网络模型来搜索参考样本的相应素材,使得最终得到的匹配结果更加准确。。例如搜索与视频匹配的图像,或者搜索与图像匹配的问题。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (1)
1.一种多媒体数据匹配信息处理方法,其特征在于,包括:
获取第一样本以及第二样本的全局信息特征和局部信息特征,其中所述第一样本为图像样本,所述第二样本为视频样本;
将所述全局信息特征和局部信息特征输入初始神经网络模型,通过预设的迭代函数对所述初始神经网络模型进行训练,以得到目标神经网络模型,所述目标神经网络模型能够根据输入的第一目标对象以及第二目标对象的全局信息特征和局部信息特征确定图像和视频之间的匹配度,其中所述第一目标对象为图像,所述第二目标对象为视频;
所述目标神经网络模型分别将第一样本和第二样本的各自的局部信息特征通过至少两层全连接层进行全连接操作,映射到指定语义空间;将第一样本和第二样本各自的局部信息特征映射到指定语义空间,计算异构样本对之间的局部信息特征的相似度;根据全局信息特征的相似度的预设权值,以及局部信息特征的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度;
所述全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,计算由第一样本和第二样本构成的异构样本对之间的全局信息特征的相似度;
所述预置目标函数为:
其中,表示预置目标函数;表示第二样本;表示第一样本;当确定全局信息特征的相似度时,d()表示第二样本和第一样本的全局信息特征的相似度;当确定局部信息特征的相似度时,d()表示第二样本和第一样本的局部信息特征的相似度;λ1和λ2均表示预置系数;表示语义关联的异构样本对的相似度;和均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311172.5A CN109697236A (zh) | 2018-11-06 | 2018-11-06 | 一种多媒体数据匹配信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311172.5A CN109697236A (zh) | 2018-11-06 | 2018-11-06 | 一种多媒体数据匹配信息处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109697236A true CN109697236A (zh) | 2019-04-30 |
Family
ID=66229780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811311172.5A Pending CN109697236A (zh) | 2018-11-06 | 2018-11-06 | 一种多媒体数据匹配信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697236A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110278388A (zh) * | 2019-06-19 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 展示视频的生成方法、装置、设备及存储介质 |
CN110446065A (zh) * | 2019-08-02 | 2019-11-12 | 腾讯科技(武汉)有限公司 | 一种视频召回方法、装置及存储介质 |
CN111860399A (zh) * | 2020-07-28 | 2020-10-30 | Oppo广东移动通信有限公司 | 视频分类模型训练方法、视频分类方法、装置及电子设备 |
CN112578351A (zh) * | 2020-02-28 | 2021-03-30 | 加特兰微电子科技(上海)有限公司 | 目标匹配方法、集成电路、无线电器件及设备 |
CN112989120A (zh) * | 2021-05-13 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频片段查询系统和视频片段查询方法 |
CN114092848A (zh) * | 2020-07-31 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 对象确定和机器模型的处理方法、装置、设备和存储介质 |
-
2018
- 2018-11-06 CN CN201811311172.5A patent/CN109697236A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110278388A (zh) * | 2019-06-19 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 展示视频的生成方法、装置、设备及存储介质 |
CN110446065A (zh) * | 2019-08-02 | 2019-11-12 | 腾讯科技(武汉)有限公司 | 一种视频召回方法、装置及存储介质 |
CN112578351A (zh) * | 2020-02-28 | 2021-03-30 | 加特兰微电子科技(上海)有限公司 | 目标匹配方法、集成电路、无线电器件及设备 |
CN111860399A (zh) * | 2020-07-28 | 2020-10-30 | Oppo广东移动通信有限公司 | 视频分类模型训练方法、视频分类方法、装置及电子设备 |
CN114092848A (zh) * | 2020-07-31 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 对象确定和机器模型的处理方法、装置、设备和存储介质 |
CN112989120A (zh) * | 2021-05-13 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频片段查询系统和视频片段查询方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697236A (zh) | 一种多媒体数据匹配信息处理方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN109784223B (zh) | 一种基于卷积神经网络的多时相遥感影像匹配方法及系统 | |
CN105138973B (zh) | 人脸认证的方法和装置 | |
CN107451616A (zh) | 基于深度半监督迁移学习的多光谱遥感图像地物分类方法 | |
CN109410238B (zh) | 一种基于PointNet++网络的枸杞识别计数方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN111274958B (zh) | 一种网络参数自纠正的行人重识别方法及系统 | |
CN109740672B (zh) | 多流特征距离融合系统与融合方法 | |
CN111259837B (zh) | 一种基于部位注意力的行人重识别方法及系统 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN111353487A (zh) | 用于变电站的设备信息提取方法 | |
CN116188543A (zh) | 基于深度学习无监督的点云配准方法及系统 | |
CN111400572A (zh) | 一种基于卷积神经网络实现图像特征识别的内容安全监测系统及其方法 | |
CN109389156A (zh) | 一种图像定位模型的训练方法、装置及图像定位方法 | |
CN115019103A (zh) | 基于坐标注意力群组优化的小样本目标检测方法 | |
CN113128518B (zh) | 基于孪生卷积网络和特征混合的sift误匹配检测方法 | |
CN116977859A (zh) | 基于多尺度图像切割和实例困难度的弱监督目标检测方法 | |
CN116363469A (zh) | 一种少样本红外目标检测方法、装置和系统 | |
CN115994242A (zh) | 影像检索方法、装置、设备及存储介质 | |
CN112733067B (zh) | 一种面向机器人目标检测算法的数据集选择方法 | |
CN113159082B (zh) | 一种增量式学习目标检测网络模型构建及权重更新方法 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN111882543B (zh) | 一种基于AA R2Unet和HMM的香烟滤棒计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190430 |
|
WD01 | Invention patent application deemed withdrawn after publication |