CN112801762A - 基于商品感知的多模态视频高光检测方法及其系统 - Google Patents

基于商品感知的多模态视频高光检测方法及其系统 Download PDF

Info

Publication number
CN112801762A
CN112801762A CN202110397055.0A CN202110397055A CN112801762A CN 112801762 A CN112801762 A CN 112801762A CN 202110397055 A CN202110397055 A CN 202110397055A CN 112801762 A CN112801762 A CN 112801762A
Authority
CN
China
Prior art keywords
video
graph
commodity
nodes
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110397055.0A
Other languages
English (en)
Other versions
CN112801762B (zh
Inventor
赵洲
郭兆宇
周楚程
刘瑞涛
汪达舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110397055.0A priority Critical patent/CN112801762B/zh
Publication of CN112801762A publication Critical patent/CN112801762A/zh
Application granted granted Critical
Publication of CN112801762B publication Critical patent/CN112801762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于商品感知的多模态视频高光检测方法及其系统,属于视频高光检测领域。首先,分别进行视频预处理和文本预处理,通过视频预处理得到视频片段的自注意力语义表示,通过文本预处理获取视频标题、商品标签以及商品名称的词特征,构建并更新得到最终图,获取句法感知的文本信息表示;然后,两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。本发明通过将商品名称、标签和视频标题作为监督元素加入模型中,检测精度更高。

Description

基于商品感知的多模态视频高光检测方法及其系统
技术领域
本发明涉及视频高光检测领域,尤其涉及一种基于商品感知的多模态视频高光检测方法及其系统。
背景技术
在电子商务中,介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中,通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者,从而提高产品的点击率。然而,目前的研究方法应用于实际场景的效果并不令人满意。与其他视频理解任务相比,视频高光检测相对抽象和主观,只有利用视觉信息才能做出准确的判断。
视频高光检测算法一般分为无监督方法和监督方法。无监督技术通过手动获取的特性或规则创建视频高光。无监督的视频高光检测方法可以进一步分为领域无关或领域特定的方法。领域无关的方法提出在任何视频上均匀工作的运动强度作为弱监督信号。领域特定的方法针对主题领域定制亮点,并利用视频持续时间和视觉共现作为弱监督信号。然而,没有引入监督信号,高光检测的结果并不令人满意。
除了视觉信息,高度抽象的视频标题可以帮助检测视频高光,传统的有监督方法多为单模态方法,无法充分利视频相关信息的问题,因此有必要提供一种多模态视频高光检测任务,将视频相关语言信息引入到监督信号中。
发明内容
为了解决现有技术中的无监督方法无法准确定位高光片段以及单模态方法无法充分利视频相关信息的问题,本发明提出了一种基于商品感知的多模态视频高光检测方法及其系统。
本发明基于电子商务场景,将商品的名字、标签和视频的题目作为监督元素加入模型中,得出的高光检测方法可以更好的检测出视频中的片段,相对于人工标注大大节约了时间,相对于无监督方法和单模态方法,可以更加准确的检测出高光片段。
为了实现上述目的,本发明采用的技术方案为:
一种基于商品感知的多模态视频高光检测方法,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采 用Bi-GRU网络学习视频片段的自注意力语义表示
Figure 480313DEST_PATH_IMAGE001
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间 的依赖边传递信息,构建视频标题图
Figure 131874DEST_PATH_IMAGE002
和商品名称图
Figure 832982DEST_PATH_IMAGE003
;建立商品属性列表,利用查询 焦点图聚合模块分别获得属性感知的商品名称图
Figure 962612DEST_PATH_IMAGE004
和属性感知的视频标题图
Figure 573722DEST_PATH_IMAGE005
将属性感知的商品标题图
Figure 130606DEST_PATH_IMAGE006
转换为商品属性列表,利用查询焦点图聚合模块获 得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表 示
Figure 69743DEST_PATH_IMAGE007
,其中,下角标m表示最终图
Figure 3064DEST_PATH_IMAGE008
中的边的个数,
Figure 468680DEST_PATH_IMAGE009
表示最终图中第i 个边的最终表达;
S3:结合视频片段的句法感知的文本信息表示
Figure 196465DEST_PATH_IMAGE010
和自注意力语义表示
Figure 606586DEST_PATH_IMAGE011
,利用共 同注意力模块分别获得句法感知的视觉表达
Figure 140336DEST_PATH_IMAGE012
和句法感知的语义表达
Figure 398142DEST_PATH_IMAGE013
,融合后得到跨 模态语义表示
Figure 500090DEST_PATH_IMAGE014
,其中,
Figure 272874DEST_PATH_IMAGE015
表示第i个视频片段对应的跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示
Figure 282418DEST_PATH_IMAGE016
,然后使用含有 sigmoid函数的全连接层计算每一个视频片段的置信度
Figure 847261DEST_PATH_IMAGE017
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引
Figure 182427DEST_PATH_IMAGE018
分别为预测的时 间边界,输出索引对应的高光片段。
本发明的有益效果为:
1、本发明将视频与商品辅助信息进行融合,将多模态商品高光检测任务引入电子商务场景,解决了电子商务场景中多模态视频高光检测问题,降低了手动标注高光片段的人工成本。
2、本发明提出了一种融合多源自然语言信息的图聚合方法,在方法中同时引入了视频标题、商品标签、商品名称这三种自然语言信息,构建商品标题图和视频标题图,可同时利用多源信息提高高光检测准确率。
3、本发明提出了一种新颖的多模态融合方法,将文本信息和图片信息进行融合,可以同时将多模态信息加入考量,生成更有吸引力的高光剪辑片段,进一步提高视频推荐的性能。
附图说明
图1是本实施例所使用的基于商品感知的多模态视频高光检测方法示意图。
图2为图聚合模块的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做更进一步地描述。此外,本发明中所描述的实施例仅仅是作为一部分的实施例,而不是全部的实施例。
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明提出的基于商品感知的多模态视频高光检测方法通过一个共同注意力模块连接了两个分支,其中一个分支用于获取视频片段的自注意力语义表示,另一个分支基于图聚合模块用于获取句法感知的文本信息表示;两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。
基本步骤可以分为:
步骤一、将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征, 并采用Bi-GRU网络学习视频片段的自注意力语义表示
Figure 442507DEST_PATH_IMAGE019
步骤二、提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关 词间的依赖边传递信息,构建视频标题图
Figure 255742DEST_PATH_IMAGE020
和商品名称图
Figure 425824DEST_PATH_IMAGE021
;建立商品属性列表,利用 查询焦点图聚合模块分别获得属性感知的商品名称图
Figure 931891DEST_PATH_IMAGE022
和属性感知的视频标题图
Figure 679267DEST_PATH_IMAGE023
将属性感知的商品标题图
Figure 296194DEST_PATH_IMAGE024
转换为商品属性列表,利用查询焦点图聚合模块获 得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表 示
Figure 581768DEST_PATH_IMAGE025
,其中,下角标m表示最终图
Figure 258737DEST_PATH_IMAGE026
中的边的个数,
Figure 493409DEST_PATH_IMAGE027
表示最终图中第i 个边的最终表达;
步骤三、结合视频片段的句法感知的文本信息表示
Figure 648447DEST_PATH_IMAGE028
和自注意力语义表示
Figure 793120DEST_PATH_IMAGE029
, 利用共同注意力模块分别获得句法感知的视觉表达
Figure 640991DEST_PATH_IMAGE030
和句法感知的语义表达
Figure 362959DEST_PATH_IMAGE031
,融合后 得到跨模态语义表示
Figure 321688DEST_PATH_IMAGE032
,其中,
Figure 304556DEST_PATH_IMAGE033
表示第i个视频片段对应的跨模态语义表 示;
采用Bi-GRU网络学习得到最终的语义表示
Figure 323328DEST_PATH_IMAGE034
,然后使用含有 sigmoid函数的全连接层计算每一个视频片段的置信度
Figure 532592DEST_PATH_IMAGE035
步骤四、基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
步骤五、对无向图G进行图卷积,预测高光片段索引
Figure 295012DEST_PATH_IMAGE036
Figure 148698DEST_PATH_IMAGE037
分别为预测 的时间边界,输出索引对应的高光片段。
在本发明的具体实施中,步骤一为视频的预处理过程,具体为:
1.1)将一段视频分为n个片段,每一个视频片段由连续的若干帧构成,且相邻两个 视频片段之间存在部分重叠;标记视频中的每一个高光片段的边界
Figure 72792DEST_PATH_IMAGE038
作为标签。
1.2)提取每一个视频片段的帧特征v i,构成帧特征集v=(v 1,v 2,…,v n),其中,v i表示第i个视频片段的帧特征;本实施例中,可以利用预训练的Two-Stream Inflflated 3DConvNets提取视频片段的帧特征。
1.3)将帧特征集作为第一Bi-GRU网络的输入,学习得到视频片段的自注意力语义 表示
Figure 769352DEST_PATH_IMAGE039
,计算公式为:
Figure 69884DEST_PATH_IMAGE040
其中,
Figure 292924DEST_PATH_IMAGE041
Figure 387919DEST_PATH_IMAGE042
分别是第一Bi-GRU网络的前馈网络和反馈网络,
Figure 571775DEST_PATH_IMAGE043
是可训 练矩阵,
Figure 675997DEST_PATH_IMAGE044
表示第i个视频片段的自注意力语义表示,
Figure 238697DEST_PATH_IMAGE045
表示
Figure 566910DEST_PATH_IMAGE046
的前向语义特征,
Figure 910167DEST_PATH_IMAGE047
表 示
Figure 5031DEST_PATH_IMAGE048
的后向语义特征,
Figure 750133DEST_PATH_IMAGE049
表示tanh激活函数,
Figure 514826DEST_PATH_IMAGE050
表示将前后的语义特征进行拼接,b表示 偏置;在初始化时,令
Figure 345379DEST_PATH_IMAGE051
在本发明的具体实施中,步骤二中,基于图聚合模块用于获取句法感知的文本信息表示,具体为:
a)将视频标题的词特征表示为
Figure 729087DEST_PATH_IMAGE052
,商品名称的词特征表示为
Figure 328696DEST_PATH_IMAGE053
,商品标签的词特征表示为
Figure 264291DEST_PATH_IMAGE054
。本实施例中,可以通 过预训练的Chinese word2vec embedding提取词特征。
将商品名称的词特征作为图的节点
Figure 582140DEST_PATH_IMAGE055
,构建商品名称图
Figure 753227DEST_PATH_IMAGE056
;将视频标题的词特 征作为图的节点
Figure 472921DEST_PATH_IMAGE057
,构建视频标题图
Figure 579417DEST_PATH_IMAGE058
b)利用查询焦点图聚合模块获得属性感知的商品名称图
Figure 56666DEST_PATH_IMAGE059
和属性感知的视频标 题图
Figure 844494DEST_PATH_IMAGE060
2.1)创建商品属性列表
Figure 481011DEST_PATH_IMAGE061
2.2)如图2所示,以商品名称图
Figure 696092DEST_PATH_IMAGE062
为例,首先将商品属性列表通过全局平均池化 获得查询的全局表示
Figure 909905DEST_PATH_IMAGE063
,使用
Figure 501423DEST_PATH_IMAGE064
更新商品名称图
Figure 992447DEST_PATH_IMAGE065
中的节点,获得中间图,公式为:
Figure 378429DEST_PATH_IMAGE066
其中,
Figure 95849DEST_PATH_IMAGE067
表示商品属性列表中的词特征个数,
Figure 225479DEST_PATH_IMAGE068
表示商品属性列表中的第i个词 特征,
Figure 571010DEST_PATH_IMAGE069
表示平均池化后的词特征;
Figure 393473DEST_PATH_IMAGE070
为对应于图中第j个节点的临时变量,
Figure 581877DEST_PATH_IMAGE071
表示偏置,
Figure 515198DEST_PATH_IMAGE072
是可训练的矩阵,
Figure 715235DEST_PATH_IMAGE073
代表sigmoid函数,
Figure 708599DEST_PATH_IMAGE074
表示商品名称图
Figure 135032DEST_PATH_IMAGE075
中的第j个节点,
Figure 606465DEST_PATH_IMAGE076
表示中间图的第j个节点。
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
Figure 661009DEST_PATH_IMAGE077
其中,
Figure 746645DEST_PATH_IMAGE078
表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,
Figure 519429DEST_PATH_IMAGE079
表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,
Figure 794553DEST_PATH_IMAGE080
表示 可训练矩阵,
Figure 110128DEST_PATH_IMAGE081
表示偏置;
Figure 179715DEST_PATH_IMAGE082
表示归一化后的注意力,
Figure 705374DEST_PATH_IMAGE083
表示图的节点数,
Figure 518609DEST_PATH_IMAGE084
表示更新 后的图中的第i个节点。
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图 结构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图
Figure 937958DEST_PATH_IMAGE085
所述的图神经网络GCN用于给节点之间的边打上标签,计算过程为:
Figure 178447DEST_PATH_IMAGE086
其中,
Figure 191402DEST_PATH_IMAGE087
Figure 808328DEST_PATH_IMAGE088
是用于打标签的模型参数,
Figure 832916DEST_PATH_IMAGE089
是最终图
Figure 509885DEST_PATH_IMAGE090
中的第i个节点及 其相邻节点集合,
Figure 744557DEST_PATH_IMAGE091
是最终图
Figure 820966DEST_PATH_IMAGE092
中的第j个节点在第
Figure 27957DEST_PATH_IMAGE093
层的特征表达,
Figure 875827DEST_PATH_IMAGE094
是最终图
Figure 597796DEST_PATH_IMAGE095
中的第i个节点在第
Figure 556524DEST_PATH_IMAGE096
层的特征表达,
Figure 555704DEST_PATH_IMAGE097
表示图神经网络GCN的运算,
Figure 574476DEST_PATH_IMAGE098
表示i、j 两个节点在第
Figure 783740DEST_PATH_IMAGE099
层基于门限机制的值。
通过含有l层的图神经网络GCN计算,由每条边的最终特征表达构成句法感知的语 义表达
Figure 280581DEST_PATH_IMAGE100
,下角标m表示最终图
Figure 383535DEST_PATH_IMAGE101
中边的数量。
同理,针对视频标题图
Figure 573208DEST_PATH_IMAGE102
,首先将商品属性列表通过全局平均池化获得查询的 全局表示
Figure 269768DEST_PATH_IMAGE103
,使用
Figure 570300DEST_PATH_IMAGE104
更新视频标题图
Figure 278493DEST_PATH_IMAGE105
中的节点,获得中间图;之后,使用节点级加性 注意力机制和线性同义词库的加权来融合图的特征,遍历图中所有的节点,由更新后的所 有节点构成具有词库查询注意特征的图结构,即属性感知的视频标题图
Figure 639067DEST_PATH_IMAGE106
在本实施例中,将商品标签的特征保留基本值作为属性集,并将其创建为线性列 表
Figure 822923DEST_PATH_IMAGE107
作为查询焦点图聚合模块(QFGA)的输入。即步骤2.1)中的商品属性列表
Figure 661566DEST_PATH_IMAGE107
采用商品 标签的词特征
Figure 739113DEST_PATH_IMAGE108
进一步的,将属性感知的商品标题图
Figure 270588DEST_PATH_IMAGE109
转换为属性感知的商品标题列表
Figure 676162DEST_PATH_IMAGE110
,采用步骤2.2)至2.4)的方法,将商品标题列表
Figure 256179DEST_PATH_IMAGE111
和属性 感知的视频标题图
Figure 1281DEST_PATH_IMAGE112
作为查询焦点图聚合模块的输入,得到最终图
Figure 765975DEST_PATH_IMAGE113
在本发明的具体实施中,步骤三将前两个步骤获得的结果通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度,具体为:
3.1)建立共同注意力模块,给定一个查询和一组键值对,协同注意机制根据查询和键的兼容性函数计算加权和,两个模态特征交替作为查询。查询,键和值分别用Q、K、V表示,皆为向量集,将其组合为矩阵,通过下面公式得到放缩点积自注意力:
表示为:
Figure 596527DEST_PATH_IMAGE114
其中,Q、K和V分别表示查询、键和值,
Figure 963924DEST_PATH_IMAGE115
表示放缩点积自注意力,d k 表 示注意力参数,上角标T表示转置。
3.2)将查询Q设置为
Figure 829112DEST_PATH_IMAGE116
,将键K、值V均设置为
Figure 764706DEST_PATH_IMAGE117
,将句法感知的文本信息表示
Figure 82555DEST_PATH_IMAGE118
转换为句法感知的视觉表达
Figure 4375DEST_PATH_IMAGE119
,计 算公式为:
Figure 724069DEST_PATH_IMAGE120
其中,
Figure 830566DEST_PATH_IMAGE121
是可学习矩阵,
Figure 635711DEST_PATH_IMAGE122
是一个线性变换的前馈模块,使用
Figure 610489DEST_PATH_IMAGE123
来稳定训练,
Figure 184689DEST_PATH_IMAGE124
表示归一化。
同理,将Q设置为
Figure 462087DEST_PATH_IMAGE125
,将键K、值V均设置为
Figure 488949DEST_PATH_IMAGE126
, 将自注意力语义表示
Figure 18150DEST_PATH_IMAGE127
转换为句法感知的语义表达
Figure 446858DEST_PATH_IMAGE128
3.3)融合视觉表达
Figure 895157DEST_PATH_IMAGE129
和语义表达
Figure 674894DEST_PATH_IMAGE130
,得到每一个视频片段的跨模态语义表示
Figure 991474DEST_PATH_IMAGE131
,公式为:
Figure 274688DEST_PATH_IMAGE132
其中,
Figure 159468DEST_PATH_IMAGE133
表示singmoid函数,
Figure 160922DEST_PATH_IMAGE134
是可训练矩阵;
Figure 766346DEST_PATH_IMAGE135
表示Hadamard 乘积,表示对应位置元素相乘;
Figure 169646DEST_PATH_IMAGE136
表示偏置,
Figure 225327DEST_PATH_IMAGE137
表示视觉表达
Figure 448498DEST_PATH_IMAGE138
中的第i个元素。
遍历所有的视频片段,构成视频片段的跨模态语义集合
Figure 372460DEST_PATH_IMAGE139
3.4)将跨模态语义集合F作为第二Bi-GRU网络的输入,学习得到最终的语义表示
Figure 630266DEST_PATH_IMAGE140
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度
Figure 591269DEST_PATH_IMAGE141
,公式为:
Figure 567315DEST_PATH_IMAGE142
其中,
Figure 780122DEST_PATH_IMAGE143
表示sigmoid激活函数,
Figure 892434DEST_PATH_IMAGE144
Figure 24338DEST_PATH_IMAGE145
表示全连接层的网络参数,
Figure 420771DEST_PATH_IMAGE146
表示 第i个视频片段的跨模态语义表示。
在本发明的具体实施中,步骤四基于图的微调模块,利用步骤S3中置信度最高的k个片段构建无向图G,具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v 1,v 2,…,v k }。
4.2)计算两两节点之间的相关指数:
Figure 499585DEST_PATH_IMAGE147
其中,I(v i, v j)和U(v i, v j)分别是两个候选片段的交集和并集,v iv j分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k。
4.3)计算两两节点的中心距离:
Figure 794300DEST_PATH_IMAGE148
其中,d(v i, v j) 是两个候选片段的中心距离,c i, c j分别是v i, v j的中心坐标。
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
Figure 34789DEST_PATH_IMAGE149
其中,
Figure 657531DEST_PATH_IMAGE150
是可调节参数,
Figure 336774DEST_PATH_IMAGE151
表示cos函数。
4.5)设置阈值
Figure 423679DEST_PATH_IMAGE152
,当
Figure 22020DEST_PATH_IMAGE153
时,用边连接两个节点,构建无向图G。
在本发明的具体实施中,步骤五利用图卷积网络从无向图中预测出最终的高光索引,具体为:
5.1)对无向图G进行K层的图卷积运算:
Figure 194375DEST_PATH_IMAGE154
其中,1≤k≤K,
Figure 677309DEST_PATH_IMAGE155
是第k层的可学习参数,
Figure 618720DEST_PATH_IMAGE156
是候选片段在 第k层的隐藏特征,
Figure 404273DEST_PATH_IMAGE157
是输入特征,即步骤S4构建的无向图G。
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
Figure 63925DEST_PATH_IMAGE158
其中,||代表级联操作。
5.3)使用全连接层和激活函数计算预测高光片段的索引
Figure 819391DEST_PATH_IMAGE159
Figure 67839DEST_PATH_IMAGE160
式中,
Figure 86610DEST_PATH_IMAGE161
表示全连接层,索引
Figure 30296DEST_PATH_IMAGE162
分别表示预测边界,
Figure 792715DEST_PATH_IMAGE163
表示图卷积运算。
本实施例中,结合回归损失和高光聚合损失,以端到端的方式训练参数。
Figure 646402DEST_PATH_IMAGE164
其中,
Figure 836075DEST_PATH_IMAGE165
为smooth L1函数,
Figure 532635DEST_PATH_IMAGE166
的计算公式与连接指数的计算公式相同, k为视频候选片段的候选数量,v i为第i个视频片段的帧特征,
Figure 833167DEST_PATH_IMAGE167
表示实际高光片段,
Figure 790627DEST_PATH_IMAGE168
为回归损失,
Figure 151201DEST_PATH_IMAGE169
为高光聚合损失。两损失值可以直接相加或者通过权重系数相加作为最 终损失。
本实施例中,上述中存在可训练参数的模块或算法均需要训练,采用上述中的端到端训练方式,训练好的模型可以依据步骤一至五的顺序来获取视频的高光片段。
与前述的基于商品感知的多模态视频高光检测方法的实施例相对应,本申请还提供了一种基于商品感知的多模态视频高光检测系统的实施例,其包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
关于上述实施例中的系统,其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为置信度计算单元,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
在本发明的一项具体实施中,介绍了文本预处理过程。
使用Jieba中文分词器,移除文本中的标点并标记句子。每一个商品的名称、视频名称和商品的标签分别不超过20,20和15字,超过的文本将会被截短。再通过预训练的Chinese word2vec embedding Roberta提取文本中的词特征。
在本发明的一项具体实施中,介绍了视频预处理过程。
将每一帧的大小调节为112×112,并使用Two-Stream Inflflated 3D ConvNets从未剪辑过的视频中提取视觉特征。将连续的128帧定义为一个初始候选片段,每个单元与相邻单元重叠24帧。将各个单元输入预训练的3D-ConvNet获得,每个单元都获得一个4096维的特征。
在本发明的一项具体实施中,介绍了模型参数的设置。
在每一个时间步中使用多尺度窗口,在重叠阈值为0.2,窗口宽度为128的情况下采样k个候选时刻。
将Bi-GRU的隐藏状态维度设置为512(一个方向256),多头自注意模块和双线性融 合中线性矩阵的维数也设为512。在训练中使用adam优化器最小化多任务损失,并将学习率 设置为0.001。将模型中的隐藏层的维度设置为128,卷积层的核大小设置为7,多头注意力 模块的头大小为设置为8。在构建图时将
Figure 69479DEST_PATH_IMAGE170
Figure 845805DEST_PATH_IMAGE171
Figure 1980DEST_PATH_IMAGE172
全部设置为1,
Figure 533455DEST_PATH_IMAGE173
设置为1.5,将损失参 数
Figure 673450DEST_PATH_IMAGE174
设置为0.1。
本发明使用了TaoHighlight数据集中化妆品、头发产品、美食产品、玩具产品、运动产品进行训练和验证。具体实施步骤同上,不再赘述。
该数据集中的每一个视频都有其对应的商品标签、视频标题、商品名称。商品标签包括商品的种类和商家给商品打上的标签。在每一个大类中,都有3000个视频,每个视频都是当天在淘宝平台该类中点击次数最多的商品,每一个视频的长度在1到3分钟之间。
评估指标:
采用
Figure 502734DEST_PATH_IMAGE175
作为评估指标。
Figure 247836DEST_PATH_IMAGE176
表示当IoU值为
Figure 12530DEST_PATH_IMAGE177
时,在选 择出来的最佳n个候选片段中,与实际高光片段的IoU值大于
Figure 843083DEST_PATH_IMAGE178
的比例。mIoU是所有测试样 例的IoU的平均值。
表1展现的是本发明和其他诸多模型之间的比较:
VH-GNN 提出了一种视频高光框架来构造一个对象感知图,并从全局视图对对象之间的关系进行建模,这是当前单模态视频高亮检测较好的模型,但该模型再电子商务环境中无法使用更多相关模态的信息,导致模型效果较差。
Tao-GNN 利用图形神经网络(GNN)在淘宝电商平台上建立视频高光在线预测模型。 该方法使用全部视频帧建立图,并使用GNN提取特征。然后通过滑动窗口得到时长五秒的候选段,并通过建立图提取相应的特征。最后,该模型产生对齐分数和位置偏移。该模型同样没有将电子商务中多模态的有用信息引入模型中,并且图神经网络更新节点的隐藏状态是低效的 ,在迭代中使用相同的参数,更新节点隐藏状态是时序的。
Figure 226791DEST_PATH_IMAGE179
可以清晰的看出,相对于别的模型,本发明在四种IoU等级下的表象均好于其余四种模型。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种基于商品感知的多模态视频高光检测方法,其特征在于,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图和商品名称图;建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图和属性感知的视频标题图;
将属性感知的商品标题图转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示;
S3:结合视频片段的句法感知的文本信息表示和自注意力语义表示,利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达,融合后得到跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示,然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
2.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S1具体为:
1.1)将一段视频分为n个片段,每一个视频片段由连续的若干帧构成,且相邻两个视频 片段之间存在部分重叠;标记视频中的每一个高光片段的边界
Figure 687437DEST_PATH_IMAGE001
作为标签;
1.2)提取每一个视频片段的帧特征v i,构成帧特征集v=(v 1,v 2,…,v n),其中,v i表示第i个视频片段的帧特征;
1.3)将帧特征集作为第一Bi-GRU网络的输入,学习得到视频片段的自注意力语义表示
Figure 357453DEST_PATH_IMAGE002
,计算公式为:
Figure 331094DEST_PATH_IMAGE003
其中,
Figure 643127DEST_PATH_IMAGE004
Figure 769346DEST_PATH_IMAGE005
分别是第一Bi-GRU网络的前馈网络和反馈网络,
Figure 875842DEST_PATH_IMAGE006
是可训练矩 阵,
Figure 602359DEST_PATH_IMAGE007
表示第i个视频片段的自注意力语义表示,
Figure 327869DEST_PATH_IMAGE008
表示
Figure 902070DEST_PATH_IMAGE009
的前向语义特征,
Figure 179468DEST_PATH_IMAGE010
表示
Figure 393280DEST_PATH_IMAGE011
的后向语义特征,
Figure 515957DEST_PATH_IMAGE012
表示tanh激活函数,
Figure 210243DEST_PATH_IMAGE013
表示将前后的语义特征进行拼接,b表示偏置; 在初始化时,令
Figure 268329DEST_PATH_IMAGE014
3.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤 S2中,将视频标题的词特征表示为
Figure 844804DEST_PATH_IMAGE015
,商品名称的词特征表示为
Figure 974434DEST_PATH_IMAGE016
,商品标签的词特征表示为
Figure 710178DEST_PATH_IMAGE017
将商品名称的词特征作为图的节点
Figure 63799DEST_PATH_IMAGE018
,构建商品名称图
Figure 737357DEST_PATH_IMAGE019
;将视频标题的词特征作 为图的节点
Figure 670678DEST_PATH_IMAGE020
,构建视频标题图
Figure 870715DEST_PATH_IMAGE021
4.根据权利要求3所述的基于商品感知的多模态视频高光检测方法,其特征在于,利用 查询焦点图聚合模块获得属性感知的商品名称图
Figure 785450DEST_PATH_IMAGE022
和属性感知的视频标题图
Figure 274200DEST_PATH_IMAGE023
;所述 的查询焦点图聚合模块的计算过程如下:
2.1)创建商品属性列表
Figure 73529DEST_PATH_IMAGE024
2.2)针对商品名称图
Figure 331335DEST_PATH_IMAGE025
,首先将商品属性列表通过全局平均池化获得查询的全局表 示
Figure 167704DEST_PATH_IMAGE026
,使用
Figure 143750DEST_PATH_IMAGE027
更新商品名称图
Figure 481191DEST_PATH_IMAGE028
中的节点,获得中间图,公式为:
Figure 526593DEST_PATH_IMAGE029
其中,
Figure 861760DEST_PATH_IMAGE030
表示商品属性列表中的词特征个数,
Figure 121840DEST_PATH_IMAGE031
表示商品属性列表中的第i个词特征,
Figure 200654DEST_PATH_IMAGE032
表示平均池化后的词特征;
Figure 105156DEST_PATH_IMAGE033
为对应于图中第j个节点的临时变量,
Figure 611224DEST_PATH_IMAGE034
表示偏 置,
Figure 358600DEST_PATH_IMAGE035
是可训练的矩阵,
Figure 975526DEST_PATH_IMAGE036
代表sigmoid函数,
Figure 249382DEST_PATH_IMAGE037
表示商品名称图
Figure 926351DEST_PATH_IMAGE038
中的第j 个节点,
Figure 161023DEST_PATH_IMAGE039
表示中间图的第j个节点;
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
Figure 253744DEST_PATH_IMAGE040
其中,
Figure 195155DEST_PATH_IMAGE041
表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,
Figure 308605DEST_PATH_IMAGE042
表 示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,
Figure 30573DEST_PATH_IMAGE043
表示可训练矩 阵,
Figure 989302DEST_PATH_IMAGE044
表示偏置;
Figure 972170DEST_PATH_IMAGE045
表示归一化后的注意力,
Figure 990942DEST_PATH_IMAGE046
表示图的节点数,
Figure 200206DEST_PATH_IMAGE047
表示更新后的图 中的第i个节点;
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结 构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图
Figure 634730DEST_PATH_IMAGE048
同理,针对视频标题图
Figure 550733DEST_PATH_IMAGE049
,首先将商品属性列表通过全局平均池化获得查询的全局表 示
Figure 802723DEST_PATH_IMAGE050
,使用
Figure 171387DEST_PATH_IMAGE051
更新视频标题图
Figure 658869DEST_PATH_IMAGE052
中的节点,获得中间图;之后,使用节点级加性注意力 机制和线性同义词库的加权来融合图的特征,遍历图中所有的节点,由更新后的所有节点 构成具有词库查询注意特征的图结构,即属性感知的视频标题图
Figure 491696DEST_PATH_IMAGE053
5.根据权利要求4所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤 2.1)中的商品属性列表
Figure 852270DEST_PATH_IMAGE054
采用商品标签的词特征,即
Figure 645914DEST_PATH_IMAGE055
6.根据权利要求4所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤2.4)中的图神经网络GCN用于给节点之间的边打上标签,计算过程为:
Figure 750136DEST_PATH_IMAGE056
其中,
Figure 703049DEST_PATH_IMAGE057
Figure 234524DEST_PATH_IMAGE058
是用于打标签的模型参数,
Figure 764731DEST_PATH_IMAGE059
是最终图
Figure 407065DEST_PATH_IMAGE060
中的第i个节点及其相邻 节点集合,
Figure 214484DEST_PATH_IMAGE061
是最终图
Figure 916861DEST_PATH_IMAGE062
中的第j个节点在第
Figure 685097DEST_PATH_IMAGE063
层的特征表达,
Figure 131122DEST_PATH_IMAGE064
是最终图
Figure 793047DEST_PATH_IMAGE065
中的 第i个节点在第
Figure 666325DEST_PATH_IMAGE066
层的特征表达,
Figure 905546DEST_PATH_IMAGE067
表示图神经网络GCN的运算,
Figure 217578DEST_PATH_IMAGE068
表示i、j两个节 点在第
Figure 671694DEST_PATH_IMAGE069
层基于门限机制的值;
通过含有l层的图神经网络GCN计算,由每条边的最终特征表达构成句法感知的语义表 达
Figure 653556DEST_PATH_IMAGE070
,下角标m表示最终图
Figure 458701DEST_PATH_IMAGE071
中边的数量。
7.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S3具体为:
3.1)建立共同注意力模块,表示为:
Figure 308845DEST_PATH_IMAGE072
其中,Q、K和V分别表示查询、键和值,
Figure 883046DEST_PATH_IMAGE073
表示放缩点积自注意力,d k 表示注意 力参数,上角标T表示转置;
3.2)将查询Q设置为
Figure 285077DEST_PATH_IMAGE074
,将键K、值V均设置为
Figure 577519DEST_PATH_IMAGE075
,将 句法感知的文本信息表示
Figure 965775DEST_PATH_IMAGE076
转换为句法感知的视觉表达
Figure 394482DEST_PATH_IMAGE077
,计算公式为:
Figure 983726DEST_PATH_IMAGE078
其中,
Figure 294622DEST_PATH_IMAGE079
是可学习矩阵,
Figure 424252DEST_PATH_IMAGE080
是一个线性变换的前馈模块,使用
Figure 159995DEST_PATH_IMAGE081
来稳定训练,
Figure 716879DEST_PATH_IMAGE082
表示归一化;
同理,将Q设置为
Figure 780650DEST_PATH_IMAGE083
,将键K、值V均设置为
Figure 713971DEST_PATH_IMAGE084
,将自 注意力语义表示
Figure 54953DEST_PATH_IMAGE085
转换为句法感知的语义表达
Figure 782738DEST_PATH_IMAGE086
3.3)融合视觉表达
Figure 333805DEST_PATH_IMAGE087
和语义表达
Figure 805238DEST_PATH_IMAGE088
,得到每一个视频片段的跨模态语义表示
Figure 249994DEST_PATH_IMAGE089
,公 式为:
Figure 414259DEST_PATH_IMAGE090
其中,
Figure 452622DEST_PATH_IMAGE091
表示singmoid函数,
Figure 462167DEST_PATH_IMAGE092
是可训练矩阵;
Figure 777742DEST_PATH_IMAGE093
表示Hadamard乘 积,表示对应位置元素相乘;
Figure 847329DEST_PATH_IMAGE094
表示偏置,
Figure 372988DEST_PATH_IMAGE095
表示视觉表达
Figure 186223DEST_PATH_IMAGE096
中的第i个元素;
遍历所有的视频片段,构成视频片段的跨模态语义集合
Figure 605572DEST_PATH_IMAGE097
3.4)将跨模态语义集合F作为第二Bi-GRU网络的输入,学习得到最终的语义表示
Figure 111640DEST_PATH_IMAGE098
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度
Figure 859016DEST_PATH_IMAGE099
,公式为:
Figure 475942DEST_PATH_IMAGE100
其中,
Figure 500530DEST_PATH_IMAGE101
表示sigmoid激活函数,
Figure 177499DEST_PATH_IMAGE102
Figure 412171DEST_PATH_IMAGE103
表示全连接层的网络参数,
Figure 567209DEST_PATH_IMAGE104
表示第i个 视频片段的跨模态语义表示。
8.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S4具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v 1,v 2,…,v k };
4.2)计算两两节点之间的相关指数:
Figure 695571DEST_PATH_IMAGE105
其中,I(v i, v j)和U(v i, v j)分别是两个候选片段的交集和并集,v iv j分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k;
4.3)计算两两节点的中心距离:
Figure 605758DEST_PATH_IMAGE106
其中,d(v i, v j) 是两个候选片段的中心距离,c i, c j分别是v i, v j的中心坐标;
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
Figure 265410DEST_PATH_IMAGE107
其中,
Figure 161821DEST_PATH_IMAGE108
是可调节参数,
Figure 957739DEST_PATH_IMAGE109
表示cos函数;
4.5)设置阈值
Figure 38828DEST_PATH_IMAGE110
,当
Figure 185775DEST_PATH_IMAGE111
时,用边连接两个节点,构建无向图G。
9.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S5具体为:
5.1)对无向图G进行K层的图卷积运算:
Figure 135145DEST_PATH_IMAGE112
其中,1≤k≤K,
Figure 51149DEST_PATH_IMAGE113
是第k层的可学习参数,
Figure 37559DEST_PATH_IMAGE114
是候选片段在第k层的隐藏特征,
Figure 671803DEST_PATH_IMAGE115
是输入特征,即步骤S4构建的无向图G;
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
Figure 910017DEST_PATH_IMAGE116
其中,||代表级联操作;
5.3)使用全连接层和激活函数计算预测高光片段的索引:
Figure 946107DEST_PATH_IMAGE117
式中,
Figure 103418DEST_PATH_IMAGE118
表示全连接层,索引
Figure 224958DEST_PATH_IMAGE119
分别表示预测边界,
Figure 516131DEST_PATH_IMAGE120
表示图 卷积运算。
10.一种基于权利要求1所述商品感知的多模态视频高光检测方法的检测系统,其特征在于,包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
CN202110397055.0A 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其系统 Active CN112801762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397055.0A CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397055.0A CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其系统

Publications (2)

Publication Number Publication Date
CN112801762A true CN112801762A (zh) 2021-05-14
CN112801762B CN112801762B (zh) 2021-08-03

Family

ID=75816972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397055.0A Active CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其系统

Country Status (1)

Country Link
CN (1) CN112801762B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254716A (zh) * 2021-05-26 2021-08-13 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113379786A (zh) * 2021-06-30 2021-09-10 深圳市斯博科技有限公司 图像抠图方法、装置、计算机设备及存储介质
CN114332729A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频场景检测标注方法及系统
CN116567350A (zh) * 2023-05-19 2023-08-08 上海国威互娱文化科技有限公司 全景视频数据处理方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189006A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Robust error correction with multi-model representation for face recognition
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111311364A (zh) * 2020-02-13 2020-06-19 山东大学 基于多模态商品评论分析的商品推荐方法及系统
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
US20200272856A1 (en) * 2019-02-25 2020-08-27 Walmart Apollo, Llc Systems and methods of personalized product recognition through multi-model image processing
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112511854A (zh) * 2020-11-27 2021-03-16 刘亚虹 一种直播视频精彩片段生成方法、装置、介质和设备
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189006A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Robust error correction with multi-model representation for face recognition
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
US20200272856A1 (en) * 2019-02-25 2020-08-27 Walmart Apollo, Llc Systems and methods of personalized product recognition through multi-model image processing
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐系统及推荐方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111311364A (zh) * 2020-02-13 2020-06-19 山东大学 基于多模态商品评论分析的商品推荐方法及系统
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112511854A (zh) * 2020-11-27 2021-03-16 刘亚虹 一种直播视频精彩片段生成方法、装置、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI DANDAN等: "A Multi-model Organ Segmentation Method Based on Abdominal Ultrasound Image", 《2020 15TH IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP)》 *
汪达舟: "面向跨模态商品搜索的深度卷积与特征融合算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254716A (zh) * 2021-05-26 2021-08-13 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113254716B (zh) * 2021-05-26 2022-05-24 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113379786A (zh) * 2021-06-30 2021-09-10 深圳市斯博科技有限公司 图像抠图方法、装置、计算机设备及存储介质
CN113379786B (zh) * 2021-06-30 2024-02-02 深圳万兴软件有限公司 图像抠图方法、装置、计算机设备及存储介质
CN114332729A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频场景检测标注方法及系统
CN114332729B (zh) * 2021-12-31 2024-02-02 西安交通大学 一种视频场景检测标注方法及系统
CN116567350A (zh) * 2023-05-19 2023-08-08 上海国威互娱文化科技有限公司 全景视频数据处理方法及系统
CN116567350B (zh) * 2023-05-19 2024-04-19 上海国威互娱文化科技有限公司 全景视频数据处理方法及系统

Also Published As

Publication number Publication date
CN112801762B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其系统
CN112214685B (zh) 一种基于知识图谱的个性化推荐方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN111368870B (zh) 一种基于模态内间协同多线性池化的视频时序定位方法
CN114693397B (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN111522936B (zh) 一种包含情感的智能客服对话回复生成方法、装置及电子设备
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN118103834A (zh) 一种信息获取方法以及装置
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115309939A (zh) 基于时空语义分解的视频片段定位系统
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
Nabati et al. Multimodal video-text matching using a deep bifurcation network and joint embedding of visual and textual features
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN116680578A (zh) 一种基于跨模态模型的深度语义理解方法
CN112785372B (zh) 一种基于语义关系的智能推荐方法
CN115269984A (zh) 一种专业情报推荐方法和系统
CN115392474A (zh) 一种基于迭代优化的局部感知图表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant