CN115687687B - 一种面向开放域查询的视频片段搜索方法及系统 - Google Patents

一种面向开放域查询的视频片段搜索方法及系统 Download PDF

Info

Publication number
CN115687687B
CN115687687B CN202310010413.7A CN202310010413A CN115687687B CN 115687687 B CN115687687 B CN 115687687B CN 202310010413 A CN202310010413 A CN 202310010413A CN 115687687 B CN115687687 B CN 115687687B
Authority
CN
China
Prior art keywords
representation
data
natural language
video
coding model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310010413.7A
Other languages
English (en)
Other versions
CN115687687A (zh
Inventor
刘萌
李达
许海振
宋雪萌
郭杰
李晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202310010413.7A priority Critical patent/CN115687687B/zh
Publication of CN115687687A publication Critical patent/CN115687687A/zh
Application granted granted Critical
Publication of CN115687687B publication Critical patent/CN115687687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于互联网技术领域,提供了一种面向开放域查询的视频片段搜索方法及系统。该方法包括,获取视频数据和自然语言查询描述数据;基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;基于视频数据,得到候选时序视频片段;计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;训练包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。本发明通过融入知识图谱,增强开放域查询描述中关键词语信息的理解,获得更精准的开放域自然语言查询表示。

Description

一种面向开放域查询的视频片段搜索方法及系统
技术领域
本发明属于互联网技术领域,尤其涉及一种面向开放域查询的视频片段搜索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着移动影像捕捉设备以及监控设备的日益普及,视频数量呈现指数级增长,基于自然语言的人机交互行为变得越来越普及。其中,基于自然语言查询的视频行为片段搜索——从视频流中搜索出与给定查询描述一致的时序行为片段广泛得到工业界和学术界的关注,因其在智能监控和安防等领域的重要应用意义。
虽然现有基于自然语言查询描述的视频行为片段搜索研究取得不错的进展,但是它们很难精准泛化应用于真实场景中。其主要原因如下:
1)它们均借助封闭数据集上训练的词嵌入模型,对查询语句中词语进行编码。然而,真实开放场景每天都会有新生事物产生,伴随而之产生的还有新行为。显然地,封闭数据集上预训练得到的词嵌入模型,无法对开放域中的不断涌现的新物体或行为信息进行精准理解与编码;
2)它们均借助于预训练好的语法解析工具包(如,语义角色树)对复杂查询描述进行分解。但是,由于封闭场景和开放场景中数据分布的差异性,现有语法解析工具很难精准地对开放域自然语言查询进行结构化分解,继而无法准确地理解查询语句内容。
由此可见,对开放场景视频目标行为搜索而言,开放域的自然语言查询语句的完备理解与表示是一个亟待探究的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种面向开放域查询的视频片段搜索方法及系统,其通过融入知识图谱信息,增强开放域查询描述中关键词语信息的理解,同时结合一种数据驱动的语句结构化解析方法,自适应地对查询语句进行多粒度分解,加深对开放域查询语句的理解与编码,从而获得更精准的开放域自然语言查询表示,以进一步提升目标行为片段搜索的精准度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种面向开放域查询的视频片段搜索方法。
一种面向开放域查询的视频流行为片段搜索方法,包括:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
进一步地,所述基于视频数据,得到候选时序视频片段的具体过程包括:
根据视频数据,提取视频帧,得到视频单元,采用C3D网络提取视频单元,依据视频单元构建二维时序矩阵;对二维时序矩阵中的视频单元进行最大池化处理,得到候选视频时序动作片段。
进一步地,所述词语编码模型为包含12层Transformer的BERT模型。
进一步地,所述得到预训练的词语编码模型的过程具体包括:
在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;
从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;
根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型。
更进一步地,所述知识嵌入损失为:
Figure 655700DEST_PATH_IMAGE001
其中,
Figure 340759DEST_PATH_IMAGE002
Figure 816740DEST_PATH_IMAGE003
Figure 638065DEST_PATH_IMAGE004
分别为第
Figure 908509DEST_PATH_IMAGE005
条知识图谱数据的头部表示、关系表示和尾部表示,
Figure 815286DEST_PATH_IMAGE006
分数评估函数,
Figure 94957DEST_PATH_IMAGE007
为预定义参数,
Figure 770789DEST_PATH_IMAGE008
为sigmoid激活函数,
Figure DEST_PATH_IMAGE009
为负样本 数目,
Figure 946555DEST_PATH_IMAGE010
为第
Figure 465262DEST_PATH_IMAGE005
条知识图谱数据的第
Figure 158411DEST_PATH_IMAGE011
个负尾部实体,
Figure 78963DEST_PATH_IMAGE012
为知识图谱数据数目。
进一步地,所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:
利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;
根据底层节点表示,计算底层节点的隐藏和单元状态表示;
自底向上聚集节点信息,直至得到自然语言查询描述表示。
更进一步地,所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:
步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;
步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;
步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;
步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
本发明的第二个方面提供一种面向开放域查询的视频片段搜索系统。
一种面向开放域查询的视频片段搜索系统,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明所述的一种面向开放域查询的视频流行为片段搜索方法及系统,利用知识增强的词语编码模型和数据驱动的结构化自然语言查询描述编码策略,一致性地增强了开放场景多样化自然语言描述信息的理解与表示,显著提升了开放场景下目标视频片段搜索精准度。
本发明所述的知识增强的词语编码模型,能够为不同词语表示中嵌入知识信息,有效地提升开放场景多样化自然语言查询描述词语信息的理解与表示;值得注意的是,该模型也可应用于其他涉及文本模态信息的领域,用以加强对文本信息的理解。
本发明引入的数据驱动的结构化自然语言查询描述编码策略,能够自动且灵活地对自然语言查询描述进行结构化分解,并自底向上聚集不用粒度语义信息,以加强自然语言查询描述的理解与表示;值得注意的是,该策略可用于其他涉及文本查询的开放域应用领域,用以加强对查询内容的理解与表示。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明示出的面向开放域查询的视频片段搜索方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
本实施例提供了一种面向开放域查询的视频片段搜索方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
下面将结合附图,对本实施例中的技术方案进行清楚、完整地描述。如图1所示,一种面向开放域查询的视频流行为片段搜索方法,包括:
步骤(1):接收视频数据、自然语言查询描述数据、以及维基百科文本语料库数据;
步骤(2)基于维基百科文本语料库数据训练知识增强的词语编码模型;
步骤(3)利用数据驱动的结构化自然语言描述词语编码模型,获取自然语言查询描述表示;
步骤(4)基于相似度分数的目标视频片段搜索。
本实施例的步骤(1)中接收视频数据、自然语言查询描述数据、以及维基百科文本语料库的具体步骤包括:
步骤(1-1):接收维基百科文本语料库数据,获取全部文本信息,记为
Figure 832155DEST_PATH_IMAGE013
,这里
Figure 572578DEST_PATH_IMAGE014
表示第
Figure 69418DEST_PATH_IMAGE011
条文本,
Figure 844476DEST_PATH_IMAGE015
表示文本数据的数目;同时,获取知识图谱三元组数据,记为
Figure 768570DEST_PATH_IMAGE016
,这里
Figure 261868DEST_PATH_IMAGE017
表示第
Figure 296820DEST_PATH_IMAGE005
条数据的头部实体描述信息,
Figure 926385DEST_PATH_IMAGE018
表示第
Figure 21380DEST_PATH_IMAGE005
条 图谱数据的关系实体描述信息,
Figure 736395DEST_PATH_IMAGE019
表示第
Figure 575038DEST_PATH_IMAGE005
条图谱数据的尾部实体描述信息,
Figure 324688DEST_PATH_IMAGE012
表示知 识图谱三元组数据的数目。
步骤(1-2):接收自然语言查询描述信息,记为
Figure 590584DEST_PATH_IMAGE020
,这里
Figure 199420DEST_PATH_IMAGE021
表示查询中第
Figure 700809DEST_PATH_IMAGE022
个词语,
Figure 180331DEST_PATH_IMAGE023
表示自然语言查询描述信息中词语数目。
步骤(1-3):接收视频数据,以每秒32帧的帧率提取视频帧,并以16帧为窗口大小 进行不重叠的划窗,得到视频单元信息,即每一个视频单元包含16个视频帧;随后,采用C3D 网络提取视频单元表示;依据视频单元构建二维时序矩阵,矩阵中每一个元素表示起始和 结束分别为对应索引坐标视频单元的一个候选视频时序动作片段;将起始和结束区间内的 视频单元进行最大池化,得到候选视频时序动作片段表示,记为
Figure 741763DEST_PATH_IMAGE024
, 这里
Figure 306736DEST_PATH_IMAGE025
表示第
Figure 611816DEST_PATH_IMAGE011
个候选时序视频片段的表示,
Figure 742583DEST_PATH_IMAGE026
表示候选时序视频片段 数目。
本实施例的步骤(2)中获取预训练的知识增强的词语编码模型具体步骤包括:
步骤(2-1):采用包含12层Transformer且嵌入维度为768的BERT模型作为词语编 码模型,记为
Figure 350282DEST_PATH_IMAGE027
步骤(2-2):在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实 体的描述信息开始处插入特殊占位符
Figure 261606DEST_PATH_IMAGE028
将三个文本序列分别输入到词语编码模型
Figure 245742DEST_PATH_IMAGE027
中,取出
Figure 824491DEST_PATH_IMAGE028
位置对应的表示,作 为头部实体、关系实体和尾部实体的特征表示,记为
Figure 603091DEST_PATH_IMAGE029
,这里
Figure 1712DEST_PATH_IMAGE002
Figure 523960DEST_PATH_IMAGE003
,和
Figure 957215DEST_PATH_IMAGE004
分别为第
Figure 906717DEST_PATH_IMAGE005
条知识图谱数据的头部表示、关系表示和尾部表示。
计算知识嵌入损失:
Figure 58212DEST_PATH_IMAGE030
这里,
Figure 118572DEST_PATH_IMAGE006
分数评估函数,
Figure 140755DEST_PATH_IMAGE007
为预定义参数,
Figure 385791DEST_PATH_IMAGE008
为sigmoid激活 函数,
Figure 165529DEST_PATH_IMAGE009
为负样本数目,
Figure 29579DEST_PATH_IMAGE010
为第
Figure 437427DEST_PATH_IMAGE005
条知识图谱数据的第
Figure 728731DEST_PATH_IMAGE011
个负尾部实体。知识图谱负数据样本的 构造方式为:固定头部实体以及关系实体,随机采样尾部实体。
步骤(2-3):从维基百科数据集中随机抽取句子
Figure 589240DEST_PATH_IMAGE014
,执行掩码语言建模。即随机在 句子中选择一个词语用特殊字符<mask>替换,然后将替换后的句子输入到词语编码模型
Figure 256981DEST_PATH_IMAGE027
中,将<mask>位置得到的表示输入到分类其中,进行词语预测,这里采用交叉熵损失函数, 记为
Figure 519335DEST_PATH_IMAGE031
步骤(2-4):将知识嵌入损失与交叉熵损失联合优化,得到知识增强的词语编码模 型
Figure 981541DEST_PATH_IMAGE027
Figure 329346DEST_PATH_IMAGE032
本实施例的步骤(3)利用数据驱动的结构化自然语言描述词语编码模型,获取自然语言查询描述表示的具体步骤包括:
步骤(3-1):将自然语言查询描述
Figure 800778DEST_PATH_IMAGE020
输入到预训练的词语编 码模型
Figure 917639DEST_PATH_IMAGE027
中,得到词语表示序列
Figure 550745DEST_PATH_IMAGE033
,并将其看作底层节点信息表示, 这里
Figure 385846DEST_PATH_IMAGE034
表示第
Figure 395391DEST_PATH_IMAGE011
个词语的表示;
步骤(3-2):计算底层节点(第一层)的隐藏和单元状态表示:
Figure 366758DEST_PATH_IMAGE035
这里,
Figure 436345DEST_PATH_IMAGE036
Figure 504881DEST_PATH_IMAGE037
为待学习的参数,
Figure 318116DEST_PATH_IMAGE038
为第一层中第
Figure 143990DEST_PATH_IMAGE011
个节点的隐藏状态表示,
Figure 384478DEST_PATH_IMAGE039
为 第一层中第
Figure 928592DEST_PATH_IMAGE011
个节点的单元状态表示,
Figure 811098DEST_PATH_IMAGE040
为第一层中第
Figure 632423DEST_PATH_IMAGE011
个节点的表示;
步骤(3-3):自底向上聚集节点信息,直至得到根节点表示,即自然语言查询描述的全局表示。注意:每一层中聚集相邻两个节点的信息,并且仅保留其中一个聚集结果到上一层级结构。
具体地,假设第
Figure 168447DEST_PATH_IMAGE041
层中包含
Figure 75223DEST_PATH_IMAGE042
个节点,其中第
Figure 354894DEST_PATH_IMAGE011
个节点的表示为
Figure 30726DEST_PATH_IMAGE043
,这 里
Figure 737651DEST_PATH_IMAGE044
为第
Figure 131723DEST_PATH_IMAGE041
层中第
Figure 949507DEST_PATH_IMAGE011
个节点的隐藏状态表示,
Figure 745424DEST_PATH_IMAGE045
为第
Figure 357671DEST_PATH_IMAGE041
层中第
Figure 239040DEST_PATH_IMAGE011
个节点的单元状态表示,将该 层所有节点的表示记为
Figure 860514DEST_PATH_IMAGE046
Figure 510938DEST_PATH_IMAGE041
层中,如果相邻两个节点
Figure 559666DEST_PATH_IMAGE047
Figure 662751DEST_PATH_IMAGE048
将被合并,那么它们聚合后所对应的第
Figure 822337DEST_PATH_IMAGE049
层的节点表示为
Figure 592847DEST_PATH_IMAGE050
可通过如下公式计算得到:
Figure 812475DEST_PATH_IMAGE051
Figure 402857DEST_PATH_IMAGE052
Figure 366133DEST_PATH_IMAGE053
这里,
Figure 991150DEST_PATH_IMAGE054
为输入门信息,
Figure 381680DEST_PATH_IMAGE055
为左侧遗忘门信息,
Figure 459357DEST_PATH_IMAGE056
为右侧遗忘门信息,
Figure 960746DEST_PATH_IMAGE057
为短期记 忆信息,
Figure 440269DEST_PATH_IMAGE058
为输出门信息,
Figure 1700DEST_PATH_IMAGE008
为sigmoid激活函数,
Figure 566674DEST_PATH_IMAGE059
Figure 871753DEST_PATH_IMAGE060
为待学习参数,
Figure 205782DEST_PATH_IMAGE061
为按位元素 相乘操作。针对第
Figure 938115DEST_PATH_IMAGE041
层中两两相邻的节点进行聚合运算,得到
Figure 990385DEST_PATH_IMAGE049
层所有候选节点的表示, 记为
Figure 99155DEST_PATH_IMAGE062
Figure 287691DEST_PATH_IMAGE063
为第
Figure 190925DEST_PATH_IMAGE049
层节点数目,且
Figure 730491DEST_PATH_IMAGE064
;
引入一个可学习的参数向量
Figure 377373DEST_PATH_IMAGE065
,计算每一个候选节点表示与查询向量的相关度分 数:
Figure 685994DEST_PATH_IMAGE066
这里,
Figure 760129DEST_PATH_IMAGE067
表示第
Figure 786991DEST_PATH_IMAGE049
层第
Figure 971985DEST_PATH_IMAGE011
个节点与查询向量的相关性,
Figure 135113DEST_PATH_IMAGE068
为第
Figure 645729DEST_PATH_IMAGE049
层第
Figure 894307DEST_PATH_IMAGE011
个候选节点表示的隐藏状态表示;
然后,用Gumbel-Softmax计算分数分布:
Figure 882992DEST_PATH_IMAGE069
Figure 166206DEST_PATH_IMAGE070
Figure 582144DEST_PATH_IMAGE071
其中,
Figure 318018DEST_PATH_IMAGE072
为预定义的参数,
Figure 110394DEST_PATH_IMAGE073
为从均匀分布中采样随机数,
Figure 248114DEST_PATH_IMAGE074
为附加随机噪声 信息。
计算
Figure 834953DEST_PATH_IMAGE049
层采样的独热向量
Figure 58124DEST_PATH_IMAGE075
:
Figure 388612DEST_PATH_IMAGE076
其中,
Figure 380838DEST_PATH_IMAGE077
为第
Figure 404158DEST_PATH_IMAGE049
层第
Figure 114625DEST_PATH_IMAGE011
个节点的采样概率值。注意:独热向量
Figure 983224DEST_PATH_IMAGE078
中仅有一个 元素值为1,其余均为0。
依据独热向量保留相应的节点信息,即独热向量中值为1的位置所对应的节点表 示被保留,其余位置节点信息均为第
Figure 95536DEST_PATH_IMAGE041
层中相应节点信息,即
Figure 24178DEST_PATH_IMAGE079
=
Figure 221941DEST_PATH_IMAGE080
,这里
Figure 718450DEST_PATH_IMAGE081
为独热向量中值为1的位置所对应的第
Figure 685269DEST_PATH_IMAGE049
层节点表示。
重复执行上述操作
Figure 50391DEST_PATH_IMAGE082
次,直到
Figure 469871DEST_PATH_IMAGE083
,便可得到自然语言查询描述表示,记为
Figure 945852DEST_PATH_IMAGE084
本实施例的步骤(4)基于相似度分数的目标视频片段搜索的具体步骤包括:
步骤(4-1):计算每一个候选时序视频片段与自然语言查询表示相似性:
Figure 767177DEST_PATH_IMAGE085
这里,
Figure 303201DEST_PATH_IMAGE086
表示第
Figure 209977DEST_PATH_IMAGE011
个候选时序视频片段与查询描述的相似度分数。
步骤(4-2):将相似性结果最高的候选时序视频片段作为目标视频片段返回。
实施例二
本实施例提供了一种面向开放域查询的视频片段搜索系统。
一种面向开放域查询的视频片段搜索系统,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
此处需要说明的是,上述数据获取模块、自然语言查询描述表示模块、候选时序视频片段模块、输出模块和词语编码模型训练模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种面向开放域查询的视频流行为片段搜索方法,其特征在于,包括:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型;
所述得到预训练的词语编码模型的过程具体包括:在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型;
所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;根据底层节点表示,计算底层节点的隐藏和单元状态表示;自底向上聚集节点信息,直至得到自然语言查询描述表示;所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
2.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述基于视频数据,得到候选时序视频片段的具体过程包括:
根据视频数据,提取视频帧,得到视频单元,采用C3D网络提取视频单元,依据视频单元构建二维时序矩阵;对二维时序矩阵中的视频单元进行最大池化处理,得到候选视频时序动作片段。
3.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述词语编码模型为包含12层Transformer的BERT模型。
4.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述知识嵌入损失为:
Figure QLYQS_1
其中,
Figure QLYQS_3
、/>
Figure QLYQS_6
和/>
Figure QLYQS_9
分别为第/>
Figure QLYQS_4
条知识图谱数据的头部表示、关系表示和尾部表示,
Figure QLYQS_8
分数评估函数,/>
Figure QLYQS_11
为预定义参数,/>
Figure QLYQS_13
为sigmoid激活函数,/>
Figure QLYQS_5
为负样本数目,/>
Figure QLYQS_7
为第/>
Figure QLYQS_10
条知识图谱数据的第/>
Figure QLYQS_12
个负尾部实体,/>
Figure QLYQS_2
为知识图谱数据数目。
5.一种面向开放域查询的视频片段搜索系统,其特征在于,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型;
所述得到预训练的词语编码模型的过程具体包括:在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型;
所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;根据底层节点表示,计算底层节点的隐藏和单元状态表示;自底向上聚集节点信息,直至得到自然语言查询描述表示;所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的面向开放域查询的视频片段搜索方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的面向开放域查询的视频片段搜索方法中的步骤。
CN202310010413.7A 2023-01-05 2023-01-05 一种面向开放域查询的视频片段搜索方法及系统 Active CN115687687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310010413.7A CN115687687B (zh) 2023-01-05 2023-01-05 一种面向开放域查询的视频片段搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310010413.7A CN115687687B (zh) 2023-01-05 2023-01-05 一种面向开放域查询的视频片段搜索方法及系统

Publications (2)

Publication Number Publication Date
CN115687687A CN115687687A (zh) 2023-02-03
CN115687687B true CN115687687B (zh) 2023-03-28

Family

ID=85057478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310010413.7A Active CN115687687B (zh) 2023-01-05 2023-01-05 一种面向开放域查询的视频片段搜索方法及系统

Country Status (1)

Country Link
CN (1) CN115687687B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186350B (zh) * 2023-04-23 2023-07-25 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116385946B (zh) * 2023-06-06 2023-08-29 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116775497B (zh) * 2023-08-17 2023-11-14 北京遥感设备研究所 数据库测试用例生成需求描述编码方法
CN117033666B (zh) * 2023-10-07 2024-01-26 之江实验室 一种多模态知识图谱的构建方法、装置、存储介质及设备
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN118135452B (zh) * 2024-02-02 2024-08-27 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN114565104A (zh) * 2022-03-01 2022-05-31 腾讯科技(深圳)有限公司 语言模型的预训练方法、结果推荐方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN114565104A (zh) * 2022-03-01 2022-05-31 腾讯科技(深圳)有限公司 语言模型的预训练方法、结果推荐方法及相关装置

Also Published As

Publication number Publication date
CN115687687A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN115687687B (zh) 一种面向开放域查询的视频片段搜索方法及系统
US10380236B1 (en) Machine learning system for annotating unstructured text
CN109960810B (zh) 一种实体对齐方法及装置
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN109508584A (zh) 视频分类的方法、信息处理的方法以及服务器
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN109740151A (zh) 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN117033657A (zh) 一种信息检索方法及装置
CN116702784B (zh) 实体链接方法、装置、计算机设备和存储介质
CN114330704A (zh) 语句生成模型更新方法、装置、计算机设备和存储介质
CN115248855A (zh) 文本处理方法及装置、电子设备、计算机可读存储介质
CN117131273A (zh) 资源搜索方法、装置、计算机设备、介质及产品
CN116644180A (zh) 文本匹配模型的训练方法、训练系统和文本标签确定方法
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN112364666B (zh) 文本表征方法、装置及计算机设备
WO2023052827A1 (en) Processing a sequence of data items
Tang [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant