CN115687687B - 一种面向开放域查询的视频片段搜索方法及系统 - Google Patents
一种面向开放域查询的视频片段搜索方法及系统 Download PDFInfo
- Publication number
- CN115687687B CN115687687B CN202310010413.7A CN202310010413A CN115687687B CN 115687687 B CN115687687 B CN 115687687B CN 202310010413 A CN202310010413 A CN 202310010413A CN 115687687 B CN115687687 B CN 115687687B
- Authority
- CN
- China
- Prior art keywords
- representation
- data
- natural language
- video
- coding model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000006399 behavior Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网技术领域,提供了一种面向开放域查询的视频片段搜索方法及系统。该方法包括,获取视频数据和自然语言查询描述数据;基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;基于视频数据,得到候选时序视频片段;计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;训练包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。本发明通过融入知识图谱,增强开放域查询描述中关键词语信息的理解,获得更精准的开放域自然语言查询表示。
Description
技术领域
本发明属于互联网技术领域,尤其涉及一种面向开放域查询的视频片段搜索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着移动影像捕捉设备以及监控设备的日益普及,视频数量呈现指数级增长,基于自然语言的人机交互行为变得越来越普及。其中,基于自然语言查询的视频行为片段搜索——从视频流中搜索出与给定查询描述一致的时序行为片段广泛得到工业界和学术界的关注,因其在智能监控和安防等领域的重要应用意义。
虽然现有基于自然语言查询描述的视频行为片段搜索研究取得不错的进展,但是它们很难精准泛化应用于真实场景中。其主要原因如下:
1)它们均借助封闭数据集上训练的词嵌入模型,对查询语句中词语进行编码。然而,真实开放场景每天都会有新生事物产生,伴随而之产生的还有新行为。显然地,封闭数据集上预训练得到的词嵌入模型,无法对开放域中的不断涌现的新物体或行为信息进行精准理解与编码;
2)它们均借助于预训练好的语法解析工具包(如,语义角色树)对复杂查询描述进行分解。但是,由于封闭场景和开放场景中数据分布的差异性,现有语法解析工具很难精准地对开放域自然语言查询进行结构化分解,继而无法准确地理解查询语句内容。
由此可见,对开放场景视频目标行为搜索而言,开放域的自然语言查询语句的完备理解与表示是一个亟待探究的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种面向开放域查询的视频片段搜索方法及系统,其通过融入知识图谱信息,增强开放域查询描述中关键词语信息的理解,同时结合一种数据驱动的语句结构化解析方法,自适应地对查询语句进行多粒度分解,加深对开放域查询语句的理解与编码,从而获得更精准的开放域自然语言查询表示,以进一步提升目标行为片段搜索的精准度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种面向开放域查询的视频片段搜索方法。
一种面向开放域查询的视频流行为片段搜索方法,包括:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
进一步地,所述基于视频数据,得到候选时序视频片段的具体过程包括:
根据视频数据,提取视频帧,得到视频单元,采用C3D网络提取视频单元,依据视频单元构建二维时序矩阵;对二维时序矩阵中的视频单元进行最大池化处理,得到候选视频时序动作片段。
进一步地,所述词语编码模型为包含12层Transformer的BERT模型。
进一步地,所述得到预训练的词语编码模型的过程具体包括:
在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;
从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;
根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型。
更进一步地,所述知识嵌入损失为:
进一步地,所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:
利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;
根据底层节点表示,计算底层节点的隐藏和单元状态表示;
自底向上聚集节点信息,直至得到自然语言查询描述表示。
更进一步地,所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:
步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;
步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;
步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;
步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
本发明的第二个方面提供一种面向开放域查询的视频片段搜索系统。
一种面向开放域查询的视频片段搜索系统,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明所述的一种面向开放域查询的视频流行为片段搜索方法及系统,利用知识增强的词语编码模型和数据驱动的结构化自然语言查询描述编码策略,一致性地增强了开放场景多样化自然语言描述信息的理解与表示,显著提升了开放场景下目标视频片段搜索精准度。
本发明所述的知识增强的词语编码模型,能够为不同词语表示中嵌入知识信息,有效地提升开放场景多样化自然语言查询描述词语信息的理解与表示;值得注意的是,该模型也可应用于其他涉及文本模态信息的领域,用以加强对文本信息的理解。
本发明引入的数据驱动的结构化自然语言查询描述编码策略,能够自动且灵活地对自然语言查询描述进行结构化分解,并自底向上聚集不用粒度语义信息,以加强自然语言查询描述的理解与表示;值得注意的是,该策略可用于其他涉及文本查询的开放域应用领域,用以加强对查询内容的理解与表示。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明示出的面向开放域查询的视频片段搜索方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
本实施例提供了一种面向开放域查询的视频片段搜索方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
下面将结合附图,对本实施例中的技术方案进行清楚、完整地描述。如图1所示,一种面向开放域查询的视频流行为片段搜索方法,包括:
步骤(1):接收视频数据、自然语言查询描述数据、以及维基百科文本语料库数据;
步骤(2)基于维基百科文本语料库数据训练知识增强的词语编码模型;
步骤(3)利用数据驱动的结构化自然语言描述词语编码模型,获取自然语言查询描述表示;
步骤(4)基于相似度分数的目标视频片段搜索。
本实施例的步骤(1)中接收视频数据、自然语言查询描述数据、以及维基百科文本语料库的具体步骤包括:
步骤(1-1):接收维基百科文本语料库数据,获取全部文本信息,记为,这里表示第条文本,表示文本数据的数目;同时,获取知识图谱三元组数据,记为,这里表示第条数据的头部实体描述信息,表示第条
图谱数据的关系实体描述信息,表示第条图谱数据的尾部实体描述信息,表示知
识图谱三元组数据的数目。
步骤(1-3):接收视频数据,以每秒32帧的帧率提取视频帧,并以16帧为窗口大小
进行不重叠的划窗,得到视频单元信息,即每一个视频单元包含16个视频帧;随后,采用C3D
网络提取视频单元表示;依据视频单元构建二维时序矩阵,矩阵中每一个元素表示起始和
结束分别为对应索引坐标视频单元的一个候选视频时序动作片段;将起始和结束区间内的
视频单元进行最大池化,得到候选视频时序动作片段表示,记为,
这里表示第个候选时序视频片段的表示,表示候选时序视频片段
数目。
本实施例的步骤(2)中获取预训练的知识增强的词语编码模型具体步骤包括:
计算知识嵌入损失:
步骤(2-3):从维基百科数据集中随机抽取句子,执行掩码语言建模。即随机在
句子中选择一个词语用特殊字符<mask>替换,然后将替换后的句子输入到词语编码模型
中,将<mask>位置得到的表示输入到分类其中,进行词语预测,这里采用交叉熵损失函数,
记为;
本实施例的步骤(3)利用数据驱动的结构化自然语言描述词语编码模型,获取自然语言查询描述表示的具体步骤包括:
步骤(3-2):计算底层节点(第一层)的隐藏和单元状态表示:
步骤(3-3):自底向上聚集节点信息,直至得到根节点表示,即自然语言查询描述的全局表示。注意:每一层中聚集相邻两个节点的信息,并且仅保留其中一个聚集结果到上一层级结构。
这里,为输入门信息,为左侧遗忘门信息,为右侧遗忘门信息,为短期记
忆信息,为输出门信息,为sigmoid激活函数,和为待学习参数,为按位元素
相乘操作。针对第层中两两相邻的节点进行聚合运算,得到层所有候选节点的表示,
记为,为第层节点数目,且;
然后,用Gumbel-Softmax计算分数分布:
本实施例的步骤(4)基于相似度分数的目标视频片段搜索的具体步骤包括:
步骤(4-1):计算每一个候选时序视频片段与自然语言查询表示相似性:
步骤(4-2):将相似性结果最高的候选时序视频片段作为目标视频片段返回。
实施例二
本实施例提供了一种面向开放域查询的视频片段搜索系统。
一种面向开放域查询的视频片段搜索系统,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型。
此处需要说明的是,上述数据获取模块、自然语言查询描述表示模块、候选时序视频片段模块、输出模块和词语编码模型训练模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向开放域查询的视频流行为片段搜索方法,其特征在于,包括:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型;
所述得到预训练的词语编码模型的过程具体包括:在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型;
所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;根据底层节点表示,计算底层节点的隐藏和单元状态表示;自底向上聚集节点信息,直至得到自然语言查询描述表示;所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
2.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述基于视频数据,得到候选时序视频片段的具体过程包括:
根据视频数据,提取视频帧,得到视频单元,采用C3D网络提取视频单元,依据视频单元构建二维时序矩阵;对二维时序矩阵中的视频单元进行最大池化处理,得到候选视频时序动作片段。
3.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述词语编码模型为包含12层Transformer的BERT模型。
5.一种面向开放域查询的视频片段搜索系统,其特征在于,包括:
数据获取模块,其被配置为:获取视频数据和自然语言查询描述数据;
自然语言查询描述表示模块,其被配置为:基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
候选时序视频片段模块,其被配置为:基于视频数据,得到候选时序视频片段;
输出模块,其被配置为:计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
词语编码模型训练模块,其被配置为:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型;
所述得到预训练的词语编码模型的过程具体包括:在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型;
所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;根据底层节点表示,计算底层节点的隐藏和单元状态表示;自底向上聚集节点信息,直至得到自然语言查询描述表示;所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的面向开放域查询的视频片段搜索方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的面向开放域查询的视频片段搜索方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010413.7A CN115687687B (zh) | 2023-01-05 | 2023-01-05 | 一种面向开放域查询的视频片段搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010413.7A CN115687687B (zh) | 2023-01-05 | 2023-01-05 | 一种面向开放域查询的视频片段搜索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115687687A CN115687687A (zh) | 2023-02-03 |
CN115687687B true CN115687687B (zh) | 2023-03-28 |
Family
ID=85057478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310010413.7A Active CN115687687B (zh) | 2023-01-05 | 2023-01-05 | 一种面向开放域查询的视频片段搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687687B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186350B (zh) * | 2023-04-23 | 2023-07-25 | 浙江大学 | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 |
CN116385946B (zh) * | 2023-06-06 | 2023-08-29 | 山东大学 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
CN116775497B (zh) * | 2023-08-17 | 2023-11-14 | 北京遥感设备研究所 | 数据库测试用例生成需求描述编码方法 |
CN117033666B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种多模态知识图谱的构建方法、装置、存储介质及设备 |
CN117076712B (zh) * | 2023-10-16 | 2024-02-23 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
CN118135452B (zh) * | 2024-02-02 | 2024-08-27 | 广州像素数据技术股份有限公司 | 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN114565104A (zh) * | 2022-03-01 | 2022-05-31 | 腾讯科技(深圳)有限公司 | 语言模型的预训练方法、结果推荐方法及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
CN113094550B (zh) * | 2020-01-08 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 视频检索方法、装置、设备和介质 |
CN113963304B (zh) * | 2021-12-20 | 2022-06-28 | 山东建筑大学 | 基于时序-空间图的跨模态视频时序动作定位方法及系统 |
-
2023
- 2023-01-05 CN CN202310010413.7A patent/CN115687687B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN114565104A (zh) * | 2022-03-01 | 2022-05-31 | 腾讯科技(深圳)有限公司 | 语言模型的预训练方法、结果推荐方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115687687A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115687687B (zh) | 一种面向开放域查询的视频片段搜索方法及系统 | |
US10380236B1 (en) | Machine learning system for annotating unstructured text | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
Olmezogullari et al. | Representation of click-stream datasequences for learning user navigational behavior by using embeddings | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN109508584A (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN115695950B (zh) | 一种基于内容感知的视频摘要生成方法 | |
CN109740151A (zh) | 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN117033657A (zh) | 一种信息检索方法及装置 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
CN117131273A (zh) | 资源搜索方法、装置、计算机设备、介质及产品 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN113869049B (zh) | 基于法律咨询问题的具有法律属性的事实抽取方法及装置 | |
CN116050523A (zh) | 一种基于混合知识图的注意力引导增强的常识推理框架 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN112364666B (zh) | 文本表征方法、装置及计算机设备 | |
WO2023052827A1 (en) | Processing a sequence of data items | |
Tang | [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |