CN113963304B - 基于时序-空间图的跨模态视频时序动作定位方法及系统 - Google Patents

基于时序-空间图的跨模态视频时序动作定位方法及系统 Download PDF

Info

Publication number
CN113963304B
CN113963304B CN202111557734.6A CN202111557734A CN113963304B CN 113963304 B CN113963304 B CN 113963304B CN 202111557734 A CN202111557734 A CN 202111557734A CN 113963304 B CN113963304 B CN 113963304B
Authority
CN
China
Prior art keywords
representation
video
time sequence
natural language
language query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111557734.6A
Other languages
English (en)
Other versions
CN113963304A (zh
Inventor
刘萌
齐孟津
田传发
周迪
郭杰
马玉玲
刘新锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202111557734.6A priority Critical patent/CN113963304B/zh
Publication of CN113963304A publication Critical patent/CN113963304A/zh
Application granted granted Critical
Publication of CN113963304B publication Critical patent/CN113963304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/327Calibration thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于数据表示技术领域,提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统,包括:接收视频数据和自然语言查询信息;基于自然语言查询信息确定自然语言查询特征表示;基于视频数据确定候选视频时序动作片段特征表示;基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频时序动作片段的时序偏移量和相关性分数,大幅度提高视频时序动作定位的准确度。

Description

基于时序-空间图的跨模态视频时序动作定位方法及系统
技术领域
本发明属于数据表示技术领域,具体涉及一种基于时序-空间图的跨模态视频时序动作定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
互联网技术的飞速发展和影像采集设备的日益普及,致使视频数量呈指数级增长,并且成为当今社会的一种主流媒体形式。面对如此大规模的视频数据,视频时序动作定位已成为视频分析领域的一个热点研究问题,其旨在从给定视频中定位出所有动作的起始和终止时刻,同时对这些动作的类别进行预测。但是,目前的视频时序动作定位方法只能检测和识别预定义集合内的简单动作,如:跑步、跳高和打篮球。随着真实世界中视频所包含的场景越来越复杂,以及其所涉及的对象、属性和行为交互信息越来越多,固定的动作集合无法覆盖真实世界中全部的动作行为。而利用自然语言可以更加灵活地描述视频中的动作行为,且清晰地表达人们定位包含复杂动作行为视频片段的需求。例如:通过“穿红色衣服戴黑色帽子的人第一次从摄像头下跑过”这样一个复杂的自然语言描述查询,从监控视频流中搜索出对应的视频片段,来辅助人员追踪。因此,研究跨模态视频时序动作定位——智能且高效地从视频中定位出符合复杂自然语言描述的动作片段,是非常必要的,其具有广泛的应用领域,包括但不局限于自动驾驶、机器人导航和监控安防等。
近几年,针对跨模态视频时序动作定位,虽然一些深度学习方法被提出且取得不错的效果,但是仍存在以下几个方面问题:
第一,复杂自然语言查询语句理解与表示方面。用于定位目标时序动作片段的自然语言描述一般较长,可同时蕴含多个实体不同动作行为的描述。现有方法大多采用整体编码形式,对其进行语义理解,导致无法精准捕获查询中细节性的关键信息。与此同时,自然语言描述中有些词语具有一词多义的特点,即词语受其所处上下文语境的影响具有截然不同的含义。
第二,时序动作片段候选集生成与表示方面。现有跨模态视频时序动作定位工作,大多采用滑动窗口、锚点多尺度采样等方式生成时序动作片段候选集,致使候选时序动作片段长度单一且与目标时序动作片段间覆盖率较低,故最终定位结果精度较低。此外,现有方法在对视频片段进行表示时,大多采用全局表示的方式(如,C3D或者I3D),忽略了帧内或者帧间物体的交互信息,导致对视频内容理解不够深入,继而影响目标时序动作片段的定位精度。
发明内容
为了解决上述问题,本发明提出了一种基于时序-空间图的跨模态视频时序动作定位方法及系统,其一方面,基于语义角色树对自然语言查询描述进行理解,得到语义精准的文本表示;另一方面,同时引入时序图和空间图网络,来建模不同物体时序和空间上的关联关系,以增强视频时序动作片段表示。最后,将文本和视频时序动作片段表示提供给相关性分数预测以及定位回归模型,来预测相关性分数和对应时序动作片段的时序偏移量。
根据一些实施例,本发明的第一方案提供了一种基于时序-空间图的跨模态视频时序动作定位方法及系统,采用如下技术方案:
基于时序-空间图的跨模态视频时序动作定位方法,包括:
接收视频数据和自然语言查询信息;
基于自然语言查询信息确定自然语言查询特征表示;
基于视频数据确定候选视频时序动作片段特征表示;
基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;
通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
进一步地,所述基于自然语言查询信息确定自然语言查询特征表示,包括:
依据自然语言查询信息,获取初始自然语言查询特征表示;
利用语义角色标注工具,对自然语言查询信息中语义关系进行标注,构成语义角色树,;
根据语义角色树叶子节点的名词表示,得到中间节点的动词表示;
根据语义角色树中间节点的动词表示,得到根节点的自然语言查询特征表示;
将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终自然语言查询特征表示。
进一步地,所述语义角色树的根节点为自然语言查询信息,叶子节点为自然语言查询信息中的名词信息,中间节点为自然语言查询信息中的动词信息。
进一步地,所述将根据语义角色树编码得到的自然语言查询特征表示,包括:
对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作,得到新的中间节点的动词表示;
将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示;
将所有的增强后的中间节点的动词表示执行平均池化操作,得到增强后的根节点的自然语言查询特征表示。
进一步地,所述基于所述视频数据确定候选视频时序动作片段特征表示,包括:
基于所述视频数据,利用时序和空间图网络提取视频单元的表示;
根据二维时序矩阵构建视频时序动作片段候选集,并基于视频单元表示得到候选视频时序动作片段特征表示。
进一步地,基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:
基于所述视频数据提取视频帧序列,对所述视频帧序列进行划分得到视频单元;
对视频单元采用C3D网络,提取视频单元的全局表示;
针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合;
基于视频单元内所有物体表示构建时序图和空间图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示和空间图强化的视频单元表示;
将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合,得到最终的视频单元表示。
进一步地,所述根据二维时序矩阵构建视频时序动作片段候选集,并基于视频单元表示得到候选视频时序动作片段特征表示,包括:
依据最终的视频单元表示构建二维时序矩阵,矩阵中每一个元素表示起始和结束分别为对应索引坐标视频单元的一个视频时序动作片段;
将起始和结束区间内的视频单元表示进行最大池化,得到候选视频时序动作片段的初始表示;
依据二维时序表示矩阵,采用膨胀卷积神经网络对每个候选视频时序动作片段表示进行增强,得到候选视频时序动作片段特征表示。
进一步地,基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示采用训练好的定位回归模型预测所述候选视频时序动作片段的时序偏移量,包括:
将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,输入训练好的定位回归模型,得到二维时序偏移量预测结果。
具体地,预测结果为一个二维向量,第一维表示起始时间偏移量,第二维表示结束时间偏移量。
进一步地,所述基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示利用训练好的相关性预测模型预测所述候选视频时序动作片段与自然语言查询信息的相关性,包括:
将候选视频时序动作片段表示与自然语言查询表示进行串联,而后输入训练好的相关性预测模型,得到相关性分数值。
根据一些实施例,本发明的第二方案提供了一种基于时序-空间图的跨模态视频时序动作定位系统,采用如下技术方案:
基于时序-空间图的跨模态视频时序动作定位系统,包括:
数据收集模块,被配置为接收视频数据和自然语言查询信息;
语言特征表示确定模块,被配置为基于自然语言查询信息确定自然语言查询特征表示;
视频特征表示确定模块,被配置为基于视频数据确定候选视频时序动作片段特征表示;
特征表示分析模块,被配置为基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;
视频时序定位模块,被配置为通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
与现有技术相比,本发明的有益效果为:
1、本发明所述的一种基于时序-空间图的跨模态视频时序动作定位方法,利用语义角色树获得了增强的自然语言查询表示,并引入一个时序图和空间图网络来增强候选视频时序动作片段的表示,将上述两种特征表示提供给定位回归和相关性分数预测网络,以预测对应候选视频时序动作片段的时序偏移量和相关性分数,大幅度提高视频时序动作定位的准确度。
2、本发明所述的基于语义角色树的自然语言描述编码策略,精准的捕获自然语言描述的不同粒度的语义信息,并通过自底向上的语义聚合,得到语义精准的自然语言查询表示。
3、本发明引入时序图和空间图网络对视频单元进行编码,其不仅可以捕获不同物体时序上的关联关系,还可以捕获不同物体间的空间关联关系,全面地对视频单元内容进行语义理解,同时也增强了候选视频时序动作片段的表示。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一所述的基于时序-空间图的跨模态视频时序动作定位方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
本实施例提供了一种基于时序-空间图的跨模态视频时序动作定位方法,本实施例的具体方案如图1所示,该方法包括以下步骤:
步骤(1):接收视频数据和自然语言查询信息;
步骤(2):基于自然语言查询信息确定自然语言查询特征表示;
步骤(3):基于视频数据确定候选视频时序动作片段特征表示;
步骤(4):基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;
步骤(5):通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
具体地,本实施例的步骤(2)中基于自然语言查询信息确定自然语言查询特征表示的具体步骤包括:
步骤(2-1):初始自然语言查询特征表示提取。步骤(1)接收到的自然语言查询信息为一个文本描述语句,这里先使用Skip-Thought算法来进行初始自然语言查询特征表示的提取,该方法已经被证明相对于其他单纯叠加的字级别和词级别算法,速度快且表征效果较好,这里初始自然语言查询特征表示记为
Figure 867395DEST_PATH_IMAGE001
步骤(2-2):词义精准的词语表示提取。针对一段自然语言查询描述文本,使用预训练好的BERT模型,将输入的词语序列编码为上下文语义感知的词语表示序列
Figure 748763DEST_PATH_IMAGE002
,其中
Figure 776762DEST_PATH_IMAGE003
表示语境感知的第i个词语的特征表示,
Figure 692766DEST_PATH_IMAGE004
表示自然语言描述中词语数目。
步骤(2-3):语义角色树构建。自然语言查询句子通常蕴含包括全局层面(即整个句子)和短语层面在内的多重语义结构。这些多重语义结构涉及到复杂的交互信息,只有充分理解这部分信息并适当地将其与相应的视频部分对齐,才可以有效地定位目标视频片段。鉴于此,本实施例通过使用语义角色标记工具包,构建一个语义角色树,通过充分挖掘不同粒度的语义信息,来提升对文本句子的整体理解。
具体地,给定自然语言描述句子,语义角色标记工具会将句子中的名词以及动词标记出来,并将其设置为语义角色树的节点,其中名词设置为叶子节点,动词设置为中间节点。如果一个名词与一个动词语义相关,那么这两个节点之间会连边。语义角色树标注的结果,是一个3层的树结构,根节点对应的是自然语言查询信息,中间节点为动词信息,叶子节点为名词信息。
特别地,整个句子作为语义角色树的根节点,并与所有动词相连。注意,一个动词节点及其相关的名词节点,组成一个语义子树(也可看作一个短语)。
步骤(2-4):语义表示提取和整合。将步骤(2-2)中BERT输出的相应词语表示,作为这些节点的初始表示,记为动词表示集合
Figure 616859DEST_PATH_IMAGE005
以及名词表示集合
Figure 752568DEST_PATH_IMAGE006
,其中
Figure 53099DEST_PATH_IMAGE007
表示从S中索引出的第i个动词的表示,
Figure 89188DEST_PATH_IMAGE008
表示从S中索引出的第i个名词对应的表示,
Figure 184183DEST_PATH_IMAGE009
表示动词数目,
Figure 305723DEST_PATH_IMAGE010
表示名词数目。
为得到每一个短语的表示,对每一个动词节点所包含的叶子节点(名词节点)执行平均池化操作,得到新的动词表示。之后,将其与初始动词表示进行融合,得到名词增强后的动词表示。具体计算流程如下:
Figure 409945DEST_PATH_IMAGE011
(1)
其中,W和b为学习参数,
Figure 34962DEST_PATH_IMAGE012
为聚合叶子结点得到的第i个动词的表示,
Figure 566437DEST_PATH_IMAGE013
为名词增强后的第i个动词的表示;
步骤(2-5):在得到增强后的动词表示后,采用类似名词节点的处理方式,即对所有动词节点执行平均池化操作,得到增强后的根节点表示
Figure 909694DEST_PATH_IMAGE014
。而后,利用公式(1)对根节点信息
Figure 817607DEST_PATH_IMAGE014
Figure 562709DEST_PATH_IMAGE001
进行融合,得到最终的自然语言查询特征表示
Figure 265086DEST_PATH_IMAGE015
本实施例的步骤(3)中基于视频数据确定候选视频时序动作片段特征表示具体步骤包括:
步骤(3-1):利用时空图网络提取视频单元的表示,具体步骤如下:
步骤(3-1-1):本项目将输入视频按照一定的帧率提取视频帧序列,而后采用固定间隔将帧序列分割为N个互不相交的视频单元,这里每个视频单元均由T个视频帧组成;
步骤(3-1-2):为了提取视频单元的全局表示,本方法采用C3D网络,得到视频单元的全局表示
Figure 95639DEST_PATH_IMAGE016
步骤(3-1-3):基于视频单元的全局表示,利用时序图和空间图提取最终的视频单元表示。
Figure 541663DEST_PATH_IMAGE017
可以有效捕获视频单元内的动作信息,但是其无法捕获视频内物件和物体间细粒度交互信息,不足以全面表征视频单元内容。
鉴于此,拟引入时序图和空间图分支,其中时序图分支用于捕获不同物体时序上行为变化信息,而空间图分支用于捕获不同物体间空间交互信息,具体步骤包括:
步骤(3-1-3-1):针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合。
采用目标检测网络Faster-RCNN网络,提取视频单元中每一个视频帧内部的物体特征,这里每一帧内仅保留置信度分数较高的K物体表示信息,记为物体表示信息序列
Figure 141272DEST_PATH_IMAGE018
,其中,
Figure 14550DEST_PATH_IMAGE019
表示第i个视频帧内第j个物体表示,P=T·K;P表示视频中所有物体数目,T表示视频帧数目,K表示单帧内物体数目,D表示物体表示维度。随后,物体表示信息序列F被分别输入到时序图分支和空间图分支;时序图对所有物体表示建模,而空间图对每一帧内的物体关系建模。
步骤(3-1-3-2):基于视频单元内所有物体表示构建时序图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示。
具体地,构建了一个时序图,其中每一帧的物体表示作为该图的节点信息,所有节点之间连边。为了衡量两个节点间关联程度,定义了边权重,如下:
Figure 830934DEST_PATH_IMAGE020
(2)
其中,
Figure 815071DEST_PATH_IMAGE021
表示节点a和节点b之间的关联程度。通过上述公式,可以获得时序图的邻接矩阵
Figure 534765DEST_PATH_IMAGE022
,每一个元素
Figure 578944DEST_PATH_IMAGE023
反映了时序上不同物体节点之间的关系。之后,采用M层的图卷积网络来建模物体间时序关联关系。上述过程可表述为如下公式:
Figure 384089DEST_PATH_IMAGE024
(3)
其中,
Figure 171917DEST_PATH_IMAGE025
表示所有节点在第m层图卷积网络的隐含表示,
Figure 746118DEST_PATH_IMAGE026
表示第m层图卷积网络的嵌入维度,
Figure 961198DEST_PATH_IMAGE027
为待学习参数矩阵,
Figure 988060DEST_PATH_IMAGE028
。最后,对时序图网络的输出结果
Figure 579578DEST_PATH_IMAGE029
执行最大池化操作,得到最终的时序图强化的视频单元表示
Figure 8286DEST_PATH_IMAGE030
步骤(3-1-3-3):基于视频单元内所有物体表示构建空间图,并进行不同节点间的信息传播,得到空间图强化的视频单元表示。
为了增强不同视频单元表征的区分性,引入空间图网络来建模帧内的结构信息。针对视频单元的第i帧,构建一个子图
Figure 394268DEST_PATH_IMAGE031
Figure 174005DEST_PATH_IMAGE032
。然后,类似于时序图网络,计算每一帧的邻接关系矩阵
Figure 303635DEST_PATH_IMAGE033
Figure 586849DEST_PATH_IMAGE034
Figure 409311DEST_PATH_IMAGE035
表示视频第i帧内部节点b和节点k之间的关联程度,并对每一帧执行Q层图卷积操作,每q层卷积得到结果为
Figure 912230DEST_PATH_IMAGE036
,其中
Figure 845551DEST_PATH_IMAGE037
为学习参数,
Figure 983271DEST_PATH_IMAGE038
表示第q层卷积维度,
Figure 976635DEST_PATH_IMAGE039
为由目标检测网络得到的物体表示矩阵。最终,每一帧空间图卷积网络输出经过最大池化,得到每一帧的表示,这些表示经过平均池化得到空间图强化的视频单元表示
Figure 465385DEST_PATH_IMAGE040
步骤(3-1-4):经过时序图和空间图分支处理后,将视频单元全局表示
Figure 936818DEST_PATH_IMAGE041
、时序图得到的时序图强化的视频单元表示
Figure 194624DEST_PATH_IMAGE042
以及空间图得到的空间图强化的视频单元表示进行拼接,得到最终的视频单元表示
Figure 358889DEST_PATH_IMAGE043
,即
Figure 69356DEST_PATH_IMAGE044
步骤(3-2):视频时序动作片段候选集生成与优化。为了得到具有灵活时序长度且与目标视频片段有较高覆盖率的视频片段候选集,本方法构建二维时序矩阵M,该矩阵包含了所有可能的候选视频时序动作片段。
具体地,矩阵中元素
Figure 344480DEST_PATH_IMAGE045
表示起始为第i个视频单元,结束为第j个视频单元的候选视频时序动作片段。由于矩阵中合法的视频片段数量较多,共N(N+1)/2,因此所需计算量较大。
此外,由于过于密集的采样使得候选视频片段之间重叠率较高,故本实施例拟对二维时序矩阵进行稀疏化操作,即对于时长较短的片段,采取全部保留的策略;而对于时长较长的片段,由于其相邻位置为重叠率较高的视频片段,故采取部分保留的策略。通过这种稀疏化策略,减少了候选集中视频片段的数量,降低了计算成本,同时保证了候选集中的视频片段具有灵活的时序长度。
步骤(3-3):候选视频时序动作片段特征表示生成。由于每个候选视频时序动作片段都是由一个或多个连续的视频单元组成的,故首先对候选视频时序动作片段内的视频单元表示执行最大池化操作,得到初始的候选视频时序动作片段表示。
之后,将所有候选视频时序动作片段的表示也构造成一个二维时序表示矩阵C,其中
Figure 722371DEST_PATH_IMAGE046
表示起始为第i个视频单元,结束为第j个视频单元的候选视频时序动作片段的表示。为捕获候选视频时序动作片段的上下文信息,利用膨胀卷积神经网络,通过多个不同尺度的卷积操作,得到不同上下文信息强化的候选视频时序动作片段表示。
最终,将这些结果进行拼接,得到最终的候选视频时序动作片段表示。
在本实施例的步骤(4)中,基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性的具体步骤包括:
步骤(4-1):将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,而后输入训练好的定位回归模型,得到二维时序偏移量预测结果;
步骤(4-2):将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,而后输入训练好的相关性预测模型,得到相关性分数值。
具体地,定位回归模型以及相关性预测模型分别为一个多层感知机网络,多层感知机网络由两个全连接层和ReLU激活函数组成,其中ReLU激活函数位于两个全连接层之间,并且这两个多层感知机网络的参数不共享,虽然采用的都是多层感知机网络,但是通过损失函数约束模型就可以实现偏移量预测和相关性预测的不同预测过程。
可以理解的是,训练定位回归模型的损失函数为:训练数据集中所有正样本对二维时序偏移量预测结果与真实时序偏移量
Figure 791958DEST_PATH_IMAGE047
范数的和,具体公式如下:
Figure 255301DEST_PATH_IMAGE048
(4)
其中,
Figure 68536DEST_PATH_IMAGE049
是真实的时序偏置量,
Figure 300934DEST_PATH_IMAGE050
为定位回归模型的输出结果;
Figure 541423DEST_PATH_IMAGE051
表示真实的开始时间偏置量,
Figure 990596DEST_PATH_IMAGE052
表示真实的结束时间偏置量,
Figure 607522DEST_PATH_IMAGE053
表示预测的开始时间偏置量,
Figure 694427DEST_PATH_IMAGE054
表示预测的结束时间偏置量。
另外,训练相关性预测模型的损失函数:旨在约束训练数据集中正样本对相关性分数尽可能较大,而负样本对的相关性分数尽可能交小,具体公式如下:
Figure 371396DEST_PATH_IMAGE055
(5)
其中,P为正样本对数据集,N为负样本对数据集,score为相关性预测模型预测得到的相关性分数,
Figure 543752DEST_PATH_IMAGE056
Figure 698789DEST_PATH_IMAGE057
为正负样本项之间的平衡系数;
将定位回归模型的损失函数与相关性预测模型的损失函数相加,得到基于时序-空间图的跨模态视频时序动作定位方法的训练损失函数
Figure 905780DEST_PATH_IMAGE058
Figure 488071DEST_PATH_IMAGE059
为两个损失之间的平衡系数,
Figure 147722DEST_PATH_IMAGE060
表示公式(4)的定位回归损失函数;
Figure 309713DEST_PATH_IMAGE061
表示公式(5)相关性预测损失函数。
在本实施例的步骤(4)中,利用优化函数求解基于时序-空间图的跨模态视频时序动作定位方法中用到的所有网络中的参数。所述优化函数为Pytorch中的Adam函数。
本实施例在进行跨模态视频时序动作片段定位时,对自然语言查询进行全面地理解与表示,同时实现高质量候选视频时序动作片段生成与表示,继而提高定位准确性。
实施例二
本实施例提供了一种基于时序-空间图的跨模态视频时序动作定位系统。
基于时序-空间图的跨模态视频时序动作定位系统,包括:
数据收集模块,被配置为接收视频数据和自然语言查询信息;
语言特征表示确定模块,被配置为基于自然语言查询信息确定自然语言查询特征表示;
视频特征表示确定模块,被配置为基于视频数据确定候选视频时序动作片段特征表示;
特征表示分析模块,被配置为基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;
视频时序定位模块,被配置为通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
此处需要说明的是,上述数据收集模块、语言特征表示确定模块、视频特征表示确定模块、特征表示分析模块和视频时序定位模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,包括:
接收视频数据和自然语言查询信息;
基于自然语言查询信息确定自然语言查询特征表示,包括:
依据自然语言查询信息,获取初始自然语言查询特征表示,使用Skip-Thought算法来进行初始自然语言查询特征表示的提取;
利用语义角色标注工具,对自然查询语言描述信息中语义关系进行标注,构成语义角色树;
将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终的自然语言查询特征表示;
基于视频数据确定候选视频时序动作片段特征表示,包括:
基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:
基于所述视频数据提取视频帧序列,对所述视频帧序列进行划分得到视频单元;
对视频单元采用C3D网络,提取视频单元的全局表示;
针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合;
基于视频单元内所有物体表示构建时序图和空间图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示和空间图强化的视频单元表示;
构建了一个时序图,其中每一帧的物体表示作为该图的节点信息,所有节点之间连边,为了衡量两个节点间关联程度,定义了边权重,如下:
Figure 670698DEST_PATH_IMAGE001
其中,
Figure 915866DEST_PATH_IMAGE002
表示节点a和节点b之间的关联程度,通过上述公式,可以获得时序图的邻接矩阵
Figure 681827DEST_PATH_IMAGE003
,P表示视频中所有物体数目,每一个元素
Figure 354248DEST_PATH_IMAGE004
反映了时序上不同物体节点之间的关系;之后,采用M层的图卷积网络来建模物体间时序关联关系,上述过程可表述为如下公式:
Figure 838450DEST_PATH_IMAGE005
其中,
Figure 899028DEST_PATH_IMAGE006
表示所有节点在第m层图卷积网络的隐含表示,
Figure 722758DEST_PATH_IMAGE007
表示第m层图卷积网络的嵌入维度,
Figure 566081DEST_PATH_IMAGE008
为待学习参数矩阵,
Figure 537579DEST_PATH_IMAGE009
;最后,对时序图网络的输出结果
Figure 124549DEST_PATH_IMAGE010
执行最大池化操作,得到最终的时序图强化的视频单元表示
Figure 865103DEST_PATH_IMAGE011
构建空间图,针对视频单元的第i帧,构建一个子图
Figure 879327DEST_PATH_IMAGE012
Figure 525072DEST_PATH_IMAGE013
;然后,类似于时序图网络,计算每一帧的邻接关系矩阵
Figure 650154DEST_PATH_IMAGE014
,K表示单帧内物体数目,
Figure 510793DEST_PATH_IMAGE015
Figure 695918DEST_PATH_IMAGE016
表示视频第i帧内部节点b和节点k之间的关联程度,并对每一帧执行Q层图卷积操作,每q层卷积得到结果为
Figure 579692DEST_PATH_IMAGE017
,其中
Figure 508465DEST_PATH_IMAGE018
为学习参数,
Figure 223611DEST_PATH_IMAGE019
表示第q层卷积维度,
Figure 579637DEST_PATH_IMAGE020
为由目标检测网络得到的物体表示矩阵,D表示物体表示维度;最终,每一帧空间图卷积网络输出经过最大池化,得到每一帧的表示,这些表示经过平均池化得到空间图强化的视频单元表示
Figure 934395DEST_PATH_IMAGE021
将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合,得到最终的视频单元表示;
根据二维时序矩阵构建视频时序动作片段候选集,并基于最终的视频单元表示得到候选视频时序动作片段的特征表示,包括:
依据最终的视频单元表示构建二维时序矩阵,矩阵中每一个元素表示一个视频时序动作片段,所述视频时序动作片段是由起始和结束区间内的视频单元组成的;
将起始和结束区间内的视频单元表示进行最大池化,得到候选视频时序动作片段的初始表示;
依据二维时序表示矩阵,采用膨胀卷积神经网络对每个候选视频时序动作片段的初始表示进行增强,得到候选视频时序动作片段特征表示;
基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性,具体为:
将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,输入一个定位回归模型,得到二维时序偏移量预测结果;
将候选视频时序动作片段表示与自然语言查询表示进行串联,而后输入多层感知机模型,得到相关性分数值;
通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
2.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,所述基于自然语言查询信息确定自然语言查询特征表示,还包括:
根据语义角色树叶子节点的名词表示,得到中间节点的动词表示;
根据语义角色树中间节点的动词表示,得到根节点的自然语言查询信息表示。
3.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,所述语义角色树的根节点为自然语言查询信息,叶子节点为自然语言查询信息中的名词信息,中间节点为自然语言查询信息中的动词信息。
4.如权利要求2所述的基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,所述将根据语义角色树编码得到的自然语言查询特征表示,包括:
对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作,得到新的中间节点的动词表示;
将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示;
将所有的增强后的中间节点的动词表示执行平均池化操作,得到增强后的根节点的自然语言查询特征表示。
5.基于时序-空间图的跨模态视频时序动作定位系统,其特征在于,包括:
数据收集模块,被配置为接收视频数据和自然语言查询信息;
语言特征表示确定模块,被配置为基于自然语言查询信息确定自然语言查询特征表示,包括:
依据自然语言查询信息,获取初始自然语言查询特征表示,使用Skip-Thought算法来进行初始自然语言查询特征表示的提取;
利用语义角色标注工具,对自然查询语言描述信息中语义关系进行标注,构成语义角色树;
将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终的自然语言查询特征表示;
视频特征表示确定模块,被配置为基于视频数据确定候选视频时序动作片段特征表示,包括:
基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:
基于所述视频数据提取视频帧序列,对所述视频帧序列进行划分得到视频单元;
对视频单元采用C3D网络,提取视频单元的全局表示;
针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合;
基于视频单元内所有物体表示构建时序图和空间图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示和空间图强化的视频单元表示;
构建了一个时序图,其中每一帧的物体表示作为该图的节点信息,所有节点之间连边,为了衡量两个节点间关联程度,定义了边权重,如下:
Figure 666859DEST_PATH_IMAGE001
其中,
Figure 174195DEST_PATH_IMAGE002
表示节点a和节点b之间的关联程度,通过上述公式,可以获得时序图的邻接矩阵
Figure 689403DEST_PATH_IMAGE003
,P表示视频中所有物体数目,每一个元素
Figure 610086DEST_PATH_IMAGE004
反映了时序上不同物体节点之间的关系;之后,采用M层的图卷积网络来建模物体间时序关联关系,上述过程可表述为如下公式:
Figure 880661DEST_PATH_IMAGE005
其中,
Figure 304820DEST_PATH_IMAGE006
表示所有节点在第m层图卷积网络的隐含表示,
Figure 268228DEST_PATH_IMAGE007
表示第m层图卷积网络的嵌入维度,
Figure 597579DEST_PATH_IMAGE008
为待学习参数矩阵,
Figure 671845DEST_PATH_IMAGE009
;最后,对时序图网络的输出结果
Figure 950511DEST_PATH_IMAGE010
执行最大池化操作,得到最终的时序图强化的视频单元表示
Figure 84820DEST_PATH_IMAGE011
构建空间图,针对视频单元的第i帧,构建一个子图
Figure 714516DEST_PATH_IMAGE012
Figure 326894DEST_PATH_IMAGE013
;然后,类似于时序图网络,计算每一帧的邻接关系矩阵
Figure 725645DEST_PATH_IMAGE014
,K表示单帧内物体数目,
Figure 968539DEST_PATH_IMAGE015
Figure 819951DEST_PATH_IMAGE016
表示视频第i帧内部节点b和节点k之间的关联程度,并对每一帧执行Q层图卷积操作,每q层卷积得到结果为
Figure 111386DEST_PATH_IMAGE017
,其中
Figure 630223DEST_PATH_IMAGE018
为学习参数,
Figure 27707DEST_PATH_IMAGE019
表示第q层卷积维度,
Figure 456213DEST_PATH_IMAGE020
为由目标检测网络得到的物体表示矩阵,D表示物体表示维度;最终,每一帧空间图卷积网络输出经过最大池化,得到每一帧的表示,这些表示经过平均池化得到空间图强化的视频单元表示
Figure 410394DEST_PATH_IMAGE021
将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合,得到最终的视频单元表示;
根据二维时序矩阵构建视频时序动作片段候选集,并基于最终的视频单元表示得到候选视频时序动作片段的特征表示,包括:
依据最终的视频单元表示构建二维时序矩阵,矩阵中每一个元素表示一个视频时序动作片段,所述视频时序动作片段是由起始和结束区间内的视频单元组成的;
将起始和结束区间内的视频单元表示进行最大池化,得到候选视频时序动作片段的初始表示;
依据二维时序表示矩阵,采用膨胀卷积神经网络对每个候选视频时序动作片段的初始表示进行增强,得到候选视频时序动作片段特征表示;
特征表示分析模块,被配置为基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性,具体为:
将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,输入一个定位回归模型,得到二维时序偏移量预测结果;
将候选视频时序动作片段表示与自然语言查询表示进行串联,而后输入多层感知机模型,得到相关性分数值;
视频时序定位模块,被配置为通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
CN202111557734.6A 2021-12-20 2021-12-20 基于时序-空间图的跨模态视频时序动作定位方法及系统 Active CN113963304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557734.6A CN113963304B (zh) 2021-12-20 2021-12-20 基于时序-空间图的跨模态视频时序动作定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557734.6A CN113963304B (zh) 2021-12-20 2021-12-20 基于时序-空间图的跨模态视频时序动作定位方法及系统

Publications (2)

Publication Number Publication Date
CN113963304A CN113963304A (zh) 2022-01-21
CN113963304B true CN113963304B (zh) 2022-06-28

Family

ID=79473249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557734.6A Active CN113963304B (zh) 2021-12-20 2021-12-20 基于时序-空间图的跨模态视频时序动作定位方法及系统

Country Status (1)

Country Link
CN (1) CN113963304B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687687B (zh) * 2023-01-05 2023-03-28 山东建筑大学 一种面向开放域查询的视频片段搜索方法及系统
CN116385946B (zh) * 2023-06-06 2023-08-29 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116993873B (zh) * 2023-07-31 2024-05-17 支付宝(杭州)信息技术有限公司 一种数字人动作编排方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880692A (zh) * 2012-09-19 2013-01-16 上海交通大学 一种面向检索的监控视频语义描述和检测建模方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN110136109A (zh) * 2019-05-08 2019-08-16 常州大学 一种基于膨胀卷积神经网络的mci分类方法
CN110502742A (zh) * 2019-07-11 2019-11-26 中国科学院计算技术研究所 一种复杂实体抽取方法、装置、介质及系统
CN110503666A (zh) * 2019-07-18 2019-11-26 上海交通大学 一种基于视频的密集人群计数方法与系统
CN110674790A (zh) * 2019-10-15 2020-01-10 山东建筑大学 一种视频监控中异常场景处理方法及系统
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111651635A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN113128431A (zh) * 2021-04-25 2021-07-16 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113449550A (zh) * 2020-03-25 2021-09-28 华为技术有限公司 人体重识别数据处理的方法、人体重识别的方法和装置
EP3905060A1 (en) * 2020-04-30 2021-11-03 Mirriad Advertising PLC Artificial intelligence for content discovery
CN113704546A (zh) * 2021-08-23 2021-11-26 西安电子科技大学 基于空间时序特征的视频自然语言文本检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法
CN110427834A (zh) * 2019-07-10 2019-11-08 上海工程技术大学 一种基于骨架数据的行为识别系统及方法
CN111476155A (zh) * 2020-04-07 2020-07-31 南京邮电大学 基于时空图卷积神经网络与特征融合的人体动作分类方法
CN112580559A (zh) * 2020-12-25 2021-03-30 山东师范大学 基于骨架特征和视频表征结合的双流视频行为识别方法
CN112685597B (zh) * 2021-03-12 2021-07-13 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN113792712A (zh) * 2021-11-15 2021-12-14 长沙海信智能系统研究院有限公司 动作识别方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880692A (zh) * 2012-09-19 2013-01-16 上海交通大学 一种面向检索的监控视频语义描述和检测建模方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN110136109A (zh) * 2019-05-08 2019-08-16 常州大学 一种基于膨胀卷积神经网络的mci分类方法
CN110502742A (zh) * 2019-07-11 2019-11-26 中国科学院计算技术研究所 一种复杂实体抽取方法、装置、介质及系统
CN110503666A (zh) * 2019-07-18 2019-11-26 上海交通大学 一种基于视频的密集人群计数方法与系统
CN110674790A (zh) * 2019-10-15 2020-01-10 山东建筑大学 一种视频监控中异常场景处理方法及系统
CN113449550A (zh) * 2020-03-25 2021-09-28 华为技术有限公司 人体重识别数据处理的方法、人体重识别的方法和装置
EP3905060A1 (en) * 2020-04-30 2021-11-03 Mirriad Advertising PLC Artificial intelligence for content discovery
CN111651635A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN113128431A (zh) * 2021-04-25 2021-07-16 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113704546A (zh) * 2021-08-23 2021-11-26 西安电子科技大学 基于空间时序特征的视频自然语言文本检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval;Yawen Zeng et al;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20211113;摘要、第3.2.2节 *
Semantics-Aware Spatial-Temporal Binaries for Cross-Modal Video Retrieval;Mengshi Qi et al;《IEEE Transactions on Image Processing》;20210209;第2989-3004页 *
Spatial-temporal correlation for trajectory based action video retrieval;Xi Shen et al;《2015 IEEE 17th International Workshop on Multimedia Signal Processing (MMSP)》;20151203;第1-6页 *
基于图片查询的跨模态视频检索方法;徐瑞聪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210915;第2021年卷(第9期);I138-291 *
面向视频分析的多模态处理技术;刘萌;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20190915;第2019年卷(第9期);摘要、第4.1-4.3节、第5.4节、图4-2 *

Also Published As

Publication number Publication date
CN113963304A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
US11379696B2 (en) Pedestrian re-identification method, computer device and readable medium
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN113365147B (zh) 基于音乐卡点的视频剪辑方法、装置、设备及存储介质
CN110288665A (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110072142A (zh) 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113393474A (zh) 一种基于特征融合的三维点云的分类和分割方法
CN113378770A (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN112668438A (zh) 红外视频时序行为定位方法、装置、设备及存储介质
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN114758285B (zh) 基于锚自由和长时注意力感知的视频交互动作检测方法
CN116052108A (zh) 基于Transformer的交通场景小样本目标检测方法及装置
CN116824686A (zh) 一种动作识别方法和相关装置
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN114463844A (zh) 一种基于自注意力双流网络的跌倒检测方法
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
Kheldoun et al. Algsl89: An algerian sign language dataset
CN113901889B (zh) 一种基于时间和空间建立行为识别热度图的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant