CN113704546A - 基于空间时序特征的视频自然语言文本检索方法 - Google Patents

基于空间时序特征的视频自然语言文本检索方法 Download PDF

Info

Publication number
CN113704546A
CN113704546A CN202110968279.2A CN202110968279A CN113704546A CN 113704546 A CN113704546 A CN 113704546A CN 202110968279 A CN202110968279 A CN 202110968279A CN 113704546 A CN113704546 A CN 113704546A
Authority
CN
China
Prior art keywords
video
natural language
language text
semantic
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968279.2A
Other languages
English (en)
Other versions
CN113704546B (zh
Inventor
王笛
田玉敏
罗雪梅
丁子芮
万波
王义峰
赵辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110968279.2A priority Critical patent/CN113704546B/zh
Publication of CN113704546A publication Critical patent/CN113704546A/zh
Application granted granted Critical
Publication of CN113704546B publication Critical patent/CN113704546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于空间时序特征的视频文本检索方法,利用三种不同类型的神经网络对视频的空间时序语义信息进行了层次化细粒度全面的视频统一表征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络。本发明可用于视频自然语言文本相互检索,分层的特征提取方法充分挖掘了视频模态数据更具判别性的复杂时空语义信息,视频文本公共语义嵌入网络有效地学习不同模态异构数据语义特征同分布的公共空间特征表示,公共空间特征表示准确衡量了视频和自然语言文本高阶特征间的语义关联,提高了视频自然语言文本检索的精度。

Description

基于空间时序特征的视频自然语言文本检索方法
技术领域
本发明属于物理技术领域,更进一步涉及图像与数据处理技术领域中的一种基于空间时序特征的视频自然语言文本检索方法。本发明可用于互联网和社交媒体涌现的大规模视频模态和自然语言文本模态数据的语义信息互检索、视频主题检测和视频应用的内容推荐。
背景技术
用户生成的视频在互联网上的大量涌现,增加了对基于自然语言文本描述的视频检索系统的需求,用户对检索准确度的要求也为视频内容的精确检索带来了前所未有的挑战。传统方法主要是支持简单自然语言文本查询的基于概念的检索,这对于具有复杂语义的复杂长自然语言文本查询无效。近年来,兴起了基于嵌入的检索方法,将视频和自然语言文本模态映射到联合视觉语义共享空间以计算跨模态语义相似度作为检索工作的依托。但是简单的嵌入不足以表示复杂的、细粒度的、时空性的视觉自然语言文本语义,例如复杂的场景、多元的空间对象及带有时序信息的动作信息,导致视频自然语言文本检索精度无法提升,检索效果不足以满足需求。所以能更加细粒度地对视频模态和自然语言文本模态数据的空间时序信息建模,并在不同粒度将视频特征和自然语言文本特征进行多层级匹配以提高检索精度是该领域研究的关键。
北京航空航天大学在其在其申请的专利文献“一种基于内容的视频检索方法及装置”(专利申请号:2016109784348,申请公布号:CN 106570165 A)中提出了一种基于内容的视频检索方法。该方法使用任一目标关键帧编码对由关键帧编码构成的多个哈希表进行检索,确定与任一目标关键帧编码匹配的关键帧编码;计算任一目标关键帧编码与每个匹配关键帧编码之间的相似度分值;基于关键帧的时序信息,根据每个目标关键帧编码与每个匹配关键帧编码之间的相似度分值,计算目标视频与每个匹配视频之间的整体相似度分值;将大于自适应得分阈值的整体相似度分值对应的匹配视频作为检索结果。该方法存在的不足之处是:不同模态数据语义特征存在异质性底层流形结构分布不同的语义鸿沟,通过简单编码无法实现跨模态数据的全面统一表征,影响视频自然语言文本检索精度。
复旦大学在其在其申请的专利文献“一种用于多段视频跨模态检索的方法”(专利申请号:201910453196.2,申请公布号:CN 110175266 A)中提出了一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法。该方法针对长自然语言文本跨模态检索复杂视频任务设计了双边自注意力方法以提取视频中与检索自然语言文本相关的特征,具体是使用带有自注意力机制的跨模态检模型初选出一小部分相关的视频片段,再根据同模态和跨模态相似度进一步精选视频片段,最后用语义排序网络将视频片段序列与自然语言文本句子序列对齐。该方法存在的不足之处是:视频和自然语言文本属于不同模态的数据,数据的异质性使得简单通过单独的深度神经网络进行单一特征提取难以准确表达视频与自然语言文本复杂的时空性语义特征,进而难以衡量视频和自然语言文本的高阶特征间相似性,影响检索准确率。
Zhang B,Hu H,Fei S等人在其发表的论文“Cross-modal and hierarchicalmodeling of video and text”(European Conference on Computer Vision,2018:374-390)中提出了一种基于层次化建模的视频自然语言文本检索方法。该方法对视频和自然语言文本进行层次化建模,将自然语言文本段落视为自然语言文本句的集合,将视频视为视频片段的集合,忽略视频片段和自然语言文本句的边界,将其视为一序列连续流动的视频帧和单词,分别进行全局高层级(自然语言文本段落和视频)和局部底层级(自然语言文本句和视频片段)的编码和对齐,并在两个层级进行相似度计算。该方法存在的不足之处是:只是简单地在媒体级对视频和自然语言文本分层建模,难以准确建模视频帧和自然语言文本单词的时序这种深层语义级关联,且该方法对检索精度的提升是微小的。
Yang X,Dong J,Cao Y等人在其发表的论文“Tree-Augmented Cross-ModalEncoding for Complex-Query Video Retrieval”(International ACM SIGIRConference on Research and Development in Information Retrieval,2020:1339-1348)中提出了一种面向复杂自然语言文本查询的树结构增强的视频自然语言文本检索方法。该方法通过联合学习查询自然语言文本的语言结构和视频的时序表示来进行细粒度的编码。具体来说,对于一个复杂的用户查询自然语言文本,先递归地构成一个潜在的语义树,以在语言结构上描述自然语言文本查询,然后设计了一个树增强型查询自然语言文本编码器以生成结构感知的查询自然语言文本表示,并设计了一个基于时序注意力的视频编码器对视频的时序特征进行建模。最后,自然语言文本和视频都被映射到联合的嵌入空间以进行匹配和排名。该方法存在的不足之处是:视频空间实体对象对应自然语言文本的“名词”部分,是检索的关键信息所在。该方法专注于时序建模的模型难以捕获视频区域级的空间对象信息,影响检索的准确性。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于空间时序特征的视频自然语言文本检索方法,旨在解决难以准确建模视频复杂的时空性语义特征,不同模态数据语义特征存在异质性底层流形结构分布不同的语义鸿沟影响视频自然语言文本检索精度的问题。
实现本发明目的的思路是,本发明利用三种不同类型的神经网络分别提取每个视频样本三层级特征,即在第一层级使用的深度残差神经网络ResNet-152提取了视频图像帧级的整体性特征,在第二层级使用的3D卷积神经网络I3D沿帧流动的方向捕获视频的动作时序性特征,在第三层级使用的Fast-RCNN网络提取视频具有空间位置信息的显著区域空间性特征。这种分层的特征提取方法,对具有整体性、时序性及冗余性的视频模态数据的空间时序信息进行了细粒度建模以获得全面的视频统一表征。由于全面的视频统一表征可以充分挖掘视频模态数据复杂的多层级、细粒度、时空性的语义特征,实现了保留视频中用于计算跨模态视频自然语言文本相似度的复杂语义信息。本发明利用视频自然语言文本公共语义嵌入网络将两种不同模态数据的三层级语义特征嵌入到三个不同的公共语义表示空间,解决不同模态数据的语义特征分布不同的语义鸿沟影响视频自然语言文本检索精度的问题。跨模态数据呈现高层语义相关但底层特征异构的特性,公共语义表示空间旨在拟合跨模态数据异质性的底层流形结构,使公共语义嵌入网络能够有效地学习不同模态异构数据的公共空间表示。视频自然语言文本公共语义嵌入网络在对比排序损失函数的约束下,高比例保留视频和自然语言文本特征的跨模态相似性语义,使每层级特征的公共语义空间内语义相似的视频和自然语言文本特征映射的位置更近、语义不相似的视频和自然语言文本特征映射的位置更远,使用基于余弦相似度的语义特征匹配算法可以挖掘公共空间表示的语义关联,衡量视频和自然语言文本高阶特征间相似性,计算出视频和自然语言文本间的语义匹配相似度作为视频自然语言文本跨模态检索的依托。
本发明具体步骤包括有如下:
步骤1,生成样本集:
选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集,每个视频中含有人工标注的自然语言文本注释至少20条,自然语言文本字数不超过30字,生成至少120000对视频自然语言文本对;
步骤2,利用三种神经网络分别提取视频样本三层级的空间时序特征:
(2a)将样本集中的视频输入到训练好的深度残差神经网络ResNet-152中,提取每个视频中每帧图像的特征,将每个视频中所有帧的图像特征进行平均池化,将输出的视频2048维的帧级特征作为视频第一层级特征;
(2b)使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征,将输出的视频1024维的时序特征作为视频第二层级特征;
(2c)每隔2秒从样本集的每个视频中抽取一帧图像,将该视频抽取的所有帧图像输入到训练好的Fast-RCNN网络中,输出该视频Fa*Mab*2048维的高维显著特征,其中,Fa表示第a个视频抽取的帧的总数,Mab表示第a个视频抽取的第b帧提取的显著区域的总数,每帧提取的显著区域的总数相同;
(2d)使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征,将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征,t为设置的保留显著区域的总数,默认设置为6;
步骤3,构建语义角色树提取自然语言文本样本三层级的特征:
(3a)将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi-LSTM中,每个单词输出为512维的单词嵌入特征,将自然语言文本所有单词的嵌入特征级联,得到Nc*512维自然语言文本上下文感知的嵌入特征,其中,Nc表示第c个自然语言文本中单词的总数;
(3b)利用注意力公式,计算每个自然语言文本的显著事件特征;
(3c)使用开源的语义角色解析工具,按自然语言文本单词的顺序,标注样本集中每个自然语言文本的所有单词的语义角色和语义关系;
(3d)将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词,分别输入到两个训练好的双向长短期记忆网络Bi-LSTM中,两个网络分别输出该自然语言文本Vs*300维的动词序列特征和Es*300维对象序列特征,其中,Vs表示第s个自然语言文本中语义角色为动词的单词的总数,Es表示第s个自然语言文本中语义角色为名词的单词的总数;
(3e)构建每个自然语言文本的语义角色树,其根节点表示自然语言文本的显著事件特征,与根节点相连的第二层动作节点表示自然语言文本的动词序列特征,与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征;
(3f)利用训练好的图卷积神经网络GCN,提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征,提取语义角色树动作节点Vs*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征,提取语义角色树实体节点Es*1024维的自然语言文本实体特征作为自然语言文本第三层级特征;
步骤4,构建视频自然语言文本公共语义嵌入网络:
(4a)搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频自然语言文本公共语义嵌入网络;
(4b)将卷积层的卷积核大小设置为2×2,个数设置为2048,步长设置为1,池化层采用最大池化方式,池化层的卷积池化核大小设置的为2×2,步长设置为2;第一全连接层的输入节点个数和输出节点个数均设置为2048,第二全连接层的输入节点个数设置为2048、输出节点个数设置为1024,网络的初始学习率设置为e-4,网络的神经元丢弃率设置为0.2;
步骤5,训练视频自然语言文本公共语义嵌入网络:
(5a)分别将视频的三层级特征和自然语言文本的三层级特征,输入到视频自然语言文本公共语义嵌入网络中,输出每一层级视频和自然语言文本拟合底层流形结构的同维度、同分布的特征;
(5b)按照下式,计算每个视频与所有视频自然语言文本对中的每个自然语言文本的特征相似度:
Figure BDA0003224998730000051
其中,s(vj,tk)表示第j个视频vj与所有视频自然语言文本对中的第k个自然语言文本tk的特征相似度,l表示特征层级的总数,i表示特征层级的序号,wc表示训练网络得到的每个层级相似度的权重,cos表示求余弦值操作,
Figure BDA0003224998730000061
表示第j个视频第l层级的特征,
Figure BDA0003224998730000062
表示第k个自然语言文本第l层级的特征,l的取值范围为[1,3];
(5c)将所有的特征相似度组成视频自然语言文本样本对的相似度矩阵;
(5d)利用对比排序损失函数,计算相似度矩阵对角线的每个视频自然语言文本正样本对的对比排序损失函数值;
(5e)根据对比排序损失函数值,迭代更新视频自然语言文本公共语义嵌入网络,以等差的方式在合理范围内更新网络的学习率、神经元丢弃率、每个层级相似度的权重和对比排序损失函数的阈值,直到对比排序损失函数收敛至最小,得到训练好的视频自然语言文本公共语义嵌入网络;
步骤6,对视频和自然语言文本进行跨模态互检索:
(6a)采用与步骤2和步骤3相同的方法,分别提取待检索视频和自然语言文本的三层级特征;
(6b)采用与步骤4相同的方法,将待检索的视频和自然语言文本的三层级特征输入训练好的视频自然语言文本公共语义嵌入网络,计算待检索的视频和自然语言文本的相似度;
(6c)根据视频和自然语言文本的相似度,输出按相似度大小排序的检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用三种不同类型的神经网络,分别提取每个视频样本中的三层级的空间时序特征,对视频模态数据的空间时序信息进行了细粒度建模以获得全面的视频统一表征,克服了现有技术中难以准确建模视频复杂的时空性语义特征的问题,使得本发明充分挖掘视频模态数据更具判别性的复杂时空语义信息,全面的语义表征提高了视频自然语言文本检索的准确性。
第二,由于本发明采用视频自然语言文本公共语义嵌入网络,拟合跨模态数据异质性的底层流形结构,有效地学习不同模态异构数据的公共空间表示,挖掘视频和自然语言文本间的特征语义关联,克服了现有技术中不同模态数据语义特征存在异质性底层流形结构分布不同的语义鸿沟影响视频自然语言文本检索精度的问题,使得本发明有助于减轻语义鸿沟的影响,准确衡量视频和自然语言文本同分布的高阶特征间相似性,提高了视频自然语言文本检索的精度。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图1和实施例对本发明做进一步的详细描述。
步骤1,生成样本集。
选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集,每个视频中含有人工标注的自然语言文本注释至少20条,自然语言文本字数不超过30字,生成至少120000对视频自然语言文本对。
步骤2,利用三种神经网络分别提取视频样本三层级的空间时序特征。
将样本集中的视频输入到训练好的深度残差神经网络ResNet-152中,提取每个视频中每帧图像的特征,将每个视频中所有帧的图像特征进行平均池化,将输出的视频2048维的帧级特征作为视频第一层级特征。
使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征,将输出的视频1024维的时序特征作为视频第二层级特征。
每隔2秒从样本集的每个视频中抽取一帧图像,将该视频抽取的所有帧图像输入到训练好的Fast-RCNN网络中,输出该视频Fa*Mab*2048维的高维显著特征,其中,Fa表示第a个视频抽取的帧的总数,Mab表示第a个视频抽取的第b帧提取的显著区域的总数,每帧提取的显著区域的总数相同。
使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征,将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征,t为设置的保留显著区域的总数,默认设置为6。
步骤3,构建语义角色树提取自然语言文本样本三层级的特征。
将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi-LSTM中,每个单词输出为512维的单词嵌入特征,将自然语言文本所有单词的嵌入特征级联,得到Nc*512维自然语言文本上下文感知的嵌入特征,其中,Nc表示第c个自然语言文本中单词的总数。
利用下述注意力公式,计算每个自然语言文本的显著事件特征:
Figure BDA0003224998730000081
其中,gm表示第m个自然语言文本的显著事件特征,∑表示求和操作,Nm表示第m个自然语言文本中单词的总数,j表示每个自然语言文本中单词的序号,exp表示以自然常数e为底的指数操作,We表示训练好的注意力网络的参数矩阵,ωmi表示双向长短期记忆网络Bi-LSTM输出的第m个自然语言文本的待求权重的单词i的嵌入特征,ωmj表示双向长短期记忆网络Bi-LSTM输出第m个自然语言文本的第j个单词的嵌入特征。
使用开源的语义角色解析工具,按自然语言文本单词的顺序,标注样本集中每个自然语言文本的所有单词的语义角色和语义关系。语义角色解析工具是由两个自然语言处理模型BERT(Bidirectional Encoder Representations from Transformers)组成,用于单词关系建模的BERT构建为[[CLS]sentence[SEP]subject[SEP]object[SEP]],用于语义角色标注的BERT构建为[[CLS]sentence[SEP]predicate[SEP]。
所述语义角色包括动词(V)、施事者(ARG0)、受事者(ARG1)、范围(ARG2)、动作开始(ARG3)、动作结束(ARG4)、地点(ARGM-LOC)、方式(ARGM-MNR)、时间(ARGM-TMP)、方向(ARGM-DIR)、状语(ARGM-ADV)、目的(ARGM-PRP)、修饰(ARGM-PRD)、协同(ARGM-COM)、情态(ARGM-MOD)和名词(NOUN)共十六种。
所述语义关系指的是字典类型的数据,含有两个键值对,分别表示动词键和单词表键,动词键的键值为列表类型的数据,每一动词对应列表的一个元素,元素包含动词单词、标注语义角色标签的自然语言文本描述和语义角色标签,单词表键值为自然语言文本单词分割的字符串。
本发明的实施例中自然语言文本“bunch of people eating and talking atthe conference”可解析为“{"verbs":[{"verb":"eating","description":"[ARG0:bunchof people][V:eating]and talking[ARGM-LOC:at the conference]","tags":["B-ARG0","I-ARG0","I-ARG0","B-V","O","O","B-ARGM-LOC","I-ARGM-LOC","I-ARGM-LOC"]},{"verb":"talking","description":"[ARG0:bunch of people]eating and[V:talking][ARGM-LOC:at the conference]","tags":["B-ARG0","I-ARG0","I-ARG0","O","O","B-V","B-ARGM-LOC","I-ARGM-LOC","I-ARGM-LOC"]}],"words":["bunch","of","people","eating","and","talking","at","the","conference"]}”。
将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词,分别输入到两个训练好的双向长短期记忆网络Bi-LSTM中,两个网络分别输出该自然语言文本Vs*300维的动词序列特征和Es*300维对象序列特征,其中,Vs表示第s个自然语言文本中语义角色为动词的单词的总数,Es表示第s个自然语言文本中语义角色为名词的单词的总数。
构建每个自然语言文本的语义角色树,其根节点表示自然语言文本的显著事件特征,与根节点相连的第二层动作节点表示自然语言文本的动词序列特征,与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征。
利用训练好的图卷积神经网络GCN,提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征,提取语义角色树动作节点Vs*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征,提取语义角色树实体节点Es*1024维的自然语言文本实体特征作为自然语言文本第三层级特征。
步骤4,构建视频自然语言文本公共语义嵌入网络。
搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频自然语言文本公共语义嵌入网络。
将卷积层的卷积核大小设置为2×2,个数设置为2048,步长设置为1,池化层采用最大池化方式,池化层的卷积池化核大小设置的为2×2,步长设置为2;第一全连接层的输入节点个数和输出节点个数均设置为2048,第二全连接层的输入节点个数设置为2048、输出节点个数设置为1024,网络的初始学习率设置为e-4,网络的神经元丢弃率设置为0.2。
步骤5,训练视频自然语言文本公共语义嵌入网络。
分别将视频的三层级特征和自然语言文本的三层级特征,输入到视频自然语言文本公共语义嵌入网络中,输出每一层级视频和自然语言文本拟合底层流形结构的同维度、同分布的特征。
按照下式,计算每个视频与所有视频自然语言文本对中的每个自然语言文本的特征相似度:
Figure BDA0003224998730000101
其中,s(vj,tk)表示第j个视频vj与所有视频自然语言文本对中的第k个自然语言文本tk的特征相似度,l表示特征层级的总数,i表示特征层级的序号,wc表示训练网络得到的每个层级相似度的权重,cos表示求余弦值操作,
Figure BDA0003224998730000102
表示第j个视频第l层级的特征,
Figure BDA0003224998730000103
表示第k个自然语言文本第l层级的特征,l的取值范围为[1,3]。
将所有的特征相似度组成视频自然语言文本样本对的相似度矩阵。
利用下述对比排序损失函数,计算相似度矩阵对角线的每个视频自然语言文本正样本对的对比排序损失函数值:
Figure BDA0003224998730000104
其中,
Figure BDA0003224998730000105
表示相似度矩阵对角线的第p个视频自然语言文本正样本对
Figure BDA0003224998730000106
Figure BDA0003224998730000107
的对比排序损失函数值,[]+表示求括号内的值与零之间的最大值操作,Δ表示初始设置为0.2、根据训练结果等差更新的超参数阈值,
Figure BDA0003224998730000108
表示对角线置零的相似度矩阵中第q行最小值的视频和自然语言文本负样本对
Figure BDA0003224998730000109
Figure BDA00032249987300001010
的相似度,
Figure BDA00032249987300001011
表示相似度矩阵对角线的第p个视频自然语言文本正样本对
Figure BDA00032249987300001012
Figure BDA00032249987300001013
的相似度,
Figure BDA00032249987300001014
表示对角线置零的相似度矩阵第z列最小值的视频和自然语言文本负样本对
Figure BDA00032249987300001015
Figure BDA00032249987300001016
的相似度。
根据对比排序损失函数值,迭代更新视频自然语言文本公共语义嵌入网络,以等差的方式在合理范围内更新网络的学习率、神经元丢弃率、每个层级相似度的权重和对比排序损失函数的阈值,直到对比排序损失函数收敛至最小,得到训练好的视频自然语言文本公共语义嵌入网络。
步骤6,对视频和自然语言文本进行跨模态互检索。
采用与步骤2和步骤3相同的方法,分别提取待检索视频和自然语言文本的三层级特征。
采用与步骤4相同的方法,将待检索的视频和自然语言文本的三层级特征输入训练好的视频自然语言文本公共语义嵌入网络,计算待检索的视频和自然语言文本的相似度。
根据视频和自然语言文本的相似度,输出按相似度大小排序的检索结果。
本发明的效果可通过以下仿真进一步说明。
1.仿真条件:
本发明仿真实验的硬件平台为:NVIDIA GEFORCE GTX 1080GPU。
本发明仿真实验的软件平台为:Windows 10操作系统和PyTorch 1.6.0。
本发明仿真实验的数据使用了Microsoft Research Lab采集的MSR-VTT数据集的数据,该数据集由10000个视频及每个视频对应20条的200000条自然语言文本注释组成。本发明仿真使用的样本集数据是从MSR-VTT数据集中的10000个视频及每个视频对应20条的200000条自然语言文本注释中随机选取的6656个视频及每个视频对应20条的133120条自然语言文本注释组成。本发明仿真使用的测试数据是从MSR-VTT数据集中的10000个视频及每个视频对应20条的200000条自然语言文本注释中随机选取的1000个视频及每个视频对应20条的20000条自然语言文本注释组成20000个视频自然语言文本对。
2.仿真实验内容及仿真结果分析:
本发明仿真实验是采用本发明和现有技术(细粒度层次化图推理HGR视频自然语言文本检索方法)分别测试检索上述测试数据中的20000个自然图像和电子文本对中每个自然语言文本对应的视频和每个视频对应的自然语言文本。
本发明的仿真实验分为视频自然语言文本的特征提取和搭建并训练视频自然语言文本公共语义嵌入网络两部分。视频特征提取时,搭建三种不同类型的神经网络提取视频的三层级特征,显著区域框提取数量的总数设置为10-100个。文本特征提取时,动词的个数限制设置为4,名词短语的个数限制设置为6。搭建视频自然语言文本公共语义嵌入网络时,网络的初始学习率设置为e-4,网络的神经元丢弃率设置为0.2。训练视频自然语言文本公共语义嵌入网络时,数据迭代的batch大小设置为128。经过特征提取、池化和公共空间嵌入,得到用于计算相似度的视频三层级的特征维度为[128,1024]、[128,1024]和[128,6,1024],自然语言文本三层级的特征维度为[128,1024]、[128,4,1024]和[128,6,1024]。使用基于余弦相似度的算法计算视频和自然语言文本特征矩阵的相似度,使用对比排名损失Contrastive Ranking Loss迭代训练更新视频自然语言文本公共语义嵌入网络的网络参数,迭代训练直到对比排序损失函数收敛至最小。将测试数据输入训练好的视频自然语言文本公共语义嵌入网络测试视频自然语言文本检索精度。
在仿真实验中,采用的现有技术细粒度层次化图推理HGR视频自然语言文本检索方法是指:
Chen S等人在“Fine-grained video-text retrieval with hierarchicalgraph reasoning.”(Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,pp.10638-10647,2020)中提出的视频自然语言文本检索方法,简称细粒度层次化图推理HGR视频自然语言文本检索方法。
为了对本发明仿真实验的效果进行评估,分别计算本发明和现有技术的有序检索结果的召回率、中位排序和平均排序,如下表1所示。召回率Recall at K(R@K)表示对于有序的检索结果,前K个检索结果中正确预测到待检索项的概率;中位排序Median Rank(MedR)表示对于有序的检索结果,正确预测到待检索项的出现位置的中位数;平均排序Mean Rank(MnR)表示对于有序的检索结果,正确预测到待检索项的出现位置的平均数,评估标准R@K越大表示检索精度越高,评估标准MedR和MnR越小表示检索精度越高。
表1仿真实验中本发明和现有技术的检索精度对比表
Figure BDA0003224998730000121
表1是采用本发明和现有技术基于R@1、R@5、R@10、MedR和MnR三类五项评估标准方法得到的仿真结果,用细粒度层次化图推理HGR和本发明的基于空间时序特征的视频自然语言文本检索方法对比实验后,统计检索结果得到的对比表,分为自然语言文本检索视频和视频检索自然语言文本两个部分的检索精度评估。
从表1中可以看出本发明方法的用自然语言文本检索视频的前10个检索结果中正确预测到待检索项的概率R@10为59.2%,用视频检索自然语言文本的前10个检索结果中正确预测到待检索项的概率R@10为76.8%,高于现有技术细粒度层次化图推理HGR方法,证明本方法可以更准确实现视频与自然语言文本相互检索,表明了对视频的空间时序语义信息进行全面的视频统一表征和视频自然语言文本公共语义嵌入网络可以提高视频自然语言文本的检索精度。

Claims (5)

1.一种基于空间时序特征的视频文本检索方法,其特征在于,利用三种神经网络分别提取视频样本三层级的空间时序特征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络;该方法的具体步骤包括如下:
步骤1,生成样本集:
选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集,每个视频中含有人工标注的自然语言文本注释至少20条,自然语言文本字数不超过30字,生成至少120000对视频自然语言文本对;
步骤2,利用三种神经网络分别提取视频样本三层级的空间时序特征:
(2a)将样本集中的视频输入到训练好的深度残差神经网络ResNet-152中,提取每个视频中每帧图像的特征,将每个视频中所有帧的图像特征进行平均池化,将输出的视频2048维的帧级特征作为视频第一层级特征;
(2b)使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征,将输出的视频1024维的时序特征作为视频第二层级特征;
(2c)每隔2秒从样本集的每个视频中抽取一帧图像,将该视频抽取的所有帧图像输入到训练好的Fast-RCNN网络中,输出该视频Fa*Mab*2048维的高维显著特征,其中,Fa表示第a个视频抽取的帧的总数,Mab表示第a个视频抽取的第b帧提取的显著区域的总数,每帧提取的显著区域的总数相同;
(2d)使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征,将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征,t为设置的保留显著区域的总数,默认设置为6;
步骤3,构建语义角色树提取自然语言文本样本三层级的特征:
(3a)将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi-LSTM中,每个单词输出为512维的单词嵌入特征,将自然语言文本所有单词的嵌入特征级联,得到Nc*512维自然语言文本上下文感知的嵌入特征,其中,Nc表示第c个自然语言文本中单词的总数;
(3b)利用注意力公式,计算每个自然语言文本的显著事件特征;
(3c)使用开源的语义角色解析工具,按自然语言文本单词的顺序,标注样本集中每个自然语言文本的所有单词的语义角色和语义关系;
(3d)将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词,分别输入到两个训练好的双向长短期记忆网络Bi-LSTM中,两个网络分别输出该自然语言文本Vs*300维的动词序列特征和Es*300维对象序列特征,其中,Vs表示第s个自然语言文本中语义角色为动词的单词的总数,Es表示第s个自然语言文本中语义角色为名词的单词的总数;
(3e)构建每个自然语言文本的语义角色树,其根节点表示自然语言文本的显著事件特征,与根节点相连的第二层动作节点表示自然语言文本的动词序列特征,与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征;
(3f)利用训练好的图卷积神经网络GCN,提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征,提取语义角色树动作节点Vs*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征,提取语义角色树实体节点Es*1024维的自然语言文本实体特征作为自然语言文本第三层级特征;
步骤4,构建视频文本公共语义嵌入网络:
(4a)搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频文本公共语义嵌入网络;
(4b)将卷积层的卷积核大小设置为2×2,个数设置为2048,步长设置为1,池化层采用最大池化方式,池化层的卷积池化核大小设置的为2×2,步长设置为2;第一全连接层的输入节点个数和输出节点个数均设置为2048,第二全连接层的输入节点个数设置为2048、输出节点个数设置为1024,网络的初始学习率设置为e-4,网络的神经元丢弃率设置为0.2;
步骤5,训练视频文本公共语义嵌入网络:
(5a)分别将视频的三层级特征和自然语言文本的三层级特征,输入到视频文本公共语义嵌入网络中,输出每一层级视频和自然语言文本拟合底层流形结构的同维度、同分布的特征;
(5b)按照下式,计算每个视频与所有视频自然语言文本对中的每个自然语言文本的特征相似度:
Figure FDA0003224998720000031
其中,s(vj,tk)表示第j个视频vj与所有视频自然语言文本对中的第k个自然语言文本tk的特征相似度,l表示特征层级的总数,i表示特征层级的序号,wc表示训练网络得到的每个层级相似度的权重,cos表示求余弦值操作,
Figure FDA0003224998720000032
表示第j个视频第l层级的特征,
Figure FDA0003224998720000033
表示第k个自然语言文本第l层级的特征,l的取值范围为[1,3];
(5c)将所有的特征相似度组成视频自然语言文本样本对的相似度矩阵;
(5d)利用对比排序损失函数,计算相似度矩阵对角线的每个视频自然语言文本正样本对的对比排序损失函数值;
(5e)根据对比排序损失函数值,迭代更新视频文本公共语义嵌入网络,以等差的方式在合理范围内更新网络的学习率、神经元丢弃率、每个层级相似度的权重和对比排序损失函数的阈值,直到对比排序损失函数收敛至最小,得到训练好的视频文本公共语义嵌入网络;
步骤6,对视频和自然语言文本进行跨模态互检索:
(6a)采用与步骤2和步骤3相同的方法,分别提取待检索视频和自然语言文本的三层级特征;
(6b)采用与步骤4相同的方法,将待检索的视频和自然语言文本的三层级特征输入训练好的视频文本公共语义嵌入网络,计算待检索的视频和自然语言文本的相似度;
(6c)根据视频和自然语言文本的相似度,输出按相似度大小排序的检索结果。
2.根据权利要求1所述的基于空间时序特征的视频文本检索方法,其特征在于,步骤(3b)中所述注意力公式如下:
Figure FDA0003224998720000041
其中,gm表示第m个自然语言文本的显著事件特征,∑表示求和操作,Nm表示第m个自然语言文本中单词的总数,j表示每个自然语言文本中单词的序号,exp表示以自然常数e为底的指数操作,We表示训练好的注意力网络的参数矩阵,ωmi表示双向长短期记忆网络Bi-LSTM输出的第m个自然语言文本的待求权重的单词i的嵌入特征,ωmj表示双向长短期记忆网络Bi-LSTM输出第m个自然语言文本的第j个单词的嵌入特征。
3.根据权利要求1所述的基于空间时序特征的视频文本检索方法,其特征在于,步骤(3c)中所述语义角色包括动词、施事者、受事者、范围、动作开始、动作结束、地点、方式、时间、方向、状语、目的、修饰、协同、情态和名词共十六种。
4.根据权利要求1所述的基于空间时序特征的视频文本检索方法,其特征在于,步骤(3c)中所述语义关系指的是字典类型的数据,含有两个键值对,分别表示动词键和单词表键,动词键的键值为列表类型的数据,每一动词对应列表的一个元素,元素包含动词单词、标注语义角色标签的文本描述和语义角色标签,单词表键值为文本单词分割的字符串。
5.根据权利要求1所述的基于空间时序特征的视频文本检索方法,其特征在于,步骤(5d)中所述对比排序损失函数如下:
Figure FDA0003224998720000042
其中,
Figure FDA0003224998720000043
表示相似度矩阵对角线的第p个视频自然语言文本正样本对
Figure FDA0003224998720000044
Figure FDA0003224998720000045
的对比排序损失函数值,[]+表示求括号内的值与零之间的最大值操作,Δ表示初始设置为0.2、根据训练结果等差更新的超参数阈值,
Figure FDA0003224998720000046
表示对角线置零的相似度矩阵中第q行最小值的视频和自然语言文本负样本对
Figure FDA0003224998720000051
Figure FDA0003224998720000052
的相似度,
Figure FDA0003224998720000053
表示相似度矩阵对角线的第p个视频自然语言文本正样本对
Figure FDA0003224998720000054
Figure FDA0003224998720000055
的相似度,
Figure FDA0003224998720000056
表示对角线置零的相似度矩阵第z列最小值的视频和自然语言文本负样本对
Figure FDA0003224998720000057
Figure FDA0003224998720000058
的相似度。
CN202110968279.2A 2021-08-23 2021-08-23 基于空间时序特征的视频自然语言文本检索方法 Active CN113704546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968279.2A CN113704546B (zh) 2021-08-23 2021-08-23 基于空间时序特征的视频自然语言文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968279.2A CN113704546B (zh) 2021-08-23 2021-08-23 基于空间时序特征的视频自然语言文本检索方法

Publications (2)

Publication Number Publication Date
CN113704546A true CN113704546A (zh) 2021-11-26
CN113704546B CN113704546B (zh) 2024-02-13

Family

ID=78654021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968279.2A Active CN113704546B (zh) 2021-08-23 2021-08-23 基于空间时序特征的视频自然语言文本检索方法

Country Status (1)

Country Link
CN (1) CN113704546B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统
CN115438169A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 一种文本与视频的互检方法、装置、设备及存储介质
CN115544024A (zh) * 2022-11-09 2022-12-30 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
WO2024098524A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 文本视频的互检索及模型训练方法、装置、设备及介质
WO2024098525A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 视频文本互检方法及其模型训练方法、装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
WO2021012493A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 短视频关键词提取方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
WO2021012493A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 短视频关键词提取方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
綦金玮;彭宇新;袁玉鑫;: "面向跨媒体检索的层级循环注意力网络模型", 中国图象图形学报, no. 11 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统
CN114428850B (zh) * 2022-04-07 2022-08-05 之江实验室 一种文本检索匹配方法和系统
CN115438169A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 一种文本与视频的互检方法、装置、设备及存储介质
WO2024098524A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 文本视频的互检索及模型训练方法、装置、设备及介质
WO2024098525A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 视频文本互检方法及其模型训练方法、装置、设备、介质
CN115544024A (zh) * 2022-11-09 2022-12-30 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN115544024B (zh) * 2022-11-09 2023-03-24 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN116992294A (zh) * 2023-09-26 2023-11-03 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN116992294B (zh) * 2023-09-26 2023-12-19 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113704546B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
Wu et al. Image captioning and visual question answering based on attributes and external knowledge
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN110287323B (zh) 一种面向目标的情感分类方法
CN111858944A (zh) 一种基于注意力机制的实体方面级情感分析方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111046941A (zh) 一种目标评论检测方法、装置、电子设备和存储介质
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN109271539A (zh) 一种基于深度学习的图像自动标注方法及装置
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
CN113360646A (zh) 基于动态权重的文本生成方法、设备及存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN112580330A (zh) 基于中文触发词指导的越南语新闻事件检测方法
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant