CN111325243B - 一种基于区域注意力学习机制的视觉关系检测方法 - Google Patents

一种基于区域注意力学习机制的视觉关系检测方法 Download PDF

Info

Publication number
CN111325243B
CN111325243B CN202010079031.6A CN202010079031A CN111325243B CN 111325243 B CN111325243 B CN 111325243B CN 202010079031 A CN202010079031 A CN 202010079031A CN 111325243 B CN111325243 B CN 111325243B
Authority
CN
China
Prior art keywords
visual
graph structure
node
triplet
regional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010079031.6A
Other languages
English (en)
Other versions
CN111325243A (zh
Inventor
刘安安
田宏硕
徐宁
聂为之
宋丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010079031.6A priority Critical patent/CN111325243B/zh
Publication of CN111325243A publication Critical patent/CN111325243A/zh
Priority to US17/007,245 priority patent/US11301725B2/en
Application granted granted Critical
Publication of CN111325243B publication Critical patent/CN111325243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。本发明能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度。

Description

一种基于区域注意力学习机制的视觉关系检测方法
技术领域
本发明涉及视觉关系检测领域,尤其涉及一种基于区域注意力学习机制的视觉关系检测方法。
背景技术
随着深度学习技术的飞速发展,图像理解领域逐渐引起了许多关注,其中作为该领域的基础,视觉关系检测是一项十分具有挑战性的任务,因为其不仅仅需要预测图片中实体对象的语义和空间信息,而且还需要对实体对象之间的谓词关系进行分类。以图1中“人骑摩托”的图片为例,视觉关系检测不但要识别出主语“人”和宾语“摩托”以及他们的位置,而且还需要识别出两者存在动词“骑”这种关系。由于一般的视觉关系都可以用<主语–谓词–宾语>的这种结构化三元组关系描述的特点[1],视觉关系检测才能作为图像理解领域基础从而应用在更高层次的视觉任务之中,比如图像描述[2][3],视觉问答[4][5],图文检索[6][7],视觉对话[8][9]和视觉推理[10][11]等任务。
近些年来,在视觉关系检测任务上涌现出了许多优秀的工作。粗略的来说,这些工作的学习策略大致可以分为两个基本的方向:第一,分别训练实体对象的检测器和实体对象之间的关系检测器,并将它们的模型输出聚合起来得到视觉关系的三元组;第二,对于每个包含视觉关系的视觉短语学习一个单独的检测器。在面对多样性的视觉关系时,一些学者已经证明视觉短语的学习方法更加具有鲁棒性[12],但是针对目前已有的数据集,一些特定关系的训练样本十分少,所以该方法也具有一定的局限性。对于聚合模型输出的方法,虽然可以在结构化三元组之间将各自包含的知识进行很好的共享[13],但是针对不可见的关系时并不能很好的处理。
目前,为了能够提升通用检测器的特征表征能力,研究者们逐渐偏向于设计对具有统计关系依赖的模型,这种依赖关系可以是图模型[14],语料的知识蒸馏[15]或者上下文的语义[16]
但是现有的方法仅仅是从粗粒度的角度上对检测到的实体对象整体直接进行特征提取,然后将其映射到同一特征空间进行关系识别,这些方法其实忽略了实体对象的内部一些细粒度的线索,来更深度挖掘对于不同视觉关系检测到的实体图像内部所关注的区域信息。
发明内容
本发明提供了一种基于区域注意力学习机制的视觉关系检测方法,本发明避免了在同一特征空间进行实体对象关系分析时,建立的模型缺少对实体对象内部区域的细粒度信息交互的问题,并且通过视觉注意力机制学习过程后,能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度,详见下文描述:
一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。
其中,所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构。
进一步地,所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点。
其中,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;
利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;
获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。
进一步地,所述三元组图结构具体为:
将视觉关系分布作为三元组图结构的边;每个对象组特征以及对应的两个实体对象的区域视觉特征作为三元组图结构的顶点。
其中,所述第二图结构具体为:
获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。
进一步地,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:
组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。
其中,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;
将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。
本发明提供的技术方案的有益效果是:
1、本发明在检测到的实体对象后,提取其内部区域的特征组,将其映射到同一特征空间,完成在不同视觉关系下实体对象内部区域特征间的信息交互;
2、本发明通过利用注意力机制学习过程,来完成在针对识别不同视觉关系时,实体对象所关注的内部区域,来提高视觉关系检测的精度。
附图说明
图1为一种基于区域注意力学习机制的视觉关系检测方法的流程图;
图2为视觉关系检测示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决目前方法在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题,从而提高视觉关系识别的精度,常用的指标为召回率,参见图1,本发明实施例提供了一种基于区域注意力学习机制的视觉关系检测方法,该方法包括以下步骤:
101:针对所使用的数据库,统计其训练集样本中各个物体之间的共现概率以及在训练集中共现时,属于某种视觉关系的概率;
对于所使用的数据集,其中需要包含标注有视觉关系的图片数据,这里使用的是较为常用的VisualGenome视觉关系数据库,但本发明方法不只局限于该数据库,可以是包含所需标签的任意数据库。
首先,针对所使用的数据库,需要统计其划分出的训练集中不同类别对象之间的共现概率分布,该视觉关系数据集的训练样本中标注了实体对象的真实类别标签以及实体对象之间的视觉关系谓词真实类别标签。以训练样本中某张图片里的实体对象m和n为例,其中m和n为两个实体对象的真实类别标签,统计属于类别m的实体对象出现的条件下属于类别n的实体对象出现的概率。在本发明方法中,在完成统计所有实体对象的共现概率后,将相应的共现概率矩阵记为
Figure BDA0002379612250000041
矩阵中的元素εij表示在一个实体对象属于第i类的同时与另一个实体对象属于第j类的共现概率,C表示训练集中实体对象的类别总数;/>
Figure BDA0002379612250000042
为实数集。
其次,需要统计训练集中的实体对象在共现时属于某种视觉关系的概率,具体来说,即统计属于类别m的实体对象和属于类别n的实体对象之间在所有训练样本中存在的关系分布概率。在本发明方法中,在完成统计所有实体对象组的关系分布概率后,将相应的视觉关系分布记为
Figure BDA0002379612250000043
其中k∈[1,K]且/>
Figure BDA0002379612250000044
这里,/>
Figure BDA0002379612250000046
表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率,K表示训练集中视觉关系或者是谓词的类别总数,/>
Figure BDA0002379612250000045
为自然数集。
102:从输入的图像中检测其中所包含的实体对象与对象组,然后分别提取实体对象本身、对象组联合区域和实体对象内部的区域视觉特征;
对于给定的输入图像,首先利用常见的目标检测框架,如GoogLeNet,ResNet-101,VGG-16等进行实体对象与对象组的特征提取,本发明方法中采用的是使用VGG-16卷积网络的Faster R-CNN(快速的区域卷积神经网络)框架,其中卷积网络可以使用其他常见的目标检测网络进行替换;将给定的图像输入到上述的目标检测框架中,输出可以分别得到图像中实体对象候选区域的特征以及对象组候选区域的特征,其中候选区域指的是可以将实体对象或对象组完全覆盖的最小矩形区域。
输出的区域特征包括:候选区域内实体对象本身在VGG16网络全连接层输出的实体对象特征集
Figure BDA0002379612250000051
其中vn表示第n个实体对象的视觉特征;候选区域矩形框的坐标特征集/>
Figure BDA0002379612250000052
其中bn表示覆盖第n个实体对象的最小矩形框的坐标特征;对象组在VGG16网络全连接层输出的特征集Fu={fij|i,j=1,2,...,|N|},其中fij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征;实体对象的真实类别标签概率集
Figure BDA0002379612250000053
其中N为图像中实体对象的个数,on表示第n个实体对象的真实类别标签;实体对象在VGG16网络卷积层输出的区域视觉特征/>
Figure BDA0002379612250000054
其中m∈[1,M]且m∈Z,M表示实体对象内部区域的数量,fm (n)表示第n个实体对象内部的第m个区域。
103:对于步骤102输出的实体对象的区域视觉特征,将其作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
将步骤101输出的共现矩阵作为第一图结构的边:
Eobj={εij|i=1,2,...,|C|;j=1,2,...,|C|}
其中,Eobj表示第一图结构的边集。
将步骤102输出的区域视觉特征f(n)作为第一图结构的顶点:
Figure BDA0002379612250000055
其中,Vobj表示第一图结构的节点集。
从而构造第一图结构Gobj={Vobj,Eobj}。
首先,在进行消息传播前,为了学习初始的视觉注意力权重来融合顶点的区域视觉特征,使用步骤102输出的实体对象特征集V,在t=0时代替区域视觉特征作为初始化第一图结构各顶点表征hn (t),其中n表示第n个顶点:
Figure BDA0002379612250000056
其中,
Figure BDA0002379612250000057
是可学习的转换矩阵,vn是步骤102输出的全连接层特征。
其次,获取第一图结构进行第一次消息传播t=1时每个节点聚合邻节点后的特征an (t)
Figure BDA0002379612250000058
其中,N为图像中检测出的实体对象的个数,
Figure BDA0002379612250000059
表示在特征维度上进行连接,hm (t)表示当前节点在t时刻的第m个邻节点表征。
之后,将聚合后的特征an (t)与节点此时的特征hn (t-1)作为门控循环单元(GRU)的输入,来进行节点表征的强化,计算方法如下:
zn (t)=σ(Wzan (t)+Uzhn (t-1)) (3)
rn (t)=σ(Wran (t)+Urhn (t-1)) (4)
hn (t)=tanh(Whan (t)+Uh(rn (t)⊙hn (t-1))) (5)
cn (t)=(1-zn (t))⊙hn (t-1)+zn (t)⊙hn (t) (6)
其中,zn (t)与rn (t)表示门控循环单元的重置门和更新门,hn (t)表示当前的候选集,cn (t)表示强化后的节点表征输出;Wz,Uz,Wr,Ur,Wh,Uh均为可学习的参数矩阵;⊙表示特征的对应元素乘积。
104:每次消息传播过程后,将输出的节点特征作为视觉注意力机制,来融合实体对象所提取的内部区域视觉特征,然后将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征;
首先,将步骤103输出的强化后的节点表征cn (t)与步骤102输出的每个区域视觉特征fm (n)相结合,计算一个非正则化的相关性分数
Figure BDA0002379612250000061
计算方法如下:
Figure BDA0002379612250000062
其中,w,Wa,Ua,bn均表示可学习的参数。
其次,将非正则化的相关性分数
Figure BDA0002379612250000063
进行正则化,获取视觉注意力机制的权重分布值/>
Figure BDA0002379612250000064
正则化计算方法如下:
Figure BDA0002379612250000065
之后,利用得到的注意力机制的权重对每个实体对象M个区域特征
Figure BDA0002379612250000066
进行加权求和,得到融合后的视觉表征fn (n),计算方法如下:
Figure BDA0002379612250000067
最后,获取融合后的视觉表征fn (n),将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次通过公式(2)到公式(6)的计算过程进行消息传播,此时公式(1)可以整合为:
Figure BDA0002379612250000068
105:在一定的消息传播次数之后,其输出的节点特征与实体对象本身的视觉特征进行组合,以此推理出物体类别;
将经过T0次消息传播后第一图结构每个节点的输出
Figure BDA0002379612250000071
与初始化的节点特征,即实体对象本身的视觉特征在特征维度上进行组合,然后输入到softmax函数中进行计算,输出的最大概率分布数值即为推理出的对应物体类别,公式表示如下:
Figure BDA0002379612250000072
其中,W0表示可学习的参数矩阵,on表示预测的第n个实体对象的类别。
106:将步骤102提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构,同样通过消息传播机制来强化当前节点的视觉表征;
首先,将步骤101输出的视觉关系分布
Figure BDA00023796122500000711
作为三元组图结构的边;
Figure BDA00023796122500000712
其中,Etriplet表示三元组图结构的边集。
将步骤102输出的每个对象组特征Fu={fij|i,j=1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f(n)={fm (n)}作为三元组图结构的顶点:
Figure BDA0002379612250000073
其中,Vtriplet表示三元组图结构的顶点集。
从而构造K个三元组图结构
Figure BDA0002379612250000074
每个三元组图结构均执行相同操作,下面以一个三元组图结构为例,说明消息传播过程:
首先,在进行消息传播前,为了学习初始的视觉注意力权重来融合三元组实体对象顶点的区域视觉特征,使用步骤102输出的实体对象特征集
Figure BDA0002379612250000075
在t=0时代替三元组实体对象顶点的区域视觉特征来初始化表征/>
Figure BDA0002379612250000076
和/>
Figure BDA0002379612250000077
依次表示两个属于i,j类别的实体对象oi和oj的初始化表征和对象组的初始化表征,k表示两个实体对象存在第k种视觉关系:
Figure BDA0002379612250000078
Figure BDA0002379612250000079
Figure BDA00023796122500000710
其中,
Figure BDA0002379612250000081
是可学习的转换矩阵,/>
Figure BDA0002379612250000082
fij是步骤102输出的实体对象和对象组的全连接层特征。
其次,获取三元组图结构进行第一次消息传播t=1时每个节点聚合邻节点后的特征
Figure BDA0002379612250000083
和/>
Figure BDA0002379612250000084
Figure BDA0002379612250000085
Figure BDA0002379612250000086
之后,分别将聚合后的特征
Figure BDA0002379612250000087
和/>
Figure BDA0002379612250000088
与各自节点此时的特征/>
Figure BDA0002379612250000089
和/>
Figure BDA00023796122500000810
作为门控循环单元(GRU)的输入,经过公式(3)到公式(6)的计算过程分别进行消息传播来强化各自的节点表征/>
Figure BDA00023796122500000811
和/>
Figure BDA00023796122500000812
107:将步骤106获得的每个三元组图结构聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构,然后进行第二图结构中的消息传播;
首先定义第二图结构Grel={Vrel,Erel}的节点与边:
获取步骤106输出的每个三元组图结构聚合邻节点后的特征
Figure BDA00023796122500000813
和/>
Figure BDA00023796122500000814
将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点,同时在t=0时,以零向量初始化第二图结构中的节点,公式表示如下:
Figure BDA00023796122500000815
其中,Wg,Wi,Wj,Wk均表示可学习的参数矩阵,
Figure BDA00023796122500000816
表示第二图结构在t时刻的节点特征。
由于共有K个三元组图结构,所以第二图结构中节点数量为K,节点集表示为:
Figure BDA00023796122500000817
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边:
Figure BDA00023796122500000818
其中,ε″uk表示连接第u个节点与第k个节点的边,ε″uk的下角标uk表示第k个节点的第u个邻节点,其表征为
Figure BDA00023796122500000819
Figure BDA00023796122500000820
是第k个节点的邻节点集合。
之后,定义第二图结构消息传播的计算方法为:
Figure BDA00023796122500000821
Figure BDA00023796122500000822
其中,ReLu表示激活函数,We为可学习的参数矩阵。
108:每次消息传播过程后,将步骤107输出的第二图结构节点特征与对应三元组实体对象节点的特征进行组合,以此作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
将步骤107输出的第二图结构节点特征
Figure BDA0002379612250000091
与步骤106消息传递后输出三元组中对应的实体对象特征/>
Figure BDA0002379612250000092
和/>
Figure BDA0002379612250000093
分别在特征维度上进行连接,然后同时与步骤102输出的每个区域视觉特征fm (n)计算一个非正则化的相关性分数/>
Figure BDA0002379612250000094
和/>
Figure BDA0002379612250000095
计算方法如下:
Figure BDA0002379612250000096
Figure BDA0002379612250000097
其中,w,Wa,Ua,ba均表示可学习的参数。
之后,利用公式(8)将非正则化的相关性分数
Figure BDA0002379612250000098
和/>
Figure BDA0002379612250000099
进行正则化,分别得到视觉注意力机制的权重分布值/>
Figure BDA00023796122500000910
和/>
Figure BDA00023796122500000911
然后对相应的实体对象区域特征f(n)={fm (n)}进行加权求和,得到融合后的视觉表征/>
Figure BDA00023796122500000912
和/>
Figure BDA00023796122500000913
最后,对于获取的融合后的视觉表征
Figure BDA00023796122500000914
和/>
Figure BDA00023796122500000915
将其分别作为三元组图结构中相应实体对象节点进行下一次消息传播时的视觉特征,再次通过公式(3)到公式(6)和公式(18)的计算过程对三元组图结构和第二图结构进行消息传播,此时公式(12)和公式(13)可以整合为:
Figure BDA00023796122500000916
Figure BDA00023796122500000917
109:在一定消息传播次数之后,其输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出:
Figure BDA00023796122500000918
进行平均池化后与初始化的节点特征,即实体对象本身的视觉特征在特征维度上进行组合,公式表示如下:
Figure BDA0002379612250000101
Figure BDA0002379612250000102
其中,Whs,Who表示可学习的参数矩阵,
Figure BDA0002379612250000103
表示实体对象oi在Tk次消息传播后的表征组合,/>
Figure BDA0002379612250000104
表示实体对象oj在Tk次消息传播后的表征组合。
将经过Tk次消息传播后三元组图结构中对象组的节点输出:
Figure BDA0002379612250000105
与初始化节点的对象组特征fij以及第二图结构每个节点的输出:/>
Figure BDA0002379612250000106
在特征维度上进行连接,公式表示如下:
Figure BDA0002379612250000107
其中,Wp表示可学习的参数矩阵,Hi,j,k表示在第k种视觉关系统计概率条件下,实体对象组的在Tk次消息传播后的表征组合。
之后,将公式(23)到(26)的输出在特征维度上进行组合,公式表示如下:
Figure BDA0002379612250000108
其中,Wr表示可学习的参数矩阵。
最后,将公式(28)的输出输入到softmax函数中进行计算,输出的最大概率分布数值即为推理出的类别为i和j的对象组之间对应的关系谓词。
综上所述,本发明实例避免了在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题,提高了视觉关系识别的精度,即召回率,同时可以应用于任何视觉关系检测数据库。
参考文献:
[1]C.Lu,R.Krishna,M.S.Bernstein,and F.Li.Visual relationshipdetection with language priors.In ECCV,pages 852–869,2016.
[2]A.Karpathy and L.Fei-Fei.Deep visual-semantic alignments forgenerating image descriptions.In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 3128–3137,2015.
[3]S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,and V.Goel.Self-criticalsequence training for image captioning.In CVPR,volume 1,page 3,2017.
[4]W.Norcliffe-Brown,S.Vafeias,and S.Parisot.Learning conditionedgraph structures for interpretable visual question answering.In NIPS,pages8344–8353,2018.
[5]Peter Anderson,Xiaodong He,Chris Buehler,Damien Teney,MarkJohnson,Stephen Gould,and Lei Zhang.Bottom-up and top-down attention forimage captioning and visual question answering.Proc.CVPR,2017
[6]Kuang-Huei Lee,Xi Chen,Gang,Hua,Houdong Hu,and Xiaodong He.StackedCross Attention for Image-Text Matching.In ECCV,pages 212-218,2018.
[7]Ying Zhang,and Huchuan Lu.Deep Cross-Modal Projection Learning forImage-Text Matching.In ECCV,pages 707-723,2018.
[8]A.Das,S.Kottur,K.Gupta,A.Singh,D.Yadav,S.Lee,J.M.F.Moura,D.Parikh,and D.Batra.Visual dialog.IEEE Trans.Pattern Anal.Mach.Intell.,41(5):1242–1256,2019
[9]Z.Gan,Y.Cheng,A.E.Kholy,L.Li,J.Liu,and J.Gao.Multi-step reasoningvia recurrent dual attention for visual dialog.In ACL 2019,pages 6463–6474,2019.
[10]M.Haurilet,A.Roitberg,and R.Stiefelhagen.It’s not about thejourney;it’s about the destination:Following soft paths under question-guidance for visual reasoning.In CVPR 2019,pages 1930–1939,2019.
[11]T.Gokhale,S.Sampat,Z.Fang,Y.Yang,and C.Baral.Cooking with blocks:A recipe for visual reasoning on image-pairs.In CVPR Workshops 2019,pages 5–8,2019.
[12]Mohammad Amin Sadeghi and Ali Farhadi.Recognition using visualphrases.InCVPR,2011
[13]Chen Gao,YuliangZou,and Jia-Bin Huang.Ican:Instancecentricattention network for human-object interaction detection.In BMVC,2018
[14]Yikang Li,Wanli Ouyang,and Xiaogang Wang.Vip-cnn:A visual phrasereasoning convolutional neural network for visual relationship detection.InCVPR,2017.1,2
[15]Ruichi Yu,Ang Li,Vlad I.Morariu,and Larry S.Davis.Visualrelationship detection with internal and external linguistic knowledgedistillation.In ICCV,2017.2
[16]Bohan Zhuang,Lingqiao Liu,Chunhua Shen,and Ian Reid.Towardscontext-aware interaction recognition for visual relationship detection.InICCV,2017.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词;
所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构;
所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点;
所述三元组图结构具体为:
将输出的视觉关系分布{ε'ij (k)}作为三元组图结构的边;
Etriplet={ε'ij (k)|k=1,2,...,|K|}
其中,Etriplet表示三元组图结构的边集;K表示训练集中视觉关系或者是谓词的类别总数;ε'ij (k)表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率;
将输出的每个对象组特征Fu={fij|i,j=1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f(n)={fm (n)}作为三元组图结构的顶点:
Figure FDA0004186190960000011
其中,Vtriplet表示三元组图结构的顶点集;fij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征;fm (n)表示第n个实体对象内部的第m个区域;M表示实体对象内部区域的数量;N为图像中实体对象的个数;
从而构造K个三元组图结构
Figure FDA0004186190960000012
2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;
利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;
获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。
3.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述第二图结构具体为:
获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;
将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。
4.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:
组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。
5.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:
将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;
将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。
CN202010079031.6A 2020-02-03 2020-02-03 一种基于区域注意力学习机制的视觉关系检测方法 Active CN111325243B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010079031.6A CN111325243B (zh) 2020-02-03 2020-02-03 一种基于区域注意力学习机制的视觉关系检测方法
US17/007,245 US11301725B2 (en) 2020-02-03 2020-08-31 Visual relationship detection method and system based on region-aware learning mechanisms

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010079031.6A CN111325243B (zh) 2020-02-03 2020-02-03 一种基于区域注意力学习机制的视觉关系检测方法

Publications (2)

Publication Number Publication Date
CN111325243A CN111325243A (zh) 2020-06-23
CN111325243B true CN111325243B (zh) 2023-06-16

Family

ID=71172137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010079031.6A Active CN111325243B (zh) 2020-02-03 2020-02-03 一种基于区域注意力学习机制的视觉关系检测方法

Country Status (2)

Country Link
US (1) US11301725B2 (zh)
CN (1) CN111325243B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599749B1 (en) * 2019-12-23 2023-03-07 Thales Sa Method of and system for explainable knowledge-based visual question answering
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN111967336B (zh) * 2020-07-24 2022-08-19 复旦大学 视频视觉关系检测的关系片段连接方法
CN111985505B (zh) * 2020-08-21 2024-02-13 南京大学 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置
CN112818678B (zh) * 2021-02-24 2022-10-28 上海交通大学 基于依赖关系图的关系推理方法及系统
US20230153531A1 (en) * 2021-11-17 2023-05-18 Adobe Inc. Enhanced document visual question answering system via hierarchical attention
CN116542995B (zh) * 2023-06-28 2023-09-22 吉林大学 一种基于区域表示和视觉表示的视觉问答方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041162A (ja) * 2015-08-21 2017-02-23 日本電気株式会社 最適化装置、方法およびプログラム
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107423707A (zh) * 2017-07-25 2017-12-01 深圳帕罗人工智能科技有限公司 一种基于复杂环境下的人脸情绪识别方法
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
CN110321805A (zh) * 2019-06-12 2019-10-11 华中科技大学 一种基于时序关系推理的动态表情识别方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994004993A1 (en) * 1992-08-18 1994-03-03 Perception Software Corporation A recognition system with an automated development tool
US6847980B1 (en) * 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US8121415B2 (en) * 2008-10-28 2012-02-21 Quality Vision International, Inc. Combining feature boundaries
CN101916379A (zh) * 2010-09-03 2010-12-15 华中科技大学 一种基于对象积累视觉注意机制的目标搜索和识别方法
CN102999764B (zh) * 2012-10-30 2016-01-13 上海交通大学 图像中基于聚类的多物体检测方法
EP2728522A1 (en) * 2012-11-01 2014-05-07 Nxp B.V. An interpretation engine and associated method
US10642891B2 (en) * 2013-04-12 2020-05-05 Avigilon Fortress Corporation Graph matching by sub-graph grouping and indexing
US11580745B2 (en) * 2017-08-17 2023-02-14 National University Of Singapore Video visual relation detection methods and systems
JP6985121B2 (ja) * 2017-12-06 2021-12-22 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
CN109886345B (zh) * 2019-02-27 2020-11-13 清华大学 基于关系推理的自监督学习模型训练方法和装置
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110110694B (zh) * 2019-05-16 2023-01-24 东北大学 一种基于目标检测的视觉slam闭环检测方法
US10679133B1 (en) * 2019-06-07 2020-06-09 Peritus.AI, Inc. Constructing and utilizing a knowledge graph for information technology infrastructure
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
US11373390B2 (en) * 2019-06-21 2022-06-28 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN110609891B (zh) * 2019-09-18 2021-06-08 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN111125406B (zh) * 2019-12-23 2023-08-04 天津大学 一种基于自适应聚类学习的视觉关系检测方法
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
US11574155B2 (en) * 2020-05-27 2023-02-07 Nvidia Corporation Scene graph generation for unlabeled data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041162A (ja) * 2015-08-21 2017-02-23 日本電気株式会社 最適化装置、方法およびプログラム
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107423707A (zh) * 2017-07-25 2017-12-01 深圳帕罗人工智能科技有限公司 一种基于复杂环境下的人脸情绪识别方法
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
CN110321805A (zh) * 2019-06-12 2019-10-11 华中科技大学 一种基于时序关系推理的动态表情识别方法

Also Published As

Publication number Publication date
US20210264216A1 (en) 2021-08-26
US11301725B2 (en) 2022-04-12
CN111325243A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325243B (zh) 一种基于区域注意力学习机制的视觉关系检测方法
Li et al. Deep learning-based classification methods for remote sensing images in urban built-up areas
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN112418351B (zh) 基于全局与局部上下文感知的零样本学习图像分类方法
Liu et al. RGB-D joint modelling with scene geometric information for indoor semantic segmentation
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
Zhou et al. Indoor positioning algorithm based on improved convolutional neural network
Liu et al. An ensemble of classifiers based on positive and unlabeled data in one-class remote sensing classification
Yang et al. Prior visual relationship reasoning for visual question answering
Xie et al. Multiple objects-aware visual question generation
CN112749738A (zh) 一种融合上下文进行超类推理的零样本对象检测方法
Miao et al. Research on visual question answering based on GAT relational reasoning
CN113779520B (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
Zhou et al. Spatial-aware topic-driven-based image Chinese caption for disaster news
Tian et al. Scene graph generation by multi-level semantic tasks
Zhou et al. Learning semantic context feature-tree for action recognition via nearest neighbor fusion
Zhao et al. RGRN: Relation-aware graph reasoning network for object detection
Gong et al. Autonomous learning of foreign language based on facial emotion recognition and cloud computing
CN109522954A (zh) 异构信息网络链接预测装置
CN114757189A (zh) 事件抽取方法、装置、智能终端及存储介质
CN114882279A (zh) 基于直推式半监督深度学习的多标签图像分类方法
KR20230042192A (ko) 얼굴과 손의 관련도 검출 방법, 장치, 기기 및 저장 매체
CN114299342A (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant