CN108229477B - 针对图像的视觉关联性识别方法、装置、设备及存储介质 - Google Patents
针对图像的视觉关联性识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108229477B CN108229477B CN201810073370.6A CN201810073370A CN108229477B CN 108229477 B CN108229477 B CN 108229477B CN 201810073370 A CN201810073370 A CN 201810073370A CN 108229477 B CN108229477 B CN 108229477B
- Authority
- CN
- China
- Prior art keywords
- feature map
- roi
- pooling
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施方式公开了一种针对图像的视觉关联性识别方法、神经网络的训练方法、装置、电子设备、计算机可读存储介质以及计算机程序,其中的针对图像的视觉关联性识别方法包括:将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元;利用所述神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图;根据所述增强表达特征图,对相应的句子成分进行识别处理。
Description
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种针对图像的视觉关联性识别方法、针对图像的视觉关联性识别装置、神经网络的训练方法、神经网络的训练装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
视觉关联性识别是一种能够针对图像的画面内容进行识别,形成多个句子成分(例如,<主语、谓语、宾语>)组合的技术。视觉关联性识别通常可以适用于计算机视觉中的图像理解等应用中。
如何针对图像的画面内容进行识别,以形成较为恰当的成分组合,是计算机视觉领域中一个值得关注的技术问题。
发明内容
本申请实施方式提供一种针对图像的视觉关联性识别以及训练神经网络的技术方案。
根据本申请实施方式其中一方面,提供一种针对图像的视觉关联性识别方法,所述方法包括:将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元;利用所述神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图;根据所述增强表达特征图,对相应的句子成分进行识别处理。
在本申请一实施方式中,所述至少两种句子成分包括:主语、谓语以及宾语中的至少两个。
在本申请又一实施方式中,所述神经网络单元设置于卷积神经网络中,且所述卷积神经网络中的卷积层的输出提供给所述神经网络单元。
在本申请再一实施方式中,所述神经网络单元包括:至少一个空间上下文外貌模块;所述空间上下文外貌模块用于,完成所述根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图的步骤。
在本申请再一实施方式中,在所述神经网络单元包括多个空间上下文外貌模块的情况下,卷积神经网络中的不同卷积层的输出提供给不同的空间上下文外貌模块。
在本申请再一实施方式中,所述空间上下文外貌模块包括:至少一个对比区域池化模块;所述对比区域池化模块,用于根据两种句子成分在输入图像特征图中的感兴趣区域ROI位置信息,执行ROI池化处理和反ROI池化处理,并将处理后的两种句子成分的特征图相加,以产生空间感知联合特征图;所述空间感知联合特征图用于形成其中至少一种句子成分的增强表达特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第一对比区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据主语在特征图fs中的ROI位置信息,对所述特征图fs执行反ROI池化处理,获得特征图将所述特征图fp和所述特征图进行相加处理,以产生带有空间感知主语特征的谓语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第二对比区域池化模块,用于:根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据主语在特征图fs中的ROI位置信息,对所述特征图fs执行反ROI池化处理,获得特征图根据宾语在特征图fo中的ROI位置信息,对所述特征图fo执行反ROI池化处理,获得特征图将所述特征图和所述特征图进行相加处理,以产生带有空间感知的主语宾语联合特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第三对比区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据宾语在特征图fo中的ROI位置信息,对所述特征图fo执行反ROI池化处理,获得特征图将所述特征图fp和所述特征图进行相加处理,以产生带有空间感知宾语特征的谓语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:至少一个金字塔区域池化模块;所述金字塔区域池化模块,用于根据句子中的两种句子成分在输入图像特征图中的ROI位置信息,分别执行至少一次ROI池化处理,并将池化处理后的两种句子成分的特征图相加,以产生空间感知联合特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第一金字塔区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据主语在特征图fp中的ROI位置信息,对所述特征图fp执行ROI池化处理,获得特征图将所述特征图fs和所述特征图进行相加处理,以产生带有空间感知谓语特征的主语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第二金字塔区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据宾语在特征图fp中的ROI位置信息,对所述特征图fp执行ROI池化处理,获得特征图将所述特征图fo和所述特征图进行相加处理,以产生带有空间感知谓语特征的宾语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块还包括至少一层卷积层,所述空间上下文外貌模块中的卷积层用于对所述空间感知联合特征图进行卷积处理。
在本申请再一实施方式中,所述神经网络单元是利用带有句子成分标注信息的训练数据集中的多个训练数据,训练而成的。
在本申请再一实施方式中,所述神经网络单元的训练过程包括:将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;根据所述增强表达特征图,对相应的句子成分进行识别处理;以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
在本申请再一实施方式中,所述根据所述增强表达特征图,对相应的句子成分进行识别处理包括:通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
在本申请再一实施方式中,所述识别处理结果与相应的句子成分标注信息之间的差异包括:所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
在本申请再一实施方式中,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
在本申请再一实施方式中,所述方法还包括:将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;对所述父节点进行语义聚合处理,形成所述父节点的根节点。
在本申请再一实施方式中,所述方法还包括:将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;将动词父节点和动词短语父节点中的相同动词作为其动词根节点;将介词父节点和动词短语父节点中的相同介词作为其介词根节点;将介词父节点中的介词作为其动词根节点;将动词父节点中的动词作为其介词根节点。
在本申请再一实施方式中,所述方法还包括:提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
根据本申请实施方式的其中另一方面,提供一种神经网络的训练方法,所述训练方法包括:将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;根据所述增强表达特征图,对相应的句子成分进行识别处理;以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
在本申请一实施方式中,所述根据所述增强表达特征图,对相应的句子成分进行识别处理包括:通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
在本申请又一实施方式中,所述识别处理结果与相应的句子成分标注信息之间的差异包括:所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
在本申请再一实施方式中,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
在本申请再一实施方式中,所述方法还包括:将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;对所述父节点进行语义聚合处理,形成所述父节点的根节点。
在本申请再一实施方式中,所述方法还包括:将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;将动词父节点和动词短语父节点中的相同动词作为其动词根节点;将介词父节点和动词短语父节点中的相同介词作为其介词根节点;将介词父节点中的介词作为其动词根节点;将动词父节点中的动词作为其介词根节点。
在本申请再一实施方式中,所述方法还包括:提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
根据本申请实施方式的其中再一方面,提供一种针对图像的视觉关联性识别装置,该装置包括:提供信息模块,用于将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元;获取信息模块,用于利用所述神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图;识别模块,用于根据所述增强表达特征图,对相应的句子成分进行识别处理。
在本申请一实施方式中,所述神经网络单元设置于卷积神经网络中,且所述卷积神经网络中的卷积层的输出提供给所述神经网络单元。
在本申请又一实施方式中,所述神经网络单元包括:至少一个空间上下文外貌模块;所述空间上下文外貌模块用于,完成所述根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图的步骤。
在本申请再一实施方式中,在所述神经网络单元包括多个空间上下文外貌模块的情况下,卷积神经网络中的不同卷积层的输出提供给不同的空间上下文外貌模块。
在本申请再一实施方式中,所述空间上下文外貌模块包括:至少一个对比区域池化模块;所述对比区域池化模块,用于根据两种句子成分在输入图像特征图中的感兴趣区域ROI位置信息,执行ROI池化处理和反ROI池化处理,并将处理后的两种句子成分的特征图相加,以产生空间感知联合特征图;所述空间感知联合特征图用于形成其中至少一种句子成分的增强表达特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第一对比区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据主语在特征图fs中的ROI位置信息,对所述特征图fs执行反ROI池化处理,获得特征图将所述特征图fp和所述特征图进行相加处理,以产生带有空间感知主语特征的谓语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第二对比区域池化模块,用于:根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据主语在特征图fs中的ROI位置信息,对所述特征图fs执行反ROI池化处理,获得特征图根据宾语在特征图fo中的ROI位置信息,对所述特征图fo执行反ROI池化处理,获得特征图将所述特征图和所述特征图进行相加处理,以产生带有空间感知的主语宾语联合特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第三对比区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据宾语在特征图fo中的ROI位置信息,对所述特征图fo执行反ROI池化处理,获得特征图将所述特征图fp和所述特征图进行相加处理,以产生带有空间感知宾语特征的谓语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:至少一个金字塔区域池化模块;所述金字塔区域池化模块,用于根据句子中的两种句子成分在输入图像特征图中的ROI位置信息,分别执行至少一次ROI池化处理,并将池化处理后的两种句子成分的特征图相加,以产生空间感知联合特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第一金字塔区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据主语在输入图像特征图中的ROI位置信息,对主语ROI执行ROI池化处理,获得特征图fs;根据主语在特征图fp中的ROI位置信息,对所述特征图fp执行ROI池化处理,获得特征图将所述特征图fs和所述特征图进行相加处理,以产生带有空间感知谓语特征的主语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块包括:第二金字塔区域池化模块,用于:根据谓语在输入图像特征图中的ROI位置信息,对谓语ROI执行ROI池化处理,获得特征图fp;根据宾语在输入图像特征图中的ROI位置信息,对宾语ROI执行ROI池化处理,获得特征图fo;根据宾语在特征图fp中的ROI位置信息,对所述特征图fp执行ROI池化处理,获得特征图将所述特征图fo和所述特征图进行相加处理,以产生带有空间感知谓语特征的宾语特征图。
在本申请再一实施方式中,所述空间上下文外貌模块还包括至少一层卷积层,所述空间上下文外貌模块中的卷积层用于对所述空间感知联合特征图进行卷积处理。
在本申请再一实施方式中,所述神经网络单元是神经网络的训练装置,利用带有句子成分标注信息的训练数据集训练络的训练而成的。
根据本申请实施方式的其中再一方面,提供一种神经网络的训练装置,包括:第一模块,用于将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;第二模块,用于利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;第三模块,用于根据所述增强表达特征图,对相应的句子成分进行识别处理;监督模块,用于以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
在本申请一实施方式中,所述第三模块通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
在本申请又一实施方式中,所述识别处理结果与相应的句子成分标注信息之间的差异包括:所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
在本申请再一实施方式中,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
在本申请再一实施方式中,所述装置还包括:第一树模块,用于:将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;对所述父节点进行语义聚合处理,形成所述父节点的根节点。
在本申请再一实施方式中,所述装置还包括:第二树模块,用于:将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;将动词父节点和动词短语父节点中的相同动词作为其动词根节点;将介词父节点和动词短语父节点中的相同介词作为其介词根节点;将介词父节点中的介词作为其动词根节点;将动词父节点中的动词作为其介词根节点。
在本申请再一实施方式中,所述第二树模块还用于:提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
根据本申请实施方式再一个方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本申请任一方法实施方式。
根据本申请实施方式再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本申请任一方法实施方式。
根据本申请实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本申请任一方法实施方式。
基于本申请提供的针对图像的视觉关联性识别方法、神经网络的训练方法、针对图像的视觉关联性识别装置、神经网络的训练装置、电子设备、计算机可读存储介质及计算机程序,本申请通过利用神经网络单元,对输入图像特征图中的至少两个成分对应的区域特征,进行空间感知融合处理,使一个成分对应的区域特征可以感知到空间中的另一个成分对应的区域特征。由于一个句子中的不同成分往往是存在空间关联性的,因此,本申请通过使一个成分对应的区域特征可以感知到空间中的另一个成分对应的区域特征,可以使一个成分对应的区域特征具有空间感知特性。由此可知,本申请提供的技术方案有利于增强成分对应的区域特征的表达能力,从而有利于提高识别的精准性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请的针对图像的视觉关联性识别方法一个实施方式的流程图;
图2为本申请的神经网络单元的一个实际应用的实施方式的示意图;
图3为本申请的SCA-M形成主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图的一个过程的示意图;
图4为本申请的SCA-M中针对主语的金字塔ROI池化模块,所执行的处理操作的一实施方式的示意图;
图5为本申请的SCA-M中针对谓语的第一对比ROI池化模块,所执行的处理操作的一实施方式的示意图;
图6为本申请的SCA-M中针对谓语的第二对比ROI池化模块,所执行的处理操作的一实施方式的示意图;
图7为本申请的SCA-M中针对谓语的第三对比ROI池化模块,所执行的处理操作的一实施方式的示意图;
图8为本申请的SCA-M中针对宾语的金字塔ROI池化模块,所执行的处理操作的一实施方式的示意图;
图9为本申请的神经网络单元的训练方法一个实施方式的流程图;
图10为本申请的主语/宾语标注信息树的一个示意图;
图11为本申请的谓语标注信息树的一个示意图;
图12为本申请的针对图像的视觉关联性识别装置一个实施方式的结构示意图;
图13为本申请的神经网络的训练装置一个实施方式的结构示意图;
图14为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本申请的针对图像的视觉关联性识别方法的一个实施例的流程图。
如图1所示,本申请的实施例方法主要包括:步骤S100、步骤S110以及步骤S120。下面对图1中的各步骤进行详细说明。
S100、将输入图像特征图和至少两种句子成分在输入图像特征图中的区域位置信息,提供给神经网络单元。
在一个可选示例中,本申请中的神经网络单元可以设置于一神经网络(例如,卷积神经网络)中,例如,本申请的神经网络单元可以设置于卷积神经网络中的其中一卷积层的之后。
在一个可选示例中,本申请中的输入图像特征图可以是神经网络中的其中一层的输出。一个具体的例子,在本申请中的神经网络单元设置于一卷积神经网络的第X(X为不小于1的整数)卷积层之后的情况下,将待处理图像提供给该卷积神经网络,该卷积神经网络中的第X卷积层输出的特征图,被作为本申请中的输入图像特征图。上述卷积神经网络的网络结构,可以根据实际需求,灵活设计,本申请实施方式并不限制该卷积神经网络的具体网络结构;例如,本申请的卷积神经网络可以包括但不限于:卷积层、非线性Relu层、池化层以及全连接层等,该卷积神经网络所包含的层数越多,则网络越深;再例如,本申请的该卷积神经网络的网络结构可以采用但不限于ALexNet、深度残差网络(Deep Residual Network,ResNet)或VGGnet(Visual Geometry Group Network,视觉几何组网络,如VGG-16)等神经网络所采用的网络结构。
在一个可选示例中,本申请的句子成分在输入图像特征图中的区域位置信息通常是指能够明确的表示出句子成分外接框在输入图像特征图中的区域范围的信息,例如,该区域范围信息可以包括:句子成分外接框的中心坐标以及外接框的大小信息;再例如,该区域范围信息可以包括:位于句子成分外接框对角线上的两个顶点的坐标信息等。本申请的句子成分在输入图像特征图中的区域位置信息可以由用于外接框检测的神经网络提供。本申请不限制句子成分在输入图像特征图中的区域位置信息的具体表现形式以及区域位置信息的具体获得方式。
在一个可选示例中,本申请中的至少两种句子成分可以包括:句子中的主语、谓语以及宾语中的至少两个。通常情况下,谓语的区域位置信息所对应的区域,应同时覆盖主语位置信息和宾语位置信息分别对应的区域,如图2中的谓语的区域位置信息所对应的区域,在覆盖了玩滑板的人的同时,还覆盖了滑板。通常情况下,本申请是将输入图像特征图和句子中的主语、谓语和宾语分别在输入图像特征图中的区域位置信息,提供给神经网络单元。
S110、利用神经网络单元,根据区域位置信息,对输入图像特征图中的至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图。
在一个可选示例中,本申请中的神经网络单元可以基于句子成分的区域位置信息,确定出句子成分的外接框在输入图像特征图中的具体位置,输入图像特征图中的该外接框范围内的特征即为本申请中的区域特征。
在一个可选示例中,本申请中的空间感知融合处理可以包括:在输入图像特征图的基础上,针对两个区域特征分别执行ROI(Region Of Interest,感兴趣区域)池化处理,针对ROI池化处理后的两个特征图的相加处理,从而获得两种不同的句子成分的空间感知联合特征,即针对其中一句子成分的增强表达特征图。
在一个可选示例中,本申请中的空间感知融合处理也可以包括:在输入图像特征图的基础上,针对两个区域特征分别执行ROI池化处理,针对其中一个ROI池化处理后的特征图执行DeROI(反向感兴趣区域)池化处理,针对ROI池化处理后的特征图和DeROI池化处理后的特征图的相加处理,从而获得这两种句子成分的空间感知联合特征,进而可以基于该空间感知联合特征,获得针对其中一句子成分的增强表达特征图。
在一个可选示例中,本申请中的空间感知融合处理还可以包括:在输入图像特征图的基础上,针对两个区域特征分别执行ROI池化处理,针对两个ROI池化处理后的特征图分别执行DeROI池化处理,针对DeROI池化处理后的两个特征图的相加处理,从而获得这两种句子成分的空间感知联合特征,进而可以基于该空间感知联合特征,获得针对其中一句子成分的增强表达特征图。
在一个可选示例中,采用不同方式获得的多个空间感知联合特征,可以采用特征拼接等方式进行合并,从而形成一个空间感知联合特征,该空间感知联合特征可以被作为针对一句子成分的增强表达特征图。另外,本申请可以利用上述获得的各个针对一句子成分的增强表达特征图,来更新输入图像特征图。
在一个可选示例中,神经网络单元所执行的ROI池化处理、DeROI池化处理以及相加处理等操作,可以由SCA-M(Spatiality Context Appearance Module,空间上下文外貌模型)实现。本申请的神经网络单元可以包括:一个或者多个SCA-M。在本申请的神经网络单元包括多个SCA-M的情况下,不同的SCA-M可以设置于神经网络(如卷积神经网络)不同的卷积层中,且每一个SCA-M的输入图像特征图,可以是其所在卷积层形成并输出的图像特征。
在一个可选示例中,本申请通过利用神经网络单元对输入图像特征图中的至少两种句子成分对应的区域特征,进行空间感知融合处理,可以使至少一个句子成分所对应的区域特征,获知其他句子成分各自对应的位置信息和外貌信息(Appearance),从而使句子成分的增强表达特征图具有空间感知特性。由于一个句子中的不同句子成分往往是存在空间关联性的,因此,本申请通过使一个句子成分对应的区域特征可以感知到空间中的另一个句子成分对应的区域特征,有利于增强句子成分对应的区域特征的表达能力,有利于对句子成分的理解,进而本申请有利于提高识别的精准性。
本申请的包含有两个SCA-M的神经网络单元的一个实际应用及SCA-M的具体结构,可以参见下述实施方式中针对图2至图8的描述,本申请的神经网络单元的训练过程,可以参见下述实施方式中针对图9至图11的描述,在此均不再详细说明。
S120、根据增强表达特征图,对相应的句子成分进行识别处理。
在一个可选示例中,本申请可以通过至少一层全连接层(例如,3层全连接层),对更新后的输入图像特征图,进行识别处理,从而本申请可以根据最后一层全连接层输出的信息,确定出句子中的至少一句子成分所表达的较为精准的语义,例如,通过最后一层全连接层输出的分类信息,可以确定出句子中的主语、谓语以及宾语所表达的语义。本申请不限制针对增强表达特征图进行识别处理的具体实现方式。
图2为本申请的包含有两个SCA-M的神经网络单元的一个具体应用的示意图。
图2中,最左侧为待处理图像,该待处理图像作为输入信息,提供给CNN(Convolutional Neural Network,卷积神经网络),经过CNN中的N(如N等于4)层卷积层的处理而形成的特征图,被作为输入图像特征图,与句子中的主语在输入图像特征图中的区域位置信息、谓语在输入图像特征图中的区域位置信息以及宾语在输入图像特征图中的区域位置信息一起,提供给图2左侧的SCA-M,由该SCA-M形成主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图,并利用主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图,来更新输入图像特征图。
更新后的输入图像特征图,经过CNN中的第N+1层(如第5层)卷积层的处理,而形成的特征图,被作为输入图像特征图,与句子中的主语在输入图像特征图中的区域位置信息、谓语在输入图像特征图中的区域位置信息以及宾语在输入图像特征图中的区域位置信息一起,提供给图2右侧的SCA-M。由该SCA-M再次形成主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图,并利用再次形成的主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图,来更新其输入图像特征图。
第二次更新后的图像特征图被提供给CNN中的全连接层,由全连接层对图像特征图进行识别处理,根据全连接层输出的信息可以获知,主语为“person”,谓语为“play”,宾语为“skateboard”。
上述图2中的SCA-M形成主语的增强表达特征图、谓语的增强表达特征图以及宾语的增强表达特征图的一个过程可以如图3所示。
图3中,最左侧的深灰色方框表示输入图像特征图中的主语外接框内的特征,即主语ROI。最左侧的填充物为“.”的方框表示输入图像特征图中的谓语外接框内的特征,即谓语ROI。最左侧的黑色方框表示输入图像特征图中的宾语外接框内的特征,即宾语ROI。
本申请中的SCA-M通过对主语ROI和谓语ROI进行空间感知融合处理,可以获得主语和谓语的空间感知联合特征(如3中的SP),即带有谓语空间感知特征的主语特征。该主语和谓语的空间感知联合特征可以由SCA-M中的卷积层进行进一步的卷积处理。图3右上角的方框表示卷积层输出的特征图。
本申请中的SCA-M通过对谓语ROI和主语ROI进行空间感知融合处理,可以获得谓语和主语的空间感知联合特征(如3中的PS),即带有主语空间感知特征的谓语特征。本申请中的SCA-M通过对主语ROI和宾语ROI进行空间感知融合处理,可以获得主语和宾语的空间感知联合特征(如3中的SO)。本申请中的SCA-M通过对谓语ROI和宾语ROI进行空间感知融合处理,可以获得谓语和宾语的空间感知联合特征(如3中的PO),即带有宾语空间感知特征的谓语特征。上述PS、SO以及PO可以由SCA-M中的卷积层进行进一步的卷积处理。图3最右边中间位置的方框表示卷积层输出的特征图,该特征图可以称为带有主语和宾语空间感知特征的谓语特征。
本申请中的SCA-M通过对宾语ROI和谓语ROI进行空间感知融合处理,可以获得宾语和谓语的空间感知联合特征(如3中的OP),即带有谓语空间感知特征的宾语特征。该宾语和谓语的空间感知联合特征可以由SCA-M中的卷积层进行进一步的卷积处理。图3右下角的方框表示卷积层输出的特征图。
在一个可选示例中,本申请的SCA-M可以包括:至少一个对比感兴趣区域池化(Contrastive ROI pooling)模块以及至少一个金字塔感兴趣区域池化(Pyramid ROIpooling)模块,例如,本申请的SCA-M可以包括:三个对比ROI池化模块(如三个针对谓语的对比ROI池化模块)以及两个金字塔ROI池化模块(如一个针对主语的金字塔ROI池化模块以及一个针对宾语的金字塔ROI池化模块)。该SCA-M还可以包括:至少一层卷积层。对比ROI池化模块以及两个金字塔ROI池化模块的输出分别被作为卷积层的输入。
在一个可选示例中,对比ROI池化模块主要用于对针对两个句子成分分别执行ROI池化处理,并针对其中一个ROI池化处理后的特征图执行DeROI池化处理,针对ROI池化处理后的特征图和DeROI池化处理后的特征图的相加处理,从而获得这两个句子成分的空间感知联合特征。
在一个可选示例中,对比ROI池化模块还可以主要用于针对两个句子成分分别执行ROI池化处理,并针对两个ROI池化处理后的特征图分别执行DeROI池化处理,针对DeROI池化处理后的两个特征图的相加处理,从而获得这两个句子成分的空间感知联合特征。
在一个可选示例中,金字塔ROI池化模块主要用于针对两个句子成分分别执行ROI池化处理,并针对其中一个ROI池化处理后的特征图再次执行ROI池化处理,针对ROI池化处理后的两个特征图进行相加处理,从而获得这两个句子成分的空间感知联合特征。
在一个可选示例中,本申请中的对比感兴趣区域池化模块主要包括:至少一个用于执行ROI池化操作的ROI池化单元、以及至少一个用于执行反向ROI池化操作的deROI池化单元。
下面结合图4至图8对本申请中的对比ROI池化模块以及金字塔ROI池化模块所执行的操作进行说明。
本申请的SCA-M中针对主语的第一金字塔ROI池化模块,所执行的处理操作的一个实施方式如图4所示。
图4中,设定第一金字塔ROI池化模块的输入图像特征图为(即图4最左侧无填充物的白色方框),输入图像特征图中的主语ROI特征为图4最左侧的深灰色方框,该主语ROI特征可以表示为Rs,而输入图像特征图中的谓语的ROI特征为图4最左侧填充物为“.”的方框,该谓语的ROI特征可以表示为Rp。
首先,第一金字塔ROI池化模块根据输入信息中的特征图以及主语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fs;同时,第一金字塔ROI池化模块根据输入信息中的特征图以及谓语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fp。
其次,第一金字塔ROI池化模块根据上述获得的特征图fp以及主语ROI在特征图fp中的位置信息,执行相应的ROI池化处理操作,从而获得特征图特征图和特征图fp的大小通常相同。在特征图fp的大小与特征图的大小相同的情况下,上述主语ROI在特征图fp中的位置信息即为主语ROI在特征图中的位置信息。而在特征图fp的大小与特征图的大小不相同的情况下,上述主语ROI在特征图fp中的位置信息可以根据特征图fp的大小与特征图的大小之间的关系,对主语ROI在特征图中的位置信息进行转换获得。
本申请的SCA-M中针对谓语的第一对比ROI池化模块,所执行的处理操作的一个实施方式如图5所示。
图5中,设定第一对比ROI池化模块的输入图像特征图为(即图5最左侧无填充物的白色方框),输入图像特征图中的主语ROI特征为图5最左侧的深灰色方框,该主语ROI特征可以表示为Rs,而输入图像特征图中的谓语的ROI特征为图5最左侧填充物为“.”的方框,该谓语的ROI特征可以表示为Rp。
首先,第一对比ROI池化模块根据输入信息中的特征图以及主语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fs;同时,第一对比ROI池化模块根据输入信息中的特征图以及谓语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fp。
其次,第一对比ROI池化模块根据上述获得的特征图fs以及主语ROI在特征图fs中的位置信息,执行相应的DeROI池化处理操作,从而获得带有空间感知的主语特征图该特征图中除了主语ROI之外的区域中的特征可以被置为0。特征图和特征图fs的大小通常相同。在特征图fs的大小与特征图的大小相同的情况下,上述主语ROI在特征图fs中的位置信息即为主语ROI在特征图中的位置信息。而在特征图fs的大小与特征图的大小不相同的情况下,上述主语ROI在特征图fs中的位置信息可以根据特征图fs的大小与特征图的大小之间的关系,对主语ROI在特征图中的位置信息进行转换获得。
本申请的SCA-M中针对谓语的第二对比ROI池化模块,所执行的处理操作的一个实施方式如图6所示。
图6中,设定第二对比ROI池化模块的输入图像特征图为(即图6最左侧无填充物的白色方框),输入图像特征图中的主语ROI特征为图6最左侧的深灰色方框,该主语ROI特征可以表示为Rs,而输入图像特征图中的宾语的ROI特征为图6最左侧的黑色方框,该宾语的ROI特征可以表示为Ro。
首先,第二对比ROI池化模块根据输入信息中的特征图以及主语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fs;同时,第二对比ROI池化模块根据输入信息中的特征图以及宾语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fo。
其次,第二对比ROI池化模块根据上述获得的特征图fs以及主语ROI在特征图fs中的位置信息,执行相应的DeROI池化处理操作,从而获得带有空间感知的主语特征图该特征图中,除了主语ROI之外的区域中的特征可以被置为0。同时,第二对比ROI池化模块根据上述获得的特征图fo以及宾语ROI在特征图fo中的位置信息,执行相应的DeROI池化处理操作,从而获得带有空间感知的宾语特征图该特征图中除了宾语ROI之外的区域中的特征可以被置为0。特征图和特征图的大小通常相同。
在特征图fs的大小与特征图的大小相同的情况下,上述主语ROI在特征图fs中的位置信息即为主语ROI在特征图中的位置信息。而在特征图fs的大小与特征图的大小不相同的情况下,上述主语ROI在特征图fs中的位置信息可以根据特征图fs的大小与特征图的大小之间的关系,对主语ROI在特征图中的位置信息进行转换获得。同样的,在特征图fo的大小与特征图的大小相同的情况下,上述宾语ROI在特征图fo中的位置信息即为宾语ROI在特征图中的位置信息。而在特征图fo的大小与特征图的大小不相同的情况下,上述宾语ROI在特征图fo中的位置信息可以根据特征图fo的大小与特征图的大小之间的关系,对宾语ROI在特征图中的位置信息进行转换获得。
本申请的SCA-M中针对谓语的第三对比ROI池化模块,所执行的处理操作的一个实施方式如图7所示。
图7中,设定第三对比ROI池化模块的输入图像特征图为(即图7最左侧无填充物的白色方框),输入图像特征图中的宾语ROI特征为图7最左侧的黑色方框,该宾语ROI特征可以表示为Ro,而输入图像特征图中的谓语的ROI特征为图7最左侧填充物为“.”的方框,该谓语的ROI特征可以表示为Rp。
首先,第三对比ROI池化模块根据输入信息中的特征图以及宾语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fo;同时,第三对比ROI池化模块根据输入信息中的特征图以及谓语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fp。
其次,第三对比ROI池化模块根据上述获得的特征图fo以及宾语ROI在特征图fo中的位置信息,执行相应的DeROI池化处理操作,从而获得带有空间感知的主语特征图该特征图中除了宾语ROI之外的区域中的特征可以被置为0。特征图和特征图fo的大小通常相同。在特征图fo的大小与特征图的大小相同的情况下,上述宾语ROI在特征图fo中的位置信息即为宾语ROI在特征图中的位置信息。而在特征图fo的大小与特征图的大小不相同的情况下,上述宾语ROI在特征图fo中的位置信息可以根据特征图fo的大小与特征图的大小之间的关系,对宾语ROI在特征图中的位置信息进行转换获得。
本申请的SCA-M中针对宾语的第二金字塔ROI池化模块,所执行的处理操作的一个实施方式如图8所示。
图8中,设定第二金字塔ROI池化模块的输入图像特征图为(即图8最左侧无填充物的白色方框),输入图像特征图中的宾语ROI特征为图8最左侧的黑色方框,该宾语ROI特征可以表示为Ro,而输入图像特征图中的谓语的ROI特征为图8最左侧填充物为“.”的方框,该谓语的ROI特征可以表示为Rp。
首先,第二金字塔ROI池化模块根据输入信息中的特征图以及宾语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fo;同时,第二金字塔ROI池化模块根据输入信息中的特征图以及谓语ROI在特征图中的位置信息(如中心坐标以及外接框大小信息等),执行相应的ROI池化处理操作,从而获得特征图fp。
其次,第二金字塔ROI池化模块根据上述获得的特征图fp以及宾语ROI在特征图fp中的位置信息,执行相应的ROI池化处理操作,从而获得特征图特征图和特征图fp的大小通常相同。在特征图fp的大小与特征图的大小相同的情况下,上述宾语ROI在特征图fp中的位置信息即为宾语ROI在特征图中的位置信息。而在特征图fp的大小与特征图的大小不相同的情况下,上述宾语ROI在特征图fp中的位置信息可以根据特征图fp的大小与特征图的大小之间的关系,对宾语ROI在特征图中的位置信息进行转换获得。
图9为本申请训练神经网络的一个实施例的流程图。如图9所示,该实施例方法包括:步骤S900、步骤S910、步骤S920以及步骤S930。下面对图9中的各步骤进行详细说明。
S900、将输入图像特征图和至少两种句子成分在输入图像特征图中的区域位置信息,提供给待训练的神经网络单元。
在一个可选示例中,本申请设置有训练数据集,该训练数据集中包括多个用于训练神经网络单元的图像样本,图像样本可以为基于RGB的彩色图像样本,也可以为灰度图像样本等。通常情况下,每个图像样本均设置有至少一种句子成分的外接框的标注信息;例如,每个图像样本均设置有:主语标注信息、谓语标注信息以及宾语标注信息。
在一个可选示例中,本申请可以按照随机读取方式或者按照图像样本排列次序顺序读取方式,一次从训练数据集中读取一个或者多个图像样本。读取出的图像样本在经过卷积神经网络以及用于外接框检测的神经网络等处理后,获得图像特征图和至少两种句子成分在图像特征图中的区域位置信息,其中的至少两种句子成分在图像特征图中的区域位置信息可以包括:主语在图像特征图中的区域位置信息(即主语ROI的位置信息)、谓语在图像特征图中的区域位置信息(即主语ROI的位置信息)以及宾语在图像特征图中的区域位置信息(即宾语ROI的位置信息)。本申请可以将图像特征图作为输入图像特征图,与上述获得的区域位置信息等一起提供给待训练的神经网络单元。本申请不限制获得输入图像特征图以及相应的区域位置信息的具体实现方式。
S910、利用待训练的神经网络单元,根据区域位置信息,对输入图像特征图中的至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图。
在一个可选示例中,待训练的神经网络针对输入图像特征以及区域位置信息所执行的操作可以参见上述方法实施方式中针对图1至图8的描述,在此不再重复说明。本申请获得的增强表达特征图可以包括:带有谓语空间感知特征的主语特征图SP、带有主语空间感知特征的谓语特征图PS、带有主语空间感知特征和宾语空间感知特征的特征图SO、带有宾语空间感知特征的谓语特征图PO以及带有谓语空间感知特征的宾语特征图OP。其中的带有主语空间感知特征的谓语特征图PS、带有主语空间感知特征和宾语空间感知特征的特征图SO以及带有宾语空间感知特征的谓语特征图PO,可以合并为带有空间感知的谓语特征图。
S920、根据增强表达特征图,对相应的句子成分进行识别处理。
在一个可选示例中,本申请可以通过至少一层全连接层,针对增强表达特征图,进行相应的句子成分的识别处理,例如,本申请可以通过三层全连接层,针对增强表达特征图,进行主语识别处理、谓语识别处理以及宾语识别处理。本申请不限制识别处理的具体实现方式。
S930、以识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对待训练的神经网络单元进行监督学习。
在一个可选示例中,本申请可以以减小待训练的神经网络单元输出的识别处理结果与图像样本的标注信息(如主语标注信息、谓语标注信息以及宾语标注信息)之间的差异为目的,通过调整待训练的神经网络单元中的网络参数,从而实现对待训练的神经网络单元进行监督学习。一个可选例子,针对批量处理过程中的多个图像样本,本申请可以利用针对主语的损失函数、针对谓语的损失函数和针对宾语的损失函数,以减小待训练的神经网络单元输出的各图像样本的主语识别处理结果、谓语识别处理结果和宾语识别处理结果,与相应的图像样本的主语标注信息、谓语标注信息和宾语标注信息之间的差异为目的,进行相应的计算,从而形成一反向传播过程,在该反向传播过程中,调整待训练的神经网络单元中的网络参数。
在一个可选示例中,在针对待训练的神经网络单元的训练达到预定迭代条件时,本次训练过程结束。本申请中的预定迭代条件可以包括:待训练的神经网络单元输出的识别处理结果与图像样本的标注信息之间的差异满足预定差异要求。在差异满足该预定差异要求的情况下,本次对待训练的神经网络单元成功训练完成。本申请中的预定迭代条件也可以包括:对该待训练的神经网络单元进行训练,所使用的图像样本的数量达到预定数量要求等。在使用的图像样本的数量达到预定数量要求,然而,差异并未满足预定差异要求的情况下,本次对待训练的神经网络单元并未训练成功。成功训练完成的神经网络单元可以用于对待处理图像进行视觉关联性识别。
在一个可选示例中,本申请可以利用训练数据集中的标注信息生成标注信息树,并在监督学习过程中,每一个全连接层的输出对应标注信息树之中的一层,从而本申请可以以减小待训练的神经网络单元中的每一层全连接层输出的识别处理结果与标注信息树中相应层中的相应节点之间的差异为目的,通过调整待训练的神经网络单元中的网络参数,从而实现对待训练的神经网络单元进行监督学习。本申请通过设置标注信息树,有利于提高神经网络单元的识别处理结果的准确性。
在一个可选示例中,在待训练的神经网络单元包括三层全连接层的情况下,标注信息树包括三层,叶子节点(第0层)对应最后一层全连接层输出的识别处理结果,叶子节点的父节点(第1层)对应中间层全连接层输出的识别处理结果,根节点(第2层)对应第一层全连接层输出的识别处理结果。
在一个可选示例中,本申请中的标注信息树可以包括:针对主语和宾语的第一标注信息树以及针对谓语的第二标注信息树。在监督学习的过程中,待训练的神经网络单元输出的主语识别处理结果,对应第一标注信息树,待训练的神经网络单元输出的谓语识别处理结果,对应第二标注信息树。待训练的神经网络单元输出的宾语识别处理结果,对应第一标注信息树。
在一个可选示例中,形成第一标注信息树的一个具体例子为:
首先,将训练数据集中的多个不相同主语标注信息和多个不相同的宾语标注信息作为第一标注信息树的第0层,叶子节点。
其次,提取各叶子节点中名词,并对提取出的名词进行归一化处理,从而形成第一标注信息树的第1层,即叶子节点的父节点。本申请对名词进行的归一化处理可以包括名词格式统一等处理。一个具体例子,图10中的old man、young man、mans、bald man、men以及tall man均为叶子节点,本申请从这些叶子节点中提取出的名词包括:man、mans以及men,本申请对man、mans以及men进行归一化处理后,形成父节点man。本申请不限制归一化处理的具体实现方式。
最后,对所有的父节点进行语义聚合处理,形成第一标注信息树的第2层,即父节点的根节点。例如,在图10中,man、woman、girl、child、boy、people、guard以及officer进行语义聚合处理后,形成human。本申请可以采用距离计算(如Leacock-Chodorow Distance算法)等方式来实现语义聚合处理。本申请不限制语义聚合处理的具体实现方式。
需要特别说明的是,本申请的第一标注信息树可以是基于类的第一标注信息树,例如,针对标注信息中的每一类形成一棵第一标注信息树,本申请中的类可以是以语义进行划分的。例如,图10中示出了7个类各自的第一标注信息树,即根节点分别为human、animal、fruit、equpment、clothing、furniture以及vehicle的第一标注信息树。由此可知,本申请的第一标注信息树可以称为类内多层语义树。
需要特别说明的是,在第一标注信息树包括三层的情况下,本申请中的针对主语的损失函数包括三个损失函数,即对应第0层的损失函数、对应第1层的损失函数以及对应第2层的损失函数。同样的,本申请中的针对宾语的损失函数也包括三个损失函数,即对应第O层的损失函数、对应第1层的损失函数以及对应第2层的损失函数。
在一个可选示例中,形成第二标注信息树的一个具体例子为:
首先,将训练数据集中的多个不相同的谓语标注信息作为第二标注信息树的叶子节点。
其次,提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点。本申请中的归一化处理可以具体包括统一时态等,本申请不限制归一化处理的具体实现方式。
在一个可选示例中,在叶子节点包括动词短语的情况下,从叶子节点中提取动词短语。本申请中的动词短语通常是指动词+介词。在叶子节点中没有包括动词短语的情况下,如果叶子节点中包括动词,则提取动词,如果叶子节点中包括介词,则提取介词。可选的,在叶子节点中包括形容词的情况下,本申请还可以提取形容词。
一个具体例子,图11中的on a man’s、on a、on her、on an、on its on the为叶子节点,本申请可以从这些叶子节点中提取出介词on,作为这些叶子节点的介词父节点。图11中的stands on、standing on a以及are standing on为叶子节点,本申请可以从这些叶子节点中提取出动词短语stand on,作为这些叶子节点的动词短语父节点。图11中的wearing、wearing a yellow、wears、wearing a pink以及wearing grey为叶子节点,本申请可以从这些叶子节点中提取出动词wear,作为这些叶子节点的动词父节点。
之后,本申请可以将动词父节点和动词短语父节点中的相同动词作为其动词根节点,将介词父节点和动词短语父节点中的相同介词(例如,图11中的stand next to和walknext to中的next to)作为其介词根节点;将介词父节点中的介词作为其动词根节点,例如,图11中左上角位置处的on;将动词父节点中的动词作为其介词根节点,例如,图11右上角位置处的wear。
需要特别说明的是,本申请中的第二标注信息树的根节点所在的第2层包括两个子层,一个子层是介词子层,另一个子层是动词子层,介词子层对应一个损失函数,动词子层对应一个损失函数。在一个可选示例中,在第一标注信息树包括三层的情况下,本申请中的针对谓语的损失函数可以包括:叶子节点的损失函数、父节点的损失函数(有可能包括两个损失函数,一个是针对形容词的损失函数,一个是针对动词、动词短语或者介词的损失函数)、根节点介词子层的损失函数以及根节点动词子层的损失函数。
图12为本申请的针对图像的视觉关联性识别装置一个实施例的结构示意图。如图12所示,该实施例的装置主要包括:提供信息模块1200、获取信息模块1210以及识别模块1220。可选的,该实施例的装置还可以包括:神经网络的训练装置1230。
提供信息模块1200主要用于将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元。提供信息模块1200具体执行的操作如上述方法实施方式中针对S100的描述,在此不再重复说明。
获取信息模块1210主要用于利用神经网络单元,根据区域位置信息,对输入图像特征图中的至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图。
本申请中的神经网络单元设置于卷积神经网络中,且卷积神经网络中的卷积层的输出被提供给神经网络单元。该神经网络单元包括:至少一个空间上下文外貌模块。空间上下文外貌模块主要用于执行根据区域位置信息,对输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图的操作。在神经网络单元包括多个空间上下文外貌模块的情况下,卷积神经网络中的不同卷积层的输出被提供给不同的空间上下文外貌模块(如上述针对图2的描述)。
本申请中的一个空间上下文外貌模块可以包括:至少一个对比区域池化模块以及至少一个金字塔区域池化模块;例如,空间上下文外貌模块包括:第一对比区域池化模块、第二对比区域池化模块、第三对比区域池化模块、第一金字塔区域池化模块以及第三金字塔区域池化模块。另外,空间上下文外貌模块还包括至少一层卷积层,空间上下文外貌模块中的卷积层主要用于对空间感知联合特征图进行卷积处理。空间上下文外貌模块所包括的各模型执行的具体操作,可以参见上述方法实施方式中针对S110以及图4至图8的描述,在此不再重复说明。
识别模块1220主要用于根据增强表达特征图,对相应的句子成分进行识别处理。识别模块1220具体执行的操作如上述方法实施方式中针对S120的描述,在此不再重复说明。
神经网络的训练装置1230主要用于利用带有句子成分标注信息的训练数据集中的多个训练数据,对待训练的神经网络进行训练,从而形成上述用于实现视觉关联识别的神经网络。神经网络的训练装置1230具体执行的操作可以参见上述方法实施方式中针对图9的描述,神经网络的训练装置1230的结构如下述实施方式中针对图13的描述,在此均不再重复说明。
图13为本申请的神经网络的训练装置一个实施例的结构示意图。如图13所示,该实施例的装置主要包括:第一模块1300、第二模块1310、第三模块1320以及监督模块1330。可选的,该实施例的训练装置还可以包括:第一树模块1340以及第二树模块1350。
第一模块1300主要用于将输入图像特征图和至少两种句子成分在输入图像特征图中的区域位置信息,提供给待训练的神经网络单元。第一模块1300具体执行的操作可以参见上述图9中针对S900的描述,在此不再详细说明。
第二模块1310主要用于利用待训练的神经网络单元,根据区域位置信息,对输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图。第二模块1310具体执行的操作可以参见上述图9中针对S910的描述,在此不再详细说明。
第三模块1320主要用于根据增强表达特征图,对相应的句子成分进行识别处理。例如,第三模块1320通过至少两层全连接层,针对第二模块1310获得的增强表达特征图,进行相应的句子成分的识别处理。第三模块1320具体执行的操作可以参见上述图9中针对S920的描述,在此不再详细说明。
监督模块1330主要用于以识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对待训练的神经网络单元进行监督学习。例如,监督模块1330以至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异为指导信息,对待训练的神经网络单元进行监督学习。本申请中的标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。监督模块1330具体执行的操作可以参见上述图9中针对S930的描述,在此不再详细说明。
第一树模块1340主要用于:将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点,提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点,对父节点进行语义聚合处理,形成父节点的根节点。第一树模块1340形成第一标注信息树的一个具体例子,可以参见上述方法实施方式中,针对图10的描述,在此不再重复说明。
第二树模块1350主要用于将训练数据集中的多个谓语标注信息作为标注信息树的叶子节点,提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点,将动词父节点和动词短语父节点中的相同动词作为其动词根节点;将介词父节点和动词短语父节点中的相同介词作为其介词根节点;将介词父节点中的介词作为其动词根节点;将动词父节点中的动词作为其介词根节点。在叶子节点中存在形容词的情况下,第二树模块1350还可以提取叶子节点中的形容词,形成叶子节点的形容词父节点。第二树模块1350形成第二标注信息树的一个具体例子,可以参见上述方法实施方式中,针对图11的描述,在此不再重复说明。
示例性设备
图14示出了适于实现本申请的示例性设备1400,设备1400可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图14中,设备1400包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)1401,和/或,一个或者多个利用神经网络进行针对图像的视觉关联性识别的图像处理器(GPU)1413等,处理器可以根据存储在只读存储器(ROM)1402中的可执行指令或者从存储部分1408加载到随机访问存储器(RAM)1403中的可执行指令而执行各种适当的动作和处理。通信部1412可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器1402和/或随机访问存储器1403中通信以执行可执行指令,通过总线1404与通信部1412相连、并经通信部1412与其他目标设备通信,从而完成本申请中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。
此外,在RAM 1403中,还可以存储有装置操作所需的各种程序以及数据。CPU1401、ROM1402以及RAM1403通过总线1404彼此相连。在有RAM1403的情况下,ROM1402为可选模块。RAM1403存储可执行指令,或在运行时向ROMl402中写入可执行指令,可执行指令使中央处理单元1401执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口1405也连接至总线1404。通信部1412可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408:以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如,因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘以及半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装在存储部分1408中。
需要特别说明的是,如图14所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图14的部件数量以及类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再例如,可以将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分1409从网络上被下载及安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本申请中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的针对图像的视觉关联性识别方法或者神经网络的训练方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种针对图像的视觉关联性识别方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中,该方法包括:第一装置向第二装置发送针对图像的视觉关联性识别指示或者训练神经网络指示,该指示使得第二装置执行上述任一可能的实施例中的针对图像的视觉关联性识别方法或者训练神经网络方法;第一装置接收第二装置发送的针对图像的视觉关联性识别结果或者神经网络训练结果。
在一些实施例中,该针对图像的视觉关联性识别指示或者训练神经网络指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行针对图像的视觉关联性识别操作或者训练神经网络操作,相应地,响应于接收到调用指令,第二装置可以执行上述针对图像的视觉关联性识别方法或者训练神经网络的方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改以及变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用,并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。
Claims (50)
1.一种针对图像的视觉关联性识别方法,其特征在于,包括:
将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元;
利用所述神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图;
根据所述增强表达特征图,对相应的句子成分进行识别处理。
2.根据权利要求1所述的方法,其特征在于,所述至少两种句子成分包括:主语、谓语以及宾语中的至少两个。
3.根据权利要求1所述的方法,其特征在于,所述神经网络单元设置于卷积神经网络中,且所述卷积神经网络中的卷积层的输出提供给所述神经网络单元。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述神经网络单元包括:至少一个空间上下文外貌模块;
所述空间上下文外貌模块用于,完成所述根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图的步骤。
5.根据权利要求4所述的方法,其特征在于,
在所述神经网络单元包括多个空间上下文外貌模块的情况下,卷积神经网络中的不同卷积层的输出提供给不同的空间上下文外貌模块。
6.根据权利要求4所述的方法,其特征在于,所述空间上下文外貌模块包括:至少一个对比区域池化模块;
所述对比区域池化模块,用于根据两种句子成分在输入图像特征图中的感兴趣区域ROI位置信息,执行ROI池化处理和反ROI池化处理,并将处理后的两种句子成分的特征图相加,以产生空间感知联合特征图;
所述空间感知联合特征图用于形成其中至少一种句子成分的增强表达特征图。
10.根据权利要求5至9中任一项所述的方法,其特征在于,所述空间上下文外貌模块包括:至少一个金字塔区域池化模块;
所述金字塔区域池化模块,用于根据句子中的两种句子成分在输入图像特征图中的ROI位置信息,分别执行至少一次ROI池化处理,并将池化处理后的两种句子成分的特征图相加,以产生空间感知联合特征图。
13.根据权利要求6至9、11至12中任一项所述的方法,其特征在于,所述空间上下文外貌模块还包括至少一层卷积层,所述空间上下文外貌模块中的卷积层用于对所述空间感知联合特征图进行卷积处理。
14.根据权利要求1至3、5至9、11至12中任一项所述的方法,其特征在于,所述神经网络单元是利用带有句子成分标注信息的训练数据集中的多个训练数据,训练而成的。
15.根据权利要求14所述的方法,其特征在于,所述神经网络单元的训练过程包括:
将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;
利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;
根据所述增强表达特征图,对相应的句子成分进行识别处理;
以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
16.根据权利要求15所述的方法,其特征在于,所述根据所述增强表达特征图,对相应的句子成分进行识别处理包括:
通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
17.根据权利要求16所述的方法,其特征在于,所述识别处理结果与相应的句子成分标注信息之间的差异包括:
所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;
其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
18.根据权利要求17所述的方法,其特征在于,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
19.根据权利要求18所述的方法,其特征在于,所述方法还包括:
将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;
提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;
对所述父节点进行语义聚合处理,形成所述父节点的根节点。
20.根据权利要求18至19中任一项所述的方法,其特征在于,所述方法还包括:
将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;
提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;
将动词父节点和动词短语父节点中的相同动词作为其动词根节点;
将介词父节点和动词短语父节点中的相同介词作为其介词根节点;
将介词父节点中的介词作为其动词根节点;
将动词父节点中的动词作为其介词根节点。
21.根据权利要求20所述的方法,其特征在于,所述方法还包括:
提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
22.一种神经网络的训练方法,其特征在于,所述方法包括:
将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;
利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;
根据所述增强表达特征图,对相应的句子成分进行识别处理;
以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
23.根据权利要求22所述的方法,其特征在于,所述根据所述增强表达特征图,对相应的句子成分进行识别处理包括:
通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
24.根据权利要求23所述的方法,其特征在于,所述识别处理结果与相应的句子成分标注信息之间的差异包括:
所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;
其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
25.根据权利要求24所述的方法,其特征在于,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
26.根据权利要求25所述的方法,其特征在于,所述方法还包括:
将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;
提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;
对所述父节点进行语义聚合处理,形成所述父节点的根节点。
27.根据权利要求25至26中任一项所述的方法,其特征在于,所述方法还包括:
将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;
提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;
将动词父节点和动词短语父节点中的相同动词作为其动词根节点;
将介词父节点和动词短语父节点中的相同介词作为其介词根节点;
将介词父节点中的介词作为其动词根节点;
将动词父节点中的动词作为其介词根节点。
28.根据权利要求27所述的方法,其特征在于,所述方法还包括:
提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
29.一种针对图像的视觉关联性识别装置,其特征在于,包括:
提供信息模块,用于将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给神经网络单元;
获取信息模块,用于利用所述神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分对应的增强表达特征图;
识别模块,用于根据所述增强表达特征图,对相应的句子成分进行识别处理。
30.根据权利要求29所述的装置,其特征在于,所述神经网络单元设置于卷积神经网络中,且所述卷积神经网络中的卷积层的输出提供给所述神经网络单元。
31.根据权利要求29至30中任一项所述的装置,其特征在于,所述神经网络单元包括:至少一个空间上下文外貌模块;
所述空间上下文外貌模块用于,完成所述根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图的步骤。
32.根据权利要求31所述的装置,其特征在于,在所述神经网络单元包括多个空间上下文外貌模块的情况下,卷积神经网络中的不同卷积层的输出提供给不同的空间上下文外貌模块。
33.根据权利要求31所述的装置,其特征在于,所述空间上下文外貌模块包括:至少一个对比区域池化模块;
所述对比区域池化模块,用于根据两种句子成分在输入图像特征图中的感兴趣区域ROI位置信息,执行ROI池化处理和反ROI池化处理,并将处理后的两种句子成分的特征图相加,以产生空间感知联合特征图;
所述空间感知联合特征图用于形成其中至少一种句子成分的增强表达特征图。
37.根据权利要求32至36中任一项所述的装置,其特征在于,所述空间上下文外貌模块包括:至少一个金字塔区域池化模块;
所述金字塔区域池化模块,用于根据句子中的两种句子成分在输入图像特征图中的ROI位置信息,分别执行至少一次ROI池化处理,并将池化处理后的两种句子成分的特征图相加,以产生空间感知联合特征图。
40.根据权利要求32至36、38至39中任一项所述的装置,其特征在于,所述空间上下文外貌模块还包括至少一层卷积层,所述空间上下文外貌模块中的卷积层用于对所述空间感知联合特征图进行卷积处理。
41.根据权利要求29至30、32至36、38至39中任一项所述的装置,其特征在于,所述神经网络单元是神经网络的训练装置,利用带有句子成分标注信息的训练数据集训练络的训练而成的。
42.一种神经网络的训练装置,其特征在于,包括:
第一模块,用于将输入图像特征图和至少两种句子成分在所述输入图像特征图中的区域位置信息,提供给待训练的神经网络单元;
第二模块,用于利用所述待训练的神经网络单元,根据所述区域位置信息,对所述输入图像特征图中的所述至少两种句子成分分别对应的区域特征,进行空间感知融合处理,以获得其中至少一种句子成分的增强表达特征图;
第三模块,用于根据所述增强表达特征图,对相应的句子成分进行识别处理;
监督模块,用于以所述识别处理结果与相应的句子成分标注信息之间的差异为指导信息,对所述待训练的神经网络单元进行监督学习。
43.根据权利要求42所述的装置,其特征在于,所述第三模块通过至少两层全连接层,针对所述增强表达特征图,进行相应的句子成分的识别处理。
44.根据权利要求43所述的装置,其特征在于,所述识别处理结果与相应的句子成分标注信息之间的差异包括:
所述至少两层全连接层各自输出的识别处理结果与标注信息树中的相应叶子节点及其上游节点之间的差异;
其中,不同全连接层对应标注信息树的不同层,最后一层全连接层对应标注信息树的叶子节点,所述叶子节点为句子成分标注信息,所述叶子节点的上游节点包括:句子成分标注信息的上位概念。
45.根据权利要求44所述的装置,其特征在于,所述标注信息树包括:基于主语和宾语的第一标注信息树,和/或,基于谓语的第二标注信息树。
46.根据权利要求45所述的装置,其特征在于,所述装置还包括:第一树模块,用于:
将训练数据集中的多个主语标注信息和宾语标注信息作为第一标注信息树的叶子节点;
提取各叶子节点中名词,并对提取出的名词进行归一化处理,形成叶子节点的父节点;
对所述父节点进行语义聚合处理,形成所述父节点的根节点。
47.根据权利要求45至46中任一项所述的装置,其特征在于,所述装置还包括:第二树模块,用于:
将训练数据集中的多个谓语标注信息作为第二标注信息树的叶子节点;
提取各叶子节点中动词、动词短语或者介词,并对提取出的动词和动词短语进行归一化处理,形成叶子节点的动词父节点、动词短语父节点或者介词父节点;
将动词父节点和动词短语父节点中的相同动词作为其动词根节点;
将介词父节点和动词短语父节点中的相同介词作为其介词根节点;
将介词父节点中的介词作为其动词根节点;
将动词父节点中的动词作为其介词根节点。
48.根据权利要求47所述的装置,其特征在于,所述第二树模块还用于:
提取第二标注信息树的各叶子节点中形容词,形成叶子节点的形容词父节点。
49.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-28中任一项所述的方法。
50.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-28中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810073370.6A CN108229477B (zh) | 2018-01-25 | 2018-01-25 | 针对图像的视觉关联性识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810073370.6A CN108229477B (zh) | 2018-01-25 | 2018-01-25 | 针对图像的视觉关联性识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229477A CN108229477A (zh) | 2018-06-29 |
CN108229477B true CN108229477B (zh) | 2020-10-09 |
Family
ID=62669104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810073370.6A Active CN108229477B (zh) | 2018-01-25 | 2018-01-25 | 针对图像的视觉关联性识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229477B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146786A (zh) * | 2018-08-07 | 2019-01-04 | 北京市商汤科技开发有限公司 | 场景图生成方法及装置、电子设备和存储介质 |
CN111985505B (zh) * | 2020-08-21 | 2024-02-13 | 南京大学 | 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294829A (zh) * | 2013-06-26 | 2013-09-11 | 公安部第三研究所 | 基于Android操作系统实现轻量化视频结构化描述的系统及方法 |
CN106296681A (zh) * | 2016-08-09 | 2017-01-04 | 西安电子科技大学 | 基于双通道低秩分解的协同学习显著性检测方法 |
CN106372597A (zh) * | 2016-08-31 | 2017-02-01 | 李涛 | 基于自适应上下文信息的cnn交通检测方法 |
CN106503055A (zh) * | 2016-09-27 | 2017-03-15 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
-
2018
- 2018-01-25 CN CN201810073370.6A patent/CN108229477B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294829A (zh) * | 2013-06-26 | 2013-09-11 | 公安部第三研究所 | 基于Android操作系统实现轻量化视频结构化描述的系统及方法 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
CN106296681A (zh) * | 2016-08-09 | 2017-01-04 | 西安电子科技大学 | 基于双通道低秩分解的协同学习显著性检测方法 |
CN106372597A (zh) * | 2016-08-31 | 2017-02-01 | 李涛 | 基于自适应上下文信息的cnn交通检测方法 |
CN106503055A (zh) * | 2016-09-27 | 2017-03-15 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
Non-Patent Citations (8)
Title |
---|
Deep Variation-structured Reinforcement Learning for Visual Relationship and attribute detection;Liang Xiaodan, et al;《 IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第2017年卷;4408-4417 * |
Learning Structured Inference Neural Networks with Label Relations;Hexiang Hu 等,;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20160630;第2016年卷;2960-2968 * |
PPR-FCN: Weakly Supervised Visual Relation Detection via Parallel Pairwise;Zhang Hanwang, et al.;《 IEEE Conference on Computer Vision and Pattern Recognition》;20171029;第2017年卷;4233-4241 * |
ViP-CNN: Visual Phrase Guided Convolutional Neural Network;Li Yikang, et al;《IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第2017年卷;7244-7253 * |
Visual Relationship Detection with Language Priors;Cewu Lu 等,;《14th European Conference on Computer Vision (ECCV)》;20161024;第2016年卷;852-869 * |
Visual Translation Embedding Network for Visual Relation Detection;Zhang Hanwang, et al;《 IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第2017年卷;3107-3115 * |
基于特征学习的人体目标检测和分析;盛碧云;《中国博士学位论文全文数据库》;20180115;第2019年卷(第1期);I138-110 * |
深度学习在图像语义分类中的应用;杜骞;《中国优秀硕士学位论文全文数据库》;20140915;第2014年卷(第9期);I138-I181 * |
Also Published As
Publication number | Publication date |
---|---|
CN108229477A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gollapudi | Learn computer vision using OpenCV | |
US11868889B2 (en) | Object detection in images | |
CN111897964B (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
JP6596511B2 (ja) | デジタルグラフィックノベルの自動翻訳 | |
CN111563502B (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN111767405A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN114298121B (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN107807968B (zh) | 基于贝叶斯网络的问答装置、方法及存储介质 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN111626297A (zh) | 文字书写质量评价方法、装置、电子设备和记录介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
Gollapudi et al. | Artificial intelligence and computer vision | |
CN112052424B (zh) | 一种内容审核方法及装置 | |
CN115393872B (zh) | 一种训练文本分类模型的方法、装置、设备及存储介质 | |
CN108229477B (zh) | 针对图像的视觉关联性识别方法、装置、设备及存储介质 | |
CN114821590A (zh) | 文档信息提取方法、装置、设备及介质 | |
WO2021179751A1 (zh) | 图像处理方法和系统 | |
Paharia et al. | Optimization of convolutional neural network hyperparameters using improved competitive gray wolf optimizer for recognition of static signs of Indian Sign Language | |
CN116434000A (zh) | 模型训练及物品分类方法、装置、存储介质及电子设备 | |
CN113902960A (zh) | 神经网络训练及分类方法、装置、电子设备及存储介质 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
Nagoya et al. | Texture reconstruction based on underlying pattern modification that reflects user's intention | |
CN115270987B (zh) | 视觉问答网络模型的训练方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |