CN106971175A - 一种在纠缠场景表示中发现物体及其关系的方法 - Google Patents

一种在纠缠场景表示中发现物体及其关系的方法 Download PDF

Info

Publication number
CN106971175A
CN106971175A CN201710297067.XA CN201710297067A CN106971175A CN 106971175 A CN106971175 A CN 106971175A CN 201710297067 A CN201710297067 A CN 201710297067A CN 106971175 A CN106971175 A CN 106971175A
Authority
CN
China
Prior art keywords
network
scene
memory
size
capacity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710297067.XA
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710297067.XA priority Critical patent/CN106971175A/zh
Publication of CN106971175A publication Critical patent/CN106971175A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明中提出的一种在纠缠场景表示中发现物体及其关系的方法,其主要内容包括:关系网络模型、多层网络感知器、自定义数据集、容量增益关系网络,其过程为,首先定量描述物体及其特征属性,将其信息平行地输入到两个卷积神经网络,然后将其输出经过批量正态分布层和线性函数层,再缩减一半的维度输入到容量增益网络得到读写操作,然后计算各外部记忆槽中向量的余弦距离,来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式,通过差分编码器的编码与解码,将信息的属性描述得更加全面,从而可以得到物体之间更清晰的对比关系。

Description

一种在纠缠场景表示中发现物体及其关系的方法
技术领域
本发明涉及图像内容识别领域,尤其是涉及了一种在纠缠场景表示中发现物体及其关系的方法。
背景技术
在二维图像中,记录了静态物体相互之间的关系,如厨房的照片会有菜刀,床上的照片会有枕头等,这些信息极大地帮助人工智能自主认识并学习到人类时间某些物体之间具有较强的联系,同时在日益增多的媒体介质中,人力劳动并不能完全识别所有图像,因此,教会人工智能如何联系图像内容分析纠缠场景中物体相互关系,显得非常重要。在社会应用和经济效益方面同样具有重大的潜力,如交通事故中伤者与车辆的数量关系、人群高聚集地的逃生路线、乃至日常购物的时尚搭配、家居装潢等都有实用的场景。
但如何让人工智能学会自主识别内容,仍然是一个很有挑战性的问题。由于二维图像的清晰度、像素的相互关系、及场景的单一化都有可能导致机器学习无法进入收敛,同时现实中不存在相应的数量较大的数据库进行训练,需要自行添加相关要素或标签。此外,自主识别的内容无法让人工智能理解其含义或者地位,从而即便得到消息不能直接使用其信息获取下一步的指示,仍然需要人力进行监督。
本发明提出了一种基于容量增益关系网络的新框架。使用固定描述接口语言定量描述物体及其特征属性,将其信息平行地输入到两个卷积神经网络并将其输出经过批量正态分布层和线性函数层,再缩减一半的维度输入到容量增益网络得到读写操作,然后计算各外部记忆槽中向量的余弦距离,来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式,通过差分编码器的编码与解码,将信息的属性描述得更加全面,从而可以得到物体之间更清晰的对比关系。
发明内容
针对解决在二维图像纠缠场景物体之间相互关系的问题,本发明的目的在于提供一种在纠缠场景表示中发现物体及其关系的方法,提出了一种基于容量增益关系网络的新框架。
为解决上述问题,本发明提供一种在纠缠场景表示中发现物体及其关系的方法,其主要内容包括:
(一)关系网络模型;
(二)多层网络感知器;
(三)自定义数据集;
(四)容量增益关系网络。
其中,所述的关系网络模型,包括场景定量描述和模型实施。
进一步地,所述的场景定量描述,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
进一步地,所述的模型实施,该模型自身关系的发掘基于先验知识的特定因式分解,有:
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
进一步地,所述的多层网络感知器,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
进一步地,所述的自定义数据集,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具体位置可由父坐标来得到:
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
进一步地,所述的容量增益关系网络,包括差分自动编码器、容量增益神经元和训练参数。
进一步地,所述的差分自动编码器,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
进一步地,所述的容量增益神经元,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
进一步地,所述的训练参数,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
附图说明
图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的系统流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的系统流程图。主要包括关系网络模型;多层网络感知器;自定义数据集;容量增益关系网络。
其中,所述的关系网络模型,包括场景定量描述和模型实施。
所述的场景定量描述,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
所述的模型实施,该模型自身关系的发掘基于先验知识的特定因式分解,有:
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
所述的多层网络感知器,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
所述的自定义数据集,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具体位置可由父坐标来得到:
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
所述的容量增益关系网络,包括差分自动编码器、容量增益神经元和训练参数。
所述的差分自动编码器,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
所述的容量增益神经元,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
所述的训练参数,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种在纠缠场景表示中发现物体及其关系的方法,主要包括关系网络模型(一);多层网络感知器(二);自定义数据集(三);容量增益关系网络(四)。
2.基于权利要求书1所述的关系网络模型(一),其特征在于,包括场景定量描述和模型实施。
3.基于权利要求书2所述的场景定量描述,其特征在于,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
o i = ( o i 1 , o i 2 , ... , o i n ) - - - ( 1 )
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
4.基于权利要求书2所述的模型实施,其特征在于,该模型自身关系的发掘基于先验知识的特定因式分解,有:
g ψ ( D ) ≡ g ψ ( o 1 2 , ... , o i j , ... , o m n ) - - - ( 2 )
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
5.基于权利要求书1所述的多层网络感知器,其特征在于,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
6.基于权利要求书1所述的自定义数据集,其特征在于,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具体位置可由父坐标来得到:
( o x p , o y p ) = ( o x p + d c o s ( θ c ) , o y p + d s i n ( θ c ) ) - - - ( 6 )
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
7.基于权利要求书1所述的容量增益关系网络,其特征在于,包括差分自动编码器、容量增益神经元和训练参数。
8.基于权利要求书7所述的差分自动编码器,其特征在于,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
9.基于权利要求书7所述的容量增益神经元,其特征在于,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
10.基于权利要求书7所述的训练参数,其特征在于,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
CN201710297067.XA 2017-04-28 2017-04-28 一种在纠缠场景表示中发现物体及其关系的方法 Withdrawn CN106971175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710297067.XA CN106971175A (zh) 2017-04-28 2017-04-28 一种在纠缠场景表示中发现物体及其关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710297067.XA CN106971175A (zh) 2017-04-28 2017-04-28 一种在纠缠场景表示中发现物体及其关系的方法

Publications (1)

Publication Number Publication Date
CN106971175A true CN106971175A (zh) 2017-07-21

Family

ID=59331682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710297067.XA Withdrawn CN106971175A (zh) 2017-04-28 2017-04-28 一种在纠缠场景表示中发现物体及其关系的方法

Country Status (1)

Country Link
CN (1) CN106971175A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471959A (zh) * 2018-06-15 2019-03-15 中山大学 基于图推理模型的图像中人物社会关系辨识方法及系统
CN111414484A (zh) * 2020-03-04 2020-07-14 科大讯飞(苏州)科技有限公司 有效时段信息确定方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D. RAPOSO等: "DISCOVERING OBJECTS AND THEIR RELATIONS FROM ENTANGLED SCENE REPRESENTATIONS", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1702.05068》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471959A (zh) * 2018-06-15 2019-03-15 中山大学 基于图推理模型的图像中人物社会关系辨识方法及系统
CN109471959B (zh) * 2018-06-15 2022-06-14 中山大学 基于图推理模型的图像中人物社会关系辨识方法及系统
CN111414484A (zh) * 2020-03-04 2020-07-14 科大讯飞(苏州)科技有限公司 有效时段信息确定方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Maharana et al. A review: Data pre-processing and data augmentation techniques
Abu-El-Haija et al. Learning edge representations via low-rank asymmetric projections
Zhang et al. Representative discovery of structure cues for weakly-supervised image segmentation
Socher et al. Parsing natural scenes and natural language with recursive neural networks
Verbeek et al. Self-organizing mixture models
Roman-Rangel et al. Inductive t-SNE via deep learning to visualize multi-label images
De Runz et al. Unsupervised visual data mining using self-organizing maps and a data-driven color mapping
Bello et al. FFPointNet: Local and global fused feature for 3D point clouds analysis
Ma et al. Irregular convolutional neural networks
CN106971175A (zh) 一种在纠缠场景表示中发现物体及其关系的方法
Sun et al. Create your world: Lifelong text-to-image diffusion
Pérez et al. Interactive feature space extension for multidimensional data projection
Love et al. Topological deep learning
Wang et al. Learning with hidden information
CN116977714A (zh) 图像分类方法、装置、设备、存储介质和程序产品
CN112906829B (zh) 一种基于Mnist数据集的数字识别模型构建方法及装置
Gopalakrishnan et al. Embedding directed graphs in potential fields using FastMap-D
CN115131362A (zh) 一种大规模点云局部区域特征编码方法
Ruff Deep one-class learning: a deep learning approach to anomaly detection
Pensar et al. Structure Learning of Contextual Markov Networks using Marginal Pseudo‐likelihood
Priam Symmetric Generative Methods and tSNE: A Short Survey.
CN113989671A (zh) 基于语义感知与动态图卷积的遥感场景分类方法及系统
Cao et al. Linguistically driven graph capsule network for visual question reasoning
Stutz Understanding and improving robustness and uncertainty estimation in deep learning
Yan et al. A general multi-graph matching approach via graduated consistency-regularized boosting

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170721