CN111476838A - 图像分析方法以及系统 - Google Patents
图像分析方法以及系统 Download PDFInfo
- Publication number
- CN111476838A CN111476838A CN201910065251.0A CN201910065251A CN111476838A CN 111476838 A CN111476838 A CN 111476838A CN 201910065251 A CN201910065251 A CN 201910065251A CN 111476838 A CN111476838 A CN 111476838A
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- features
- target subject
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003703 image analysis method Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 266
- 238000000605 extraction Methods 0.000 claims description 217
- 230000006870 function Effects 0.000 claims description 76
- 230000015654 memory Effects 0.000 claims description 61
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 238000010191 image analysis Methods 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000004913 activation Effects 0.000 description 25
- 239000011159 matrix material Substances 0.000 description 24
- 210000002569 neuron Anatomy 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000004574 scanning tunneling microscopy Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010922 spray-dried dispersion Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
本申请提供了一种图像分析方法,包括:获取t帧图像的影响因素,其中,影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;根据影响因素获得全景语义描述,全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种图像分析方法以及系统。
背景技术
图像描述的任务是:为给定的图像生成对应的文字描述。图像描述可以从图像中自动提取信息,并根据自动提取到的信息生成对应的文字描述,从而实现了从图像向知识的转化。例如,图片描述可以为图1A所示的图像生成“一个男人在海上冲浪”这样的文字描述。
目前,图像描述只能对图像进行低层语义描述,即,只能对单主体单动作(例如图1A中一个男人在海上冲浪)或多主体单动作(例如图1B中一群学生在做早操)进行描述,但是,不能对图像进行全景语义描述,即,不能对多个主体和主体之间,主体和动作之间,动作和动作之间的关系(例如图1C中一个男人看到一个女人被车子撞倒了)进行描述。
发明内容
本申请提供了一种图像分析方法以及系统,能够对图像进行全景语义描述。
第一方面,提供了一种图像分析方法,包括:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在一些可能的设计中,获取全景语义描述的影响因素包括:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
上述方案中,通过同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中,所以,在进行所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时,都可以使用之前提取得到的特征向量,避免多次对特征向量进行提取,从而减少计算量。即,不需要在进行所述位置特征的提取时,进行一次特征向量提取,在进行所述属性特征的提取时,进行一次特征向量提取,在进行所述姿态特征的提取时,进行一次特征向量提取,以及,在进行所述关系向量特征的提取时,进行一次特征向量提取。
在一些可能的设计中,根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述根据所述影响因素获得全景语义描述包括:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
第二方面,提供了一种图像分析系统,包括特征提取模块以及全景语义模型,
所述特征提取模块用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义模型,用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系的描述。
在一些可能的设计中,所述特征提取模块包括:特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元,
所述特征向量提取单元,用于对所述t帧图像进行特征提取,从而得到t个特征向量;
所述位置特征提取单元,用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
所述属性特征提取单元,用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
所述姿态特征提取单元,用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
所述关系向量特征单元,用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,所述特征提取模块包括卷积神经网络,所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。
在一些可能的设计中,所述关系向量特征提取单元,用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述全景语义模型包括:第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元,
所述第一时序特征提取单元用于根据所述位置特征提取第一语义描述;
所述第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述;
所述第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述;
所述第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。
第三方面,提供了一种计算节点,包括:处理器和存储器,所述处理器执行:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在一些可能的设计中,所述处理器用于执行:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
上述方案中,通过同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中,所以,在进行所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时,都可以使用之前提取得到的特征向量,避免多次对特征向量进行提取,从而减少计算量。即,不需要在进行所述位置特征的提取时,进行一次特征向量提取,在进行所述属性特征的提取时,进行一次特征向量提取,在进行所述姿态特征的提取时,进行一次特征向量提取,以及,在进行所述关系向量特征的提取时,进行一次特征向量提取。
在一些可能的设计中,根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述处理器用于执行:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
第四方面,提供了一种计算节点集群,包括:至少一个计算节点,每个计算节点包括处理器和存储器,所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。
第五方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机读取并执行时,如第一方面任一项所述的方法将被执行。
第六方面,提供了一种计算机非瞬态存储介质,包括指令,当所述指令在计算节点集群中的至少一个计算节点上运行时,使得所述计算节点集群执行如第一方面任一项所述的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1A至图1C为一些用于进行图像描述的图像的示意图;
图2为本申请涉及的一实施例的用于进行全景语义描述的单帧图像的示意图;
图3为本申请涉及的一实施例的用于进行全景语义描述的多帧图像的示意图;
图4为本申请涉及的位置特征、属性特征、姿态特征以及关系向量特征的特征提取示意图;
图5为本申请涉及的一实施例的全景语义模型的示意图;
图6为本申请涉及的另一实施例的全景语义模型的示意图;
图7为本申请涉及的一实施例的语义描述方法的流程图;
图8是本申请中提供的一实施方式的语义描述系统的结构示意图;
图9为本申请涉及的一实施例的计算节点的结构示意图;
图10是本申请涉及的一实施例的云服务集群的结构示意图;
图11是本申请中提供的另一实施方式的语义描述系统的结构示意图;
图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。
具体实施方式
本申请的实施例部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
首先对本申请的实施例涉及的用于进行全景语义描述的单幅图像进行详细的描述。
图2示出了适用于本申请实施例的一实施方式的用于进行全景语义描述的单帧图像的示意图。本实施例中用于进行全景语义描述的单帧图像通常包括多个目标主体,其中,目标主体可以是人、动物或者物体等等中的一种或者多种。以图2为例,图2所示的图像中的目标主体包括男子、女子以及车辆。不同目标主体可以执行不同的动作,其中,动作可以是喝水、看书、做操、打篮球、踢球、跑步、游泳等等中的一种或者多种。以图2为例,图中的男子的动作为看向女子,图中的女子的动作为摔倒了,图中的车辆的动作为撞向女子。可以理解,上述图2仅仅是作为一种示例,在实际应用中,目标主体还可以是其他主体,目标主体的数量还可以是更多,目标主体的动作也可以是其他动作等等,此处不作具体限定。
在本申请具体的实施例中,如图3所示,图像分析系统可以按照时间顺序从视频中截取出t帧用于进行全景语义描述的图像I1,I2,…,It,其中,t为自然数。其中,图像I1,I2,…,It均包括相同的目标主体,例如,图像I1包括目标主体1、目标主体2以及目标主体3;图像I2包括目标主体1、目标主体2以及目标主体3;…;图像It也包括目标主体1、目标主体2以及目标主体3。可以理解,上述t帧图像中相邻两帧图像之间的时间间隔可以是相等的,也可以是不相等的,此处不作具体限定。
在本申请具体的实施例中,图像分析系统可以通过全景语义模型对图像It进行全景语义描述。其中,全景语义模型的输入变量为全景语义描述的影响因素。所述全景语义描述的影响因素包括图像I1至It中各个目标主体的自有特征(包括位置特征、属性特征以及姿态特征)以及各个目标主体之间的关系向量特征。
位置特征用于表示对应的目标主体在对应图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。属性特征用于表示对应的目标主体的属性。属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。目标主体的姿态特征用于表示对应的目标主体的动作。目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。关系特征向量为表示两个目标主体之间的之间的关系的向量。
以图像I1,I2,…,It中每帧图像均包括h个目标主体为例,所述全景语义描述的影响因素具体包括:
从图像I1中获取得到的全景语义描述的影响因素:图像I1中h个目标主体的自有特征以及图像I1中h个目标主体之间的关系向量特征。
图像I1中h个目标主体的自有特征包括:
图像I1中h个目标主体之间的关系向量特征包括:
这里,为图像I1中的目标主体1和目标主体2之间的关系向量特征,为图像I1中的目标主体1和目标主体3之间的关系向量特征,…,为图像I1中的目标主体1和目标主体h之间的关系向量特征,为图像I1中的目标主体2和目标主体3之间的关系向量特征,…,为图像I1中的目标主体2和目标主体h之间的关系向量特征…,为图像I1中的目标主体h-1和目标主体h之间的关系向量特征。
从图像I2中获取得到的全景语义描述的影响因素:图像I2中h个目标主体的自有特征以及图像I2中h个目标主体之间的关系向量特征。
图像I2中h个目标主体的自有特征包括:
图像I2中h个目标主体之间的关系向量特征包括:
这里,为图像I2中的目标主体1和目标主体2之间的关系向量特征,为图像I2中的目标主体1和目标主体3之间的关系向量特征,…,为图像I2中的目标主体1和目标主体h之间的关系向量特征,为图像I2中的目标主体2和目标主体3之间的关系向量特征,…,为图像I2中的目标主体2和目标主体h之间的关系向量特征…,为图像I2中的目标主体h-1和目标主体h之间的关系向量特征。
……;
从图像It中获取得到的全景语义描述的影响因素:图像It中h个目标主体的自有特征以及图像It中h个目标主体之间的关系向量特征。
图像It中h个目标主体的自有特征包括:
图像It中h个目标主体之间的关系向量特征包括:
这里,为图像It中的目标主体1和目标主体2之间的关系向量特征,为图像It中的目标主体1和目标主体3之间的关系向量特征,…,为图像It中的目标主体1和目标主体h之间的关系向量特征,为图像It中的目标主体2和目标主体3之间的关系向量特征,…,为图像It中的目标主体2和目标主体h之间的关系向量特征…,为图像It中的目标主体h-1和目标主体h之间的关系向量特征。
应理解,上述全景语义描述的影响因素的示例仅仅用于进行举例,在实际应用中,全景语义描述的影响因素还可以包括其他的影响因素,此处不作具体限定。
在本申请具体的实施例中,图像I1,I2,…,It中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以分别根据图像I1,I2,…,It的特征向量V1,V2,…,Vt计算得到。也就是说,图像I1中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I1的特征向量V1计算得到,图像I2中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征V2可以根据图像I2的特征向量计算得到,…,图像It中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像It的特征向量Vt计算得到。
如图4所示,图像I1,I2,…,It的特征向量V1,V2,…,Vt可以是这样得到的。以图像Ii为例,图像Ii的特征向量Vi可以是将图像Ii输入至特征向量提取单元中得到的。其中,i为自然数,并且,1≤i≤t。特征向量提取单元可以依次包括:输入层、卷积计算层、池化层以及全连接层。
输入层:
假设输入层的输入为图像Ii,输出和输入相等,即,不对输入进行任何处理。为了陈述简便,此处假设输入层不作任何处理,但是,在实际应用中,可以对输入层进行归一化等等处理,此处不作具体限定。
卷积计算层:
将输入层输出的图像Ii作为卷积计算层的输入,经过n个卷积核Kl(l=1,2,…,n)的卷积生成n个特征图像al(l=1,2,…,n),其中,每个特征图像al的生成过程具体如下:
Cl=conv2(I,Kl,'valid',)+bl
ul=Cl
al=f(ul)
其中,conv表示为使用卷积核Kl对图像I进行卷积运算、valid表示为padding的方式,bl表示为偏置值,ul表示为卷积计算的结果,f()表示为激活函数,本发明采用relu函数。
池化层:
将卷积计算层输出的n个特征图像al作为池化层的输入,经过池化窗口进行池化之后,生成n个池化图像bl(l=1,2,…,n),其中,每个池化图像bl的生成过程具体如下:
bl=maxPool(al)
其中,maxPool表示为均值池化。
全连接层:
将n个池化图像bl(l=1,2,…,n)顺序展开成向量,并有序连接成一个长向量,作为全连接层网络的输入,全连接层的输出即为图像Ii的特征向量Vi。
上述特征向量提取单元的各个参数中,卷积核Kl(包括元素、大小、步长等等)、偏置值bl、f()以及βl可以是人为根据需要提取的特征(位置特征、属性特征、姿态特征以及关系向量特征)、图像Ii的大小等等设置的。以卷积核Kl为例,当需要提取的特征为位置特征时,卷积核Kl的元素可以采用sobel算子的元素,又例如,当图像Ii比较大时,卷积核Kl的大小也可以比较大,反之,当图像Ii比较小时,卷积核Kl的大小也可以比较小,又例如,当图像Ii比较大时,卷积核Kl的步长也可以比较大,反之,当图像Ii比较小时,卷积核Kl的步长也可以比较小。
应理解,上述特征向量提取单元仅仅作为一种举例,在实际应用中,特征向量提取单元还可以是其他的形式,例如,可以包括更多的卷积计算层、更多的池化层,可以对图像Ii进行填充等等,此处不作具体限定。
为了简便起见,上面只陈述了图像Ii的特征向量Vi的提取,实际上,图像I1,I2,…,It各自的特征向量V1,V2,…,Vt的提取方式均与图像Ii的特征向量Vi的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的位置特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的位置特征 可以通过将特征向量Vi输入位置特征提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。特征提取单元可以表示为:
y1=g1(x1);
这里,x1可以是图像Ii的特征向量Vi,y1可以是图像Ii中h个目标主体的位置特征 g1()为特征向量Vi与位置特征之间的映射关系,其中,g1()可以通过大量的已知图像以及已知目标主体的位置特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的位置特征的提取,实际上,图像I1,I2,…,It各自的h个目标主体的位置特征 的提取方式均与图像Ii的h个目标主体的位置特征的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的属性特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的属性特征 可以通过将特征向量Vi输入位置属性提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。属性提取单元可以表示为:
y2=g2(x1);
这里,x1可以是图像Ii的特征向量Vi,y2可以是图像Ii中h个目标主体的属性特征 g2()为特征向量Vi与属性特征之间的映射关系,其中,g2()可以通过大量的已知图像以及已知目标主体的属性特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的属性特征的提取,实际上,图像I1,I2,…,It各自的h个目标主体的属性特征 的提取方式均与图像Ii的h个目标主体的属性特征的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的姿态特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的姿态特征 可以通过将特征向量Vi输入位置姿态提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。姿态提取单元可以表示为:
y3=g3(x1);
这里,x1可以是图像Ii的特征向量Vi,y3可以是图像Ii中h个目标主体的姿态特征 g3()为特征向量Vi与姿态特征之间的映射关系,其中,g2()可以通过大量的已知图像以及已知目标主体的姿态特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的姿态特征的提取,实际上,图像I1,I2,…,It各自的h个目标主体的姿态特征 的提取方式均与图像Ii的h个目标主体的姿态特征的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体之间的关系向量特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体之间的关系向量特征包括:其中,关系特征向量可以通过关系向量特征提取单元计算得到,其中,i,a,b为自然数,并且,1≤i≤t,1≤a,b≤h:
关系向量特征提取单元用于根据目标主体a和目标主体b进行感兴趣区域池化(ROI pooling)(region of interest,ROI),从而获得与目标主体a和目标主体b对应的特征向量va,b;
关系向量特征提取单元用于根据目标主体a进行ROI pooling,从而获得与目标主体a对应的特征向量va,a;
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。wa,b可以通过大量的已知目标主体和已知特征向量进行训练得到。
为了简便起见,上面只陈述了图像Ii中h个目标主体之间的关系向量特征 的提取,实际上,图像I1,I2,…,It各自的h个目标主体之间的关系向量特征 的提取方式均与图像Ii的h个目标主体的姿态特征的提取方式相类似,此处不再展开赘述。
上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(Convolutional Neural Networks,CNN)实现的,也可以集成在同一个卷积神经网络中实现的,此处不作具体限定。其中,卷积神经网络可以包括VGGNet、ResNet、FPNet等等,此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络中完成时,特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中不同层分别实现的。
在本申请具体的实施例中,全景语义描述的影响因素(图像I1,I2,…,It中各目标主体的位置特征、图像I1,I2,…,It中各目标主体的属性特征、图像I1,I2,…,It中各目标主体的姿态特征以及图像I1,I2,…,It中各目标主体的之间的关系向量特征)对全景语义描述存在这样的影响:图像I1,I2,…,It中各目标主体的位置特征可以提供关于各个目标主体之间的位置的第一语义描述,图像I1,I2,…,It中各目标主体的属性特征结合上述第一语义描述,可以得到结合各个目标主体的属性的第二语义描述,之后,图像I1,I2,…,It的各目标主体的姿态特征结合上述第二语义描述可以得到第三语义描述;最后,图像I1,I2,…,It的各目标主体之间的关系向量特征结合第三语义描述,可以得到全景语义描述。
以图3所示的例子为例,全景语义描述的影响因素对全景语义描述的影响可以如下所述:首先,通过图3中的图像I1,I2,…,It的男子、女子以及车辆三者的位置特征,可以得到“物体A和物体B在物体C的左侧”的第一语义描述;然后,通过图3中的图像I1,I2,…,It的男子、女子和车辆三者的属性特征结合第一语义描述,可以得到“女子和汽车在男子左侧”的第二语义描述,之后,通过图3中图像I1,I2,…,It的男子、女子和车辆三者的姿态特征结合第二语义描述,可以得到第三语义描述,最后,通过图3中图像I1,I2,…,It的关系向量特征结合第三语义描述,可以得到“右边的男子看到左边的女子被汽车撞倒”的全景语义描述。
应理解,上述图3所示的例子仅仅作为一种具体的示例,在其他的实施例子,还可以对其他的图像进行全景语义描述,此处不作具体限定,
在本申请具体的实施例中,全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。在一具体的实施例中,全景语义模型可以如图5所示,
可以理解,第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN)实现的,也可以是同一个循环神经网络实现的,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLong short-termmemory,BiLSTM)等等,此处不作具体限定。当第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取在同一个循环神经网络中实现时,可以分别是循环神经网络中的不同层分别实现的。
以时序特征提取单元1至4均为LSTM为例,在一具体的实施例中,全景语义模型可以如图6所示:
以下为第一时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
h11=o10tanh(C11)
在神经元2中:
h12=o11tanh(C12)
……;
在神经元t中:
h1t=o1t-1tanh(C1t)
上述h11至h1t即可构成第一语义描述。
以下为第二时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
h21=o20tanh(C21)
在神经元2中:
h12=o11tanh(C12)
……;
在神经元t中:
h2t=o2t-1tanh(C2t)
上述h21至h2t即可构成第二语义描述。
可以理解,上述初始输出值h20,初始输出值h20,偏置值至偏置值至偏置值至偏置值至可以是人工设置的,权值矩阵至权值矩阵至权值矩阵至均是通过大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征进行训练得到的。
以下为第三时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
h31=o30tanh(C31)
在神经元2中:
h32=o31tanh(C32)
……;
在神经元t中:
h3t=o3t-1tanh(C3t)
上述h31至h3t即可构成第三语义描述。
可以理解,上述初始输出值h30,初始输出值h30,偏置值至偏置值至偏置值至偏置值至可以是人工设置的,权值矩阵至权值矩阵至权值矩阵至均是通过大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征进行训练得到的。
以下为第四时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
h41=o40tanh(C41)
在神经元2中:
h42=o41tanh(C42)
……;
在神经元t中:
h4t=o4t-1tanh(C4t)
上述h41至h4t即可构成全景语义描述。
可以理解,上述初始输出值h40,初始输出值h40,偏置值至偏置值至偏置值至偏置值至可以是人工设置的,权值矩阵至权值矩阵至权值矩阵至均是通过大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征进行训练得到的。
如图7所示,图7是本申请提供了一种图像分析方法的流程示意图。本实施方式的图像分析方法,包括如下步骤:
S101:图像分析系统获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数。
在本申请具体的实施例中,位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。
在本申请具体的实施例中,属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。
在本申请具体的实施例中,目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。
在本申请具体的实施例中,关系特征向量为表示两个目标主体之间的之间的关系的向量。
S102:图像分析系统根据所述影响因素获得全景语义描述。
在本申请具体的实施例中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。
在本申请具体的实施例中,所述全景语义描述能够对目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系进行描述。
在本申请具体的实施例中,对所述t帧图像进行特征提取,从而得到t个特征向量;对所述t个特征向量进行位置特征提取,从而得到所述位置特征;对所述t个特征向量进行属性特征提取,从而得到所述属性特征;对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在本申请具体的实施例中,上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(ConvolutionalNeural Networks,CNN),也可以集成在同一个卷积神经网络中,此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络,特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中的一个层。
在本申请具体的实施例中,根据所述位置特征提取第一语义描述;根据所述属性特征以及所述第一语义描述提取第二语义描述;根据所述姿态特征以及所述第二语义提取第三语义描述;根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在本申请具体的实施例中,上述第一语义描述至第三语义以及全景语义描述描述可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN)进行提取,也可以集成在同一个循环神经网络中进行提取,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLongshort-term memory,BiLSTM)等等,此处不作具体限定。当上述第一语义描述至第三语义描述以及全景语义描述集成在同一个循环神经网络中进行提取时,可以分别通过循环神经网络中的不同层进行提取。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
参见图8,图8是本申请中提供的一实施方式的图像分析系统的结构示意图。本申请实施例的图像分析系统包括特征提取模块510以及全景语义描述模块520。其中,特征提取模块510包括:特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征单元515。全景语义描述模块520包括第一时序特征提取单元522、第二时序特征提取单元523、第三时序特征提取单元524以及第四时序特征提取单元525。
所述特征提取510用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义描述模块520用于将所述影响因素输入全景语义模型,从而得到全景语义描述,其中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系,所述全景语义描述能够对目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系进行描述。
在本申请具体的实施例中,位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。
在本申请具体的实施例中,属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。
在本申请具体的实施例中,目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。
在本申请具体的实施例中,关系特征向量为表示两个目标主体之间的之间的关系的向量。
在本申请具体的实施例中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。
在本申请具体的实施例中,所述特征向量提取单元511用于对所述t帧图像进行特征提取,从而得到t个特征向量;所述位置特征提取单元512用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;所述属性特征提取单元513用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;所述姿态特征提取单元514用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;所述关系向量特征单元515用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在本申请具体的实施例中,所述特征提取模块510包括卷积神经网络,所述特征向量提取单元511、所述位置特征提取单元512、所述属性特征提取单元513、所述姿态特征提取单元514以及所述关系向量特征提取单元515集成于所述卷积神经网络。上述特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515可以分别是不同的卷积神经网络(Convolutional NeuralNetworks,CNN),也可以集成在同一个卷积神经网络中,此处不作具体限定。其中,卷积神经网络可以包括VGGNet、ResNet、FPNet等等,此处不作具体限定。当特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515集成在同一个卷积神经网络,特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征515可以是卷积神经网络中的一个层。
在本申请具体的实施例中,第一时序特征提取单元522用于根据所述位置特征提取第一语义描述;第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述;第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述;第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在本申请具体的实施例中,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。上述第一时序特征提取单元至第四时序特征提取单元可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN),也可以集成在同一个循环神经网络中,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLongshort-term memory,BiLSTM)等等,此处不作具体限定。当第一时序特征提取单元至第四时序特征提取单元集成在同一个循环神经网络,第一时序特征提取单元至第四时序特征提取单元可以分别是循环神经网络中的一个层。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
本申请的图像分析系统可以在计算节点中实现,也可以在云计算基础设施上实现,此处不做具体限定。下面将分别介绍如何在计算节点和云计算基础设施上实现图像分析系统。
如图9所示,计算节点100可以包括包括处理器110以及存储器120。其中,处理器用于运行特征提取模块111以及全景语义模型112。存储器120用于存储语义描述、特征以及图像121等等。计算节点100还提供了两种对外的接口界面,分别是面向语义描述系统的维护人员的管理界面140以及面向用户的用户界面150。其中,接口界面的形态可以是多样的,例如web界面、命令行工具、REST接口等。
在本申请具体的实施例中,管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
在本申请具体的实施例中,用户界面用于供用户输入需要被提取全景语义描述的图像,并且,通过用户界面向用户输出全景语义描述。
应当理解,计算节点100仅为本申请实施例提供的一个例子,并且,计算节点100可具有比示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
如图10所示,云计算基础设施可以是云服务集群200。所述云服务集群200是由节点,以及节点之间的通信网络构成。上述节点可以是计算节点,也可以是运行在计算节点上的虚拟机。节点按功能可分为两类:计算节点210和存储节点220。计算节点210用于运行特征提取模块211以及全景语义模型212。存储节点220用于存储语义描述、特征以及图像等等221。云服务集群200还提供了两种对外的接口界面,分别是面向问答引擎的维护人员的管理界面240以及面向用户的用户界面250。其中,接口界面的形态可以是多样的,例如web界面、命令行工具、REST接口等。
在本申请具体的实施例中,管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
在本申请具体的实施例中,用户界面用于供用户输入需要被提取全景语义描述的图像,并且,通过用户界面向用户输出全景语义描述。
应当理解,云服务集群200仅为本申请实施例提供的一个例子,并且,云服务集群200可具有比示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
参见图11,图11是本申请中提供的另一实施方式的语义描述系统的结构示意图。图8所示的语义描述系统可以在如图9所示的计算节点300中实现。本实施方式的计算节点300包括一个或多个处理器311、通信接口312和存储器313。其中,处理器311、通信接口312和存储器313之间可以通过总线324连接。
处理器311包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit,专用集成电路)等等。处理器311执行各种类型的数字存储指令,例如存储在存储器313中的软件或者固件程序,它能使计算节点300提供较宽的多种服务。例如,处理器311能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。处理器311中可以运行如图8所示的特征提取模块以及全景语义模型。
通信接口312可以为有线接口(例如以太网接口),用于与其他计算节点或用户进行通信。
存储器313可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的组合。存储器313可以存储有程序代码以及程序数据。其中,程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括:大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
其中,所述处理器311通过调用存储器313中的程序代码,用于执行以下步骤:
处理器311用于获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;
处理器311用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
参见图12,图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。本实施方式的语义描述系统可以在如图10所示的云服务集群中实现。云服务集群包括包括至少一个计算节点410以及至少一个存储节点420。
计算节点410包括一个或多个处理器411、通信接口412和存储器413。其中,处理器411、通信接口412和存储器413之间可以通过总线424连接。
处理器411包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit,专用集成电路)等等。它能够是仅用于计算节点410的专用处理器或者能够与其它计算节点410共享。处理器411执行各种类型的数字存储指令,例如存储在存储器413中的软件或者固件程序,它能使计算节点410提供较宽的多种服务。例如,处理器411能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。处理器411中可以运行如图8所示的特征提取模块以及全景语义模型。
通信接口412可以为有线接口(例如以太网接口),用于与其他计算节点或用户进行通信。当通信接口412为有线接口时,通信接口412可以采用TCP/IP之上的协议族,例如,RAAS协议、远程函数调用(Remote Function Call,RFC)协议、简单对象访问协议(SimpleObject Access Protocol,SOAP)协议、简单网络管理协议(Simple Network ManagementProtocol,SNMP)协议、公共对象请求代理体系结构(Common Object Request BrokerArchitecture,CORBA)协议以及分布式协议等等。
存储器413可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的组合。
存储节点420包括一个或多个处理器421、通信接口422和存储器423。其中,处理器421、通信接口422和存储器423之间可以通过总线424连接。
处理器421包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于存储节点420的专用处理器或者能够与其它存储节点420共享。处理器421执行各种类型的数字存储指令,例如存储在存储器223中的软件或者固件程序,它能使存储节点420提供较宽的多种服务。例如,处理器221能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。
通信接口422可以为有线接口(例如以太网接口),用于与其他计算设备或用户进行通信。
存储节点420包括一个或多个存储控制器421和存储阵列425。其中,存储控制器421和存储阵列425之间可以通过总线426连接。
存储控制器421包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于单个存储节点420的专用处理器或者能够与计算节点40或者其它存储节点420共享。可以理解,在本实施例中,每个存储节点包括一个存储控制器,在其他的实施例中,也可以多个存储节点共享一个存储控制器,此处不作具体限定。
存储器阵列425可以包括多个存储器。存储器可以是非易失性存储器,例如ROM、快闪存储器、HDD或SSD存储器还可以包括上述种类的存储器的组合。例如,存储阵列可以是由多个HDD或者多个SDD组成,或者,存储阵列可以是由HDD以及SDD组成。其中,多个存储器在存储控制器321将的协助下按不同的方式组合起来形成存储器组,从而提供比单个存储器更高的存储性能和提供数据备份技术。可选地,存储器阵列425可以包括一个或者多个数据中心。多个数据中心可以设置在同一个地点,或者,分别在不同的地点,此处不作具体限定。存储器阵列425可以存储有程序代码以及程序数据。其中,程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括:大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
其中,所述计算节点411通过调用存储节点413中的程序代码,用于执行以下步骤:
计算节点411用于获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;
计算节点411用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
Claims (14)
1.一种图像分析方法,其特征在于,包括:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
2.根据权利要求1所述的方法,其特征在于,所述获取t帧图像的全景语义描述的影响因素包括:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
3.根据权利要求2所述的方法,其特征在于,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述t个特征向量进行关系向量特征提取,从而得到关系向量特征包括:
根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述根据所述影响因素获得全景语义描述包括:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
6.根据权利要求5所述的方法,其特征在于,
采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
7.一种图像分析系统,其特征在于,包括特征提取模块以及全景语义模型,
所述特征提取模块,用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义模型,用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系的描述。
8.根据权利要求7所述的系统,其特征在于,所述特征提取模块包括:特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元,
所述特征向量提取单元,用于对所述t帧图像进行特征提取,从而得到t个特征向量;
所述位置特征提取单元,用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
所述属性特征提取单元,用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
所述姿态特征提取单元,用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
所述关系向量特征单元模块,用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
9.根据权利要求8所述的系统,其特征在于,所述特征提取模块包括卷积神经网络,所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。
10.根据权利要求8或9所述的系统,其特征在于,
所述关系向量特征提取单元,用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h;根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;并根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
11.根据权利要求7至10任一权利要求所述的系统,其特征在于,所述全景语义模型包括:第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元,
所述第一时序特征提取单元,用于根据所述位置特征提取第一语义描述;
所述第二时序特征提取单元,用于根据所述属性特征以及所述第一语义描述提取第二语义描述;
所述第三时序特征提取单元,用于根据所述姿态特征以及所述第二语义提取第三语义描述;
所述第四时序特征提取单元,用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
12.根据权利要求11所述的系统,其特征在于,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。
13.一种计算节点集群,其特征在于,包括:至少一个计算节点,每个计算节点包括处理器和存储器,所述处理器执行所述存储器中的代码执行如权利要求1至6任一权利要求所述的方法。
14.一种计算机非瞬态存储介质,其特征在于,包括指令,当所述指令在计算节点集群中的至少一个计算节点上运行时,使得所述计算节点集群执行如权利要求1至6任一权利要求所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910065251.0A CN111476838A (zh) | 2019-01-23 | 2019-01-23 | 图像分析方法以及系统 |
EP19911852.2A EP3893197A4 (en) | 2019-01-23 | 2019-09-21 | IMAGE ANALYSIS METHOD AND SYSTEM |
PCT/CN2019/107126 WO2020151247A1 (zh) | 2019-01-23 | 2019-09-21 | 图像分析方法以及系统 |
US17/365,089 US12100209B2 (en) | 2019-01-23 | 2021-07-01 | Image analysis method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910065251.0A CN111476838A (zh) | 2019-01-23 | 2019-01-23 | 图像分析方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111476838A true CN111476838A (zh) | 2020-07-31 |
Family
ID=71735877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910065251.0A Pending CN111476838A (zh) | 2019-01-23 | 2019-01-23 | 图像分析方法以及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12100209B2 (zh) |
EP (1) | EP3893197A4 (zh) |
CN (1) | CN111476838A (zh) |
WO (1) | WO2020151247A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12045955B2 (en) * | 2020-09-02 | 2024-07-23 | Google Llc | Condition-aware generation of panoramic imagery |
CN114764897B (zh) * | 2022-03-29 | 2024-09-03 | 深圳市移卡科技有限公司 | 行为识别方法、装置、终端设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966052A (zh) * | 2015-06-09 | 2015-10-07 | 南京邮电大学 | 基于属性特征表示的群体行为识别方法 |
CN106169065A (zh) * | 2016-06-30 | 2016-11-30 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN106973244A (zh) * | 2016-01-13 | 2017-07-21 | 奥多比公司 | 使用弱监督为图像配字幕 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN108304846A (zh) * | 2017-09-11 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及存储介质 |
CN108875494A (zh) * | 2017-10-17 | 2018-11-23 | 北京旷视科技有限公司 | 视频结构化方法、装置、系统及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2522589T3 (es) * | 2007-02-08 | 2014-11-17 | Behavioral Recognition Systems, Inc. | Sistema de reconocimiento conductual |
CN102880692B (zh) * | 2012-09-19 | 2016-05-04 | 上海交通大学 | 一种面向检索的监控视频语义描述和检测建模方法 |
CN103345764B (zh) | 2013-07-12 | 2016-02-10 | 西安电子科技大学 | 一种基于对象内容的双层监控视频摘要生成方法 |
CN104244086A (zh) | 2014-09-03 | 2014-12-24 | 陈飞 | 基于实时对话语义分析的视频实时拼接装置及其方法 |
US9710729B2 (en) * | 2014-09-04 | 2017-07-18 | Xerox Corporation | Domain adaptation for image classification with class priors |
CN105678250B (zh) * | 2015-12-31 | 2019-10-11 | 北京迈格威科技有限公司 | 视频中的人脸识别方法和装置 |
US10609284B2 (en) * | 2016-10-22 | 2020-03-31 | Microsoft Technology Licensing, Llc | Controlling generation of hyperlapse from wide-angled, panoramic videos |
CN106650617A (zh) * | 2016-11-10 | 2017-05-10 | 江苏新通达电子科技股份有限公司 | 一种基于概率潜在语义分析的行人异常识别方法 |
US11580745B2 (en) * | 2017-08-17 | 2023-02-14 | National University Of Singapore | Video visual relation detection methods and systems |
CN108197589B (zh) * | 2018-01-19 | 2019-05-31 | 北京儒博科技有限公司 | 动态人体姿态的语义理解方法、装置、设备和存储介质 |
CN108416776B (zh) * | 2018-03-16 | 2021-04-30 | 京东方科技集团股份有限公司 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
CN108509880A (zh) * | 2018-03-21 | 2018-09-07 | 南京邮电大学 | 一种视频人物行为语义识别方法 |
CN108510012B (zh) * | 2018-05-04 | 2022-04-01 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN108960330B (zh) * | 2018-07-09 | 2021-09-10 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
US10929655B2 (en) * | 2018-07-13 | 2021-02-23 | Futurewei Technologies, Inc. | Portrait image evaluation based on aesthetics |
-
2019
- 2019-01-23 CN CN201910065251.0A patent/CN111476838A/zh active Pending
- 2019-09-21 EP EP19911852.2A patent/EP3893197A4/en not_active Withdrawn
- 2019-09-21 WO PCT/CN2019/107126 patent/WO2020151247A1/zh unknown
-
2021
- 2021-07-01 US US17/365,089 patent/US12100209B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966052A (zh) * | 2015-06-09 | 2015-10-07 | 南京邮电大学 | 基于属性特征表示的群体行为识别方法 |
CN106973244A (zh) * | 2016-01-13 | 2017-07-21 | 奥多比公司 | 使用弱监督为图像配字幕 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN106169065A (zh) * | 2016-06-30 | 2016-11-30 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN108304846A (zh) * | 2017-09-11 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及存储介质 |
CN108875494A (zh) * | 2017-10-17 | 2018-11-23 | 北京旷视科技有限公司 | 视频结构化方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210326634A1 (en) | 2021-10-21 |
EP3893197A4 (en) | 2022-02-23 |
US12100209B2 (en) | 2024-09-24 |
WO2020151247A1 (zh) | 2020-07-30 |
EP3893197A1 (en) | 2021-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10733431B2 (en) | Systems and methods for optimizing pose estimation | |
US10796452B2 (en) | Optimizations for structure mapping and up-sampling | |
US20210183022A1 (en) | Image inpainting method and apparatus, computer device, and storage medium | |
US20210319258A1 (en) | Method and apparatus for training classification task model, device, and storage medium | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
US12062158B2 (en) | Image denoising method and apparatus | |
CN111670457B (zh) | 动态对象实例检测、分割和结构映射的优化 | |
CN111667399B (zh) | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
WO2020107847A1 (zh) | 基于骨骼点的跌倒检测方法及其跌倒检测装置 | |
WO2019184657A1 (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111684490A (zh) | 动态对象实例检测、分割和结构映射的优化 | |
CN111402130A (zh) | 数据处理方法和数据处理装置 | |
WO2022134971A1 (zh) | 一种降噪模型的训练方法及相关装置 | |
WO2022001372A1 (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN111222046B (zh) | 服务配置方法、用于服务配置的客户端、设备及电子设备 | |
CN111433812A (zh) | 动态对象实例检测、分割和结构映射的优化 | |
WO2021103731A1 (zh) | 一种语义分割方法、模型训练方法及装置 | |
US12100209B2 (en) | Image analysis method and system | |
WO2022111387A1 (zh) | 一种数据处理方法及相关装置 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
WO2024199404A1 (zh) | 一种消费预测方法及其相关设备 | |
WO2024046144A1 (zh) | 一种视频处理方法及其相关设备 | |
WO2024067113A1 (zh) | 一种动作预测方法及其相关设备 | |
WO2023185541A1 (zh) | 一种模型训练方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220209 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Applicant after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200731 |