CN111476838A

CN111476838A - 图像分析方法以及系统

Info

Publication number: CN111476838A
Application number: CN201910065251.0A
Authority: CN
Inventors: 郑鹏鹏; 李嘉豪; 金鑫; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-07-31
Also published as: US20210326634A1; EP3893197A4; US12100209B2; WO2020151247A1; EP3893197A1

Abstract

本申请提供了一种图像分析方法，包括：获取t帧图像的影响因素，其中，影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；根据影响因素获得全景语义描述，全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

Description

图像分析方法以及系统

技术领域

本申请涉及图像处理领域，尤其涉及一种图像分析方法以及系统。

背景技术

图像描述的任务是：为给定的图像生成对应的文字描述。图像描述可以从图像中自动提取信息，并根据自动提取到的信息生成对应的文字描述，从而实现了从图像向知识的转化。例如，图片描述可以为图1A所示的图像生成“一个男人在海上冲浪”这样的文字描述。

目前，图像描述只能对图像进行低层语义描述，即，只能对单主体单动作(例如图1A中一个男人在海上冲浪)或多主体单动作(例如图1B中一群学生在做早操)进行描述，但是，不能对图像进行全景语义描述，即，不能对多个主体和主体之间，主体和动作之间，动作和动作之间的关系(例如图1C中一个男人看到一个女人被车子撞倒了)进行描述。

发明内容

本申请提供了一种图像分析方法以及系统，能够对图像进行全景语义描述。

第一方面，提供了一种图像分析方法，包括：

获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征表示对应的目标主体在所述图像中的位置，所述属性特征表示对应的目标主体的属性，所述姿态特征表示对应的目标主体的动作，所述关系向量特征表示目标主体和目标主体之间的关系；

根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述，从而更好地体现图像中多个主体和主体之间，主体和动作之间，动作和动作之间的关系。

在一些可能的设计中，获取全景语义描述的影响因素包括：

对所述t帧图像进行特征提取，从而得到t个特征向量；

对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在一些可能的设计中，采用同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。

上述方案中，通过同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中，所以，在进行所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时，都可以使用之前提取得到的特征向量，避免多次对特征向量进行提取，从而减少计算量。即，不需要在进行所述位置特征的提取时，进行一次特征向量提取，在进行所述属性特征的提取时，进行一次特征向量提取，在进行所述姿态特征的提取时，进行一次特征向量提取，以及，在进行所述关系向量特征的提取时，进行一次特征向量提取。

在一些可能的设计中，根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v_a,b，i，a和b均为自然数，并且，0<i≤t，1≤a,b≤h，所述特征向量i根据所述图像i提取；

根据目标主体a进行感兴趣区域池化，从而获得与目标主体a对应的特征向量v_a,a；

根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征

其中，w_a,b＝sigmoid(w(v_a,b,v_a,a))，sigmoid()为S型的函数，v_a,b为目标主体a和目标主体b对应的特征向量，v_a,a为目标主体a对应的特征向量，w()为内积函数。

在一些可能的设计中，所述根据所述影响因素获得全景语义描述包括：

根据所述位置特征提取第一语义描述；

根据所述属性特征以及所述第一语义描述提取第二语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在一些可能的设计中，采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。

第二方面，提供了一种图像分析系统，包括特征提取模块以及全景语义模型，

所述特征提取模块用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

所述全景语义模型，用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系的描述。

在一些可能的设计中，所述特征提取模块包括：特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元，

所述特征向量提取单元，用于对所述t帧图像进行特征提取，从而得到t个特征向量；

所述位置特征提取单元，用于对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

所述属性特征提取单元，用于对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

所述姿态特征提取单元，用于对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

所述关系向量特征单元，用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在一些可能的设计中，所述特征提取模块包括卷积神经网络，所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。

在一些可能的设计中，所述关系向量特征提取单元，用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v_a,b，i，a和b均为自然数，并且，0<i≤t，1≤a,b≤h；

在一些可能的设计中，所述全景语义模型包括：第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元，

所述第一时序特征提取单元用于根据所述位置特征提取第一语义描述；

所述第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述；

所述第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述；

所述第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在一些可能的设计中，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。

第三方面，提供了一种计算节点，包括：处理器和存储器，所述处理器执行：

在一些可能的设计中，所述处理器用于执行：

对所述t帧图像进行特征提取，从而得到t个特征向量；

其中，w_a,b＝sigmoid(w(v_a,b,v_a,a))，sigmoid()为S型的函数，va,b为目标主体a和目标主体b对应的特征向量，v_a,a为目标主体a对应的特征向量，w()为内积函数。

在一些可能的设计中，所述处理器用于执行：

根据所述位置特征提取第一语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

第四方面，提供了一种计算节点集群，包括：至少一个计算节点，每个计算节点包括处理器和存储器，所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。

第五方面，提供了一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，如第一方面任一项所述的方法将被执行。

第六方面，提供了一种计算机非瞬态存储介质，包括指令，当所述指令在计算节点集群中的至少一个计算节点上运行时，使得所述计算节点集群执行如第一方面任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1A至图1C为一些用于进行图像描述的图像的示意图；

图2为本申请涉及的一实施例的用于进行全景语义描述的单帧图像的示意图；

图3为本申请涉及的一实施例的用于进行全景语义描述的多帧图像的示意图；

图4为本申请涉及的位置特征、属性特征、姿态特征以及关系向量特征的特征提取示意图；

图5为本申请涉及的一实施例的全景语义模型的示意图；

图6为本申请涉及的另一实施例的全景语义模型的示意图；

图7为本申请涉及的一实施例的语义描述方法的流程图；

图8是本申请中提供的一实施方式的语义描述系统的结构示意图；

图9为本申请涉及的一实施例的计算节点的结构示意图；

图10是本申请涉及的一实施例的云服务集群的结构示意图；

图11是本申请中提供的另一实施方式的语义描述系统的结构示意图；

图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。

具体实施方式

本申请的实施例部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

首先对本申请的实施例涉及的用于进行全景语义描述的单幅图像进行详细的描述。

图2示出了适用于本申请实施例的一实施方式的用于进行全景语义描述的单帧图像的示意图。本实施例中用于进行全景语义描述的单帧图像通常包括多个目标主体，其中，目标主体可以是人、动物或者物体等等中的一种或者多种。以图2为例，图2所示的图像中的目标主体包括男子、女子以及车辆。不同目标主体可以执行不同的动作，其中，动作可以是喝水、看书、做操、打篮球、踢球、跑步、游泳等等中的一种或者多种。以图2为例，图中的男子的动作为看向女子，图中的女子的动作为摔倒了，图中的车辆的动作为撞向女子。可以理解，上述图2仅仅是作为一种示例，在实际应用中，目标主体还可以是其他主体，目标主体的数量还可以是更多，目标主体的动作也可以是其他动作等等，此处不作具体限定。

在本申请具体的实施例中，如图3所示，图像分析系统可以按照时间顺序从视频中截取出t帧用于进行全景语义描述的图像I₁，I₂，…，I_t，其中，t为自然数。其中，图像I₁，I₂，…，I_t均包括相同的目标主体，例如，图像I₁包括目标主体1、目标主体2以及目标主体3；图像I₂包括目标主体1、目标主体2以及目标主体3；…；图像I_t也包括目标主体1、目标主体2以及目标主体3。可以理解，上述t帧图像中相邻两帧图像之间的时间间隔可以是相等的，也可以是不相等的，此处不作具体限定。

在本申请具体的实施例中，图像分析系统可以通过全景语义模型对图像I_t进行全景语义描述。其中，全景语义模型的输入变量为全景语义描述的影响因素。所述全景语义描述的影响因素包括图像I₁至I_t中各个目标主体的自有特征(包括位置特征、属性特征以及姿态特征)以及各个目标主体之间的关系向量特征。

位置特征用于表示对应的目标主体在对应图像中的位置。位置特征可以表示为(x，y，w，h)，其中，x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标，w为目标主体在图像中的宽度，h为目标主体在图像中的高度。属性特征用于表示对应的目标主体的属性。属性特征可以包括很多种，目标主体不同，属性特征通常也不相同，以目标主体为人类为例，目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。目标主体的姿态特征用于表示对应的目标主体的动作。目标主体的姿态特征同样包括很多种，目标主体不同，姿态特征通常也不相同，以目标主体为人类为例，目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。关系特征向量为表示两个目标主体之间的之间的关系的向量。

以图像I₁，I₂，…，I_t中每帧图像均包括h个目标主体为例，所述全景语义描述的影响因素具体包括：

从图像I₁中获取得到的全景语义描述的影响因素：图像I₁中h个目标主体的自有特征以及图像I₁中h个目标主体之间的关系向量特征。

图像I₁中h个目标主体的自有特征包括：

这里，位置特征

属性特征

姿态特征

为图像I₁中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I₁中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I₁中的目标主体h的自有特征。

图像I₁中h个目标主体之间的关系向量特征包括：

这里，

为图像I₁中的目标主体1和目标主体2之间的关系向量特征，

为图像I₁中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I₁中的目标主体1和目标主体h之间的关系向量特征，

为图像I₁中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I₁中的目标主体2和目标主体h之间的关系向量特征…，

为图像I₁中的目标主体h-1和目标主体h之间的关系向量特征。

从图像I₂中获取得到的全景语义描述的影响因素：图像I₂中h个目标主体的自有特征以及图像I₂中h个目标主体之间的关系向量特征。

图像I₂中h个目标主体的自有特征包括：

这里，位置特征

属性特征

姿态特征

为图像I₂中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I₂中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I₂中的目标主体h的自有特征。

图像I₂中h个目标主体之间的关系向量特征包括：

这里，

为图像I₂中的目标主体1和目标主体2之间的关系向量特征，

为图像I₂中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I₂中的目标主体1和目标主体h之间的关系向量特征，

为图像I₂中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I₂中的目标主体2和目标主体h之间的关系向量特征…，

为图像I₂中的目标主体h-1和目标主体h之间的关系向量特征。

……；

从图像I_t中获取得到的全景语义描述的影响因素：图像I_t中h个目标主体的自有特征以及图像I_t中h个目标主体之间的关系向量特征。

图像I_t中h个目标主体的自有特征包括：

这里，位置特征

属性特征

姿态特征

为图像I_t中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I_t中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I_t中的目标主体h的自有特征。

图像I_t中h个目标主体之间的关系向量特征包括：

这里，

为图像I_t中的目标主体1和目标主体2之间的关系向量特征，

为图像I_t中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I_t中的目标主体1和目标主体h之间的关系向量特征，

为图像I_t中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I_t中的目标主体2和目标主体h之间的关系向量特征…，

为图像I_t中的目标主体h-1和目标主体h之间的关系向量特征。

应理解，上述全景语义描述的影响因素的示例仅仅用于进行举例，在实际应用中，全景语义描述的影响因素还可以包括其他的影响因素，此处不作具体限定。

在本申请具体的实施例中，图像I₁，I₂，…，I_t中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以分别根据图像I₁，I₂，…，I_t的特征向量V₁，V₂，…，V_t计算得到。也就是说，图像I₁中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I₁的特征向量V₁计算得到，图像I₂中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征V₂可以根据图像I₂的特征向量计算得到，…，图像I_t中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I_t的特征向量V_t计算得到。

如图4所示，图像I₁，I₂，…，I_t的特征向量V₁，V₂，…，V_t可以是这样得到的。以图像I_i为例，图像I_i的特征向量V_i可以是将图像I_i输入至特征向量提取单元中得到的。其中，i为自然数，并且，1≤i≤t。特征向量提取单元可以依次包括：输入层、卷积计算层、池化层以及全连接层。

输入层：

假设输入层的输入为图像I_i，输出和输入相等，即，不对输入进行任何处理。为了陈述简便，此处假设输入层不作任何处理，但是，在实际应用中，可以对输入层进行归一化等等处理，此处不作具体限定。

卷积计算层：

将输入层输出的图像I_i作为卷积计算层的输入，经过n个卷积核K_l(l＝1,2,…，n)的卷积生成n个特征图像a_l(l＝1,2,…，n)，其中，每个特征图像a_l的生成过程具体如下：

C_l＝conv2(I,K_l,'valid',)+b_l

u_l＝C_l

a_l＝f(u_l)

其中，conv表示为使用卷积核K_l对图像I进行卷积运算、valid表示为padding的方式，b_l表示为偏置值，u_l表示为卷积计算的结果，f()表示为激活函数，本发明采用relu函数。

池化层：

将卷积计算层输出的n个特征图像a_l作为池化层的输入，经过池化窗口进行池化之后，生成n个池化图像b_l(l＝1,2,…，n)，其中，每个池化图像b_l的生成过程具体如下：

b_l＝maxPool(a_l)

其中，maxPool表示为均值池化。

全连接层：

将n个池化图像b_l(l＝1,2,…，n)顺序展开成向量，并有序连接成一个长向量，作为全连接层网络的输入，全连接层的输出即为图像I_i的特征向量V_i。

上述特征向量提取单元的各个参数中，卷积核K_l(包括元素、大小、步长等等)、偏置值b_l、f()以及β_l可以是人为根据需要提取的特征(位置特征、属性特征、姿态特征以及关系向量特征)、图像I_i的大小等等设置的。以卷积核K_l为例，当需要提取的特征为位置特征时，卷积核K_l的元素可以采用sobel算子的元素，又例如，当图像I_i比较大时，卷积核K_l的大小也可以比较大，反之，当图像I_i比较小时，卷积核K_l的大小也可以比较小，又例如，当图像I_i比较大时，卷积核K_l的步长也可以比较大，反之，当图像I_i比较小时，卷积核K_l的步长也可以比较小。

应理解，上述特征向量提取单元仅仅作为一种举例，在实际应用中，特征向量提取单元还可以是其他的形式，例如，可以包括更多的卷积计算层、更多的池化层，可以对图像I_i进行填充等等，此处不作具体限定。

为了简便起见，上面只陈述了图像I_i的特征向量V_i的提取，实际上，图像I₁，I₂，…，I_t各自的特征向量V₁，V₂，…，V_t的提取方式均与图像I_i的特征向量V_i的提取方式相类似，此处不再展开赘述。

如图4所示，图像I₁，I₂，…，I_t中各目标主体的位置特征可以是这样得到的：以图像I_i为例，假设图像I_i中包括h个目标主体，则图像I_i中h个目标主体的位置特征

可以通过将特征向量V_i输入位置特征提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。特征提取单元可以表示为：

y₁＝g₁(x₁)；

这里，x₁可以是图像I_i的特征向量V_i，y₁可以是图像I_i中h个目标主体的位置特征

g₁()为特征向量V_i与位置特征

之间的映射关系，其中，g₁()可以通过大量的已知图像以及已知目标主体的位置特征进行训练得到。为了简便起见，上面只陈述了图像I_i中h个目标主体的位置特征

的提取，实际上，图像I₁，I₂，…，I_t各自的h个目标主体的位置特征

的提取方式均与图像I_i的h个目标主体的位置特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I₁，I₂，…，I_t中各目标主体的属性特征可以是这样得到的：以图像I_i为例，假设图像I_i中包括h个目标主体，则图像I_i中h个目标主体的属性特征

可以通过将特征向量V_i输入位置属性提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。属性提取单元可以表示为：

y₂＝g₂(x₁)；

这里，x₁可以是图像I_i的特征向量V_i，y₂可以是图像I_i中h个目标主体的属性特征

g₂()为特征向量V_i与属性特征

之间的映射关系，其中，g₂()可以通过大量的已知图像以及已知目标主体的属性特征进行训练得到。为了简便起见，上面只陈述了图像I_i中h个目标主体的属性特征

的提取，实际上，图像I₁，I₂，…，I_t各自的h个目标主体的属性特征

的提取方式均与图像I_i的h个目标主体的属性特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I₁，I₂，…，I_t中各目标主体的姿态特征可以是这样得到的：以图像I_i为例，假设图像I_i中包括h个目标主体，则图像I_i中h个目标主体的姿态特征

可以通过将特征向量V_i输入位置姿态提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。姿态提取单元可以表示为：

y₃＝g₃(x₁)；

这里，x₁可以是图像I_i的特征向量V_i，y₃可以是图像I_i中h个目标主体的姿态特征

g₃()为特征向量V_i与姿态特征

之间的映射关系，其中，g₂()可以通过大量的已知图像以及已知目标主体的姿态特征进行训练得到。为了简便起见，上面只陈述了图像I_i中h个目标主体的姿态特征

的提取，实际上，图像I₁，I₂，…，I_t各自的h个目标主体的姿态特征

的提取方式均与图像I_i的h个目标主体的姿态特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I₁，I₂，…，I_t中各目标主体之间的关系向量特征可以是这样得到的：以图像I_i为例，假设图像I_i中包括h个目标主体，则图像I_i中h个目标主体之间的关系向量特征包括：

其中，关系特征向量

可以通过关系向量特征提取单元计算得到，其中，i，a，b为自然数，并且，1≤i≤t，1≤a,b≤h：

关系向量特征提取单元用于根据目标主体a和目标主体b进行感兴趣区域池化(ROI pooling)(region of interest，ROI)，从而获得与目标主体a和目标主体b对应的特征向量v_a,b；

关系向量特征提取单元用于根据目标主体a进行ROI pooling，从而获得与目标主体a对应的特征向量v_a,a；

关系向量特征提取单元用于根据以下公式计算得到关系向量特征

其中，w_a,b＝sigmoid(w(v_a,b,v_a,a))，sigmoid()为S型的函数，v_a,b为目标主体a和目标主体b对应的特征向量，v_a,a为目标主体a对应的特征向量，w()为内积函数。w_a,b可以通过大量的已知目标主体和已知特征向量进行训练得到。

为了简便起见，上面只陈述了图像I_i中h个目标主体之间的关系向量特征

的提取，实际上，图像I₁，I₂，…，I_t各自的h个目标主体之间的关系向量特征

的提取方式均与图像I_i的h个目标主体的姿态特征

的提取方式相类似，此处不再展开赘述。

上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(Convolutional Neural Networks，CNN)实现的，也可以集成在同一个卷积神经网络中实现的，此处不作具体限定。其中，卷积神经网络可以包括VGGNet、ResNet、FPNet等等，此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络中完成时，特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中不同层分别实现的。

在本申请具体的实施例中，全景语义描述的影响因素(图像I₁，I₂，…，I_t中各目标主体的位置特征、图像I₁，I₂，…，I_t中各目标主体的属性特征、图像I₁，I₂，…，I_t中各目标主体的姿态特征以及图像I₁，I₂，…，I_t中各目标主体的之间的关系向量特征)对全景语义描述存在这样的影响：图像I₁，I₂，…，I_t中各目标主体的位置特征可以提供关于各个目标主体之间的位置的第一语义描述，图像I₁，I₂，…，I_t中各目标主体的属性特征结合上述第一语义描述，可以得到结合各个目标主体的属性的第二语义描述，之后，图像I₁，I₂，…，I_t的各目标主体的姿态特征结合上述第二语义描述可以得到第三语义描述；最后，图像I₁，I₂，…，I_t的各目标主体之间的关系向量特征结合第三语义描述，可以得到全景语义描述。

以图3所示的例子为例，全景语义描述的影响因素对全景语义描述的影响可以如下所述：首先，通过图3中的图像I₁，I₂，…，I_t的男子、女子以及车辆三者的位置特征，可以得到“物体A和物体B在物体C的左侧”的第一语义描述；然后，通过图3中的图像I₁，I₂，…，I_t的男子、女子和车辆三者的属性特征结合第一语义描述，可以得到“女子和汽车在男子左侧”的第二语义描述，之后，通过图3中图像I₁，I₂，…，I_t的男子、女子和车辆三者的姿态特征结合第二语义描述，可以得到第三语义描述，最后，通过图3中图像I₁，I₂，…，I_t的关系向量特征结合第三语义描述，可以得到“右边的男子看到左边的女子被汽车撞倒”的全景语义描述。

应理解，上述图3所示的例子仅仅作为一种具体的示例，在其他的实施例子，还可以对其他的图像进行全景语义描述，此处不作具体限定，

在本申请具体的实施例中，全景语义模型可以表示为：

y＝Panorama(x)

其中，x为全景语义描述的影响因素，y为全景语义描述，Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。在一具体的实施例中，全景语义模型可以如图5所示，

将图像I₁，I₂，…，I_t中的h个目标主体的位置特征

输入时序特征提取单元1，从而得到第一语义描述；

将图像I₁，I₂，…，I_t中的h个目标主体的属性特征

结合第一语义描述输入时序特征提取单元2，从而得到第二语义描述；

将图像I₁，I₂，…，I_t中的h个目标主体的姿态特征

结合第二语义描述输入时序特征提取单元3，从而得到第三语义描述；

将图像I₁，I₂，…，I_t中的h个目标主体的关系向量特征

结合第三语义描述输入时序特征提取单元4，从而得到全景语义描述。

可以理解，第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)实现的，也可以是同一个循环神经网络实现的，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(BiLong short-termmemory，BiLSTM)等等，此处不作具体限定。当第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取在同一个循环神经网络中实现时，可以分别是循环神经网络中的不同层分别实现的。

以时序特征提取单元1至4均为LSTM为例，在一具体的实施例中，全景语义模型可以如图6所示：

以下为第一时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I₁中的h个目标主体的位置特征

以及初始输出值h₁₀计算得到遗忘值f₁₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₁中的h个目标主体的位置特征

初始输入值C₁₀，初始输出值h₁₀以及遗忘值f₁₀计算得到输入值C₁₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₁中的h个目标主体的位置特征

初始输出值h₁₀以及输入值C₁₁：

h₁₁＝o₁₀tanh(C₁₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I₂中的h个目标主体的位置特征

以及输出值h₁₁计算得到遗忘值f₁₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₂中的h个目标主体的位置特征

输入值C₁₁，输出值h₁₁以及遗忘值f₁₁计算得到输入值C₁₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₂中的h个目标主体的位置特征

输出值h₁₁以及输入值C₁₂：

h₁₂＝o₁₁tanh(C₁₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I_t中的h个目标主体的位置特征

以及输出值h_1t-1计算得到遗忘值f_1t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I_t中的h个目标主体的位置特征

输入值C_1t-1，输出值h_1t-1以及遗忘值f_1t-1计算得到输入值C_1t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I_t中的h个目标主体的位置特征

输出值h_1t-1以及输入值C_1t：

h_1t＝o_1t-1tanh(C_1t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h₁₁至h_1t即可构成第一语义描述。

可以理解，上述初始输出值h₁₀，初始输出值h₁₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第一语义描述与已知目标主体的位置特征进行训练得到的。

以下为第二时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I₁中的h个目标主体的属性特征

以及初始输出值h₂₀计算得到遗忘值f₂₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₁中的h个目标主体的属性特征

初始输入值C₂₀，初始输出值h₂₀以及遗忘值f₂₀计算得到输入值C₂₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₁中的h个目标主体的属性特征

初始输出值h₂₀以及输入值C₂₁：

h₂₁＝o₂₀tanh(C₂₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I₂中的h个目标主体的属性特征

以及输出值h₂₁计算得到遗忘值f₂₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₂中的h个目标主体的属性特征

输入值C₂₁，输出值h₂₁以及遗忘值f₂₁计算得到输入值C₂₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₂中的h个目标主体的属性特征

输出值h₂₁以及输入值C₂₂：

h₁₂＝o₁₁tanh(C₁₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I_t中的h个目标主体的位置特征

以及输出值h_2t-1计算得到遗忘值f_2t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I_t中的h个目标主体的位置特征

输入值C_2t-1，输出值h_2t-1以及遗忘值f_2t-1计算得到输入值C_2t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I_t中的h个目标主体的位置特征

输出值h_2t-1以及输入值C_2t：

h_2t＝o_2t-1tanh(C_2t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h₂₁至h_2t即可构成第二语义描述。

可以理解，上述初始输出值h₂₀，初始输出值h₂₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征进行训练得到的。

以下为第三时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I₁中的h个目标主体的姿态特征

以及初始输出值h₃₀计算得到遗忘值f₃₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₁中的h个目标主体的姿态特征

初始输入值C₃₀，初始输出值h₃₀以及遗忘值f₃₀计算得到输入值C₃₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₁中的h个目标主体的姿态特征

初始输出值h₃₀以及输入值C₃₁：

h₃₁＝o₃₀tanh(C₃₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I₂中的h个目标主体的姿态特征

以及输出值h₃₁计算得到遗忘值f₃₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₂中的h个目标主体的姿态特征

输入值C₃₁，输出值h₃₁以及遗忘值f₃₁计算得到输入值C₃₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₂中的h个目标主体的姿态特征

输出值h₃₁以及输入值C₃₂：

h₃₂＝o₃₁tanh(C₃₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I_t中的h个目标主体的姿态特征

以及输出值h_3t-1计算得到遗忘值f_3t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I_t中的h个目标主体的姿态特征

输入值C_3t-1，输出值h_3t-1以及遗忘值f_3t-1计算得到输入值C_3t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I_t中的h个目标主体的姿态特征

输出值h_3t-1以及输入值C_3t：

h_3t＝o_3t-1tanh(C_3t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h₃₁至h_3t即可构成第三语义描述。

可以理解，上述初始输出值h₃₀，初始输出值h₃₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征进行训练得到的。

以下为第四时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I₁中的h个目标主体的之间的关系向量特征

以及初始输出值h₄₀计算得到遗忘值f₄₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₁中的h个目标主体的之间的关系向量特征

初始输入值C₄₀，初始输出值h₄₀以及遗忘值f₄₀计算得到输入值C₄₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₁中的h个目标主体的之间的关系向量特征

初始输出值h₄₀以及输入值C₄₁：

h₄₁＝o₄₀tanh(C₄₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I₂中的h个目标主体之间的关系向量特征

以及输出值h₄₁计算得到遗忘值f₄₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I₂中的h个目标主体之间的关系向量特征

输入值C₄₁，输出值h₄₁以及遗忘值f₄₁计算得到输入值C₄₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I₂中的h个目标主体之间的关系向量特征

输出值h₄₁以及输入值C₄₂：

h₄₂＝o₄₁tanh(C₄₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I_t中的h个目标主体之间的关系向量特征

以及输出值h_4t-1计算得到遗忘值f_4t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I_t中的h个目标主体之间的关系向量特征

输入值C_4t-1，输出值h_4t-1以及遗忘值f_4t-1计算得到输入值C_4t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I_t中的h个目标主体之间的关系向量特征

输出值h_4t-1以及输入值C_4t：

h_4t＝o_4t-1tanh(C_4t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h₄₁至h_4t即可构成全景语义描述。

可以理解，上述初始输出值h₄₀，初始输出值h₄₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征进行训练得到的。

如图7所示，图7是本申请提供了一种图像分析方法的流程示意图。本实施方式的图像分析方法，包括如下步骤：

S101：图像分析系统获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数。

在本申请具体的实施例中，位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x，y，w，h)，其中，x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标，w为目标主体在图像中的宽度，h为目标主体在图像中的高度。

在本申请具体的实施例中，属性特征可以包括很多种，目标主体不同，属性特征通常也不相同，以目标主体为人类为例，目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。

在本申请具体的实施例中，目标主体的姿态特征同样包括很多种，目标主体不同，姿态特征通常也不相同，以目标主体为人类为例，目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。

在本申请具体的实施例中，关系特征向量为表示两个目标主体之间的之间的关系的向量。

S102：图像分析系统根据所述影响因素获得全景语义描述。

在本申请具体的实施例中，所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为：

y＝Panorama(x)

其中，x为全景语义描述的影响因素，y为全景语义描述，Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。

在本申请具体的实施例中，所述全景语义描述能够对目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系进行描述。

在本申请具体的实施例中，对所述t帧图像进行特征提取，从而得到t个特征向量；对所述t个特征向量进行位置特征提取，从而得到所述位置特征；对所述t个特征向量进行属性特征提取，从而得到所述属性特征；对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在本申请具体的实施例中，上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(ConvolutionalNeural Networks，CNN)，也可以集成在同一个卷积神经网络中，此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络，特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中的一个层。

在本申请具体的实施例中，根据所述位置特征提取第一语义描述；根据所述属性特征以及所述第一语义描述提取第二语义描述；根据所述姿态特征以及所述第二语义提取第三语义描述；根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在本申请具体的实施例中，上述第一语义描述至第三语义以及全景语义描述描述可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)进行提取，也可以集成在同一个循环神经网络中进行提取，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(BiLongshort-term memory，BiLSTM)等等，此处不作具体限定。当上述第一语义描述至第三语义描述以及全景语义描述集成在同一个循环神经网络中进行提取时，可以分别通过循环神经网络中的不同层进行提取。

为了简便陈述，本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述，具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍，具体请参见图4以及相关描述。另外，本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍，具体请参见图5、图6以及相关描述。

参见图8，图8是本申请中提供的一实施方式的图像分析系统的结构示意图。本申请实施例的图像分析系统包括特征提取模块510以及全景语义描述模块520。其中，特征提取模块510包括：特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征单元515。全景语义描述模块520包括第一时序特征提取单元522、第二时序特征提取单元523、第三时序特征提取单元524以及第四时序特征提取单元525。

所述特征提取510用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

所述全景语义描述模块520用于将所述影响因素输入全景语义模型，从而得到全景语义描述，其中，所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系，所述全景语义描述能够对目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系进行描述。

y＝Panorama(x)

在本申请具体的实施例中，所述特征向量提取单元511用于对所述t帧图像进行特征提取，从而得到t个特征向量；所述位置特征提取单元512用于对所述t个特征向量进行位置特征提取，从而得到所述位置特征；所述属性特征提取单元513用于对所述t个特征向量进行属性特征提取，从而得到所述属性特征；所述姿态特征提取单元514用于对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；所述关系向量特征单元515用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在本申请具体的实施例中，所述特征提取模块510包括卷积神经网络，所述特征向量提取单元511、所述位置特征提取单元512、所述属性特征提取单元513、所述姿态特征提取单元514以及所述关系向量特征提取单元515集成于所述卷积神经网络。上述特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515可以分别是不同的卷积神经网络(Convolutional NeuralNetworks，CNN)，也可以集成在同一个卷积神经网络中，此处不作具体限定。其中，卷积神经网络可以包括VGGNet、ResNet、FPNet等等，此处不作具体限定。当特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515集成在同一个卷积神经网络，特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征515可以是卷积神经网络中的一个层。

在本申请具体的实施例中，第一时序特征提取单元522用于根据所述位置特征提取第一语义描述；第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述；第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述；第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在本申请具体的实施例中，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。上述第一时序特征提取单元至第四时序特征提取单元可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)，也可以集成在同一个循环神经网络中，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(BiLongshort-term memory，BiLSTM)等等，此处不作具体限定。当第一时序特征提取单元至第四时序特征提取单元集成在同一个循环神经网络，第一时序特征提取单元至第四时序特征提取单元可以分别是循环神经网络中的一个层。

本申请的图像分析系统可以在计算节点中实现，也可以在云计算基础设施上实现，此处不做具体限定。下面将分别介绍如何在计算节点和云计算基础设施上实现图像分析系统。

如图9所示，计算节点100可以包括包括处理器110以及存储器120。其中，处理器用于运行特征提取模块111以及全景语义模型112。存储器120用于存储语义描述、特征以及图像121等等。计算节点100还提供了两种对外的接口界面，分别是面向语义描述系统的维护人员的管理界面140以及面向用户的用户界面150。其中，接口界面的形态可以是多样的，例如web界面、命令行工具、REST接口等。

在本申请具体的实施例中，管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

在本申请具体的实施例中，用户界面用于供用户输入需要被提取全景语义描述的图像，并且，通过用户界面向用户输出全景语义描述。

应当理解，计算节点100仅为本申请实施例提供的一个例子，并且，计算节点100可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

如图10所示，云计算基础设施可以是云服务集群200。所述云服务集群200是由节点，以及节点之间的通信网络构成。上述节点可以是计算节点，也可以是运行在计算节点上的虚拟机。节点按功能可分为两类：计算节点210和存储节点220。计算节点210用于运行特征提取模块211以及全景语义模型212。存储节点220用于存储语义描述、特征以及图像等等221。云服务集群200还提供了两种对外的接口界面，分别是面向问答引擎的维护人员的管理界面240以及面向用户的用户界面250。其中，接口界面的形态可以是多样的，例如web界面、命令行工具、REST接口等。

应当理解，云服务集群200仅为本申请实施例提供的一个例子，并且，云服务集群200可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

参见图11，图11是本申请中提供的另一实施方式的语义描述系统的结构示意图。图8所示的语义描述系统可以在如图9所示的计算节点300中实现。本实施方式的计算节点300包括一个或多个处理器311、通信接口312和存储器313。其中，处理器311、通信接口312和存储器313之间可以通过总线324连接。

处理器311包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit，CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit，专用集成电路)等等。处理器311执行各种类型的数字存储指令，例如存储在存储器313中的软件或者固件程序，它能使计算节点300提供较宽的多种服务。例如，处理器311能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。处理器311中可以运行如图8所示的特征提取模块以及全景语义模型。

通信接口312可以为有线接口(例如以太网接口)，用于与其他计算节点或用户进行通信。

存储器313可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)存储器还可以包括上述种类的存储器的组合。存储器313可以存储有程序代码以及程序数据。其中，程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括：大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

其中，所述处理器311通过调用存储器313中的程序代码，用于执行以下步骤：

处理器311用于获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；

处理器311用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

参见图12，图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。本实施方式的语义描述系统可以在如图10所示的云服务集群中实现。云服务集群包括包括至少一个计算节点410以及至少一个存储节点420。

计算节点410包括一个或多个处理器411、通信接口412和存储器413。其中，处理器411、通信接口412和存储器413之间可以通过总线424连接。

处理器411包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit，CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit，专用集成电路)等等。它能够是仅用于计算节点410的专用处理器或者能够与其它计算节点410共享。处理器411执行各种类型的数字存储指令，例如存储在存储器413中的软件或者固件程序，它能使计算节点410提供较宽的多种服务。例如，处理器411能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。处理器411中可以运行如图8所示的特征提取模块以及全景语义模型。

通信接口412可以为有线接口(例如以太网接口)，用于与其他计算节点或用户进行通信。当通信接口412为有线接口时，通信接口412可以采用TCP/IP之上的协议族，例如，RAAS协议、远程函数调用(Remote Function Call，RFC)协议、简单对象访问协议(SimpleObject Access Protocol，SOAP)协议、简单网络管理协议(Simple Network ManagementProtocol，SNMP)协议、公共对象请求代理体系结构(Common Object Request BrokerArchitecture，CORBA)协议以及分布式协议等等。

存储器413可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)存储器还可以包括上述种类的存储器的组合。

存储节点420包括一个或多个处理器421、通信接口422和存储器423。其中，处理器421、通信接口422和存储器423之间可以通过总线424连接。

处理器421包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于存储节点420的专用处理器或者能够与其它存储节点420共享。处理器421执行各种类型的数字存储指令，例如存储在存储器223中的软件或者固件程序，它能使存储节点420提供较宽的多种服务。例如，处理器221能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。

通信接口422可以为有线接口(例如以太网接口)，用于与其他计算设备或用户进行通信。

存储节点420包括一个或多个存储控制器421和存储阵列425。其中，存储控制器421和存储阵列425之间可以通过总线426连接。

存储控制器421包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于单个存储节点420的专用处理器或者能够与计算节点40或者其它存储节点420共享。可以理解，在本实施例中，每个存储节点包括一个存储控制器，在其他的实施例中，也可以多个存储节点共享一个存储控制器，此处不作具体限定。

存储器阵列425可以包括多个存储器。存储器可以是非易失性存储器，例如ROM、快闪存储器、HDD或SSD存储器还可以包括上述种类的存储器的组合。例如，存储阵列可以是由多个HDD或者多个SDD组成，或者，存储阵列可以是由HDD以及SDD组成。其中，多个存储器在存储控制器321将的协助下按不同的方式组合起来形成存储器组，从而提供比单个存储器更高的存储性能和提供数据备份技术。可选地，存储器阵列425可以包括一个或者多个数据中心。多个数据中心可以设置在同一个地点，或者，分别在不同的地点，此处不作具体限定。存储器阵列425可以存储有程序代码以及程序数据。其中，程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括：大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

其中，所述计算节点411通过调用存储节点413中的程序代码，用于执行以下步骤：

计算节点411用于获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；

计算节点411用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

Claims

1.一种图像分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取t帧图像的全景语义描述的影响因素包括：

对所述t帧图像进行特征提取，从而得到t个特征向量；

3.根据权利要求2所述的方法，其特征在于，采用同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述t个特征向量进行关系向量特征提取，从而得到关系向量特征包括：

根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v_a,b，i，a和b均为自然数，并且，0<i≤t，1≤a,b≤h，所述特征向量i根据所述图像i提取；

5.根据权利要求1至4任一权利要求所述的方法，其特征在于，所述根据所述影响因素获得全景语义描述包括：

根据所述位置特征提取第一语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

6.根据权利要求5所述的方法，其特征在于，

采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。

7.一种图像分析系统，其特征在于，包括特征提取模块以及全景语义模型，

所述特征提取模块，用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

8.根据权利要求7所述的系统，其特征在于，所述特征提取模块包括：特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元，

所述关系向量特征单元模块，用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

9.根据权利要求8所述的系统，其特征在于，所述特征提取模块包括卷积神经网络，所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。

10.根据权利要求8或9所述的系统，其特征在于，

所述关系向量特征提取单元，用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v_a,b，i，a和b均为自然数，并且，0<i≤t，1≤a,b≤h；根据目标主体a进行感兴趣区域池化，从而获得与目标主体a对应的特征向量v_a,a；并根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征

11.根据权利要求7至10任一权利要求所述的系统，其特征在于，所述全景语义模型包括：第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元，

所述第一时序特征提取单元，用于根据所述位置特征提取第一语义描述；

所述第二时序特征提取单元，用于根据所述属性特征以及所述第一语义描述提取第二语义描述；

所述第三时序特征提取单元，用于根据所述姿态特征以及所述第二语义提取第三语义描述；

所述第四时序特征提取单元，用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

12.根据权利要求11所述的系统，其特征在于，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。

13.一种计算节点集群，其特征在于，包括：至少一个计算节点，每个计算节点包括处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至6任一权利要求所述的方法。

14.一种计算机非瞬态存储介质，其特征在于，包括指令，当所述指令在计算节点集群中的至少一个计算节点上运行时，使得所述计算节点集群执行如权利要求1至6任一权利要求所述的方法。