CN111476838A - 图像分析方法以及系统 - Google Patents

图像分析方法以及系统 Download PDF

Info

Publication number
CN111476838A
CN111476838A CN201910065251.0A CN201910065251A CN111476838A CN 111476838 A CN111476838 A CN 111476838A CN 201910065251 A CN201910065251 A CN 201910065251A CN 111476838 A CN111476838 A CN 111476838A
Authority
CN
China
Prior art keywords
feature
target
features
target subject
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910065251.0A
Other languages
English (en)
Inventor
郑鹏鹏
李嘉豪
金鑫
涂丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910065251.0A priority Critical patent/CN111476838A/zh
Priority to EP19911852.2A priority patent/EP3893197A4/en
Priority to PCT/CN2019/107126 priority patent/WO2020151247A1/zh
Publication of CN111476838A publication Critical patent/CN111476838A/zh
Priority to US17/365,089 priority patent/US12100209B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本申请提供了一种图像分析方法,包括:获取t帧图像的影响因素,其中,影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;根据影响因素获得全景语义描述,全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

Description

图像分析方法以及系统
技术领域
本申请涉及图像处理领域,尤其涉及一种图像分析方法以及系统。
背景技术
图像描述的任务是:为给定的图像生成对应的文字描述。图像描述可以从图像中自动提取信息,并根据自动提取到的信息生成对应的文字描述,从而实现了从图像向知识的转化。例如,图片描述可以为图1A所示的图像生成“一个男人在海上冲浪”这样的文字描述。
目前,图像描述只能对图像进行低层语义描述,即,只能对单主体单动作(例如图1A中一个男人在海上冲浪)或多主体单动作(例如图1B中一群学生在做早操)进行描述,但是,不能对图像进行全景语义描述,即,不能对多个主体和主体之间,主体和动作之间,动作和动作之间的关系(例如图1C中一个男人看到一个女人被车子撞倒了)进行描述。
发明内容
本申请提供了一种图像分析方法以及系统,能够对图像进行全景语义描述。
第一方面,提供了一种图像分析方法,包括:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在一些可能的设计中,获取全景语义描述的影响因素包括:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
上述方案中,通过同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中,所以,在进行所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时,都可以使用之前提取得到的特征向量,避免多次对特征向量进行提取,从而减少计算量。即,不需要在进行所述位置特征的提取时,进行一次特征向量提取,在进行所述属性特征的提取时,进行一次特征向量提取,在进行所述姿态特征的提取时,进行一次特征向量提取,以及,在进行所述关系向量特征的提取时,进行一次特征向量提取。
在一些可能的设计中,根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a
根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
Figure BDA0001955476690000021
Figure BDA0001955476690000022
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述根据所述影响因素获得全景语义描述包括:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
第二方面,提供了一种图像分析系统,包括特征提取模块以及全景语义模型,
所述特征提取模块用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义模型,用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系的描述。
在一些可能的设计中,所述特征提取模块包括:特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元,
所述特征向量提取单元,用于对所述t帧图像进行特征提取,从而得到t个特征向量;
所述位置特征提取单元,用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
所述属性特征提取单元,用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
所述姿态特征提取单元,用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
所述关系向量特征单元,用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,所述特征提取模块包括卷积神经网络,所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。
在一些可能的设计中,所述关系向量特征提取单元,用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a
根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
Figure BDA0001955476690000031
Figure BDA0001955476690000032
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述全景语义模型包括:第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元,
所述第一时序特征提取单元用于根据所述位置特征提取第一语义描述;
所述第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述;
所述第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述;
所述第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。
第三方面,提供了一种计算节点,包括:处理器和存储器,所述处理器执行:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在一些可能的设计中,所述处理器用于执行:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在一些可能的设计中,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
上述方案中,通过同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中,所以,在进行所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时,都可以使用之前提取得到的特征向量,避免多次对特征向量进行提取,从而减少计算量。即,不需要在进行所述位置特征的提取时,进行一次特征向量提取,在进行所述属性特征的提取时,进行一次特征向量提取,在进行所述姿态特征的提取时,进行一次特征向量提取,以及,在进行所述关系向量特征的提取时,进行一次特征向量提取。
在一些可能的设计中,根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a
根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
Figure BDA0001955476690000041
Figure BDA0001955476690000042
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
在一些可能的设计中,所述处理器用于执行:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在一些可能的设计中,采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
第四方面,提供了一种计算节点集群,包括:至少一个计算节点,每个计算节点包括处理器和存储器,所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。
第五方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机读取并执行时,如第一方面任一项所述的方法将被执行。
第六方面,提供了一种计算机非瞬态存储介质,包括指令,当所述指令在计算节点集群中的至少一个计算节点上运行时,使得所述计算节点集群执行如第一方面任一项所述的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1A至图1C为一些用于进行图像描述的图像的示意图;
图2为本申请涉及的一实施例的用于进行全景语义描述的单帧图像的示意图;
图3为本申请涉及的一实施例的用于进行全景语义描述的多帧图像的示意图;
图4为本申请涉及的位置特征、属性特征、姿态特征以及关系向量特征的特征提取示意图;
图5为本申请涉及的一实施例的全景语义模型的示意图;
图6为本申请涉及的另一实施例的全景语义模型的示意图;
图7为本申请涉及的一实施例的语义描述方法的流程图;
图8是本申请中提供的一实施方式的语义描述系统的结构示意图;
图9为本申请涉及的一实施例的计算节点的结构示意图;
图10是本申请涉及的一实施例的云服务集群的结构示意图;
图11是本申请中提供的另一实施方式的语义描述系统的结构示意图;
图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。
具体实施方式
本申请的实施例部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
首先对本申请的实施例涉及的用于进行全景语义描述的单幅图像进行详细的描述。
图2示出了适用于本申请实施例的一实施方式的用于进行全景语义描述的单帧图像的示意图。本实施例中用于进行全景语义描述的单帧图像通常包括多个目标主体,其中,目标主体可以是人、动物或者物体等等中的一种或者多种。以图2为例,图2所示的图像中的目标主体包括男子、女子以及车辆。不同目标主体可以执行不同的动作,其中,动作可以是喝水、看书、做操、打篮球、踢球、跑步、游泳等等中的一种或者多种。以图2为例,图中的男子的动作为看向女子,图中的女子的动作为摔倒了,图中的车辆的动作为撞向女子。可以理解,上述图2仅仅是作为一种示例,在实际应用中,目标主体还可以是其他主体,目标主体的数量还可以是更多,目标主体的动作也可以是其他动作等等,此处不作具体限定。
在本申请具体的实施例中,如图3所示,图像分析系统可以按照时间顺序从视频中截取出t帧用于进行全景语义描述的图像I1,I2,…,It,其中,t为自然数。其中,图像I1,I2,…,It均包括相同的目标主体,例如,图像I1包括目标主体1、目标主体2以及目标主体3;图像I2包括目标主体1、目标主体2以及目标主体3;…;图像It也包括目标主体1、目标主体2以及目标主体3。可以理解,上述t帧图像中相邻两帧图像之间的时间间隔可以是相等的,也可以是不相等的,此处不作具体限定。
在本申请具体的实施例中,图像分析系统可以通过全景语义模型对图像It进行全景语义描述。其中,全景语义模型的输入变量为全景语义描述的影响因素。所述全景语义描述的影响因素包括图像I1至It中各个目标主体的自有特征(包括位置特征、属性特征以及姿态特征)以及各个目标主体之间的关系向量特征。
位置特征用于表示对应的目标主体在对应图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。属性特征用于表示对应的目标主体的属性。属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。目标主体的姿态特征用于表示对应的目标主体的动作。目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。关系特征向量为表示两个目标主体之间的之间的关系的向量。
以图像I1,I2,…,It中每帧图像均包括h个目标主体为例,所述全景语义描述的影响因素具体包括:
从图像I1中获取得到的全景语义描述的影响因素:图像I1中h个目标主体的自有特征以及图像I1中h个目标主体之间的关系向量特征。
图像I1中h个目标主体的自有特征包括:
Figure BDA0001955476690000061
这里,位置特征
Figure BDA0001955476690000062
属性特征
Figure BDA0001955476690000063
姿态特征
Figure BDA0001955476690000064
为图像I1中的目标主体1的自有特征,位置特征
Figure BDA0001955476690000065
属性特征
Figure BDA0001955476690000066
姿态特征
Figure BDA0001955476690000067
为图像I1中的目标主体2的自有特征,…,位置特征
Figure BDA0001955476690000068
属性特征
Figure BDA0001955476690000069
姿态特征
Figure BDA00019554766900000610
为图像I1中的目标主体h的自有特征。
图像I1中h个目标主体之间的关系向量特征包括:
Figure BDA00019554766900000611
这里,
Figure BDA00019554766900000612
为图像I1中的目标主体1和目标主体2之间的关系向量特征,
Figure BDA00019554766900000613
为图像I1中的目标主体1和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000614
为图像I1中的目标主体1和目标主体h之间的关系向量特征,
Figure BDA00019554766900000615
为图像I1中的目标主体2和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000616
为图像I1中的目标主体2和目标主体h之间的关系向量特征…,
Figure BDA00019554766900000617
为图像I1中的目标主体h-1和目标主体h之间的关系向量特征。
从图像I2中获取得到的全景语义描述的影响因素:图像I2中h个目标主体的自有特征以及图像I2中h个目标主体之间的关系向量特征。
图像I2中h个目标主体的自有特征包括:
Figure BDA00019554766900000618
这里,位置特征
Figure BDA0001955476690000071
属性特征
Figure BDA0001955476690000072
姿态特征
Figure BDA0001955476690000073
为图像I2中的目标主体1的自有特征,位置特征
Figure BDA0001955476690000074
属性特征
Figure BDA0001955476690000075
姿态特征
Figure BDA0001955476690000076
为图像I2中的目标主体2的自有特征,…,位置特征
Figure BDA0001955476690000077
属性特征
Figure BDA0001955476690000078
姿态特征
Figure BDA0001955476690000079
为图像I2中的目标主体h的自有特征。
图像I2中h个目标主体之间的关系向量特征包括:
Figure BDA00019554766900000710
这里,
Figure BDA00019554766900000711
为图像I2中的目标主体1和目标主体2之间的关系向量特征,
Figure BDA00019554766900000712
为图像I2中的目标主体1和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000713
为图像I2中的目标主体1和目标主体h之间的关系向量特征,
Figure BDA00019554766900000714
为图像I2中的目标主体2和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000715
为图像I2中的目标主体2和目标主体h之间的关系向量特征…,
Figure BDA00019554766900000716
为图像I2中的目标主体h-1和目标主体h之间的关系向量特征。
……;
从图像It中获取得到的全景语义描述的影响因素:图像It中h个目标主体的自有特征以及图像It中h个目标主体之间的关系向量特征。
图像It中h个目标主体的自有特征包括:
Figure BDA00019554766900000717
这里,位置特征
Figure BDA00019554766900000718
属性特征
Figure BDA00019554766900000719
姿态特征
Figure BDA00019554766900000720
为图像It中的目标主体1的自有特征,位置特征
Figure BDA00019554766900000721
属性特征
Figure BDA00019554766900000722
姿态特征
Figure BDA00019554766900000723
为图像It中的目标主体2的自有特征,…,位置特征
Figure BDA00019554766900000724
属性特征
Figure BDA00019554766900000725
姿态特征
Figure BDA00019554766900000726
为图像It中的目标主体h的自有特征。
图像It中h个目标主体之间的关系向量特征包括:
Figure BDA00019554766900000727
这里,
Figure BDA00019554766900000728
为图像It中的目标主体1和目标主体2之间的关系向量特征,
Figure BDA00019554766900000729
为图像It中的目标主体1和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000730
为图像It中的目标主体1和目标主体h之间的关系向量特征,
Figure BDA00019554766900000731
为图像It中的目标主体2和目标主体3之间的关系向量特征,…,
Figure BDA00019554766900000732
为图像It中的目标主体2和目标主体h之间的关系向量特征…,
Figure BDA00019554766900000733
为图像It中的目标主体h-1和目标主体h之间的关系向量特征。
应理解,上述全景语义描述的影响因素的示例仅仅用于进行举例,在实际应用中,全景语义描述的影响因素还可以包括其他的影响因素,此处不作具体限定。
在本申请具体的实施例中,图像I1,I2,…,It中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以分别根据图像I1,I2,…,It的特征向量V1,V2,…,Vt计算得到。也就是说,图像I1中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I1的特征向量V1计算得到,图像I2中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征V2可以根据图像I2的特征向量计算得到,…,图像It中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像It的特征向量Vt计算得到。
如图4所示,图像I1,I2,…,It的特征向量V1,V2,…,Vt可以是这样得到的。以图像Ii为例,图像Ii的特征向量Vi可以是将图像Ii输入至特征向量提取单元中得到的。其中,i为自然数,并且,1≤i≤t。特征向量提取单元可以依次包括:输入层、卷积计算层、池化层以及全连接层。
输入层:
假设输入层的输入为图像Ii,输出和输入相等,即,不对输入进行任何处理。为了陈述简便,此处假设输入层不作任何处理,但是,在实际应用中,可以对输入层进行归一化等等处理,此处不作具体限定。
卷积计算层:
将输入层输出的图像Ii作为卷积计算层的输入,经过n个卷积核Kl(l=1,2,…,n)的卷积生成n个特征图像al(l=1,2,…,n),其中,每个特征图像al的生成过程具体如下:
Cl=conv2(I,Kl,'valid',)+bl
ul=Cl
al=f(ul)
其中,conv表示为使用卷积核Kl对图像I进行卷积运算、valid表示为padding的方式,bl表示为偏置值,ul表示为卷积计算的结果,f()表示为激活函数,本发明采用relu函数。
池化层:
将卷积计算层输出的n个特征图像al作为池化层的输入,经过池化窗口进行池化之后,生成n个池化图像bl(l=1,2,…,n),其中,每个池化图像bl的生成过程具体如下:
bl=maxPool(al)
其中,maxPool表示为均值池化。
全连接层:
将n个池化图像bl(l=1,2,…,n)顺序展开成向量,并有序连接成一个长向量,作为全连接层网络的输入,全连接层的输出即为图像Ii的特征向量Vi
上述特征向量提取单元的各个参数中,卷积核Kl(包括元素、大小、步长等等)、偏置值bl、f()以及βl可以是人为根据需要提取的特征(位置特征、属性特征、姿态特征以及关系向量特征)、图像Ii的大小等等设置的。以卷积核Kl为例,当需要提取的特征为位置特征时,卷积核Kl的元素可以采用sobel算子的元素,又例如,当图像Ii比较大时,卷积核Kl的大小也可以比较大,反之,当图像Ii比较小时,卷积核Kl的大小也可以比较小,又例如,当图像Ii比较大时,卷积核Kl的步长也可以比较大,反之,当图像Ii比较小时,卷积核Kl的步长也可以比较小。
应理解,上述特征向量提取单元仅仅作为一种举例,在实际应用中,特征向量提取单元还可以是其他的形式,例如,可以包括更多的卷积计算层、更多的池化层,可以对图像Ii进行填充等等,此处不作具体限定。
为了简便起见,上面只陈述了图像Ii的特征向量Vi的提取,实际上,图像I1,I2,…,It各自的特征向量V1,V2,…,Vt的提取方式均与图像Ii的特征向量Vi的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的位置特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的位置特征
Figure BDA0001955476690000091
Figure BDA0001955476690000092
可以通过将特征向量Vi输入位置特征提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。特征提取单元可以表示为:
y1=g1(x1);
这里,x1可以是图像Ii的特征向量Vi,y1可以是图像Ii中h个目标主体的位置特征
Figure BDA0001955476690000093
Figure BDA0001955476690000094
g1()为特征向量Vi与位置特征
Figure BDA0001955476690000095
之间的映射关系,其中,g1()可以通过大量的已知图像以及已知目标主体的位置特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的位置特征
Figure BDA0001955476690000096
的提取,实际上,图像I1,I2,…,It各自的h个目标主体的位置特征
Figure BDA0001955476690000097
Figure BDA0001955476690000098
的提取方式均与图像Ii的h个目标主体的位置特征
Figure BDA0001955476690000099
的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的属性特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的属性特征
Figure BDA00019554766900000910
Figure BDA00019554766900000911
可以通过将特征向量Vi输入位置属性提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。属性提取单元可以表示为:
y2=g2(x1);
这里,x1可以是图像Ii的特征向量Vi,y2可以是图像Ii中h个目标主体的属性特征
Figure BDA00019554766900000912
Figure BDA00019554766900000913
g2()为特征向量Vi与属性特征
Figure BDA00019554766900000914
之间的映射关系,其中,g2()可以通过大量的已知图像以及已知目标主体的属性特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的属性特征
Figure BDA00019554766900000915
的提取,实际上,图像I1,I2,…,It各自的h个目标主体的属性特征
Figure BDA00019554766900000916
Figure BDA00019554766900000917
的提取方式均与图像Ii的h个目标主体的属性特征
Figure BDA00019554766900000918
的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体的姿态特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体的姿态特征
Figure BDA00019554766900000919
Figure BDA00019554766900000920
可以通过将特征向量Vi输入位置姿态提取单元进行提取得到的。其中,i为自然数,并且,1≤i≤t。姿态提取单元可以表示为:
y3=g3(x1);
这里,x1可以是图像Ii的特征向量Vi,y3可以是图像Ii中h个目标主体的姿态特征
Figure BDA00019554766900000921
Figure BDA00019554766900000922
g3()为特征向量Vi与姿态特征
Figure BDA00019554766900000923
之间的映射关系,其中,g2()可以通过大量的已知图像以及已知目标主体的姿态特征进行训练得到。为了简便起见,上面只陈述了图像Ii中h个目标主体的姿态特征
Figure BDA00019554766900000924
的提取,实际上,图像I1,I2,…,It各自的h个目标主体的姿态特征
Figure BDA0001955476690000101
Figure BDA0001955476690000102
的提取方式均与图像Ii的h个目标主体的姿态特征
Figure BDA0001955476690000103
的提取方式相类似,此处不再展开赘述。
如图4所示,图像I1,I2,…,It中各目标主体之间的关系向量特征可以是这样得到的:以图像Ii为例,假设图像Ii中包括h个目标主体,则图像Ii中h个目标主体之间的关系向量特征包括:
Figure BDA0001955476690000104
其中,关系特征向量
Figure BDA0001955476690000105
可以通过关系向量特征提取单元计算得到,其中,i,a,b为自然数,并且,1≤i≤t,1≤a,b≤h:
关系向量特征提取单元用于根据目标主体a和目标主体b进行感兴趣区域池化(ROI pooling)(region of interest,ROI),从而获得与目标主体a和目标主体b对应的特征向量va,b
关系向量特征提取单元用于根据目标主体a进行ROI pooling,从而获得与目标主体a对应的特征向量va,a
关系向量特征提取单元用于根据以下公式计算得到关系向量特征
Figure BDA0001955476690000106
Figure BDA0001955476690000107
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。wa,b可以通过大量的已知目标主体和已知特征向量进行训练得到。
为了简便起见,上面只陈述了图像Ii中h个目标主体之间的关系向量特征
Figure BDA0001955476690000108
Figure BDA0001955476690000109
的提取,实际上,图像I1,I2,…,It各自的h个目标主体之间的关系向量特征
Figure BDA00019554766900001010
Figure BDA00019554766900001011
的提取方式均与图像Ii的h个目标主体的姿态特征
Figure BDA00019554766900001012
的提取方式相类似,此处不再展开赘述。
上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(Convolutional Neural Networks,CNN)实现的,也可以集成在同一个卷积神经网络中实现的,此处不作具体限定。其中,卷积神经网络可以包括VGGNet、ResNet、FPNet等等,此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络中完成时,特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中不同层分别实现的。
在本申请具体的实施例中,全景语义描述的影响因素(图像I1,I2,…,It中各目标主体的位置特征、图像I1,I2,…,It中各目标主体的属性特征、图像I1,I2,…,It中各目标主体的姿态特征以及图像I1,I2,…,It中各目标主体的之间的关系向量特征)对全景语义描述存在这样的影响:图像I1,I2,…,It中各目标主体的位置特征可以提供关于各个目标主体之间的位置的第一语义描述,图像I1,I2,…,It中各目标主体的属性特征结合上述第一语义描述,可以得到结合各个目标主体的属性的第二语义描述,之后,图像I1,I2,…,It的各目标主体的姿态特征结合上述第二语义描述可以得到第三语义描述;最后,图像I1,I2,…,It的各目标主体之间的关系向量特征结合第三语义描述,可以得到全景语义描述。
以图3所示的例子为例,全景语义描述的影响因素对全景语义描述的影响可以如下所述:首先,通过图3中的图像I1,I2,…,It的男子、女子以及车辆三者的位置特征,可以得到“物体A和物体B在物体C的左侧”的第一语义描述;然后,通过图3中的图像I1,I2,…,It的男子、女子和车辆三者的属性特征结合第一语义描述,可以得到“女子和汽车在男子左侧”的第二语义描述,之后,通过图3中图像I1,I2,…,It的男子、女子和车辆三者的姿态特征结合第二语义描述,可以得到第三语义描述,最后,通过图3中图像I1,I2,…,It的关系向量特征结合第三语义描述,可以得到“右边的男子看到左边的女子被汽车撞倒”的全景语义描述。
应理解,上述图3所示的例子仅仅作为一种具体的示例,在其他的实施例子,还可以对其他的图像进行全景语义描述,此处不作具体限定,
在本申请具体的实施例中,全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。在一具体的实施例中,全景语义模型可以如图5所示,
将图像I1,I2,…,It中的h个目标主体的位置特征
Figure BDA0001955476690000111
Figure BDA0001955476690000112
输入时序特征提取单元1,从而得到第一语义描述;
将图像I1,I2,…,It中的h个目标主体的属性特征
Figure BDA0001955476690000113
Figure BDA0001955476690000114
结合第一语义描述输入时序特征提取单元2,从而得到第二语义描述;
将图像I1,I2,…,It中的h个目标主体的姿态特征
Figure BDA0001955476690000115
Figure BDA0001955476690000116
结合第二语义描述输入时序特征提取单元3,从而得到第三语义描述;
将图像I1,I2,…,It中的h个目标主体的关系向量特征
Figure BDA0001955476690000117
Figure BDA0001955476690000118
结合第三语义描述输入时序特征提取单元4,从而得到全景语义描述。
可以理解,第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN)实现的,也可以是同一个循环神经网络实现的,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLong short-termmemory,BiLSTM)等等,此处不作具体限定。当第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取在同一个循环神经网络中实现时,可以分别是循环神经网络中的不同层分别实现的。
以时序特征提取单元1至4均为LSTM为例,在一具体的实施例中,全景语义模型可以如图6所示:
以下为第一时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
首先,根据图像I1中的h个目标主体的位置特征
Figure BDA0001955476690000119
以及初始输出值h10计算得到遗忘值f10
Figure BDA0001955476690000121
其中,σ()为sigmoid函数,
Figure BDA0001955476690000122
为偏置值,
Figure BDA0001955476690000123
为权值矩阵。
然后,根据图像I1中的h个目标主体的位置特征
Figure BDA0001955476690000124
初始输入值C10,初始输出值h10以及遗忘值f10计算得到输入值C11
Figure BDA0001955476690000125
Figure BDA0001955476690000126
Figure BDA0001955476690000127
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000128
均为权值矩阵,
Figure BDA0001955476690000129
均为偏置值。
最后,根据图像I1中的h个目标主体的位置特征
Figure BDA00019554766900001210
初始输出值h10以及输入值C11
Figure BDA00019554766900001211
h11=o10tanh(C11)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001212
均为权值矩阵,
Figure BDA00019554766900001213
均为偏置值。
在神经元2中:
首先,根据图像I2中的h个目标主体的位置特征
Figure BDA00019554766900001214
以及输出值h11计算得到遗忘值f11
Figure BDA00019554766900001215
其中,σ()为sigmoid函数,
Figure BDA00019554766900001216
为偏置值,
Figure BDA00019554766900001217
为权值矩阵。
然后,根据图像I2中的h个目标主体的位置特征
Figure BDA00019554766900001218
输入值C11,输出值h11以及遗忘值f11计算得到输入值C12
Figure BDA00019554766900001219
Figure BDA00019554766900001220
Figure BDA00019554766900001221
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001222
均为权值矩阵,
Figure BDA00019554766900001223
均为偏置值。
最后,根据图像I2中的h个目标主体的位置特征
Figure BDA00019554766900001224
输出值h11以及输入值C12
Figure BDA00019554766900001225
h12=o11tanh(C12)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001226
均为权值矩阵,
Figure BDA00019554766900001227
均为偏置值。
……;
在神经元t中:
首先,根据图像It中的h个目标主体的位置特征
Figure BDA00019554766900001228
以及输出值h1t-1计算得到遗忘值f1t-1
Figure BDA00019554766900001232
其中,σ()为sigmoid函数,
Figure BDA00019554766900001230
为偏置值,
Figure BDA00019554766900001231
为权值矩阵。
然后,根据图像It中的h个目标主体的位置特征
Figure BDA0001955476690000131
输入值C1t-1,输出值h1t-1以及遗忘值f1t-1计算得到输入值C1t
Figure BDA0001955476690000132
Figure BDA0001955476690000133
Figure BDA0001955476690000134
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000135
均为权值矩阵,
Figure BDA0001955476690000136
均为偏置值。
最后,根据图像It中的h个目标主体的位置特征
Figure BDA0001955476690000137
输出值h1t-1以及输入值C1t
Figure BDA0001955476690000138
h1t=o1t-1tanh(C1t)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000139
均为权值矩阵,
Figure BDA00019554766900001310
均为偏置值。
上述h11至h1t即可构成第一语义描述。
可以理解,上述初始输出值h10,初始输出值h10,偏置值
Figure BDA00019554766900001311
Figure BDA00019554766900001312
偏置值
Figure BDA00019554766900001313
Figure BDA00019554766900001314
偏置值
Figure BDA00019554766900001315
Figure BDA00019554766900001316
偏置值
Figure BDA00019554766900001317
Figure BDA00019554766900001318
可以是人工设置的,权值矩阵
Figure BDA00019554766900001319
Figure BDA00019554766900001320
权值矩阵
Figure BDA00019554766900001321
Figure BDA00019554766900001322
权值矩阵
Figure BDA00019554766900001323
Figure BDA00019554766900001324
均是通过大量已知第一语义描述与已知目标主体的位置特征进行训练得到的。
以下为第二时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
首先,根据图像I1中的h个目标主体的属性特征
Figure BDA00019554766900001325
以及初始输出值h20计算得到遗忘值f20
Figure BDA00019554766900001326
其中,σ()为sigmoid函数,
Figure BDA00019554766900001327
为偏置值,
Figure BDA00019554766900001328
为权值矩阵。
然后,根据图像I1中的h个目标主体的属性特征
Figure BDA00019554766900001329
初始输入值C20,初始输出值h20以及遗忘值f20计算得到输入值C21
Figure BDA00019554766900001330
Figure BDA00019554766900001331
Figure BDA00019554766900001332
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001333
均为权值矩阵,
Figure BDA00019554766900001334
均为偏置值。
最后,根据图像I1中的h个目标主体的属性特征
Figure BDA00019554766900001335
初始输出值h20以及输入值C21
Figure BDA00019554766900001336
h21=o20tanh(C21)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001337
均为权值矩阵,
Figure BDA00019554766900001338
均为偏置值。
在神经元2中:
首先,根据图像I2中的h个目标主体的属性特征
Figure BDA00019554766900001339
以及输出值h21计算得到遗忘值f21
Figure BDA0001955476690000141
其中,σ()为sigmoid函数,
Figure BDA0001955476690000142
为偏置值,
Figure BDA0001955476690000143
为权值矩阵。
然后,根据图像I2中的h个目标主体的属性特征
Figure BDA0001955476690000144
输入值C21,输出值h21以及遗忘值f21计算得到输入值C22
Figure BDA0001955476690000145
Figure BDA0001955476690000146
Figure BDA0001955476690000147
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000148
均为权值矩阵,
Figure BDA0001955476690000149
均为偏置值。
最后,根据图像I2中的h个目标主体的属性特征
Figure BDA00019554766900001410
输出值h21以及输入值C22
Figure BDA00019554766900001411
h12=o11tanh(C12)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001412
均为权值矩阵,
Figure BDA00019554766900001413
均为偏置值。
……;
在神经元t中:
首先,根据图像It中的h个目标主体的位置特征
Figure BDA00019554766900001414
以及输出值h2t-1计算得到遗忘值f2t-1
Figure BDA00019554766900001415
其中,σ()为sigmoid函数,
Figure BDA00019554766900001416
为偏置值,
Figure BDA00019554766900001417
为权值矩阵。
然后,根据图像It中的h个目标主体的位置特征
Figure BDA00019554766900001418
输入值C2t-1,输出值h2t-1以及遗忘值f2t-1计算得到输入值C2t
Figure BDA00019554766900001419
Figure BDA00019554766900001420
Figure BDA00019554766900001421
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001422
均为权值矩阵,
Figure BDA00019554766900001423
均为偏置值。
最后,根据图像It中的h个目标主体的位置特征
Figure BDA00019554766900001424
输出值h2t-1以及输入值C2t
Figure BDA00019554766900001425
h2t=o2t-1tanh(C2t)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001426
均为权值矩阵,
Figure BDA00019554766900001427
均为偏置值。
上述h21至h2t即可构成第二语义描述。
可以理解,上述初始输出值h20,初始输出值h20,偏置值
Figure BDA00019554766900001428
Figure BDA00019554766900001429
偏置值
Figure BDA00019554766900001430
Figure BDA00019554766900001431
偏置值
Figure BDA00019554766900001432
Figure BDA00019554766900001433
偏置值
Figure BDA00019554766900001434
Figure BDA00019554766900001435
可以是人工设置的,权值矩阵
Figure BDA00019554766900001436
Figure BDA00019554766900001437
权值矩阵
Figure BDA00019554766900001438
Figure BDA00019554766900001439
权值矩阵
Figure BDA00019554766900001440
Figure BDA00019554766900001441
均是通过大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征进行训练得到的。
以下为第三时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
首先,根据图像I1中的h个目标主体的姿态特征
Figure BDA0001955476690000151
以及初始输出值h30计算得到遗忘值f30
Figure BDA0001955476690000152
其中,σ()为sigmoid函数,
Figure BDA0001955476690000153
为偏置值,
Figure BDA0001955476690000154
为权值矩阵。
然后,根据图像I1中的h个目标主体的姿态特征
Figure BDA0001955476690000155
初始输入值C30,初始输出值h30以及遗忘值f30计算得到输入值C31
Figure BDA0001955476690000156
Figure BDA0001955476690000157
Figure BDA0001955476690000158
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000159
均为权值矩阵,
Figure BDA00019554766900001510
均为偏置值。
最后,根据图像I1中的h个目标主体的姿态特征
Figure BDA00019554766900001511
初始输出值h30以及输入值C31
Figure BDA00019554766900001512
h31=o30tanh(C31)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001513
均为权值矩阵,
Figure BDA00019554766900001514
均为偏置值。
在神经元2中:
首先,根据图像I2中的h个目标主体的姿态特征
Figure BDA00019554766900001515
以及输出值h31计算得到遗忘值f31
Figure BDA00019554766900001516
其中,σ()为sigmoid函数,
Figure BDA00019554766900001517
为偏置值,
Figure BDA00019554766900001518
为权值矩阵。
然后,根据图像I2中的h个目标主体的姿态特征
Figure BDA00019554766900001519
输入值C31,输出值h31以及遗忘值f31计算得到输入值C32
Figure BDA00019554766900001520
Figure BDA00019554766900001521
Figure BDA00019554766900001522
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001523
均为权值矩阵,
Figure BDA00019554766900001524
均为偏置值。
最后,根据图像I2中的h个目标主体的姿态特征
Figure BDA00019554766900001525
输出值h31以及输入值C32
Figure BDA00019554766900001526
h32=o31tanh(C32)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001527
均为权值矩阵,
Figure BDA00019554766900001528
均为偏置值。
……;
在神经元t中:
首先,根据图像It中的h个目标主体的姿态特征
Figure BDA0001955476690000161
以及输出值h3t-1计算得到遗忘值f3t-1
Figure BDA0001955476690000162
其中,σ()为sigmoid函数,
Figure BDA0001955476690000163
为偏置值,
Figure BDA0001955476690000164
为权值矩阵。
然后,根据图像It中的h个目标主体的姿态特征
Figure BDA0001955476690000165
输入值C3t-1,输出值h3t-1以及遗忘值f3t-1计算得到输入值C3t
Figure BDA0001955476690000166
Figure BDA0001955476690000167
Figure BDA0001955476690000168
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000169
均为权值矩阵,
Figure BDA00019554766900001610
均为偏置值。
最后,根据图像It中的h个目标主体的姿态特征
Figure BDA00019554766900001611
输出值h3t-1以及输入值C3t
Figure BDA00019554766900001612
h3t=o3t-1tanh(C3t)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001613
均为权值矩阵,
Figure BDA00019554766900001614
均为偏置值。
上述h31至h3t即可构成第三语义描述。
可以理解,上述初始输出值h30,初始输出值h30,偏置值
Figure BDA00019554766900001615
Figure BDA00019554766900001616
偏置值
Figure BDA00019554766900001617
Figure BDA00019554766900001618
偏置值
Figure BDA00019554766900001619
Figure BDA00019554766900001620
偏置值
Figure BDA00019554766900001621
Figure BDA00019554766900001622
可以是人工设置的,权值矩阵
Figure BDA00019554766900001623
Figure BDA00019554766900001624
权值矩阵
Figure BDA00019554766900001625
Figure BDA00019554766900001626
权值矩阵
Figure BDA00019554766900001627
Figure BDA00019554766900001628
均是通过大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征进行训练得到的。
以下为第四时序特征提取单元中的神经元1,神经元2至神经元t中的计算过程:
在神经元1中:
首先,根据图像I1中的h个目标主体的之间的关系向量特征
Figure BDA00019554766900001629
以及初始输出值h40计算得到遗忘值f40
Figure BDA00019554766900001630
其中,σ()为sigmoid函数,
Figure BDA00019554766900001631
为偏置值,
Figure BDA00019554766900001632
为权值矩阵。
然后,根据图像I1中的h个目标主体的之间的关系向量特征
Figure BDA00019554766900001633
初始输入值C40,初始输出值h40以及遗忘值f40计算得到输入值C41
Figure BDA00019554766900001634
Figure BDA00019554766900001635
Figure BDA00019554766900001636
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001637
均为权值矩阵,
Figure BDA00019554766900001638
均为偏置值。
最后,根据图像I1中的h个目标主体的之间的关系向量特征
Figure BDA00019554766900001639
初始输出值h40以及输入值C41
Figure BDA00019554766900001640
h41=o40tanh(C41)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001641
均为权值矩阵,
Figure BDA00019554766900001642
均为偏置值。
在神经元2中:
首先,根据图像I2中的h个目标主体之间的关系向量特征
Figure BDA0001955476690000171
以及输出值h41计算得到遗忘值f41
Figure BDA0001955476690000172
其中,σ()为sigmoid函数,
Figure BDA0001955476690000173
为偏置值,
Figure BDA0001955476690000174
为权值矩阵。
然后,根据图像I2中的h个目标主体之间的关系向量特征
Figure BDA0001955476690000175
输入值C41,输出值h41以及遗忘值f41计算得到输入值C42
Figure BDA0001955476690000176
Figure BDA0001955476690000177
Figure BDA0001955476690000178
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA0001955476690000179
均为权值矩阵,
Figure BDA00019554766900001710
均为偏置值。
最后,根据图像I2中的h个目标主体之间的关系向量特征
Figure BDA00019554766900001711
输出值h41以及输入值C42
Figure BDA00019554766900001712
h42=o41tanh(C42)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001713
均为权值矩阵,
Figure BDA00019554766900001714
均为偏置值。
……;
在神经元t中:
首先,根据图像It中的h个目标主体之间的关系向量特征
Figure BDA00019554766900001715
以及输出值h4t-1计算得到遗忘值f4t-1
Figure BDA00019554766900001716
其中,σ()为sigmoid函数,
Figure BDA00019554766900001717
为偏置值,
Figure BDA00019554766900001718
为权值矩阵。
然后,根据图像It中的h个目标主体之间的关系向量特征
Figure BDA00019554766900001719
输入值C4t-1,输出值h4t-1以及遗忘值f4t-1计算得到输入值C4t
Figure BDA00019554766900001720
Figure BDA00019554766900001721
Figure BDA00019554766900001722
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001723
均为权值矩阵,
Figure BDA00019554766900001724
均为偏置值。
最后,根据图像It中的h个目标主体之间的关系向量特征
Figure BDA00019554766900001725
输出值h4t-1以及输入值C4t
Figure BDA00019554766900001726
h4t=o4t-1tanh(C4t)
其中,σ()为sigmoid函数,tanh为激活函数,
Figure BDA00019554766900001727
均为权值矩阵,
Figure BDA00019554766900001728
均为偏置值。
上述h41至h4t即可构成全景语义描述。
可以理解,上述初始输出值h40,初始输出值h40,偏置值
Figure BDA00019554766900001729
Figure BDA00019554766900001730
偏置值
Figure BDA00019554766900001731
Figure BDA00019554766900001732
偏置值
Figure BDA0001955476690000181
Figure BDA0001955476690000182
偏置值
Figure BDA0001955476690000183
Figure BDA0001955476690000184
可以是人工设置的,权值矩阵
Figure BDA0001955476690000185
Figure BDA0001955476690000186
权值矩阵
Figure BDA0001955476690000187
Figure BDA0001955476690000188
权值矩阵
Figure BDA0001955476690000189
Figure BDA00019554766900001810
均是通过大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征进行训练得到的。
如图7所示,图7是本申请提供了一种图像分析方法的流程示意图。本实施方式的图像分析方法,包括如下步骤:
S101:图像分析系统获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数。
在本申请具体的实施例中,位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。
在本申请具体的实施例中,属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。
在本申请具体的实施例中,目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。
在本申请具体的实施例中,关系特征向量为表示两个目标主体之间的之间的关系的向量。
S102:图像分析系统根据所述影响因素获得全景语义描述。
在本申请具体的实施例中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。
在本申请具体的实施例中,所述全景语义描述能够对目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系进行描述。
在本申请具体的实施例中,对所述t帧图像进行特征提取,从而得到t个特征向量;对所述t个特征向量进行位置特征提取,从而得到所述位置特征;对所述t个特征向量进行属性特征提取,从而得到所述属性特征;对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在本申请具体的实施例中,上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(ConvolutionalNeural Networks,CNN),也可以集成在同一个卷积神经网络中,此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络,特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中的一个层。
在本申请具体的实施例中,根据所述位置特征提取第一语义描述;根据所述属性特征以及所述第一语义描述提取第二语义描述;根据所述姿态特征以及所述第二语义提取第三语义描述;根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在本申请具体的实施例中,上述第一语义描述至第三语义以及全景语义描述描述可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN)进行提取,也可以集成在同一个循环神经网络中进行提取,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLongshort-term memory,BiLSTM)等等,此处不作具体限定。当上述第一语义描述至第三语义描述以及全景语义描述集成在同一个循环神经网络中进行提取时,可以分别通过循环神经网络中的不同层进行提取。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
参见图8,图8是本申请中提供的一实施方式的图像分析系统的结构示意图。本申请实施例的图像分析系统包括特征提取模块510以及全景语义描述模块520。其中,特征提取模块510包括:特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征单元515。全景语义描述模块520包括第一时序特征提取单元522、第二时序特征提取单元523、第三时序特征提取单元524以及第四时序特征提取单元525。
所述特征提取510用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义描述模块520用于将所述影响因素输入全景语义模型,从而得到全景语义描述,其中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系,所述全景语义描述能够对目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系进行描述。
在本申请具体的实施例中,位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x,y,w,h),其中,x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标,w为目标主体在图像中的宽度,h为目标主体在图像中的高度。
在本申请具体的实施例中,属性特征可以包括很多种,目标主体不同,属性特征通常也不相同,以目标主体为人类为例,目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。
在本申请具体的实施例中,目标主体的姿态特征同样包括很多种,目标主体不同,姿态特征通常也不相同,以目标主体为人类为例,目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。
在本申请具体的实施例中,关系特征向量为表示两个目标主体之间的之间的关系的向量。
在本申请具体的实施例中,所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为:
y=Panorama(x)
其中,x为全景语义描述的影响因素,y为全景语义描述,Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。
在本申请具体的实施例中,所述特征向量提取单元511用于对所述t帧图像进行特征提取,从而得到t个特征向量;所述位置特征提取单元512用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;所述属性特征提取单元513用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;所述姿态特征提取单元514用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;所述关系向量特征单元515用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
在本申请具体的实施例中,所述特征提取模块510包括卷积神经网络,所述特征向量提取单元511、所述位置特征提取单元512、所述属性特征提取单元513、所述姿态特征提取单元514以及所述关系向量特征提取单元515集成于所述卷积神经网络。上述特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515可以分别是不同的卷积神经网络(Convolutional NeuralNetworks,CNN),也可以集成在同一个卷积神经网络中,此处不作具体限定。其中,卷积神经网络可以包括VGGNet、ResNet、FPNet等等,此处不作具体限定。当特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515集成在同一个卷积神经网络,特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征515可以是卷积神经网络中的一个层。
在本申请具体的实施例中,第一时序特征提取单元522用于根据所述位置特征提取第一语义描述;第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述;第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述;第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
在本申请具体的实施例中,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。上述第一时序特征提取单元至第四时序特征提取单元可以分别是不同的循环神经网络(Recurrent Neural Networks,RNN),也可以集成在同一个循环神经网络中,此处不作具体限定。其中,循环神经网络可以包括长短时记忆模型模型(Long short-term memory,LSTM)、双向长短时记忆模型模型(BiLongshort-term memory,BiLSTM)等等,此处不作具体限定。当第一时序特征提取单元至第四时序特征提取单元集成在同一个循环神经网络,第一时序特征提取单元至第四时序特征提取单元可以分别是循环神经网络中的一个层。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
本申请的图像分析系统可以在计算节点中实现,也可以在云计算基础设施上实现,此处不做具体限定。下面将分别介绍如何在计算节点和云计算基础设施上实现图像分析系统。
如图9所示,计算节点100可以包括包括处理器110以及存储器120。其中,处理器用于运行特征提取模块111以及全景语义模型112。存储器120用于存储语义描述、特征以及图像121等等。计算节点100还提供了两种对外的接口界面,分别是面向语义描述系统的维护人员的管理界面140以及面向用户的用户界面150。其中,接口界面的形态可以是多样的,例如web界面、命令行工具、REST接口等。
在本申请具体的实施例中,管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
在本申请具体的实施例中,用户界面用于供用户输入需要被提取全景语义描述的图像,并且,通过用户界面向用户输出全景语义描述。
应当理解,计算节点100仅为本申请实施例提供的一个例子,并且,计算节点100可具有比示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
如图10所示,云计算基础设施可以是云服务集群200。所述云服务集群200是由节点,以及节点之间的通信网络构成。上述节点可以是计算节点,也可以是运行在计算节点上的虚拟机。节点按功能可分为两类:计算节点210和存储节点220。计算节点210用于运行特征提取模块211以及全景语义模型212。存储节点220用于存储语义描述、特征以及图像等等221。云服务集群200还提供了两种对外的接口界面,分别是面向问答引擎的维护人员的管理界面240以及面向用户的用户界面250。其中,接口界面的形态可以是多样的,例如web界面、命令行工具、REST接口等。
在本申请具体的实施例中,管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
在本申请具体的实施例中,用户界面用于供用户输入需要被提取全景语义描述的图像,并且,通过用户界面向用户输出全景语义描述。
应当理解,云服务集群200仅为本申请实施例提供的一个例子,并且,云服务集群200可具有比示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
参见图11,图11是本申请中提供的另一实施方式的语义描述系统的结构示意图。图8所示的语义描述系统可以在如图9所示的计算节点300中实现。本实施方式的计算节点300包括一个或多个处理器311、通信接口312和存储器313。其中,处理器311、通信接口312和存储器313之间可以通过总线324连接。
处理器311包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit,专用集成电路)等等。处理器311执行各种类型的数字存储指令,例如存储在存储器313中的软件或者固件程序,它能使计算节点300提供较宽的多种服务。例如,处理器311能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。处理器311中可以运行如图8所示的特征提取模块以及全景语义模型。
通信接口312可以为有线接口(例如以太网接口),用于与其他计算节点或用户进行通信。
存储器313可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的组合。存储器313可以存储有程序代码以及程序数据。其中,程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括:大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
其中,所述处理器311通过调用存储器313中的程序代码,用于执行以下步骤:
处理器311用于获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;
处理器311用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
参见图12,图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。本实施方式的语义描述系统可以在如图10所示的云服务集群中实现。云服务集群包括包括至少一个计算节点410以及至少一个存储节点420。
计算节点410包括一个或多个处理器411、通信接口412和存储器413。其中,处理器411、通信接口412和存储器413之间可以通过总线424连接。
处理器411包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit,专用集成电路)等等。它能够是仅用于计算节点410的专用处理器或者能够与其它计算节点410共享。处理器411执行各种类型的数字存储指令,例如存储在存储器413中的软件或者固件程序,它能使计算节点410提供较宽的多种服务。例如,处理器411能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。处理器411中可以运行如图8所示的特征提取模块以及全景语义模型。
通信接口412可以为有线接口(例如以太网接口),用于与其他计算节点或用户进行通信。当通信接口412为有线接口时,通信接口412可以采用TCP/IP之上的协议族,例如,RAAS协议、远程函数调用(Remote Function Call,RFC)协议、简单对象访问协议(SimpleObject Access Protocol,SOAP)协议、简单网络管理协议(Simple Network ManagementProtocol,SNMP)协议、公共对象请求代理体系结构(Common Object Request BrokerArchitecture,CORBA)协议以及分布式协议等等。
存储器413可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的组合。
存储节点420包括一个或多个处理器421、通信接口422和存储器423。其中,处理器421、通信接口422和存储器423之间可以通过总线424连接。
处理器421包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于存储节点420的专用处理器或者能够与其它存储节点420共享。处理器421执行各种类型的数字存储指令,例如存储在存储器223中的软件或者固件程序,它能使存储节点420提供较宽的多种服务。例如,处理器221能够执行程序或者处理数据,以执行本文讨论的方法的至少一部分。
通信接口422可以为有线接口(例如以太网接口),用于与其他计算设备或用户进行通信。
存储节点420包括一个或多个存储控制器421和存储阵列425。其中,存储控制器421和存储阵列425之间可以通过总线426连接。
存储控制器421包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于单个存储节点420的专用处理器或者能够与计算节点40或者其它存储节点420共享。可以理解,在本实施例中,每个存储节点包括一个存储控制器,在其他的实施例中,也可以多个存储节点共享一个存储控制器,此处不作具体限定。
存储器阵列425可以包括多个存储器。存储器可以是非易失性存储器,例如ROM、快闪存储器、HDD或SSD存储器还可以包括上述种类的存储器的组合。例如,存储阵列可以是由多个HDD或者多个SDD组成,或者,存储阵列可以是由HDD以及SDD组成。其中,多个存储器在存储控制器321将的协助下按不同的方式组合起来形成存储器组,从而提供比单个存储器更高的存储性能和提供数据备份技术。可选地,存储器阵列425可以包括一个或者多个数据中心。多个数据中心可以设置在同一个地点,或者,分别在不同的地点,此处不作具体限定。存储器阵列425可以存储有程序代码以及程序数据。其中,程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括:大量用于进行全景语义描述的图像;大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征;大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征;大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征;大量已知第一语义描述与已知目标主体的位置特征,以用于对全景语义模型进行训练。
其中,所述计算节点411通过调用存储节点413中的程序代码,用于执行以下步骤:
计算节点411用于获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数;
计算节点411用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
为了简便陈述,本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述,具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍,具体请参见图4以及相关描述。另外,本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍,具体请参见图5、图6以及相关描述。
上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述,从而更好地体现图像中多个主体和主体之间,主体和动作之间,动作和动作之间的关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

Claims (14)

1.一种图像分析方法,其特征在于,包括:
获取t帧图像的影响因素,其中,所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,每个目标主体的自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征表示对应的目标主体在所述图像中的位置,所述属性特征表示对应的目标主体的属性,所述姿态特征表示对应的目标主体的动作,所述关系向量特征表示目标主体和目标主体之间的关系;
根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
2.根据权利要求1所述的方法,其特征在于,所述获取t帧图像的全景语义描述的影响因素包括:
对所述t帧图像进行特征提取,从而得到t个特征向量;
对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
3.根据权利要求2所述的方法,其特征在于,采用同一个卷积神经网络执行对所述位置特征的提取,所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述t个特征向量进行关系向量特征提取,从而得到关系向量特征包括:
根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h,所述特征向量i根据所述图像i提取;
根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a
根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
Figure FDA0001955476680000011
Figure FDA0001955476680000012
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述根据所述影响因素获得全景语义描述包括:
根据所述位置特征提取第一语义描述;
根据所述属性特征以及所述第一语义描述提取第二语义描述;
根据所述姿态特征以及所述第二语义提取第三语义描述;
根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
6.根据权利要求5所述的方法,其特征在于,
采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
7.一种图像分析系统,其特征在于,包括特征提取模块以及全景语义模型,
所述特征提取模块,用于获取全景语义描述的影响因素,其中,所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征,所述自有特征包括位置特征、属性特征以及姿态特征,其中,t,h为大于1的自然数,所述位置特征用于表示对应的目标主体在图像中的位置,所述属性特征用于表示对应的目标主体的属性,所述姿态特征用于表示对应的目标主体的动作,所述关系向量特征用于表示目标主体和目标主体之间的关系;
所述全景语义模型,用于根据所述影响因素获得全景语义描述,所述全景语义描述包括目标主体和目标主体之间,目标主体和动作之间以及动作与动作之间的关系的描述。
8.根据权利要求7所述的系统,其特征在于,所述特征提取模块包括:特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元,
所述特征向量提取单元,用于对所述t帧图像进行特征提取,从而得到t个特征向量;
所述位置特征提取单元,用于对所述t个特征向量进行位置特征提取,从而得到所述位置特征;
所述属性特征提取单元,用于对所述t个特征向量进行属性特征提取,从而得到所述属性特征;
所述姿态特征提取单元,用于对所述t个特征向量进行姿态特征提取,从而得到所述姿态特征;
所述关系向量特征单元模块,用于对所述t个特征向量进行关系向量特征提取,从而得到所述关系向量特征。
9.根据权利要求8所述的系统,其特征在于,所述特征提取模块包括卷积神经网络,所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。
10.根据权利要求8或9所述的系统,其特征在于,
所述关系向量特征提取单元,用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化,从而获得与目标主体a和目标主体b对应的特征向量va,b,i,a和b均为自然数,并且,0<i≤t,1≤a,b≤h;根据目标主体a进行感兴趣区域池化,从而获得与目标主体a对应的特征向量va,a;并根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征
Figure FDA0001955476680000023
Figure FDA0001955476680000022
其中,wa,b=sigmoid(w(va,b,va,a)),sigmoid()为S型的函数,va,b为目标主体a和目标主体b对应的特征向量,va,a为目标主体a对应的特征向量,w()为内积函数。
11.根据权利要求7至10任一权利要求所述的系统,其特征在于,所述全景语义模型包括:第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元,
所述第一时序特征提取单元,用于根据所述位置特征提取第一语义描述;
所述第二时序特征提取单元,用于根据所述属性特征以及所述第一语义描述提取第二语义描述;
所述第三时序特征提取单元,用于根据所述姿态特征以及所述第二语义提取第三语义描述;
所述第四时序特征提取单元,用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
12.根据权利要求11所述的系统,其特征在于,所述全景语义模型包括循环神经网络,所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。
13.一种计算节点集群,其特征在于,包括:至少一个计算节点,每个计算节点包括处理器和存储器,所述处理器执行所述存储器中的代码执行如权利要求1至6任一权利要求所述的方法。
14.一种计算机非瞬态存储介质,其特征在于,包括指令,当所述指令在计算节点集群中的至少一个计算节点上运行时,使得所述计算节点集群执行如权利要求1至6任一权利要求所述的方法。
CN201910065251.0A 2019-01-23 2019-01-23 图像分析方法以及系统 Pending CN111476838A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910065251.0A CN111476838A (zh) 2019-01-23 2019-01-23 图像分析方法以及系统
EP19911852.2A EP3893197A4 (en) 2019-01-23 2019-09-21 IMAGE ANALYSIS METHOD AND SYSTEM
PCT/CN2019/107126 WO2020151247A1 (zh) 2019-01-23 2019-09-21 图像分析方法以及系统
US17/365,089 US12100209B2 (en) 2019-01-23 2021-07-01 Image analysis method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910065251.0A CN111476838A (zh) 2019-01-23 2019-01-23 图像分析方法以及系统

Publications (1)

Publication Number Publication Date
CN111476838A true CN111476838A (zh) 2020-07-31

Family

ID=71735877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910065251.0A Pending CN111476838A (zh) 2019-01-23 2019-01-23 图像分析方法以及系统

Country Status (4)

Country Link
US (1) US12100209B2 (zh)
EP (1) EP3893197A4 (zh)
CN (1) CN111476838A (zh)
WO (1) WO2020151247A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12045955B2 (en) * 2020-09-02 2024-07-23 Google Llc Condition-aware generation of panoramic imagery
CN114764897B (zh) * 2022-03-29 2024-09-03 深圳市移卡科技有限公司 行为识别方法、装置、终端设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966052A (zh) * 2015-06-09 2015-10-07 南京邮电大学 基于属性特征表示的群体行为识别方法
CN106169065A (zh) * 2016-06-30 2016-11-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN106446782A (zh) * 2016-08-29 2017-02-22 北京小米移动软件有限公司 图像识别方法及装置
CN106973244A (zh) * 2016-01-13 2017-07-21 奥多比公司 使用弱监督为图像配字幕
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN108304846A (zh) * 2017-09-11 2018-07-20 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2522589T3 (es) * 2007-02-08 2014-11-17 Behavioral Recognition Systems, Inc. Sistema de reconocimiento conductual
CN102880692B (zh) * 2012-09-19 2016-05-04 上海交通大学 一种面向检索的监控视频语义描述和检测建模方法
CN103345764B (zh) 2013-07-12 2016-02-10 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN104244086A (zh) 2014-09-03 2014-12-24 陈飞 基于实时对话语义分析的视频实时拼接装置及其方法
US9710729B2 (en) * 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
CN105678250B (zh) * 2015-12-31 2019-10-11 北京迈格威科技有限公司 视频中的人脸识别方法和装置
US10609284B2 (en) * 2016-10-22 2020-03-31 Microsoft Technology Licensing, Llc Controlling generation of hyperlapse from wide-angled, panoramic videos
CN106650617A (zh) * 2016-11-10 2017-05-10 江苏新通达电子科技股份有限公司 一种基于概率潜在语义分析的行人异常识别方法
US11580745B2 (en) * 2017-08-17 2023-02-14 National University Of Singapore Video visual relation detection methods and systems
CN108197589B (zh) * 2018-01-19 2019-05-31 北京儒博科技有限公司 动态人体姿态的语义理解方法、装置、设备和存储介质
CN108416776B (zh) * 2018-03-16 2021-04-30 京东方科技集团股份有限公司 图像识别方法、图像识别装置、计算机产品和可读存储介质
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108510012B (zh) * 2018-05-04 2022-04-01 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108960330B (zh) * 2018-07-09 2021-09-10 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
US10929655B2 (en) * 2018-07-13 2021-02-23 Futurewei Technologies, Inc. Portrait image evaluation based on aesthetics

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966052A (zh) * 2015-06-09 2015-10-07 南京邮电大学 基于属性特征表示的群体行为识别方法
CN106973244A (zh) * 2016-01-13 2017-07-21 奥多比公司 使用弱监督为图像配字幕
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
CN106169065A (zh) * 2016-06-30 2016-11-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN106446782A (zh) * 2016-08-29 2017-02-22 北京小米移动软件有限公司 图像识别方法及装置
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN108304846A (zh) * 2017-09-11 2018-07-20 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质

Also Published As

Publication number Publication date
US20210326634A1 (en) 2021-10-21
EP3893197A4 (en) 2022-02-23
US12100209B2 (en) 2024-09-24
WO2020151247A1 (zh) 2020-07-30
EP3893197A1 (en) 2021-10-13

Similar Documents

Publication Publication Date Title
US10733431B2 (en) Systems and methods for optimizing pose estimation
US10796452B2 (en) Optimizations for structure mapping and up-sampling
US20210183022A1 (en) Image inpainting method and apparatus, computer device, and storage medium
US20210319258A1 (en) Method and apparatus for training classification task model, device, and storage medium
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
US12062158B2 (en) Image denoising method and apparatus
CN111670457B (zh) 动态对象实例检测、分割和结构映射的优化
CN111667399B (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
WO2020107847A1 (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
WO2019184657A1 (zh) 图像识别方法、装置、电子设备及存储介质
CN111684490A (zh) 动态对象实例检测、分割和结构映射的优化
CN111402130A (zh) 数据处理方法和数据处理装置
WO2022134971A1 (zh) 一种降噪模型的训练方法及相关装置
WO2022001372A1 (zh) 训练神经网络的方法、图像处理方法及装置
CN111222046B (zh) 服务配置方法、用于服务配置的客户端、设备及电子设备
CN111433812A (zh) 动态对象实例检测、分割和结构映射的优化
WO2021103731A1 (zh) 一种语义分割方法、模型训练方法及装置
US12100209B2 (en) Image analysis method and system
WO2022111387A1 (zh) 一种数据处理方法及相关装置
WO2022052782A1 (zh) 图像的处理方法及相关设备
WO2024199404A1 (zh) 一种消费预测方法及其相关设备
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
WO2024067113A1 (zh) 一种动作预测方法及其相关设备
WO2023185541A1 (zh) 一种模型训练方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220209

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Applicant after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200731