CN111344739B - 时空动作与角色定位 - Google Patents
时空动作与角色定位 Download PDFInfo
- Publication number
- CN111344739B CN111344739B CN201880073311.7A CN201880073311A CN111344739B CN 111344739 B CN111344739 B CN 111344739B CN 201880073311 A CN201880073311 A CN 201880073311A CN 111344739 B CN111344739 B CN 111344739B
- Authority
- CN
- China
- Prior art keywords
- sequence
- frame
- visual representation
- frames
- filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims description 73
- 230000004044 response Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 76
- 230000004807 localization Effects 0.000 description 43
- 238000013528 artificial neural network Methods 0.000 description 40
- 230000011218 segmentation Effects 0.000 description 39
- 238000012545 processing Methods 0.000 description 34
- 210000002569 neuron Anatomy 0.000 description 26
- 230000000875 corresponding effect Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 25
- 238000013527 convolutional neural network Methods 0.000 description 24
- 230000033001 locomotion Effects 0.000 description 19
- 238000012549 training Methods 0.000 description 15
- 241000282414 Homo sapiens Species 0.000 description 13
- 241000282472 Canis lupus familiaris Species 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000023886 lateral inhibition Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000005022 packaging material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000287531 Psittacidae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
一种在一序列帧中像素级定位角色和动作的方法,包括接收描述该动作和该角色的自然语言查询。该方法还包括接收该序列帧。该方法还包括基于自然语言查询在该序列帧中定位该动作和该角色。
Description
相关申请的交叉引用
本申请要求于2018年11月13日提交的标题为“时空动作与角色定位”的美国专利申请No.16/189,974的权益,该专利申请要求于2017年11月14日提交的标题为“时空动作与角色定位”的美国临时专利申请No.62/586,071的权益,以上申请所公开的全部内容通过引用的方式明确地并入本文。
技术领域
本公开的方面总体上涉及角色和动作的定位,更具体地,涉及基于自然语言查询的用于在一序列帧中定位角色和动作的系统和方法。
背景技术
可以包括互连的一组人工神经元(例如神经元模型)的人工神经网络是一种计算设备,或者表示一种由计算设备执行的方法。人工神经网络(ANN)可以在一序列帧(诸如视频)上追踪目标。例如,目标追踪器可以在序列的初始帧处观察到目标的情况下,预测目标在视频序列上的位置。目标追踪(例如,对象追踪)可以用于互联网协议(IP)摄像机、物联网(IoT)、自主驾驶和/或服务机器人的各种应用中。对象追踪应用可以改善用于规划的目标路径的理解。例如,在自主驾驶期间,动作定位被使用以避免与行人和自行车骑手碰撞。
常规的对象定位系统将对象在单个图像(例如帧)中定位。基于视频的第一帧中的定位,可以追踪通过多个帧的对象。在一些情况下,常规的对象定位系统基于自然语言查询来定位对象。例如,常规的对象定位系统可以接收查询:“穿红衫的女人”。在这个示例中,基于该查询,一个或多个穿红衫的女人在图像内被标识。具体地,常规的对象定位系统可以定位(例如,标识)和分类(例如,标签)该一个或多个穿红衫的女人。基于分类和定位,可以追踪通过后续帧来追踪一个或多个女人。诸如穿红色衬衫的一个或多个女人的被标识的角色(例如,对象),可以通过注释被标识的角色的定位的边界框而被标识。
常规的对象定位系统仅限于在第一帧(例如,单个图像)中定位对象,然后基于在第一帧中的定位来定位通过后续帧的对象。在一些情况下,当在视频帧中存在具有相似外观的两个或更多个对象时,定位可能失败。例如,可能在一帧中存在两个穿红色衬衫的女人。在这个示例中,针对诸如“穿着红色衬衫跑步的女人”的查询,常规的对象定位系统不能从仅单个帧确定是否一个女人在走路,而另一个女人在跑步。因此,在这个示例中,定位可能失败(例如,标识不正确的女人)。
希望的是改善依赖单个图像(例如,帧)的基于查询来定位角色和动作的系统。具体地,希望的是改善对象定位系统以通过区分由对象执行的动作来基于自然语言查询来定位视频中的对象。
公开内容
在本公开的一方面中,公开了一种用于在一序列帧中像素级定位角色和动作的方法。该方法包括接收描述动作和角色的自然语言查询。该方法还包括接收该序列帧。该方法还包括基于自然语言查询来在该序列帧中定位动作和角色。
本公开的另一方面涉及包括用于接收描述动作和角色的自然语言查询的器件的装置。该装置还包括用于接收该序列帧的器件。该装置还包括基于自然语言查询的用于在该序列帧中定位动作和角色的器件。
在本公开的另一方面中,非暂时性计算机可读介质记录了程序代码。程序代码用于在一序列帧中像素级定位角色和动作。该程序代码由处理器执行,并且包括接收描述动作和角色的自然语言查询的程序代码。该程序代码还包括接收该序列帧的程序代码。该程序代码还包括基于自然语言查询的用于在该序列帧中定位动作和角色的程序代码。
本公开的另一方面涉及一种用于在一序列帧中像素级定位角色和动作的装置。该装置具有存储器和耦合到该存储器的一个或多个处理器。(一个或多个)处理器被配置为接收描述动作和角色的自然语言查询。(一个或多个)处理器还被配置为接收概序列帧。(一个或多个)处理器还被配置为基于自然语言查询来定位该序列帧中定位动作和角色。
这相当广泛地概述了本公开的特征和技术优势,以便更好地理解以下详细描述。下面将描述本公开的附加特征和优点。由本领域技术人员应当理解的是,本公开可以容易地用作修改或设计用于实行与本公开相同目的其他结构的基础。由本领域技术人员还应当认识到的是,此类等效结构不背离在所附权利要求中阐述的本公开的教导。当结合附图考虑时,将从以下描述中更好地理解被认为是本公开的特征的新颖特征(包括其组织和操作方法二者),以及额外的目的和优点。然而,应明确理解的是,所提供的附图的每个附图仅用于说明和描述的目的,而不旨在限制本公开的限定。
附图说明
本公开的特征、性质和优点将从下文所阐述的详细描述变得更加明显,当结合附图参照时,在附图中相似的附图标记始终被对应地标识。
图1图示了根据本公开的某些方面的使用包括通用处理器的片上系统(S^C)设计神经网络的示例实现方式。
图2A、图2B和图2C是图示根据本公开的方面的神经网络的图。
图2D是图示根据本公开的方面的示例性深度卷积网络(DCN)的图。
图3是图示根据本公开的方面的深度卷积网络(DCN)的框图。
图4是图示根据本公开的方面的在包括角色和动作定位模块的示例性装置中的不同模块/器件/部件的框图。
图5是图示根据本公开的方面的定位管的示例。
图6A、图6B和图6C图示了角色定位的示例。
图7图示了了根据本公开的方面的分割角色和动作的示例。
图8图示了根据本公开的方面的图示角色和动作定位模型的示例。
图9图示了根据本公开的方面的用于基于自然语言查询的在一序列帧中像素级定位角色和动作的方法的流程图。
具体实施方式
下文结合附图阐述的详细描述旨在描述各种配置,而不是旨在表示本文所描述的概念的仅可以在这些配置中被实践。详细描述包括具体细节,目的是提供对各种概念的透彻理解。然而,对于本领域技术人员而言显而易见的是,这些概念可以在不具有这些具体细节的情况下被实践。在一些实例中,众所周知的结构和部件在框图的形式中示出以避免混淆这些概念。
基于所述教导,本领域技术人员应当理解的是,本公开的范围旨在涵盖无论是独立于本公开的任何其他方面实现的还是与本公开的任何其他方面结合的本公开的任何方面。例如,可以使用所阐述的任何数目的方面来实现设备或实践方法。此外,本公开的范围旨在涵盖除了所阐述的公开的各个方面之外的使用其他结构、功能或结构和功能来实践的装置或方法。应当理解的是,本公开所公开的任何方面可以由权利要求的一个或多个元件实施。
本文使用的词语“示例性”意味着“作为示例、实例或说明”。本文描述为“示例性”的任何方面不一定被解释为优选的或优于其他方面。
尽管本文描述了特定方面,但是这些方面的许多变化和排列落在本公开的范围内。尽管提及了优选方面的一些益处和优点,但本公开的范围并不旨在限制于特定的益处、使用或目标。而是,本公开的方面旨在被广泛地适用于不同的技术、系统配置、网络和协议,其中一些在附图和以下对优选方面的描述的中由示例的方式示出。详细描述和附图仅仅是对本公开的说明,而不是限制由所附权利要求及其等效物限定的本公开的范围。
本公开的各个方面涉及响应于自然语言查询(诸如,“穿着白衬衫和狗一起跑的人”(见图7))分割在一序列帧(例如视频)中执行动作的视觉对象。在一种配置中,角色和动作定位结合视觉信息和语言信息二者来执行像素级的分割。在这种配置中,动态过滤器是基于自然语言查询生成的。动态过滤器可以与序列帧的每帧卷积以执行像素级分割。可以基于像素级的分割来定位动作和角色。执行动作的对象(诸如跳跃的人、飞行的鸟或移动的汽车),可以被称为角色。
与在常规的对象定位系统中执行的对角色和动作的独立分割相反,联合角色和动作推测改善了对象定位系统。亦即,常规的对象定位系统从一组固定的预定义角色-动作对执行分割。常规的对象定位系统也仅限于用边界框标识角色。与利用边界框为角色添加注释相比,像素级的分割提供了更精细的粒度。
亦即,本公开的方面不是用边界框来注释对象周围的区域,而是标识与感兴趣对象(例如,角色)相关联的像素。角色和角色的动作的像素级的分割改善了对在定位管内的角色的动作的理解(见图5)。改善的理解改善了在序列帧内的角色的时空定位。定位是指在每帧内标识角色的位置。
常规的对象定位系统(例如,常规的视觉和语言系统)执行诸如对象检索、人员搜索和对象追踪等任务。针对基于语句的对象分割,常规的对象定位系统使用长短期记忆(LSTM)网络将输入的语句编码到矢量表示中。常规的对象定位系统也可以使用完全卷积网络从图像提取空间特征图,并输出针对目标对象的上采样的响应图。响应图是通过将图像的视觉表示与过滤器卷积生成的。视觉表示可以是下采样的。因此,响应图可以被上采样到图像的尺寸。
针对从语句的对象追踪,一些常规的对象定位系统从语句中标识目标,并在整个视频中追踪被标识的目标对象。可以在不指定边界框的情况下标识目标。在这些常规的对象定位系统中,卷积层基于输入的语句动态地适配视觉过滤器器。亦即,文本嵌入的卷积是在匹配之前生成的。
针对来自语句的像素级的分割,本公开的方面使用端-到-端可训练的解决方案,该解决方案将文本和图像嵌入到联合模型中。与常规的对象定位系统相反,本公开的方面使用完全卷积像素级模型(例如,编码器-解码器-神经架构)而不是LSTM网络。完全卷积模型可以使用动态过滤器。在一种配置中,模型将在视频中的角色和角色的动作分割。亦即,可以响应于自然语言查询(例如,语句)来分割角色和对应的动作。为了改善训练,可以扩展已知的数据集以包括描述在视频中的角色和动作的文本语句。
为了在视频中执行角色和动作分割,常规的对象定位系统使用包括固定词汇表的角色-动作数据集(A2D)(诸如具有多个角色-动作对的固定词汇表)。常规的对象定位系统建立了多层条件随机场模型,并从角色-动作乘积空间对来自视频的每个超体素分配标签。超体素是指比常规体素大的图像区域。例如,一个体素可以是一个像素,而一个超体素可以是多个像素。一些常规的对象定位系统使用分组处理以将长距离的交互作用添加给条件随机场。例如,多任务排序模型可以与超体素特征一起使用,以仅使用视频级标记作为训练样本来执行弱监督的角色-动作分割。作为另一示例,多任务网络架构联合地训练用于视频的角色和动作检测器,而不是依赖于超体素。在前述常规的对象定位系统中,边界框检测可以通过使用分割方案而被扩展到像素级的分割。
常规的对象定位系统被限制为来自预定的一组固定标签对的在角色和动作之间交互的模型。相反,本公开的方面使用不由标签对限制的开放标签集来建模联合角色和动作空间。本公开的模型可以区分在相同的超-类别中的细粒度角色。例如,鸟可以是一个超-类别,而细粒度角色可以是特定类型的鸟(诸如鹦鹉或鸭子)。在词汇表之外的对也可以被分割。此外,像素级模型可以使用端-到-端可训练的编码器-解码器神经架构,而不是针对视频生成中间超体素或分割提议。
常规的对象定位系统可以基于语句从图像或视频中定位人类。在一些常规的对象定位系统中,人员描述数据集与语句注释和来自现有的人员再标识数据集的人员样本一起被使用。常规的对象定位系统的神经网络可以捕捉词语-图像关系,并且估测在语句和人员的图像之间的亲和力。神经网络还可以在视频中执行时空人员搜索。最后,神经网络可以用人员的描述来补充来自数据集(诸如ActivityNet数据集)的大量视频片段。
在一种配置中,现有的数据集(诸如A2D和联合-注释的人体运动数据库(J-HMDB))被语句描述所补充。尽管如此,语句描述还是被用于补充角色和动作的分割。当常规的对象定位系统使用描述人类角色的语句在视频中进行动作定位时,本公开的方面被概括为由任何角色执行的动作。此外,与将定位简化为围绕感兴趣的人类动作的边界框的常规对象定位系统相反,本公开的方面输出在视频中的角色和动作二者的像素级的分割。像素级的分割标识对应于角色和动作二者的像素,而不是在对应于角色和动作的区域周围放置框。
一些常规的对象定位系统生成一组动作管提议,利用对象分类器响应将每个动作管提议编码,并计算在动作提议中的高分对象类别与动作查询之间的相似度。一些常规的对象定位系统只使用对象检测器而不依赖于动作提议和对象分类器,实现了对人类角色与对象之间时空关系的查询。这些常规的对象定位系统在人类角色的动作周围生成边界框。
常规的对象定位系统经由语句检索包含动作的特定时间间隔。其他常规的对象定位系统通过移除与特定角色相关联的所有动作类别来使用语言输入,并从与其他角色相关联的类似动作传输知识。例如,这些常规的对象定位系统训练针对角色的特定动作的模型(诸如走路的猫和走路的成年人),并估测传输给其他角色的知识(诸如走路的狗)。亦即,常规的对象定位系统基于已知的角色和动作类来传输知识。
与传统的对象定位系统相反,本公开的方面涉及由角色执行的动作的像素级的分割。像素级的分割可以基于来自语句的时空分割。本公开的各方面还传输针对未知的角色和动作类别的知识。
图1图示了片上系统(SOC)100的示例实现方式,其可以包括中央处理单元(CPU)102或多核CPU,CPU被配置为根据本公开的某些方面执行时空动作和角色定位。变量(例如,神经信号和突触权重)、与计算设备相关联的系统参数(例如,具有权重的神经网络)、延迟、频率二进制(bin)信息和任务信息可以被储存在与神经处理单元(NPU)108相关联的存储器块中,被储存在与CPU 102相关联的存储器块中,在与图形处理单元(GPU)104相关联的存储器块中,在与数字信号处理器(DSP)106相关联的存储器块中,在存储器块118中,或者可以跨多个块被分布。在CPU 102处执行的指令可以从与CPU 102相关联的程序存储器加载,或者可以从存储器块118加载。
SOC 100还可以包括针对特定功能定制的附加处理框,诸如GPU 104、DSP 106、连接块110(可以包括第五代(5G)连接、第四代长期演进(4G LTE)连接、Wi-Fi连接、USB连接、蓝牙连接等)以及例如可以检测和识别手势的多媒体处理器112。在一种实现方式中,NPU在CPU、DSP和/或GPU中被实现。SOC 100还可以包括传感器处理器114、图像信号处理器(ISP)116和/或导航模块120(其可以包括全球定位系统)。
SOC 100可以基于ARM指令集。在本公开的方面中,加载到通用处理器102中的指令可以包括代码以接收描述动作和角色的自然语言查询。加载到通用处理器102中的指令还可以包括代码以接收序列帧。加载到通用处理器102中的指令还可以包括代码以基于自然语言查询在序列帧中定位动作和角色。
深度学习架构可以通过学习以表示每个层中接连更高抽象级别的输入来执行对象识别任务,从而建立输入数据的有用特征表示。在这种方式中,深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前,机器学习途径解决对象识别问题可能在很大程度上依赖于可能与浅层分类器组合的人类设计的特征。浅层分类器可以是两类线性分类器,例如,其中特征向量分量的权重和可以与阈值进行比较,以预测输入属于哪一类别。人类设计特征可以是由具有领域专业知识的工程师针对特定问题领域定制的模板或内核。与之相反,深度学习架构可以学习表示与人类工程师可能设计的类似的特征,但需要经过训练。此外,深度网络可以学习表示和识别人类可能没有考虑过的新类型的特征。
深度学习架构可以学习特征的层次。例如,如果用视觉数据展现,则第一层可以学习识别在输入流中相对简单的特征(诸如边缘)。在另一示例中,如果用听觉数据展现,则第一层可以学习识别在特定频率中的谱功率。采用第一层的输出作为输入的第二层可以学习识别特征的组合,诸如针对视觉数据的简单形状或针对听觉数据的声音的组合。例如,较高的层可以学习在视觉数据中表示复杂的形状,或者在听觉数据中表示词语。更高的层可以学习识别常见的视觉对象或口述短语。
当应用于具有自然层次结构的问题时,深度学习架构可以表现得特别好。例如,机动车辆的分类可以受益于首先学习识别车轮、挡风玻璃和其他特征。这些特征可以在较高的层上以不同的方式组合,以识别轿车、卡车和飞机。
神经网络可以被设计有各种连接模式。在前馈网络中,利用在给定层中与较高层中的神经元进行通信的每个神经元,信息从较低层传递到较高层。如上文所述的,可以在前馈网络的连续层中建立层次表示。神经网络也可以具有递归或反馈(也称为自上而下的)连接。在递归连接中,来自在给定层中的神经元的输出可以被通信到相同层中的另一个神经元。递归架构可以有助于识别跨越在序列中传递给神经网络的多于一个的输入数据块的模式。从在给定层中的神经元到较低层中神经元的连接被称为反馈(或自上而下)连接。当高等级概念的识别有助于区分输入的特定低等级特征时,具有许多反馈连接的网络可以是有用的。
在神经网络的层之间的连接可以是完全连接的或局部连接的。图2A图示了完全连接的神经网络202的示例。在完全连接的神经网络202中,在第一层中的神经元可以将其输出通信到在第二层中的每个神经元,以便在第二层中的每个神经元将接收来自第一层中的每个神经元的输入。图2B图示了局部连接的神经网络204的示例。在局部连接的神经网络204中,在第一层中的神经元可以被连接到在第二层中的有限数目的神经元。更一般地,局部连接的神经网络204的局部连接层可以被配置为使得在层中的每个神经元将具有相同或相似的连接模式,但是具有可能具有不同值的连接强度(例如210、212、214和216)。局部连接的连接性模式可以在更高层中引起空间不同的接受场,这是因为在给定区域中的更高层神经元可以接收通过训练调谐到网络总输入的受限部分的特性的输入。
局部连接的神经网络的一个示例是卷积神经网络。图2C图示了卷积神经网络206的示例。卷积神经网络206可以被配置为使得与第二层中的每个神经元的输入相关联的连接强度被共享(例如208)。卷积神经网络可以非常适合于其中输入的空间位置有意义的问题。
一种类型的卷积神经网络是深度卷积网络(DCN)。图2D图示了DCN 200的详细示例,DCN 200被设计为从由图像捕捉设备230(诸如车载相机)输入的图像226识别视觉特征。当前示例的DCN 200可以被训练以标识交通标志和在交通标志上提供的数字。当然,DCN200可以被训练用于其它任务(诸如标识车道标记或标识红绿灯)。
DCN 200可以用被监督的学习训练。在训练期间,可以将图像展现给DCN 200(诸如,限速标志的图像226),然后可以计算向前通过以产生输出222。DCN 200可以包括特征提取部分和分类部分。基于接收到图像226,卷积层232可以将卷积内核(未示出)应用于图像226以生成第一组特征图218。作为示例,用于卷积层232的卷积内核可以是生成28x28特征图的5x5内核。在本示例中,因为在第一组特征图218中生成了四个不同的特征图,所以在卷积层232处将四个不同的卷积内核应用于图像226。卷积内核也可以称为过滤器或卷积过滤器。
第一组特征图218可以由最大池层(未示出)子采样以生成第二组特征图220。最大池层减小了第一组特征图218的尺寸。亦即,第二组特征图220的尺寸(诸如14x14)小于第一组特征图218的尺寸(诸如28x28)。减小的尺寸在减少存储器消耗的同时,将类似的信息提供给后续层。可以经由一个或多个后续卷积层(未示出)进一步卷积第二组特征图220以生成特征图的一个或多个后续集合(未示出)。
在图2D的示例中,第二组特征图220被卷积以生成第一特征向量224。此外,第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可以包括对应于图像226的可能特征的数字(诸如“标志”、“60”和“100”)。柔性最大值函数(softmax函数)(未示出)可以将在第二特征向量228中的数字转换为概率。这样,DCN 200的输出222是图像226包括一个或多个特征的概率。
在本示例中,在输出222中针对“标志”和“60”的概率高于输出222的针对其他诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”的概率。在训练之前,由DCN 200产生的输出222可能不正确。因此,可以计算在输出222和目标输出之间的误差。目标输出是图像226的基准真实(例如,“标志”和“60”)。然后可以调整DCN 200的权重,使得DCN 200的输出222与目标输出更接近地对准。
为了调整权重,学习算法可以计算用于权重的梯度向量。梯度可以指示如果权重被调整,误差将增加或减少的量。在顶层处,梯度可以直接对应于连接在倒数第二层中激活的神经元和在输出层中的神经元的权重值。在较低层中,梯度可以取决于权重的值和较高层的计算误差梯度。然后可以调整权重以减小误差。这种调整权重的方式可以被称为“反向传播”,这是因为它涉及通过神经网络的“反向通过”。
在实践中,权重的误差梯度可以在少量的示例上被计算,使得计算出的梯度近似于真实的误差梯度。这种近似方法可以被称为随机梯度下降法。随机梯度下降可以被重复,直到整个系统的可实现错误率已经停止下降为止或直到错误率已经达到目标等级为止。在学习之后,可以将新图像(例如,图像226的限速标志)展现给DCN,并且通过网络的向前通过可以产生可以被视为DCN的推测或预测的输出222。
深信度网络(DBN)是包括多层隐藏节点的概率模型。DBN可以用于提取训练数据集合的层次表示。可以通过叠加受限波尔兹曼机器(RBM)层来获得DBN。RBM是人工神经网络的一种类型,它可以学习在一组输入上的概率分布。因为RBM可以在没有关于每个输入应该被分类的类别的信息的情况下学习概率分布,所以RBM通常被用于无监督学习。使用混合的无监督和有监督范式,DBN的底部RBM可以以无监督的方式被训练,并且可以作为特征抽取器,并且DBN的顶部RBM可以以(来自先前层和目标类别的输入的联合分布的)有监督的方式被训练,并且可以作为分类器。
深度卷积网络(DCN)是卷积网络的网络,配置有额外的池和规范化层。DCN在许多任务上都实现了最先进的性能。DCN可以使用有监督的学习来被训练,其中输入和输出目标二者针对许多范例而言都是已知的,并且输入和输出目标二者可以通过使用梯度下降方法而被用于修改网络的权重值。
DCN可以是前馈网络。此外,如上文所述的,从在DCN第一层中的神经元到在下一更高层中的一组神经元的连接跨第一层的神经元共享。DCN的前馈和共享连接可以用于快速处理。例如,DCN的计算负担可能比包括递归或反馈连接的类似尺寸的神经网络的计算负担小得多。
卷积网络的每层的处理可以被视为空间不变的模板或基础投影。如果首先将输入分解到多个通道中(诸如彩色图像的红色、绿色和蓝色通道),则在该输入上训练的卷积网络可以被视为三维的,具有沿图像轴线的两个空间维度和捕捉颜色信息的第三维度。卷积连接的输出可以被视为在随后的层中形成特征图,特征图的每个元件(例如220)从在先前层中的一系列神经元(例如,特征图218)和多个频道的每个频道接收输入。在特征图中的值可以用非线性(诸如校正max(0,x))进一步处理。来自相邻神经元的值可以被进一步集中(对应于下采样),并且可以提供额外的局部不变性和降维。对应于白化的规范化也可以通过在特征图中神经元之间的横向抑制而被应用。
随着更多标记的数据点变得可用或随着计算功率的增加,深度学习架构的性能可以增加。现代深度神经网络通常使用比仅15年前的一般的研究人员所能获得的资源大数千倍的计算资源进行训练。新的架构和训练范式可以进一步提高深度学习的性能。经校正的线性单元可以减少被称为消失梯度的训练问题。新的训练技术可以减少过度拟合,并因此使更大的模型能够实现更好的泛用化。封装技术可以在给定的接收场中提取数据并进一步提高整体性能。
图3是图示深度卷积网络350的框图。深度卷积网络350可以包括基于连接性和权重共享的多种不同类型的层。如在图3中示出的,深度卷积网络350包括卷积块354A、354B。卷积块354A、354B的每个卷积块可以被配置有卷积层(CONV)356、规范化层(LNorm)358和最大池层(MAX POOL)360。
卷积层356可以包括一个或多个卷积过滤器,其可以被应用于输入数据以生成特征图。尽管仅示出了卷积块354A、354B的两个卷积块,但本发明并不限于此,并且相反,根据设计偏好,任何数目的卷积块354A、354B可以被包括在深度卷积网络350中。规范化层358可以规范化卷积过滤器的输出。例如,标准化层358可以提供白化或横向抑制。最大池层360可以在空间上提供下采样聚合以用于局部不变性和降维。
例如,深度卷积网络的并行过滤器库可以被加载到SOC 100的CPU 102或GPU 104上,以实现高性能和低功耗。在备选实施例中,并行过滤器库可以被加载到SOC 100的DSP106或ISP 116上。此外,深度卷积网络350可以访问在SOC 100上可以存在的其他处理块(诸如分别专用于传感器和导航的传感器处理器114和导航模块120)。
深度卷积网络350还可以包括一个或多个完全连接的层362(FC1和FC2)。深度卷积网络350还可以包括逻辑回归(LR)层364。在深度卷积网络350的每个层356、358、360、362、364之间是待更新的权重(未示出)。层的每层(例如356、358、360、362、364)的输出可以被用作在深度卷积网络350中的接下来一层(例如356、358、360、362、364)的输入,以从在卷积块354A处首先供应的输入数据352(例如图像、音频、视频、传感器数据和/或其他输入数据)学习层次特征表示。深度卷积网络350的输出是用于输入数据352的分类分数366。分类分数366可以是一组概率,其中每个概率是包括来自一组特征的特征的输入数据的概率。
在一种配置中,角色和动作定位模型被配置为用于接收描述动作和角色的自然语言查询。对象追踪模型还被配置为用于接收一序列帧。对象追踪模型还被配置为用于基于自然语言查询来在序列帧中定位动作和角色。该模型包括接收装置和/或定位装置。在一方面中,接收装置和/或定位装置可以是通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、动作和角色定位模块436、处理器404,和/或被配置为执行所述功能的路由连接处理单元216。在另一配置中,上述装置可以是被配置为执行由前述装置执行的所述功能的任何模块或任何装置。
根据本公开的方面,从一序列帧(例如,视频)生成视觉表示。视觉表示编码对应于角色和动作的信息,并同时保留被用于像素级的分割的空间信息。在一种配置中,使用双流模型来生成视觉表示(参见图8,第一流850和第二流852)。模型可以使用二维(2D)或三维(3D)过滤器。在一种配置中,卷积网络通过使用时空过滤器(例如3D过滤器)来考虑视频的时空数据。卷积网络可以是可膨胀的3D(I3D)网络。该模型可以基于来自数据集(诸如ImageNet)的图像和来自数据集(诸如Kinetic)的视频而被训练。
I3D网络是指具有两个不同3D网络的网络,每个3D网络对应于双流架构的一流。I3D网络在第三个维度中重复2D预训练的权重。与常规双流架构的单帧相反,I3D网络的空间流输入包括在时间维度中堆叠的帧。
在一种配置中,在将帧输入到卷积网络之前,帧被填充(例如,零填充)到相同尺寸(诸如512×512)。可以重新缩放输入(例如,红色、绿色、蓝色(RGB)输入)的像素值。例如,像素值可以在-1和1之间重新缩放。光学流动可以从光学流动函数确定。例如,光学流动函数可以使用总变差(TV-L1)函数,该总变差(TV-L1)函数是包括使用L1范数的数据项和使用流动的总变差的正则化项的函数的最小化函数。
额外地,可以截断和重新缩放流动输入的像素值。例如,像素值可以被截断到范围[-20,20]并在-1和1之间重新缩放。初始视觉特征表示可以具有32×32的空间尺寸。在一种配置中,卷积网络(例如I3D网络)的创始块的输出可以用作RGB输入和流动输入二者的视觉特征表示。创始块可以在最后一个最大池层之前被限定。可以将每个位置的空间坐标作为额外通道添加到视觉表示中,以允许学习诸如“左”或“上方”之类的空间限定符。可以将L2规范化应用于在空间特征图中的位置,以获得针对每个位置的鲁棒描述符。针对空间特征图中的位置,视觉特征可以与空间相对坐标串接。
如前文所述的,描述角色和动作的自然语言表达被作为查询接收。在一种配置中,从自然语言的角度对查询进行编码,以利用在不同对象和动作之间的相似性。亦即,可以使用预训练的词语嵌入来编码查询,以改善对在角色和动作之间的相关性的理解。该模型可以使用预训练的词语嵌入来表示在表达中的每个词语。通过使用预训练的词语嵌入来编码查询可以改进该模型,这是因为该模型可能使用与在训练集合中的语句词汇不同的词语。在一种配置中,不使用长短期记忆(LSTM)网络,而是利用卷积神经网络(诸如一维卷积神经网络)处理自然语言表达输入。
在一种配置中,编码查询之后,输入语句的每个词语被表示为多维向量(诸如300维向量)。嵌入针对所有单词都是固定的,并且在训练期间不会改变。每个输入语句可以被表示为其单个单词表示的串接(例如,10个单词的语句由10×300矩阵表示)。每个语句都可以被填充以具有相同的尺寸。尺寸可以是最大的语句长度。网络可以包括具有时间过滤器尺寸等于2,并且具有作为预训练词语嵌入的维度的多个输出特征图的卷积层。卷积神经网络包括卷积层、紧随其后的校正的线性单元(ReLU)激活函数和最大池层,以获得卷积神经网络(例如文本序列)的表示。
动态卷积过滤器可以被使用以根据自然语言语句(例如,查询)执行像素级的分割。与在常规卷积神经网络中使用的静态卷积过滤器相反,动态过滤器是基于输入(诸如经编码的语句表示)生成的。动态过滤器通过将文本信息传输到视觉域来改善模型。针对用于不同网络的多个分辨率可以生成动态过滤器。例如,给定文本表示T,动态过滤器f由单层感知器生成:
f=tanh(WfT+bf), (1)
其中tanh是双曲线正切函数,Wf是权重,并且bf是单层感知器的偏置。变量f具有与作为在时间戳t处针对帧的视觉表示Vt的频道相同的数目。动态过滤器与视觉表示Vt卷积以获得像素级的分割响应图(St):
St=f*Vt (2)
反卷积神经网络也可以用于在初始卷积之后上采样帧的特征图。亦即,反卷积神经网络将由初始卷积神经网络生成的特征图变换。例如,卷积神经网络可以下采样图像以生成特征图,而反卷积神经网络可以上采样特征图以生成图像。此外,反卷积神经网络可以使用与输入视频具有相同尺寸的分割掩模来训练模型。在一种配置中,视觉表示Vt被上采样以改善小对象的检测。上采样还可以改善分割预测,使得分割预测更平滑(例如,预测的边缘更平滑)。
反卷积网络可以包括两个块。第一块可以包括反卷积层,并且第二块可以包括卷积层。反卷积网络的动态过滤器可以从自然语言查询和来自先前块的视觉表示生成。反卷积层可以具有尺寸为8的内核和尺寸为4的步长。卷积层可以具有尺寸为3的内核和尺寸为1的步长。
在训练期间,针对每个训练样本,针对多个分辨率计算损耗
其中R是一组分辨率,并且αr是针对指定分辨率r的权重。在一种配置中,R={32,128,512}(例如,32x32像素、128x128像素、以及512x512像素)。
像素级损耗是如以下等式所定义的逻辑损耗:
其中是在像素(i,j)处针对分辨率r的模型的响应值,/>是在像素(i,j)处针对分辨率r的二元标签,并且Yr被下采样到基准真实二元掩模的r x r的尺寸。亦即,/>是预测并且/>是基准真实。变量i和j是空间坐标(例如,(x,y)坐标)。
如前文所述的,角色和动作定位可以在各种应用中被使用。图4是图示用于采用处理系统420和动作与角色定位模块436的装置400的硬件实现方式的示例的图。装置400可以是各种类型的设备或车辆的部件,诸如,汽车450、无人机(未示出)或机器人设备(未示出)。设备和车辆可以是自主的或半自主的。
动作和角色定位模块436可以被配置为基于自然语言查询对来自视频输入的角色和动作进行定位。在一种配置中,动作和角色定位模块436被配置为用于接收描述动作和角色的自然语言查询。动作和角色定位模块436还可以被配置为用于接收一序列帧。动作和角色定位模块436也可以被配置为用于基于自然语言查询来在序列帧中定位动作和角色。动作和角色定位模块436可以包括人工神经网络,诸如I3D卷积网络和一维卷积网络。
处理系统420可以用总线架构来实现,总线架构由总线424一般地表示。取决于处理系统420的具体应用和总体设计约束,总线424可以包括任意数目的互连总线和桥接。总线424将由处理器404、通信模块408、定位模块406、传感器模块402、移动模块410和计算机可读介质414表示的包括一个或多个处理器和/或硬件模块的各种电路链接在一起。总线424还可以链接各种其它电路,诸如定时源、外围器件、电压调节器和功率管理电路,这些电路是本领域公知的,因此不再进一步描述。
装置400包括耦合到收发器416的处理系统420。收发器416被耦合到一个或多个天线418。收发器416使得能够通过传输介质与其他设备通信。例如,收发机416可以经由来自远程设备的传输接收用户输入。处理系统420包括耦合到计算机可读介质414的处理器404。处理器404负责一般处理,包括执行存储在计算机可读介质414上的软件。当由处理器404执行时,软件导致处理系统420执行针对任何特定装置描述的各种功能。计算机可读介质414还可以被用于存储在执行软件时由处理器404操纵的数据。
传感器模块402可以经由第一传感器428和/或第二传感器426获得测量。第一传感器428可以是立体视觉传感器。第二传感器426可以是相机。第一传感器428和第二传感器426执行测量和/或捕捉图像。当然,第一传感器428和第二传感器426不限于立体视觉传感器和相机,这是因为还考虑了用于执行测量的其他类型的传感器(诸如例如,视觉、雷达、热学、声纳和/或激光传感器)。
第一传感器428和第二传感器426的输出可以由处理器404、通信模块408、位置模块406、移动模块410和/或计算机可读介质414的一个或多个进行处理。如前文所述的,来自第一传感器428的输出可以获得深度测量。此外,来自第二传感器426的输出可以由动作和角色定位模块436处理。在一种配置中,第一传感器428和第二传感器426的输出由收发器416发射到外部设备。第一传感器428和第二传感器426不限于被限定为在装置400外部。如在图4中示出的,第一传感器428和第二传感器426可以被限定在装置400内。
定位模块406可以确定装置400的位置。通信模块408可以使用收发器416向外部设备发送和接收诸如装置400的位置之类的信息。移动模块410可以向装置400提供移动。作为示例,可以经由旋转叶片412提供移动。当然,本公开的方面不限于经由旋转叶片412提供移动,并且考虑用于提供移动的任何其他类型的部件,诸如螺旋桨、轮子、踏板、鳍和/或喷气引擎。
处理系统420包括用于将深度图与定位信息集成以生成三维(3D)图的集成模块432。处理系统420还包括用于基于3D图、定位信息和/或用户输入来规划运动的规划模块434。这些模块可以是在处理器404中运行、在计算机可读介质414中驻留/存储的软件模块,耦合到处理器404的一个或多个硬件模块,或者它们的一些组合。
动作和角色定位模块436可以控制移动模块410。亦即,基于定位的动作和角色,设备400可以避免与对象碰撞、追踪对象或执行其他功能。动作和角色定位模块436可以从收发器416、第一传感器428和/或第二传感器426接收自然语言查询。在一种配置中,动作和角色定位模块436与处理器404集成。动作和角色定位模块436可以包括人工神经网络。此外,动作和角色定位信息可以从动作和角色定位模块436发射到集成模块432和/或规划模块434。
如前文所述的,角色和角色的动作的像素级分割改善了对在定位管内的角色的动作的理解。图5图示了定位管500的示例。如在图5中示出的,管500基于在序列帧的初始帧502和序列帧的最终帧504之间的边界框序列而被生成。随着动作的位置在帧之间变化,与动作相对应的边界框的位置也在帧之间变化。例如,动作的位置从第一帧502到第二帧506发生变化。同样地,动作的位置从第二帧506到第三帧508发生变化。边界框在序列帧上的运动由管500追踪。不确定性等级可以改变管500。例如,如在图5中示出的,当在边界框中的不确定性较低时(例如,提出的角色位置),管500是平滑的。作为另一示例(在图5中未示出),当在边界框中存在高不确定性时,管可能是断断续续的。
如上文所述的,基于在序列帧的初始帧502和序列帧的最终帧504之间的边界框序列生成管500。本公开的各个方面通过执行像素级的分割为定位管内的角色的动作提供更精细的粒度。
由一些对象定位系统执行的分割限于角色分割,而不涉及动作和角色分割。图6A和6B图示了由视觉和语言系统执行的静止图像(例如,帧600)分割的示例。在图6A中,对象定位系统基于一类角色(例如,马602)在帧600上执行图像分割。在该示例中,在帧600中的两匹马602被分割。
在图6B中,对象定位系统基于查询对帧600执行图像分割,诸如“马和穿条纹衬衫的女人”。在本示例中,仅分割了承载着穿条纹衬衫的女人的马。分割标识与类别或查询对应的角色。基于在帧600处的分割,可以在随后的帧中分割所标识的角色。一些对象定位系统不会分割动作和角色二者。例如,在图6A和图6B中的分割仅限于角色分割。此外,由对象定位系统执行的分割(诸如在图6A和图6B中的分割)不针对一序列帧(例如视频)执行。
其他对象定位系统可以基于查询执行图像定位。图6C图示了基于查询的图像定位的示例:“追踪有马尾辫的女人”。针对帧(诸如,帧650)执行定位。该帧可以参考从视频获得的静止图像。基于在第一帧650处的定位,角色652(例如,跑步的女人)可以在随后的帧654中被定位。被定位的角色652由边界框656标识。图6C的对象定位系统没有定位动作和角色652。在该示例中,由于帧不传达时空信息,因此系统不能确定女人652是在走路还是跑步。相反,基于跑步的外观,响应于查询,女人652被定位。
图7图示了根据本公开的各方面分割角色和动作的示例。如在图7中示出的,基于自然语言查询700分割角色和对应的动作。在第一示例702A中,针对三个示例性帧712的序列,自然语言查询700是“分割站在后面的穿深色西装的人”。响应于该查询,角色和动作定位模型定位(例如,标识)站在后面的穿深色西装的人704。
穿深色西装704的男人与其他角色(诸如跑步的人708和狗710)不同。具体地,基于对应的描述(例如,“深色西装”)和对应的动作(例如,“站立”)来区分穿深色西装的人704。如在图7中示出的,与被定位的站在后面的穿着深色西装的男人704对应的像素(例如,定位的动作和角色)与在第一示例702A的三个示例性帧712的序列中其他像素不同。
在第二示例702B中,针对三个示例性帧712的序列,自然语言查询700是“分割参加敏捷活动的狗”。响应于该查询,角色和动作定位模型定位参与敏捷活动的狗710。在这个示例中,狗710与其他角色704、708不同。具体地,基于对应的描述(例如,“狗”)和对应的动作(例如,“参与敏捷活动”)来区分狗710。如在图7中示出的,与被定位的狗710对应的像素(例如,被定位的动作和角色)与在三个示例性帧712的序列中其他像素不同。在图7中示出的像素区分是用于说明性目的的,本公开的像素区分不限于在图7中示出的像素区分的类型。
在第三示例702C中,针对三个示例性帧712的序列,自然语言查询700是“分割和狗一起跑步的穿白衬衫的人”。响应于该查询,角色和动作定位模型定位穿着白衬衫跑步的男人708。在该示例中,跑步的男人708与其他角色704、710不同。具体地,基于对应的描述(例如,“穿白衬衫的人”)和对应的动作(例如,“和狗一起跑步”)来区分跑步的男人708。如在图7中示出的,与被定位的跑步的男人708对应的像素(例如,被定位的动作和角色)与在三个示例性帧712的序列中其他像素不同。
图8图示了根据本公开的各个方面的角色和动作定位模型800的示例。如在图8中示出的,角色和动作定位模型800是双流系统。第一流850接收自然语言查询806作为输入。第二流852接收视频808的N帧作为输入。角色和动作定位模型800被配置为基于自然语言查询806来定位在视频808中的角色和动作。图4的动作和角色定位模块436可以合并角色和动作定位模型800。
如在图8中示出的,动作和角色定位模型800包括各种部件。这些部件可以包括用于表示表达的卷积神经网络802、用于生成空间视觉表示的深度卷积神经网络804、用于执行完全卷积分割的动态过滤器812、816和用于输出像素级的分割预测的反卷积神经网络810a、810b。卷积神经网络802可以是第一流850的部件。此外,深度卷积神经网络804可以是第二流852的部件。
在一种配置中,卷积神经网络802处理自然语言查询806。卷积神经网络802可以是一维(1D)卷积神经网络,其包括一个跟随有校正线性单元(ReLU)激活函数的卷积层和最大池层。卷积神经网络802获得自然语言查询806的文本序列的表示。亦即,卷积神经网络802可以对自然语言查询806的每个词语进行编码,使得每个词语被表示为多维向量。
如讨论的,第一组动态过滤器812是基于文本序列的表示生成的。第二组动态过滤器816可以是基于文本序列查询的表示和从像素级的分割响应图818a、818b、818c获得的视觉表示生成的。动态过滤器812、816可以用于完全卷积分割。每个像素级的分割响应图818a、818b、818c可以具有不同的分辨率。例如,像素级的分割响应图818a、818b、818c可以分别具有32×32、128×128和512×512的分辨率。
此外,如在图8中示出的,输入视频808的N帧可以被输入到卷积神经网络804(诸如膨胀的3D(I3D)网络)。输入视频808可以具有拥有三个频道(例如RGB频道)的512×512分辨率。在一种配置中,输入视频808的每个帧可以被零填充到512×512的尺寸。卷积神经网络804的输出可以是输入视频808的每个帧的视觉表示820。视觉表示820编码对应于角色和动作二者的信息,同时保留空间信息。视觉表示820也可以被称为特征图。
由卷积神经网络804生成的每个视觉表示820与第一组动态过滤器812卷积以获得用于每个帧的第一像素级的分割响应图818a。具体地,模型800用第一组动态过滤器812卷积每个帧的视觉表示820以获得第一响应图818a。第一响应图818a可以是像素级的分割响应图。
基于在第一响应图818a中的每个像素的值,针对每个像素确定标签。标签可以基于阈值而被确定。例如,如果一个像素具有等于或大于零的值,则该像素被标记为“1”。或者,如果该像素具有小于零的值,则该像素被标记为“0”。该模型可以基于标签在每个帧中定位动作和角色。
在第一阶段之后,一个或多个第一反卷积神经网络810a可从先前的卷积上采样视觉表示820以生成第一上采样视觉表示822a。可以基于文本序列查询的表示生成第二组过滤器816的每组。或者,可以基于文本序列查询的表示和视觉表示820生成第二组过滤器816。(一个或多个)第一反卷积神经网络810a将第一上采样视觉表示822a与对应的第二组过滤器816卷积,以输出第二像素级的分割响应图818b。
额外地,一个或多个第二反卷积神经网络810b可以从先前的卷积上采样第一上采样视觉表示822a以生成第二上采样视觉表示822b。(一个或多个)第二反卷积神经网络810b将第二上采样视觉表示822b与对应的第二组过滤器816卷积以输出第三像素级的分割响应图818c。图8的反卷积神经网络810a、810b的数目用于说明性目的。可以使用更多或更少的反卷积神经网络810a、810b。
(一个或多个)第一反卷积神经网络810a和(一个或多个)第二反卷积神经网络810b可以是相同的网络或不同的网络。基于每个响应图818a、818b、818c,标签可以被应用于像素。上采样改善了角色和动作检测(例如,定位)。动态过滤器812、816和反卷积神经网络810a、810b是动作和角色定位模型800的可学习部分,因此它们被同时训练。在这种情况下,动态过滤器812、816和反卷积神经网络810a、810b隐式地相互依赖。
图9图示了根据本公开的方面的用于像素级的动作和角色定位的方法900。如在图9中示出的,在块902处,角色和动作定位模型(例如,模型)接收描述动作和角色的自然语言查询。例如,查询可以以句子的形式,并且可以经由第一用户接口而被接收。在块904处,模型接收一序列帧(例如视频)。序列帧可以经由第二用户接口而被接收。第一和第二用户接口可以是相同或不同的用户接口。
在可选配置中,在块906处,模型基于自然语言查询生成第一组动态过滤器。此外,在该可选配置中,在块908处,模型基于第一组动态过滤器将标签应用于在每个帧中的每个像素。亦即,模型将第一组动态过滤器与每个帧的视觉表示(例如,特征图)卷积,以生成响应图。响应图将标签应用于每个像素。额外地,在该可选配置中,在块910处,模型基于标签在每个帧中定位动作和角色。
在另一可选配置中,在块912处,模型上采样序列帧的视觉表示的分辨率。上采样改善了角色和动作检测。在该可选配置中,在块914处,模型基于自然语言查询和上采样的视觉表示生成第二组动态过滤器。最后,在该可选配置中,在块916处,模型将上采样的视觉表示与第二组动态过滤器卷积以生成响应图。响应图将标签应用于每个像素。第一组动态过滤器和第二组动态过滤器可以是2D或3D过滤器。
针对视觉表示可以使用各种分辨率。例如,如在图8中示出的,视觉表示可以具有32×32、128×128和512×512的分辨率。这些分辨率是非限制性的,并被用作示例。还考虑了其他分辨率。在可选配置中,在块918处,模型针对视觉表示的每个分辨率重复上采样、生成和卷积。亦即,针对视觉表示的每个分辨率重复块912、914和916。
在块920处,该模型基于自然语言查询来在序列帧中定位动作和角色。亦即,动作和角色可以在序列帧中被分割。最后,在可选配置中,在块922处,该模型基于定位的动作和角色来控制装置。例如,可以控制诸如自主车辆之类的装置以避免碰撞或导航到目的地。例如,可以在自主车辆、半自主车辆、机器人设备、移动设备和/或静止计算设备中定义模型。可以基于定位的动作和角色来控制一个或多个设备。例如,可以在空中无人机中定义模型。在该示例中,空中无人机可以使用该模型追踪目标(诸如移动的坦克)。在另一示例中,模型可以在用于竞技场的安全系统中被定义。在该示例中,模型可以追踪在竞技场中跑步的嫌疑人,并控制一个或多个机器人设备跟随嫌疑人。
在一些方面中,方法900可以由SOC 100执行(图1)。亦即,方法900的元件每个元件可以(例如,但不限于)由SOC 100或其中包括的一个或多个处理器(例如CPU 102)和/或其他部件执行。
上述方法的各种操作可以通过能够执行对应功能的任何适当器件来执行。该器件可以包括各种硬件和/或(一个或多个)软件部件和/或(一个或多个)模块,包括但不限于,电路、专用集成电路(ASIC)或处理器。通常,在图中图示了操作的情况下,这些操作可以具有对应的具有类似编号的对应器件-加-功能部件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括算术、计算、处理、推导、调查、查找(例如,在表格中、数据库或另一数据结构中查找)、确定等。额外地,“确定”可以包括接收(例如,接收信息)、访问(例如,访问在存储器中的数据)等。此外,“确定”可以包括解决、选择、挑选、建立等。
如本文所使用的,提及项目列表的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c的至少一个”旨在覆盖:a、b、c、a-b、a-c、b-c和a-b-c。
结合本公开描述的各种说明性逻辑框、模块和电路可以用被设计用于执行本文所述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其它可编程逻辑设备(PLD)、分立门或晶体管逻辑、分立硬件部件或其任何组合来实现或执行。通用处理器可以是微处理器,但在备选方案中,处理器可以是任何可用的商用处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核心的结合,或任何其它此类配置。
结合本公开描述的方法或算法的步骤可以直接实施在硬件、由处理器执行的软件模块或两者的组合中。软件模块可以驻留在本领域已知的任何形式的存储介质中。可以使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘、CD-ROM等。软件模块可以包括单个指令或多个指令,并且可以被分布在多个不同的代码段、不同的程序之间以及多个存储介质上。存储介质可以被耦合到处理器,使得处理器可以从存储介质读取信息,也可以将信息写入存储介质。或者,存储介质可以被集成到处理器。
本文公开的方法包括用于实现所述方法的一个或多个步骤或动作。方法步骤和/或动作可以被互换,而不脱离权利要求的范围。换言之,除非指定了步骤或动作的特定顺序,否则可以在不脱离权利要求的范围的情况下修改特定步骤和/或动作的顺序和/或使用。
所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果在硬件中实现,则示例硬件配置可以包括在设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和总体设计约束,总线可以包括任意数目的互连总线和桥接。总线可以将包括处理器、机器可读介质和总线接口的各种电路链接在一起。总线接口可以用于经由总线将网络适配器等连接到处理系统。网络适配器可以用于实现信号处理功能。针对某些方面,用户接口(例如,键盘、显示器、鼠标、操纵杆等)也可以被连接到总线。总线还可以链接本领域公知的各种其它电路,诸如定时源、外围器件、电压调节器、功率管理电路等,因此,不再进一步描述。
处理器可以负责管理总线和一般处理,这包括执行存储在机器可读介质上的软件。处理器可以用一个或多个通用和/或专用处理器来实现。示例包括,微处理器、微控制器、DSP处理器和其他可以执行软件的电路。软件应广义地解释为指令、数据或其任何组合,无论是指软件、固件、中间件、微代码、硬件描述语言或其他。机器可读介质可以例如包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬盘驱动器,或任何其他合适的储存介质,或其任何组合。机器可读介质可以被实施在计算机程序产品中。计算机程序产品可以包括包装材料。
在硬件实现方式中,机器可读介质可以是从处理器分离的处理系统的一部分。然而,如本领域技术人员将容易理解的,机器可读介质或其任何部分可以在处理系统外部。通过示例的方式,机器可读介质可以包括传输线、由数据调制的载波和/或从设备分隔的计算机产品,所有这些都可以由处理器通过总线接口访问。备选地,或者额外地,可以将机器可读介质或其任何部分集成到处理器中(诸如,可以使用高速缓存和/或通用寄存器文件)。尽管所讨论的各种部件可以被描述为具有特定位置(诸如局部部件),但是它们也可以以各种方式被配置,诸如某些部件被配置为分布式计算系统的一部分。
处理系统可以被配置为通用处理系统,其中一个或多个微处理器提供处理器功能,并且外部存储器提供至少一部分机器可读介质,所有这些都通过外部总线架构与其他支持电路链接在一起。或者,处理系统可以包括一个或多个神经形态处理器,以用于实现本文描述的神经元模型和神经系统模型。作为另一种备选方案,处理系统可以用具有处理器、总线接口、用户接口、支持电路和集成到单个芯片中的机器可读介质的至少一部分的应用专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、离散硬件部件或任何其他合适的电路来实现,或可执行本发明中描述的各种功能的电路的任何组合来实现。本领域技术人员将认识到,根据特定应用和施加在整个系统上的总体设计约束如何最好地实现处理系统的所述功能。
机器可读介质可以包括多个软件模块。软件模块包括指令,当该指令由处理器执行时,导致处理系统执行各种功能。软件模块可以包括传输模块和接收模块。每个软件模块可以驻留在单个储存设备中,或者被跨多个存储设备分布。通过示例的方式,当触发事件发生时,软件模块可以从硬盘驱动器加载到RAM中。在软件模块的执行期间,处理器可以将一些指令加载到高速缓存中以增加访问速度。然后,一个或多个高速缓存线可以被加载到通用寄存器文件中,以便处理器执行。当提及下面的软件模块的功能时,将理解的是此类功能是由处理器在执行来自该软件模块的指令时实现的。此外,应当理解的是,本公开的各个方面导致实现此类方面的处理器、计算机、机器或其他系统的功能的改善。
如果在软件中实现,这些功能可以作为一个或多个指令或代码被存储或传送到计算机可读介质上。计算机可读介质包括计算机储存介质和通信介质,通信介质包括有助于计算机程序从一个地方传送到另一个地方的任何介质。存储介质可以是由计算机可以访问的任何可用介质。作为示例而非限制,此类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备,或可用于以指令或数据结构的形式携带或存储所需的程序代码、并可由计算机访问的任何其它媒介。额外地,任何连接都被恰当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(诸如红外、无线电和微波)从网站、服务器或其他远程源传输软件,则使用的同轴电缆、光纤电缆、双绞线、DSL,或者无线技术,如红外线、无线电和微波,都被包括在介质的定义中。本文使用的磁盘和光盘包括光盘(CD)、激光盘、光学盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘则以激光方式再现数据。因此,在一些方面中,计算机可读介质可以包括非暂时性计算机可读介质(例如,有形介质)。此外,针对其它方面,计算机可读介质可以包括暂时的计算机可读介质(例如,信号)。上述组合也应被包括在计算机可读介质的范围内。
因此,某些方面可以包括用于执行本文所述操作的计算机程序产品。例如,此类计算机程序产品可以包括计算机可读介质,其上具有存储(和/或编码)的指令,所述指令可以由一个或多个处理器执行以执行本文描述的操作。针对某些方面,计算机程序产品可以包括包装材料。
此外,应当理解的是,用于执行本文描述的方法和技术的模块和/或其他适当器件可以被下载和/或以由用户终端和/或基站(如适用)获得。例如,此类设备可以被耦合到服务器以促进传输用于执行本文所述方法的器件。备选地,可以经由存储装置(例如RAM、ROM、诸如光盘(CD)或软盘等的物理存储介质)提供本文所述的各种方法,使得用户终端和/或基站可以基于耦合或提供储存器件获得各种方法。此外,可以利用用于向设备提供本文所述的方法和技术的任何其他合适技术。
应当理解的是,权利要求不限于上文图示的精确配置和部件。在不脱离权利要求的范围的情况下,可以对上述方法和装置的布置、操作和细节进行各种修改、改变和变型。
Claims (20)
1.一种在一序列帧中像素级定位角色和动作的方法,包括:
接收所述序列帧;
基于描述所述动作和所述角色的自然语言查询,生成第一组动态过滤器;
生成所述序列帧中的每个帧的视觉表示;
基于所述第一组过滤器与每个帧的所述视觉表示的卷积,生成所述序列帧中的每个帧的第一响应图;
基于所述自然语言查询和所述视觉表示,生成第二组动态过滤器;
基于所述第二组动态过滤器与每个帧的上采样的视觉表示的卷积,生成所述序列帧中的每个帧的第二响应图;
将标签应用于所述第二响应图中的每个像素,以标记所述序列帧中的每个帧中的像素;以及
基于所标记的像素,在所述序列帧中定位所述动作和所述角色,其中所述第一响应图和所述第二响应图具有不同的分辨率。
2.根据权利要求1所述的方法,还包括:
上采样所述视觉表示的分辨率;以及
将所述上采样的视觉表示与所述第二组动态过滤器进行卷积。
3.根据权利要求2所述的方法,还包括:针对所述视觉表示的一组分辨率,重复所述上采样以及所述卷积。
4.根据权利要求2所述的方法,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。
5.根据权利要求1所述的方法,还包括:基于所定位的动作和角色来控制装置。
6.一种用于在一序列帧中像素级定位角色和动作的装置,所述装置包括:
用于接收所述序列帧的器件;
用于基于描述所述动作和所述角色的自然语言查询来生成第一组动态过滤器的器件;
用于生成所述序列帧中的每个帧的视觉表示的器件;
用于基于所述第一组过滤器与每个帧的所述视觉表示的卷积来生成所述序列帧中的每个帧的第一响应图的器件;
用于基于所述自然语言查询和所述视觉表示来生成第二组动态过滤器的器件;
用于基于所述第二组动态过滤器与每个帧的上采样的视觉表示的卷积来生成所述序列帧中的每个帧的第二响应图的器件;
用于将标签应用于所述第二响应图中的每个像素以标记所述序列帧中的每个帧中的像素的器件;以及
用于基于所标记的像素,在所述序列帧中定位所述动作和所述角色的器件,
其中所述第一响应图和所述第二响应图具有不同的分辨率。
7.根据权利要求6所述的装置,还包括:
用于上采样所述视觉表示的分辨率的器件;以及
用于将所述上采样的视觉表示与所述第二组动态过滤器进行卷积的器件。
8.根据权利要求7所述的装置,还包括:用于针对所述视觉表示的一组分辨率重复上采样和卷积的器件。
9.根据权利要求7所述的装置,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。
10.根据权利要求6所述的装置,还包括:用于基于所定位的动作和角色来控制所述装置的器件。
11.一种用于在一序列帧中像素级定位角色和动作的装置,所述装置包括:
存储器;以及
耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置为:
接收所述序列帧;
基于描述所述动作和所述角色的自然语言查询,生成第一组动态过滤器;
生成所述序列帧中的每个帧的视觉表示;
基于所述第一组过滤器与每个帧的所述视觉表示的卷积,生成所述序列帧中的每个帧的第一响应图;
基于所述自然语言查询和所述视觉表示,生成第二组动态过滤器;
基于所述第二组动态过滤器与每个帧的上采样的视觉表示的卷积,生成所述序列帧中的每个帧的第二响应图;
将标签应用于所述第二响应图中的每个像素,以标记所述序列帧中的每个帧中的像素;以及
基于所标记的像素,在所述序列帧中定位所述动作和所述角色,
其中所述第一响应图和所述第二响应图具有不同的分辨率。
12.根据权利要求11所述的装置,其中至少一个处理器还被配置为:
上采样所述视觉表示的分辨率;以及
将所述上采样的视觉表示与所述第二组动态过滤器进行卷积。
13.根据权利要求12所述的装置,其中所述至少一个处理器还被配置为针对所述视觉表示的一组分辨率进行上采样和卷积。
14.根据权利要求12所述的装置,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。
15.根据权利要求11所述的装置,其中所述至少一个处理器还被配置为基于所定位的动作和角色来控制所述装置。
16.一种非暂时性计算机可读介质,具有在其上记录的用于在一序列帧中像素级定位角色和动作的程序代码,所述程序代码由处理器执行,并且包括:
用于接收所述序列帧的程序代码;
用于基于描述所述动作和所述角色的自然语言查询来生成第一组动态过滤器的程序代码;
用于生成所述序列帧中的每个帧的视觉表示的程序代码;
用于基于所述第一组过滤器与每个帧的所述视觉表示的卷积来生成所述序列帧中的每个帧的第一响应图的程序代码;
用于基于所述自然语言查询和所述视觉表示来生成第二组动态过滤器的程序代码;
用于基于所述第二组动态过滤器与每个帧的上采样的视觉表示的卷积来生成所述序列帧中的每个帧的第二响应图的程序代码;
用于将标签应用于所述第二响应图中的像素以标记所述序列帧中的每个帧中的像素的程序代码;以及
用于基于所标记的像素而在所述序列帧中定位所述动作和所述角色的程序代码,
其中所述第一响应图和所述第二响应图具有不同的分辨率。
17.根据权利要求16所述的非暂时性计算机可读介质,其中所述程序代码还包括:
用于上采样所述视觉表示的分辨率的程序代码;以及
用于将所述上采样的视觉表示与所述第二组动态过滤器进行卷积的程序代码。
18.根据权利要求17所述的非暂时性计算机可读介质,其中所述程序代码还包括针对所述视觉表示的一组分辨率进行上采样的程序代码以及进行卷积的代码。
19.根据权利要求17所述的非暂时性计算机可读介质,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。
20.根据权利要求16所述的非暂时性计算机可读介质,其中所述程序代码还包括:用于基于所定位的动作和角色来控制装置的程序代码。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762586071P | 2017-11-14 | 2017-11-14 | |
US62/586,071 | 2017-11-14 | ||
US16/189,974 US10896342B2 (en) | 2017-11-14 | 2018-11-13 | Spatio-temporal action and actor localization |
US16/189,974 | 2018-11-13 | ||
PCT/US2018/061079 WO2019099537A1 (en) | 2017-11-14 | 2018-11-14 | Spatio-temporal action and actor localization |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111344739A CN111344739A (zh) | 2020-06-26 |
CN111344739B true CN111344739B (zh) | 2024-01-26 |
Family
ID=66431299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880073311.7A Active CN111344739B (zh) | 2017-11-14 | 2018-11-14 | 时空动作与角色定位 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10896342B2 (zh) |
EP (1) | EP3711022A1 (zh) |
CN (1) | CN111344739B (zh) |
WO (1) | WO2019099537A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3499406B1 (en) * | 2017-12-18 | 2024-01-31 | Aptiv Technologies Limited | Methods of processing and generating image data in a connectionist network |
US11270425B2 (en) * | 2018-11-15 | 2022-03-08 | Qualcomm Technologies, Inc. | Coordinate estimation on n-spheres with spherical regression |
US10410352B1 (en) * | 2019-01-25 | 2019-09-10 | StradVision, Inc. | Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same |
US11403850B2 (en) | 2019-07-24 | 2022-08-02 | Honda Motor Co., Ltd. | System and method for providing unsupervised domain adaptation for spatio-temporal action localization |
CN110688918B (zh) * | 2019-09-12 | 2023-02-14 | 上海交通大学 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
CN111008579A (zh) * | 2019-11-22 | 2020-04-14 | 华中师范大学 | 专注度识别方法、装置和电子设备 |
US11361550B2 (en) * | 2019-12-30 | 2022-06-14 | Yahoo Assets Llc | Automatic digital content captioning using spatial relationships method and apparatus |
US11631165B2 (en) * | 2020-01-31 | 2023-04-18 | Sachcontrol Gmbh | Repair estimation based on images |
CN111414731B (zh) * | 2020-02-28 | 2023-08-11 | 北京小米松果电子有限公司 | 文本标注方法和装置 |
JP2021179728A (ja) * | 2020-05-12 | 2021-11-18 | 株式会社日立製作所 | 映像処理装置、及び、その方法 |
US20230377195A1 (en) * | 2020-10-05 | 2023-11-23 | Memorial Sloan Kettering Cancer Center | Reinforcement learning to perform localization, segmentation, and classification on biomedical images |
US20220156502A1 (en) * | 2020-11-16 | 2022-05-19 | Qualcomm Technologies, Inc. | Lingually constrained tracking of visual objects |
CN112380461A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种基于gps轨迹的行人检索方法 |
WO2022154457A1 (en) * | 2021-01-12 | 2022-07-21 | Samsung Electronics Co., Ltd. | Action localization method, device, electronic equipment, and computer-readable storage medium |
CN112927266B (zh) * | 2021-03-01 | 2022-07-15 | 中国科学技术大学 | 基于不确定性引导训练的弱监督时域动作定位方法及系统 |
CN113920229A (zh) * | 2021-09-06 | 2022-01-11 | 北京小米移动软件有限公司 | 一种虚拟角色的处理方法、装置及存储介质 |
US12002192B2 (en) | 2021-11-16 | 2024-06-04 | Solera Holdings, Llc | Transfer of damage markers from images to 3D vehicle models for damage assessment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982336A (zh) * | 2011-09-02 | 2013-03-20 | 株式会社理光 | 识别模型生成方法和系统 |
CN107038419A (zh) * | 2017-03-28 | 2017-08-11 | 南京邮电大学 | 一种基于视频序列深度学习的人物行为语义识别方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7966078B2 (en) * | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US7970721B2 (en) * | 2007-06-15 | 2011-06-28 | Microsoft Corporation | Learning and reasoning from web projections |
US20110314010A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Keyword to query predicate maps for query translation |
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
US20170017696A1 (en) * | 2015-07-14 | 2017-01-19 | Microsoft Technology Licensing, Llc | Semantic object tagging through name annotation |
US10083378B2 (en) * | 2015-12-28 | 2018-09-25 | Qualcomm Incorporated | Automatic detection of objects in video images |
US20170262996A1 (en) | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
US20180068031A1 (en) * | 2016-08-16 | 2018-03-08 | Ebay Inc. | Enhancing user queries using implicit indicators |
US20180107682A1 (en) * | 2016-10-16 | 2018-04-19 | Ebay Inc. | Category prediction from semantic image clustering |
US20180129742A1 (en) * | 2016-11-10 | 2018-05-10 | Qualcomm Incorporated | Natural language object tracking |
-
2018
- 2018-11-13 US US16/189,974 patent/US10896342B2/en active Active
- 2018-11-14 WO PCT/US2018/061079 patent/WO2019099537A1/en unknown
- 2018-11-14 CN CN201880073311.7A patent/CN111344739B/zh active Active
- 2018-11-14 EP EP18812545.4A patent/EP3711022A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982336A (zh) * | 2011-09-02 | 2013-03-20 | 株式会社理光 | 识别模型生成方法和系统 |
CN107038419A (zh) * | 2017-03-28 | 2017-08-11 | 南京邮电大学 | 一种基于视频序列深度学习的人物行为语义识别方法 |
Non-Patent Citations (2)
Title |
---|
Chenliang Xu 等.Can Humans Fly? Action Understanding with Multiple Classes of Actors.2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2015,第2264-2273页. * |
Zhenyang Li 等.Tracking by Natural Language Specification.2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2017,第7350-7358页. * |
Also Published As
Publication number | Publication date |
---|---|
WO2019099537A1 (en) | 2019-05-23 |
US20190147284A1 (en) | 2019-05-16 |
CN111344739A (zh) | 2020-06-26 |
EP3711022A1 (en) | 2020-09-23 |
US10896342B2 (en) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111344739B (zh) | 时空动作与角色定位 | |
US10902615B2 (en) | Hybrid and self-aware long-term object tracking | |
CN107851191B (zh) | 用于图像中的对象检测的基于上下文的先验 | |
US10510146B2 (en) | Neural network for image processing | |
US10776628B2 (en) | Video action localization from proposal-attention | |
US20180129742A1 (en) | Natural language object tracking | |
WO2019101720A1 (en) | Methods for scene classification of an image in a driving support system | |
US11443514B2 (en) | Recognizing minutes-long activities in videos | |
US20190108400A1 (en) | Actor-deformation-invariant action proposals | |
US11481576B2 (en) | Subject-object interaction recognition model | |
US10445622B2 (en) | Learning disentangled invariant representations for one-shot instance recognition | |
US11270425B2 (en) | Coordinate estimation on n-spheres with spherical regression | |
US20220156528A1 (en) | Distance-based boundary aware semantic segmentation | |
CN117546212A (zh) | 用于交互对象定位的网络 | |
US20220156502A1 (en) | Lingually constrained tracking of visual objects | |
Mendes et al. | Vision-based road detection using contextual blocks | |
Mehtab | Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors | |
EP4309082A1 (en) | Frames alignment in video processing using self-attention | |
Fan et al. | Multiple obstacle detection for assistance driver system using deep neural networks | |
US11710344B2 (en) | Compact encoded heat maps for keypoint detection networks | |
US20240273742A1 (en) | Depth completion using image and sparse depth inputs | |
Mendes | Navigability estimation for autonomous vehicles using machine learning | |
KR20230159426A (ko) | 임베디드 시스템들 상에서 순차적 센서 데이터의 분류를 재개하기 위한 상태 변화 검출 | |
JP2024509862A (ja) | ビデオ処理における改善された時間的一貫性のための効率的なテスト時間適応 | |
CN117203643A (zh) | 等变可调向卷积神经网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |