CN113905206A - 用以改进对个体的自动化标识的相机编排技术 - Google Patents

用以改进对个体的自动化标识的相机编排技术 Download PDF

Info

Publication number
CN113905206A
CN113905206A CN202011539239.8A CN202011539239A CN113905206A CN 113905206 A CN113905206 A CN 113905206A CN 202011539239 A CN202011539239 A CN 202011539239A CN 113905206 A CN113905206 A CN 113905206A
Authority
CN
China
Prior art keywords
neural network
stationary camera
trajectory
camera
unidentified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011539239.8A
Other languages
English (en)
Inventor
M·古兹曼
J·图雷克
M·卡兰扎
C·马蒂内斯-斯佩索特
D·奥利弗
J·费利普利昂
M·特珀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN113905206A publication Critical patent/CN113905206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Vascular Medicine (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及用以改进对个体的自动化标识的相机编排技术。系统、装置和方法可以提供技术,所述技术基于场景的视频馈送在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送将与静止相机相关联;基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置。该技术还可以自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。

Description

用以改进对个体的自动化标识的相机编排技术
技术领域
实施例一般地涉及对个体的自动化标识。更特别地,实施例涉及用以改进对个体的自动化标识的相机编排技术。
背景技术
对开放空间(例如,火车站、机场、体育场)中个体的标识常常对于安全和/或公共安全目的有用。常规解决方案可能涉及相对大量面向许多不同方向的相机的部署,用以增加个体的面部将被捕获的可能性。在这样的情况下,可以使用人工智能(AI)模块和/或超分辨率技术来自动地识别所捕获的面部。然而,在这样的配置下的装备和处理开销的成本可能相对较高。例如,从处理角度来看,(例如,甚至在帧未包含有用数据时)分析视频馈送的每一帧可能代价非常高。虽然其他解决方案可能使用转动(pan)、倾斜、变焦(PTZ)相机,但是那些解决方案通常涉及手动密集的操作和/或识别(例如,可能导致错误)并且可能受害于受监视空间中的盲点。
附图说明
通过阅读以下说明书及所附权利要求书和通过参考以下各图,实施例的各种优势将变得对本领域技术人员显而易见,其中:
图1是根据实施例的受监视空间的示例的平面图;
图2是根据实施例的将实时强化数据反向传播到空间表示阶段(stage)和轨迹预测阶段的示例的图示;
图3是根据实施例的操作性能增强的计算系统的方法的示例的流程图;
图4A是根据实施例的操作视频分析子系统的方法的示例的流程图;
图4B是根据实施例的操作PTZ相机的方法的示例的流程图;
图5是根据实施例的训练神经网络支持相机编排的方法的示例的流程图;
图6是根据实施例的性能增强的计算系统的示例的框图;
图7是根据实施例的半导体装置的示例的图示;
图8是根据实施例的处理器的示例的框图;以及
图9是根据实施例的基于多处理器的计算系统的示例的框图。
具体实施方式
一般地,实施例包括每一区域一个或多个固定的高分辨率/宽视野相机,其被战略性地定位以减少受监视区域的遮挡和盲点。(多个)固定相机可以检测和跟踪感兴趣区域中的个体/人。在一个示例中,跟踪信息被发送到集中式视频分析组件,其控制一组部署的PTZ相机基于所跟踪的每个人的轨迹来获取(例如,具有较高面部识别成功概率的)最佳帧。所有相机可以经由RTSP(实时流式传输协议)、RTMP(实时消息传送协议)协议或任何其他标准协议将视频流式传输到集中式视频分析组件。
在实施例中,集中式视频分析组件计算人位置、轨迹并可能计算头部方向,并且使用诸如ONVIF(开放网络视频接口论坛)协议之类的标准化协议来发送适当的PTZ配置信号/动作,所述人位置、轨迹和头部方向可以用于选择最佳定位的PTZ相机来捕获此人的面部。可以跟踪进入被覆盖区域的每个人并将其标示为未标识,同时系统使PTZ相机准备标识所选人。一旦此人被标识,专用于考虑中的此人的PTZ相机就被释放以用于下一次检测。因此,考虑到PTZ相机中的一个可能覆盖不止一人(例如,因为对于好的捕获而言,一群人可能具有相同的轨迹和位置),可以同时标识的人的数目至少与部署的PTZ相机的数目成比例。可以基于诸如用户偏好、活动级别、衣服颜色、尺寸、速度、轨迹平滑度等的各种因素或其任何组合来完成对感兴趣人的选择。
现在转到图1,固定(例如,非静止)相机14监视空间10(例如,火车站、机场、体育场、竞技场等)以得到未经标识的个体(诸如例如个体12)的存在。在实施例中,在时间t1在沿着轨迹18的第一地点16(例如,位置坐标1,1,0)处检测到个体12。在第一地点16处,个体12可能在具有到个体12的第一视线(LoS)24的第一转动、倾斜、变焦(PTZ,例如,非静止)相机20的视野(FoV)内。在图示的示例中,第一LoS 24仅提供个体12的面部的轮廓/侧视图。因此,自动化面部识别技术可能从第一LoS 24无效。在第一地点16处,个体12也可能在第二PTZ相机22的FoV内,其中第二PTZ相机22具有到个体12的第二LoS 26。尽管第二LoS 26可以提供个体12的面部的几乎正面的视图,但是个体12与第二PTZ相机22之间的距离对于自动化面部识别技术而言可能太大而不能从第二LoS 26有效。
如将更详细地讨论的那样,实施例提供了(例如,包括逻辑指令、可配置逻辑、固定功能硬件逻辑等,或其任何组合的)视频分析子系统28,所述视频分析子系统28使用来自固定相机14的固定视频馈送30分别向第一和第二PTZ相机20、22发送编排信号36和38(例如,有线的和/或无线的),其中编排信号36、38使得PTZ相机20、22中的至少一个能够以足够有效地执行面部识别的角度捕获个体12的面部。更特别地,图示的视频分析子系统28自动地预测轨迹18将在时间t2包括第二地点42,并且在时间t3包括第三地点44(例如,位置坐标2,1,0)。视频分析子系统28还可以确定第一PTZ相机20具有到在第三地点44处的个体12的第三LoS 40。在图示的示例中,第三LoS 40不提供个体12的面部的视图。因此,自动化面部识别技术将从第三LoS 40无效。
相比之下,第二PTZ相机20可以具有提供个体12的面部的几乎正面且相对接近的视图的第四LoS 46。在这样的情况下,视频分析子系统28使用编排信号38主动地命令第二PTZ相机22调整第二PTZ相机22的一个或多个内部设置(例如,转动设置、变焦设置、倾斜设置),使得第二PTZ相机22将在第三地点44处捕获个体12的面部。在实施例中,编排信号38还命令第二PTZ相机22基于个体12的被捕获的面部来标识个体12。在一个示例中,视频分析子系统28还接收来自第一PTZ相机20的第一PTZ视频馈送32和来自第二PTZ相机22的第二PTZ视频馈送34。
图示的解决方案通过消除对相对大量的相机的任何需要而减少了装备成本。例如,因为PTZ相机20、22可自动调整到不同的视线,所以PTZ相机20、22可以有效地执行静止相机的大阵列的功能。图示的解决方案还通过将面部识别专用于已知包含有用内容的视频帧而减少了处理成本。例如,在面部识别方面,关于个体12,可以忽视第一PTZ视频馈送32。实际上,第一PTZ视频馈送32可能用来标识在图示的个体12移动通过空间10时移动通过空间10的另一个体(未示出)。至少就消除来自相机操作和/或面部识别过程的人为错误来说,所图示的解决方案还增强了性能。可以通过消除空间10中的盲点进一步增强性能。
动物(例如,鼠)装备好以高效地学习在复杂环境中寻找食物或水的多个来源。为此,它们在奖励站点之间生成越来越高效的轨迹。这样的空间导航能力涉及精神上重放在空间上和时间上相关的地方细胞的短活动序列。与这样的生物系统类似,实施例编排和控制PTZ相机20、22。穿越该空间的人们所遵循的轨迹可以形成轨迹预测系统的基础(例如,用于学习和推断)。如将更详细讨论的那样,可以利用相机操作子系统(例如,包括一组固定相机和一组PTZ相机)、空间表示阶段、轨迹预测阶段和强化阶段的组合来对这样的系统建模。
图2示出了视频分析子系统50(50a-50c),其可以容易地代替已经讨论过的视频分析子系统28(图1)。在图示的示例中,空间表示阶段50a产生物理空间的概括表示,其在高奖励区域周围更详细并且在其他区域中更粗糙。可以利用神经网络(例如,第一神经网络,未示出)对该阶段50a建模。在实施例中,该表示采取空间到观察到的地方细胞活动52a和不活跃的地方细胞52b中的软平铺(soft-tiling)52(52a-52b)的形式。通过软平铺,一组单元平铺空间,同时彼此部分和局部地重叠。观察到的地方细胞活动52a(例如,被占用的瓦块)展示与观察到的轨迹53对应的活动,而不活跃的地方细胞52b(例如,未被占用的瓦块)是沉默的。
给定通过空间的部分观察到的轨迹53,轨迹预测阶段50b可以使用递归神经网络(例如,第二神经网络,未示出)来预测个体在轨迹平铺54(54a-54c)中的后续移动,所述轨迹平铺54除了观察到的地方细胞活动54a和不活跃的地方细胞54b之外还包括与未来轨迹55对应的所预测的地方细胞活动54c。在实施例中,该神经网络学习预测轨迹,使得此人可以被成功地标识。将通过成功地标识人的可能性来操纵该预测。
另外,强化学习(RL)阶段50c(例如,控制系统)可以通过相机操作系统来操作相机,并且基于奖励、关于来自那些阶段的输出(例如,所预测的轨迹)的有用性通知其他阶段。RL阶段训练内部一个或多个策略神经网络(例如,第三神经网络,未示出)、空间表示阶段50a中的神经网络和轨迹预测阶段50b中的神经网络,以最大化收集最大数目的奖励的可能性。例如,奖励方案58可能为穿越该空间的每个人提供最大数目的标识。此外,第四神经网络可以执行面部检测并且向其他三个神经网络提供反馈(例如,指示系统是否能够检测到面部的反馈,其是强化学习的奖励)。在这样的情况下,其他三个神经网络可以进行相应调整,以在将来获得更好的奖励。
在一个示例中,因为帧速率是已知且是恒定的,所以轨迹速度由系统隐式地处置。如将更详细地讨论的那样,可以通过使用例如时间差分学习来以端对端方式训练所有阶段。在这样的情况下,贯穿空间表示阶段50a和轨迹预测阶段50b,误差被反向传播。
图3示出了操作性能增强的计算系统的方法60。一般可以在诸如例如已经讨论过的视频分析子系统28(图1)和/或视频分析子系统50(图2)之类的视频分析子系统中实现方法60。更特别地,可以在作为存储在机器或计算机可读存储介质(诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等)中的一组逻辑指令的一个或多个模块中、在可配置逻辑(诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD))中、在使用电路技术(诸如例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术)的固定功能逻辑硬件中或以其任何组合实现方法60。
例如,可以以一个或多个编程语言的任何组合来编写用以执行方法60中示出的操作的计算机程序代码,所述编程语言包括诸如JAVA、SMALLTALK、C++等的面向对象的编程语言以及诸如“C”编程语言或类似的编程语言之类的常规过程编程语言。另外,逻辑指令可能包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、状态设置数据、用于集成电路的配置数据、将源自于硬件(例如,主机处理器、中央处理器/CPU、微控制器等)的电子电路和/或其他结构组件个性化的状态信息。
图示的处理框62提供了基于场景的视频馈送在该场景中的沿着轨迹的第一地点处检测未经标识的个体,其中视频馈送与静止的(例如,固定的)相机相关联。在实施例中,框62包括基于视频馈送来预测轨迹。框64基于轨迹和非静止相机的一个或多个设置来选择非静止(例如,PTZ)相机。在一个示例中,该非静止相机选自多个非静止相机。在框66处可以自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着轨迹的第二地点处捕获个体的面部并基于未经标识的个体的被捕获的面部来标识(例如,识别)该未经标识的个体。在实施例中,响应于未经标识的个体的面部不在来自静止相机的视频馈送中,自动地命令所选择的非静止相机。另外,可以命令所选择的非静止相机在未经标识的个体到达第二地点之前调整(多个)设置中的所述至少一个。另外,框66可能涉及自动地命令所选择的非静止相机基于包含未经标识的个体的被捕获的面部的减少数目的帧来标识该未经标识的个体(例如,而不是在所有相机帧上连续地执行面部标识程序)。可以针对移动通过该场景的多个未经标识的个体重复和/或并行化方法60。
至少就在静止相机和非静止相机之间协调面部捕获消除了来自相机操作和/或面部识别过程的人为错误来说,图示的方法60增强了性能。可以通过消除盲点进一步增强性能。图示的方法60还通过消除对相对大量的相机的任何需要而减少了装备成本。例如,因为非静止相机可自动地调整到不同的视线,所以非静止相机可以有效地执行静止相机的大阵列的功能。此外,图示的方法60通过将面部识别专用于已知包含有用内容的视频帧来减少处理成本。
图4A示出了操作视频分析子系统的方法70。一般可以在诸如例如已经讨论过的视频分析子系统28(图1)和/或视频分析子系统50(图2)之类的视频分析子系统中实现方法70。更特别地,可以在作为存储在机器或计算机可读存储介质(诸如RAM、ROM、PROM、固件、闪存等)中的一组逻辑指令的一个或多个模块中、在可配置逻辑(诸如例如PLA、FPGA、CPLD)中、在使用电路技术(诸如例如ASIC、CMOS或TTL技术)的固定功能逻辑硬件中或以其任何组合来实现方法70。
图示的处理框72得到用于一个或多个PTZ相机的配置信息(例如,地点、转动、倾斜和/或变焦设置),其中在框74处取回固定相机馈送。可以在在框76处从固定相机馈送取回帧。框78得到在该帧中捕获的未经标识的个体的清单,其中图示的框80选择清单中的下一未经标识的个体。在实施例中,在框82处更新跟踪信息,并且框84计算个体的被预测的方向和速度(例如,轨迹)。框86可以预报在将来的时刻(例如,时间t)的最佳相机。在一个示例中,框88安排最佳相机在该将来的时刻捕获个体。图示的方法70然后返回到框80,并选择清单中的下一未经标识的个体。一旦到达清单的末尾,该方法就返回到框76并选择另一视频帧。
图4B示出了PTZ相机的方法90。一般可以响应于已经讨论过的框88(图4A)的执行而在诸如例如第一和第二PTZ相机20、22(图1)之类的非静止相机中实现方法90。更特别地,可以在作为存储在机器或计算机可读存储介质(诸如RAM、ROM、PROM、固件、闪存等)中的一组逻辑指令的一个或多个模块中、在可配置逻辑(诸如例如PLA、FPGA、CPLD)中、在使用电路技术(诸如例如ASIC、CMOS或TTL技术)的固定功能逻辑硬件中或以其任何组合实现方法90。
图示的处理框92转动、倾斜和/或变焦到最佳位置以捕获未经标识的个体的面部,其中框94标识该个体。在一个示例中,框96释放PTZ相机以标识另一个体。
返回到图2,训练过程可能特定于每个相机拓扑并且对环境敏感。因此,系统的每个部署都经历训练过程。使用RL训练这样的系统可能对于每个情况都涉及大约几百万个数目的训练示例,以解决训练时间的问题并缩短系统达到峰值性能所花的时间。在实施例中,使用(例如,包括逻辑指令、可配置逻辑、固定功能硬件逻辑等,或其任何组合的)离线加速训练模块。离线加速训练模块可以包括模拟器,所述模拟器在给定特定相机拓扑的情况下产生现实的观察结果并模拟每个相机的标识率。通过使用近似的相机模型(例如,来自制造商的参数)、(例如,在蓝图上测量到的)粗糙的相机布局和多人运动模型(例如,布朗运动、目标导向的路径规划、直线、参数曲线),模拟器生成人的轨迹,计算此人的面部在相机图像上的投影,并确定此人标识是否成功。
为了确定相机上的面部投影是否可识别,可以使用程序的模型。在一个示例中,该程序模型包括在给定相机图像上的投影检测的形状的情况下获取正确的标识的概率。此外,可以通过在具有地面真实数据的已知数据集上运行标识算法以及计算相对于面部边界框垂直和水平尺寸的正确和不正确检测的直方图来建立该模型。
在实施例中,模拟器用于生成人们跨感兴趣区域移动的数百万个训练示例。通过在相机模型、相机布局上使用域随机化技术和向生成的轨迹添加噪声,模拟器生成使得RL控制器对由于镜头老化而引起的测量误差或相机投影矩阵中的变化更稳健的样本。具有域随机化的模拟器的使用提供了准备好在真实环境中部署的经预训练的系统。在部署之后,系统可以利用真实示例(例如,实时强化数据)重新训练神经网络。然而,关于模拟数据的训练使得系统从零日开始运行,并随着时间的推移继续提高性能。
图5示出了训练神经网络支持相机编排的方法100。一般可以在作为存储在机器或计算机可读存储介质(诸如RAM、ROM、PROM、固件、闪存等)中的一组逻辑指令的一个或多个模块中、在可配置逻辑(诸如例如PLA、FPGA、CPLD)中、在使用电路技术(诸如例如ASIC、CMOS或TTL技术)的固定功能逻辑硬件中或以其任何组合实现方法100。
图示的处理框102基于模拟数据来训练(例如,空间表示阶段中的)第一神经网络检测场景中的未经标识的个体。另外,框104可以基于模拟数据来训练第二神经网络(例如,轨迹预测阶段中的递归神经网络)预测未经标识的个体的轨迹。在实施例中,框106基于模拟数据来训练第三神经网络(例如,强化学习阶段中的策略神经网络)基于预测的轨迹选择非静止相机和自动地命令所选择的非静止相机调整一个或多个设置中至少一个。在一个示例中,离线进行框102、104和106。
框108可以基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络。在图示的示例中,经由第一神经网络在第一地点处检测来自图3的未经标识的个体。另外,可以经由第二神经网络来预测轨迹。在实施例中,经由第三神经网络来选择非静止相机,并且经由第三神经网络来自动地命令所选择的非静止相机。因此,图示的方法100通过使得能够在系统部署时做出准确的标识来进一步增强性能。
现在转到图6,示出了性能增强的计算系统110。系统110一般可以是电子设备/平台的一部分,所述电子设备/平台具有计算功能(例如,个人数字助理/PDA、笔记本计算机、平板计算机、可转换式平板电脑、服务器)、通信功能(例如,智能电话)、成像功能(例如,相机、摄像机)、媒体播放功能(例如,智能电视/TV)、可穿戴功能(例如,手表、眼镜、头饰、鞋类、珠宝)、车辆功能(例如,汽车、卡车、摩托车)、机器人功能(例如,自主机器人)、物联网(IoT)功能等或其任何组合。在图示的示例中,系统110包括主机处理器112(例如,中央处理单元/CPU),所述主机处理器112具有耦合至系统存储器116的集成存储器控制器(IMC)114。
图示的系统110还包括输入输出(IO)模块118,其与主机处理器112、AI加速器121和图形处理器120(例如,图形处理单元/GPU)一起实现在半导体管芯122上作为片上系统(SoC)。在实施例中,半导体管芯122还包括视觉处理单元(VPU,未示出)。图示的IO模块118与例如显示器124(例如,触摸屏、液晶显示器/LCD、发光二极管/LED显示器)、网络控制器126(例如,有线的和/或无线的)以及大容量存储装置128(例如,硬盘驱动器/HDD、光盘、固态驱动器/SSD、闪存)通信。图示的计算系统110还包括用以生成场景的视频馈送的静止(例如,固定)相机130和一个或多个非静止(例如,PTZ)相机132。静止相机130和(多个)非静止相机(132)可以经由有线和/或无线链路与系统110的其余部分通信。
在实施例中,主机处理器112、图形处理器120、AI加速器121、VPU和/或IO模块118执行从系统存储器116和/或大容量存储装置128取回的程序指令134以实行已经讨论过的方法60(图3)、方法70(图4A)、方法90(图4B)和/或方法100(图5)的一个或多个方面。因此,图示的指令134的执行可以使得管芯122基于视频馈送在场景中的沿着轨迹的第一地点处检测未经标识的个体,并基于以下从(多个)非静止相机132中选择非静止相机:轨迹和所选择的非静止相机的一个或多个设置(例如,转动设置、倾斜设置、变焦设置)。指令134的执行还可以使得管芯122自动地命令所选择的非静止相机调整(多个)设置中的至少一个、在沿着轨迹的第二地点处捕获未经标识的个体的面部和基于未经标识的个体的被捕获的面部来标识该未经标识的个体。在实施例中,响应于未经标识的个体的面部不在来自静止相机130的视频馈送中,自动地命令所选择的非静止相机。另外,可以主动地命令所选择的非静止相机在未经标识的个体到达第二地点之前调整(多个)设置中的至少一个。
因此,至少就在静止相机130和所选择的非静止相机之间协调面部捕获消除了来自相机操作和/或面部识别过程的人为错误来说,认为系统110是性能增强的。可以通过消除盲点进一步增强性能。可以通过经由结合静止相机和非静止相机的视野消除盲点来进一步增强标识有效性。图示的系统110还通过消除对相对大量相机的任何需要而减少了装备成本。例如,因为(多个)非静止相机132可自动地调整至不同的视线,所以(多个)非静止相机(132)可有效地执行静止相机的大阵列的功能。此外,图示的系统110通过将面部识别专用于已知包含有用内容的视频帧来减少处理成本。
图7示出了半导体封装装置140。图示的装置140包括一个或多个衬底142(例如硅、蓝宝石、砷化镓)和耦合到(多个)衬底14)的逻辑144(例如,晶体管阵列和其他集成电路/IC组件)。可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现逻辑144。在一个示例中,逻辑144实现已经讨论过的方法60(图3)、方法70(图4A)、方法90(图4B)和/或方法100(图5)的一个或多个方面。因此,逻辑144可以基于视频馈送在场景中的沿着轨迹的第一地点处检测未经标识的个体,其中视频馈送与静止相机相关联,并基于以下从多个非静止相机中选择非静止相机:轨迹和所选择的非静止相机的一个或多个设置(例如,转动设置、倾斜设置、变焦设置)。逻辑144还可以自动地命令所选择的非静止相机调整(多个)设置中的至少一个、在沿着轨迹的第二地点处捕获未经标识的个体的面部和基于未经标识的个体的被捕获的面部来标识该未经标识的个体。
因此,至少就在静止相机和所选择的非静止相机之间协调面部捕获消除了来自相机操作和/或面部识别过程的人为错误来说,认为装置140是性能增强的。可以通过消除盲点进一步增强性能。图示的装置140还通过消除对相对大量相机的任何需要而减少了装备成本。例如,因为非静止相机可自动地调整至不同的视线,所以非静止相机可有效地执行静止相机的大阵列的功能。此外,图示的装置140通过将面部识别专用于已知包含有用内容的视频帧来减少处理成本。
在一个示例中,逻辑144包括被定位(例如,嵌入)在(多个)衬底142内的晶体管沟道区。因此,逻辑144和(多个)衬底142之间的界面可以不是突变结。逻辑144也可以被认为包括在(多个)衬底142的初始晶片上生长的外延层。
图8图示了根据一个实施例的处理器核200。处理器核200可以是用于任何类型的处理器(诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器)或用以执行代码的其他设备的核。尽管在图8中仅图示了一个处理器核200,但是处理元件也可以替代地包括不止一个图8中图示的处理器核200。处理器核200可以是单线程核,或者对于至少一个实施例,处理器核200可以是多线程的,因为它每个核可以包括不止一个硬件线程上下文(或“逻辑处理器”)。
图8还图示了耦合至处理器核200的存储器270。存储器270可以是如本领域技术人员已知或以其他方式可获得的(包括存储器层级的各个层的)多种多样的存储器中的任何存储器。存储器270可以包括将由处理器核200执行的一个或多个代码213指令,其中代码213可以实现已经讨论过的方法60(图3)、方法70(图4A)、方法90(图4B)和/或方法100(图5)的一个或多个方面。处理器核200遵循由代码213指示的指令的程序序列。每个指令可以进入前端部分210并且由一个或多个解码器220处理。解码器220可以生成诸如以预定义的格式的固定宽度微操作之类的微操作作为其输出,或者可以生成其他指令、微指令或反映原始代码指令的控制信号。图示的前端部分210还包括寄存器重命名逻辑225和调度逻辑230,它们一般分配资源并使与转换指令对应的操作排队以用于执行。
示出了处理器核200,其包括具有一组执行单元255-1至255-N的执行逻辑250。一些实施例可以包括专用于特定功能或功能集的多个执行单元。其他实施例可以包括仅一个执行单元或一个可以执行特定功能的执行单元。图示的执行逻辑250执行由代码指令指定的操作。
在完成由代码指令指定的操作的执行之后,后端逻辑260引退代码213的指令。在实施例中,处理器核200允许无序执行,但是要求按顺序引退指令。引退逻辑265可以采取如本领域技术人员已知的多种形式(例如,重新排序缓冲器等)。以该方式,至少依据解码器生成的输出、寄存器重命名逻辑225利用的硬件寄存器和表格以及执行逻辑250修改的(未示出的)任何寄存器,在代码213的执行期间变换处理器核200。
尽管未在图8中图示,但是处理元件可以包括与处理器核200一起在芯片上的其他元件。例如,处理元件可以包括存储器控制逻辑连同处理器核200。处理元件可以包括I/O控制逻辑和/或可以包括与存储器控制逻辑集成在一起的I/O控制逻辑。处理元件还可以包括一个或多个高速缓存。
现在参考图9,示出的是根据实施例的计算系统1000实施例的框图。图9中示出的是包括第一处理元件1070和第二处理元件1080的多处理器系统1000。虽然示出了两个处理元件1070和1080,但是将理解,系统1000的实施例也可以仅包括一个这样的处理元件。
系统1000被图示为点对点互连系统,其中第一处理元件1070和第二处理元件1080经由点对点互连1050耦合。应当理解,可以将图9中图示的任何或所有互连实现为多点总线而不是点对点互连。
如图9中所示,处理元件1070和1080中的每个可以是多核处理器,其包括第一和第二处理器核(即,处理器核1074a和1074b以及处理器核1084a和1084b)。这样的核1074a、1074b、1084a、1084b可以被配置成以与上面结合图8讨论的方式类似的方式来执行指令代码。
每个处理元件1070、1080可以包括至少一个共享高速缓存1896a、1896b。共享高速缓存1896a、1896b可以存储由处理器的一个或多个组件(诸如分别为核1074a、1074b和1084a、1084b)利用的数据(例如,指令)。例如,共享高速缓存1896a、1896b可以本地高速缓存存储在存储器1032、1034中的数据,用于由处理器的组件更快访问。在一个或多个实施例中、共享高速缓存1896a、1896b可以包括一个或多个中级高速缓存(诸如级别2(L2)、级别3(L3)、级别4(L4)或高速缓存的其他级别)、末级高速缓存(LLC)和/或其组合。
虽然仅示出了两个处理元件1070、1080,但是将理解,实施例的范围不被如此限制。在其他实施例中,给定处理器中可以存在一个或多个附加处理元件。替代地,处理元件1070、1080中的一个或多个可以是除处理器之外的元件,诸如加速器或现场可编程门阵列。例如,(多个)附加处理元件可以包括与第一处理器1070相同的(多个)附加处理器、与第一处理器1070异构或不对称的(多个)附加处理器、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理元件。在包括架构、微架构、热、功耗特性等的一连串优点指标方面,在处理元件1070、1080之间可能存在多种差异。这些差异可以有效地将它们本身表现为处理元件1070、1080之间的不对称和异构。对于至少一个实施例,各种处理元件1070、1080可以驻留在同一管芯封装中。
第一处理元件1070可以进一步包括存储器控制器逻辑(MC)1072以及点对点(P-P)接口1076和1078。类似地,第二处理元件1080可以包括MC 1082以及P-P接口1086和1088。如图9中所示,MC 1072和1082将处理器耦合到相应的存储器,即存储器1032和存储器1034,它们可以是本地附接到相应处理器的主存储器的部分。虽然将MC 1072和1082图示为集成到处理元件1070、1080中,但是对于替代实施例,MC逻辑可以是在处理元件1070、1080外部而不是集成在其中的分立逻辑。
第一处理元件1070和第二处理元件1080可以分别经由P-P互连1076、1086耦合到I/O子系统1090。如图9中所示,I/O子系统1090包括P-P接口1094和1098。此外,I/O子系统1090包括接口1092,用以将I/O子系统1090与高性能图形引擎1038耦合。在一个实施例中,总线1049可以用来将图形引擎1038耦合到I/O子系统1090。替代地,点对点互连可以耦合这些组件。
继而,I/O子系统1090可以经由接口1096耦合到第一总线1016。在实施例中,第一总线1016可以是外围组件互连(PCI)总线,或者诸如PCI Express总线或另一第三代I/O互连总线之类的总线,但是实施例的范围不被如此限制。
如图9中所示,各种I/O设备1014(例如,生物测量学扫描仪、扬声器、相机、传感器)可以连同总线桥1018一起耦合到第一总线1016,所述总线桥1018可以将第一总线1016耦合到第二总线1020。在一个实施例中,第二总线1020可以是低引脚数(LPC)总线。各种设备可以耦合到第二总线1020,包括例如键盘/鼠标1012、(多个)通信设备1026和数据存储单元1019,诸如盘驱动器或其他大容量存储设备,其在一个实施例中可以包括代码1030。图示的代码1030可以实现已经讨论过的方法60(图3)、方法70(图4A)、方法90(图4B)和/或方法100(图5)的一个或多个方面。进一步地,音频I/O 1024可以耦合到第二总线1020,并且电池1010可以向计算系统1000供电。
注意,设想了其他实施例。例如,代替图9的点对点架构,系统可以实现多点总线或另一这样的通信拓扑。而且,可以替代地使用比图9中所示更多或更少的集成芯片来划分图9的元件。
附加说明和示例:
示例1包括一种性能增强的计算系统,所述计算系统包括用以生成场景的视频馈送的静止相机、多个非静止相机、处理器以及耦合到所述处理器的存储器,所述存储器包括一组可执行程序指令,所述可执行程序指令在被所述处理器执行时使得处理器基于所述视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体;基于以下,从所述多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
示例2包括示例1的计算系统,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
示例3包括示例1的计算系统,其中所述指令在被执行时进一步使得所述计算系统基于所述视频馈送来预测所述轨迹。
示例4包括示例3的计算系统,其中所述指令在被执行时进一步使得所述计算系统基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体,基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹,以及基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
示例5包括示例3的计算系统,其中所述指令在被执行时进一步使得所述计算系统基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
示例6包括示例1至5中的任一个的计算系统,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
示例7包括一种半导体装置,所述半导体装置包括一个或多个衬底以及耦合到所述一个或多个衬底的逻辑,其中所述逻辑至少部分地以可配置逻辑或固定功能硬件逻辑中的一个或多个来实现,耦合到所述一个或多个衬底的逻辑用以基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送将与静止相机相关联;基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
示例8包括示例7的装置,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
示例9包括示例7的装置,其中耦合到所述一个或多个衬底的逻辑将基于所述视频馈送来预测所述轨迹。
示例10包括示例9的装置,其中耦合到所述一个或多个衬底的逻辑将基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体,基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹,以及基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
示例11包括示例9的装置,其中耦合到所述一个或多个衬底的逻辑将基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
示例12包括示例7至11中的任一个的装置,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
示例13包括包含一组可执行程序指令的至少一个计算机可读存储介质,所述可执行程序指令在被计算系统执行时使得所述计算系统:基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送将与静止相机相关联;基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
示例14包括示例13的至少一个计算机可读存储介质,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
示例15包括示例13的至少一个计算机可读存储介质,其中所述指令在被执行时进一步使得所述计算系统基于所述视频馈送来预测所述轨迹。
示例16包括示例15的至少一个计算机可读存储介质,其中所述指令在被执行时进一步使得所述计算系统基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体,基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹,以及基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
示例17包括示例15的至少一个计算机可读存储介质,其中所述指令在被执行时进一步使得所述计算系统基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
示例18包括示例13至17中任一个的至少一个计算机可读存储介质,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
示例19包括一种操作性能增强的计算系统的方法,该方法包括:基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送与静止相机相关联;基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
示例20包括示例19的方法,其中响应于所述未经标识的个体的面部不在所述视频馈送中而自动地命令所选择的非静止相机,并且其中命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
示例21包括示例19的方法,进一步包括基于所述视频馈送来预测所述轨迹。
示例22包括示例21的方法,进一步包括基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体,基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹,以及基于所述模拟数据来训练第三神经网络基于所预测的轨迹选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
示例23包括示例21的方法,进一步包括基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中经由所述第二神经网络来预测所述轨迹,其中经由所述第三神经网络来选择所述非静止相机,并且其中经由所述第三神经网络来自动地命令所选择的非静止相机。
示例24包括示例19至23中的任一个的方法,其中所述一个或多个设置包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
示例25包括用于执行示例19至24中任一个的方法的部件。
因此,本文中描述的技术提供了一种用于自动化标识个体的有成本效益的解决方案。另外,较少相机被要求在“现场”,这减少了CAPEX(资本支出,例如用于购买和部署相机)和OPEX(操作费用,例如,减少了对计算机视觉基础设施的操作员的需要)。该技术还减少了标识所要求的计算能力,因为将关于正确的位置来主动地设置相机以捕获面部,这意味着更少的帧处理。另外,该技术使得能够在特定相机帧上选择性地执行面部标识程序,而不是在所有相机帧上连续执行该程序。在某些情况下,系统使PTZ相机准备在特定时间指向特定位置。一旦到达,可以在一个时间窗内执行标识过程,但是该过程不连续地运行。
此外,该技术在标识上非常高效,不依赖人类操作员的注意。甚至更进一步,操作员的工作是自动化的,减少了OPEX。与可能能够检查仅几个视频馈送的人类监视相比,该技术在标识上也非常高效,能够并行地监视许多不同的视频馈送。
实施例适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片组组件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片、片上系统(SoC)、SSD/NAND控制器、ASIC等。另外,在一些图中,用线表示信号导线。一些可能不同以指示更多的组成信号路径,具有标号以指示多个组成信号路径,和/或在一个或多个末端处具有箭头以指示主要信息流向。然而,这不应被以限制性方式来解释。准确地说,可以结合一个或多个示例性实施例来使用这样的添加的细节以促进对电路的更容易理解。任何被表示的信号线,无论是否具有附加信息,实际上都可以包括可以在多个方向行进的一个或多个信号,并且可以利用任何适合类型的信号方案来实现,例如利用差分对实现的数字或模拟线、光纤线和/或单端线。
可能已经给出了示例尺寸/模型/值/范围,但是实施例不被如此限制。随着制造技术(例如,光刻法)随着时间的推移而成熟,期望可以制造更小尺寸的器件。另外,为了简化图示和讨论和以便不使实施例的某些方面模糊,在图内可能会或可能不会示出到IC芯片和其他组件的众所周知的电源/接地连接。进一步地,可以以框图形式示出布置,以便避免使实施例模糊而且鉴于以下事实:关于这样的框图布置的实现的细节高度取决于将在其内实现实施例的计算系统,即,这样的细节应该完全在本领域技术人员的眼界内。在阐述特定细节(例如,电路)以便描述示例实施例的情况下,对本领域技术人员应当显而易见的是,可以在没有这些特定细节或具有这些特定细节的变型的情况下实践实施例。因此,说明书将被认为是说明性的而不是限制性的。
术语“耦合”在本文中可以用来指代讨论中的组件之间的任何类型的关系,直接或间接的,并且可以适用于电、机械、流体、光学、电磁、机电或其他连接。另外,术语“第一”、“第二”等在本文中可以仅用来便于讨论,并且不承载特定的时间或时间顺序的意义,除非另外指示。
如在本申请中和权利要求书中使用的那样,通过术语“一个或多个”结合的项目的清单可以意味着所列项的任何组合。例如,短语“A、B或C中的一个或多个”可以意味着A;B;C;A和B;A和C;B和C;或A、B和C。
根据前面的描述,本领域技术人员将领会,可以以多种形式来实现实施例的广泛技术。因此,虽然已经结合实施例的特定示例描述了实施例,但是实施例的真实范围不应被如此限制,因为在对附图、说明书和所附权利要求书的学习时,其他修改将变得对熟练的从业人员显而易见。

Claims (25)

1.一种计算系统,包括:
一个或多个静止相机,用以生成场景的视频馈送;
多个非静止相机;
处理器;以及
耦合到所述处理器的存储器,所述存储器包括一组可执行程序指令,其在被所述处理器执行时使得处理器:
基于所述视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,
基于以下,从所述多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及
自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
2.根据权利要求1所述的计算系统,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
3.根据权利要求1所述的计算系统,其中所述指令在被执行时进一步使得所述计算系统基于所述视频馈送来预测所述轨迹。
4.根据权利要求3所述的计算系统,其中所述指令在被执行时进一步使得所述计算系统:
基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体,
基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹,以及
基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
5.根据权利要求3所述的计算系统,其中所述指令在被执行时进一步使得所述计算系统基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
6.根据权利要求1至5中任一项所述的计算系统,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
7.一种半导体装置,包括:
一个或多个衬底;以及
耦合到所述一个或多个衬底的逻辑,其中所述逻辑至少部分地以可配置逻辑或固定功能硬件逻辑中的一个或多个来实现,耦合到所述一个或多个衬底的逻辑用以:
基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送将与静止相机相关联;
基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及
自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
8.根据权利要求7所述的装置,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
9.根据权利要求7所述的装置,其中耦合到所述一个或多个衬底的逻辑将基于所述视频馈送来预测所述轨迹。
10.根据权利要求9所述的装置,其中耦合到所述一个或多个衬底的逻辑将:
基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体;
基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹;以及
基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
11.根据权利要求9所述的装置,其中耦合到所述一个或多个衬底的逻辑将基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
12.根据权利要求7至11中任一项所述的装置,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
13.一种计算装置,包括:
用于基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体的部件,其中所述视频馈送将与静止相机相关联;
用于基于以下,从多个非静止相机中选择非静止相机的部件:所述轨迹和所选择的非静止相机的一个或多个设置;以及
用于自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体的部件。
14.根据权利要求13所述的装置,其中响应于所述未经标识的个体的面部不在所述视频馈送中而将自动地命令所选择的非静止相机,并且其中将命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
15.根据权利要求13所述的装置,还包括用于基于所述视频馈送来预测所述轨迹的部件。
16.根据权利要求15所述的装置,还包括:
用于基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体的部件;
用于基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹的部件;以及
用于基于所述模拟数据来训练第三神经网络选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个的部件。
17.根据权利要求15所述的装置,还包括:用于基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络的部件,其中将经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中将经由所述第二神经网络来预测所述轨迹,其中将经由所述第三神经网络来选择所述非静止相机,并且其中将经由所述第三神经网络来自动地命令所选择的非静止相机。
18.根据权利要求13至17中任一项所述的装置,其中所述一个或多个设置将包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中将自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
19.一种方法,包括:
基于场景的视频馈送,在所述场景中的沿着轨迹的第一地点处检测未经标识的个体,其中所述视频馈送与静止相机相关联;
基于以下,从多个非静止相机中选择非静止相机:所述轨迹和所选择的非静止相机的一个或多个设置;以及
自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个、在沿着所述轨迹的第二地点处捕获所述未经标识的个体的面部以及基于所述未经标识的个体的被捕获的面部来标识所述未经标识的个体。
20.根据权利要求19所述的方法,其中响应于所述未经标识的个体的面部不在所述视频馈送中而自动地命令所选择的非静止相机,并且其中命令所选择的非静止相机在所述未经标识的个体到达所述第二地点之前调整所述一个或多个设置中的所述至少一个。
21.根据权利要求19所述的方法,进一步包括基于所述视频馈送来预测所述轨迹。
22.根据权利要求21所述的方法,进一步包括:
基于模拟数据来训练第一神经网络检测所述场景中的未经标识的个体;
基于所述模拟数据来训练第二神经网络预测所述未经标识的个体的轨迹;以及
基于所述模拟数据来训练第三神经网络基于所预测的轨迹选择非静止相机和自动地命令所选择的非静止相机调整所述一个或多个设置中的至少一个。
23.根据权利要求21所述的方法,进一步包括基于实时强化数据来重新训练第一神经网络、第二神经网络和第三神经网络,其中经由所述第一神经网络在所述第一地点处检测所述未经标识的个体,其中经由所述第二神经网络来预测所述轨迹,其中经由所述第三神经网络来选择所述非静止相机,并且其中经由所述第三神经网络来自动地命令所选择的非静止相机。
24.根据权利要求19至23中任一项所述的方法,其中所述一个或多个设置包括转动设置、倾斜设置或变焦设置中的一个或多个,并且其中自动地命令所选择的非静止相机基于包含所述未经标识的个体的被捕获的面部的减少数目的帧来标识所述未经标识的个体。
25.包括一组指令的至少一个计算机可读存储介质,所述指令在被计算系统执行时使得所述计算系统实行权利要求19-23中任一项所述的方法。
CN202011539239.8A 2020-06-22 2020-12-23 用以改进对个体的自动化标识的相机编排技术 Pending CN113905206A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/907872 2020-06-22
US16/907,872 US11553129B2 (en) 2020-06-22 2020-06-22 Camera orchestration technology to improve the automated identification of individuals

Publications (1)

Publication Number Publication Date
CN113905206A true CN113905206A (zh) 2022-01-07

Family

ID=72662610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011539239.8A Pending CN113905206A (zh) 2020-06-22 2020-12-23 用以改进对个体的自动化标识的相机编排技术

Country Status (3)

Country Link
US (1) US11553129B2 (zh)
CN (1) CN113905206A (zh)
DE (1) DE102020133445A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475596B2 (en) * 2020-07-23 2022-10-18 Motorola Solutions, Inc. Device, method and system for adjusting a configuration of a camera device
CN113452903B (zh) * 2021-06-17 2023-07-11 浙江大华技术股份有限公司 一种抓拍设备、抓拍方法及主控芯片
DE102022200833A1 (de) * 2022-01-26 2023-07-27 Robert Bosch Gesellschaft mit beschränkter Haftung Überwachungsanordnung, Verfahren zur Registrierung von Überwachungskameras und Analysemodulen, Computerprogramm sowie Speichermedium

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10099644B2 (en) * 2014-05-27 2018-10-16 University Of Southern California Virtual head mounted video camera system
US9729782B2 (en) * 2015-06-05 2017-08-08 Digital Signal Corporation System and method for intelligent camera control
AU2015203666A1 (en) * 2015-06-30 2017-01-19 Canon Kabushiki Kaisha Methods and systems for controlling a camera to perform a task
US10691925B2 (en) * 2017-10-28 2020-06-23 Altumview Systems Inc. Enhanced face-detection and face-tracking for resource-limited embedded vision systems
US11252323B2 (en) * 2017-10-31 2022-02-15 The Hong Kong University Of Science And Technology Facilitation of visual tracking
US11769159B2 (en) * 2017-11-13 2023-09-26 Aloke Chaudhuri System and method for human emotion and identity detection
US11417128B2 (en) * 2017-12-22 2022-08-16 Motorola Solutions, Inc. Method, device, and system for adaptive training of machine learning models via detected in-field contextual incident timeline entry and associated located and retrieved digital audio and/or video imaging
US11216954B2 (en) * 2018-04-18 2022-01-04 Tg-17, Inc. Systems and methods for real-time adjustment of neural networks for autonomous tracking and localization of moving subject
US11164329B2 (en) * 2018-11-01 2021-11-02 Inpixon Multi-channel spatial positioning system

Also Published As

Publication number Publication date
DE102020133445A1 (de) 2021-12-23
US11553129B2 (en) 2023-01-10
US20200322528A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
US11989861B2 (en) Deep learning-based real-time detection and correction of compromised sensors in autonomous machines
US11618438B2 (en) Three-dimensional object localization for obstacle avoidance using one-shot convolutional neural network
JP7393512B2 (ja) ニューラルネットワークの分散学習および重み分配のためのシステム、および方法
US20200324794A1 (en) Technology to apply driving norms for automated vehicle behavior prediction
US20210279894A1 (en) Depth and motion estimations in machine learning environments
CN113905206A (zh) 用以改进对个体的自动化标识的相机编排技术
Zhou et al. Event-based motion segmentation with spatio-temporal graph cuts
CN110998594A (zh) 检测动作的方法和系统
JP6678246B2 (ja) 大域的最適化に基づく意味的セグメント化
WO2020122432A1 (ko) 전자 장치 및 그의 3d 이미지 표시 방법
US11195024B1 (en) Context-aware action recognition by dual attention networks
US20220035441A1 (en) Systems and methods for object tracking using fused data
Rodriguez-Ramos et al. Adaptive inattentional framework for video object detection with reward-conditional training
Kasahara et al. Look both ways: Self-supervising driver gaze estimation and road scene saliency
Faruqui et al. Trackez: an iot-based 3d-object tracking from 2d pixel matrix using mez and fsl algorithm
Rong et al. Big data intelligent tourism management platform design based on abnormal behavior identification
EP3930355A1 (en) Object tracking technology based on cognitive representation of a location in space
CN115862130A (zh) 基于人体姿态及其躯干运动场的行为识别方法
Rehman et al. Human tracking robotic camera based on image processing for live streaming of conferences and seminars
Timar et al. A real-time multitarget tracking system with robust multichannel CNN-UM algorithms
Cultrera et al. Explaining autonomous driving with visual attention and end-to-end trainable region proposals
Shaotran et al. Gesture Learning For Self-Driving Cars
Hu et al. Cell-based visual surveillance with active cameras for 3D human gaze computation
Messina et al. An optimized pipeline for image-based localization in museums from egocentric images
Gokarn et al. Lightweight Collaborative Perception at the Edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination