CN103119607B

CN103119607B - 根据视频的人的活动确定的优化

Info

Publication number: CN103119607B
Application number: CN201180033766.4A
Authority: CN
Inventors: 丁磊; 范权福; S·U·潘坎绨
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2010-07-08
Filing date: 2011-07-06
Publication date: 2016-01-20
Anticipated expiration: 2031-07-06
Also published as: WO2012004281A1; GB201302244D0; GB2496547B; US9471832B2; US20120008819A1; CN103119607A; US8478048B2; US20140247994A1; DE112011102294T5; US20130266227A1; GB2496547A; US8761517B2

Abstract

在实施例中，用于确定人的行为的视频数据的自动分析包括提供可编程装置，该可编程装置将视频流分割成多个离散的个体帧图像基元，这些基元被组合成可包括根据假设的关注活动的可视事件。通过根据至少一个约束将二元变量设置为真或假来优化该可视事件。根据相关的非视频事物数据和该二元变量通过以下步骤对优化的可视事件进行处理：如果可关联，则将优化的可视事件与记录的事物相关联；如果二元变量为真并且优化的可视事件与记录的事物不可关联，则发出警报；如果二元变量为假并且优化的可视事件不可关联，则丢弃优化的可视事件。

Description

根据视频的人的活动确定的优化

技术领域

本发明涉及对视频中的人的活动的分析，更具体地讲，涉及在由此表示的行为之间进行准确区分。

背景技术

在各种环境下，可能期望针对于特定活动的出现或错过来监视人的活动，例如以遵守活动过程和政策。遵从失败可能导致由于没有观察到安全规定或物理障碍而引起的伤害、商业和零售公司中的盗窃以及其他损失或损失风险。通过利用视频系统捕获和记录行为偏差用于随后或同期的分析，可识别程序中的漏洞以进行补救，例如，通过再培训。然而，用人审查和分析视频馈送是耗时的，并且在人力资源分配上效率低下，因此期望实现视频分析的自动系统。用于确定人的活动和行为的视频自动分析提出了许多挑战，包括在确定关注的人的活动的出现时提供期望的精度水平，关注的人的活动必须被识别并且有时候与其它活动要相区分，其中，假警报和错过事件识别必须以可接受的水平发生。

发明内容

根据本发明的一个实施例，一种自动分析视频数据以确定人的行为的方法，包括提供可编程装置，所述可编程装置将视频流分割成多个离散的个体帧图像基元。将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动。通过根据一个或多个约束将二元变量设置为真或假来优化可视事件。通过以下步骤基于与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件：如果优化的可视事件可与记录的事物相关联，则将优化的可视事件与记录的事物相关联；如果二元变量为真并且优化的可视事件与记录的事物不可关联，则发出优化的可视事件可能包括关注活动的警报；以及如果二元变量为假并且优化的可视事件与记录的事物不可关联，则丢弃（drop）该优化的可视事件。

在另一方面，一种自动分析视频数据以确定人的行为的计算机系统具有CPU、计算机可读存储器和计算机可读存储介质，其中，程序指令存储在计算机可读存储介质上以经由计算机可读存储器由CPU执行。程序指令中的第一程序指令将视频流分割成多个离散的个体帧图像基元。程序指令中的第二程序指令将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动。程序指令中的第三程序指令通过根据至少一个约束将二元变量设置为真或假来优化可视事件。程序指令中的第四程序指令通过以下步骤根据与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件：如果优化的可视事件可与非视频事物数据的记录的事物相关联，则将优化的可视事件与该记录的事物相关联；如果二元变量为真并且优化的可视事件与记录的事物不可关联，则发出优化的可视事件可能包括关注活动的警报；以及如果二元变量为假并且优化的可视事件与记录的事物不可关联，则丢弃该优化的可视事件。

在另一方面，一种从视频流中自动分析视频数据以确定人的行为的服务合同，所述服务合同包含自动分析视频数据的无歧义交互规则的规范，适于帮助将视频流分割成多个离散的个体帧图像基元。服务合同还提供：将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动；通过根据至少一个约束将二元变量设置为真或假来优化可视事件；以及根据与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件。所述处理包括：如果优化的可视事件可与非视频事物数据的记录的事物相关联，则将优化的可视事件与该记录的事物相关联；如果二元变量为真并且优化的可视事件与记录的事物不可关联，则发出优化的可视事件可能包括关注活动的警报；以及如果二元变量为假并且优化的可视事件与记录的事物不可关联，则丢弃该优化的可视事件。

在另一方面，一种自动分析视频数据以确定人的行为的计算机程序产品包括其上存储有程序指令的计算机可读存储介质。程序指令中的第一程序指令将视频流分割成多个离散的个体帧图像基元。程序指令中的第二程序指令将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动。程序指令中的第三程序指令通过根据至少一个约束将二元变量设置为真或假来优化可视事件。程序指令中的第四程序指令根据与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件。所述处理包括：如果优化的可视事件可与非视频事物数据的记录的事物相关联，则将优化的可视事件与该记录的事物相关联；如果二元变量为真并且优化的可视事件与记录的事物不可关联，则发出优化的可视事件可能包括关注活动的警报；以及如果二元变量为假并且优化的可视事件与记录的事物不可关联，则丢弃该优化的可视事件

附图说明

根据下面结合附图对本发明的各个方面进行的详细描述，本发明的这些和其它特征将更容易被理解，在附图中：

图1示出了根据本发明的为了确定人的行为而优化对视频数据的自动分析的方法或系统的实施例。

图2示出了根据本发明的自动识别的可能的人的活动的状态图。

图3是根据本发明的示例性事件的运动序列的曲线图。

图4是根据本发明的重叠的示例性事件轮廓的曲线图。

图5是本发明实施例的计算机实施方式。

附图并不一定是按比例的。附图仅为示意性的表式，而不意图描绘本发明的具体参数。附图仅仅意图描述本发明的典型实施例，因此不应该被认为限制本发明的范围。在附图中，相同的标号表示相同的要素。

具体实施方式

如本领域的技术人员将理解的，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），或者还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

历史上，通常通过直接的人的监视迫使人的活动符合政策、规章等。例如，安保人员可观看瞄准指定区域的摄像机以发现对安全政策的违反、非法侵入、偷窃、对限制区域的未授权访问等。然而，人的视觉注意可能效率低，尤其是对于大量的视频数据。由于很多因素，例示地包括感兴趣的活动的频率低、任务十分乏味、在具有视觉混乱和其它分心事物的环境下进行目标追踪的可靠性差，所以人的视频监视既昂贵又低效。

一些方法可替代地聚焦在与人的活动、商业事物日志、零售收据、伤害报告等相关的数据输出上。这种数据可存储在中间存储介质（诸如关系数据库）中，然后经受人的查询和/或数据挖掘处理。虽然这种数据挖掘处理在寻找一些感兴趣的事故时可能有效，但是很多的统计异常并不与关注的活动强烈相关，因此限制了纯数据挖掘的功效。而且，通过数据挖掘可检测的事件需要被限制为与纸质追踪文件或其它数据表示输出紧密相关，因此这种方法可能无法捕捉与这种数据输出不关联的纯可视事件；例如，雇员或代理忽视了在已经被擦洗过的公共区域附近放置“小心”标识。此外，部分由过程日志描述的一些事件可能无法指示易于通过视频馈送的视觉分析进行检测的相关活动，例如下述情况：第一授权人在证章进入系统中扫了一下证章以获许进入并被另一第二未授权或未识别的人尾随跟入，该第二人在未留下证章扫描纪录的情况下也得以进入。

自动视频监视系统和方法也被提出并且是公知的，其中，计算机或其它可编程装置直接分析视频数据并尝试确定关注活动的出现。然而，由于混乱、差的或可变的光线以及对象分辨率和分散注意力的竞争视觉信息，现有技术的自动视频监视系统和方法系统的对象跟踪在现实的真实环境和应用中通常不可靠。对视频内的人的活动的分析通常被限制为捕捉和识别一组指定的主导活动，每个主导活动需要有监督的学习和因此大量的标记数据，其中，无法添加或定义新的约束来改进或加强完整的视觉依从确定。

现在参照图1，示出了根据本发明的为了确定人的行为而优化对视频数据的自动分析的方法或系统的实施例。在102，可编程装置将根据本发明的算法应用于视频流，以将视频流的一部分分割成多个离散的个体基元帧图像事件。在104，可编程装置应用假设算法以将一组基元合并成可包括关注活动的可视事件。

在106，该可视事件被根据约束进一步优化，导致将一个二元变量设置成真或假。在108，根据与视频流相关的非视频事物数据（例如，列出参照每个物品的条形码而扫描的物品的零售事物日志、十字转门进入日志、门或大门扫描器提供的条形码日志等）和在106设置的二元变量来处理优化后的可视事件。如果考虑到二元变量在108确定优化的可视事件可与记录的事物相关联，则在110将该可视事件与所述记录的事物相关联。

否则，在112根据所述二元变量以及在108确定优化的可视事件不可与记录的事物关联，确定该可视事件是否可能包括关注的活动或行为。如果在112确定优化的可视事件可能包括关注的活动或行为，则在114发出警报，否则在116该事件被丢弃或者以其它方式被忽视。

本发明的实施例通过根据从视频流内描述的实际或真实活动环境中导出的容易编码的一个约束或一个阵列的约束来优化刻画真实事件出现的质量，从而检测人的活动中关注的活动或行为。根据本发明的算法对于加强在指定环境或其它地方与一个或多个政策或规章的视觉依从是有效的、可伸缩的以及可扩展的，并且其中，真和/假活动可具有预定义的模式。可根据视频的源的预期环境来选择约束，并且约束可被容易地扩展以适应新的条件、应用或视频源环境。

基于具有视觉质量的线性项和时间质量的二次项的目标，根据本发明的算法将应用混合整数二次规划或算法作为优化工具以解决在特定或预期的视频环境中的活动识别或检测问题。实施例可利用用于检测视频输入内的指定事件的二进制整数规划，其实现加强视频环境中的视觉依从，该程序使刻画遵从有充分根据的约束阵列的感兴趣的真实事件的必要量最大化，其中二元判定变量对应于一组假设的可视事件的存在。在目标函数中，二元变量可通过从视频内容的无限高斯混合建模导出的质量量度进行加权，从而使整体质量量度最大化预计会揭示有意义的可视事件。

本发明的实施例使用帧差分将视频分割成多个离散的、个体基元帧图像事件{p_i}。通过将时间相近的基元合并以形成可包括关注活动的离散的可视事件来执行假设{h_i}生成，即h_i＝{p_i1,p_i2,…,p_in}，其中{i_j}是基元的索引，并且其中可根据活动的物理条件加强特定的时间约束。差分成基元帧图像事件{p_i}的帧和假设{h_i}生成可为观察特定视频场景内预期的重复的人的动作（例如，在零售结账柜台的常见扫描动作或者在工厂组装线中的常见预期任务动作等）的函数。因此，人的活动可被认为是重复的顺序事件（或可视工作单位）的假设集{hi}，每个假设集由具有强时空约束的一系列相对隔离并可分离的基元帧图像事件{p_i}构成。

图1中的本发明的一个实施例在102从零售店接收寄存器的视频流，识别视频馈送内收银员的特定活动并将其分割成多个静止基本的拾取、扫描和放下图像，可在104使用这些图像来构建可能的“甜心（sweet-hearting）”可视事件的离散集。甜心或“假扫描”描述了收银员的如下动作，即，收银员故意不扫描或者以其它方式使物品进入零售交易，以向表示购买这些物品的顾客提供免费的商品，通常通过覆盖物品条形码，将物品堆叠在另一物品上以阻碍扫描器读取代码，或在扫描动作期间使物品绕过扫描区域，将物品从输入（拾取）位置通过处理（扫描）区域移动到输出（放下或装袋）区域，以针对免费物品的条形码故意避开扫描区域中的条形码读取器。

零售缩水的一部分显著原因在于店员，并且发生在零售点（POS）的收银员周围。当在POS长期使用人的监控来监视交易时，在捕捉条形码扫描器附近的真扫描和假扫描动作的微妙差别方面通常不是非常有效，并且还会遇到可伸缩性问题。可使用数据挖掘来分析交易日志（TLOG），以基于统计分析推断收银员的可疑行为，但是观察到的统计异常可能不会与收银员的甜心或其它欺诈活动强烈相关。此外，相对于在给定结账柜台处理的扫描物品的总数，假扫描可能很少发生；在一个示例中，假扫描发生的频率每天在每个扫描通道不会超过两个假扫描物品，因此，检测并防止这种损失需要观察并区分在列出所有扫描的物品的该扫描通道的零售交易日志中没有对应列出的由收银员处理的仅两个物品（通常参照每个物品的条形码，但是可想到物品追踪的其它系统）。因此，通过视频监视的密切人工关注在防止甜心方面肯能没有效果或没有效率。

由于可能会观察并考虑到大量各种可能的人的运动，所以在现有技术中自动确定和区分真假甜心事件是非常难的。图2是零售环境（例如，扫描通道）中的收银员的多个可能的运动和动作162相对于可能的运动矢量152、154的上位观点状态图。（应理解的是，这里使用的“收银员”是普通术语，它表示扫描物品的人，并且实施例设想扫描的人可以是文员或收银员以及顾客、装袋工、经理或其它人。）矢量152是简单的扫描运动路径152，其中，物品从拾取区156被拾取，通过使物品在扫描器的扫描范围内穿过扫描区域160对该物品进行扫描，然后该物品在装袋或放下区域164被放下。拾取区域156的示例包括取入皮带、柜台、购物篮和小推车，放下区域164可为分配皮带、柜台、购物篮或购物车中的一个或多个，拾取区域156和放下区域164中的每个可要求不同的动作并可具有不同的节拍（例如，相对于皮带拾取或放下，从小推车拾取或放下会花费更长时间）。因此，可触发错误假扫描/甜心警报的真扫描事件可能具有各种偏离动作和节拍。

矢量154均表示相对于收银员的其它动作162并在视频馈送中可观察的观察到的运动，例示性地包括卸载物品、拿起和扫描积分卡、主管/助理越权卡（SA）、礼券或其它条形码卡。一些物品从拾取区156开始的移动可在进入放下区域164之前绕过扫描区160，有时是出于合法的目的，例如，放在一边同时直接键入条形码丢失或损坏的物品代码或者对按重量出售的物品进行称重。作为不同的收银员或环境特性的结果，单独的扫描视频馈送也可以不同，例如，作为纸用完的结果，观看到的收款打印机可不同地工作，灯光可能由于每天的时间（日光与晚上的人工照明）而改变，并且收银员个人的年龄或体型或能力也会影响手臂运动的范围、选择的运动路径或相对于其他收银员完成相似路径的时间。因此，自动系统必须考虑到甜心的图像相对于相似的合法扫描活动的很多变异和分歧，从而观察和区分真正的假扫描事件与假肯定，并避免发出过多的假警报或错过过多的假扫描。

在本发明的实施例中，为基元的创建和分析定义了不同的关注区域（ROI）。通过将视频流帧差分获得的运动像素在每帧的每个ROI中被计数，并按照ROI的面积进行归一化。再次参照图2，在适于在“进/出”扫描过程中确定甜心的实施例中，定义了拾取区域156、扫描区域160和放下区域164，以根据在所述区域内的运动序列中观察到的模式来创建各个拾取、扫描和放下基元，通常是响应于与在每个区域内物品和/或收银员的手（或双手）运动关联的运动像素。每个区域156/160/164可自身定义ROI，且将视频流帧差分获得的运动像素在每帧的每个ROI中被计数并按各个ROI156/160/164的面积进行归一化。或者，任何区域156/160/164可包含多个不同的（和有时重叠的）ROI，以提供另外的粒度或基元创建能力。

“DetectingSweetheartinginRetailSurveillianceVideos”（QuanfuFan等人，ICCASSP，2009）教导了这样一个示例，即，在得到的ROI内的运动序列中观察到的模式内通过区分创建拾取、扫描和放下基元，并且该示例适于实施本发明，其中，图3提供了拾取事件、扫描事件和放下事件的每个的运动序列的示例性图示。每个拾取和放下事件可由一对波峰182及位于它们之间的波谷180识别，描述了在事件过程中收银员的手和特定区域之间的交互导致的运动变化。波谷180对应于当手就要到达物品（拾取）或取回物品（放下）时短暂停的时刻，两个相关的波峰182的位置粗略地对应于事件的起始和结束事件。

虽然基元事件表示的模式在视觉上是可识别的，但是难以将它们在运动序列中进行分割。幸运的是，事件的时间顺序可有助于解决这个问题。拾取、扫描和放下顺序地发生，暗示了在扫描186之前应该存在一个拾取184，在扫描186之后跟随放下188。因此，可通过对观看到的扫描动作设置阈值来识别扫描事件基元：例如，参照图4，每个扫描轮廓192中的运动波峰190可被定位并用作分隔物，以将拾取事件和放下事件分开（目前通过重叠扫描轮廓192和拾取运动轮廓194示出）。

时空关注点（STIP）是由具有大的强度变化和大的时间变化的局部图像点计算的时空特征，并大致对应于存在诸如停止或开始的急剧运动变化的时刻；例如，参见I.Laptev和T.Lindeberg的“Space-timeinterestpoints”（ICCV2003，第432-439页）。在当手就要到达（拾取）或放下物品的时刻，在收银员的手附近可检测到若干STIP，因此，STIP检测器可针对所述事件的大小和持续时间自动选择空间和时间的标度，其中，对每个STIP形成时空体积，并且时空体积进一步被划分成立方体的栅格。在一些实施例中，方向梯度（HoG）和光流（HoF）的直方图可被计算、归一化并串连到每个立方体的局部描述符。

基元事件也可以被认为是收银员的手和特定区域之间的交互。然而，该交互可为无定向的并可在给定的特定区域中的几乎任何地方发生，导致为事件模型定义合适的ROI的问题。提供大到足以覆盖可能检测到事件的所有预期或可能的位置的ROI包括很多由收银员或其他人导致的无关的STIP，并且为了减轻这个问题，可应用多实例学习技术来创建位置感知事件模型。因此，一些实施例使用了多个重叠的ROI以覆盖尽可能多的基元事物，从而保证每个事件处于至少一个ROI中，其中使用多实例学习（MIL）来解决从未完全标记的数据学习的问题，例如对应关系丢失的情况。与每个训练实例可与一个标记相关联的有监督的学习不同，MIL处理标记（通常二元的，0或1）被分配给实例的包（bag）而不是个体实例的情况下的数据。肯定包具有与关注概念相关的至少一个肯定实例，而否定包中的全部实例是否定的。根据本发明的一些实施例中的MIL的目标是从未完全标记的数据中学习概念的模型以进行未见过的包或实例的分类。

从多个ROI学习事件模型可自然地联系到MIL，因为每个事件对应于至少一个ROI，但是其中对应关系未被指定。在一些实施例中，创建特征包（BOF）模型来表示其中特定区域中的时空特征基于它们的相似性被聚类到离散的“可视词语”组中的事件，并且词语出现频率的直方图被建立以形成该事件的简洁表示，直方图表示用于分类的方法。“Learningrealistichumanactionsfrommovies”（Marszalek等人，CVPR08，2008）教导了BOF建模的示例，并且其它示例对本领域技术人员来说将是清楚的。因此，对于每个注释的事件，实施例可创建肯定包，肯定包中的示例是在BOF表示下来自所有ROI的可视词语的直方图。可通过认为这些视频段具有足够的运动变化但没有以真相注释基元，以相似的方式来产生否定包。因此，根据本发明的一些实施例使用了基于支持矢量机（SVM）的MIL算法（MIL-SVM），来学习拾取和放下的事件模型，例如，参见S.Andrews、T.Hofmann和I.Tsochantaridis2002年在ArtificialIntelligence上发表的“Multipleinstancelearningwithgeneralizedsupportvectormachines”（参见943-944页）。此外，由于可将扫描事件限制为小区域，扫描基元事件确定可仅需要使用单个ROI。

“RecognitionofRepetitiveSequentialHumanActivity”（QuanfuFan等人，2009IEEEConferenceonComputerVisionandPatternRecognition）提供了适合与本发明的实施例一起使用的从个体基元帧图像事件{p_i}进行事件假设{h_i}生成的一个示例，该示例提供了顺序事件的一般图形表示，其中，{e^k _t}是在时间t发生的顺序事件中的第k基元。顺序事件S被定义为基元{e¹ _t1,e² _t2,…,eⁿ _tn}的时间顺序集合，从而t₁<t₂<…<t_n。（应注意的是，出于清楚的目的，当在此讨论变量时，可省略上标）。此外，顺序事件位置节点{l_ti}中的每个基元{e_ti}可与表示视觉信息和位置节点{l_ti}的出现节点{v_ti}相关联，位置节点{l_ti}表示基元出现的空间位置，其中，在空间模型中，与位置节点{l_ti}关联的一般节点C可将空间约束置于基元上。顺序事件中的基元符合马尔可夫模型，从而通过下面的式子给出在观察O=(v;l)下的S的概率：

p (O | S) ~ p (v | S) p (l | S)

= p (v_{t_{1}} | e_{t_{1}}) Π_{2}^{n} p (v_{t_{i}} | e_{t_{i}}) p (e_{t_{i}} | e_{t_{i - 1}}) Π_{1}^{n} p (l_{t_{i}} | e_{t_{i}}) - - - [1]

其中，v={v_t1，v_t2，...,v_tn}和l＝{l_t1,l_t2，...,l_tn}分别表示视觉线索和空间信息。这里，p(v_ti|e_ti)是当p(l_ti|e_ti)是基元e_ti的空间可能性模型时基元e_ti的出现可能性模型，p(e_ti|et_i-1)是从基元et_i-1到基元e_ti的转变概率。

假设在视频序列中检测到n个基元集合{E₁,E₂，...,E_n}，其中，E_m是具有特定类型m的基元的集合（例如，在收银员场景中的所有可能的拾取）。因此，可通过按照时间顺序从每个集合中选择基元，通过对{E₁,E₂，...,E_n}中的样本进行枚举来考虑所有这样的候选项，来形成候选顺序事件S，候选项通过以为根由Tr(i，：)表示的序列树从基元e^l _ti开始，其中，第j级处的任意节点仅从集合E_j选择并且该节点的所有孩子出现在后面的基元集合中。从序列树的根到叶节点的每条路径对应于顺序事件S的候选项。

上述的序列树组合方案产生了大量的候选顺序事件，并且产生的顺序事件候选项的数量随基元的数量成指数型增长。然而，大多数是假的，尤其是当基元检测的结果有噪声时。因此，期望选择与数据中的真值最好地匹配的顺序事件的小集合，例如，在关于从基元创建的可视事件是否为真的假扫描或假警报的甜心确定的情况下。因此，根据本发明，每个假设h_i与一个二元判定变量x_i相关联，二元判定变量x_i表示其在由二进制整数规划确定的最终结果中的选择。因此，图1的106处的优化最终导致在112选择事件或不选择事件，其中，如果x_i＝1则检测到事件i，否则在116丢弃事件i；在根据本发明的一些甜心确定实施例中，二元判定变量x_i是假扫描指示符，其中，如果x_i＝1表示真的假扫描指示并且0值表示假警报。可选地，基于事件检测结果，例如，当x_i＝1但在108确定的事物日志或其它数据库中没有对应条目时，可在114（例如，在监视环境下）触发警报。因此，在甜心应用的实施例中，当x_i=1时但没有与在零售事物日志中的扫描物品列表中的一个物品的对应匹配（从而无法与其关联）。适用于本发明实施例的二进制整数规划公式包括：

\max Σ_{i = 1}^{N} q_{i} x_{i} + λ Σ_{i = 1}^{N} Σ_{j = 1}^{N} c_{i, j} x_{i} x_{j} - - - [2]

符合：

Σ_{i = 1}^{N} x_{i} \leq L - - - [3]

\underset{i &Element; O_{j}}{Σ} x_{i} \leq 1 (j = 1, \cdot \cdot \cdot, N) - - - [4]

\underset{i &Element; V_{j}}{Σ} x_{i} &GreaterEqual; 1 (j = 1, \cdot \cdot \cdot, B) - - - [5]

x_i∈{0，1}，[6]

公式[2]表示事件的整体质量量度，其中，{c_i，j}为通过由根据约束[3]至[6]确定的高斯变换的时间距离（有时也被称为二次整数项）设置的时间仿射变换（temporalaffinity）。约束[3]对事件的数量提供了上限L。约束[4]表示时间约束，其中，j是时间假设的索引，N是事件的总数，O_j是在基元级别与假设j重叠的事件假设的集合（注意，）。约束[5]表示与事物日志或其它数据库的校正（例如，事物日志中的每个记录的扫描应该具有至少一个对应的在零售环境中检测的扫描），其中，j是记录的事物的索引，B是事物的总数，V_j是包含记录的事物j的假设的集合。约束[6]表示对判定变量的整数约束。

通过使用基于分支定界算法的线性规划，例如，如L.Wolsey、JohnWiley&Sons1998年发表的“IntegerProgramming”所教导的，λ=0的上述公式[2]可用N+B+1线性约束求解。因此，根据本发明的方法和系统可通过求解一系列线性规划松弛问题来搜索二进制整数规划问题的最优解，其中，对变量的二进制整数要求可用弱约束0≤x≤1代替。还应注意的是，在没有上述约束[5]的情况下，二进制整数公式[2]的应用退化成乘法约束的背包（Knapsack）问题，背包问题是传统的组合优化问题。（如本领域的技术人员将理解的，背包问题包含给定的物品集合，每个物品具有价值和成本，在携带背包的背景下成本为重量，确定要包括在集合中的每个物品的数量，以使得总成本/重量小于某给定的成本/重量并且总价值尽可能地大。）

106处的优化包括个体事件的质量量度。具体地讲，我们将在104创建的每个事件认为是事件基元的组合，其中每个基元被表示为可视特征的无序集合（例如，包括彩色外观）并且在反映它们在事件内的兼容性的基元之间计算合意（consensus）分数，其然后被认为定义了优化中使用的质量量度。

视频可被变换成一组在突出位置处的特征描述符，更具体地讲被表示为{v₁,v₂,…,v_Nf}，其中，v_i为在视频中的第i时空突出位置的描述矢量。时空关注点（STIP）可用于视频中的关注点选择，例如，如I.Laptev和T.Lindeberg在ICCV2003中发表的“Space-timeinterestpoints”所教导的，但是这些示例可具有关联的高计算成本。因此，本发明的一些实施例依据下面的函数[7]采用了平方加权梯度范数函数的局部最大点作为视频中的关注点：

I (x, y, t) : g (x, y, t) = {(\frac{&PartialD; I}{&PartialD; x})}^{2} + {(\frac{&PartialD; I}{&PartialD; y})}^{2} + α {(\frac{&PartialD; I}{&PartialD; t})}^{2} - - - (7)

其中，á大于1以强调时间突出点更可能与关注事件相关的事实。在整个视频剪辑上排除了具有低于阈值P^th百分数的相对小的g（*）值的（x，y,t）点，从而获得真实的时空突出点。例如，由此可提取颜色特征，所述颜色特征是在关注点周围的小窗口内RGB通道的平均值。

在一些实施例中，每个事件基元P被当作根据公式[8]的特征包（BOF）：

P = {p_{i}}_{i = 1}^{N_{p}} - - - [8]

其中，p_i是颜色特征矢量。根据本发明，对从事件基元检测的BOF建模，以提高特征一致性。更具体地讲，假设事件的视觉质量可取决于特征的模型，而不仅仅是单独的特征点。在一些实施例中，参数混合模型包括确定聚类的参数以及混合物中每个聚类的比例。尽管传统的期望最大化方法没提供确定大量聚类的明确解决方案，但是这可以通过本发明的实施例实现，本发明的实施例采用了类似于无限高斯混合模型(iGMM)的全贝叶斯方法(fullyBayesianapproach)，例如如C.Rasmussen在NIPS2000中的“TheinfiniteGaussianmixturemodel”所教导的，“TheinfiniteGaussianmixturemodel”教导了Dirichlet过程混合建模的应用。

根据本发明适合使用的一个高斯混合模型为公式[9]：

其中，π和θ分别指的是聚类权重和聚类参数，ρ是高斯密度。按照这种方式，对马尔科夫链进行仿真，马尔科夫链的平衡分布为贝叶斯混合模型后验分布，其是给定所有观察p_i的情况下模型参数上的分布，其中，吉布斯取样器(Gibbssampler)被用于模型参数。当与iGMM中使用的共轭先验结合时，根据本发明的方法和系统产生用于取样的分析条件分布。

过了一些时间后，根据本发明的取样器收敛到来自后验的一组样品，即，收敛到给定了训练特征的情况下的一组可行模型。对基元P使用最佳得分的模型M_P，从而以优选的使用个体特征点的方式捕获重要的出现信息。因此，对于一致性，可通过使用根据公式[10]和[11]的平均对数似然性来检查两个基元A和B及学习的模型M_A和M_B：

其中，所有相邻的基元对上的这些值的高斯变换平均数被定义为事件假设的视觉质量。因此，视觉质量量度可被归一化在0和1之间，此外，其中较大的质量量度意味着在视觉一致性方面更好的事件假设。

在一个方面，根据本发明的实施例将选择过程转变成优化问题，在该优化问题中使用基元事件和它们的空间约束之间的强时间依赖性来指导优化过程。尽管基元之间可能要求严格的排序，但是两个连续的工作单元可重叠任意的程度，作为活动的快速和重复性质的自然副产品。在一个方面，本发明的实施例可系统地使用整个事物中可用的全部约束（不仅仅是一个物品），以基于视频/事物日志流的同时分析进行欺诈确定和警报判定。

现在参照图5，本发明的实施例的示例性计算机化实施方式包括与装置336通信的计算机或其它可编程装置304，装置304例如通过计算机网络基础设施308响应于存储器316或存储系统332中驻留的文件中的计算机可读代码202，根据本发明分析视频数据用于确定人的行为。除此之外，该实施方式意图展示本发明可以在网络环境（例如，互联网、广域网（WAN）、局域网（LAN）或虚拟专用网络（VPN）等）内实现。整个网络308中的通信可经由各种类型的通信链路的组合发生；例如，通信链路可包括可利用有线和/或无线传输方法的任意组合的可寻址连接。

在经互联网发生通信的情况下，可通过传统的基于TCP/IP套接字的协议提供连接，可使用互联网服务提供商来建立到互联网的连接。再者，网络基础设施308意图展示服务提供商可部署、管理、服务于本发明实施例的应用，所述服务提供商对他人提供实现、部署和/或执行本发明的功能。

计算机304包括各种组件，所述各种组件中的一些组件示出在计算机304中。更具体地讲，如所示，计算机304包括与一个或多个外部I/O装置/资源328通信的处理单元（CPU）312和存储系统332。通常，处理单元312可执行存储在存储器316和/或存储系统332中的计算机程序代码，诸如执行图1中示出的处理步骤中的一个或多个的代码。

网络基础设施308仅例示了实现本发明的各种类型的计算机基础设施。例如，在一个实施例中，计算机基础设施308包括经网络通信的两个或更多个计算装置（例如，服务器集群）。而且，计算机304仅为可包括大量硬件组合的各种可能的计算机系统的代表。为此，在其它实施例中，计算机304可包括包含硬件和/或用于执行特定功能的计算机程序代码的任何专用计算制品、包含专用和通用硬件/软件的组合的任何计算制品等。在每种情况下，可使用标准的编程和工程技术来分别创建程序代码和硬件。

而且，处理单元312可包括单个的处理单元，或者被分布在一个或多个位置（例如，客户机和服务器上）的一个或多个处理单元上。类似地，存储器316和/或存储系统332可包括位于一个或多个物理位置处的各种类型的数据存储和/或传输介质的任意组合。此外，I/O接口328可包括与一个或多个外部服务器330和客户机332交换信息的任意系统。此外，应该理解的是，未示出的一个或多个另外的组件（例如，系统软件、数学协处理单元等）可包括在计算机304、330和客户机302中。

一个实施例基于订阅、广告和/或费用执行本发明的处理步骤。即，服务提供商可提供对用于确定人的行为的视频数据提供自动分析。在这种情况下，服务提供商可对计算机基础设施（例如，为一个或多个客户执行本发明的处理步骤的网络计算机基础设施308）进行创建、维护和支持等。作为回报，服务提供商可在订阅和/或费用协议下从客户接收支付，和/或服务提供商可从对一个或多个第三方广告内容的销售中接收支付。

在另一实施例中，本发明提供了执行如上所述的自动分析视频数据以确定人的行为的过程、系统和制品中的一个或多个。在这种情况下，可提供诸如计算机基础设施308的计算机基础设施，并可获得（例如，创建、购买、使用、修改等）用于执行本发明的处理步骤的一个或多个系统并将其部署到计算机基础设施。为此，系统的部署可包括一个或多个以下步骤：（1）将程序代码从计算机可读介质安装在诸如计算机304/330的计算装置上；（2）将一个或多个计算装置添加到计算机基础设施；和（3）合并和/或修改计算机基础设施的一个或多个现有系统以使计算机基础设施能够执行本发明的处理步骤。

这里使用的术语仅出于描述具体实施例的目的，而不是要限制本发明。如这里所使用的，单数形式也意图包括复数形式，除非上下文明确表明不是这样。还将理解的是，当在本说明书中使用术语“包括”和/或“包含”时，说明存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、组件和/或它们的组合。如这里所使用的，将理解的是，术语“程序代码”和“计算机程序代码”是同义的并且意味着任何的表达方式，任何语言的意图使具有信息处理能力的计算装置执行具体功能的一组指令的代码或符号，所述特定功能被直接执行或在下面两个步骤中的一个或两个之后执行：（a）转换成另一语言、代码或符号；和/或（b）以不同的材料形式再现。为此，程序代码可实施为应用/软件程序、组件软件/功能库、操作系统、特定计算和/或I/O装置的基本I/O系统/驱动程序等中的一个或多个。

在本说明书中描述的（包括在权利要求中以及如附图中所示的）特定示例和元件可通过独特的形容词区分或以其他方式识别（例如，多个元件中的“第一”元件与另一“第二”或“第三”元件相区分，“主要”与“次要”相区分、一个或“另一个”项目等）。这种识别形容词通常用于减少混淆或不确定性，并不应该被解释为将权利要求限制为任何具体示出的元件或实施例或者暗示任何权利要求要素、限制或处理步骤的任何优先级、顺序或排位。

下面的权利要求中的对应的结构、材料、动作和所有装置或步骤加功能要素的等同物意图包括与如具体要求保护的其它权利要求要素组合地执行功能的任意结构、材料或动作。本发明的描述是出于示出和描述的目的，而不是穷举的或者把本发明限制为公开的形式。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。实施例的选择和描述旨在最好地解释本发明的原理和实际应用，使本技术领域的其它普通技术人员能理解本发明的带有适合所设想的具体用途的各种修改的各种实施例。

Claims

1.一种自动分析视频数据以确定人的行为的方法，该方法包括：

提供可编程装置，所述可编程装置将视频流分割成多个离散的个体帧图像基元；

将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动；

通过根据至少一个约束将二元变量设置为真或假来优化所述可视事件；和

通过以下步骤基于与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件：

如果优化的可视事件可与非视频事物数据的记录的事物相关联，则将优化的可视事件与该记录的事物相关联；

如果所述二元变量为真并且优化的可视事件与记录的事物不可关联，则发出优化的可视事件可能包括关注活动的警报；以及

如果所述二元变量为假并且优化的可视事件与记录的事物不可关联，则丢弃该优化的可视事件；

将二元变量设置为真或假包括按从视频内容的无限高斯混合建模导出的质量对二元变量进行加权。

2.根据权利要求1所述的方法，其中，自动分析视频数据以确定人的行为的方法是一种用于确定扫描通道视频流内的甜心行为的方法；

其中，可编程装置将扫描通道视频流分割成拾取基元、扫描基元和放下基元；

其中，可视事件是拾取基元、扫描基元和放下基元的有序组合，所述二元变量是假扫描指示符，并且所述关注活动为假扫描；并且

其中，非视频事物数据是列出被扫描物品的扫描通道的零售事物日志，记录的事物为在零售事物日志中列出的物品条形码扫描。

3.根据权利要求1所述的方法，还包括应用混合整数二次算法作为具有视觉质量线性项和时间质量二次项的目标的函数。

4.根据权利要求1所述的方法，其中，将一组基元组合成可视事件包括：

将可视事件定义为基元的按时间顺序的有序集合，根据每个基元的出现可能性模型、空间可能性模型和至有序集合中的下一时间顺序基元的转变概率，每个基元与代表视觉信息的出现节点和表示出现的空间位置的位置节点相关联。

5.根据权利要求1所述的方法，其中，优化可视事件包括：

根据由基于基元数量的上限、时间约束、对事物日志的记录事物的校正和对二元变量的整数约束而确定的高斯变换的时间距离所设置的时间仿射变换，来表示按时间顺序的有序集合的基元的整体质量量度。

6.根据权利要求1所述的方法，还包括通过下面的步骤选择时空突出点：

采用平方加权梯度范数函数的局部最大点作为视频流中的关注点；以及

排除值在阈值百分数以下的平方加权梯度范数的点。

7.根据权利要求1所述的方法，其中，将一组基元组合成可视事件还包括：

把每个所述基元当作根据颜色特征矢量的特征包；以及

在无限高斯混合模型中确定聚类的参数和每个聚类的比例。

8.根据权利要求1所述的方法，其中，在无限高斯混合模型中确定聚类的参数和每个聚类的比例还包括：

对每个基元使用最佳得分模型；

通过使用最佳得分模型的平均对数似然性来检查基元的一致性；以及

将视觉质量的线性项定义为基元的相邻对的高斯变换的平均值。

9.一种自动分析视频数据以确定人的行为的计算机系统，包括：

第一模块，将视频流分割成多个离散的个体帧图像基元；

第二模块，将一组基元组合成可视事件，所述可视事件可包括根据假设的关注活动；和

第三模块，通过根据至少一个约束将二元变量设置为真或假来优化可视事件；和

第四模块，通过以下步骤根据与视频流关联的非视频事物数据和所述二元变量来处理优化的可视事件：

第六模块，通过按从视频内容的无限高斯混合建模导出的质量对二元变量进行加权，将二元变量设置为真或假。

10.根据权利要求9所述的系统，其中，自动分析视频数据以确定人的行为的系统是一种用于确定扫描通道视频流内的甜心行为的系统；

其中，第一模块将扫描通道视频流分割成拾取基元、扫描基元和放下基元；

其中，第二模块把拾取基元、扫描基元和放下基元组合成作为有序集合的可视事件，所述二元变量是假扫描指示符，并且所述关注活动为假扫描；并且

11.根据权利要求9所述的系统，还包括第五模块，第五模块应用混合整数二次算法作为具有视觉质量线性项和时间质量二次项的目标的函数。

12.根据权利要求9所述的系统，还包括第七模块，第七模块通过以下步骤将一组基元组合成可视事件：

13.根据权利要求9所述的系统，还包括第八模块，第八模块通过以下步骤优化可视事件：