CN112132119B

CN112132119B - 客流统计方法、装置、电子设备和存储介质

Info

Publication number: CN112132119B
Application number: CN202011326554.2A
Authority: CN
Inventors: 李小兵; 胡克任; 茆晓萱; 王旭; 支洪平; 刘德贵
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-05-28
Anticipated expiration: 2040-11-24
Also published as: CN112132119A

Abstract

本发明实施例提供一种客流统计方法、装置、电子设备和存储介质，其中方法包括：对待统计视频中的当前视频帧进行头肩检测，得到当前视频帧中的若干个头肩区域图像；将各个头肩区域图像输入至头肩特征提取模型，得到头肩特征提取模型输出的各个头肩区域图像的头肩特征；其中，头肩特征提取模型是基于样本图像对训练得到的，样本图像对包括锚点头肩图像、与锚点头肩图像属于相同行人的正样本头肩图像，以及与锚点头肩图像属于不同行人的负样本头肩图像；基于各个头肩区域图像的头肩特征，更新待统计视频的客流轨迹，基于客流轨迹进行客流统计。本发明实施例提供的客流统计方法、装置、电子设备和存储介质，能够保证客流轨迹跟踪的可靠性。

Description

客流统计方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种客流统计方法、装置、电子设备和存储介质。

背景技术

随着计算机视觉、数字图像处理技术的快速发展，智能视频分析已经成为一个十分活跃的领域，基于智能视频分析的客流统计也得到了广泛的应用。

目前的客流统计为了避免在行人靠近或者肢体之间相互接触发生遮挡时发生漏报。通常基于垂直视角进行视频采集，并对采集得到的视频进行头肩检测，进而匹配不同行人的运动轨迹。然而由于垂直视角下不同行人的头肩相似度较高，相同行人的头肩也可能存在一定的形变，目前的匹配方法难以保证匹配效果，影响行人的运动轨迹的准确性，导致客流统计可靠性受到影响。

发明内容

本发明实施例提供一种客流统计方法、装置、电子设备和存储介质，用以解决现有技术中基于头肩特征的行人轨迹匹配不准确，导致客流统计可靠性差的缺陷。

本发明实施例提供一种客流统计方法，包括：

对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像；

将各个头肩区域图像输入至头肩特征提取模型，得到所述头肩特征提取模型输出的各个头肩区域图像的头肩特征；其中，所述头肩特征提取模型是基于样本图像对训练得到的，所述样本图像对包括锚点头肩图像、与所述锚点头肩图像属于相同行人的正样本头肩图像，以及与所述锚点头肩图像属于不同行人的负样本头肩图像；

基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，基于所述客流轨迹进行客流统计。

根据本发明一个实施例的客流统计方法，所述头肩特征提取模型是以最大化所述锚点头肩图像与所述正样本头肩图像的头肩特征相似度，以及最小化所述锚点头肩图像与所述负样本头肩图像的头肩特征相似度为目标训练得到的。

根据本发明一个实施例的客流统计方法，所述头肩特征提取模型包括特征融合层，以及按照尺度从大到小的顺序排列的多个不同尺度的特征提取层；

所述将各个头肩区域图像输入至头肩特征提取模型，得到所述头肩特征提取模型输出的各个头肩区域图像的头肩特征，包括：

将上一尺度的图像特征输入至当前尺度的特征提取层，得到当前尺度的特征提取层输出的当前尺度的图像特征；

将每个尺度的图像特征输入至所述特征融合层，得到所述特征融合层输出的头肩特征；

其中，首个尺度的特征提取层的输入为任一头肩区域图像。

根据本发明一个实施例的客流统计方法，所述对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像，包括：

对当前视频帧进行头肩检测，得到当前视频帧中的若干个候选头肩检出框；

基于所述待统计视频中当前视频帧的前一视频帧，以及当前视频帧，确定所述当前视频帧的差分图像；

对所述差分图像进行头肩检测，得到当前视频帧中的若干个运动头肩检出框；

基于每个候选头肩检出框和每个运动头肩检出框，确定所述当前视频帧中的若干个头肩区域图像。

根据本发明一个实施例的客流统计方法，所述对所述差分图像进行头肩检测，得到当前视频帧中的若干个运动头肩检出框，包括：

基于头肩检出框尺寸，对二值化后的差分图像进行连通分量分析，得到若干个运动头肩检出框；

其中，所述头肩检出框尺寸是基于样本头肩检出框的尺寸得到的。

根据本发明一个实施例的客流统计方法，所述基于每个候选头肩检出框和每个运动头肩检出框，确定所述当前视频帧中的若干个头肩区域图像，包括：

若任一运动头肩检出框在任一候选头肩检出框中的面积占比大于等于预设占比阈值，则确定所述任一候选头肩检出框在所述当前视频帧中的区域图像为所述头肩区域图像。

根据本发明一个实施例的客流统计方法，所述基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，包括：

将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，将匹配成功的头肩区域图像的头肩特征添加至对应行人运动轨迹中。

根据本发明一个实施例的客流统计方法，所述将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，包括：

基于任一头肩区域图像的头肩特征与任一行人运动轨迹中各个历史头肩特征之间的距离，以及各个历史头肩特征对应的距离权重，确定所述任一头肩区域图像的头肩特征与所述行人运动轨迹之间的距离；

基于各个头肩区域图像的头肩特征与各个行人运动轨迹之间的距离，构建代价矩阵；

基于所述代价矩阵，对各个头肩区域图像的头肩特征与各个行人运动轨迹进行匹配。

基于任一行人运动轨迹中的各个历史头肩特征，确定所述任一行人运动轨迹的预估头肩特征；

将各个头肩区域图像中与所述预估头肩特征之间的距离小于预设距离阈值的头肩特征，与所述任一行人运动轨迹中的各个历史头肩特征进行匹配；

若所述任一行人运动轨迹未匹配到头肩特征，则将所述预估头肩特征添加至所述行人运动轨迹。

根据本发明一个实施例的客流统计方法，述基于所述客流轨迹进行客流统计，包括：

基于预先设定的规则线与所述客流轨迹中各个行人运动轨迹的交叉状态，进行客流统计。

本发明实施例还提供一种客流统计装置，包括：

头肩检测单元，用于对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像；

特征提取单元，用于将各个头肩区域图像输入至头肩特征提取模型，得到所述头肩特征提取模型输出的各个头肩区域图像的头肩特征；其中，所述头肩特征提取模型是基于样本图像对训练得到的，所述样本图像对包括锚点头肩图像、与所述锚点头肩图像属于相同行人的正样本头肩图像，以及与所述锚点头肩图像属于不同行人的负样本头肩图像；

客流统计单元，用于基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，基于所述客流轨迹进行客流统计。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述客流统计方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述客流统计方法的步骤。

本发明实施例提供的客流统计方法、装置、电子设备和存储介质，应用头肩特征提取模型进行头肩特征的提取，相对于直接在头肩检测阶段提取头肩特征的方案，能够提高头肩特征的针对性和代表性，进而保证客流轨迹跟踪的可靠性。此外，基于样本图像对训练头肩特征提取模型，能够保证通过头肩提取模型得到的不同行人的头肩特征之间具有较大区别，进一步提高客流轨迹跟踪的可靠性，保证客流统计的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术行人来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的客流统计方法的流程示意图；

图2为本发明实施例提供的头肩特征提取模型的训练示意图；

图3为本发明实施例提供的头肩特征提取模型的运行流程示意图；

图4为本发明实施例提供的头肩特征提取模型的结构示意图；

图5为本发明实施例提供的头肩检测方法的流程示意图；

图6为本发明实施例提供的客流统计示意图；

图7为本发明另一实施例提供的客流统计方法的流程示意图；

图8为本发明实施例提供的客流统计装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术行人在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

客流统计通常首先考虑对视频中的行人进行头肩检测，在检测的基础上对其进行跟踪，最后通过拌线进行人数统计。具体在跟踪时，通常是直接将用于检测的深度模型中某一层的深度卷积特征归一化后进行匹配，然而检测模型的卷积层通过训练后虽然可以预期头肩和其它背景之间区分的效果，但是无法保证不同行人头肩的区分效果。考虑垂直视角不同行人的头肩相似度较高，相同行人头肩也存在一定的形变，目前的匹配方法难以保证匹配效果，影响跟踪准确性，导致客流统计可靠性低。

对此，本发明实施例提供了一种客流统计方法。图1为本发明实施例提供的客流统计方法的流程示意图，如图1所示，该方法包括：

步骤110，对待统计视频中的当前视频帧进行头肩检测，得到当前视频帧中的若干个头肩区域图像。

具体地，待统计视频即需要进行客流统计的视频，待统计视频可以是以垂直视角装设在需要进行客流统计的场所下视频采集设备实时采集并传输的视频，也可以是视频采集设备预先采集并存储的视频。待统计视频包括多个视频帧，当前视频帧即当前需要进行客流统计的视频帧，基于当前视频帧进行客流统计所得的结果，反映的是当前视频帧对应时间的客流情况。

对当前视频帧进行头肩检测的方式有多种，例如可以将当前视频帧输入至预先训练好的用于头肩检测的神经网络模型中，将神经网络模型的输出结果作为头肩检测的结果，也可以结合当前视频帧与当前视频帧的前一视频帧，对当前视频帧进行运动状态下的头肩检测，本发明实施例对此不作具体限定。

通过对当前视频帧进行头肩检测，可以得到若干个头肩区域图像，此处的头肩区域图像即从当前视频帧中截取的包含有单个行人头肩的图像。头肩区域图像的数量等于当前视频帧中包含的行人人数，每个头肩区域图像对应一个行人。

步骤120，将各个头肩区域图像输入至头肩特征提取模型，得到头肩特征提取模型输出的各个头肩区域图像的头肩特征；其中，头肩特征提取模型是基于样本图像对训练得到的，样本图像对包括锚点头肩图像、与锚点头肩图像属于相同行人的正样本头肩图像，以及与锚点头肩图像属于不同行人的负样本头肩图像。

相较于直接将头肩检测过程中提取的特征作为头肩特征，本发明实施例中通过头肩特征提取模型额外进行头肩特征的提取，具备更强的针对性，由此得到的头肩特征更具备代表性，不同行人的头肩特征之间的区别性更强，更有益于提高客流轨迹跟踪的准确性和可靠性。

进一步地，考虑到垂直视角下不同行人的头肩相似度较高，为了提高头肩特征提取的代表性，可以基于样本图像对训练头肩特征提取模型。此处的样本图像对可以体现为三元组的形式，三元组中包括锚点头肩图像、正样本头肩图像以及负样本头肩图像，锚点头肩图像、正样本头肩图像以及负样本头肩图像均可以是对样本视频帧进行头肩检测所得的头肩区域图像，其中锚点头肩图像、正样本头肩图像对应的是同一个行人，锚点头肩图像和负样本头肩图像对应的是不同的行人。

在头肩特征提取模型训练过程中，可以将基于锚点头肩图像和正样本头肩图像所得的头肩特征之间的相似性，以及基于锚点头肩图像和负样本头肩图像所得的头肩特征之间的差异性作为头肩特征提取模型性能的衡量标准，从而尽量提取同个行人头肩特征的共性，以及不同行人头肩特征之间差异性，进而提高基于头肩特征提取模型输出的头肩特征的代表性。

步骤130，基于各个头肩区域图像的头肩特征，更新待统计视频的客流轨迹，基于客流轨迹进行客流统计。

具体地，客流轨迹用于反映待统计视频中包含的各个行人的运动轨迹，客流轨迹可以由若干条行人运动轨迹构成，行人运动轨迹和实际出现在待统计视频中的行人一一对应。每条行人运动轨迹均包含一个或者多个时刻下对应行人的位置，以及对应位置处该行人的头肩特征。

在得到当前视频帧中各个头肩区域图像的头肩特征后，即可将各个头肩区域图像的头肩特征与上一次更新后的客流轨迹中各个行人运动轨迹中包含的头肩特征进行匹配，得到当前视频帧中各个头肩区域图像的头肩特征与各个行人运动轨迹之间的对应关系，进而将各个头肩区域图像的头肩特征添加到对应的行人运动轨迹中，实现基于当前视频帧的客流轨迹更新。需要说明的是，客流轨迹会根据待识别视频中的每个视频帧逐次进行更新。

在得到更新后的客流轨迹后，即可基于预先设定的用于表征待统计区域的规则线，判断客流轨迹中各个行人运动轨迹对应行人与待统计区域之间的进出关系，进而得到客流统计结果。此处，待统计区域即待统计视频中需要进行客流统计的具体区域，待统计区域的规则线设置于待统计区域内，如果行人运动轨迹与规则先相交，则可以确定该行人运动轨迹对应的行人经过待统计区域，由此计入客流量。

本发明实施例提供的方法，应用头肩特征提取模型进行头肩特征的提取，相对于直接在头肩检测阶段提取头肩特征的方案，能够提高头肩特征的针对性和代表性，进而保证客流轨迹跟踪的可靠性。此外，基于样本图像对训练头肩特征提取模型，能够保证通过头肩提取模型得到的不同行人的头肩特征之间具有较大区别，进一步提高客流轨迹跟踪的可靠性，保证客流统计的准确性。

基于上述实施例，头肩特征提取模型是以最大化锚点头肩图像与正样本头肩图像的头肩特征相似度，以及最小化锚点头肩图像与负样本头肩图像的头肩特征相似度为目标训练得到的。

具体地，锚点头肩图像的头肩特征和正样本头肩图像的头肩特征之间的相似度即锚点头肩图像与正样本头肩图像的头肩特征相似度，锚点头肩图像与正样本头肩图像是同一个行人的头肩区域图像，两者之间的头肩特征相似度越高，则两者的头肩特征越能够反映在忽略掉行走状态、背景、形变等差异的情况下，同一个行人的头肩的共性特征。

锚点头肩图像的头肩特征与负样本头肩图像的头肩特征之间的相似度即锚点头肩图像与负样本头肩图像的头肩特征相似度，锚点头肩图像与负样本头肩图像是不同行人的头肩区域图像，两者之间的头肩特征相似度越低，则两者的头肩特征之间的差异性越明显，越能够反映出来不同行人的头肩之间的差异性特征。

以最大化锚点头肩图像与正样本头肩图像的头肩特征相似度，以及最小化锚点头肩图像与负样本头肩图像的头肩特征相似度为目标，可以使得头肩特征提取模型在训练过程中尽量多地学习同一个行人的头肩之间的共性特征，以及不同行人的头肩之间的差异性特征，从而使得训练得到的头肩特征提取模型所提取的头肩特征能够充分反映头肩区域图像中行人头肩的特征，提高头肩特征的代表性和针对性。

基于上述任一实施例，图2为本发明实施例提供的头肩特征提取模型的训练示意图，如图2所示，表示训练Trainning的箭头左侧为训练前的特征，箭头右侧为训练后的特征。Anchor表示锚点头肩图像的头肩特征，positive表示正样本头肩图像的头肩特征，negative表示负样本头肩图像的头肩特征。图2中以头肩特征之间的距离反映两者之间的相似度，相较于训练前，训练后的Anchor与positive之间的距离更近，相似度更高，训练后的Anchor与negative之间的距离更远，相似度更高。

相应地，头肩特征提取模型的损失函数可以基于锚点头肩图像与正样本头肩图像的头肩特征相似度，以及锚点头肩图像与负样本头肩图像的头肩特征相似度确定。具体可以体现为如下形式：

式中，

和

分别表示锚点头肩图像、正样本头肩图像和负样本头肩图像，

表示对应图像的头肩特征，

为锚点头肩图像

与正样本头肩图像

的头肩特征相似度，

为锚点头肩图像

与负样本头肩图像

的头肩特征相似度，

为用于保证训练效果的间隔参数，其作用是防止样本的特征聚合到一个小空间中，要求同一样本图像对中锚点头肩图像

与正样本头肩图像

的头肩特征相似度，与锚点头肩图像

与负样本头肩图像

的头肩特征相似度，此两者之间的距离至少大于

。

式中，N为样本图像对的总数，

为对应图像的行人标识，

表示锚点头肩图像

与正样本头肩图像

属于同一个行人，锚点头肩图像

与负样本头肩图像

属于不同的行人。

基于上述任一实施例，头肩特征提取模型包括特征融合层，以及按照尺度从大到小的顺序排列的多个不同尺度的特征提取层。

其中，特征提取层的尺度用于表征对应输出的图像特征的尺度，特征提取层的尺度越小，其输出的图像特征具有的信息更高层、更丰富。多个不同尺度的特征提取层按照尺度从大到小的顺序排列，并将前一尺度的特征提取层的输出作为当前尺度的特征提取层的输入，从而逐次减小头肩区域图像的特征提取尺度，使得各个尺度的特征提取层输出的图像特征越来越高级。

特征融合层可以逐层融合各个尺度的特征提取层输出的图像特征，从而得到包含所有尺度的图像特征表征信息的头肩特征。

基于上述任一实施例，图3为本发明实施例提供的头肩特征提取模型的运行流程示意图，如图3所示，步骤120包括：

步骤121，将上一尺度的图像特征输入至当前尺度的特征提取层，得到当前尺度的特征提取层输出的当前尺度的图像特征；

其中，首个尺度的特征提取层的输入为该头肩区域图像。

具体地，针对于多个不同尺度的特征提取层，每个特征提取层均可以作为当前尺度的特征提取层执行步骤121。首先，可以将任一头肩区域图像输入至尺度最大的特征提取层，从而得到该特征提取层输出的尺度最大、最底层的图像特征。随即，将当前特征提取层输出的图像特征输入至下一尺度的特征提取层，得到该下一尺度的特征提取层输出的图像特征。以此类推，直至得到尺度最小的特征提取层输出的尺度最小、最高层的图像特征。

步骤122，将每个尺度的图像特征输入至特征融合层，得到特征融合层输出的头肩特征。

具体地，不同尺度的特征提取层所输出的图像特征中包含的语义信息不同，其中尺度越大的特征提取层输出的图像特征中包含的语义信息越底层，但细节信息越多，尺度越小的特征提取层输出的图像特征中包含的语义信息越高层，但细节信息越少。考虑到行人头肩本身的差异较小，为了捕获更加细节、更加全面的头肩特征，本发明实施例中的特征融合层将所有尺度的图像特征进行融合，并将融合后的图像特征作为最终的头肩特征输出。

本发明实施例提供的方法，利用不同尺度的特征提取层提取不同尺度的图像特征，然后基于特征融合层融合每一图像特征，实现低级语义和高级语义的融合，从而提高头肩特征匹配的准确性。

图4为本发明实施例提供的头肩特征提取模型的结构示意图，如图4所示，虚实线表示上采样（up sample），实线表示使用卷积层进行下采样（down sample），虚线表示保持原有分辨率（keep resolution）。头肩特征提取模型包括四个不同尺度的特征提取层，对应于图4中的Conv1、Conv2、Conv3和Conv4，分别对应的尺度是1/4、1/8、1/16和1/32。特征融合层对应于图4中的Add节点、全连接层FC和L2正则化L2 Norm，特征融合层将当前尺度的特征提取层输出的图像特征经过上采样后叠加在上一尺度的融合结果上，从而得到当前尺度的融合结果，将最后一个尺度的融合结果通过全连接层进行全局特征映射后，利用L2正则化进行归一化，得到最终的头肩特征。其中，全连接层映射所得的全局特征可以是256维，应用L2正则化是为了兼容欧式距离的度量，为后续计算图像特征之间的相似度提供便利。

在目前的头肩检测方法中，通常是针对单帧图像进行静态检测。静态检测在头肩相近的背景下极易产生误检，影响跟踪和技术效果。对此，基于上述任一实施例，图5为本发明实施例提供的头肩检测方法的流程示意图，如图5所示，步骤110包括：

步骤111，对当前视频帧进行头肩检测，得到当前视频帧中的若干个候选头肩检出框。

具体地，对当前视频帧进行头肩检测，即对当前视频帧的单帧静态图像进行头肩检测，由此得到若干个候选头肩检出框，具体可以通过预先训练的神经网络模型实现。此处，候选头肩检出框即对单帧静态图像进行头肩检测所得的结果，考虑到单帧静态检测容易存在误检的问题，由此得到的检测结果不作为最终的检测结果，而仅作为候选结果，后续可以结合运动信息所得的检测结果来校正误检问题。

步骤112，基于待统计视频中当前视频帧的前一视频帧，以及当前视频帧，确定当前视频帧的差分图像；对差分图像进行头肩检测，得到当前视频帧中的若干个运动头肩检出框。

具体地，考虑到客流统计是在动态的场景下执行的，待统计视频中采集到的各个行人均是运动的，可以通过帧差法获取运动特征以消除单帧静态检测导致的误检问题。帧差法具有计算速度快，对光线等场景变化不敏感的特点，能够快速适应环境变化，适合动态检测。

进一步地，可以对当前视频帧以及当前视频帧的前一视频帧进行差分运算，进而得到差分图像，差分图像用于反映相邻两个视频帧中的运动信息。由于行人处于运动状态，差分图像所反映的运动信息中保留了运动中的行人的头肩特征，针对差分图像进行头肩检测，即可得到运动状态下的头肩检测结果，即运动头肩检出框。

需要说明的是，本发明实施例不对步骤111和步骤112的执行顺序作具体限定，步骤111可以在步骤112之前或者之后执行，也可以与步骤122同步执行。

步骤113，基于每个候选头肩检出框和每个运动头肩检出框，确定所述当前视频帧中的若干个头肩区域图像。

具体地，考虑到需要客流统计的场景通常人多拥挤，行人发型多样性，戴不同种类的帽子，步骤111中单帧静态检测可能存在误检的问题，可以在步骤111进行头肩检测时设置较低的阈值，从而尽量减小漏检的可能。在此基础上，将步骤111所得的每个候选头肩检出框与步骤112所得的每个运动头肩检出框相结合，来筛除候选头肩检出框中误检的部分，最终确定得到若干个头肩检出框，并将每个头肩检出框在当前视频帧中对应的区域图像作为头肩区域图像。

本发明实施例提供的方法，将单帧静态检测与运动检测相结合，实现了准确可靠的头肩检测。

基于上述任一实施例，步骤111包括：

将当前视频帧输入至预训练的头肩检测模型中，得到头肩检测模型输出的当前视频帧中的若干个候选头肩检出框。

此处，头肩检测模型可以使用简化的yolov3-tiny实现。yolov3-tiny作为单阶段检测算法yolov3的简化版，在运算速度和精度上进行了权衡，应用yolov3-tiny进行单帧静态图像的头肩检测，有助于提高头肩检测效率。

考虑到头肩检测模型仅需要检测头肩，检测目标的大小比较固定，可以通过预先收集的头肩数据集聚类计算anchor（锚框），从而提高边界框的检出率，其中边界框和分类的损失函数与yolov3-tiny保持一致，分类具体是头肩目标和背景两类。

在执行步骤111之前，可以首先对头肩检测模型进行训练，具体训练可以具体如下步骤实现：首先，收集大量包含头肩目标的图像作为样本图像，采用数据增强进一步增加数据量：随机遮挡目标的一部分，随机的颜色扰动（亮度，色调，饱和度和对比度），图像翻转，旋转和缩放等多种方式，增加模型的性能及稳定性。在完成样本图像的目标检出框标注后，基于样本图像及其目标检出框对初始模型进行训练，从而得到头肩检测模型。此处的初始模型可以是yolov3-tiny。

基于上述任一实施例，步骤112包括：

其中，头肩检出框尺寸是基于样本头肩检出框的尺寸得到的。

具体地，可以对当前视频帧和前一视频帧分别进行灰度化处理，假设当前视频帧的灰度图为

，前一帧灰度图为

，计算差分图像

，对差分图像二值化处理即得到二值化的差分图像，也就是前景图像

：

其中，

为预先设定的二值化阈值。

对于上述提取的二值化后的差分图像

，可以使用开运算清除小的像素噪音，再使用闭运算重建在开运算中被腐蚀掉的区域。结合步骤111中聚类分析得到的头肩目标的大小，即头肩检出框尺寸，通过连通分量分析，寻找足够大的轮廓并计算上述轮廓获得头肩的团块结果。记录每个团块获取外接矩形框的位置，得到若干个运动头肩检出框。

基于上述任一实施例，步骤113包括：

若任一运动头肩检出框在任一候选头肩检出框中的面积占比大于等于预设占比阈值，则确定所述任一候选头肩检出框在当前视频帧中的区域图像为头肩区域图像。

具体地，假设候选头肩检出框的集合记为

，

表示第

个候选头肩检出框，

为候选头肩检出框的总数。运动头肩检出框的集合记为

，

表示第

个运动头肩检出框，n为运动头肩检出框的总数。对于候选头肩矩形框

，若存在

使得

则可以确定

处于运动状态，可以正常跟踪计数，将

在当前视频帧中对应的区域图像作为头肩区域图像。

其中，

表示的是运动头肩检出框

在候选头肩检出框

中的面积占比，如果

大于预先设定的面积占比阈值，即预设占比阈值

，可以确定

处于运动状态。

基于上述任一实施例，步骤130中，所述基于各个头肩区域图像的头肩特征，更新待统计视频的客流轨迹，包括：

进一步地，匹配过程可以基于如下步骤实现：

基于任一头肩区域图像的头肩特征与任一行人运动轨迹中各个历史头肩特征之间的距离，以及各个历史头肩特征对应的距离权重，确定该头肩区域图像的头肩特征与该行人运动轨迹之间的距离；基于各个头肩区域图像的头肩特征与各个行人运动轨迹之间的距离，构建代价矩阵；基于代价矩阵，对各个头肩区域图像的头肩特征与各个行人运动轨迹进行匹配。

假设当前时刻t对应的当前视频帧中第i个头肩区域图像为

，当前视频帧中第i 个头肩区域图像的头肩特征为

；上次更新的客流轨迹中第j条行人运动轨迹包括多个时刻的头肩区域图像的头肩特征，其中第

个时刻的头肩区域图像为

，历史头肩特征为

。

当前视频帧中任一头肩区域图像的头肩特征与上次更新的客流轨迹中任一行人运动轨迹中任一历史头肩特征之间的相似度可以表示为两者之间的距离，具体体现为如下公式：

式中，

即当前视频帧中第i个头肩区域图像的头肩特征

与上次更新的客流轨迹中第j条行人运动轨迹中第

个时刻的历史头肩特征

之间的距离，距离越小，两个头肩特征越相似，将头肩特征

匹配至第j条行人运动轨迹的可能性越高。

在此基础上，分别计算

与第j条行人运动轨迹中每个历史头肩特征之间的距离，由此得到

与第j条行人运动轨迹的整体的距离

，体现为如下公式：

式中，

为预先设定的权重系数，

为当前时刻t的第i个头肩特征与第j条行人运动轨迹中上一时刻

对应的历史头肩特征之间的距离，

之前的所有时刻对应的历史头肩特征之间的距离的平均值。

在针对任一头肩区域图像的头肩特征与任一行人运动轨迹之间距离的计算过程中，考虑到行人动作突变或者高峰拥挤导致的检测不稳定，距离的计算除了利用行人运动轨迹中前一时刻的历史头肩特征，还利用了行人运动轨迹中前一时刻之前各个时刻的历史头肩特征。与此同时，考虑到行人运动轨迹中包含了各个时刻的历史头肩特征，而越接近当前时刻的历史头肩特征，与当前时刻的头肩特征进行距离计算的置信度越高，为行人运动轨迹中各个时刻的历史头肩特征与当前时刻的头肩特征匹配所得的距离设置了不同的距离权重，从而提高接近当前时刻的历史头肩特征在距离匹配中的距离权重，提高距离匹配的准确性。

在得到当前视频帧中各个头肩区域图像的头肩特征与上次更新的客流轨迹中各个行人运动轨迹之间的距离

后，可以基于

构建代价矩阵，将头肩区域图像的头肩特征与行人运动轨迹之间的匹配问题，转换为带权二分图的最优匹配问题，通过KM（kuhn- Munkres）算法进行匹配，从而得到头肩区域图像的头肩特征与各个行人运动轨迹之间的匹配关系。

基于上述任一实施例，步骤130中，所述将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，包括：

基于任一行人运动轨迹中的各个历史头肩特征，确定该行人运动轨迹的预估头肩特征；

将各个头肩区域图像中与预估头肩特征之间的距离小于预设距离阈值的头肩特征，与该行人运动轨迹中的各个历史头肩特征进行匹配；

若该行人运动轨迹未匹配到头肩特征，则将预估头肩特征添加至行人运动轨迹。

具体地，在进行匹配的过程中，针对任一行人运动轨迹，可以根据该行人运动轨迹中各个历史头肩特征，预测当前时刻该行人的头肩特征，即得到预估头肩特征。此处，预估头肩特征的预测可以通过卡尔曼滤波算法实现，具体可以通过卡尔曼滤波算法基于行人运动轨迹中的先验位置，对当前时刻的行人位置进行预测，并基于预测得到的位置计算预估头肩特征。

在得到预估头肩特征后，可以将预估头肩特征与当前视频帧中的各个头肩特征进行比较，若两者之间的差值大于等于预先设置的预设距离阈值，则说明头肩特征与该行人运动轨迹相匹配的概率较低，可以不对该头肩特征与该行人运动轨迹进行进一步的匹配，若两者之间的差值小于预设距离阈值，则说明头肩特征与该行人运动轨迹相匹配的概率较高，可以针对该头肩特征与该行人运动轨迹进行进一步的匹配。

在将所有头肩特征和所有行人运动轨迹进行匹配，有可能存在未被匹配到的行人运动轨迹，此时可以将预测所得的预估头肩特征作为当前时刻的该行人运动轨迹跟踪得到的头肩特征加入到该行人运动轨迹中。同时可以记录该行人运动轨迹未被匹配到的次数，如果任一行人运动轨迹连续预设次数未能匹配到头肩特征，则说明该行人运动轨迹跟踪丢失，可以删除该行人运动轨迹。

此外，还有可能存在未被匹配到的头肩特征，针对于当前视频帧中未被匹配到的头肩特征，可以回溯该头肩特征对应在头肩检测时的置信度，如果置信度高于预先设定的置信度阈值，则保留该头肩特征，并在后续多帧的跟踪匹配过程中，将该头肩特征与后续各帧的头肩特征分别进行匹配，如果该头肩特征能够与后续多帧的头肩特征相匹配，则说明待统计视频出现了新的行人目标，新建对应的行人运动轨迹，并将该头肩特征以及后续与其相匹配的头肩特征加入新建的行人运动轨迹中。

基于上述任一实施例，步骤130中，所述基于客流轨迹进行客流统计，包括：

基于预先设定的规则线与更新后的客流轨迹中各个行人运动轨迹之间的相交状态，进行客流统计。

此处，预先设定的规则线可以是一条，也可以是两条，两条规则线在统计客流的同时，通过标识进出方向。图6为本发明实施例提供的客流统计示意图，如图6所示，虚线框出的区域即待统计视频中的ROI（Region Of Interest，感兴趣区域），AB和CD即ROI中预先设定的两条规则线，根据行人运动轨迹与两条规则线相交的先后顺序，即可确定行人运动轨迹的运动方向，如果先与AB相交再与CD相交，则确定为外出方向；如果先与CD相交再与AB相交，则确定为进入方向。需要说明的是，只有与两条规则线均相交的行人运动轨迹对应的行人才会被计数，从而避免对犹豫未进入或门口徘徊的情形的计数。

头肩检出框与规则线是否相交的判断标准可以为检出框的任意一条边与规则线段相交，线段相交可以通过向量叉积进行判断：

设置向量

为

，向量

为

，则向量叉积

的结果仍然是一个向量，具体为

和

向量所在平面的法向量，可以通过叉积的符号判断两个向量之间的顺逆时针关系：如果

，则

在

的顺时针方向；如果

，则

在

的逆时针方向；如果

，则

和

共线，同向或者反向。

以图6中的AB和EH相交为例，需要点A、B和E、H相互跨立，即A和B分别在线段EH两侧，E和H分别在线段AB两侧。判断A和B在EH两侧只需向量EA和向量EB分别在向量EH两侧，即向量积EH×EA与向量积EH×EB异号；判断H和E在AB两侧只需向量AH和向量AE分别在向量AB两侧，即向量积AB×AH与向量积AB×AE异号。

基于上述任一实施例，步骤110中的头肩检测通过头肩检测模型实现，步骤120中头肩特征的提取通过头肩特征提取模型实现。

其中，头肩检测模型可以基于yolov3-tiny实现。然而，即便yolov3-tiny这种较轻量级模型也需要耗费大量计算资源和内存，而在前端相机部署并满足低延迟的检测计数场景的应用，还需要考虑到头肩检测模型和头肩特征提取模型训练时张量一般采用32位浮点数据精度（FP32），一旦训练完成，在实际部署时不需要反向传播，可以适当降低精度比如降为FP16或者INT8精度，从而降低延迟、减少内存占用。考虑到INT8只有256个数值，用INT8表示FP32的精度不可避免的造成信息丢失，可以通过使用权重共享来量化权重，具体可以通过使用K-means算法，对模型内部的每一层都做一个权重的聚类，属于同一个聚类的就共享同一个权值大小。再对量化后的权重和码本（codebook）使用霍夫曼编码，进一步压缩模型体积。从而在牺牲较小精度的前提保证客流功能的可用性。

基于上述任一实施例，图7为本发明另一实施例提供的客流统计方法的流程示意图，如图7所示，该方法包括：

首先，对待统计视频中的当前视频帧的单帧静态图像进行头肩检测，由此得到若干个候选头肩检出框。此处单帧静态检测可以通过预先训练好的yolov3-tiny模型实现。

其次，基于待统计视频中当前视频帧的前一视频帧，以及当前视频帧，确定当前视频帧的差分图像，进而应用帧差法筛除单帧静态检测所得的候选头肩检出框中误检的部分，从而得到准确可靠的头肩检测结果。

接着，对头肩检测所得的每个头肩区域图像进行头肩特征提取，得到相应的头肩特征。此处具体通过头肩特征提取模型进行头肩特征提取，头肩特征提取模型可以是基于同一个行人的头肩之间的共性特征，以及不同行人的头肩之间的差异性特征训练得到的。

随后，计算各个头肩特征与上次更新的客流轨迹中各个行人运动轨迹之间的距离，并由此构建代价矩阵。

基于代价矩阵，将头肩区域图像的头肩特征与行人运动轨迹之间的匹配问题，转换为带权二分图的最优匹配问题，通过KM算法进行匹配，从而得到头肩区域图像的头肩特征与各个行人运动轨迹之间的匹配关系。并基于头肩特征与各个行人运动轨迹之间的匹配关系，将头肩特征加入对应的行人运动轨迹中，实现客流轨迹的整体更新。

此后，基于更新后的客流轨迹进行客流统计。

基于上述任一实施例，图8为本发明实施例提供的客流统计装置的结构示意图，如图8所示，该装置包括头肩检测单元810、特征提取单元820和客流统计单元830；

其中，头肩检测单元810用于对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像；

特征提取单元820用于将各个头肩区域图像输入至头肩特征提取模型，得到所述头肩特征提取模型输出的各个头肩区域图像的头肩特征；其中，所述头肩特征提取模型是基于样本图像对训练得到的，所述样本图像对包括锚点头肩图像、与所述锚点头肩图像属于相同行人的正样本头肩图像，以及与所述锚点头肩图像属于不同行人的负样本头肩图像；

客流统计单元830用于基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，基于所述客流轨迹进行客流统计。

本发明实施例提供的装置，应用头肩特征提取模型进行头肩特征的提取，相对于直接在头肩检测阶段提取头肩特征的方案，能够提高头肩特征的针对性和代表性，进而保证客流轨迹跟踪的可靠性。此外，基于样本图像对训练头肩特征提取模型，能够保证通过头肩提取模型得到的不同行人的头肩特征之间具有较大区别，进一步提高客流轨迹跟踪的可靠性，保证客流统计的准确性。

基于上述任一实施例，所述头肩特征提取模型是以最大化所述锚点头肩图像与所述正样本头肩图像的头肩特征相似度，以及最小化所述锚点头肩图像与所述负样本头肩图像的头肩特征相似度为目标训练得到的。

基于上述任一实施例，所述头肩特征提取模型包括特征融合层，以及按照尺度从大到小的顺序排列的多个不同尺度的特征提取层。

基于上述任一实施例，特征提取单元820用于：

其中，首个尺度的特征提取层的输入为所述任一头肩区域图像。

基于上述任一实施例，头肩检测单元810包括：

静态检测子单元，用于对当前视频帧进行头肩检测，得到当前视频帧中的若干个候选头肩检出框；

差分子单元，用于基于所述待统计视频中当前视频帧的前一视频帧，以及当前视频帧，确定所述当前视频帧的差分图像；

动态检测子单元，用于对所述差分图像进行头肩检测，得到当前视频帧中的若干个运动头肩检出框；

综合子单元，用于基于每个候选头肩检出框和每个运动头肩检出框，确定所述当前视频帧中的若干个头肩区域图像。

基于上述任一实施例，动态检测子单元具体用于：

基于上述任一实施例，综合子单元具体用于：

基于上述任一实施例，客流统计单元830用于：

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行客流统计方法，该方法包括：

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的客流统计方法，该方法包括：

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的客流统计方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术行人在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术行人可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术行人应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种客流统计方法，其特征在于，包括：

对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像，所述头肩区域图像是从所述当前视频帧中截取的包含有单个行人头肩的图像，所述待统计视频是基于垂直视角采集的；

基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，基于所述客流轨迹进行客流统计；

其中，所述基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，包括：

将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，将匹配成功的头肩区域图像的头肩特征添加至对应行人运动轨迹中；

所述将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，包括：

基于任一头肩区域图像的头肩特征与任一行人运动轨迹中各个历史头肩特征之间的距离，以及各个历史头肩特征对应的距离权重，确定所述任一头肩区域图像的头肩特征与所述任一行人运动轨迹之间的距离；其中，头肩特征之间的距离为头肩特征之间的相似度；

2.根据权利要求1所述的客流统计方法，其特征在于，所述头肩特征提取模型是以最大化所述锚点头肩图像与所述正样本头肩图像的头肩特征相似度，以及最小化所述锚点头肩图像与所述负样本头肩图像的头肩特征相似度为目标训练得到的。

3.根据权利要求1所述的客流统计方法，其特征在于，所述头肩特征提取模型包括特征融合层，以及按照尺度从大到小的顺序排列的多个不同尺度的特征提取层；

其中，首个尺度的特征提取层的输入为任一头肩区域图像。

4.根据权利要求1所述的客流统计方法，其特征在于，所述对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像，包括：

5.根据权利要求4所述的客流统计方法，其特征在于，所述基于每个候选头肩检出框和每个运动头肩检出框，确定所述当前视频帧中的若干个头肩区域图像，包括：

6.根据权利要求1所述的客流统计方法，其特征在于，所述将各个头肩区域图像的头肩特征，与上次更新的客流轨迹中各个行人运动轨迹中各个历史头肩特征进行匹配，包括：

若所述任一行人运动轨迹未匹配到头肩特征，则将所述预估头肩特征添加至所述任一行人运动轨迹。

7.根据权利要求1至5中任一项所述的客流统计方法，其特征在于，所述基于所述客流轨迹进行客流统计，包括：

8.一种客流统计装置，其特征在于，包括：

头肩检测单元，用于对待统计视频中的当前视频帧进行头肩检测，得到所述当前视频帧中的若干个头肩区域图像，所述头肩区域图像是从所述当前视频帧中截取的包含有单个行人头肩的图像，所述待统计视频是基于垂直视角采集的；

客流统计单元，用于基于各个头肩区域图像的头肩特征，更新所述待统计视频的客流轨迹，基于所述客流轨迹进行客流统计；

其中，所述客流统计单元用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述客流统计方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述客流统计方法的步骤。