CN108416880A

CN108416880A - 一种基于视频的识别方法

Info

Publication number: CN108416880A
Application number: CN201810255443.3A
Authority: CN
Inventors: 李仁超
Original assignee: Chengdu Xinda Outwit Technology Co Ltd
Current assignee: Chengdu Xinda Outwit Technology Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-08-17
Anticipated expiration: 2038-03-26
Also published as: CN108416880B

Abstract

本发明提供了一种基于视频的识别方法，该方法包括：根据到达刷卡站点的用户识别信息，开启拍照设备扫描待识别视频帧，根据用户的面部帧识别用户标识；根据用户标识获取用户计费信息和购票模式信息，并通过乘客终端自动支付，并将支付完成信息上传至交易云；接收交易云发送的确认信息、授权信息，并根据确认信息、授权信息控制闸机开启，对乘客放行。本发明提出了一种基于视频的识别方法，对于用户而言无需增加IC设备，节约大量设备成本，而且提高了结算效率和客流通行效率。

Description

一种基于视频的识别方法

技术领域

本发明涉及视频识别，特别涉及一种基于视频的识别方法。

背景技术

在现代城市中，地铁作为一种方便、快速、平稳、运输量大的交通工具，已越来越被广泛使用。大量乘客在地铁车站进站或出站，如何确保车站运行效率，防止发生拥挤事件至关重要。举例来说，刷卡进站和出站需要手持卡片对准感应区的操作，高峰期往往需要长时间排队才能刷卡进站。用户体验较差。现有技术已经开发了基于人脸识别的购票系统，采用预先安装的拍照设备对乘客进行采集和识别。但当应用到室内多目标场景中时，由于背景复杂、质量低下、形态多变等特点，从而使得用户与人群背景难以用简单的人为选择的特征进行区分，分割与识别的准确率低。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于视频的识别方法，包括：

根据到达刷卡站点的用户识别信息，开启拍照设备扫描待识别视频帧，根据用户的面部帧识别用户标识；

根据用户标识获取用户计费信息和购票模式信息，并通过乘客终端自动支付，并将支付完成信息上传至交易云；

接收交易云发送的确认信息、授权信息，并根据确认信息、授权信息控制闸机开启，对乘客放行；

所述交易云作为服务提供商的独立服务器，与身份认证云通过互联网连接，同步更新数据库中的用户ID与用户信息；所述交易云根据购票模式的需求和出入站点计算结算数额；

所述开启拍照设备扫描待识别视频帧之后，还包括：

获取待识别视频帧位于扫描区域内的面部帧；提取该帧的特征像素点以生成待识别特征集，首先根据该面部帧生成对应的尺度空间，然后检测尺度空间中的局部极值点，再通过移除对比度低于阈值的点和边缘响应点对局部极值点进行定位，得到能够反映面部帧特征的特征像素点；

所述交易云与身份认证云之间采用以下方式完成数据传输：交易云访问并获取身份认证云存储的用户ID及用户信息，并且仅可访问并获取身份认证云存储的用户ID及用户信息，身份认证云无法访问和获取交易云存储的数据信息；交易云定期从身份认证云拉取用户ID及用户面部帧信息，更新交易云数据库。

本发明相比现有技术，具有以下优点：

本发明提出了一种基于视频的识别方法，对于用户而言无需增加IC设备，节约大量设备成本，而且提高了结算效率和客流通行效率。

附图说明

图1是根据本发明实施例的一种基于视频的识别方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于视频的识别方法。图1是根据本发明实施例的一种基于视频的识别方法流程图。

本发明的地铁票卡结算系统包括设置在各个地铁闸机处的结算客户端，以及身份认证云，交易云和乘客终端。乘客终端和结算客户端分别与交易云通信连接；结算客户端包括：触发单元、人脸识别单元、控制用户的通过的门禁系统、控制单元；触发单元用于识别用户到达刷卡站点，并将用户识别信息发送至控制单元；人脸识别单元用于根据控制单元发出的人脸视频帧获取控制指令，捕获所述用户的面部帧，并将人脸视频帧传至控制单元；控制单元用于接收触发单元发送的用户识别信息，并向人脸识别单元发出人脸视频帧获取控制指令，以控制人脸识别单元捕获所述用户的面部帧、识别用户标识；并将经过的刷卡站点用户ID及用户支付时间、地点以及与用户购票相关的结算数据传输至交易云；身份认证云供用户注册个人的ID；结算数据可以包括：用户进站时间，用户出站时间，计算里程计费。

在乘客基于本系统通过闸机结算之前，预先在身份认证云注册个人信息，提交用户面部图像信息并关联个人账户。注册成功后，用户获得唯一ID。唯一ID与对应的用户信息存储于身份认证云的数据库中。用户在注册个人信息时，可以通过乘客终端登录身份认证云，注册个人信息。交易云用于通过身份认证云获取用户ID及用户信息，交易云设有购票模块，购票模块根据预设的购票模式，计算出进出站乘客所需支付的计费，并将计费数值，购票模式发送到乘客终端。

乘客终端使用户获取计费信息，购票模式信息，并通过乘客终端自动支付，并将支付完成信息上传至交易云。控制单元还用于接收交易云发送的确认信息、授权信息，并根据确认信息、授权信息控制闸机开启，对乘客放行。

本实施例中，交易云与身份认证云之间采用以下方式完成数据传输，交易云访问并获取身份认证云存储的用户ID及用户信息，并且仅可访问并获取身份认证云存储的用户ID及用户信息，身份认证云无法访问和获取交易云存储的数据信息。交易云定期从身份认证云拉取用户ID及用户面部帧信息，更新交易云数据库。

交易云可作为服务提供商的独立服务器，与身份认证云通过互联网连接，同步更新数据库中的用户ID与用户信息。交易云包括购票模块。购票模块根据购票模式的需求，根据出入站点计算数额。

相应地，本发明还提供一种基于乘客终端的地铁票卡结算方法，包括：

步骤1：触发单元识别用户到达刷卡站点，并将用户识别信息发送至控制单元；

步骤2：控制单元接收触发单元发送的用户识别信息，并向人脸识别单元发出人脸视频帧获取控制指令；

步骤3：人脸识别单元根据控制单元发出的人脸视频帧获取控制指令，捕获所述用户的面部帧，并将人脸视频帧传至控制单元；

步骤4：控制单元获取人脸识别单元捕获所述用户的面部帧、识别用户标识；并将经过刷卡站点的用户ID及用户支付时间、地点结算数据，传输至交易云；

步骤5：交易云根据用户ID检索用户ID，根据预设的购票模式、结算数据，计算出进出站乘客所需支付的计费，并将计费数值，购票模式发送到乘客终端；

步骤6：通过乘客终端自动支付计费，并将支付完成信息上传至交易云；

步骤7：交易云将支付完成信息发送至控制单元，控制单元控制道闸机构开启，对支付完成的乘客放行。

在步骤1之前，方法还包括：用户访问身份认证云，注册个人信息，用户信息，并关联个人账户；注册成功后，用户获得唯一身份ID；该身份ID、用户提交的个人信息、对应的用户信息存储于身份认证云的数据库中。

其中，在开启拍照设备扫描待识别视频帧之后，获取待识别视频帧位于扫描区域内的面部帧。提取该帧的特征像素点以生成待识别特征集。具体的，首先根据该面部帧生成对应的尺度空间，然后检测尺度空间中的局部极值点，再通过移除对比度低于阈值的点和边缘响应点对局部极值点进行精确定位，最终得到能够反映面部帧特征的特征像素点。

在对特征像素点进行描述时，先计算每个极值点的主方向，对极值点为中心的区域进行直方图梯度方向统计，生成特征描述符。至此将特征像素点生成待识别特征集。

从身份认证云获取样本特征集，将待识别特征集与该样本特征集进行特征匹配。具体而言，可以通过以下方法将待识别特征集与该样本特征集进行特征匹配。统计待识别特征集与样本特征集匹配成功的特征像素点的数量，获取该样本特征集的目标特征像素点的数量作为第一数量，并计算第一匹配对数量与第一数量的比值作为相似度。最后，比较相似度与第二阈值的大小，若相似度大于第二阈值，则判断样本特征集匹配成功。

随后，若匹配成功，则将待识别特征集与匹配成功的样本特征集相应的验证特征集进行特征匹配以计算识别相似度。然后，统计匹配成功的特征像素点的数量作为第二匹配对数量，再获取待识别特征集中特征像素点的数量作为第二数量，获取该验证特征集中验证特征像素点的数量作为第三数量。最后，计算第二匹配对数量与第二数量和第三数量中较小值的比值作为识别相似度。

最后对获得的识别相似度，若识别相似度超过第一阈值，则确定待识别视频帧中包含对应于样本特征集的目标识别用户。具体可以通过以下方法来确定待识别视频帧中包含对应于样本特征集的目标识别用户。首先，判断识别相似度是否超过第一阈值，若识别相似度超过第一阈值，则统计识别相似度超过第一阈值的验证特征集的数量。接下来，判断验证特征集超过第一阈值的验证特征集的数量是否大于1，若大于1，则获取识别相似度最高的验证特征集相关的样本特征集。进一步地，若不存在识别相似度超过第一阈值的验证特征集，则判定视频序列中不存在对应于样本特征集的目标识别用户。

在以上视频识别的处理过程中，用于特征匹配的样本特征集是需要预先生成的。首先获取待处理面部帧，该待处理面部帧中包括一个目标识别用户，该目标识别用户包括一个目标特征对象和至少一个验证特征对象，将目标特征像素点形成样本特征集，并提取待处理图片中验证特征对象的特征像素点作为验证特征像素点，将验证特征像素点形成验证特征集，得到验证特征对象的样本特征集。最后，将样本特征集与验证特征集关联形成样本特征集，则样本特征集对应与目标识别用户。对所有待处理面部帧进行预处理生成对应的样本特征集后，将样本特征集全部存储至身份认证云中。

在所述人脸识别单元捕获用户的面部帧过程中，为实现运动场景中重构背景，有效避免目标和背景的混合现象，在目标定位过程中采用以下方法：

(1)建立视频灰度二维向量。

(2)用对称相邻帧差分确定当前帧以及背景像素点。

(3)根据确定的背景像素点统计并更新二维向量。

(4)构建整个初始背景。

其中，输入视频帧的大小是M*N，建立二维向量LM，每个元素LM(p,l)的值代表视频帧中p处像素的像素值l(0＜l＜255)总共出现的次数。设视频序列为(I₀，I₁，I₂,…,I_T+1),I(p,t-1)、I(p,t)、I(p,t+1)代表这N+2帧中的第t-1，t，t+1帧中点p处的像素值，则第i帧的向前和向后掩码图分别为：

其中，t＝1,2,…,N。Th^-1(t)，Th⁺¹(t)分别是判定点p处的像素值是否发生变化的阈值。

对D⁺¹(p,t)和D^-1(p,t)进行逻辑与操作得到运动像素点的掩码图：

如果对于任意一点p，若OB(p,t)＝1，在D⁺¹(p,t)和D^-1(p,t)中值都为1，当前点p为被识别前景的像素点。反之，当前点p是背景像素点。

然后统计并更新二维向量LM：如果点p处OB(p,t)＝0，将p处像素值l的出现次数加1；否则不做处理。

将选择的T+2帧反复进行步骤2和3。依照像素值来统计二维向量LM，对于每个点p，将出现次数最多的像素值作为该像素点的初始背景像素值，这样就完成整个初始背景B(p)，即

B(p)＝max(LM(p,l))

当前背景初始化完成后，随着下一帧图像的到来，用自适应的方式自动更换背景。根据目标检测和跟踪的信息进行背景更新，利用以下三种层次的算法。

(a)背景像素标签(gs)，表示在前面的N帧中，某个像素点作为背景像素的次数：

(b)识别目标标签(ms)，表示某个像素被分为运动像素的次数：

(c)变化历史标签(hs)，表示像素x从前一次被标记为前景像素以来所经历的帧数：

设I^M _t(p)代表识别目标的所有像素，I^B _t(p)代表背景所有像素，I^c _BK(p)是当前使用的背景像素，I_BK(p)新的背景像素。判定准则为：

如果gs(p)＞k＞N，则I_BK(p)＝I^B _t(p)

如果(gs(p)＜k×N)∩(ms(p)<r×N)，则I_BK(p)＝I^M _t(p)

I_BK(p)＝I^c _BK(p)

识别目标区域的提取是在真实目标掩码图像B上进行的，创建同真实图像B大小相同的搜索二维向量DB、连通域二维向量DF和标记二维向量flag_W×H，并初始化DB，DF为0，初始化连通域标记值L＝1，对B的每行和每列进行扫描，标记已经扫描过的像素点DB＝1，当搜索到第一个B＝1且DB＝0的种子点p1时，设置flag_W×H(p)＝L(L＝1，2，…，连通域标记值)。对该点进行八邻域搜索，标记符合B＝1且DB＝0的点，直到完成整个区域的标记。对符合要求的点用连通域二维向量DF标记，设置为DF＝1。对联通区域内的点L值重置为L，最后令L＝L+1。

在上一步中完成第一个区域的标记，继续扫描图像中的点，寻找下一个B＝1且DB＝0点。同时检测是否是最后一个点，如不是则继续对B的每行和每列进行扫描。

完成对连通域的标记，同时获取位置和面积信息，以便后续的特征提取，和运动区域计算处理。

对于复杂场景的对象识别，优选地，在识别之前还包括视频帧的预处理步骤，主要包括目标边缘的检测，具体如下：

输入经灰度处理的视频帧，预设整体衰减参数与衰减系数，预设沿圆周均匀分布的多个方向参数的短时FFT滤波器组，对视频帧中的各像素点分别按照各方向参数进行短时FFT滤波，获得各像素点的各方向的短时FFT能量值；对于各像素点，选取其各方向的短时FFT能量值中的极大值；

对于各像素点，将其各方向的短时FFT能量值中的极大值进行分段处理；

利用高斯差分模板构建一组临时窗口，各个临时窗口相对于视频画面窗口具有不同偏离角度；对于各像素点，将其临时窗口响应与高斯差分模板进行整合与正则化，得到一组正则化的权值函数；

对于各像素点，在不同偏转角度下，将正则化的权值函数与高斯差分模板内的分段后的各方向的短时FFT能量值中的极大值作乘积后求和，得到各像素点在各偏转角度下的短时FFT能量极大值逼近结果；对各像素点在各偏转角度下的短时FFT能量极大值逼近结果求标准差；

对于各像素点，结合各偏转角度下的短时FFT能量极大值逼近结果的标准差及整体衰减参数计算得到标准差权值；将标准差权值与各偏转角度下的短时FFT能量极大值逼近结果的最小值进行乘积得到该像素点的短时FFT能量极大值的最终结果；

对于各像素点，将其各方向的短时FFT能量值中的极大值与短时FFT能量极大值的最终结果结合衰减系数计算得到该像素点的边缘识别值，将视频帧全部像素点的边缘识别值进行非极大值衰减和二值化之后即得到视频帧的边缘识别图像。

所述各方向的短时FFT能量值中的极大值的计算具体包括：

定义二维短时FFT函数表达式：

其中γ为一个表示椭圆形感受野长短轴比例的常数，λ为波长，σ为短时FFT函数的标准差以及高斯差分模板窗口的带宽，1/λ为余弦函数的空间频率，σ/λ为空间频率的带宽，是相角参数，θ为短时FFT滤波的角度参数；

计算e(x,y)＝I(x,y)^*f(x,y)

I(x,y)为视频帧，*为卷积运算符；

E(x,y；σ)＝max{e(x,y)|i∈[1,N_θ]}

E(x,y；σ)为像素点(x,y)的各角度短时FFT滤波能量值的极大值，N_θ为角度θ的个数。

所述分段后的各方向的短时FFT能量值中的极大值的计算过程如下：

利用上限比例和下限比例对E(x,y；σ)进行分段，将各像素点的E(x,y；σ)从小到大进行选取，选取出上限比例对应百分比数目的E(x,y；σ)，其中的极大值设为Q_H；将各像素点的E(x,y；σ)从小到大进行选取，选取出下限比例对应百分比数目的E(x,y；σ)，其中的极大值设为Q_L；分段后的各方向的短时FFT能量值中的极大值：

所述高斯差分模板的表达式为：

其中k为控制高斯差分模板大小的参数；

所述的临时窗口响应的表达式如下：

其中d表示视频画面中心到临时窗口的距离；

所述各像素点的整合与正则化过程包括，通过正则化的权值函数表达式进行，即：

各像素点各偏转角度下的短时FFT能量极大值逼近结果的计算过程为：

其中，-3kσ<x′<3kσ；-3kσ<y′<3kσ，表示高斯差分模板的范围；

所述各像素点各偏转角度下的短时FFT能量极大值逼近结果的均值Ave(x,y)及标准差STD(x,y)的计算过程如下：

而对采集的视频帧信息进行基于内容的分析时，本发明采用深度神经网络实时提取场景内的人群特征，将人群特征关联对应时间信息标签，并根据预先标定好的拍照设备位置和角度以计算投影向量，以实现多个像素坐标到统一的三维坐标的转换，同时关联到三维坐标标签。分为两步训练：首先训练人体检测器，然后进行网络压缩以减少层数和通道、权值聚合，并根据前面的检测结果重新训练，得到适用于当前视角的检测器；在人群检测算法基础上加入特定特征检测，对局部特性进行刻画，以作为整体特征的补充特征。然后，对于每个拍照设备，训练基于该视角的轻量级的DNN。每个目标检测结果标定对应的时间信息，同时借助事先标定的拍照设备位置和角度，计算投影向量，实现从像素坐标到三维位置的映射，同时关联到三维坐标标签。然后，通过拍照设备的三维位置和投影向量实现目标从像素空间到三维空间的映射，实现从多个像素坐标到统一的三维坐标之间的转换。

根据人群特征，对相应的人体目标进行单镜头跟踪，生成人体目标跟踪路径，通过坐标映射转换为三维空间的坐标路径。

身份认证云接收来自结算客户端返回的人体目标跟踪路径，对该人体目标跟踪路径进行聚合，得到聚合路径，具体包括：

(1)处理由于遮挡和光照问题导致的目标路径断续，通过特征比对实现连续路径刻画；

(2)根据目标投影的运动方向信息，在三维空间内寻找周围的拍照设备覆盖，并根据最大可能性对拍照设备赋予权值，基于该权值进行目标的聚合。

身份认证云根据上一步骤中得到的聚合路径，分别对每个单镜头下的人体目标跟踪路径进行采样，作为人体目标的特征基础库，并将多镜头聚合的目标对应同一个库ID。

其中，对每个单镜头下的人体目标跟踪路径进行采样，包括：通过目标路径进行序列采样。并且设置多镜头目标统一的库ID管理方法。

身份认证云接收到待检索的人群图像，通过DNN提取该人群图像的特征作为检索特征，将该检索特征与存储的多个特征基础库进行对比，查找对比成功的人体目标路径，并按照匹配度进行排序，返回检索结果。

优选地，查找对比成功的人体目标路径，并按照匹配度进行排序包括：根据输入的待检索的人群图像，采用两级检索机制，首先得到最高匹配度的目标位置，然后优先基于该目标周围进行检索。

在构建DNN过程中，本发明将整个DNN网络分为卷积层、定位层和匹配层，具体解析如下：

卷积层采用5层卷积层结构，层与层之间使用Relu激活函数，且前两层卷积层后加入极大值缓存层。经过卷积层可提取一系列图像特征图，将紧跟图像最后一层的缓存层改为如下方式，以使得最终得到特征图为统一大小：若最终特征图尺寸要求为{W₀,H₀}，当前特征图大小为{w,h}，则定义对当前特征图做大小为{W₀/w,H₀/h}的滑窗进行极大值缓存处理。

定位层对于上述得到的每一维特征图采用滑窗，对每个滑窗可提取一个低维特征。本发明在特征图上进行多尺度采样来提取不同尺度物体的特征：对于每个滑窗中心点，提取K种可能的候选滑窗，对于W*H大小的特征图，最多提取W*H*K个候选滑窗。K种可能性包括了a种面积尺度以及b种长宽比，即：K＝a*b。继而对于提取的低维特征，分别输入给滑窗回归层和滑窗计分层，分别得到对于该滑窗中心点提取的K个候选滑窗的位置修正以及是否属于前景目标的计分，该方法可用两个并行的1*1全连接卷积层实现。滑窗回归层对于每个候选滑窗进行进一步的位置校正，输出修正后的候选滑窗的左上角以及长宽修正值，且对于K个不同的候选滑窗构建不同的回归器，也即K个回归量不共享权值，从而使得对于每个3*3的滑窗也能够预测不同尺寸的候选区域。滑窗计分层对于每个候选滑窗进行其是否属于目标检测区域的判断，输出该候选滑窗分别属于前景和背景的计分。最终对滑窗提取到的所有候选滑窗进行非极大值衰减处理，去除重复度较高的区域，并最终提取计分最高的N个候选滑窗作为候选区域建议进入最终的目标分类。

匹配层对定位层所得的候选区域进行分类判断以及进一步得定位位置校正，首先需要提取候选区域的特征。通过计算候选区域在特征图中的位置即可提取候选区域的特征图，从而使得网络只需计算一次整幅面部帧的特征图，且定位层和匹配层可以共享卷积层提取的特征图。将特征图经过两个全连接层后分别输入给聚类层和位置调整层，分别获得该候选区域的类别计分以及位置修正。

构造好整个DNN网络框架后，定义定位层的回归衰减函数，及匹配层的分类衰减函数，从而获得整个网络整体的目标函数，以实现整个网络全局端对端的训练；在进行有监督训练时，训练集需要进行标注，标注内容包括物体的类别以及物体的位置。对于每个3*3滑窗提取的K个候选滑窗，定义其与实际标注的滑窗交叉度大于0.8为正样本，交叉度小于0.3为负样本，其余舍弃。

交叉度的定义为：

Cm＝ML∩CD/ML∪CD

其中，ML为标注，CD为候选滑窗。Cm即为两者重叠部分的面积与两者总占用面积的比值，当候选滑窗与标注完全重叠时，IoU为1，当两者无重叠时，IoU为0。

定义其分类衰减函数为：

L_p(p_i,p_i ^*)＝-log[p_i ^*p_i+(1-p_i ^*)(1-p_i)]

其中，p_i表示第i个候选滑窗预测为目标的计分，也即其属于目标的概率，p_i ^*代表训练标签，当该候选滑窗为正样本时为1，当该候选滑窗为负样本时为0。

定义滑窗回归网络的回归衰减函数为：

L_r(t_i,t_i ^*)＝p_i ^*R(t_i-t_i ^*)

其中，t_i＝{t_x,t_y,t_w,t_h}表示第i个候选滑窗回归的位置坐标信息，相应的，t_i ^*＝{t_x ^*,t_y ^*,t_w ^*,t_h ^*}表示正样本滑窗的位置坐标信息。

其中，在训练时，在衰减函数中引入项p_i ^*以保证只有当该滑窗是正样本时才进行回归衰减函数的计算。

函数R采用如下函数：

已知了分类衰减函数和回归衰减函数后，定位层的衰减函数可定义为：

其中p∈{p_i}，t∈{t_i}，参数λ为两个子衰减函数的加权参数。

在匹配层中也包含候选区域计分与区域回归两部分。若网络需要构造区分M类的分类器，则每个候选区域通过匹配层后，可得到其是否属于M类每类类别的计分，以及是否属于背景的计分，故在分类器共得到M+1个计分数值，且它们的和为1，每个计分值也代表了其是否属于该类别的概率计分c＝{c₀,c₁,...c_M+1}。

采用标定的面部特征类别及位置信息的训练集对网络进行训练，从而得到用于进行面部特征定位和识别的网络模型。在训练中，如果候选滑窗来自于同一幅面部帧，则可以共享前面卷积层的计算结果。由于网络主要由三部分网络组成，因而采用一种逐层递进的训练方式，具体为：

1)首先训练卷积层。对于卷积层采用进行迁移初始化。2)在已训练好的卷积层的基础上增加定位层进行训练，固定卷积层参数，采用随机初始化的方式初始化定位层参数，根据所定义的定位层的衰减函数对定位层参数进行调整。3)继而再增加匹配层，固定卷积层以及定位层参数，采用随机初始化的方式初始化匹配层的参数，根据所定义的匹配层衰减函数，对匹配层的参数进行学习和调整。4)最后根据定义的全局网络衰减函数，对整个网络进行端对端的微调，获得最终的训练结果。

经过标定的面部特征类别及位置信息的训练集对网络进行学习和训练后，可获得一个网络模型的结果，模型包含了DNN中每一层权值的数值。当运用到实际应用时，将采集到的面部特征图像输入给网络进行前向传输，则网络的输出即为位置校正后的N个候选区域及其类别计分。

对于N个候选区域进行后续处理获得最终精确的识别结果，包含以下几个步骤：1)对每个候选区域均有M+1个类别计分，选取计分最高者作为该候选区域的类别；2)对相同类别的候选区域去重叠：两两进行重复度Cm值计算，大于0.7时保留计分高者的候选区域。3)面部特征识别中各面部特征不会发生重叠，对剩下的候选区域进行全类别的如去重复处理，得到网络最终的定位与识别结果。

综上所述，本发明提出了一种基于视频的识别方法，对于用户而言无需增加IC设备，节约大量设备成本，而且提高了结算效率和客流通行效率。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于视频的识别方法，其特征在于，包括：

所述开启拍照设备扫描待识别视频帧之后，还包括：