CN115880782A

CN115880782A - 基于ai的签字动作识别定位方法、识别训练方法及系统

Info

Publication number: CN115880782A
Application number: CN202310119903.0A
Authority: CN
Inventors: 王先来
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-03-31
Anticipated expiration: 2043-02-16
Also published as: CN115880782B

Abstract

本发明公开了一种基于AI的签字动作识别训练方法、识别定位方法、系统及计算机可读存储介质。该基于AI的签字动作识别定位方法通过基于AI的签字动作识别训练方法训练得到的AI签字动作识别定位模型从视频数据中识别具有签字动作的视频帧，然后通过视频帧计数步骤和签字动作标记步骤对视频帧进行处理得到起始帧和终止帧，并将起始帧到终止帧之间连续的视频段作为当前视频数据的签字动作视频段，最后以签字动作定位步骤输出的帧索引作为该签字动作的跳转标签，完成对签字动作的识别定位。本方法通过单一的识别定位模型进行视频帧识别，能避免多模型联动带来的误差累加和延迟问题，减少内存占用量、提升系统的计算速度，提高签字动作识别效率。

Description

基于AI的签字动作识别定位方法、识别训练方法及系统

技术领域

本发明涉及动作识别技术领域，特别涉及一种基于AI的签字动作识别定位方法、识别训练方法、系统以及计算机可读存储介质，计算机可读存储介质被处理器执行时能实现基于AI的签字动作识别定位方法。

背景技术

现今，使用互联网办理在线业务已经非常普遍，为了保证业务的合规化，需要用户在办理业务后进行线上签字，以确保业务的合法性。而在签字后，需要对其签字视像进行后台审核，以确定是否为用户本人操作，避免冒认或串改的情况。

由于传统的人工审核方式工作量大，审核效率低，为了减少审核的工作量，目前常用的审核方式是使用手检测模型分别检测视频的每一帧图像的人手关键点，使用人手关键点特征或者模式匹配的方法，从人手关键点确定这一帧图像是否为签字动作，当确定为签字动作时，记录该签字动作的图像序列，最后根据图像序列确定的签字动作的视频时间。

但目前常用的审核方式有如下技术问题：首先，容易出现误差累加的情况，一旦手检测模型检测人手关键点出错，将会导致签字动作检测出错，降低识别的准确性，而且模型占用计算和存储资源较多，耗能大，导致计算效率低，另外，由于视频中用户的手的姿势变化众多，对签字动作进行建模不仅难度大，稳定性低，难以满足实际的使用需求。

发明内容

本发明所要解决的技术问题是提供一种基于AI的签字动作识别定位和识别训练方法，存储有被执行时实现上述方法的计算机程序的计算机可读存储介质，包括该存储介质的系统，该基于AI的签字动作识别训练和定位方法能够实现对视频数据中签字动作的自动识别和定位。

提供一种基于AI的签字动作识别定位方法，包括如下步骤：

视频识别步骤，获取待识别视频数据，根据预先训练好的AI签字动作识别定位模型识别视频数据中具有签字动作的视频帧；

起始帧定位步骤，若首次识别到的具有签字动作的视频帧，将其定义为起始帧，为其建立帧索引；

视频帧计数步骤，对起始帧后的连续视频帧通过所述AI签字动作识别定位模型进行识别，若识别到其具有签字动作，则累进计数加一，直到识别到不具有签字动作的视频帧，累进计数暂停而累退计数加一，若累退计数连续增加直到其值超过当前累进计数的值，则判断当前连续视频帧的签字动作结束；

签字动作标记步骤，标记所述视频帧计数步骤中最后识别到的具有签字动作的视频帧为终止帧，将起始帧到终止帧之间连续的视频段作为当前视频数据的签字动作视频段；

签字动作定位步骤，将视频数据中所述起始帧和终止帧对应的时间分别输出为签字动作定位起始时间和终止时间，将所述起始帧的具有该起始时间的帧索引输出为该签字动作的跳转标签。

优选地，所述视频识别步骤中，所述AI签字动作识别定位模型所识别的具有签字动作的视频帧是具有单人、坐姿、写字三个特征的图像。

优选地，所述视频识别步骤中，所述AI签字动作识别定位模型通过轻量级卷积神经网络对RGB图像进行特征提取，采用深度可分离卷积来减小模型参数量。

优选地，所述签字动作标记步骤中，比较所述起始帧和所述终止帧的图像版面，若存在短字符的文字更新，才判断当前视频数据具有签字动作视频段。

优选地，包括在所述签字动作定位步骤中执行的校验步骤，对签字动作视频段进行隔帧取样，将取样得到的帧图像转换成灰度图进行人体动作幅度评估；具体地，对相邻帧两两求帧差，得到两帧差；将两帧差取或运算，得到幅度特征图；使用形态学算法对特征图进行两次膨胀，扩大幅度信号；根据特征图的扩大幅度信号计算平均签字幅度值；若幅度值大于预设阈值，则判定为具有签字动作；累计幅度值超过所述预设阈值的次数，若次数达到全部校验帧的预设程度，则判断该签字动作视频段有效，输出所述跳转标签。

还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时能够实现上述基于AI的签字动作识别定位方法。

还提供一种基于AI的签字动作识别定位系统，包括处理器以及预先存储的上述计算机可读存储介质，该计算机可读存储介质上的计算机程序可被处理器执行。

还提供一种基于AI的签字动作识别训练方法，包括如下步骤：

S1.以采集的写字动作视频为训练数据，分别标注其行为特征，包括人数、姿势、动作；将数据按照8：1：1划分为相对应的训练数据，验证数据和测试数据；

S2.通过轻量级卷积神经网络MobileNet提取特征，对骨干网络MobileNet参数进行训练；

S3.模型训练每迭代十轮，就通过验证集进行一次验证，取验证集上效果最好的模型作为最终的模型；

S4.将最终模型在测试集上测试，测试效果和在验证集上的效果一致则完成模型训练，得到训练好的AI签字动作识别定位模型。

还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时能够实现上述基于AI的签字动作识别训练方法。

还提供一种基于AI的签字动作识别训练系统，包括处理器以及预先存储的上述计算机可读存储介质，该计算机可读存储介质上的计算机程序可被处理器执行。

有益效果：该基于AI的签字动作识别训练和定位方法，预先以写字动作视频为训练数据，采用轻量级卷积神经网络训练得到AI签字动作识别定位模型，通过该模型对实时视频流或事后视频流进行签字动作识别，避免出现误差累加的情况以及能降低人工检测容易出错概率，而且整个质检操作占用内存小、计算速度快、延迟小，能大大减少视频审核业务的工作量，有效提高视频业务的审核效率以及整体的服务质量，提高质检的稳定性，并节约人力成本。

附图说明

图1是基于AI的签字动作识别定位方法的步骤流程图。

图2是基于AI的签字动作识别训练方法的步骤流程图。

图3是基于AI的签字动作识别定位方法的视频文件的处理流程。

图4是基于AI的签字动作识别定位方法的实时视频流的处理流程。

图5基于AI的签字动作识别定位方法的视频帧示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例的基于AI的签字动作训练和识别定位系统包括处理器以及分别与处理器通信的视频输入模块和视频输出模块，视频输入模块，如装有摄像头的智能设备，智能设备可以实时拍摄用户，从实时通信中获取视频帧作为评估对象，处理器通过轻量级卷积神经网络训练得到的AI签字动作识别定位模型对实时视频流或事后视频流进行签字动作识别。

本实施例的基于AI的签字动作识别定位系统对通过图1所示的基于AI的签字动作识别定位方法实现，具体实现步骤详述如下。

视频识别步骤，获取待识别视频数据，根据预先训练好的AI签字动作识别定位模型识别视频数据中具有签字动作的视频帧。

获取待识别视频数据，该基于AI的签字动作识别定位方法分别对视频文件和实时视频流进行处理。

见图2，该基于AI的签字动作识别训练方法包括如下步骤：

该AI签字动作识别定位模型是对单人、坐姿、写字特征的识别模型。述AI签字动作识别定位模型通过轻量级卷积神经网络对RGB图像进行特征提取，采用深度可分离卷积来减小模型参数量。

见图3和图4，应用于事后质检时，输入是完整的视频文件；应用于实时质检时，输入是视频流。

对于事后质检，算法内部使用了opencv作为视频解析的库，因此，opencv所支持的视频文件模型都能够被正确地解码。对于opencv不支持的视频格式，需要在系统前端嵌入转码的功能模块，提前转码成能够被处理的格式，然后进行视频帧采样。由于人的一个完整的动作通常会持续2秒以上，而在极小的时间间隔（如0.1秒）里，人的整体行为变化不会很大。该功能模块选择性地跳过部分帧，以加速整体的分析过程。本发明提出基于时间单位的帧采样方法，能够根据视频的帧率自动调用采样率。给定时间间隔t，则每隔t*FPS（四舍五入）帧取1帧，目前t取0.1。即对于FPS=15的视频，每2帧取1帧，对于FPS=30的视频，每3帧取1帧，依此类推。

对于实时质检，系统直接从摄像头拉取视频流或者将输入的视频转换成视频流的形式发送到后台处理。实时质检没有视频帧采样的模块，且其结果是立即返回的，不需要等到整个视频处理完成之后再返回结果。

两者的输出都是视频帧图像，将所有的输入图像保持宽高比缩放到指定大小（比如640x640）。然后，调整图像的通道顺序为RGB，最后将图像的每个像素点除以255。

然后，通过AI签字动作识别定位模型识别视频数据中具有签字动作的视频帧。以处理视频时的追踪算法为例，系统通过人体动作分析及追踪从结果序列中识别出签字动作，并返回签字动作发生的时间，具体包括起始帧定位步骤、视频帧计数步骤和签字动作标记步骤。

起始帧定位步骤，若识别到的具有签字动作的视频帧，将其定义为起始帧，为其建立帧索引。

视频帧计数步骤，对起始帧后的连续视频帧，若通过AI基于AI的签字动作识别定位方法模型识别到其具有签字动作，则累进计数加一，直到识别到不具有签字动作的视频帧，累进计数暂停而累退计数加一，若累退计数连续增加直到超过当前累进计数的值，则判断当前具有签字动作结束。人体动作分析及追踪算法的核心部分是由一个Tracker 类来完成的。Tracker的生命周期如下：

1）创建：初始化生命值，年龄和饥饿值以及这个Tracker创建时的帧索引。

2）进食：人体动作识别模型处理一次，输出一个识别结果。Tracker查看其是否包含签字动作，（判定的方法是使用人体动作自动纠正方法，后文说明。）如果则进食成功，饥饿值重置为0。

3）饥饿：当第2步中，当结果中没有签字动作时，饥饿值加1。

4）成长：每次进食，Tracker的年龄（也即持续时间）都会增长。如果连续进食，年龄会均匀增长。如果中间有几次没有进食，则当进食时，中间的年龄也会计入。

5）死亡：当饥饿值超过生命值的时候，Tracker死亡。

签字动作定位步骤，将视频数据中起始帧和终止帧对应的时间分别输出为签字动作定位起止时间，输出帧索引作为该签字动作的跳转标签。因此，Tracker可以追踪到起始帧和终止帧对应的时间，即签字动作的起止时间。

在上述签字动作标记步骤中，见图5，比较起始帧和终止帧的图像版面，若存在短字符的文字更新，才判断当前视频数据具有签字动作视频段。以版面文本布局方式的比较识别实现对签字字符实际落笔位置的识别，当实际落笔位置为大面积空置位置，则进一步验证签字动作已经真实实行。

优选地，包括在签字动作定位步骤中执行的校验步骤，对签字动作视频段进行隔帧取样，将取样得到的帧图像转换成灰度图进行人体动作幅度评估；具体地，对相邻帧两两求帧差，得到两帧差；将两帧差取或运算，得到幅度特征图；使用形态学算法对特征图进行两次膨胀，扩大幅度信号；根据特征图的扩大幅度信号计算平均签字幅度值；若幅度值大于预设阈值，则判定为具有签字动作；累计幅度值超过预设阈值的次数，若次数达到全部校验帧的预设程度，则判断该签字动作视频段有效，输出跳转标签。

本实施例中，在处理视频时，系统维护两个列表，一个表示当前存活的Tracker列表，一个表示已经死亡的Tracker列表。当视频帧全部检测完毕时，系统将从这两个列表中选出那些存活时间超过指定阈值的Tracker，并从中计算出签字动作发生的时间点和持续时长。计算方法如下：

时间点：Tracker的帧索引 /视频的FPS；

持续时长：（Tracker的帧索引+Tracker的年龄）/视频的FPS。

以上阐述的签字动作追踪算法的整体流程。

在另外的实施例中，当应用于实时视频流时，人体动作幅度检测需要实时反映到Tracker当中，因此，人体动作幅度检测融合到Tracker的生命周期中。具体而言，是在Tracker进行更新的时候应用幅度估计算法，当幅度小于阈值时，Tracker进入饥饿状态，当幅度大于阈值时，Tracker进入进食状态。

在事后质检系统中，签字动作识别的输出结果为视频中出现签字行为的起止时间，单位为秒。在实时质检系统中，签字动作识别将持续输出一个Tracker列表，其中包含持续签字的帧数，持续签字的时间，以及是否可判定为发生签字动作的标志。

本实施例的基于AI的签字动作识别定位方法，实现了基于多帧图片的端到端人体动作识别算法，只需要训练一个规模适中的模型，就可以实现人体动作行为的识别，而不需要多模型级联和复杂的特征工程，具有占用内存小、计算速度快、更节约能耗的特点；同时，不需要人工对手的签字姿态进行特征工程，而是由模型自动从数据中学习得到，因而预测的结果更加稳定可靠。

如上仅为本发明创造的实施方式，不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换，仍落入专利保护范围。

Claims

1.一种基于AI的签字动作识别定位方法，其特征是，包括如下步骤：

2.根据权利要求1所述的基于AI的签字动作识别定位方法，其特征是，所述视频识别步骤中，所述AI签字动作识别定位模型所识别的具有签字动作的视频帧是具有单人、坐姿、写字三个特征的图像。

3.根据权利要求2所述的基于AI的签字动作识别定位方法，其特征是，所述视频识别步骤中，所述AI签字动作识别定位模型通过轻量级卷积神经网络对RGB图像进行特征提取，采用深度可分离卷积来减小模型参数量。

4.根据权利要求1所述的基于AI的签字动作识别定位方法，其特征是，所述签字动作标记步骤中，还比较所述起始帧和所述终止帧的图像版面，若终止帧相对起始帧存在短字符的文字更新，才执行后续签字动作定位步骤。

5.根据权利要求1所述的基于AI的签字动作识别定位方法，其特征是，包括在所述签字动作定位步骤中执行的校验步骤，对签字动作视频段进行隔帧取样，将取样得到的帧图像转换成灰度图进行人体动作幅度评估；具体地，对相邻帧两两求帧差，得到两帧差；将两帧差取或运算，得到幅度特征图；使用形态学算法对特征图进行两次膨胀，扩大幅度信号；根据特征图的扩大幅度信号计算平均签字幅度值；若幅度值大于预设阈值，则判定为具有签字动作；累计幅度值超过所述预设阈值的次数，若次数达到全部校验帧的预设程度，则判断该签字动作视频段有效，输出所述跳转标签。

6.计算机可读存储介质，其存储有计算机程序，其特征是，所述计算机程序被处理器执行时能够实现权利要求1~5中任一项所述的基于AI的签字动作识别定位方法。

7.一种基于AI的签字动作识别定位系统，包括处理器，其特征是，还包括如权利要求6所述的计算机可读存储介质，该计算机可读存储介质上的计算机程序可被处理器执行。

8.一种基于AI的签字动作识别训练方法，其特征是，通过该方法训练得到AI签字动作识别定位模型用于如权利要求1~5中任一项所述的基于AI的签字动作识别定位方法，包括如下步骤：

9.计算机可读存储介质，其存储有计算机程序，其特征是，所述计算机程序被处理器执行时能够实现权利要求8所述的基于AI的签字动作识别训练方法。

10.基于AI的签字动作识别训练系统，包括处理器，其特征是，还包括如权利要求9所述的计算机可读存储介质，该计算机可读存储介质上的计算机程序可被处理器执行。