CN112132039B

CN112132039B - 基于lstm和手工特征实现动作分类的方法、系统

Info

Publication number: CN112132039B
Application number: CN202011012261.7A
Authority: CN
Inventors: 陈海波; 吕佳仁
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Deep Blue Technology Shanghai Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-08-08
Anticipated expiration: 2040-09-23
Also published as: CN112132039A

Abstract

本发明公开了一种基于LSTM和手工特征实现动作分类的方法、系统。从采集的视频流中的每帧图像里检测出烧杯、玻璃棒和手；判断搅拌操作的前置条件是否满足：使用分类器判断玻璃棒是否伸入到烧杯内的液体中，通过手和玻璃棒的IOU判断手是否握住玻璃棒；如果满足手是否握住玻璃棒，则剪切出包含玻璃棒、烧杯和手三个目标的联合区域，计算玻璃棒、烧杯和手三个目标元件在剪切出的区域中的相对位置信息，作为提取出的特征；提取出的特征输入LSTM网络，输出分类结果。本发明根据检测结果使用传统逻辑手工提取特征，然后将其输入到LSTM神经网络中，遇到用传统逻辑难以判别的搅拌方式时，模型也能正确的判别打分。

Description

基于LSTM和手工特征实现动作分类的方法、系统

技术领域

本申请涉及图像检测领域，具体而言，涉及一种基于LSTM和手工特征实现动作分类的方法。

背景技术

在K12实验中存在使用玻璃棒搅拌打分点，判别该打分点是否正确的关键依据为搅拌时玻璃棒是否伸入烧杯的液体中，以及是否以左右来回运动的方式搅拌。由于玻璃棒搅拌方式千奇百怪、搅拌时烧杯和玻璃棒倾斜角度不同、存在运动模糊的特点，采用传统的目标检测加逻辑处理的方式，容易出现正确的搅拌方式误扣分、错误的方式误给分的问题，大幅降低了该得分点的判别精度。为解决该问题，本发明采用分类器+手工提取特征+LSTM的方式来对玻璃棒是否在水中分类，并对搅拌方式进行判别。

发明内容

1、本发明的目的

本发明为了解决玻璃棒搅拌打分点是否正确的问题，而提出了一种基于LSTM和手工特征实现动作分类的方法。

2、本发明所采用的技术方案

本发明公开了一种基于LSTM和手工特征实现动作分类的方法，包括：

从采集的视频流中的每帧图像里检测出烧杯、玻璃棒和手；

判断搅拌操作的前置条件是否满足：使用分类器判断玻璃棒是否伸入到烧杯内的液体中，通过手和玻璃棒的IOU判断手是否握住玻璃棒；

如果满足手是否握住玻璃棒，则剪切出包含玻璃棒、烧杯和手三个目标的联合区域，计算玻璃棒、烧杯和手三个目标元件在剪切出的区域中的相对位置信息，作为提取出的特征；

提取出的特征输入LSTM网络，输出分类结果。

优选的，还设有两个前置条件，条件一为判断手是否握住玻璃棒，条件二为玻璃棒是否在烧杯中，提取出的特征输入LSTM网络，输出分类结果。

优选的，采用EfficientNet分类算法，分类玻璃棒是否深入烧杯液体中。

优选的，计算各元件相对于联合区域的相对位置信息和宽高信息，作为一帧图像的特征输入LSTM网络。

优选的，采取目标检测玻璃棒、烧杯和手三个目标，对手目标进行逻辑过滤，即先判断条件一，再判断条件二。

优选的，获取检测出的玻璃棒和手的框位置信息，过滤掉与玻璃棒无交集的手，计算剩下的手与玻璃棒的IOU，如果IOU满足给定的阈值，则判别手握住玻璃棒。

本发明提出了一种基于LSTM和手工特征实现动作分类的系统，包括：

采集模块，用于从采集的视频流中的每帧图像里检测出烧杯、玻璃棒和手；

前置判断模块，用于判断搅拌操作的前置条件是否满足：使用分类器判断玻璃棒是否伸入到烧杯内的液体中，通过手和玻璃棒的IOU判断手是否握住玻璃棒；

提取特征模块，用于判断如果满足手是否握住玻璃棒，则剪切出包含玻璃棒、烧杯和手三个目标的联合区域，计算玻璃棒、烧杯和手三个目标元件在剪切出的区域中的相对位置信息，作为提取出的特征；

分类模块，用于提取出的特征输入LSTM网络，输出分类结果。

优选的，所述的前置判断模块，设有两个前置条件，条件一为判断手是否握住玻璃棒，条件二为玻璃棒是否在烧杯中，提取出的特征输入LSTM网络，输出分类结果。

优选的，所述的分类模块，采用EfficientNet分类算法，分类玻璃棒是否深入烧杯液体中。

优选的，所述的提取特征模块，计算各元件相对于联合区域的相对位置信息和宽高信息，作为一帧图像的特征输入LSTM网络。

优选的，所述的前置判断模块，采取目标检测玻璃棒、烧杯和手三个目标，对手目标进行逻辑过滤，即先判断条件一，再判断条件二。

优选的，所述的前置判断模块，获取检测出的玻璃棒和手的框位置信息，过滤掉与玻璃棒无交集的手，计算剩下的手与玻璃棒的IOU，如果IOU满足给定的阈值，则判别手握住玻璃棒。

本发明提出了一种基于LSTM和手工特征实现动作分类装置，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的方法步骤。

本发明提出了一种计算机可度存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现所述的方法步骤。

3、本发明所采用的有益效果

(1)本发明根据检测结果使用传统逻辑手工提取特征，然后将其输入到LSTM神经网络中，遇到用传统逻辑难以判别的搅拌方式时，模型也能正确的判别打分。

(2)本发明因为模型本身对噪声有一定的容忍度，如遇到元件的检测效果不稳定时，也不影响模型的效果，从而大幅提升改打分点的识别精度。

(3)本发明利用了LSTM时序网络的优点，代替传统目标检测+跟踪+逻辑判别的方式，能在降低算法复杂度的同时，大幅提升识别精度，为后续实验台自动打分系统赋分提供可靠依据。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为整体识别流程图；

图2为玻璃棒、烧杯、手进行检测图；

图3为玻璃棒是否伸入烧杯液体中使用EfficientNet进行分类图；

图4为Crop出玻璃棒、烧杯、手的联合框，计算三个目标相对联合框的位置和宽高信息，作为特征示意图；

图5为LSTM网络基本元模块图；

图6为双向LSTM网络结构图；

图7为于LSTM网络输入特征提取流程图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例：

如图1所示，本发明提出了一种基于LSTM和手工特征实现动作分类的方法，具体流程如下：

S1、化学实验视频的输入，包括检测烧杯、玻璃棒和手的图像；

S2、对每一帧进行烧杯、玻璃棒和手的目标检测；

S3、判断手是否握住玻璃棒，玻璃棒是否在烧杯中，如果是则跳转步骤S4，否则返回步骤S2；

S4、采用EfficientNet分类算法，分类玻璃棒是否深入烧杯液体中；

S5、crop出玻璃棒、烧杯、手的联合区域；

S6、计算各元件相对于联合区域的相对位置信息和宽高信息，作为特征；

S6、将提取的特征输入双向LSTM网络进行分类；

S7、输出分类结果，判断搅拌方式是否准确，如果准确，则结束。

如图7所示，对于LSTM网络输入特征提取流程图采用如下步骤：

S101:从视频流中的每帧图像里检测出烧杯、玻璃棒和手；

S102:判断搅拌操作的前置条件是否满足：使用分类器判断玻璃棒是否伸入到烧杯内的液体中，通过手和玻璃棒的IOU判断手是否握住玻璃棒；

S103:如果满足第2步，则Crop出包含玻璃棒、烧杯和手三个目标的区域，计算三个目标元件在Crop出的区域中的相对位置信息，作为特征；

S104:将提取出的特征输入LSTM网络，输出分类结果。总体方案的流程图如附图1所示。

所述对的步骤S101中，从视频流中的每帧图像里检测出烧杯、玻璃棒和手；本发明中的目标检测基于机器视觉，所需的数据为视频流，如图2所示。考虑到搅拌操作打分点涉及到玻璃棒、烧杯和手三个目标，本发明采取目标检测的方式，在全图视野中实现目标的检测，并且对手目标进行逻辑过滤，避免无关人员的手或者与搅拌操作无关的手影响后续的判断，从而导致打分错误的问题。

所述对的步骤S102中，搅拌操作前置条件判断

本发明中判断玻璃棒伸入烧杯液体中的算法基于EfficientNet分类算法，将检测出的烧杯目标从图像中裁剪出来，输入分类器，判断是否有玻璃棒伸入烧杯中，如附图3所示。获取检测出的玻璃棒和手的框位置信息，过滤掉与玻璃棒无交集的手，计算剩下的手与玻璃棒的IOU，如果IOU满足给定的阈值，则判别手握住玻璃棒。

所述的步骤S103:特征提取

从每帧图像中crop出满足上面条件的三个元件的联合框，计算玻璃棒、烧杯、手在框中的相对坐标，以及相对宽高信息，作为一帧图像的特征，如图4所示。

所述的步骤S104:LSTM实现动作分类

对于基于序列识别的问题，2D convolution不能很好得捕获时序上的信息，因此本发明采用LSTM的方式进行分析，如图5所示。根据搅拌操作的时间要求，本发明选取样本的序列长度为125。将每125帧图像按前面的方式提取特征，然后输入双向LSTM网络，输出分类结果。双向LSTM网络结构如图6所示。经实验验证，该方案能很好地进行搅拌动作的判别，从而解决了传统逻辑无法覆盖的搅拌方式判别问题，并且对不够稳定的检测器效果也有一定的容忍度，最终达到较好的判别精度。

可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，机器可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合发布节点的存储器。在一些实例中，机器可读存储介质可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至虚拟现实设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、虚拟现实设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、虚拟现实设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的虚拟现实设备、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于LSTM和手工特征实现动作分类的方法，其特征在于包括：

从采集的视频流中的每帧图像里检测出烧杯、玻璃棒和手；

如果满足手握住玻璃棒，则剪切出包含玻璃棒、烧杯和手三个目标的联合区域，计算玻璃棒、烧杯和手三个目标元件在剪切出的区域中的相对位置信息，作为提取出的特征；

提取出的特征输入LSTM网络，输出分类结果。

2.根据权利要求1所述的基于LSTM和手工特征实现动作分类的方法，其特征在于，采用EfficientNet分类算法，分类玻璃棒是否深入烧杯液体中。

3.根据权利要求2所述的基于LSTM和手工特征实现动作分类的方法，其特征在于，计算各元件相对于联合区域的相对位置信息和宽高信息，作为一帧图像的特征输入LSTM网络。

4.根据权利要求1所述的基于LSTM和手工特征实现动作分类的方法，其特征在于，获取检测出的玻璃棒和手的框位置信息，过滤掉与玻璃棒无交集的手，计算剩下的手与玻璃棒的IOU，如果IOU满足给定的阈值，则判别手握住玻璃棒。

5.一种基于LSTM和手工特征实现动作分类的系统，其特征在于包括：

提取特征模块，用于判断如果满足手握住玻璃棒，则剪切出包含玻璃棒、烧杯和手三个目标的联合区域，计算玻璃棒、烧杯和手三个目标元件在剪切出的区域中的相对位置信息，作为提取出的特征；

分类模块，用于提取出的特征输入LSTM网络，输出分类结果。

6.根据权利要求5所述的基于LSTM和手工特征实现动作分类的系统，其特征在于，所述的分类模块，采用EfficientNet分类算法，分类玻璃棒是否深入烧杯液体中。

7.根据权利要求6所述的基于LSTM和手工特征实现动作分类的系统，其特征在于，所述的提取特征模块，计算各元件相对于联合区域的相对位置信息和宽高信息，作为一帧图像的特征输入LSTM网络。

8.根据权利要求5所述的基于LSTM和手工特征实现动作分类的系统，其特征在于，所述的前置判断模块，获取检测出的玻璃棒和手的框位置信息，过滤掉与玻璃棒无交集的手，计算剩下的手与玻璃棒的IOU，如果IOU满足给定的阈值，则判别手握住玻璃棒。

9.一种基于LSTM和手工特征实现动作分类装置，包括存储器和处理器，存储器存储有计算机程序，其特征在于；所述处理器执行所述计算机程序时实现如权利要求1-4任一所述的方法步骤。

10.一种计算机可度存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时实现如权利要求1-4任一所述的方法步骤。