CN115955603A

CN115955603A - 一种基于智慧屏的体感交互的智能摄像头装置和实现方法

Info

Publication number: CN115955603A
Application number: CN202211558477.2A
Authority: CN
Inventors: 苏鹏; 张威; 梁雪梅
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-11
Anticipated expiration: 2042-12-06
Also published as: CN115955603B

Abstract

本发明公开了一种基于智慧屏的智能摄像头进行体感交互的实现方法，通过摄像头实时视频流采集，采集原始图像数据，利用ISP和ISPP模块处理原始图像数据以及对图像进行编码和图像处理；接受用户对应用功能的需求，并根据所述功能的需求，将行人检测算法、deepsort特征计算、身体骨骼关键点算法在具有NPU算力的芯片上进行部署；数据编码与传输，算法关键点数据与图像采用同步模式，获取到的用户对应用功能的需求对应的行人框、身体骨骼关键点数据，结合图像的YUV数据格式，采用USB2.0或者USB3.0协议传输给应用端；实现智能摄像头采集的视频图像与算法结果数据的发送与接收，其中的图像数据用于画面展示，人体骨骼关键点数据结合具体的应用进行体感互动操作。

Description

一种基于智慧屏的体感交互的智能摄像头装置和实现方法

技术领域

本发明涉及视频识别及体感交互的技术领域，尤其涉及一种基于智慧屏的体感交互的智能摄像头装置和实现方法。

背景技术

目前市面上主流的智能电视或者智慧屏主要搭载安卓系统，一般使用ARM处理器，主要为4核，绝大部分为4个小核如A55或A53，部分有2个大核，CPU相对偏弱，难以满足体感交互应用中基于深度学习的身体骨骼关键点识别的算力需求，无法达到实时性。

常规的AI健身应用或者交互应用，主要依赖身体骨骼关键点进行动作识别以及行为分析。为确保精度和最佳的体验效果，一般采用top-down方法，依托行人检测、身体骨骼关键点检测以及deepsort跟踪。

基本身体骨骼关键点的体感交互应用，由于深度学习模型有较大的计算量，常规CPU运算无法达到实时，达不到实时互动的沉浸式体验效果。厂商一般会推出软硬件一体化产品，比如AI健身屏，互动屏，AI互动盒子等，这不仅仅会极大提高产品的成本，而且用户还需花费比较昂贵的价格购买新的硬件产品，无法复用已有的硬件产品，容易造成硬件产品的闲置与浪费。

发明内容

本发明依托常规的智能电视或者智慧屏，作为交互应用运行的载体和显示终端，使用具有NPU算力的芯片，如RV1126，作为摄像头的主芯片，交互类相关算法内置在摄像头中。摄像头可通过USB接口插入到智能终端设备上，可通过特定API控制获取图像数据以及选择性开启交互算法，采用USB通信协议进行数据传输，在获取画面的同时可同步获取身体骨骼关键点数据。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于智慧屏的智能摄像头进行体感交互的实现方法，所述方法包括如下步骤：

步骤1，通过摄像头实时视频流采集，采集原始图像数据，利用ISP和ISPP模块处理原始图像数据以及对图像进行降噪、曝光处理，接受应用程序的对于视频的需求信息，根据所述应用程序的需求信息的具体需求内容进行编码和图像处理；

步骤2，接受用户对应用功能的需求，并根据所述功能的需求，将行人检测算法、deepsort特征计算、身体骨骼关键点算法中的一种或多种在具有NPU算力的芯片上进行部署；

步骤3，数据编码与传输，算法关键点数据与图像采用同步模式，对于应用算法分析后获取到的用户对应用功能的需求对应的行人框、身体骨骼关键点数据，结合图像的YUV数据格式，采用USB2.0或者USB3.0协议传输给应用端；

步骤4，数据读取，所述数据读取包括智能摄像头设备检测、开启算法功能、获取图像格式、宽、高数据、读取图像数据、图像数据格式转换(根据终端显示需求)、获取算法关键点结果、释放资源；

步骤5，通过步骤3和步骤4实现智能摄像头采集的视频图像与算法结果数据的发送与接收，其中的图像数据用于画面展示，人体骨骼关键点数据结合具体的应用进行体感互动操作。

更进一步地，所述步骤2进一步包括包括：所述具有NPU算力为Rv1126芯片。

更进一步地，所述Rv1126芯片内置NPU，具备2.0T算力，使用rknn-toolkit工具对模型进行uint8量化以及模型转换处理，调用官方rknn相关API接口实现模型的使用。

更进一步地，所述步骤2中的功能的需求为行人检测和骨骼关键点检测，分别使用yolov5s和rlepose网络结构，对网络结构进行边缘端设备的适应性调整，调整网络的backbone，算法网络backbone选择mobilenet-v2；

依托deepsort跟踪算法锁定一个人进行持续跟踪，具体流程说明如下：

基于行人检测结果detections，使用卡尔曼滤波器预测轨迹tracks，使用CNN网络来提取被检测行人的外观特征，接着使用匈牙利算法将预测得到的轨迹tracks和当前帧中的detections进行匹配，先进行级联匹配，利用外观特征和马氏距离来计算相似度，得到代价矩阵，再通过门控矩阵用于限制代价矩阵中过大的值；

其次进行数据关联匹配，基于数据丢失轨迹和detections进行匹配，没有丢失过的轨迹优先匹配，丢失较为久远的就靠后匹配，通过这部分处理，可以重新将被遮挡目标找回，降低被遮挡然后再出现的目标发生的ID切换次数；

其次再进行IOU匹配，确认是否产生新轨迹。

更进一步地，设置丢失的最大帧数N，当画面中行人超过丢失的最大帧数N帧时，则采用自动匹配策略方式对新目标进行跟踪，评价分值最高者即为新的跟踪目标对应，具体计算流程如下：

图像的宽和高分别为w、h，行人框左上角坐标以及行人框宽、高分别为(x’,y’),w’,h’

行人框距离画面中心点直线距离如下：

结合行人框面积以及具体画面中心点距离，综合得到最佳分值，具体计算如下：

其中x1和x2代表权重，x1+x2＝1.0，默认均设置为0.5，可根据实际场景进行调整；

在确定锁定跟踪的行人目标后，即截取该区域图像进行2D骨骼关键点识别。

更进一步地，所述步骤3进一步包括：

定义图像数据结构体，专门用于存放图像数据，该数据结构中包含的成员包括图像类别、图像的长、图像的宽、图像通道、图像数据数组，读取摄像头相关YUV数据后即可按照图像数据结构体传入相关的结果；

定义算法结果数据结构体，专门用于存放算法结果，该数据结构包含的成员包括行人矩形框、行人框置信度、行人跟踪ID、身体骨骼关键点数据。根据指令开启算法后，算法读取RGB数据分析，获取上述行人矩形框、行人框置信度、行人跟踪ID、身体骨骼关键点数据，按照图像数据结构体传入相关的结果即可，若无数据，则对应数据为空；

为了保证图像数据与算法结果的同步，采用同步锁机制，在获取图像数据以及对应帧算法分析结果后，采用USB协议将数据推送出去。同时为了充分保证摄像头的流畅性，默认不开启交互算法，但提供指令给应用层决定是否开启。

更进一步地，所述步骤5进一步包括：利用腕部关键点以及结合身体肩部、胯部对应4个关键点，识别手臂向左或者向右挥动状态。

更进一步地，所述步骤5进一步包括：利用脚踝、腕部、肘部、肩部、胯部对应10个关键点进行站、走、跑、跳动作的识别。

更进一步地，所述步骤1中的所述根据所述应用程序的需求信息的具体需求内容进行编码和图像处理进一步包括：使用mpp、RGA模块对图像数据进行编解码以及缩放、裁剪、合成。

本发明还公开了一种基于智慧屏的体感交互的智能摄像头装置，包括处理器，存储器，其中所述存储器用于存储执行如上述的方法的应用程序。

本发明与现有技术相比，有益效果为：本发明通过该智能摄像头采集实时视频图像数据并进行算法分析，采用USB通信协议，传输图像数据和人体骨骼关键点数据给智能电视或者智慧屏上搭载的应用程序，按照一定规则解析数据即可获取图像用于展示，同时也可利用人体骨骼关键点数据进行动作分析和识别等，本发明购置一个专用的智能摄像头，即可采集图像数据与人体骨骼关键点算法分析识别，利用智能电视或者智慧屏搭载应用程序获取上述数据，进行功能逻辑开发以及界面显示、互动操作等。不仅极大提升了智能电视或者智慧屏的使用率，也降低了玩转体感交互应用的成本，有利于体感交互应用产品的快速推广。本发明可以根据用户对功能的需求在具有NPU的芯片上进行不同的算法的部署，以执行特定的满足用户需求的功能。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的智能摄像头与交互应用使用流程图；

图2是本发明一实施例中摄像头视频数据采集流程图；

图3是本发明一实施例中的算法训练与部署流程图；

图4是本发明一实施例中的截取区域图像进行2D骨骼关键点识别的算法流程图；

图5是本发明一实施例中的整体图像数据采集、编码与传输以及数据应用的流程图。

具体实施方式

实施例一

如图1所示，本发明主要依托于Rv1126设计成一款智能交互摄像头，基于内置NPU对算法进行加速运算处理，对采集的图像数据进行算法分析，将视频图像数据以及身体骨骼关键点数据编码后通过USB协议输出给应用端使用，具体的方法和流程如下：

1、实时视频流采集

瑞芯微RV1126是新一代智能视觉芯片，支持4K30FPS H.264/H.265视频编解码，搭配CMOS传感器，即可采集原始图像数据，利用ISP和ISPP模块处理原始图像数据以及对图像进行降噪、曝光等处理，根据应用需求，可使用mpp、RGA模块对图像数据进行编解码以及缩放、裁剪、合成等。

摄像头视频数据采集流程图详见图2。

2、算法部署应用

根据功能需求，需要将行人检测算法、deepsort特征计算、身体骨骼关键点算法在Rv1126上进行部署。Rv1126内置NPU，具备2.0T算力，使用rknn-toolkit工具对模型进行uint8量化以及模型转换处理，调用官方rknn相关API接口即可实现模型的使用。具体详见算法训练与部署流程图3。

以行人检测和骨骼关键点检测算法为例，分别使用yolov5s和rlepose网络结构，由于要跑在边缘端设备，调整网络的backbone，均使用shufflenet-v2、mobilenet-v2和resnet18三种backbone训练网络，对yolov5s和rlepose两种网络分别训练出来的三种backbone差异的模型量化后测试发现，使用mobilenet-v2速度比shufflenet-v2和resnet18推理速度至少快一倍以上，其中shufflenet-v2速度最慢，同时使用同一测试集对比测试模型模型精度以及量化精度误差，精度误差在2％以内。因此，本型号处理器，算法网络backbone优先选择mobilenet-v2。此外，根据测试情况，算法模型的后处理过程不要放在网络中，否则量化会引起较大的精度损失。

为确保人体2D骨骼关键点不要不同行人之间变化，需要实现行人锁定跟踪策略。由于sort跟踪较容易存在ID切换问题，本发明主要依托deepsort跟踪算法锁定一个人进行持续跟踪，具体流程说明如下：

基于行人检测结果detections，使用卡尔曼滤波器预测轨迹tracks，使用一个较简单的CNN网络来提取被检测行人的外观特征，接着使用匈牙利算法将预测得到的轨迹tracks和当前帧中的detections进行匹配。先进行级联匹配，主要过程是利用外观特征和马氏距离来计算相似度，得到代价矩阵，另外一个则是门控矩阵，用于限制代价矩阵中过大的值；其次进行数据关联匹配，基于数据丢失轨迹和detections进行匹配，没有丢失过的轨迹优先匹配，丢失较为久远的就靠后匹配。通过这部分处理，可以重新将被遮挡目标找回，降低被遮挡然后再出现的目标发生的ID切换次数。其次再进行IOU匹配，确认是否产生新轨迹。基于上述跟踪方式，可极大避免跟踪ID切换，包括行人被遮挡的情况。

但当画面中行人超过丢失的最大帧数N帧时，则采用自动匹配策略方式对新目标进行跟踪,评价分值最高者即为新的跟踪目标对应，具体计算流程如下：

行人框距离画面中心点直线距离如下：

其中x1和x2代表权重，x1+x2＝1.0，默认均设置为0.5，可根据实际场景进行调整。

在确定锁定跟踪的行人目标后，即截取该区域图像进行2D骨骼关键点识别。本发明采取top-down的方法，只要该行人不被长时间遮挡，基本可实现对该行人2D关键点进行持续识别和后续分析。

该算法过程使用流程图详见图4。

3、数据编码与传输

为了保证使用效果，算法关键点数据与图像采用同步模式。针对算法分析后获取到的行人框、身体骨骼关键点数据等，结合图像的YUV数据格式，采用USB2.0或者USB3.0协议传输给应用端，由于USB协议相对数据传输效率较高，暂不需对图像数据进行编码处理，具体编码流程和方式如下：

定义图像数据结构体，专门用于存放图像数据，该数据结构中包含的成员包括图像类别、图像的长、图像的宽、图像通道、图像数据数组等，读取摄像头相关YUV数据后即可按照图像数据结构体传入相关的结果即可。

定义算法结果数据结构体，专门用于存放算法结果，该数据结构包含的成员包括行人矩形框、行人框置信度、行人跟踪ID、身体骨骼关键点数据。根据指令开启算法后，算法读取RGB数据分析，获取上述行人矩形框、行人框置信度、行人跟踪ID、身体骨骼关键点数据，按照图像数据结构体传入相关的结果即可，若无数据，则对应数据为空。

为了保证图像数据与算法结果的同步，采用同步锁机制，在获取图像数据以及对应帧算法分析结果后，采用USB协议将数据推送出去。同时为了充分保证摄像头的流畅性等，默认不开启交互算法，但提供指令给应用层决定是否开启。

4、数据读取

上述3主要是采用USB通信协议发送数据，相应地我们需要读取相关的图像与算法结果数据，具体的流程包括如下：

1)、智能摄像头设备检测

2)、开启算法功能

3)、获取图像格式、宽、高等

4)、读取图像数据

5)、图像数据格式转换(根据终端显示需求)

6)、获取算法关键点结果

7)、释放资源

为了方便应用开发以及其他第三方的开发，可以将上述部分封装成标准SDK包，使用时直接调用API即可。

5、交互应用

基于上述3和4中的流程，实现了智能摄像头采集的视频图像与算法结果数据的发送与接收，其中图像数据可以用于画面展示等，人体骨骼关键点数据可结合具体的应用进行体感互动操作。如利用腕部关键点以及结合身体肩部、胯部对应4个关键点，识别手臂向左或者向右挥动状态；利用脚踝、腕部、肘部、肩部、胯部对应10个关键点进行站、走、跑、跳等动作的识别。

整体图像数据采集、编码与传输以及数据应用，详见流程图5。

在本实施例中，依托常规的智能电视或者智慧屏，作为交互应用运行的载体和显示终端，使用具有NPU算力的芯片，如RV1126，作为摄像头的主芯片，交互类相关算法内置在摄像头中。摄像头可通过USB接口插入到智能终端设备上，可通过特定API控制获取图像数据以及选择性开启交互算法，采用USB通信协议进行数据传输，在获取画面的同时可同步获取身体骨骼关键点数据。其中，126内置NPU，具有2.0T算力，对行人检测、deepsort跟踪以及2D身体骨骼关键点算法模型使用RKNN工具即可进行uint8量化处理并转换为特定格式模型，可使模型大小减少到原始模型的三分之一左右，同时相比使用中高端手机的cpu，速度提升至少两倍以上。本发明经过综合测试对比，发现使用mobilenetv2或者shufflenetv2作为backbone，模型量化后，精度下降不是很多，相比使用CPU推理，速度有较大的提升。同时RV1126支持4K30FPS H.264/H.265视频编解码，基于瑞芯微自研的ISP2.0技术，可实现多级降噪、3帧HDR、黑光全彩技术特性；同时内置HDAEC算法、支持麦克语音阵列，有效增强声音采集及拾音距离。因此，可以基于RV1126的方案，可以用来采集音视频数据以及进行算法分析，做成一款通用型的USB智能摄像头。

本发明通过该智能摄像头采集实时视频图像数据并进行算法分析，采用USB通信协议，传输图像数据和人体骨骼关键点数据给智能电视或者智慧屏上搭载的应用程序，按照一定规则解析数据即可获取图像用于展示，同时也可利用人体骨骼关键点数据进行动作分析和识别等。

按照上述方法，仅需要购置一个专用的智能摄像头，即可采集图像数据与人体骨骼关键点算法分析识别，利用智能电视或者智慧屏搭载应用程序获取上述数据，进行功能逻辑开发以及界面显示、互动操作等。不仅极大提升了智能电视或者智慧屏的使用率，也降低了玩转体感交互应用的成本，有利于体感交互应用产品的快速推广。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤2进一步包括包括：所述具有NPU算力为Rv1126芯片。

3.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述Rv1126芯片内置NPU，具备2.0T算力，使用rknn-toolkit工具对模型进行uint8量化以及模型转换处理，调用官方rknn相关API接口实现模型的使用。

4.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤2中的功能的需求为行人检测和骨骼关键点检测，分别使用yolov5s和rlepose网络结构，对网络结构进行边缘端设备的适应性调整，调整网络的backbone，算法网络backbone选择mobilenet-v2；

其次再进行IOU匹配，确认是否产生新轨迹。

5.如权利要求4所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，设置丢失的最大帧数N，当画面中行人超过丢失的最大帧数N帧时，则采用自动匹配策略方式对新目标进行跟踪，评价分值最高者即为新的跟踪目标对应，具体计算流程如下：

行人框距离画面中心点直线距离如下：

6.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤3进一步包括：

7.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤5进一步包括：利用腕部关键点以及结合身体肩部、胯部对应4个关键点，识别手臂向左或者向右挥动状态。

8.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤5进一步包括：利用脚踝、腕部、肘部、肩部、胯部对应10个关键点进行站、走、跑、跳动作的识别。

9.如权利要求1所述的一种基于智慧屏的智能摄像头进行体感交互的实现方法，其特征在于，所述步骤1中的所述根据所述应用程序的需求信息的具体需求内容进行编码和图像处理进一步包括：使用mpp、RGA模块对图像数据进行编解码以及缩放、裁剪、合成。

10.一种基于智慧屏的体感交互的智能摄像头装置，其特征在于，包括处理器，存储器，其中所述存储器用于存储执行如权利要求1-8所述的方法的程序。