CN109327760B

CN109327760B - 一种智能音响及其播放控制方法

Info

Publication number: CN109327760B
Application number: CN201810916504.6A
Authority: CN
Inventors: 贾瑞花; 郭南; 王达; 叶笑春; 范东睿
Original assignee: Beijing Zhongke Rui Core Technology Co Ltd
Current assignee: Beijing Zhongke Flux Technology Co ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2019-12-31
Anticipated expiration: 2038-08-13
Also published as: CN109327760A

Abstract

本发明公开了一种智能音响及其播放控制方法，其中，智能音响用于依据人体姿态控制智能音响中多个音频文件的播放动作，包括存储模块，用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型；索引构建模块，用于根据该总视频数据模型构建一级索引，以及根据至少一个单视频数据模型构建一级索引下的二级索引；中央控制模块，用于将至少一个视频文件分别与其中一个音频文件建立关联关系，以及获取一视频帧串流，依次提取视频帧串流中的视频帧并与指令控制模型进行比对，以控制音频文件的播放；索引确定模块；播放模块，包括一显示屏和一扬声器，用于根据二级索引确定视频帧串流对应的音频文件及其播放点。

Description

一种智能音响及其播放控制方法

技术领域

本发明涉及智能音响领域，具体而言，涉及一种智能音响及其播放控制方法。

背景技术

随着经济的快速发展，人们的生活水平也有了极大的提高，越来越多的人更加注重生活质量的提高以及更加关注身体健康。健身运动，尤其是体育舞蹈类的健身运动日益成为许多人的爱好，于这类健身运动中往往会播放高品质的音乐，以使得用户随着音乐的节奏而执行相应的动作。但是，目前健身房中用的音响设备大多需要人为操作才能播放音乐，尤其是在舞蹈学习训练的过程中，需要重复的手动选定音乐片段，不仅耗时耗力，而且很容易中断运动的热情。因此，有研发人员开始考虑是否能通过相应的人体动作来控制音乐的播放，以免于手动操作带来的上述不便。

深度学习在图像分类、图像识别方面获得了极大的进步，也逐渐应用于识别图像中的动作，但是，视频中的动作识别一直都是深度学习领域的一个难点，这是由于视频帧只是一个二维平面，人物不能全面的展现出肢体动作。传统方法中采用top-down的方法，即先检测人，然后对每一个人进行姿态估计，但是当人离得比较近的时候，检测人体的方法无效；并且人数越多，检测所花的时间约多，不能做到实时检测。在《Realtime Multi-Person2D Pose Estimation using Part Affinity Fields》CVPR 2017论文中最大的创新点在于提出了一种PAF的方法，能够有效的针对多人进行姿态估计，同时在保证精度的情况下，可以做到实时的效果。该论文中的整个检测过程是输入一张图像，然后经过7个处理阶段得到PCM和PAF，然后根据PAF生成一系列的偶匹配，由于PAF自身的矢量性，使得生成的偶匹配很正确，最后合并为一个人的整体骨架。由于这个过程是先确定关键点的位置，以及方向，然后根据方向及位置信息，将点连接成线，又将线连接成一个人的整体骨架，这也就是采用了bottom-up，即由底向上的方式。但是，这种方式仍然不能实现通过人体姿态控制音响的播放。

发明内容

本发明提供一种智能音响及其播放控制方法，用以通过人体姿态控制音响的播放。

为达到上述目的，本发明提供了一种智能音响，用于依据人体姿态控制智能音响中多个音频文件的播放动作，其包括：

存储模块，用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型，其中，总视频数据模型是提取每一视频文件的前N秒动作信息而建立，单视频数据模型是分别提取每一视频文件中每隔m秒的动作信息而建立，指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令，指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作；

索引构建模块，用于根据该总视频数据模型构建一级索引，以及根据至少一个单视频数据模型构建一级索引下的二级索引；

中央控制模块，用于将至少一个视频文件分别与其中一个音频文件建立关联关系，以及获取一视频帧串流，依次提取视频帧串流中的视频帧并与指令控制模型进行比对，以控制音频文件的播放；

索引确定模块，当音频文件的播放起点为前N秒之内时，依次提取视频帧串流中的视频帧并与总视频数据模型进行对比，以确定一级索引，之后将视频帧与该一级索引下的单视频数据模型进行比对，以确定二级索引，当音频文件的播放起点不在前N秒之内时，依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对，以确定二级索引；

播放模块，包括一显示屏和一扬声器，用于根据二级索引确定视频帧串流对应的音频文件及其播放点，以控制音频文件通过扬声器播放以及控制视频帧串流通过显示屏播放。

在本发明的一实施例中，播放模块进一步包括一音频解码模块和一视频解码模块，音频解码模块与扬声器连接，视频解码模块与显示屏连接。

在本发明的一实施例中，智能音响进一步包括一无线模块，无线模块通过无线方式获取视频帧串流并将其发送至视频解码模块。

在本发明的一实施例中，所述无线模块为蓝牙模块或wifi模块。

本发明还提供了一种应用于上述智能音响中的智能音响的播放控制方法，该方法用于依据人体姿态控制智能音响中多个音频文件的播放动作，包括以下步骤：

S1：将至少一个视频文件分别与其中一个音频文件建立关联关系；

S2：提取每一视频文件的前N秒动作信息并据此建立一总视频数据模型，根据该总视频数据模型构建一级索引；

S3：分别提取每一视频文件中每隔m秒的动作信息以建立一单视频数据模型，根据至少一个单视频数据模型构建一级索引下的二级索引；

S4：构建一指令控制模型，指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令，指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作；

S5：获取一视频帧串流；

S6：依次提取视频帧串流中的视频帧并与指令控制模型进行比对，以控制音频文件的播放；

S7：当音频文件的播放起点为前N秒之内时，依次提取视频帧串流中的视频帧并与总视频数据模型进行对比，以确定一级索引，之后将视频帧与该一级索引下的单视频数据模型进行比对，以确定二级索引，

当音频文件的播放起点不在前N秒之内时，依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对，以确定二级索引；

S8：根据二级索引确定视频帧串流对应的音频文件及其播放点，以控制音频文件进行播放。

在本发明的一实施例中，步骤S5中，视频帧串流是从摄像头获取的用户实时影像中撷取。

在本发明的一实施例中，步骤S5中，视频帧串流是从网络端获取的视频影像中撷取。

在本发明的一实施例中，视频帧串流是从连续的视频帧串流中间隔提取。

在本发明的一实施例中，于步骤S2和S3中，提取视频文件中的动作信息并对其打上相应的标签，进而通过对其中的关键帧进行聚类的方式构建一级索引或二级索引。

本发明提供的智能音响及其播放控制方法通过人体姿态控制音响的播放，从而解放了用户的双手，使得用户对于智能音响的控制更实时、更智能、更方便，进而提高用户的训练热情，并且具有建置成本低以及趣味性高的优点，具有很高的实用性以及推广应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的智能音响的结构示意图。

附图标记说明：1-存储模块；2-索引构建模块；3-中央控制模块；4-索引确定模块；5-播放模块；51-显示屏；52-扬声器；53-音频解码模块；54-视频解码模块；6-无线模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种智能音响，用于依据人体姿态控制智能音响中多个音频文件的播放动作，以使得用户能够在随着智能音响播放的音乐的节奏进行健身运动的过程中，无需手动控制智能音响，而是仅通过做出相应的代表(1)开始指令、(2)暂停指令、(3)继续播放指令、(4)从头开始播放指令和(5)下一首指令等指令的动作，即可控制智能音响播放相应的音乐文件，如图1为本发明一实施例的智能音响的结构示意图，如图1所示，本发明提供的智能音响包括：

存储模块1，用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型，其中，音频文件为常见的音频文件格式，视频文件为一般常见的视频文件格式，由于本发明是应用于健身房之类的健身运动场景中，因此，视频文件呈现的内容应该是用户随着音乐所要进行的健身运动的内容，例如，瑜伽运动视频、尊巴舞蹈视频、爵士舞蹈视频等等，也就是说，凡是用户想在健身运动的过程中通过姿态控制智能音响中音乐的播放的运动章节，均应以视频文件的形式存储在存储模块1中，总视频数据模型是提取每一视频文件的前N秒动作信息而建立，单视频数据模型是分别提取每一视频文件中每隔m秒的动作信息而建立，指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令，指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作；

索引构建模块2，用于根据该总视频数据模型构建一级索引，以及根据至少一个单视频数据模型构建一级索引下的二级索引，其中，一级索引用于确定用户当前的姿态对应哪一个视频文件，二级索引用于确定当前的姿态对应于视频文件中的哪一个具体时间点；

中央控制模块3，用于将至少一个视频文件分别与其中一个音频文件建立关联关系，以及获取一视频帧串流，依次提取视频帧串流中的视频帧并与指令控制模型进行比对，以控制音频文件的播放，可见，中央控制模块3具有两个功能，其中“将至少一个视频文件分别与其中一个音频文件建立关联关系”的功能是为每一个视频文件关联一个音频文件，这意味着，用户于每个运动章节中均播放其中一个音频文件，同时，于不同的运动章节中可能播放的是同一个音频文件，具体于哪一运动章节中播放哪一视频文件，可由用户通过中央控制模块3进行自主设定，另外，此处的“建立关联关系”更进一步的概念是构建视频文件和音频文件之间的时间线联系，也即，视频文件中的时间线与音频文件中的时间线是对应的，通过这种关联关系，只要确定了视频文件当前正处于时间线中的哪一点，即可对应获知音频文件应处于时间线中的哪一点。“获取一视频帧串流，依次提取视频帧串流中的视频帧并与指令控制模型进行比对，以控制音频文件的播放”的功能是为了通过比对视频帧与指令控制模型的方式确定用户是否做出了指令控制模型中的任意姿态以及具体做出了哪一姿态，以控制音频文件执行对应的播放动作。例如，当提取到的视频帧中，用户做出了对应“暂停指令”的姿态时，中央控制模块3经比对后识别出这一姿态，并据此暂停音频文件的播放。为了提高控制准确性，本发明还可以进一步设置需要比对的视频帧数目(例如3个)，也即，只有3个或以上数目的视频帧与指令控制模型比对后均确定用户做出了指令控制模型中的同一姿态，才能够控制音频文件执行相应的播放动作，否则不予执行。

索引确定模块4，当音频文件的播放起点为前N秒之内时，依次提取视频帧串流中的视频帧并与总视频数据模型进行对比，以确定一级索引，之后将视频帧与该一级索引下的单视频数据模型进行比对，以确定二级索引，当音频文件的播放起点不在前N秒之内时，依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对，以确定二级索引；之所以首先判断音频文件的播放起点是否在前N秒之内，是由于总视频数据模型是提取每一视频文件的前N秒动作信息而建立的，如果判断结果为“是”，则用户当前所做的动作也处于前N秒之内，从而获取到的视频帧串流中应包含总视频数据模型中的帧信息，从而能够被总视频数据模型识别以确定用户所做动作是哪一视频文件中的动作，从而确定与哪一音频文件对应，进而确定用户当前的动作对应音频文件中的哪一时间点。可见，即使用户在运动过程中略去了某些运动片段而直接进行后续的运动过程，本发明也能够即使识别出并将音频文件也略去相应的时间长度，直接播放与用户当前的动作相应的部分

播放模块5，包括一显示屏51和一扬声器52，用于根据二级索引确定视频帧串流对应的音频文件及其播放点，以控制音频文件通过扬声器52播放以及控制视频帧串流通过显示屏51播放。另外，如图1所示，播放模块5还可以进一步包括一音频解码模块53和一视频解码模块54，音频解码模块53与扬声器52连接，视频解码模块54与显示屏51连接。

无线模块6，无线模块6通过无线方式获取视频帧串流并将其发送至视频解码模块54。无线模块6例如可以为蓝牙模块或wifi模块。

S5：获取一视频帧串流；

在本发明的一实施例中，步骤S5中，视频帧串流是从摄像头获取的用户实时影像中撷取，此处的摄像头可以是单独的摄像头，也可以是智能手机、平板电脑中带有的摄像头。

需要说明的是，本发明中，总视频数据模型、单视频数据模型和指令控制模型可以采用背景技术中的PAF的方法和双路CNN神经网络进行构建，提取视频中用户的动作信息，生成一个数据模型。这里讲到的用视频来训练模型是采用一定的规则将视频分解成一张张图片，因为图片都是由一个个像素点组成的，这些像素点换成二进制数据的话，整个图就可以视为一个矩阵，那么用视频来训练模型，其实是神经网络一张一张的读入一个矩阵，通过一定的运算规则，拟合出一些数据来对矩阵中的像素进行预测，也就是可以判断识别图片中的动作，又由于这些图片是从视频中连续获取出来的，所以就可以用来获取上述模型。另外，指令控制模型中的各个控制指令对应的动作应与视频文件中的健身运动的动作之间有一定的区别，否则会将正常的健身运动的动作识别为指令控制模块中的某个控制指令而产生误操作，或者会导致将某个控制指令识别为健身运动的动作而无法正常的控制智能音响工作。

为了进一步提升本发明的功能多样性，还可以进一步增加指令控制模型中的控制指令，例如，增加一重复播放某段音频文件的控制指令，以便于用户重复训练其不太熟练的动作。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种智能音响，用于依据人体姿态控制智能音响中多个音频文件的播放动作，其特征在于，包括：

2.根据权利要求1所述的智能音响，其特征在于，播放模块进一步包括一音频解码模块和一视频解码模块，音频解码模块与扬声器连接，视频解码模块与显示屏连接。

3.根据权利要求2所述的智能音响，其特征在于，进一步包括一无线模块，无线模块通过无线方式获取视频帧串流并将其发送至视频解码模块。

4.根据权利要求3所述的智能音响，其特征在于，所述无线模块为蓝牙模块或wifi模块。

5.一种应用于权利要求1-4任一项所述的智能音响中的智能音响的播放控制方法，该方法用于依据人体姿态控制智能音响中多个音频文件的播放动作，其特征在于，包括以下步骤：

S5：获取一视频帧串流；

6.根据权利要求5所述的智能音响的播放控制方法，其特征在于，步骤S5中，视频帧串流是从摄像头获取的用户实时影像中撷取。

7.根据权利要求5所述的智能音响的播放控制方法，其特征在于，步骤S5中，视频帧串流是从网络端获取的视频影像中撷取。

8.根据权利要求5所述的智能音响的播放控制方法，其特征在于，视频帧串流是从连续的视频帧串流中间隔提取。

9.根据权利要求5所述的智能音响的播放控制方法，其特征在于，于步骤S2和S3中，提取视频文件中的动作信息并对其打上相应的标签，进而通过对其中的关键帧进行聚类的方式构建一级索引或二级索引。