CN109327760B - 一种智能音响及其播放控制方法 - Google Patents

一种智能音响及其播放控制方法 Download PDF

Info

Publication number
CN109327760B
CN109327760B CN201810916504.6A CN201810916504A CN109327760B CN 109327760 B CN109327760 B CN 109327760B CN 201810916504 A CN201810916504 A CN 201810916504A CN 109327760 B CN109327760 B CN 109327760B
Authority
CN
China
Prior art keywords
video
playing
instruction
module
data model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810916504.6A
Other languages
English (en)
Other versions
CN109327760A (zh
Inventor
贾瑞花
郭南
王达
叶笑春
范东睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Flux Technology Co ltd
Original Assignee
Beijing Zhongke Rui Core Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Rui Core Technology Co Ltd filed Critical Beijing Zhongke Rui Core Technology Co Ltd
Priority to CN201810916504.6A priority Critical patent/CN109327760B/zh
Publication of CN109327760A publication Critical patent/CN109327760A/zh
Application granted granted Critical
Publication of CN109327760B publication Critical patent/CN109327760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • H04N21/43637Adapting the video stream to a specific local network, e.g. a Bluetooth® network involving a wireless protocol, e.g. Bluetooth, RF or wireless LAN [IEEE 802.11]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种智能音响及其播放控制方法,其中,智能音响用于依据人体姿态控制智能音响中多个音频文件的播放动作,包括存储模块,用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型;索引构建模块,用于根据该总视频数据模型构建一级索引,以及根据至少一个单视频数据模型构建一级索引下的二级索引;中央控制模块,用于将至少一个视频文件分别与其中一个音频文件建立关联关系,以及获取一视频帧串流,依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;索引确定模块;播放模块,包括一显示屏和一扬声器,用于根据二级索引确定视频帧串流对应的音频文件及其播放点。

Description

一种智能音响及其播放控制方法
技术领域
本发明涉及智能音响领域,具体而言,涉及一种智能音响及其播放控制方法。
背景技术
随着经济的快速发展,人们的生活水平也有了极大的提高,越来越多的人更加注重生活质量的提高以及更加关注身体健康。健身运动,尤其是体育舞蹈类的健身运动日益成为许多人的爱好,于这类健身运动中往往会播放高品质的音乐,以使得用户随着音乐的节奏而执行相应的动作。但是,目前健身房中用的音响设备大多需要人为操作才能播放音乐,尤其是在舞蹈学习训练的过程中,需要重复的手动选定音乐片段,不仅耗时耗力,而且很容易中断运动的热情。因此,有研发人员开始考虑是否能通过相应的人体动作来控制音乐的播放,以免于手动操作带来的上述不便。
深度学习在图像分类、图像识别方面获得了极大的进步,也逐渐应用于识别图像中的动作,但是,视频中的动作识别一直都是深度学习领域的一个难点,这是由于视频帧只是一个二维平面,人物不能全面的展现出肢体动作。传统方法中采用top-down的方法,即先检测人,然后对每一个人进行姿态估计,但是当人离得比较近的时候,检测人体的方法无效;并且人数越多,检测所花的时间约多,不能做到实时检测。在《Realtime Multi-Person2D Pose Estimation using Part Affinity Fields》CVPR 2017论文中最大的创新点在于提出了一种PAF的方法,能够有效的针对多人进行姿态估计,同时在保证精度的情况下,可以做到实时的效果。该论文中的整个检测过程是输入一张图像,然后经过7个处理阶段得到PCM和PAF,然后根据PAF生成一系列的偶匹配,由于PAF自身的矢量性,使得生成的偶匹配很正确,最后合并为一个人的整体骨架。由于这个过程是先确定关键点的位置,以及方向,然后根据方向及位置信息,将点连接成线,又将线连接成一个人的整体骨架,这也就是采用了bottom-up,即由底向上的方式。但是,这种方式仍然不能实现通过人体姿态控制音响的播放。
发明内容
本发明提供一种智能音响及其播放控制方法,用以通过人体姿态控制音响的播放。
为达到上述目的,本发明提供了一种智能音响,用于依据人体姿态控制智能音响中多个音频文件的播放动作,其包括:
存储模块,用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型,其中,总视频数据模型是提取每一视频文件的前N秒动作信息而建立,单视频数据模型是分别提取每一视频文件中每隔m秒的动作信息而建立,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
索引构建模块,用于根据该总视频数据模型构建一级索引,以及根据至少一个单视频数据模型构建一级索引下的二级索引;
中央控制模块,用于将至少一个视频文件分别与其中一个音频文件建立关联关系,以及获取一视频帧串流,依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;
索引确定模块,当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;
播放模块,包括一显示屏和一扬声器,用于根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件通过扬声器播放以及控制视频帧串流通过显示屏播放。
在本发明的一实施例中,播放模块进一步包括一音频解码模块和一视频解码模块,音频解码模块与扬声器连接,视频解码模块与显示屏连接。
在本发明的一实施例中,智能音响进一步包括一无线模块,无线模块通过无线方式获取视频帧串流并将其发送至视频解码模块。
在本发明的一实施例中,所述无线模块为蓝牙模块或wifi模块。
本发明还提供了一种应用于上述智能音响中的智能音响的播放控制方法,该方法用于依据人体姿态控制智能音响中多个音频文件的播放动作,包括以下步骤:
S1:将至少一个视频文件分别与其中一个音频文件建立关联关系;
S2:提取每一视频文件的前N秒动作信息并据此建立一总视频数据模型,根据该总视频数据模型构建一级索引;
S3:分别提取每一视频文件中每隔m秒的动作信息以建立一单视频数据模型,根据至少一个单视频数据模型构建一级索引下的二级索引;
S4:构建一指令控制模型,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
S5:获取一视频帧串流;
S6:依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;
S7:当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,
当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;
S8:根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件进行播放。
在本发明的一实施例中,步骤S5中,视频帧串流是从摄像头获取的用户实时影像中撷取。
在本发明的一实施例中,步骤S5中,视频帧串流是从网络端获取的视频影像中撷取。
在本发明的一实施例中,视频帧串流是从连续的视频帧串流中间隔提取。
在本发明的一实施例中,于步骤S2和S3中,提取视频文件中的动作信息并对其打上相应的标签,进而通过对其中的关键帧进行聚类的方式构建一级索引或二级索引。
本发明提供的智能音响及其播放控制方法通过人体姿态控制音响的播放,从而解放了用户的双手,使得用户对于智能音响的控制更实时、更智能、更方便,进而提高用户的训练热情,并且具有建置成本低以及趣味性高的优点,具有很高的实用性以及推广应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的智能音响的结构示意图。
附图标记说明:1-存储模块;2-索引构建模块;3-中央控制模块;4-索引确定模块;5-播放模块;51-显示屏;52-扬声器;53-音频解码模块;54-视频解码模块;6-无线模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种智能音响,用于依据人体姿态控制智能音响中多个音频文件的播放动作,以使得用户能够在随着智能音响播放的音乐的节奏进行健身运动的过程中,无需手动控制智能音响,而是仅通过做出相应的代表(1)开始指令、(2)暂停指令、(3)继续播放指令、(4)从头开始播放指令和(5)下一首指令等指令的动作,即可控制智能音响播放相应的音乐文件,如图1为本发明一实施例的智能音响的结构示意图,如图1所示,本发明提供的智能音响包括:
存储模块1,用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型,其中,音频文件为常见的音频文件格式,视频文件为一般常见的视频文件格式,由于本发明是应用于健身房之类的健身运动场景中,因此,视频文件呈现的内容应该是用户随着音乐所要进行的健身运动的内容,例如,瑜伽运动视频、尊巴舞蹈视频、爵士舞蹈视频等等,也就是说,凡是用户想在健身运动的过程中通过姿态控制智能音响中音乐的播放的运动章节,均应以视频文件的形式存储在存储模块1中,总视频数据模型是提取每一视频文件的前N秒动作信息而建立,单视频数据模型是分别提取每一视频文件中每隔m秒的动作信息而建立,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
索引构建模块2,用于根据该总视频数据模型构建一级索引,以及根据至少一个单视频数据模型构建一级索引下的二级索引,其中,一级索引用于确定用户当前的姿态对应哪一个视频文件,二级索引用于确定当前的姿态对应于视频文件中的哪一个具体时间点;
中央控制模块3,用于将至少一个视频文件分别与其中一个音频文件建立关联关系,以及获取一视频帧串流,依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放,可见,中央控制模块3具有两个功能,其中“将至少一个视频文件分别与其中一个音频文件建立关联关系”的功能是为每一个视频文件关联一个音频文件,这意味着,用户于每个运动章节中均播放其中一个音频文件,同时,于不同的运动章节中可能播放的是同一个音频文件,具体于哪一运动章节中播放哪一视频文件,可由用户通过中央控制模块3进行自主设定,另外,此处的“建立关联关系”更进一步的概念是构建视频文件和音频文件之间的时间线联系,也即,视频文件中的时间线与音频文件中的时间线是对应的,通过这种关联关系,只要确定了视频文件当前正处于时间线中的哪一点,即可对应获知音频文件应处于时间线中的哪一点。“获取一视频帧串流,依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放”的功能是为了通过比对视频帧与指令控制模型的方式确定用户是否做出了指令控制模型中的任意姿态以及具体做出了哪一姿态,以控制音频文件执行对应的播放动作。例如,当提取到的视频帧中,用户做出了对应“暂停指令”的姿态时,中央控制模块3经比对后识别出这一姿态,并据此暂停音频文件的播放。为了提高控制准确性,本发明还可以进一步设置需要比对的视频帧数目(例如3个),也即,只有3个或以上数目的视频帧与指令控制模型比对后均确定用户做出了指令控制模型中的同一姿态,才能够控制音频文件执行相应的播放动作,否则不予执行。
索引确定模块4,当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;之所以首先判断音频文件的播放起点是否在前N秒之内,是由于总视频数据模型是提取每一视频文件的前N秒动作信息而建立的,如果判断结果为“是”,则用户当前所做的动作也处于前N秒之内,从而获取到的视频帧串流中应包含总视频数据模型中的帧信息,从而能够被总视频数据模型识别以确定用户所做动作是哪一视频文件中的动作,从而确定与哪一音频文件对应,进而确定用户当前的动作对应音频文件中的哪一时间点。可见,即使用户在运动过程中略去了某些运动片段而直接进行后续的运动过程,本发明也能够即使识别出并将音频文件也略去相应的时间长度,直接播放与用户当前的动作相应的部分
播放模块5,包括一显示屏51和一扬声器52,用于根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件通过扬声器52播放以及控制视频帧串流通过显示屏51播放。另外,如图1所示,播放模块5还可以进一步包括一音频解码模块53和一视频解码模块54,音频解码模块53与扬声器52连接,视频解码模块54与显示屏51连接。
无线模块6,无线模块6通过无线方式获取视频帧串流并将其发送至视频解码模块54。无线模块6例如可以为蓝牙模块或wifi模块。
本发明还提供了一种应用于上述智能音响中的智能音响的播放控制方法,该方法用于依据人体姿态控制智能音响中多个音频文件的播放动作,包括以下步骤:
S1:将至少一个视频文件分别与其中一个音频文件建立关联关系;
S2:提取每一视频文件的前N秒动作信息并据此建立一总视频数据模型,根据该总视频数据模型构建一级索引;
S3:分别提取每一视频文件中每隔m秒的动作信息以建立一单视频数据模型,根据至少一个单视频数据模型构建一级索引下的二级索引;
S4:构建一指令控制模型,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
S5:获取一视频帧串流;
S6:依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;
S7:当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,
当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;
S8:根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件进行播放。
在本发明的一实施例中,步骤S5中,视频帧串流是从摄像头获取的用户实时影像中撷取,此处的摄像头可以是单独的摄像头,也可以是智能手机、平板电脑中带有的摄像头。
在本发明的一实施例中,步骤S5中,视频帧串流是从网络端获取的视频影像中撷取。
在本发明的一实施例中,视频帧串流是从连续的视频帧串流中间隔提取。
在本发明的一实施例中,于步骤S2和S3中,提取视频文件中的动作信息并对其打上相应的标签,进而通过对其中的关键帧进行聚类的方式构建一级索引或二级索引。
需要说明的是,本发明中,总视频数据模型、单视频数据模型和指令控制模型可以采用背景技术中的PAF的方法和双路CNN神经网络进行构建,提取视频中用户的动作信息,生成一个数据模型。这里讲到的用视频来训练模型是采用一定的规则将视频分解成一张张图片,因为图片都是由一个个像素点组成的,这些像素点换成二进制数据的话,整个图就可以视为一个矩阵,那么用视频来训练模型,其实是神经网络一张一张的读入一个矩阵,通过一定的运算规则,拟合出一些数据来对矩阵中的像素进行预测,也就是可以判断识别图片中的动作,又由于这些图片是从视频中连续获取出来的,所以就可以用来获取上述模型。另外,指令控制模型中的各个控制指令对应的动作应与视频文件中的健身运动的动作之间有一定的区别,否则会将正常的健身运动的动作识别为指令控制模块中的某个控制指令而产生误操作,或者会导致将某个控制指令识别为健身运动的动作而无法正常的控制智能音响工作。
为了进一步提升本发明的功能多样性,还可以进一步增加指令控制模型中的控制指令,例如,增加一重复播放某段音频文件的控制指令,以便于用户重复训练其不太熟练的动作。
本发明提供的智能音响及其播放控制方法通过人体姿态控制音响的播放,从而解放了用户的双手,使得用户对于智能音响的控制更实时、更智能、更方便,进而提高用户的训练热情,并且具有建置成本低以及趣味性高的优点,具有很高的实用性以及推广应用价值。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (9)

1.一种智能音响,用于依据人体姿态控制智能音响中多个音频文件的播放动作,其特征在于,包括:
存储模块,用于存储多个音频文件、至少一个视频文件、总视频数据模型、单视频数据模型和指令控制模型,其中,总视频数据模型是提取每一视频文件的前N秒动作信息而建立,单视频数据模型是分别提取每一视频文件中每隔m秒的动作信息而建立,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
索引构建模块,用于根据该总视频数据模型构建一级索引,以及根据至少一个单视频数据模型构建一级索引下的二级索引;
中央控制模块,用于将至少一个视频文件分别与其中一个音频文件建立关联关系,以及获取一视频帧串流,依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;
索引确定模块,当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;
播放模块,包括一显示屏和一扬声器,用于根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件通过扬声器播放以及控制视频帧串流通过显示屏播放。
2.根据权利要求1所述的智能音响,其特征在于,播放模块进一步包括一音频解码模块和一视频解码模块,音频解码模块与扬声器连接,视频解码模块与显示屏连接。
3.根据权利要求2所述的智能音响,其特征在于,进一步包括一无线模块,无线模块通过无线方式获取视频帧串流并将其发送至视频解码模块。
4.根据权利要求3所述的智能音响,其特征在于,所述无线模块为蓝牙模块或wifi模块。
5.一种应用于权利要求1-4任一项所述的智能音响中的智能音响的播放控制方法,该方法用于依据人体姿态控制智能音响中多个音频文件的播放动作,其特征在于,包括以下步骤:
S1:将至少一个视频文件分别与其中一个音频文件建立关联关系;
S2:提取每一视频文件的前N秒动作信息并据此建立一总视频数据模型,根据该总视频数据模型构建一级索引;
S3:分别提取每一视频文件中每隔m秒的动作信息以建立一单视频数据模型,根据至少一个单视频数据模型构建一级索引下的二级索引;
S4:构建一指令控制模型,指令控制模型包括开始指令、暂停指令、继续播放指令、从头开始播放指令和下一首指令,指令控制模型中的每一指令对应一人体姿态并且每一指令用于控制音频文件执行相应播放动作;
S5:获取一视频帧串流;
S6:依次提取视频帧串流中的视频帧并与指令控制模型进行比对,以控制音频文件的播放;
S7:当音频文件的播放起点为前N秒之内时,依次提取视频帧串流中的视频帧并与总视频数据模型进行对比,以确定一级索引,之后将视频帧与该一级索引下的单视频数据模型进行比对,以确定二级索引,
当音频文件的播放起点不在前N秒之内时,依次提取视频帧串流中的视频帧并与N个单视频数据模型依次比对,以确定二级索引;
S8:根据二级索引确定视频帧串流对应的音频文件及其播放点,以控制音频文件进行播放。
6.根据权利要求5所述的智能音响的播放控制方法,其特征在于,步骤S5中,视频帧串流是从摄像头获取的用户实时影像中撷取。
7.根据权利要求5所述的智能音响的播放控制方法,其特征在于,步骤S5中,视频帧串流是从网络端获取的视频影像中撷取。
8.根据权利要求5所述的智能音响的播放控制方法,其特征在于,视频帧串流是从连续的视频帧串流中间隔提取。
9.根据权利要求5所述的智能音响的播放控制方法,其特征在于,于步骤S2和S3中,提取视频文件中的动作信息并对其打上相应的标签,进而通过对其中的关键帧进行聚类的方式构建一级索引或二级索引。
CN201810916504.6A 2018-08-13 2018-08-13 一种智能音响及其播放控制方法 Active CN109327760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810916504.6A CN109327760B (zh) 2018-08-13 2018-08-13 一种智能音响及其播放控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810916504.6A CN109327760B (zh) 2018-08-13 2018-08-13 一种智能音响及其播放控制方法

Publications (2)

Publication Number Publication Date
CN109327760A CN109327760A (zh) 2019-02-12
CN109327760B true CN109327760B (zh) 2019-12-31

Family

ID=65263579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810916504.6A Active CN109327760B (zh) 2018-08-13 2018-08-13 一种智能音响及其播放控制方法

Country Status (1)

Country Link
CN (1) CN109327760B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262752B (zh) * 2019-05-16 2020-08-11 罗普特科技集团股份有限公司 一种用于存储流媒体数据的方法、装置、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107272902A (zh) * 2017-06-23 2017-10-20 深圳市盛路物联通讯技术有限公司 基于体感交互的智能家居服务端、控制系统及控制方法
CN107340852A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 手势控制方法、装置和终端设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201543268A (zh) * 2014-01-07 2015-11-16 Thomson Licensing 用於使用手勢控制媒體播放之系統及方法
US9679197B1 (en) * 2014-03-13 2017-06-13 Leap Motion, Inc. Biometric aware object detection and tracking
JP6514061B2 (ja) * 2015-07-28 2019-05-15 京セラ株式会社 電子機器
CN106507178B (zh) * 2016-12-09 2019-11-15 北京小米移动软件有限公司 视频播放方法及装置
CN106648118A (zh) * 2017-01-25 2017-05-10 宇龙计算机通信科技(深圳)有限公司 一种基于增强现实的虚拟教学方法与终端设备
CN107765855A (zh) * 2017-10-25 2018-03-06 电子科技大学 一种基于手势识别控制机器人运动的方法和系统
CN107754307A (zh) * 2017-12-05 2018-03-06 野草莓影业(北京)有限公司 转动座椅的控制方法、控制装置以及转动座椅
CN108260006A (zh) * 2018-01-12 2018-07-06 南京工程学院 基于人体位姿检测的互动式智能家庭影院及其控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107340852A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 手势控制方法、装置和终端设备
CN107272902A (zh) * 2017-06-23 2017-10-20 深圳市盛路物联通讯技术有限公司 基于体感交互的智能家居服务端、控制系统及控制方法

Also Published As

Publication number Publication date
CN109327760A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN112562433B (zh) 一种基于全息终端的5g强互动远程专递教学系统的工作方法
CN107831903B (zh) 多人参与的人机交互方法及装置
KR102266219B1 (ko) 퍼스널 트레이닝 서비스 제공 방법 및 시스템
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN109637518A (zh) 虚拟主播实现方法及装置
CN104777911B (zh) 一种基于全息技术的智能交互方法
WO2021098616A1 (zh) 运动姿态识别方法、运动姿态识别装置、终端设备及介质
WO2021000708A1 (zh) 健身教学方法、装置、电子设备及存储介质
JP2011217197A (ja) 電子機器、再生制御システム、再生制御方法及びプログラム
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
CN103947220B (zh) 显示装置和使用显示装置提供内容的方法
CN110134863B (zh) 应用程序推荐的方法及装置
KR102355008B1 (ko) 동작 인식 기반 상호작용 방법 및 기록 매체
JP2016100033A (ja) 再生制御装置
CN108132754A (zh) 笔迹回放显示方法、装置、移动终端及存储介质
CN108510988A (zh) 一种用于聋哑人的语言识别系统及方法
CN109327760B (zh) 一种智能音响及其播放控制方法
US11819996B2 (en) Expression feedback method and smart robot
US20220335246A1 (en) System And Method For Video Processing
WO2019187493A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2022104637A1 (zh) 视频剪辑装置、方法、可移动平台、云台和硬件设备
CN107005676A (zh) 信息处理方法、影像处理装置和程序
CN105797375A (zh) 一种跟随用户脸部表情改变角色模型表情的方法和终端
CN110866434A (zh) 一种针对自闭症患者的表情识别训练方法及系统
JP5310682B2 (ja) カラオケ装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100095 Beijing City, Haidian District North Road Zhongguancun green garden wensong Road No. 1

Patentee after: Beijing Zhongke Ruixin Technology Group Co.,Ltd.

Address before: 100095 Beijing City, Haidian District North Road Zhongguancun green garden wensong Road No. 1

Patentee before: SMARTCORE (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200513

Address after: Room 308, 3 / F, building 26, lanxiyuan District 4, Shunyi District, Beijing

Patentee after: Beijing Ruixin high throughput technology Co.,Ltd.

Address before: 100095 Beijing City, Haidian District North Road Zhongguancun green garden wensong Road No. 1

Patentee before: Beijing Zhongke Ruixin Technology Group Co.,Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 711c, 7 / F, block a, building 1, yard 19, Ronghua Middle Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing 102600

Patentee after: Beijing Ruixin high throughput technology Co.,Ltd.

Address before: 101300 Room 308, 3 / F, building 26, Fourth District, lanxiyuan, Shunyi District, Beijing

Patentee before: Beijing Ruixin high throughput technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 711c, 7 / F, block a, building 1, yard 19, Ronghua Middle Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing 102600

Patentee after: Beijing Zhongke Flux Technology Co.,Ltd.

Address before: Room 711c, 7 / F, block a, building 1, yard 19, Ronghua Middle Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing 102600

Patentee before: Beijing Ruixin high throughput technology Co.,Ltd.