CN111078933A

CN111078933A - 视频及语音智能音乐控制器

Info

Publication number: CN111078933A
Application number: CN201911358514.3A
Authority: CN
Inventors: 张春晓
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-28

Abstract

本发明属于智能控制技术领域且公开了视频及语音智能音乐控制器，包括壳体、处理器、摄像头及麦克风阵列；所述壳体设置于智能控制器的表面，用于包裹控制器；摄像头位于所述壳体前端，用于捕获图像，以实现进行人脸及表情识别；麦克风阵列位于所述壳体的上部，设置有3至6个麦克风，用于收集多个方位的语音信号；控制器与路由器相连，控制器通过分析图像或声音，产生响应的指令发送到智能无损音乐服务器，播放相应的歌曲列表。本发明通过独立于网路无损播放器的单独硬件组成，通过接入同一个局域网实现智能曲目挑选的目的，对播放器本身干扰减低到最小，并且安装方便，只需联网以及提供电源即可工作。

Description

视频及语音智能音乐控制器

技术领域

本发明涉及智能控制技术领域，尤其涉及视频及语音智能音乐控制器。

背景技术

随着大容量的NAS网络存储器以及高保真网路播放器的出现，使得海量的CD能批量地放入NAS盘，还能随便选择播放。由于过于庞大的CD音乐资源，在使用时候存在不太容易找到期待的那些曲目或某张CD专辑。而且对于一个新的用户，要了解NAS盘里海量CD专辑资源，也需要很长一段时间去了解。

一般的网络无损播放器通过一组按键，让用户手动去海量NAS盘找寻需要的音乐专辑或曲目。由于过多的CD专辑资源，用户有时不记得喜欢的专辑在那路径，以至于使用体验不太好。因为过深的路径，往往需要长时间进行按键操作，导致手指头产生疼痛感觉。

发明内容

本发明要解决的技术问题是克服现有的缺陷，提供视频及语音智能音乐控制器，进行方便快捷甚至结合音乐治疗专业的选曲操作，进一步提高听歌体验并达到有效地舒缓心情目的，这是一个真正解放双手的智能选歌系统。对于一个海量NAS库资源，先对其CD专辑、专辑里的歌曲类别信息、艺术家等做统计整理形成一个数据库，根据使用者当时的表情、声音等，智能挑选响应的歌曲形成播放列表，也可以通过使用者说出喜欢的专辑，甚至播放歌曲的一个片段，自动查找响应的歌曲或专辑并播放，可以有效解决背景技术中的问题。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明提供视频及语音智能音乐控制器，包括：

包括壳体、处理器、摄像头及麦克风阵列；

壳体，所述壳体设置于智能控制器的表面，用于包裹控制器；

摄像头，所述摄像头位于所述壳体前端，用于捕获图像，以实现进行人脸及表情识别；

麦克风阵列，所述麦克风阵列位于所述壳体的上部，设置有3至6个麦克风，用于收集多个方位的语音信号；

所述的控制器与路由器相连，控制器通过分析图像或声音，产生响应的指令发送到智能无损音乐服务器，播放相应的歌曲列表。

作为本发明的一种优选技术方案，所述人脸识别用于识别注册的使用者信息。

作为本发明的一种优选技术方案，所述使用者信息包括使用者的账号、密码、并根据自己的喜好形成自己独特的播放列表。

作为本发明的一种优选技术方案，所述表情识别用于让智能控制器自动获取当前使用者的心情，通过注册用户预先设置的心情相关信息，让系统自动挑选歌曲进行播放。

作为本发明的一种优选技术方案，所述心情相关的信息包括：愉快、郁闷、平静、忧伤以及愤怒；

所述挑选歌曲设置在相应心情下，期待听到的音乐类型、哪些歌手以及歌曲种类，根据使用者当时的心情形成的音乐播放列表。

作为本发明的一种优选技术方案，所述歌曲种类包括轻音乐、摇滚或者爵士。

本发明中提供的一个或多个技术方案，至少具有如下技术效果或者优点：

1、进行方便快捷甚至结合音乐治疗专业的选曲操作，进一步提高听歌体验并达到有效地舒缓心情目的。这是一个真正解放双手的智能选歌系统。对于一个海量NAS库资源，先对其CD专辑、专辑里的歌曲类别信息、艺术家等做统计整理形成一个数据库。根据使用者当时的表情、声音等，智能挑选响应的歌曲形成播放列表。也可以通过使用者说出喜欢的专辑，甚至播放歌曲的一个片段，自动查找响应的歌曲或专辑并播放。

2、本发明通过独立于网路无损播放器的单独硬件组成，通过接入同一个局域网实现智能曲目挑选的目的，对播放器本身干扰减低到最小。并且安装方便，只需联网以及提供电源即可工作，本设计通过自定义的智能音乐控制网络协议将控制命令发送到网络无损播放器，所以适合本发明的网络无损播放器需要有同样的网络协议用于解释控制命令并执行相应的播放。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明实施例所述的视频及语音智能音乐控制器示意图；

图2是本发明为视频及语音智能音乐控制器在网络环境中的配置情况示意图；

图3是本发明实施例所述的视频及语音智能音乐控制器硬件结构示意图；

图4是本发明实施例所述的视频及语音智能音乐控制器的软件组成示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，并不用于限定本发明。

在本说明书的描述中，参考术语“一实施例”、“一具体实施例”、“例如”等的描述意指结合实例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施或示例中。本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或者多个实施例或者示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中步骤顺序不作限定，可根据需要做适当调整。

请参考图1所示，本使用新型所提供的视频及语音智能音乐控制器外观示意，具体包含壳体101、摄像头102，以及多个麦克风103，所述的壳体101设置于智能设备的外表面，用于包裹所述的智能设备，所述的摄像头位于圆柱体的侧边中间位置，用于拍摄外界图片，获得的图片将用于人脸识别及表情识别，考虑到有时机器被摆放的位置比较低，不足于拍摄到人脸，故设计此摄像头能够上下掰动，摄像头两边分布了多个麦克风103，这些麦克风都在靠近摄像头这半边，而不在后半边设置，原因是一般音响系统都靠墙放置，多个麦克风同时收集语音信号，可以提高使用者的用户体验，在离设备较远一点的地方、或者使用正常的音量，都可以有效地提取出有用的语音信号，因为麦克风整列分布在180度的范围内，使用者无需站在特定的方向，才能让设备接收到有效的语音信号，其次多麦克风阵列可以更有效得提高语音信号的信噪比。

参考图2，为视频及语音智能音乐控制器在网络环境中的配置情况，NAS音乐数据库基本上是多个硬盘组及通过网络共享里边的音乐数据，因为是挂在局域网里，所以往NAS盘传输无损音乐文件极其容易，基本上路由器以及NAS盘的是建立在千兆网络的环境里，所以传输速度也非常快。网络无损播放器是以此NAS盘为无损音乐数据源，音乐文件数据将以流数据的形式传进无损播放器，通过对音乐文件类型解码（例如wav、flac或者ape），得到音乐的采样数据无损数字流，此数字流通过DAC转换成模拟信号，模拟信号通过放大，成为高保真音乐信号从扬声器播放。视频及语音智能音乐控制器与NAS盘、播放器等通过路由器连接在同一个局域网里，从摄像头或者麦克风里获取的控制指令，将通过局域网发送到播放器中执行相关的播放操作。

图3为视频及语音智能音乐控制器硬件组成示意图。摄像头、麦克风等都连接到高新能嵌入式系统中，高性能嵌入式系统可以是低功效的ARM芯片，可以很方便地构建以Linux为软件开发环境的系统，方便图像获取、人脸识别、语音获取、语音识别、连接网络以及使用云服务等任务。

图4为系统的软件组成示意图。摄像头通过驱动层获取图像数据并通过人脸识别算法模块识别图像中的人脸。被识别的人脸将结合数据库里的资料，形成特有的播放列表。麦克风阵列数据通过专门设计的驱动采集数据，并采用专门的算法提高声音的信噪比，得到比较有效的语音信号。此语音信号通过Internet，传到远方的语音识别云服务（例如百度语音、科大讯飞云服务），对语音信号进行识别。人脸识别、表情识别、以及语音识别的信息，结合用户偏好数据库以及音乐治疗的相关信息，将作为多信息融合决策系统的输入，最终形成一个与某个用户当时心情相关的播放列表。此播放列表通过自定义的协议传递到播放器进行播放。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.视频及语音智能音乐控制器，其特征在于：包括：

包括壳体、处理器、摄像头及麦克风阵列；

2.根据权利要求1所述的视频及语音智能音乐控制器，其特征在于：所述人脸识别用于识别注册的使用者信息。

3.根据权利要求2所述的视频及语音智能音乐控制器，其特征在于：所述使用者信息包括使用者的账号、密码、并根据自己的喜好形成自己独特的播放列表。

4.根据权利要求3所述的视频及语音智能音乐控制器，其特征在于：所述表情识别用于让智能控制器自动获取当前使用者的心情，通过注册用户预先设置的心情相关信息，让系统自动挑选歌曲进行播放。

5.根据权利要求4所述的视频及语音智能音乐控制器，其特征在于：所述心情相关的信息包括：愉快、郁闷、平静、忧伤以及愤怒；

6.根据权利要求5所述的视频及语音智能音乐控制器，其特征在于：所述歌曲种类包括轻音乐、摇滚或者爵士。