CN111078933A - 视频及语音智能音乐控制器 - Google Patents

视频及语音智能音乐控制器 Download PDF

Info

Publication number
CN111078933A
CN111078933A CN201911358514.3A CN201911358514A CN111078933A CN 111078933 A CN111078933 A CN 111078933A CN 201911358514 A CN201911358514 A CN 201911358514A CN 111078933 A CN111078933 A CN 111078933A
Authority
CN
China
Prior art keywords
controller
music
intelligent
video
shell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911358514.3A
Other languages
English (en)
Inventor
张春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201911358514.3A priority Critical patent/CN111078933A/zh
Publication of CN111078933A publication Critical patent/CN111078933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • G06F16/639Presentation of query results using playlists
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • G11B31/006Arrangements for the associated working of recording or reproducing apparatus with related apparatus with video camera or receiver
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于智能控制技术领域且公开了视频及语音智能音乐控制器,包括壳体、处理器、摄像头及麦克风阵列;所述壳体设置于智能控制器的表面,用于包裹控制器;摄像头位于所述壳体前端,用于捕获图像,以实现进行人脸及表情识别;麦克风阵列位于所述壳体的上部,设置有3至6个麦克风,用于收集多个方位的语音信号;控制器与路由器相连,控制器通过分析图像或声音,产生响应的指令发送到智能无损音乐服务器,播放相应的歌曲列表。本发明通过独立于网路无损播放器的单独硬件组成,通过接入同一个局域网实现智能曲目挑选的目的,对播放器本身干扰减低到最小,并且安装方便,只需联网以及提供电源即可工作。

Description

视频及语音智能音乐控制器
技术领域
本发明涉及智能控制技术领域,尤其涉及视频及语音智能音乐控制器。
背景技术
随着大容量的NAS网络存储器以及高保真网路播放器的出现,使得海量的CD能批量地放入NAS盘,还能随便选择播放。由于过于庞大的CD音乐资源,在使用时候存在不太容易找到期待的那些曲目或某张CD专辑。而且对于一个新的用户,要了解NAS盘里海量CD专辑资源,也需要很长一段时间去了解。
一般的网络无损播放器通过一组按键,让用户手动去海量NAS盘找寻需要的音乐专辑或曲目。由于过多的CD专辑资源,用户有时不记得喜欢的专辑在那路径,以至于使用体验不太好。因为过深的路径,往往需要长时间进行按键操作,导致手指头产生疼痛感觉。
发明内容
本发明要解决的技术问题是克服现有的缺陷,提供视频及语音智能音乐控制器,进行方便快捷甚至结合音乐治疗专业的选曲操作,进一步提高听歌体验并达到有效地舒缓心情目的,这是一个真正解放双手的智能选歌系统。对于一个海量NAS库资源,先对其CD专辑、专辑里的歌曲类别信息、艺术家等做统计整理形成一个数据库,根据使用者当时的表情、声音等,智能挑选响应的歌曲形成播放列表,也可以通过使用者说出喜欢的专辑,甚至播放歌曲的一个片段,自动查找响应的歌曲或专辑并播放,可以有效解决背景技术中的问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供视频及语音智能音乐控制器,包括:
包括壳体、处理器、摄像头及麦克风阵列;
壳体,所述壳体设置于智能控制器的表面,用于包裹控制器;
摄像头,所述摄像头位于所述壳体前端,用于捕获图像,以实现进行人脸及表情识别;
麦克风阵列,所述麦克风阵列位于所述壳体的上部,设置有3至6个麦克风,用于收集多个方位的语音信号;
所述的控制器与路由器相连,控制器通过分析图像或声音,产生响应的指令发送到智能无损音乐服务器,播放相应的歌曲列表。
作为本发明的一种优选技术方案,所述人脸识别用于识别注册的使用者信息。
作为本发明的一种优选技术方案,所述使用者信息包括使用者的账号、密码、并根据自己的喜好形成自己独特的播放列表。
作为本发明的一种优选技术方案,所述表情识别用于让智能控制器自动获取当前使用者的心情,通过注册用户预先设置的心情相关信息,让系统自动挑选歌曲进行播放。
作为本发明的一种优选技术方案,所述心情相关的信息包括:愉快、郁闷、平静、忧伤以及愤怒;
所述挑选歌曲设置在相应心情下,期待听到的音乐类型、哪些歌手以及歌曲种类,根据使用者当时的心情形成的音乐播放列表。
作为本发明的一种优选技术方案,所述歌曲种类包括轻音乐、摇滚或者爵士。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或者优点:
1、进行方便快捷甚至结合音乐治疗专业的选曲操作,进一步提高听歌体验并达到有效地舒缓心情目的。这是一个真正解放双手的智能选歌系统。对于一个海量NAS库资源,先对其CD专辑、专辑里的歌曲类别信息、艺术家等做统计整理形成一个数据库。根据使用者当时的表情、声音等,智能挑选响应的歌曲形成播放列表。也可以通过使用者说出喜欢的专辑,甚至播放歌曲的一个片段,自动查找响应的歌曲或专辑并播放。
2、本发明通过独立于网路无损播放器的单独硬件组成,通过接入同一个局域网实现智能曲目挑选的目的,对播放器本身干扰减低到最小。并且安装方便,只需联网以及提供电源即可工作,本设计通过自定义的智能音乐控制网络协议将控制命令发送到网络无损播放器,所以适合本发明的网络无损播放器需要有同样的网络协议用于解释控制命令并执行相应的播放。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明实施例所述的视频及语音智能音乐控制器示意图;
图2是本发明为视频及语音智能音乐控制器在网络环境中的配置情况示意图;
图3是本发明实施例所述的视频及语音智能音乐控制器硬件结构示意图;
图4是本发明实施例所述的视频及语音智能音乐控制器的软件组成示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚明白, 下面结合实施例和附图,对本发明做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,并不用于限定本发明。
在本说明书的描述中,参考术语“一实施例”、“一具体实施例”、“例如”等的描述意指结合实例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施或示例中。本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或者多个实施例或者示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中步骤顺序不作限定,可根据需要做适当调整。
请参考图1所示,本使用新型所提供的视频及语音智能音乐控制器外观示意,具体包含壳体101、摄像头102,以及多个麦克风103,所述的壳体101设置于智能设备的外表面,用于包裹所述的智能设备,所述的摄像头位于圆柱体的侧边中间位置,用于拍摄外界图片,获得的图片将用于人脸识别及表情识别,考虑到有时机器被摆放的位置比较低,不足于拍摄到人脸,故设计此摄像头能够上下掰动,摄像头两边分布了多个麦克风103,这些麦克风都在靠近摄像头这半边,而不在后半边设置,原因是一般音响系统都靠墙放置,多个麦克风同时收集语音信号,可以提高使用者的用户体验,在离设备较远一点的地方、或者使用正常的音量,都可以有效地提取出有用的语音信号,因为麦克风整列分布在180度的范围内,使用者无需站在特定的方向,才能让设备接收到有效的语音信号,其次多麦克风阵列可以更有效得提高语音信号的信噪比。
参考图2,为视频及语音智能音乐控制器在网络环境中的配置情况,NAS音乐数据库基本上是多个硬盘组及通过网络共享里边的音乐数据,因为是挂在局域网里,所以往NAS盘传输无损音乐文件极其容易,基本上路由器以及NAS盘的是建立在千兆网络的环境里,所以传输速度也非常快。网络无损播放器是以此NAS盘为无损音乐数据源,音乐文件数据将以流数据的形式传进无损播放器,通过对音乐文件类型解码(例如wav、flac或者ape),得到音乐的采样数据无损数字流,此数字流通过DAC转换成模拟信号,模拟信号通过放大,成为高保真音乐信号从扬声器播放。视频及语音智能音乐控制器与NAS盘、播放器等通过路由器连接在同一个局域网里,从摄像头或者麦克风里获取的控制指令,将通过局域网发送到播放器中执行相关的播放操作。
图3为视频及语音智能音乐控制器硬件组成示意图。摄像头、麦克风等都连接到高新能嵌入式系统中,高性能嵌入式系统可以是低功效的ARM芯片,可以很方便地构建以Linux为软件开发环境的系统,方便图像获取、人脸识别、语音获取、语音识别、连接网络以及使用云服务等任务。
图4为系统的软件组成示意图。摄像头通过驱动层获取图像数据并通过人脸识别算法模块识别图像中的人脸。被识别的人脸将结合数据库里的资料,形成特有的播放列表。麦克风阵列数据通过专门设计的驱动采集数据,并采用专门的算法提高声音的信噪比,得到比较有效的语音信号。此语音信号通过Internet,传到远方的语音识别云服务(例如百度语音、科大讯飞云服务),对语音信号进行识别。人脸识别、表情识别、以及语音识别的信息,结合用户偏好数据库以及音乐治疗的相关信息,将作为多信息融合决策系统的输入,最终形成一个与某个用户当时心情相关的播放列表。此播放列表通过自定义的协议传递到播放器进行播放。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.视频及语音智能音乐控制器,其特征在于:包括:
包括壳体、处理器、摄像头及麦克风阵列;
壳体,所述壳体设置于智能控制器的表面,用于包裹控制器;
摄像头,所述摄像头位于所述壳体前端,用于捕获图像,以实现进行人脸及表情识别;
麦克风阵列,所述麦克风阵列位于所述壳体的上部,设置有3至6个麦克风,用于收集多个方位的语音信号;
所述的控制器与路由器相连,控制器通过分析图像或声音,产生响应的指令发送到智能无损音乐服务器,播放相应的歌曲列表。
2.根据权利要求1所述的视频及语音智能音乐控制器,其特征在于:所述人脸识别用于识别注册的使用者信息。
3.根据权利要求2所述的视频及语音智能音乐控制器,其特征在于:所述使用者信息包括使用者的账号、密码、并根据自己的喜好形成自己独特的播放列表。
4.根据权利要求3所述的视频及语音智能音乐控制器,其特征在于:所述表情识别用于让智能控制器自动获取当前使用者的心情,通过注册用户预先设置的心情相关信息,让系统自动挑选歌曲进行播放。
5.根据权利要求4所述的视频及语音智能音乐控制器,其特征在于:所述心情相关的信息包括:愉快、郁闷、平静、忧伤以及愤怒;
所述挑选歌曲设置在相应心情下,期待听到的音乐类型、哪些歌手以及歌曲种类,根据使用者当时的心情形成的音乐播放列表。
6.根据权利要求5所述的视频及语音智能音乐控制器,其特征在于:所述歌曲种类包括轻音乐、摇滚或者爵士。
CN201911358514.3A 2019-12-25 2019-12-25 视频及语音智能音乐控制器 Pending CN111078933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911358514.3A CN111078933A (zh) 2019-12-25 2019-12-25 视频及语音智能音乐控制器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911358514.3A CN111078933A (zh) 2019-12-25 2019-12-25 视频及语音智能音乐控制器

Publications (1)

Publication Number Publication Date
CN111078933A true CN111078933A (zh) 2020-04-28

Family

ID=70317747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911358514.3A Pending CN111078933A (zh) 2019-12-25 2019-12-25 视频及语音智能音乐控制器

Country Status (1)

Country Link
CN (1) CN111078933A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101836219A (zh) * 2007-11-01 2010-09-15 索尼爱立信移动通讯有限公司 基于面部表情生成音乐播放列表
CN109419105A (zh) * 2017-08-27 2019-03-05 南京乐朋电子科技有限公司 一种能智能播放音乐的手环
CN110139185A (zh) * 2019-06-01 2019-08-16 厦门市思芯微科技有限公司 一种ai智能音箱播放列表的管理系统
CN209691400U (zh) * 2019-04-22 2019-11-26 南京信息工程大学 具有情绪识别功能的音乐播放器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101836219A (zh) * 2007-11-01 2010-09-15 索尼爱立信移动通讯有限公司 基于面部表情生成音乐播放列表
CN109419105A (zh) * 2017-08-27 2019-03-05 南京乐朋电子科技有限公司 一种能智能播放音乐的手环
CN209691400U (zh) * 2019-04-22 2019-11-26 南京信息工程大学 具有情绪识别功能的音乐播放器
CN110139185A (zh) * 2019-06-01 2019-08-16 厦门市思芯微科技有限公司 一种ai智能音箱播放列表的管理系统

Similar Documents

Publication Publication Date Title
US20220230635A1 (en) VAS Toggle Based on Device Orientation
US7779357B2 (en) Audio user interface for computing devices
US8751030B2 (en) Audio player and operating method automatically selecting music type mode according to environment noise
US20220319513A1 (en) Input detection windowing
US11881222B2 (en) Command keywords with input detection windowing
EP1652180B1 (fr) Procede de reproduction de documents audio a l'aide d'une interface presentant des groupes de documents, et appareil de reproduction associe
US11574627B2 (en) Masking systems and methods
US12062364B2 (en) Memory allocation for keyword spotting engines
Bartlett et al. Recording Music on Location: Capturing the Live Performance
KR20030059503A (ko) 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
JP2004265376A (ja) メモリに格納されたデータベースから録音物を選択する方法及び装置
CN111105776A (zh) 有声播放装置及其播放方法
JP2011003193A (ja) マルチメディア識別システム及び方法
CN111078933A (zh) 视频及语音智能音乐控制器
US12057114B2 (en) Media content steering
US20200081681A1 (en) Mulitple master music playback
KR102472921B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치
JP2021189450A (ja) オーディオの個人化をサポートするためのオーディオトラック分析技術
JP2018055440A (ja) サーバ装置、情報処理端末、プログラム、システム、および方法
US20240223951A1 (en) Systems, methods and computer program products for selecting audio filters
KR102508508B1 (ko) 사용자의 음원 청취기록을 바탕으로 커버 버전의 음원을 재생하는 장치
Reveillac Recording and Voice Processing, Volume 1: History and Generalities
Toulson Evolving Technologies of Music Distribution: Consumer Music Formats–Past, Present and Future
JP2007299215A (ja) 情報再生装置、情報再生システム及び情報再生プログラム
Border Sound for the masses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200428