CN112634893A

CN112634893A - 基于语音平台识别背景音乐的方法、装置及系统

Info

Publication number: CN112634893A
Application number: CN202011509875.6A
Authority: CN
Inventors: 李远程; 林初燃; 刘志坚; 冯枫杰
Original assignee: Ningbo Xiangxiang Zhihui Technology Co ltd
Current assignee: Ningbo Xiangxiang Zhihui Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09

Abstract

本发明涉及语音交互技术领域，具体涉及一种基于语音平台识别背景音乐的方法、装置及系统，所述方法包括如下步骤：S1、通过采集用户的哼唱语音，将哼唱语音暂存在待识别序列中；S2、通过语音平台接收语音指令，响应所述语音平台根据语音指令下发的识别指令；S3、通过采集音频数据，判断音频数据的时长是否大于预设时间阈值，如果是，则直接对音频数据进行歌曲识别，生成并输出识别结果；如果不是，则提取哼唱语音进行识别，得到第一结果清单，再识别音频数据得到第二结果清单，提取第一结果清单和第二结果清单中名称相同的歌曲信息，生成识别结果。采用本方案能够解决用户体验不高的问题。

Description

基于语音平台识别背景音乐的方法、装置及系统

技术领域

本发明涉及语音交互技术领域，具体涉及一种基于语音平台识别背景音乐的方法、装置及系统。

背景技术

随着互联网技术的不断发展，通过网络观看视频的用户越来越多，但是用户在观看视频的过程中可能会遇到如下情况：视频播放中有一段很好听的背景音乐或插曲，用户会对当前播放的背景音乐感兴趣，希望获取到该音乐的详细信息，比如歌曲名称、作者、歌曲风格、专辑名称等信息。

对此，中国专利公开号为CN108509620A的文件中公开了一种歌曲识别方法及装置、存储介质，属于电子技术领域。所述方法包括：在终端的显示界面的顶层显示歌曲识别提示信息；在检测到对所述歌曲识别提示信息的触发操作后，通过所述终端采集音频数据，并对采集到的音频数据进行歌曲识别。

采用上述方案，可以通过终端采集音频数据，并对采集到的音频数据进行歌曲识别；类似于各大音乐播放软件中集成的听音识曲功能，能够帮助用户了解到背景音乐的相关信息。但不可避免的是，用户有时会在音乐快要结束时才进行听音识曲，而由于打开软件需要一定时间，导致采集音频数据的时长无法达到软件要求(常规的需要控制在至少15秒)，存在识别准确性偏低，甚至无法识别出音乐信息的问题，所以用户不得不重新开始播放原始音乐进行识别，极大地影响用户体验。

发明内容

本发明意在于提供一种基于语音平台识别背景音乐的方法、装置及系统，能够解决用户体验不高的问题。

本发明提供的基础方案为：基于语音平台识别背景音乐的方法，包括如下步骤：

S1、通过采集用户的哼唱语音，将哼唱语音暂存在待识别序列中；

S2、通过语音平台接收语音指令，响应所述语音平台根据语音指令下发的识别指令；

S3、通过采集音频数据，判断音频数据的时长是否大于预设时间阈值，如果是，则直接对音频数据进行歌曲识别，生成并输出识别结果；如果不是，则提取哼唱语音进行识别，得到第一结果清单，再识别音频数据得到第二结果清单，提取第一结果清单和第二结果清单中名称相同的歌曲信息，生成识别结果。

本发明的工作原理及优点在于：

本方案中，首先获取用户在跟唱时的哼唱语音，并在待识别序列中暂存该哼唱语音；然后由语音平台接收用户的语音指令，并下发识别指令，进行背景音乐的识别工作；通过采集背景音乐的音频数据，判断音频时长与预设时间阈值的关系，如果时长大于预设时间阈值，表示采集到的音频数据时长足够进行听音识曲，可以直接对该音频数据进行歌曲识别，得到识别结果；相反的，如果时长不大于预设阈值，说明音频时长无法达到要求，需要提取并识别哼唱语音，得到较为模糊的结果，生成第一结果清单(即第一结果清单主要是根据用户哼唱声识别出多个粗略的歌曲名，清单中集合了多个近似的歌曲名)；再对音频数据进行识别，得到第二结果清单(第二结果清单则主要是根据短暂的音频数据另外识别出的多个歌曲名，清单中同样集合了多个近似的歌曲名)；于是将两部分结果中名称相同的歌曲信息，作为识别结果；得到结果准确性更高，有效避免音频时长不足导致无法识别的问题；同时，用户也不必重新开始播放音乐，从而提升用户的使用体验。

进一步，还包括步骤S4、背景音乐结束后清空待识别序列中的哼唱语音。

有益效果：由于哼唱语音占用了一部分内存，在当前背景音乐结束后清空待识别序列中的哼唱语音，能够避免无效数据量较多影响到反应速度。

进一步，所述步骤S2具体包括步骤S21、根据语音识别算法处理语音指令，得到文字信息；如果文字信息中存在预设关键词，则生成识别指令；所述关键词为识别音乐。

有益效果：用户可以通过说出“识别音乐”这几个字，来触发背景音乐的识别；操作简便。

进一步，所述步骤S3中预设时间阈值为15秒。

有益效果：目前市面上常用的听音识曲功能可以在录制15秒音频后得出比较准确的识别结果。

基于语音平台识别背景音乐的装置，包括：

第一输入模块，用于采集用户的哼唱语音，将哼唱语音暂存在待识别序列中；

第二输入模块，用于采集用户的语音指令，将语音指令输出至语音平台；

语音平台，用于根据语音识别算法处理语音指令，生成识别指令；

音乐识别模块，用于在接收识别指令后，采集音频数据，判断音频数据的时长是否大于预设时间阈值，如果是，则直接对音频数据进行歌曲识别；如果不是，则提取哼唱语音进行识别，得到第一结果清单，在识别音频数据得到第二结果清单，提取第一结果清单和第二结果清单中名称相同的歌曲信息，生成识别结果。

有益效果：采用该装置，能够得到准确性更高的识别结果，有效避免音频时长不足导致无法识别的问题；同时，用户也不必重新开始播放音乐，有效提升用户的使用体验。

基于语音平台识别背景音乐的系统，包括如上述的基于语音平台识别背景音乐的装置。

有益效果：能够克服音频时长不足导致无法识别的技术难题；用户遇到该问题也无需重新播放音乐，从而提升用户体验。

附图说明

图1为本发明基于语音平台识别背景音乐的方法实施例一的流程图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例一

基于语音平台识别背景音乐的方法，如图1所示，包括如下步骤：

S2、通过语音平台接收语音指令，响应所述语音平台根据语音指令下发的识别指令；具体的，本实施例中还包括步骤S21、根据语音识别算法处理语音指令，得到文字信息；如果文字信息中存在预设关键词，则生成识别指令；关键词为识别音乐；类似于现有的智能音响，如天猫精灵，可以支持语音控制，当用户需要识别背景音乐时，只要说出识别音乐即可触发听音识曲功能，该技术为现有技术，在此不再赘述。

S3、通过采集音频数据，判断音频数据的时长是否大于预设时间阈值(本实施例中设定为15秒)，如果是，则直接对音频数据进行歌曲识别，生成并输出识别结果；如果不是，则提取哼唱语音进行识别，得到第一结果清单，再识别音频数据得到第二结果清单，提取第一结果清单和第二结果清单中名称相同的歌曲信息，生成识别结果。具体的，本方案中的歌曲识别类似于网易云音乐中的听音识曲，当要识别一段未知音频时，首先按照指纹提取算法计算其音频特征，然后和数据库中存储的大量音频指纹相比对从而进行识别；相应的，对于哼唱语音的识别，主要是将哼唱语音中每个音符的音调值作为指纹，利用数字音频指纹技术到达识别哼唱歌曲的目的；

在另一实施例中，对于时长小于15秒的音频数据，可以先对音频数据进行歌曲识别，得到比较粗略的疑似结果；再分别根据语音频谱线性或者预设时间内相同音节的个数，得到与哼唱语音特征相同的疑似结果，生成识别结果并进行输出；例如，根据时间较短的音频数据识别出了3个结果：歌曲A、歌曲B和歌曲C，然后再分别提取这几首歌曲的语音频谱，以此作为用于识别哼唱语音的样本，再根据用户哼唱的哼唱语音描绘出语音频谱，将该频谱与样本比较后得到识别结果；

此外，由于汉语中一个汉字就是一个音节，每个音节由声母、韵母和声调三个部分组成，同样可以提取样本的音节和哼唱语音的音节，将哼唱语音的第一个音节作为起始点遍历样本，并根据实际需求定义预设时间(可以设定为15-20秒，一般来说这个时间范围内的音节相同，则极有可能为同一首歌)，通过比较该时间段内相同音节的个数；最后，将相同音节个数最多的疑似结果作为识别结果输出；这样做的目的在于，在识别哼唱语音时，无需对整个数据库进行筛选，从而缩小筛选范围；能够在保证识别结果准确度的基础上进一步加快处理速度。

实施例二

与实施例一相比，不同之处仅在于，为避免无效数据占用存储空间，影响反应速度，本实施例中还包括步骤S4、背景音乐结束后清空待识别序列中的哼唱语音。

实施例三

对应于实施例一和实施例二中所述的基于语音平台识别背景音乐的方法，本实施例提供一种基于语音平台识别背景音乐的装置，包括：

第二输入模块，用于采集用户的语音指令，将语音指令输出至语音平台；具体的，哼唱语音、语音指令和音频数据这类声音信息均可以使用拾音器进行采集；待识别序列可以理解为数据库；

语音平台，用于根据语音识别算法处理语音指令，生成识别指令；和

本方明还提供一种基于语音平台识别背景音乐的系统，包括如上述的基于语音平台识别背景音乐的装置。

实施例四

在本实施例中，用户家中多个房间区域内均设置有智能音箱，智能音箱采用天猫精灵，该智能音箱搭载有语音平台，便于响应用户发布的识别指令，并通过智能音箱内置的拾音器采集哼唱语音以及音频数据；此外，还可以为用户播放美妙的背景音乐，营造出一个舒适的居住效果。

基于语音平台识别背景音乐的装置中还包括：接收模块，用于接收各个不同区域内摄像头和智能音响的安装位置信息，将位于同一区域的摄像头和智能音响进行配对，并存入预先建立的映射关系表；例如，映射关系表中包含了安装位置信息，摄像头名称和智能音响名称这三个要素，表中第一行的安装位置信息，摄像头名称和智能音响名称分别为，客厅，摄像头A，智能音响A；相应的，第二行中包括，卧室1，摄像头B，智能音响B；第三行中包括，厕所，摄像头C，智能音响C。

处理模块，用于在用户向智能音响发布播放指令的同时，定义该智能音响的所属区域为初始区，其他区域为非初始区。例如，假定用户向“智能音响B”发布了播放指令，由于“智能音响B”的所属区域我“卧室1”，所以此时“卧室1”被标定为初始区；而其他非“卧室1”的区域则为非初始区。

处理模块还用于采集用户的声音信息，并根据语音识别算法将声音信息转化为文字信息，从文字信息中提取出关键词；根据关键词对用户即将前往的地点进行预测。

判断模块，用于判断映射关系表中是否存在与该地点相同的安装位置信息，如果是，则生成目标区；举个例子，当用户说出“我要去上厕所”时，可以从中提取出关键词“厕所”，预测该用户即将前往厕所，由于映射关系表中也包含有“厕所”这一安装位置信息，则可以将“厕所”作为目标区，便于提前打开厕所的智能音响为用户播放背景音乐。

在用户离开初始区之前，还可以通过接收模块获取初始区内智能音响播放的歌曲名称和播放时间，并将歌曲名称和播放时间作为播放指令发送至目标区的智能音响。

数据库，用于预先存储各个区域之间的步进距离；本方案中，各个区域之间步进距离可以根据摄像头拍摄图像的时间点进行获取，即通过预先多次的采集，当用户从初始区离开时，得到图片A以及第一拍摄时间；该用户进入目标区时，得到图片B以及第二拍摄时间；计算第二拍摄时间和第一拍摄时间的差值，并将差值乘以预设的步进速度，从而得到步进距离；举个例子，用户离开卧室1时，得到的拍摄时间为10时23分30秒；用户在进入厕所时，得到的拍摄时间为10时23分50秒；时间差值为20s，而预设的步进速度1.2m/s，得到步进距离为24m；为保证数据的准确性，可以通过多次采集计算取众数确定两区域的步进距离。

处理模块还用于根据初始区和目标区，从数据库中匹配出初始区和目标区的步进距离；并计算步进距离与步进速度的比值，得到间隔时间；例如：当初始区为“卧室1”，目标区为“厕所”时，通过查找数据库中这两个区域步进距离“24m”，除以预设的步进速度“1.2m/s”，得到间隔时间“20s”；

处理模块还用于接收间隔时间和播放时间，并计算播放时间与间隔时间的差值，生成第一时间节点；将第一时间节点发送至目标区的智能音响；具体的，本实施例中，播放时间为1分20秒，由于间隔时间为20秒，通过计算两时间的差值得到第一时间节点为“1分”，发送至厕所的智能音响；由目标区“厕所”的智能音响C在第一时间节点“1分”开始静音播放背景音乐，并在播放时间节点“1分20秒”将音量调大为正常音量播放。

考虑到实际使用的过程中，由于智能音响从启动到播放背景音乐存在一定是时长，智能音响这个时间段内需要对播放指令进行解码处理，即使是处理器性能较好的智能音响也需要等待3-4秒才能播放出背景音乐，使用户在走进目标区时并不能立马听到背景音乐，目标区的背景音乐进行有效地衔接，存在用户体验偏低的问题。

采用本方案，通过对用户声音信息进行采集，并根据其中的关键字预测用户即将前往的区域；再根据当前区域和目标区域的间隔距离和需用时间处理播放指令，并基于新生成的时间节点控制智能音响开始进行静音播放，用户正在前往目标区的过程中无需听到背景音乐，由于目标区的智能音响被提前启动并开始静音播放背景音乐，使智能音响看起来没有工作，能够有效避免等待时间的问题；当用户进入目标区时，智能音响恢复为正常音量，使目标区的背景音乐与初始区内播放的背景音乐进行无缝衔接。通过这样的方式能够减少交互延迟，并为用户提供更好的交互体验。

在另一实施例中，还包括用于搭载智能音响并带动智能音响旋转的云台，云台与服务器信号连接；接收模块还用于获取摄像头拍摄的图像；处理模块还用于对图像进行差分计算，识别图像中运动目标的运动轨迹；处理模块用于根据运动轨迹生成云台控制指令；并将该控制指令发送至云台，驱动云台跟随运动目标转动。技术原理类似于现有的高速球自动跟踪技术；

由于声波容易受到环境的影响，本方案通过设置可以跟随运动目标(用户)的移动而旋转的云台，因为智能音响固定在云台上，无论用户在房间内的何处，智能音响都能够朝向用户播放背景音乐，使智能音响输出的声波始终正对用户呈一条直线；从而提升背景音乐的收听效果。

在其他实施例中，映射关系表中还包括各个位置区域安装的云台，例如，客厅，摄像头A，智能音响A，云台A；卧室1，摄像头B，智能音响B，云台B；第三行中包括，厕所，摄像头C，智能音响C，云台C；

位于初始区的云台还用于实时向接收模块上传转动角度信息；判断模块还用于获取位于非初始区的智能音响采集到的位于初始区内智能音响输出的声波信号，并判断声波信号是否存在变化，如果声波信号的强弱变化，则判断初始区的云台处于旋转状态，生成触发信号；处理模块还用于将触发信号和转动角度信息发送至非初始区的云台，控制非初始区的云台根据转动角度进行旋转。例如，用户在卧室1中走动，云台B跟随用户转动，与此同时，云台B上的智能音响B被带动一起旋转，保证声波朝向用户；然而，由于客厅中的云台A位置不动，通过位于云台A上的智能音响A采集声波信号，因智能音响B旋转导致智能音响接收到的声波信号强弱存在变化(当智能音响A正好朝向智能音响B时声波信号最大)；所以，由于声波信号强弱不同，判断用户可能要离开初始区，于是向非初始区的云台发送触发信号和转动角度信息，使非初始区的云台与初始区的云台通过旋转角度相互印证和联系，从而保证用户进入非标准区时，位于非标准区内云台上的智能音响也能够正对用户，为用户提供更好的收听效果，进而提升用户体验。

本实施例中还提供一种基于语音平台识别背景音乐的方法和系统，包括如上述的基于语音平台识别背景音乐的装置。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于语音平台识别背景音乐的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于语音平台识别背景音乐的方法，其特征在于：还包括步骤S4、背景音乐结束后清空待识别序列中的哼唱语音。

3.根据权利要求1所述的基于语音平台识别背景音乐的方法，其特征在于：所述步骤S2具体包括步骤S21、根据语音识别算法处理语音指令，得到文字信息；如果文字信息中存在预设关键词，则生成识别指令；所述关键词为识别音乐。

4.根据权利要求1所述的基于语音平台识别背景音乐的方法，其特征在于：所述步骤S3中预设时间阈值为15秒。

5.基于语音平台识别背景音乐的装置，其特征在于：包括：

6.基于语音平台识别背景音乐的系统，其特征在于：包括如权利要求5所述的基于语音平台识别背景音乐的装置。