CN107247768A

CN107247768A - 语音点歌方法、装置、终端及存储介质

Info

Publication number: CN107247768A
Application number: CN201710414528.7A
Authority: CN
Inventors: 马雅茹; 刘昕; 苟津川; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2017-06-05
Filing date: 2017-06-05
Publication date: 2017-10-13

Abstract

本发明公开了一种语音点歌方法、装置、终端及存储介质，其中该方法包括：接收用户输入的语音信息；对语音信息进行语音识别，得到语音识别结果；将语音识别结果与预设的维度数据库进行比对，获取该语音识别结果中的维度数据及其对应的维度类别，其中维度数据库用于存储各音乐资源在不同维度类别下的维度数据；根据维度数据及其对应的维度类别检索并输出对应的音乐资源。本发明通过维度数据库存储各音乐资源对应于不同维度类别的维度数据，支持多维度语音点歌，提高语音点歌方式的灵活度，满足用户多维度的点歌需求。

Description

语音点歌方法、装置、终端及存储介质

技术领域

本发明实施例涉及音乐服务技术，尤其涉及一种语音点歌方法、装置、终端及存储介质。

背景技术

与触屏点歌相比，语音点歌摆脱了界面的束缚，可以让用户完全根据个人习惯完成歌曲的检索播放，但由于人类语言交流的复杂性，这大大增加了点歌的难度，通过自然语言点播的方式要更加灵活和广泛，才能满足各种用户不同的语言模式和点歌习惯。

现有的语音点歌还保持着与手控点歌相同的模式，主要通过指明歌曲名或歌手名来完成点歌，但是不同用户的语言习惯和点歌模式是非常不同的，因此，面对不同的用户，现有的语音点歌方式很可能无法反馈用户需求的音乐资源。

发明内容

本发明提供一种语音点歌方法、装置、终端及存储介质，支持多维度语音点歌，提高语音点歌方式的灵活度，满足用户的语言习惯和多维度的点歌需求。

第一方面，本发明实施例提供了一种语音点歌方法，包括：

接收用户输入的语音信息；

对所述语音信息进行语音识别，得到语音识别结果；

将所述语音识别结果与预设的维度数据库进行比对，获取所述语音识别结果中的维度数据及其对应的维度类别，其中所述维度数据库用于存储各音乐资源在不同维度类别下的维度数据；

根据所述维度数据及其对应的维度类别检索并输出对应的音乐资源。

进一步地，在接收用户输入的语音信息之前，所述方法还包括：

按照预设维度类别在音乐资源库中分别查找与各音乐资源对应的维度数据；

按照所述预设维度类别保存所述查找到的维度数据，得到所述维度数据库。

进一步地，在得到所述维度数据库之后，所述方法还包括：根据音乐资源的变化和预设维度类别的变化对所述维度数据库进行更新。

进一步地，将所述语音识别结果与预设的维度数据库进行比对，获取所述语音识别结果中的维度数据及其对应的维度类别，包括：

对所述语音识别结果进行分词处理；

将分词结果与所述维度数据库进行比对；

在所述分词结果中，确定与所述维度数据库中的数据存在完全匹配情况的词语作为所述语音识别结果的维度数据；

根据所述维度数据库确定所述维度数据对应的维度类别。

进一步地，输出对应的音乐资源，包括：

如果检索到多个音乐资源，按照预设规则选择其中一个音乐资源，并播放所选的音乐资源；或者，按照预设排序方法对所述多个音乐资源进行排序，按照顺序播放所述多个音乐资源。

进一步地，输出对应的音乐资源，包括：

如果检索到多个音乐资源，展示所述多个音乐资源；

接收用户输入的选择信息；

根据所述选择信息确定用户选择的音乐资源，并进行播放。

进一步地，输出对应的音乐资源，包括：

如果未检索到完全匹配的音乐资源，输出相似度高于预设值的音乐资源；

根据用户输入的选择信息，选择其中一个或多个音乐资源进行播放。

第二方面，本发明实施例还提供了一种语音点歌装置，包括：

语音接收模块，用于接收用户输入的语音信息；

语音识别模块，用于对所述语音信息进行语音识别，得到语音识别结果；

维度获取模块，用于将所述语音识别结果与预设的维度数据库进行比对，获取所述语音识别结果中的维度数据及其对应的维度类别，其中所述维度数据库用于存储各音乐资源在不同维度类别下的维度数据；

资源检索模块，用于根据所述维度数据及其对应的维度类别检索对应的音乐资源；

资源输出模块，用于输出对应的音乐资源。

第三方面，本发明实施例还提供了一种终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的语音点歌方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的语音点歌方法。

本发明通过维度数据库存储各音乐资源对应于不同维度类别的维度数据，支持多维度语音点歌，提高语音点歌方式的灵活度，满足用户多维度的点歌需求，在很大程度上避免了不同语言习惯导致无法反馈用户所需歌曲的问题。

附图说明

图1是本发明实施例一提供的语音点歌方法的流程图；

图2是本发明实施例三提供的语音点歌装置的结构框图；

图3是本发明实施例四提供的终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的语音点歌方法的流程图，本实施例可适用于语音点歌的情况，该方法可以由具有语音收发和数据处理功能的终端来执行。如图1所示，该方法具体包括如下步骤：

步骤110，接收用户输入的语音信息。

其中，用户使用自然语言输入语音信息，例如，用户输入语音“我想听周杰伦的东风破”、“播放陈奕迅的歌”、“丑八怪”、“李宗盛作曲的歌”等。

步骤120，对语音信息进行语音识别，得到语音识别结果。

其中，语音识别结果可以是文字信息。具体可以使用现有的语音识别方法进行语音识别，例如，基于动态时间规整的算法、基于参数模型的隐马尔可夫法、基于非参数模型的矢量量化法、基于人工神经网络的算法等，本发明实施例对语音识别过程不进行详细说明。

步骤130，将语音识别结果与预设的维度数据库进行比对，获取语音识别结果中的维度数据及其对应的维度类别，其中维度数据库用于存储各音乐资源在不同维度类别下的维度数据。

其中，维度数据库可以包括：维度类别和维度数据。维度类别可以包括：歌曲名、歌手名、歌曲风格、词曲作者、所属专辑、歌词、所属音乐榜单和所属影视娱乐节目等。维度数据是音乐资源在各维度类别下的具体维度数据，也就是说，维度数据与维度类别存在对应关系，例如，歌曲名对应的维度数据是音乐资源的名称，歌手名对应的维度数据是该音乐资源的演唱者，歌曲风格是该音乐资源所属的风格，词曲作者是该音乐资源的作词者和作曲者，所属专辑是该音乐资源所属的专辑名，歌词是该音乐资源的歌词内容，所属音乐榜单是包含该音乐资源的歌曲榜单，所属影视娱乐节目是与该音乐资源相关的影视娱乐作品。可以根据不同的场景定义不同的维度类别，例如，设置为5个维度类别或者7个维度类别等。

优选的，维度数据库中还可以包括：维度序号，维度序号与维度类别的数目一致，例如，歌曲名、歌手名、词曲作者、所属专辑这四个维度类别对应的维度序号分别为1、2、3、4。使用维度序号便于数据的存储和检索。

步骤140，根据维度数据及其对应的维度类别检索并输出对应的音乐资源。

例如，可以使用实时搜索引擎Elasticsearch(简称ES)进行音乐资源检索。语音识别结果中包含多个维度数据时，使用ES能找到覆盖该多个维度数据的结果。具体的，可以音乐资源库中进行资源检索。

本实施例的技术方案，通过维度数据库存储各音乐资源对应于不同维度类别的维度数据，支持多维度语音点歌，提高语音点歌方式的灵活度，满足用户多维度的点歌需求，在很大程度上避免了不同语言习惯导致无法反馈用户所需歌曲的问题。

本实施例中涉及到两个数据库：音乐资源库用于存储音乐资源，维度数据库用于存储音乐资源的维度数据，可以从音乐资源中抽取其维度数据。音乐资源库可以存储在终端或服务器中，维度数据库可以存储在终端或服务器中。在上述技术方案的基础上，在接收用户输入的语音信息之前，上述方法还可以包括建立维度数据库的步骤。具体的，按照预设维度类别在音乐资源库中分别查找与各音乐资源对应的维度数据；按照预设维度类别保存查找到的维度数据，得到维度数据库。也就是将音乐资源库中每一首歌所包含的对应于各维度类别的维度数据提取出来并保存。预先建立维度数据库，存储音乐资源在各维度类别下的维度数据，能够满足用户多维度的语音点歌需求。例如，歌曲东风破抽取的维度数据如表1所示：

表1歌曲东风破抽取的维度数据表

考虑到音乐资源会发生变化，维度类别也可以根据实际情况进行调整，因此，本发明实施例可以根据音乐资源的变化和预设维度类别的变化对维度数据库进行更新。优选的，可以按照预设时间间隔对维度数据库进行定时更新。及时对维度数据库进行更新，保证用户能够通过该维度数据库及时点播到新增的歌曲。

优选的，步骤130可以包括：对语音识别结果进行分词处理；将分词结果与维度数据库进行比对；在分词结果中，确定与维度数据库中的数据存在完全匹配情况的词语作为语音识别结果的维度数据；根据维度数据库确定维度数据对应的维度类别。其中，可以使用现有分词算法进行分词处理，例如，基于字符串匹配的机械分词算法、基于理解的分词算法、基于统计的分词算法等，本发明实施例对具体分词过程不进行详细说明。

例如，语音识别结果是丑八怪，与维度数据库进行比对，查找到丑八怪这个维度数据，并且根据维度数据与维度类别的对应关系可以确定丑八怪对应的维度类别是歌曲名，然后在音乐资源库中查找歌曲名为丑八怪的音乐资源，并进行播放。

在实际应用中，可以为语音识别结果中的维度数据打标签，将打上标签的维度数据放入音乐资源库中进行检索，找到最符合用户需要的音乐资源并反馈给用户。例如，语音识别结果是丑八怪，与维度数据库进行比对，查找到丑八怪这个维度数据，为该维度数据打上标签“丑八怪→歌曲名维度”，在音乐资源库中检索歌曲名为丑八怪的资源，并反馈给用户。

实施例二

本实施例在上述实施例一的基础上，提供了步骤140中输出检索到的音乐资源的几种实施方式。

(1)如果检索到一个音乐资源，可以直接播放该音乐资源。

(2)如果检索到多个音乐资源，可以按照预设规则选择其中一个音乐资源，并播放所选的音乐资源。预设规则可以由产品设计者进行设定，例如，选择热度最高的歌曲或者选择歌手排名靠前的歌曲等。

(3)如果检索到多个音乐资源，可以按照预设排序方法对多个音乐资源进行排序，按照顺序播放多个音乐资源。预设排序方法可以是按照歌曲热度从高到低进行排序，或者按照歌手点击量从高到低进行排序等。然后按照所排顺序依次播放检索到的歌曲。

(4)如果检索到多个音乐资源，展示所述多个音乐资源；接收用户输入的选择信息；根据选择信息确定用户选择的音乐资源，并进行播放。其中，用户可以通过语音输入选择信息，例如，1代表选择歌曲1，2代表选择歌曲2等，则用户发出语音1，就可以选择对应的歌曲。如果终端有显示屏，用户也可以通过点击按键选择歌曲。

(5)如果未检索到完全匹配的音乐资源，输出相似度高于预设值的音乐资源；根据用户输入的选择信息，选择其中一个或多个音乐资源进行播放。

词语相似度的计算可以使用现有方法，例如，基于语义词典(如Wordnet、Hownet)的词语相似度算法，把所有词语组织在树形结构中，通过计算节点之间的路径长度作为词语距离；又如，基于语料统计的词语相似度算法，利用词语向量空间模型，该模型事先选择一组特征词，计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量)，于是对每一个词都可以得到一个相关性的特征词向量，然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。本发明对具体相似度计算过程不进行详细描述。输出相似度高于预设值的音乐资源，能够排除其他相似度不太高的音乐资源的干扰。用户可以通过语音输入选择信息，例如，1代表选择歌曲1，2代表选择歌曲2等，则用户发出语音1，就可以选择对应的歌曲。如果终端有显示屏，用户也可以通过点击按键选择歌曲。

下面结合几个例子对上述多维度语音点歌方法进行说明。

(1)通过歌手名和歌曲名点歌

用户发出语音“我想听周杰伦的东风破”，将语音识别结果“我想听周杰伦的东风破”与维度数据库中的数据进行比对，找到与“周杰伦”和“东风破”匹配的两个维度数据，并分别打上标签“周杰伦→歌手维度”、“东风破→歌曲维度”。在音乐资源库中检索既满足歌手为周杰伦又满足歌曲为东风破的所有资源，并通过检索算法选出其中一首资源反馈给用户。

(2)通过歌手和歌曲风格点歌

用户发出语音“播放萧敬腾的摇滚歌”，将语音识别结果“播放萧敬腾的摇滚歌”与维度数据库中的数据进行比对，找到与“萧敬腾”和“摇滚”匹配的两个维度数据，并分别打上标签“萧敬腾→歌手维度”、“摇滚→风格维度”。在音乐资源库中检索既满足歌手为萧敬腾又满足风格为摇滚的所有资源，通过检索算法选出其中一首资源反馈给用户或者依次播放检索到的资源。

(3)通过专辑点歌

用户发出语音“我想听叶惠美这张专辑”，将语音识别结果“我想听叶惠美这张专辑”与维度数据库中的数据进行比对，找到与“叶惠美”匹配的维度数据，并打上标签“叶惠美→专辑维度”。在音乐资源库中检索满足专辑为叶惠美的所有资源，通过检索算法选出其中一首资源反馈给用户或者依次播放检索到的资源。

(4)通过词作者或曲作者点歌

用户发出语音“我想听李宗盛作曲的歌”，将语音识别结果“我想听李宗盛作曲的歌”与维度数据库中的数据进行比对，找到与“李宗盛”匹配的作曲者维度数据，并打上标签“李宗盛→作曲者维度”。在音乐资源库中检索满足作曲者为李宗盛的所有资源，通过检索算法选出其中一首资源反馈给用户或者依次播放检索到的资源。

(5)通过歌词点歌

用户发出语音“我想听歌词是左手右手一个慢动作那首歌”，将语音识别结果“我想听歌词是左手右手一个慢动作那首歌”与维度数据库中的数据进行比对，找到与“左手右手一个慢动作”匹配的歌词维度数据，并打上标签“左手右手一个慢动作→歌词维度”。在音乐资源库中检索满足歌词为左手右手一个慢动作的所有资源，并通过检索算法选出其中一首资源反馈给用户或者依次播放检索到的资源。

(6)通过音乐榜单点歌

用户发出语音“我想听最近的热歌”，将语音识别结果“我想听最近的热歌”与维度数据库中的数据进行比对，找到与“最近的热歌”匹配的音乐榜单维度数据，并打上标签“最近的热歌→音乐热歌榜单”。在音乐资源库中检索音乐热歌榜单的所有资源，通过检索算法选出其中一首资源反馈给用户或者按照热度从高到低依次播放检索到的资源。

(7)通过影视娱乐节目点歌

用户发出语音“我想听琅琊榜的主题曲”，将语音识别结果“我想听琅琊榜的主题曲”与维度数据库中的数据进行比对，找到与“琅琊榜”匹配的影视娱乐节目维度数据，并打上标签“琅琊榜→影视娱乐节目”。在音乐资源库中检索满足影视娱乐节目为琅琊榜的所有资源，通过检索算法选出其中一首资源反馈给用户或者依次播放检索到的资源。

实施例三

图2是本发明实施例三提供的语音点歌装置的结构框图，可以用于实现实施例一和二所述的语音点歌方法。如图2所示，该语音点歌装置包括：语音接收模块210、语音识别模块220、维度获取模块230、资源检索模块240和资源输出模块250。

语音接收模块210，用于接收用户输入的语音信息；

语音识别模块220，用于对语音信息进行语音识别，得到语音识别结果；

维度获取模块230，用于将语音识别结果与预设的维度数据库进行比对，获取语音识别结果中的维度数据及其对应的维度类别，其中维度数据库用于存储各音乐资源在不同维度类别下的维度数据；

资源检索模块240，用于根据维度数据及其对应的维度类别检索对应的音乐资源；

资源输出模块250，用于输出对应的音乐资源。

优选的，上述装置还可以包括：数据查找模块，用于按照预设维度类别在音乐资源库中分别查找与各音乐资源对应的维度数据；数据库建立模块，用于按照预设维度类别保存查找到的维度数据，得到维度数据库。

考虑到音乐资源的变化更新，上述装置还可以包括：数据库更新模块，用于根据音乐资源的变化和预设维度类别的变化对所述维度数据库进行更新。及时对维度数据库进行更新，保证用户能够通过该维度数据库及时点播到新增的歌曲。

此外，维度获取模块230可以包括：分词处理单元，用于对语音识别结果进行分词处理；比对单元，用于将分词结果与维度数据库进行比对；数据确定单元，用于在分词结果中确定与维度数据库中的数据存在完全匹配情况的词语作为语音识别结果的维度数据；类别确定单元，用于根据维度数据库确定维度数据对应的维度类别。

在上述技术方案的基础上，资源输出模块250具体用于：

在检索到多个音乐资源的情况下，按照预设规则选择其中一个音乐资源，并播放所选的音乐资源；或者，按照预设排序方法对所述多个音乐资源进行排序，按照顺序播放所述多个音乐资源；

在检索到多个音乐资源的情况下，展示所述多个音乐资源；接收用户输入的选择信息；根据所述选择信息确定用户选择的音乐资源，并进行播放；

在未检索到完全匹配的音乐资源的情况下，输出相似度高于预设值的音乐资源；根据用户输入的选择信息，选择其中一个或多个音乐资源进行播放。

本发明实施例所提供的语音点歌装置可执行本发明任意实施例所提供的语音点歌方法，具备执行该方法相应的功能模块和有益效果。

实施例四

图3是本发明实施例四提供的终端的结构示意图，如图3所示，该终端包括处理器310、存储器320、输入装置330和输出装置340。终端中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；终端中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音点歌方法对应的程序指令/模块(例如，语音点歌装置中的语音接收模块210、语音识别模块220、维度获取模块230、资源检索模块240和资源输出模块250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的语音点歌方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的语音信息和字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入，例如，输入装置330可以是麦克风、键盘、显示屏等。输出装置340可包括扬声器、显示屏等设备，其中扬声器用于播放语音和歌曲，显示屏用于显示歌曲及相关信息。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行一种语音点歌方法，该方法包括：

用于接收用户输入的语音信息；

对语音信息进行语音识别，得到语音识别结果；

将语音识别结果与预设的维度数据库进行比对，获取语音识别结果中的维度数据及其对应的维度类别，其中维度数据库用于存储各音乐资源在不同维度类别下的维度数据；

根据维度数据及其对应的维度类别检索并输出对应的音乐资源。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储有计算机程序(也称为计算机可执行指令)，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音点歌方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音点歌装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音点歌方法，其特征在于，包括：

接收用户输入的语音信息；

对所述语音信息进行语音识别，得到语音识别结果；

2.根据权利要求1所述的方法，其特征在于，在接收用户输入的语音信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在得到所述维度数据库之后，所述方法还包括：根据音乐资源的变化和预设维度类别的变化对所述维度数据库进行更新。

4.根据权利要求1所述的方法，其特征在于，将所述语音识别结果与预设的维度数据库进行比对，获取所述语音识别结果中的维度数据及其对应的维度类别，包括：

对所述语音识别结果进行分词处理；

将分词结果与所述维度数据库进行比对；

根据所述维度数据库确定所述维度数据对应的维度类别。

5.根据权利要求1所述的方法，其特征在于，输出对应的音乐资源，包括：

6.根据权利要求1所述的方法，其特征在于，输出对应的音乐资源，包括：

如果检索到多个音乐资源，展示所述多个音乐资源；

接收用户输入的选择信息；

根据所述选择信息确定用户选择的音乐资源，并进行播放。

7.根据权利要求1所述的方法，其特征在于，输出对应的音乐资源，包括：

8.一种语音点歌装置，其特征在于，包括：

语音接收模块，用于接收用户输入的语音信息；

资源输出模块，用于输出对应的音乐资源。

9.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的语音点歌方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的语音点歌方法。