CN107832434A

CN107832434A - 基于语音交互生成多媒体播放列表的方法和装置

Info

Publication number: CN107832434A
Application number: CN201711129965.0A
Authority: CN
Inventors: 陆广; 刘水; 罗夏君; 叶世权; 尹相杰; 鞠强; 谢剑
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-23
Anticipated expiration: 2037-11-15
Also published as: CN107832434B; US10643610B2; US20190147864A1

Abstract

本申请实施例公开了基于语音交互生成多媒体播放列表的方法和装置。该方法的一具体实施方式包括：获取播放多媒体资源的第一语音请求信息；识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；在多媒体资源库中查找出具有关键标签的多媒体资源；基于查找到的多媒体资源生成多媒体播放列表。该实施方式实现了多媒体播放列表的自动生成，提升了语音服务效率。

Description

基于语音交互生成多媒体播放列表的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及基于语音交互生成多媒体播放列表的方法和装置。

背景技术

随着计算机技术的发展和网络数据的不断积累，人工智能技术飞速发展。在人工智能领域中，集语音识别、自然语言处理以及机器学习技术于一身的智能语音服务具有越来越广泛的应用。

传统的多媒体资源播放平台上，用户会实行编辑播放列表的交互操作来定制播放列表，现有的基于语音交互的多媒体资源播放系统中可以支持用户在一次语音交互中进行单一条件的多媒体资源点播，智能语音服务的后台服务器会查找到用户点播的多媒体资源，并通过智能语音设备播放该多媒体资源。

发明内容

本申请实施例提出了基于语音交互生成多媒体播放列表的方法和装置。

第一方面，本申请实施例提供了一种基于语音交互生成多媒体播放列表的方法，包括：获取播放多媒体资源的第一语音请求信息；识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；在多媒体资源库中查找出具有关键标签的多媒体资源；基于查找到的多媒体资源生成多媒体播放列表。

在一些实施例中，上述基于查找到的多媒体资源生成多媒体播放列表，包括：获取查找到的各多媒体资源的热度数据，并对多媒体资源按照热度数据进行降序排序；获取发出第一语音请求信息的用户与播放多媒体资源相关的画像数据，筛选出与用户画像匹配的多媒体资源作为候选多媒体资源；按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中。

在一些实施例中，在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中之前，上述基于查找到的多媒体资源生成多媒体播放列表还包括：基于多媒体资源库中各关键标签的出现次数确定用于指示同一特征属性的各个关键标签的权重；根据各关键标签的权重及预设的多媒体播放列表长度确定多媒体播放列表中具有各关键标签的多媒体资源的需求数量；上述按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中，包括：对候选多媒体资源按照关键标签进行分组；在每组中按照排序提取出满足对应的需求数量的多媒体资源，并结合候选多媒体资源的排序，生成多媒体播放列表。

在一些实施例中，上述获取查找到的各多媒体资源的热度数据，包括：基于各多媒体资源的播放数据和网络搜索数据计算对应的热度数据。

在一些实施例中，上述获取查找到的各多媒体资源的热度数据，还包括：判断多媒体资源是否为在获取播放多媒体资源的第一语音请求信息之前的预设时间段内已播放的多媒体资源；若是，以预设的衰减因子对多媒体资源的热度数据进行衰减运算。

在一些实施例中，上述识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签，包括：提取出第一语音请求信息中与预设的标签库匹配的标签，作为关键标签。

在一些实施例中，上述特征属性包括：创作者、所属多媒体资源集合的标识、风格、语种。

在一些实施例中，在基于查找到的多媒体资源生成多媒体播放列表之后，方法还包括：响应于接收到播放多媒体资源的第二语音请求信息；对第二语音请求信息进行意图分析，根据意图分析结果更新多媒体播放列表。

在一些实施例中，方法还包括：向发出第一语音请求信息的设备推送多媒体播放列表。

第二方面，本申请实施例提供了一种基于语音交互生成多媒体播放列表的装置，包括：获取单元，用于获取播放多媒体资源的第一语音请求信息；识别单元，用于识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；查找单元，用于在多媒体资源库中查找出具有关键标签的多媒体资源；生成单元，用于基于查找到的多媒体资源生成多媒体播放列表。

在一些实施例中，上述生成单元进一步用于按照如下方式生成多媒体播放列表：获取查找到的各多媒体资源的热度数据，并对多媒体资源按照热度数据进行降序排序；获取发出第一语音请求信息的用户与播放多媒体资源相关的画像数据，筛选出与用户画像匹配的多媒体资源作为候选多媒体资源；按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中。

在一些实施例中，上述生成单元进一步用于：在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中之前，基于多媒体资源库中各关键标签的出现次数确定用于指示同一特征属性的各个关键标签的权重；根据各关键标签的权重及预设的多媒体播放列表长度确定多媒体播放列表中具有各关键标签的多媒体资源的需求数量；上述生成单元进一步用于按照如下方式生成多媒体播放列表：对候选多媒体资源按照关键标签进行分组；在每组中按照排序提取出满足对应的需求数量的多媒体资源，并结合候选多媒体资源的排序，生成多媒体播放列表。

在一些实施例中，上述生成单元进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：基于各多媒体资源的播放数据和网络搜索数据计算对应的热度数据。

在一些实施例中，上述生成单元进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：判断多媒体资源是否为在获取播放多媒体资源的第一语音请求信息之前的预设时间段内已播放的多媒体资源；若是，以预设的衰减因子对多媒体资源的热度数据进行衰减运算。

在一些实施例中，上述识别单元进一步用于按照如下方式识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签：提取出第一语音请求信息中与预设的标签库匹配的标签，作为关键标签。

在一些实施例中，上述装置还包括更新单元，用于：响应于接收到播放多媒体资源的第二语音请求信息；对第二语音请求信息进行意图分析，根据意图分析结果更新多媒体播放列表。

在一些实施例中，上述装置还包括：推送单元，用于向发出第一语音请求信息的设备推送多媒体播放列表。

本申请上述实施例的基于语音交互生成多媒体播放列表的方法和装置，通过获取播放多媒体资源的第一语音请求信息，随后识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签，之后在多媒体资源库中查找出具有关键标签的多媒体资源，最后基于查找到的多媒体资源生成多媒体播放列表，省去了多媒体播放列表中的用户编辑操作，实现了多媒体播放列表的自动生成，提升了语音服务效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于语音交互生成多媒体播放列表的方法的一个实施例的流程图；

图3是根据本申请的基于语音交互生成多媒体播放列表的方法的一个应用场景的交互示意图；

图4是根据本申请的基于查找到的多媒体资源生成多媒体播放列表的方法的一个实施例的流程图；

图5根据本申请实施例的基于语音交互生成多媒体播放列表的装置的一个结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于提供语音服务的方法或用于提供语音服务的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102可以是具有音频输入接口和音频输出接口并支持网络通信的电子设备，例如具有麦克风的音箱、智能手机、平板电脑、笔记本电脑、智能可穿戴设备等。终端设备101、102上可以安装有与服务器104进行交互的应用，例如语音服务客户端。

服务器104可以是提供各种服务的服务器，例如对终端设备101、102执行的语音输出操作进行控制的语音服务器。在终端设备101、102接入语音服务器(例如获取授权)之后，语音服务器可以对用户110通过终端设备101、102发出的语音服务请求进行处理，并将处理结果(例如音频数据和音频输出接口的控制指令)发送至终端设备101、102。终端设备101、102可以通过网络103接收服务器104发送的音频数据和控制指令，并执行相应的操作，从而实现了利用终端设备101、102完成语音服务。

需要说明的是，本申请实施例所提供基于语音交互生成多媒体播放列表的方法一般由服务器104执行，相应地，基于语音交互生成多媒体播放列表的装置一般设置于服务器104中。

应该理解，图1中的终端、设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。例如服务器可以为集群式的服务器，包括部署了不同进程的多台服务器。

继续参考图2，其示出了根据本申请的基于语音交互生成多媒体播放列表的方法的一个实施例的流程200。该基于语音交互生成多媒体播放列表的方法，包括以下步骤：

步骤201，获取播放多媒体资源的第一语音请求信息。

在本实施例中，基于语音交互生成多媒体播放列表的方法运行于其上的电子设备(例如图1所示的服务器)可以获取已接入语音服务的设备发出的请求播放多媒体资源的第一语音请求信息。该第一语音请求信息可以是使用上述已接入语音服务的设备的用户发出、通过上述已接入语音服务的设备转发至基于语音交互生成多媒体播放列表的方法运行于其上的电子设备的。已接入语音服务的设备可以为智能语音设备，基于语音交互生成多媒体播放列表的方法运行于其上的电子设备可以是为智能语音设备提供语音服务的电子设备。

已接入语音服务的设备可以实时检测用户是否发出语音请求，例如可以检测是否有音频信号输入，在检测到用户发出语音请求时，可以通过音频输入接口获取语音请求的内容。之后，已接入语音服务的设备可以对语音请求进行格式转换、封装等操作，生成包含用户请求的内容的第一语音请求信息，并向提供语音服务的电子设备发送该请求。

在本实施例的一些可选的实现方式中，上述已接入语音服务的设备可以响应于用户的唤醒请求而接收用户发出的语音请求。在这里，唤醒请求可以是预先设定的唤醒关键词或唤醒操作，例如唤醒关键词可以为虚拟角色的名字，唤醒操作可以为按压特定的按钮。在设备被唤醒之后，可以获取用户发出的语音请求的音频数据，然后转发至提供语音服务的电子设备。

上述播放多媒体资源的第一语音请求信息可以是请求播放特定的多媒体资源的语音信息，在这里，多媒体资源可以包括但不限于：音频、视频、图片。相应地，播放多媒体资源的第一语音请求信息可以是请求播放歌曲或乐曲、视频文件、图片文件的第一语音请求信息。在实际场景中，用户可以向智能语音设备发出“播放热门歌曲”的语音请求，该语音请求所请求播放的多媒体资源为音乐，具体音乐类型为“热门歌曲”。可以向有屏端智能语音设备发出“播放最新时尚视频”的语音请求，该语音请求所请求播放的多媒体资源为视频，具体视频类型为“最新时尚视频”。

步骤202，识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签。

在本实施例中，上述基于语音交互生成多媒体播放列表的方法运行于其上的电子设备可以对获取的第一语音请求进行解析，得到相应的文本，然后对文本进行切词，判断切词结果中是否包含用于指示多媒体资源的特征属性的标签。例如可以识别出切词结果中的表示时间、情感、人名等的词语，作为提取出的关键标签。

在一些实施例中，可以提取出第一语音请求信息中与预设的标签库匹配的标签，作为关键标签。具体可以在对第一语音请求信息进行文本转换、切词后，识别切词结果中是否包含预设标签库中的标签。预设标签库可以包括用于指示网络中各多媒体资源的特征属性的标签，其中特征属性可以是多媒体资源区别于其他多媒体资源的特征，例如多媒体资源的标识、内容特性等。

可选地，特征属性可以包括但不限于：创作者、所属多媒体资源集合的标识、风格、语种。创作者可以是多媒体资源的创造者，包括演唱者、词作者、曲作者、编曲者、拍摄者、编剧等；所属多媒体资源集合的标识可以是包含该多媒体资源的多媒体资源集合的标识，例如可以为歌曲所属的专辑、专题；风格可以是多媒体资源的类型，例如歌曲为摇滚、流行、民谣、说唱等等，语种表示多媒体资源的音频语种，例如粤语、国语、英语等。

通常，网络中的多媒体资源具有上述特征属性，同时多媒体资源配置了用于表示这些特征属性的标签，例如歌曲《双节棍》具有标签“周杰伦”、“范特西”、“流行”、“国语”、等，“周杰伦”、“范特西”、“流行”、“国语”分别依次为用于指示该歌曲的创作者、所属多媒体资源集合的标识、风格、语种的标签。

上述预设标签集合可以包括网络中所有多媒体资源的标签。在本实施例中，可以基于该预设标签集合将第一语音请求信息中所包含的标签识别出来，作为第一语音请求信息中所请求的多媒体资源的关键标签。具体可以利用切词得到的词与预设关键标签集合进行匹配，匹配成功的即为识别出的关键标签。可选地，在匹配时，可以采用模糊匹配的方式，可以采用近义词匹配，例如“舒缓”可以与“轻缓”匹配。

步骤203，在多媒体资源库中查找出具有关键标签的多媒体资源。

在识别出第一语音请求信息中的关键标签之后，可以在多媒体资源库中查找出具有该关键标签的多个多媒体资源。在这里，识别出的关键标签可以表示用户对多媒体资源的特征属性的需求，则可以在多媒体资源库中查找满足该需求的多媒体资源作为候选多媒体资源。

在本实施例的一些可选的实现方式中，步骤202可以识别出多个关键标签，例如用户的语音请求为“我想听周杰伦的专辑《叶惠美》和林俊杰的专辑《江南》”，其中识别出的关键标签包括“周杰伦”、“叶惠美”、“林俊杰”、“江南”，则可以进一步根据语音请求的语义来分析这些关键标签之间的逻辑关系，并根据逻辑关系的限定来进行多媒体资源的查找。例如根据“周杰伦的专辑《叶惠美》”得到关键标签“周杰伦”和“叶惠美”为逻辑“与”的关系，在查找多媒体资源时，可以查找同时具有两个标签“周杰伦”和“叶惠美”的多媒体资源。又例如根据“周杰伦的专辑《叶惠美》和林俊杰的专辑《江南》”中的“和”确定“周杰伦”和“林俊杰”为逻辑“或”的关系，在查找多媒体资源时，可以分别查找出具有“周杰伦”和“叶惠美”两个标签的多媒体资源，以及具有“林俊杰”和“江南”两个标签的多媒体资源。

步骤204，基于查找到的多媒体资源生成多媒体播放列表。

在本实施例中，步骤203可以查找到与接收到的播放多媒体资源的第一语音请求相匹配的多个多媒体资源。可以将查找到的多个多媒体资源组成播放列表，播放列表中多媒体资源的播放顺序可以是按照查找顺序确定的。

在本实施例的一些可选的实现方式中，可以在查找出的多个多媒体资源中筛选出预设数量的多媒体资源来生成多媒体播放列表。例如在播放音乐的场景中，可以设定播放列表中歌曲总数为50首，当步骤203查找出超过50首歌曲时，可以在其中随机地或按照预设的策略挑选出50首歌曲生成歌曲播放列表。这样，可以在保证满足用户在发出第一语音请求之后足够长的时间内对多媒体资源的观赏需求，同时避免播放列表过长使播放的多媒体资源缺乏多样性。

本申请上述实施例的基于语音交互生成多媒体播放列表的方法，通过获取播放多媒体资源的第一语音请求信息，随后识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签，之后在多媒体资源库中查找出具有关键标签的多媒体资源，最后基于查找到的多媒体资源生成多媒体播放列表，省去了多媒体播放列表中的用户编辑操作，实现了多媒体播放列表的自动生成，提升了语音服务效率。

请参考图3，其示出了根据本申请的基于语音交互生成多媒体播放列表的方法的一个应用场景的交互示意图。

如图3所示，用户A向智能语音设备B发起语音交互请求“我想听周杰伦和陈奕迅的歌”，智能语音设备B可以将该请求转发至语音服务器C。语音服务器C可以在获取到该请求之后，识别出其中的关键标签“周杰伦”、“陈奕迅”，然后查找到一些周杰伦的歌和陈奕迅的歌，获取歌曲资源并组合生成歌单。智能语音设备B可以接收到语音服务器C推送的歌曲资源，按照歌单依次播放歌曲。例如可以首先播放歌单中的第一首歌：周杰伦《半岛铁盒》，在接收到用户的请求“下一首”之后，切换到歌单中的下一首歌：陈奕迅《浮夸》。

在一些实施例中，在基于查找到的多媒体资源生成多媒体播放列表之后，上述基于语音交互生成多媒体播放列表的方法还可以包括：响应于接收到播放多媒体资源的第二语音请求信息；对第二语音请求信息进行意图分析，根据意图分析结果更新多媒体播放列表。具体来说，可以提取第二用语音请求信息中与用户反馈相关的信息，以及与多媒体资源选择指令相关的信息，然后根据提取出的信息确定用户的意图，进而根据用户的意图相应地调整播放列表。例如当用户发出的第二语音请求信息为“换一首”时，可以确定用户的意图为停止播放当前多媒体资源，并播放其他多媒体资源，则将当前播放的多媒体资源从多媒体播放列表中删除。

在实际场景中，用户可以与智能语音设备进行多轮语音交互，来定制符合自己喜好的多媒体播放列表。如果对当前播放的多媒体资源不感兴趣，可以发出切换多媒体资源的指令，如果要增加想获取的多媒体资源，可以发出获取更多相关资源的请求，这时，上述基于语音交互生成多媒体播放列表的方法运行于其上的电子设备可以对用户发出的指令或请求进行意图分析并根据意图分析更改播放列表，从而可以调整多媒体播放列表使其更贴近用户的喜好和需求。

继续参考图3，在该示例性的场景中，若当前智能语音设备B正在播放列表中的第二首歌曲：陈奕迅《浮夸》，且用户A发出了第二语音请求“换国语歌吧”，这时，语音服务器C可以将列表中除国语外所有其他语种的歌曲删除，然后生成新的列表，并按照列表的顺序向智能语音设备推送下一首歌曲：周杰伦《七里香》，智能语音设备B播放周杰伦的《七里香》。

在一些实施例中，上述基于语音交互生成多媒体播放列表的方法还可以包括向发出第一语音请求信息的设备推送多媒体播放列表的步骤。上述基于语音交互生成多媒体播放列表的方法运行于其上的电子设备可以将生成的多媒体播放列表推送给发出第一语音请求的智能语音设备，该智能语音设备可以将多媒体播放列表存储于本地。可选地，还可以将播放列表中的多媒体资源推送至智能语音设备，以供智能语音设备将播放列表与对应的多媒体资源对应地存储并播放。

在一些实施例中，上述基于查找到的多媒体资源生成多媒体播放列表的步骤204中，可以结合多媒体资源的热度、用户的偏好等来进行多媒体资源的筛选。具体地，请参考图4，其示出了根据本申请的基于查找到的多媒体资源生成多媒体播放列表的方法的一个实施例的流程图。

如图4所示，本实施例的基于查找到的多媒体资源生成多媒体播放列表的方法流程400，包括以下步骤：

步骤401，获取查找到的各多媒体资源的热度数据，并对多媒体资源按照热度数据进行降序排序。

在本实施例中，可以获取在多媒体资源库中查找出的具有关键标签的多媒体资源的热度数据，其中热度数据可以表示多媒体资源的使用率和关注度的数据。热度数据可以通过网络点击量、多媒体资源的创作时间等计算得出。例如点击量越高、创作时间越接近当前时间的多媒体资源的热度相对越高。

在一些可选的实现方式中，可以基于各多媒体资源的播放数据和网络搜索数据计算对应的热度数据。即可以统计以当前时间为截止点的之前一段时间内各多媒体资源的播放次数、播放时长、执行点播操作的用户数等播放数据，以及在各数字音乐平台上多媒体资源的搜索频率，根据统计得到的这些数据计算热度数据，例如可以对统计得到的各项数据进行加权求和，也可以根据这些数据的产生时间对其进行时间衰减后加权求和。

在进一步的实现方式中，还可以判断多媒体资源是否为在获取播放多媒体资源的第一语音请求信息之前的预设时间段内已播放的多媒体资源，若是，则以预设的衰减因子对多媒体资源的热度数据进行衰减运算。在这里，获取播放多媒体资源的第一语音请求信息之前的预设时间段可以是当前时间之间的一段时间，例如为最近三天，可以对这段时间内已播放过的多媒体资源的热度数据进行衰减过滤，例如可以设定时间衰减因子为α，可以按多媒体资源的播放时间距当前时间点的时间长度t来进行衰减运算，即衰减运算为将热度数据与α^t相乘，其中0<α<1。这样，可以降低近期已播放过的多媒体资源的热度，以便后续按照热度筛选多媒体资源时能够为用户筛选出新鲜的资源。

在获取查找到的各多媒体资源的热度数据之后，可以对多媒体资源按照热度数据进行降序排序，以便在后续生成播放列表时按照热度由高到低的顺序选择多媒体资源。

步骤402，获取发出第一语音请求信息的用户与播放多媒体资源相关的画像数据，筛选出与用户画像匹配的多媒体资源作为候选多媒体资源。

上述基于语音交互生成多媒体播放列表的方法运行于其上的电子设备还可以获取发出第一语音请求信息的用户的与播放多媒体资源相关的画像数据，包括用户的基本属性以及用户在与智能语音设备交互中的播放行为、喜好、反馈等数据。其中用户的基本属性可以包括用户的年龄、性别、性格等，播放行为可以例如包括收藏行为、播放次数、播放时长、切换待播放的多媒体资源的行为等，喜好可以包括根据用户的收藏、点赞等行为获取的用户偏好的多媒体资源类型，反馈等数据可以包括用户通过语音或其他方式发出的正反馈或负反馈。通过对这些数据的分析，可以得出用户对多媒体资源的属性特征的偏好。

根据用户画像数据，可以对查找出的具有关键标签的多媒体资源进行筛选，从中选出与用户画像匹配的多媒体资源，作为候选多媒体资源。这样，可以从查找到的多媒体资源中筛选出用户可能感兴趣的多媒体资源来作为生成多媒体播放列表的候选多媒体资源，实现了多媒体资源的进一步精准筛选。

步骤403，按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中。

在筛选出候选多媒体资源之后，可以按照热度数据的降序排序依次选择多媒体资源作为目标多媒体资源添加到多媒体播放列表中。当多媒体播放列表中的多媒体资源数量达到预设数量时，生成多媒体播放列表。也可以直接将热度数据排序第1至第N位(N为预设数量)的多媒体资源提取出来作为目标多媒体资源，生成多媒体播放列表。

需要说明的是，多媒体播放列表是一个包含多媒体资源的标识信息(例如歌曲名称和演唱者名字)的列表，列表中多媒体资源的顺序即为播放顺序。本实施例中通过基于热度数据进行排序，筛选与用户画像匹配的多媒体资源，使得生成的多媒体播放列表可以更精准地匹配用户需求。

在本实施例的一些可选的实现方式中，在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中之前，上述基于查找到的多媒体资源生成多媒体播放列表的流程400还可以包括：

步骤404，基于多媒体资源库中各关键标签的出现次数确定用于指示同一特征属性的各个关键标签的权重。

关键标签是基于对第一语音请求信息的分析提取出来的，表示用户希望获取的多媒体资源的特征属性。在一些场景中，可以从第一语音请求信息中识别出多个用于指示同一特征属性的关键标签。这时，可以统计多媒体资源库中具有各关键标签的多媒体资源的数量，然后将具有每个关键标签的多媒体资源数量与具有与该关键标签指示同一特征属性的各关键标签的多媒体资源的数量相除得出每个关键标签的权重。

在这里，可以统计各关键标签在多媒体资源库中的出现次数，以及与该关键标签指示同一特征属性的各个关键标签的出现总数。在本实施例中，从第一语音请求信息中识别出的用于指示多媒体资源的同一特征属性的关键标签可以有多个，每个关键标签在多媒体资源库中出现的次数不相同。每个关键标签在多媒体资源库中出现的次数可以是包含该标签的多媒体资源的数量。

举例来说，若播放多媒体资源的第一语音请求信息为“我想听周杰伦、陈奕迅和朴树的歌”，其中的关键标签为“周杰伦”、“陈奕迅”、“朴树”，若查找到歌曲库中收录的周杰伦的歌曲数量为100首，陈奕迅的歌曲数量为130首，朴树的歌曲数量为20首，则关键标签“周杰伦”的权重为μ1＝100/(100+130+20)＝0.4，“陈奕迅”的权重为μ2＝130/(100+130+20)＝0.52，“朴树”的权重为μ3＝20/(100+130+20)＝0.08。

步骤405，根据各关键标签的权重及预设的多媒体播放列表长度确定多媒体播放列表中具有各关键标签的多媒体资源的需求数量。

随后，可以基于各关键标签的权重以及预设的多媒体播放列表的长度，来分配具有各关键标签的多媒体资源的数量，使得在多媒体播放列表中具有各关键标签的多媒体资源的数量与其权重成正比。

在根据各关键标签的权重确定了具有各关键标签的多媒体资源的需求数量的前提下，上述按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中的步骤403可以包括：

步骤4031，对候选多媒体资源按照关键标签进行分组。

首先，可以对所有的候选多媒体资源按照关键标签进行分组，即可以将具有同一关键标签的候选多媒体资源分为同一组。例如上述示例中，将所有演唱者为“周杰伦”的歌曲分为一组，所有演唱者为“陈奕迅”的歌曲分为另一组，所有演唱者为“朴树”的歌曲分为又一组。

步骤4032，在每组中按照排序提取出满足对应的需求数量的多媒体资源，并结合候选多媒体资源的排序，生成多媒体播放列表。

可以分别从每一组中按照排序选择出满足对应的需求数量的多媒体资源。这样，在多媒体播放列表中，各关键标签对应的多媒体资源的数量与其权重成正比。在选择出各组的满足对应的需求数量的多媒体资源之后，可以对所有选择出的多媒体资源进行随机排序来生成多媒体播放列表。

通过基于多媒体资源库中各关键标签的出现次数以用于指示同一特征属性的各个关键标签在多媒体资源库中的出现总数来确定播放列表中每一个关键标签对应的多媒体资源的数量，可以保证生成的播放列表涵盖第一语音请求信息中的所有关键标签，避免一些热度较低的标签在排序过程中被忽略而不能完全覆盖用户请求播放的多媒体资源。

在上述播放多媒体资源的第一语音请求信息为“我想听周杰伦、陈奕迅和朴树的歌”的示例中，若预设的多媒体播放列表的长度为50，即需要生成一个包含50首歌的歌单，可以演唱者为周杰伦的歌曲数量为50×μ1＝20首，演唱者为陈奕迅的歌曲数量为50×μ2＝26首，演唱者为朴树的歌曲数量为50×μ3＝4首。则可以在筛选出的与用户画像匹配的歌曲中，选择周杰伦的热度排序前20的歌曲、陈奕迅的热度排序前26的歌曲以及朴树的热度排序前4的歌曲组合形成歌单，这样，保证歌单涵盖了用户想听的所有歌手，且综合了热度数据，可以提升歌单与用户意图的匹配度。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种基于语音交互生成多媒体播放列表的装置的一个实施例，该装置实施例与图2和图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的基于语音交互生成多媒体播放列表的装置500包括：获取单元501、识别单元502、查找单元503和生成单元503。其中，获取单元501用于获取播放多媒体资源的第一语音请求信息；识别单元502用于识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；查找单元503用于在多媒体资源库中查找出具有关键标签的多媒体资源，生成单元504用于基于查找到的多媒体资源生成多媒体播放列表。

在本实施例中，获取单元501可以获取已接入语音服务的设备发出的请求播放多媒体资源的第一语音请求信息，其中，多媒体资源可以是数字多媒体资源，包括音频、视频、图片等。具体地，使用已接入语音服务的设备进行语音交互的用户可以发出播放多媒体资源的语音请求，由已接入语音服务的设备接收该请求并进行数据解析、编码、封装后生成第一语音请求信息，获取单元501可以通过有线或无线的连接方式获取该第一语音请求信息。

识别单元502可以对获取单元501获取的第一语音请求进行解析，得到相应的文本，然后对文本进行切词，判断切词结果中是否包含用于指示多媒体资源的特征属性的标签。其中多媒体资源的特征属性可以是多媒体资源区别于其他多媒体资源的特征，例如多媒体资源的标识、内容特性等。在判断切词结果中是否包含用户指示多媒体资源的特征属性的标签时，可以将切词得到的词语与预设标签库进行匹配，匹配成功的标签即为识别出的关键标签。

查找单元503可以在多媒体资源库中查找具有识别单元502识别出的关键标签的多媒体资源。在这里，多媒体资源库中的每个多媒体资源通常都具有用于指示该多媒体资源的特征属性的至少一个标签，可以将多媒体资源库中各多媒体资源的标签与识别单元502识别出的关键标签进行精确匹配和/或模糊匹配，根据匹配结果来确定是否将多媒体资源添加至播放列表中。

生成单元504可以将查找到的多个多媒体资源组成播放列表，播放列表中多媒体资源的播放顺序可以是按照查找顺序确定的。可选地，多媒体播放列表的长度(即所包含的多媒体资源的数量)可以是预先设定的，则可以选择查找单元503查找出的满足预先设定的数量的多媒体资源来生成多媒体播放列表。

在一些实施例中，上述生成单元504可以进一步用于按照如下方式生成多媒体播放列表：获取查找到的各多媒体资源的热度数据，并对多媒体资源按照热度数据进行降序排序；获取发出第一语音请求信息的用户与播放多媒体资源相关的画像数据，筛选出与用户画像匹配的多媒体资源作为候选多媒体资源；按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中。

在一些实施例中，上述生成单元504可以进一步用于：在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至多媒体播放列表中之前，基于多媒体资源库中各关键标签的出现次数确定用于指示同一特征属性的各个关键标签的权重；根据各关键标签的权重及预设的多媒体播放列表长度确定多媒体播放列表中具有各关键标签的多媒体资源的需求数量。这时，生成单元504可以进一步用于按照如下方式生成多媒体播放列表：对候选多媒体资源按照关键标签进行分组；在每组中按照排序提取出满足对应的需求数量的多媒体资源，并结合候选多媒体资源的排序，生成多媒体播放列表。

在一些实施例中，上述生成单元504可以进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：基于各多媒体资源的播放数据和网络搜索数据计算对应的热度数据。

在一些实施例中，上述生成单元504可以进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：判断多媒体资源是否为在获取播放多媒体资源的第一语音请求信息之前的预设时间段内已播放的多媒体资源；若是，以预设的衰减因子对多媒体资源的热度数据进行衰减运算。

在一些实施例中，上述识别单元502可以进一步用于按照如下方式识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签：提取出第一语音请求信息中与预设的标签库匹配的标签，作为关键标签。

在一些实施例中，上述特征属性可以包括：创作者、所属多媒体资源集合的标识、风格、语种。

在一些实施例中，上述装置500还可以包括更新单元，用于：响应于接收到播放多媒体资源的第二语音请求信息；对第二语音请求信息进行意图分析，根据意图分析结果更新多媒体播放列表。

在一些实施例中，上述装置500还可以包括：推送单元，用于向发出第一语音请求信息的设备推送多媒体播放列表。

应当理解，装置500中记载的诸单元与参考图2和图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

本申请上述实施例的基于语音交互生成多媒体播放列表的装置500，通过获取单元获取播放多媒体资源的第一语音请求信息，随后识别单元识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签，查找单元在多媒体资源库中查找出具有关键标签的多媒体资源，以及生成单元基于查找到的多媒体资源生成多媒体播放列表，省去了多媒体播放列表中的用户编辑操作，实现了多媒体播放列表的自动生成，提升了语音服务效率。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、识别单元、查找单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取播放多媒体资源的第一语音请求信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取播放多媒体资源的第一语音请求信息；识别出第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；在多媒体资源库中查找出具有关键标签的多媒体资源；基于查找到的多媒体资源生成多媒体播放列表。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于语音交互生成多媒体播放列表的方法，包括：

获取播放多媒体资源的第一语音请求信息；

识别出所述第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；

在多媒体资源库中查找出具有所述关键标签的多媒体资源；

基于查找到的多媒体资源生成多媒体播放列表。

2.根据权利要求1所述的方法，其中，所述基于查找到的多媒体资源生成多媒体播放列表，包括：

获取查找到的各多媒体资源的热度数据，并对所述多媒体资源按照热度数据进行降序排序；

获取发出所述第一语音请求信息的用户与播放多媒体资源相关的画像数据，筛选出与用户画像匹配的多媒体资源作为候选多媒体资源；

按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至所述多媒体播放列表中。

3.根据权利要求2所述的方法，其中，在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至所述多媒体播放列表中之前，所述基于查找到的多媒体资源生成多媒体播放列表还包括：

基于多媒体资源库中各关键标签的出现次数确定用于指示同一特征属性的各个关键标签的权重；

根据各所述关键标签的权重及预设的多媒体播放列表长度确定所述多媒体播放列表中具有各所述关键标签的多媒体资源的需求数量；

所述按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至所述多媒体播放列表中，包括：

对候选多媒体资源按照关键标签进行分组；

在每组中按照排序提取出满足对应的需求数量的多媒体资源，并结合候选多媒体资源的排序，生成所述多媒体播放列表。

4.根据权利要求2所述的方法，其中，所述获取查找到的各多媒体资源的热度数据，包括：

基于各多媒体资源的播放数据和网络搜索数据计算对应的热度数据。

5.根据权利要求4所述的方法，其中，所述获取查找到的各多媒体资源的热度数据，还包括：

判断所述多媒体资源是否为在获取播放多媒体资源的第一语音请求信息之前的预设时间段内已播放的多媒体资源；

若是，以预设的衰减因子对所述多媒体资源的热度数据进行衰减运算。

6.根据权利要求1所述的方法，其中，所述识别出所述第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签，包括：

提取出所述第一语音请求信息中与预设的标签库匹配的标签，作为所述关键标签。

7.根据权利要求1所述的方法，其中，所述特征属性包括：创作者、所属多媒体资源集合的标识、风格、语种。

8.根据权利要求1所述的方法，其中，在基于查找到的多媒体资源生成多媒体播放列表之后，所述方法还包括：

响应于接收到播放多媒体资源的第二语音请求信息；

对所述第二语音请求信息进行意图分析，根据意图分析结果更新所述多媒体播放列表。

9.根据权利要求1所述的方法，其中，所述方法还包括：

向发出所述第一语音请求信息的设备推送所述多媒体播放列表。

10.一种基于语音交互生成多媒体播放列表的装置，包括：

获取单元，用于获取播放多媒体资源的第一语音请求信息；

识别单元，用于识别出所述第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签；

查找单元，用于在多媒体资源库中查找出具有所述关键标签的多媒体资源；

生成单元，用于基于查找到的多媒体资源生成多媒体播放列表。

11.根据权利要求10所述的装置，其中，所述生成单元进一步用于按照如下方式生成多媒体播放列表：

12.根据权利要求11所述的装置，其中，所述生成单元进一步用于：在按照排序选择预设数量的候选多媒体资源作为目标多媒体资源，添加至所述多媒体播放列表中之前，

所述生成单元进一步用于按照如下方式生成所述多媒体播放列表：

对候选多媒体资源按照关键标签进行分组；

13.根据权利要求11所述的装置，其中，所述生成单元进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：

14.根据权利要求13所述的装置，其中，所述生成单元进一步用于按照如下方式获取查找到的各多媒体资源的热度数据：

15.根据权利要求10所述的装置，其中，所述识别单元进一步用于按照如下方式识别出所述第一语音请求信息中的用于指示多媒体资源的特征属性的关键标签：

16.根据权利要求10所述的装置，其中，所述特征属性包括：创作者、所属多媒体资源集合的标识、风格、语种。

17.根据权利要求10所述的装置，其中，所述装置还包括更新单元，用于：

响应于接收到播放多媒体资源的第二语音请求信息；

18.根据权利要求10所述的装置，其中，所述装置还包括：

推送单元，用于向发出所述第一语音请求信息的设备推送所述多媒体播放列表。

19.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。