CN107342082A

CN107342082A - 基于语音交互的音频处理方法、装置及音频播放设备

Info

Publication number: CN107342082A
Application number: CN201710517236.6A
Authority: CN
Inventors: 钱庄; 唐沐; 南迪尔; 胥亚伟
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-10

Abstract

本公开是关于一种基于语音交互的音频处理方法、装置及音频播放设备，其中，该方法包括：获取用户的语音信息，其中，语音信息指示音频播放设备播放音频；确定语音信息的至少一个中心词，其中，中心词表征语音信息所指向的待播放的音频的特征；根据至少一个中心词，确定播放列表，其中，播放列表中包括与各中心词对应的待播放的音频；根据播放策略调整播放列表，生成调整后的播放列表，播放策略表征对播放列表中的音频个数和/或音频次序进行调整。针对于不能提供操作界面的音频播放设备，音频播放设备可以对用户需要播放的各音频进行播放次序和/音频个数的调整，提供音频播放设备提供的音频播放次序多样化，提高了用户体验。

Description

基于语音交互的音频处理方法、装置及音频播放设备

技术领域

本公开涉及基于语音交互的终端技术领域，尤其涉及基于语音交互的音频处理方法、装置及音频播放设备。

背景技术

随着终端的发展，各类智能的音频播放设备开始面试并应用到人们的生活和工作中，智能的音频播放设备例如有智能音箱、智能眼镜等等。音频播放设备可以播放音频文件，例如播放歌曲、播放评书、播放有声读物等等。大部分音频播放设备是不具有用于与用户进行交互的操作界面的。举例介绍下智能音箱，智能音箱为一个设置了扬声器的装置；智能音箱不提供触摸屏，即智能音箱不具有可以使得用户进行触碰操作的操作界面；智能音箱可以与网络进行连接，智能音箱可以获取到用户的语音，然后为用户播放用户所需要的音频。

相关技术中，在用户需要音频播放设备播放音频时，音频播放设备确定用户需要播放的音频之后，音频播放设备直接播放音频。

然而相关技术中，音频播放设备为所有用户都提供了同样的顺序播放各音频的方式，并且由于音频播放设备不提供操作界面，用户不能通过操作界面去调整音频播放设备中待播放的各音频。从而音频播放设备提供的播放方式单一，降低了用户体验。

发明内容

为克服相关技术中存在的音频播放设备提供的播放方式单一，降低了用户体验的问题，本公开提供一种基于语音交互的音频处理方法、装置及音频播放设备。

根据本公开实施例的第一方面，提供一种基于语音交互的音频处理方法，包括：

获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频；

确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征；

根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频；

根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

进一步地，所述根据播放策略调整所述播放列表，生成调整后的播放列表，包括：

确定并删除所述播放列表中的所述用户在预设时间段内已收听过的音频，以生成所述调整后的播放列表。

确定所述中心词中的关键词，其中，所述关键词为音频名称；

确定所述播放列表中的与所述关键词对应的音频，并根据所述与所述关键词对应的音频生成调整后的播放列表。

进一步地，所述根据所述与所述关键词对应的音频生成调整后的播放列表，包括：

只保留所述播放列表中的所述与所述关键词对应的音频；

或者，

将所述与所述关键词对应的音频，调整至所述播放列表的最前端。

随机调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表；

或者，

根据预设的播放次序，调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表；其中，所述播放次序包括以下的任意一种：音频时长的次序、音频大小的次序、音频质量的次序。

进一步地，在所述根据播放策略调整所述播放列表，生成调整后的播放列表之后，还包括：

播放所述调整后的播放列表中的各音频。

进一步地，所述播放所述调整后的播放列表中的各音频，包括：

确定上次播放所述各音频的播放停止位置；

从所述播放停止位置处开始播放所述调整后的播放列表中的各音频。

进一步地，所述方法还包括：

在播放所述调整后的播放列表中的各音频过程中，在完成播放每一个音频之后，生成并播放语音提示信息，其中，所述语音提示信息表征提示用户确定是否重复播放当前完成播放的音频；

获取所述用户的语音确定信息；

在所述语音确定信息表征确定重复播放当前完成播放的音频时，播放所述当前完成播放的音频；

在所述语音确定信息表征确定不重复播放当前完成播放的音频时，播放所述调整后的播放列表中的所述当前完成播放的音频的下一个音频。

本公开的实施例提供的技术方案可以包括以下有益效果：本实施例通过获取用户的语音信息，其中，语音信息指示音频播放设备播放音频；确定语音信息的至少一个中心词，其中，中心词表征语音信息所指向的待播放的音频的特征；根据至少一个中心词，确定播放列表，其中，播放列表中包括与各中心词对应的待播放的音频；根据播放策略调整播放列表，生成调整后的播放列表，其中，播放策略表征对播放列表中的音频个数和/或音频次序进行调整。针对于不能提供操作界面的音频播放设备，在用户需要音频播放设备播放音频的时候，音频播放设备搜索到用户需要的各音频之后，音频播放设备可以对用户需要播放的各音频进行播放次序和/音频个数的调整，提供音频播放设备提供的音频播放次序多样化，提高了用户体验。

根据本公开实施例的第二方面，提供一种基于语音交互的音频处理装置，包括：

获取模块，被配置为获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频；

第一确定模块，被配置为确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征；

第二确定模块，被配置为根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频；

调整模块，被配置为根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

进一步地，所述调整模块，被具体配置为：

确定所述播放列表中的与所述关键词对应的音频，并根据所述与所述关键词对应的音频生成调整后的播放列表；

其中，所述根据所述与所述关键词对应的音频生成调整后的播放列表，包括：

只保留所述播放列表中的所述与所述关键词对应的音频；或者，将所述与所述关键词对应的音频，调整至所述播放列表的最前端。

进一步地，所述调整模块，被具体配置为：

或者，

进一步地，所述装置，还包括：

播放模块，被配置为在所述调整模块根据播放策略调整所述播放列表，生成调整后的播放列表之后，播放所述调整后的播放列表中的各音频。

进一步地，所述播放模块，包括：

确定子模块，被配置为确定上次播放所述各音频的播放停止位置；

播放子模块，被配置为从所述播放停止位置处开始播放所述调整后的播放列表中的各音频。

进一步地，所述播放模块，包括：

提示子模块，被配置为在播放所述调整后的播放列表中的各音频过程中，在完成播放每一个音频之后，生成并播放语音提示信息，其中，所述语音提示信息表征提示用户确定是否重复播放当前完成播放的音频；

获取子模块，被配置为获取所述用户的语音确定信息；

第一确认子模块，被配置为在所述语音确定信息表征确定重复播放当前完成播放的音频时，播放所述当前完成播放的音频；

第二确认子模块，被配置为在所述语音确定信息表征确定不重复播放当前完成播放的音频时，播放所述调整后的播放列表中的所述当前完成播放的音频的下一个音频。

根据本公开实施例的第三方面，提供一种音频播放设备，包括：

处理器，以及用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频；确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征；根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频；根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例一的流程图；

图2是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例一的人机交互图；

图3是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例二的流程图；

图4是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例三的流程图；

图5是根据一示例性实施例示出的一种基于语音交互的音频处理装置实施例四的框图；

图6是根据一示例性实施例示出的一种基于语音交互的音频处理装置实施例五的框图；

图7是根据一示例性实施例示出的一种音频播放设备的实体的框图；

图8是根据一示例性实施例示出的一种终端设备800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例一的流程图，如图1所示，基于语音交互的音频处理方法用于音频播放设备中，该音频播放设备可以是智能音箱。该方法包括以下步骤。

在步骤S11中，获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频。

在本步骤中，音频播放设备可以播放音频文件，例如播放歌曲、播放评书、播放有声读物等等。图2是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例一的人机交互图，如图2所示，音频播放设备101是不具有用于与用户进行交互的操作界面的，用户可以向音频播放设备101发送语音，音频播放设备101可以播放音频。

在用户使用音频播放设备收听音频的时候。用户在距离音频播放设备一定距离范围内，发出语音信息，其中，该语音信息表征用户需要收听音频，即用户需要音频播放设备播放音频。音频播放设备可以获取到该语音信息。

举例来说，用户发出语音信息“请播放周杰伦的歌曲”，从而音频播放设备可以接收到该语音信息“请播放周杰伦的歌曲”。

在步骤S12中，确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征。

在本步骤中，音频播放设备根据语音识别技术以及语句识别技术，识别出接收到的语音信息中的各个中心词。其中，每一个中心词表征用户发出的语音信息所指向的待播放的音频的特征。

举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”和“歌曲”。再举例来说，音频播放设备接收到用户发出的语音信息“请播放有声小说的盗墓笔记”，则音频播放设备可以确定该语音信息中的中心词为“有声小说”和“盗墓笔记”。

在步骤S13中，根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频。

在本步骤中，由于音频播放设备与网络进行了连接，音频播放设备可以根据确定出的语音信息中的中心词，从网络中去搜索出与每一个中心词对应的多个待播放的音频，然后，音频播放设备根据搜索出的与每一个中心词对应的多个待播放的音频，形成一个播放列表。或者，音频播放设备的存储器中存储了大量的音频文件，音频播放设备可以根据确定出的语音信息中的中心词，从该音频播放设备的存储器中搜索出与每一个中心词对应的多个待播放的音频，然后，音频播放设备根据搜索出的与每一个中心词对应的多个待播放的音频，形成一个播放列表。在本步骤中，一个中心词可以对应多个音频，或者多个中心词可以对应相同的音频。

此时，形成的播放列表中包括至少一个待播放音频。并且，形成的播放列表中各待播放音频的次序为顺序次序。

在步骤S14中，根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

在本步骤中，音频播放设备需要根据播放策略，调整步骤S13中的播放列表中的各音频的次序，进而得到调整后的播放列表。该调整后的播放列表中的音频的次序与步骤S13的播放列表中的音频的次序是不同的；或者，该调整后的播放列表中的音频的个数与步骤S13的播放列表中的音频的个数是不同的；或者，该调整后的播放列表中的音频的次序与步骤S13的播放列表中的音频的次序是不同的，同时该调整后的播放列表中的音频的个数与步骤S13的播放列表中的音频的个数是不同的。

本实施例通过获取用户的语音信息，其中，语音信息指示音频播放设备播放音频；确定语音信息的至少一个中心词，其中，中心词表征语音信息所指向的待播放的音频的特征；根据至少一个中心词，确定播放列表，其中，播放列表中包括与各中心词对应的待播放的音频；根据播放策略调整播放列表，生成调整后的播放列表，其中，播放策略表征对播放列表中的音频个数和/或音频次序进行调整。针对于不能提供操作界面的音频播放设备，在用户需要音频播放设备播放音频的时候，音频播放设备搜索到用户需要的各音频之后，音频播放设备可以对用户需要播放的各音频进行播放次序和/音频个数的调整，提供音频播放设备提供的音频播放次序多样化，提高了用户体验。

图3是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例二的流程图，如图3所示，基于语音交互的音频处理方法用于音频播放设备中，该音频播放设备可以是智能音箱。该方法包括以下步骤。

在步骤S21中，获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频。

在本步骤中，本步骤参见图1的步骤S11。

在步骤S22中，确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征。

在本步骤中，本步骤参见图1的步骤S12。

在步骤S23中，根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频。

在本步骤中，本步骤参见图1的步骤S13。

在步骤S24中，包括了以下几种实现方式：

第一种实现方式：在步骤S241中，确定并删除所述播放列表中的所述用户在预设时间段内已收听过的音频，以生成所述调整后的播放列表。

在本步骤中，第一种实现方式。音频播放设备可以去确定出当前用户，在预设时间段内已经听过的音频；然后，音频播放设备将播放列表中当前用户在预设时间段内已经听过的音频删除掉，然后音频播放设备根据进行删除处理的各音频，生成调整后的音频列表，在调整后的音频列表中不包括用户在预设时间段内已收听过的音频。

举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”和“歌曲”。然后，音频播放设备搜索出周杰伦的歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6，根据这些歌曲生成一个播放列表，可知，在该播放列表中包括了以下各歌曲：歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6。然后，音频播放设备根据历史播放记录，可以确定出当前用户在2天之内已经收听过歌曲2和歌曲3，则音频播放设备将歌曲2和歌曲3从播放列表中删除掉，得到调整后的播放列表，可知，在该调整后的播放列表中包括了以下各歌曲：歌曲1、歌曲4、歌曲5、歌曲6。

第二种实现方式：在步骤S242中，确定所述中心词中的关键词，其中，所述关键词为音频名称；确定所述播放列表中的与所述关键词对应的音频，并根据所述与所述关键词对应的音频生成调整后的播放列表。其中，所述根据所述与所述关键词对应的音频生成调整后的播放列表，包括：只保留所述播放列表中的所述与所述关键词对应的音频；或者，将所述与所述关键词对应的音频，调整至所述播放列表的最前端。

在本步骤中，第二种实现方式。音频播放设备可以对各中心词进行识别，可以确定出中心词中的哪些中心词为音频名称，进而识别出各中心词中的关键词；然后音频播放设备确定出播放列表中的与该关键词对应的音频。音频播放设备可以根据与该关键词对应的音频，生成调整后的播放列表。具体来说，音频播放设备只保留与该关键词对应的音频，然后生成一个调整后的播放列表，在该调整后的播放列表中只包括与该关键词对应的音频。或者，音频播放设备将与关键词对应的音频，调整至播放列表的最前端，进而调整乐播放列表的次序。

举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲3”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”、“歌曲”和“歌曲3”。然后，音频播放设备搜索出周杰伦的歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6，根据这些歌曲生成一个播放列表，可知，在该播放列表中包括了以下各歌曲：歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6。然后，音频播放设备可以根据对中心词“周杰伦”、“歌曲”和“歌曲3”进行识别，进而可以确定出中心词“歌曲3”为音频名称，从而可以确定关键词为“歌曲3”。然后，音频播放设备只保留住歌曲3，得到一个调整后的播放列表，该调整后的播放列表中包括：歌曲3；或者，音频播放设备将歌曲3调整至播放列表的最前端，得到一个调整后的播放列表，该调整后的播放列表中包括：歌曲3、歌曲1、歌曲2、歌曲4、歌曲5、歌曲6。

第三种实现方式：在步骤S243中，随机调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表。

在本步骤中，第三种实现方式。音频播放设备对播放列表中各待播放的音频的次序，进行随机的调整，从而得到对音频次序进行了随机调整之后的播放列表。

举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”和“歌曲”。然后，音频播放设备搜索出周杰伦的歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6，根据这些歌曲生成一个播放列表，可知，在该播放列表中包括了以下各歌曲：歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6。然后，音频播放设备随机调整该播放列表中各歌曲的次序，得到一个调整后的播放列表，该调整后的播放列表中包括：歌曲3、歌曲2、歌曲4、歌曲6、歌曲5、歌曲1。

第四种实现方式：在步骤S244中，根据预设的播放次序，调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表；其中，所述播放次序包括以下的任意一种：音频时长的次序、音频大小的次序、音频质量的次序。

在本步骤中，第四种实现方式。用户可以设定播放次序，具体来说，用户向音频播放设备中输入播放次序，进而音频播放设备接收到用户设定的播放次序；或，终端自行确定播放次序。其中，播放次序可以为音频时长的降序或升序，播放次序可以为音频大小的降序或升序，播放次序可以为音频质量排名的升序或降序。音频播放设备根据该播放次序，对S13中的播放列表中的各音频的次序进行调整。

举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”和“歌曲”。然后，音频播放设备搜索出周杰伦的歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6，根据这些歌曲生成一个播放列表，可知，在该播放列表中包括了以下各歌曲：歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6。然后，音频播放设备根据播放次序，对各音频的次序进行调整，此时，该播放次序为音频大小的降序；音频播放设备可以确定各歌曲的音频大小的降序为歌曲2、歌曲3、歌曲1,、歌曲6、歌曲5、歌曲4，从而音频播放设备得到的该调整后的播放列表各歌曲的次序为：歌曲2、歌曲3、歌曲1,、歌曲6、歌曲5、歌曲4。

本实施例通过获取用户的语音信息，其中，语音信息指示音频播放设备播放音频；确定语音信息的至少一个中心词，其中，中心词表征语音信息所指向的待播放的音频的特征；根据至少一个中心词，确定播放列表，其中，播放列表中包括与各中心词对应的待播放的音频；根据播放策略调整播放列表，生成调整后的播放列表，其中，播放策略表征对播放列表中的音频个数和/或音频次序进行调整。音频播放设备针对各播放的音频，去除用户在预设时间段内已收听过的音频，或者根据与关键词对应的音频调整各音频，或者随机调整各音频的次序，或者根据音频时长、大小、质量等调整各音频的次序。针对于不能提供操作界面的音频播放设备，在用户需要音频播放设备播放音频的时候，音频播放设备搜索到用户需要的各音频之后，音频播放设备可以对用户需要播放的各音频进行播放次序和/音频个数的调整，提供了多种不同的调整音频列表的方式，提供音频播放设备提供的音频播放次序多样化，提高了用户体验。

图4是根据一示例性实施例示出的一种基于语音交互的音频处理方法实施例三的流程图，如图4所示，基于语音交互的音频处理方法用于音频播放设备中，该方法包括以下步骤。

在步骤S31中，获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频。

在本步骤中，本步骤可以参见图1的步骤S11。

在步骤S32中，确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征。

在本步骤中，本步骤可以参见图1的步骤S12。

在步骤S33中，根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频。

在本步骤中，本步骤可以参见图1的步骤S13。

在步骤S34中，根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

在本步骤中，本步骤可以参见图1的步骤S14，或可以参见图2的步骤S24。

在步骤S35中，播放所述调整后的播放列表中的各音频。

其中，步骤S35具体包括：确定上次播放所述各音频的播放停止位置；从所述播放停止位置处开始播放所述调整后的播放列表中的各音频。

其中，在播放所述调整后的播放列表中的各音频过程中，在完成播放每一个音频之后，生成并播放语音提示信息，其中，所述语音提示信息表征提示用户确定是否重复播放当前完成播放的音频；

获取所述用户的语音确定信息；

在本步骤中，音频播放设备在调整了播放列表之后，就可以播放调整后的播放列表中的各音频了。

在即将开始播放的时候，音频播放设备可以确定出上次播放各音频时的播放停止位置，然后音频播放设备从该播放停止位置处，开始去播放调整后的播放列表中的各音频。

举例来说，评书故事类、以及有声小说类的音频不同于音乐类的音频，评书故事类、以及有声小说类的音频的每一个音频文件的时长都较长，一般是十到几十分钟，并且，评书故事类、以及有声小说类的音频的内容是有连贯性的，会出现一部分内容未听到时，用户就对内容衔接不上的情况。因此，音频播放设备在播放评书故事类、以及有声小说类的音频的时候，音频播放设备可以检测当前用户上次播放记录，然后确定出上次播放音频的播放停止位置，然后，音频播放设备从该播放停止位置处开始播放调整后的播放列表中的各音频。

并且，音频播放设备在播放调整后的播放列表中的各音频过程中，在完成播放每一个音频之后，可以播放一个语音提示信息，该语音提示信息用于提示用户确定是否重复播放当前完成播放的音频。用户在接收到语音提示信息之后，确定是否重复播放当前完成播放的音频，进而用户向音频播放设备发出一个语音确定信息。音频播放设备接收到用户的语音确定信息，然后，音频播放设备判断该语音确定信息表征的意思，是否为确定重复播放当前完成播放的音频；音频播放设备若确定该语音确定信息表征确定重复播放当前完成播放的音频，音频播放设备就可以执行该语音确定信息表征的动作了，即再次播放当前完成播放的音频；音频播放设备若确定该语音确定信息表征确定不重复播放当前完成播放的音频，则去播放调整后的播放列表中的当前完成播放的音频的下一个音频。

在以上过程中，音频播放设备可以设定只针对一些特殊的音频，在播放完成之后，播放该语音提示信息。举例来说，音频播放设备接收到用户发出的语音信息“请播放周杰伦的歌曲3”，则音频播放设备可以确定该语音信息中的中心词为“周杰伦”和“歌曲”。然后，音频播放设备搜索出周杰伦的歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6，根据这些歌曲生成一个播放列表，可知，在该播放列表中包括了以下各歌曲：歌曲1、歌曲2、歌曲3、歌曲4、歌曲5、歌曲6。然后，音频播放设备根据播放次序，对各音频的次序进行调整，此时，该播放次序为音频大小的降序；音频播放设备可以确定各歌曲的音频大小的降序为歌曲2、歌曲3、歌曲1,、歌曲6、歌曲5、歌曲4，从而音频播放设备得到的该调整后的播放列表各歌曲的次序为：歌曲2、歌曲3、歌曲1,、歌曲6、歌曲5、歌曲4。然后，音频播放设备在播放该调整后的播放列表的过程中，在完成播放了歌曲3的时候，音频播放设备可以确定歌曲3为用户的语音信息中的关键词；进而音频播放设备可以发出一个语音提示信息“是否重复播放歌曲3”。

本实施例通过获取用户的语音信息，其中，语音信息指示音频播放设备播放音频；确定语音信息的至少一个中心词，其中，中心词表征语音信息所指向的待播放的音频的特征；根据至少一个中心词，确定播放列表，其中，播放列表中包括与各中心词对应的待播放的音频；根据播放策略调整播放列表，生成调整后的播放列表，其中，播放策略表征对播放列表中的音频个数和/或音频次序进行调整。音频播放设备针对各播放的音频，去除用户在预设时间段内已收听过的音频，或者根据与关键词对应的音频调整各音频，或者随机调整各音频的次序，或者根据音频时长、大小、质量等调整各音频的次序。针对于不能提供操作界面的音频播放设备，在用户需要音频播放设备播放音频的时候，音频播放设备搜索到用户需要的各音频之后，音频播放设备可以对用户需要播放的各音频进行播放次序和/音频个数的调整，提供了多种不同的调整音频列表的方式，提供音频播放设备提供的音频播放次序多样化，提高了用户体验。并且，可以确定上次播放各音频的播放停止位置，从播放停止位置处开始播放调整后的播放列表中的各音频，可以提高用户利用音频播放设备收听音频的用户体验。

图5是根据一示例性实施例示出的一种基于语音交互的音频处理装置实施例四的框图。参照图5，该装置包括：

获取模块51，被配置为获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频；

第一确定模块52，被配置为确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征；

第二确定模块53，被配置为根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频；

调整模块54，被配置为根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例一中进行了详细描述，此处将不做详细阐述说明。

在上述图5所示的实施例的基础上，图6是根据一示例性实施例示出的一种基于语音交互的音频处理装置实施例五的框图。参照图6，本实施例提供的装置，所述调整模块54，被具体配置为：

或者，所述调整模块54，被具体配置为：

确定所述中心词中的关键词，其中，所述关键词为音频名称；确定所述播放列表中的与所述关键词对应的音频，并根据所述与所述关键词对应的音频生成调整后的播放列表；

其中，所述根据所述与所述关键词对应的音频生成调整后的播放列表，包括：只保留所述播放列表中的所述与所述关键词对应的音频；或者，将所述与所述关键词对应的音频，调整至所述播放列表的最前端。

或者，所述调整模块54，被具体配置为：

随机调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表；或者，根据预设的播放次序，调整所述播放列表中各待播放的音频的次序，以生成所述调整后的播放列表；其中，所述播放次序包括以下的任意一种：音频时长的次序、音频大小的次序、音频质量的次序。

本实施例提供的装置，还包括：

播放模块61，被配置为在所述调整模块54根据播放策略调整所述播放列表，生成调整后的播放列表之后，播放所述调整后的播放列表中的各音频。

所述播放模块61，包括：

确定子模块611，被配置为确定上次播放所述各音频的播放停止位置；

播放子模块612，被配置为从所述播放停止位置处开始播放所述调整后的播放列表中的各音频。

或者，所述播放模块61，包括：

提示子模块613，被配置为在播放所述调整后的播放列表中的各音频过程中，在完成播放每一个音频之后，生成并播放语音提示信息，其中，所述语音提示信息表征提示用户确定是否重复播放当前完成播放的音频；

获取子模块614，被配置为获取所述用户的语音确定信息；

第一确认子模块615，被配置为在所述语音确定信息表征确定重复播放当前完成播放的音频时，播放所述当前完成播放的音频；

第二确认子模块616，被配置为在所述语音确定信息表征确定不重复播放当前完成播放的音频时，播放所述调整后的播放列表中的所述当前完成播放的音频的下一个音频。

其中，提示子模块613、获取子模块614、第一确认子模块615以及第二确认子模块616的实施，可以在播放子模块612之后实施；或者，提示子模块613、获取子模块614、第一确认子模块615以及第二确认子模块616的实施，也可以不依赖于确定子模块611与播放子模块612的实施。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例二和实施例三中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种音频播放设备的实体的框图。参照图7，该音频播放设备可以具体实现为：处理器71，以及被配置为存储处理器可执行指令的存储器72；

其中，所述处理器71被配置为：获取用户的语音信息，其中，所述语音信息指示音频播放设备播放音频；确定所述语音信息的至少一个中心词，其中，所述中心词表征所述语音信息所指向的待播放的音频的特征；根据所述至少一个中心词，确定播放列表，其中，所述播放列表中包括与各所述中心词对应的待播放的音频；根据播放策略调整所述播放列表，生成调整后的播放列表，其中，所述播放策略表征对所述播放列表中的音频个数和/或音频次序进行调整。

在上述实施例中，应理解，该处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。SIM卡也称为用户身份识别卡、智能卡，数字移动电话机必须装上此卡方能使用。即在电脑芯片上存储了数字移动电话客户的信息，加密的密钥以及用户的电话簿等内容。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

关于上述实施例中的音频播放设备，其中各个模块执行操作的具体方式已经在有关该方法和装置的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种终端设备800的框图。例如，终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，终端设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制终端设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在终端设备800的操作。这些数据的示例包括用于在终端设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为终端设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当终端设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件814可以检测到终端设备800的打开/关闭状态，组件的相对定位，例如所述组件为终端设备800的显示器和小键盘，传感器组件814还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在，终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由终端设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种基于语音交互的音频处理方法，包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于语音交互的音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据播放策略调整所述播放列表，生成调整后的播放列表，包括：

确定并删除所述播放列表中的所述用户在预设时间段内已收听过的音频，以生成所述调整后的播放列表；

或者，

3.根据权利要求1所述的方法，其特征在于，所述根据播放策略调整所述播放列表，生成调整后的播放列表，包括：

或者，

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述根据播放策略调整所述播放列表，生成调整后的播放列表之后，还包括：

播放所述调整后的播放列表中的各音频。

5.根据权利要求4所述的方法，其特征在于，所述播放所述调整后的播放列表中的各音频，包括：

确定上次播放所述各音频的播放停止位置；

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述用户的语音确定信息；

7.一种基于语音交互的音频处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述调整模块，被具体配置为：

或者，

确定所述中心词中的关键词，其中，所述关键词为音频名称；确定所述播放列表中的与所述关键词对应的音频，并根据所述与所述关键词对应的音频生成调整后的播放列表；其中，所述根据所述与所述关键词对应的音频生成调整后的播放列表，包括：只保留所述播放列表中的所述与所述关键词对应的音频；或者，将所述与所述关键词对应的音频，调整至所述播放列表的最前端；

或者，

9.根据权利要求7或8所述的装置，其特征在于，所述装置，还包括：

播放模块，被配置为在所述调整模块根据播放策略调整所述播放列表，生成调整后的播放列表之后，播放所述调整后的播放列表中的各音频；

其中，所述播放模块，包括：

播放子模块，被配置为从所述播放停止位置处开始播放所述调整后的播放列表中的各音频；

或者，所述播放模块，包括：

获取子模块，被配置为获取所述用户的语音确定信息；

10.一种音频播放设备，其特征在于，包括：

处理器，以及用于存储处理器可执行指令的存储器；