CN112349303B

CN112349303B - 一种音频播放方法、装置及存储介质

Info

Publication number: CN112349303B
Application number: CN201910664712.6A
Authority: CN
Inventors: 陈孝良; 赵泽坤; 常乐; 苏少炜; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-09-24
Anticipated expiration: 2039-07-22
Also published as: CN112349303A

Abstract

一种音频播放方法，应用于计算机技术领域，应用于终端，包括：在播放第一音频文件的过程中，获取用户发出的语音指令，将语音指令及第一音频文件转发至服务器，以使服务器根据语音指令对第一音频文件进行处理，得到第二音频文件，其中，第二音频文件包括片段标识；当满足预设条件时，获取从服务器发送的第二音频文件，根据第二音频文件中的片段标识对第二音频文件进行部分播放。本公开还提供了一种音频播放方法，应用于服务器。本公开还提供了一种服务器、终端及系统。本公开有效解决了现有技术中闹钟音频单一、无法根据场景模式实现闹钟音频多样化的的问题。

Description

一种音频播放方法、装置及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音频播放方法、装置及存储介质。

背景技术

随着信息化时代的到来，音箱闹钟逐渐变成了人们生活工作中常用的一种工具，并且朝着更智能的方向发展。

现有的音箱闹钟主要有两种播放闹钟音频的方式，一种方式是将闹钟音频文件存放在音箱，当闹钟生效时，音箱从本地读取内存中存储的闹钟音频文件进行播放；另一种方式是将手机APP和音箱进行绑定，使用户可通过手机APP将闹钟音频文件的链接存放在服务器，当闹钟生效时，音箱向服务器申请闹钟音频文件进行播放。

然而，将闹钟音频文件存放在音箱内存中的方式受限于音箱内存的大小，使闹钟音频文件单一，使音箱无法根据场景智能选择合适的闹钟音频文件进行播放，用户体验极差。通过手机APP将闹钟音频文件的链接存放在服务器的方式虽然可丰富闹钟音频文件的种类和数量，但在需要用户通过手机APP对音箱闹钟的闹钟音频文件进行设置，操作复杂，需要花费额外的时间，闹钟只能播放用户设置的固定音频，同样无法实现闹钟根据场景智能播放多种闹钟音频。

发明内容

本公开提供了一种音频播放方法、装置及存储介质，以解决当前音箱闹钟设置闹钟音频单一、无法根据场景模式实现闹钟音频多样化的问题。

本公开的第一方面提供了一种音频播放方法，应用于第一电子设备，包括：播放第一音频文件；获取第一指令，并将所述第一指令及第一音频文件转发至第二电子设备，以使所述第二电子设备根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；从所述第二电子设备获取第二音频文件。

可选地，所述从所述第二电子设备获取第二音频文件之后，包括：

根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。

可选地，从所述第二电子设备获取第二音频文件，包括：向所述第二电子设备发送预设时间；获取所述第二电子设备发送的所述第二音频文件，其中，所述第二音频文件是在所述第二电子设备判断出当前时间为预设时间时而发送的。

可选地，所述第一指令包括场景标识，所述第二电子设备根据该场景标识将所述第二音频文件存储在相应的场景目录下。

可选地，从所述第二电子设备获取第二音频文件，包括：获取当前场景；根据所述当前场景从所述第二电子设备的相应的场景目录中的至少一个文件中，随机获取所述第二音频文件。

本公开的第二方面提供了一种音频播放方法，应用于第二电子设备，包括：获取第一电子设备发送的第一音频文件及第一指令；根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；向所述第一电子设备发送所述第二音频文件，以使得所述第一电子设备根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。

可选地，向所述第一电子设备发送所述第二音频文件，包括：获取所述第一电子设备发送的预设时间；判断当前时间是否为预设时间，若是，则将所述第二音频文件发送至所述第一电子设备。

可选地，所述第一指令包括场景标识，其中，方法还包括：根据该场景标识将所述第二音频文件存储在相应的场景目录下。

可选地，向所述第一电子设备发送所述第二音频文件，包括：获取所述第一电子设备发送的当前场景；根据所述当前场景将相应的场景目录中的第二音频文件发送至所述第一电子设备。

可选地，根据所述当前场景将相应的场景目录中的第二音频文件发送至所述第一电子设备，包括：

根据所述当前场景从相应的场景目录中的至少一个文件中随机选取所述第二音频文件，并将所述第二音频文件发送至所述第一电子设备。

本公开的第三方面提供了一种音频播放装置，包括：播放模块，用于播放第一音频文件；第一指令发送模块，用于获取第一指令，并将所述第一指令及第一音频文件转发至第二电子设备，以使所述第二电子设备根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；获取模块，用于从所述第二电子设备获取第二音频文件。

本公开的第四方面提供了一种音频播放装置，包括：指令获取模块，用于获取第一电子设备发送的第一音频文件及第一指令；处理模块，用于根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；文件发送模块，用于向所述第一电子设备发送所述第二音频文件，以使得所述第一电子设备根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。

本公开的第五方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面和/或第二方面所述的方法。

在本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

(1)使第一电子设备能够根据用户指令对第一音乐文件进行处理，以获取带有片段标识和场景标识的第二音频文件，以便在特定条件下，可为第一电子设备提供多个带有相同场景标识的第二音频文件，丰富了第二音频文件的多样性。

(2)根据用户需求，第一电子设备可仅播放第二音频文件带片段标识的部分，提升了用户体验。

(3)将大部分交互逻辑交给第二电子设备进行处理，减少了用户操作，对第一电子设备的硬件、软件要求低，降低了硬件成本。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了本公开实施例提供的一种音频播放方法的流程图；

图2示意性示出了本公开实施例提供的另一种音频播放方法的流程图；

图3示意性示出了本公开实施例提供的第一电子设备与第二电子设备交互的音频播放方法的流程图；

图4示意性示出了本公开实施例提供的一种音频播放装置的结构框图；以及

图5示意性示出了本公开实施例提供的另一种音频播放装置的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

本实施例提供了一种音频播放的方法、装置及存储介质，使电子设备可根据用户指令对音频文件进行处理，为音频文件的片段添加标识和场景标识，以便在特定场景下使用。

图1示意性示出了本公开实施例提供的一种音频播放方法的流程图。

具体的，如图1所示，本公开实施例的一种音频播放方法，应用于第一电子设备，其中，本实施例中第一电子设备可以是电视、手机、个人电脑、汽车、机器人、音箱等等，优选地，第一电子设备可以是音箱，尤其是智能音箱。音频播放方法包括以下操作。

步骤1，播放第一音频文件。

在本实施方式中，第一音频文件可以是纯音频格式的文件，例如：.MP3、.AAC、.WAV、.WMA、.CDA、.FLAC、.M4A、.MID、.MKA、.MP2、.MPA、.MPC、.APE、.OFR、.OGG、.RA、.WV、.TTA、.AC3、.DTS等等；也可以是具有音频的视频文件，例如：.AVI、.ASF、.WMV、.AVS、.FLV、.MKV、.MOV、.3GP、.MP4、.MPG、.MPEG、.DAT、.OGM、.VOB、.RM、.RMVB、.TS、.TP、.IFO、.NSV等。

在本实施方式中，第一电子设备本身可以不存储音频文件，也可以存储音频文件。当第一电子设备不存储音频文件时，音频文件全部存储于第二电子设备中。其中，第二电子设备中可以是个人电脑、服务器等等，优选地，第二电子设备可以是云服务器。

当第一电子设备不存储音频文件时，若第一电子设备接收到播放指令，第一电子设备将播放指令转发给第二电子设备，使第二电子设备根据播放指令，将第一音频文件发送给第一电子设备进行播放。其中，第一音频文件被存于第二电子设备的第一音频库中。在第一电子设备播放第一音频文件的过程中，第一电子设备可实时向第二电子设备汇报当前播放进程。

步骤2，获取第一指令，并将第一指令及第一音频文件转发至第二电子设备，以使第二电子设备根据第一指令对第一音频文件进行处理，得到第二音频文件，其中，第二音频文件包括片段标识。

在本实施方式中，第一指令可以为语音、手势、数字或其他形式的指令。第一电子设备收到第一指令后，将第一指令及第一音频文件转发至第二电子设备，以使第二电子设备根据第一指令对第一音频文件进行处理，即在第一音频文件中添加标识，标识出用户希望标识出的片段，添加了标识的第一音频文件即为所述第二音频文件。

第一指令包括场景标识，第二电子设备根据该场景标识将第二音频文件存储在相应的场景目录下。

在本实施方式中，场景标识可表示第二音频文件的播放场景，如会议场景、娱乐场景、广场场景等。

在本实施方式中，当第一电子设备向第二电子设备转发第一指令时，第一电子设备可以不必将完整的第一音频文件发送给第二电子设备，仅向第二电子设备发送该第一音频文件的名称，便于第二电子设备识别、获取即可。

步骤3，从第二电子设备获取第二音频文件。

在本实施方式中，第一电子设备在预设时间到达的情况下，从第二电子设备获取第二音频文件进行播放，包括：

向第二电子设备发送预设时间；

获取第二电子设备发送的第二音频文件，其中，第二音频文件是在第二电子设备判断出当前时间为预设时间时而发送的。

在本实施方式中，预设时间为在第一电子设备上预先设置的时间，设置预设时间形式可以为闹钟、计时器等。

在本实施方式中，第二电子设备在收到第一电子设备发送的预设时间后，若判断出当前时间为预设时间，第二电子设备将向第一电子设备发送与第一电子设备当前场景相匹配的第二音频文件，包括：

获取当前场景；

根据当前场景从第二电子设备的相应的场景目录中的至少一个文件中，随机获取第二音频文件。

在本实施方式中，第二电子设备的单个场景目录下可包含多个不同的第二音频文件，第二电子设备可根据当前场景从第二电子设备的相应的场景目录中的至少一个文件中，随机获取一个第二音频文件发送给第一电子设备。

步骤4，根据第二音频文件中的片段标识对第二音频文件进行部分播放。

在本实施方式中，第一电子设备接收到从第二电子设备发送来的第二音频文件后，先识别该第二音频文件中的片段标识，然后播放第二音频文件中被标识出的片段。例如，该第二音频文件被标识出了高潮部分，终端在播放该第二音频文件时，仅播放该第二音频文件中被标识出的高潮部分的片段。

本实施例提供的一种音频播放方法，应用于第一电子设备，包括：播放第一音频文件，获取第一指令，并将所述第一指令及第一音频文件转发至第二电子设备，以使所述第二电子设备根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识，从所述第二电子设备获取第二音频文件，根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。该方法使第一电子设备能够根据用户指令对第一音乐文件进行处理，以获取带有片段标识和场景标识的第二音频文件，以便在特定条件下，可为第一电子设备提供多个带有相同场景标识的第二音频文件，丰富了第二音频文件的多样性，将第一音频文件和第二音频文件均存储于第二电子设备，减轻了第一电子设备的内存负担，进一步的，将大部分交互逻辑交给第二电子设备处理，进一步降低了对第一电子设备硬件软件的要求，降低了软、硬件成本。

图2示意性示出了本公开实施例提供的另一种音频播放方法的流程图。

如图2所示，本公开实施例提供的另一种音频播放方法，应用于第二电子设备，包括：

步骤S1，获取第一电子设备发送的第一音频文件及第一指令。

在本实施例中，第一指令可为语音、手势、数字或其他形式的指令。第一音频文件可以是纯音频格式的文件，例如：.MP3、.AAC、.WAV、.WMA、.CDA、.FLAC、.M4A、.MID、.MKA、.MP2、.MPA、.MPC、.APE、.OFR、.OGG、.RA、.WV、.TTA、.AC3、.DTS等等；也可以是具有音频的视频文件，例如：.AVI、.ASF、.WMV、.AVS、.FLV、.MKV、.MOV、.3GP、.MP4、.MPG、.MPEG、.DAT、.OGM、.VOB、.RM、.RMVB、.TS、.TP、.IFO、.NSV等。

步骤S2，根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识。

在本实施方式中，第一指令包括场景标识和片段标识。第一电子设备本身不对第一指令进行识别，第二电子设备收到由第一电子设备转发来的第一指令后，首先应识别第一指令。例如，当第一指令为语音指令时，第二电子设备可通过预置的自然语言处理方法对第一指令进行识别，以获取第一指令中包含的场景标识和片段标识。

在本实施方式中，第二电子设备根据从第一指令中识别出的场景标识和片段标识后，通过预置的算法对第一音频文件进行处理，识别出第一指令中的片段标识指定的第一音频文件中的片段，并在该片段的开头和结尾添加标识，得到第二音频文件，将第二音频文件存储于与场景标识对应的场景目录下。

具体的，服务器基于预置算法，在音频文件中添加标识，标识出闹钟音频片段包括：

步骤S201，将第一音频文件进行一维信号处理，获得第一音频文件的一维信号数据。

一般音频文件的格式为脉冲编码调制(Pulse Code Modulation，PCM)，是模拟信号以固定的采样频率转换为数字信号的表现形式。对音频文件的PCM流进行解码，即可获得音频文件的一维信号数据表现形式。所获得的一维信号数据保留有原音频文件的音律的波动性，因此该一维信号数据可以反应音频文件的音律特征。

步骤S202，以固定的时间间隔对一维信号数据进行采样，获得采样数据。

在获得第一音频文件的一维信号数据后，以一定的时间间隔对一维信号数据进行采样，以缩小数据规模，便于对数据进行处理，减小对数据处理时的计算量。

同时，由于对一维信号数据的采样是以固定的时间间隔进行的，采样数据带有时间信息，因此采样数据反映了第一音频文件中与采样数据对应的音调出现的时间，通过对采样数据进行分析，可获知音频文件中音律变化的时间点。

步骤S203，对采样数据进行无迹卡尔曼滤波处理，获得采样数据的自相似矩阵。

卡尔曼滤波器(Kalman Filter)是一种基于最小方差意义下的时域滤波方法，通过状态空间方程描述系统状态，递推估计系统状态输出，具备数据存储量小、易实现等优点。无迹卡尔曼滤波算法是在卡尔曼滤波的基础上发展起来的用于非线性问题的算法。

对采样数据进行无迹卡尔曼滤波处理，可预测采样数据的变化，得到采样数据的预测值，通过计算预测值与采样数据之间的差值，构成预测偏差向量，对预测偏差向量进行余弦相似性计算，获得音频文件的自相似矩阵。该自相似矩阵反应了采样数据变化方向，相应的反应了音频文件中的节奏变化。

步骤S204，将自相似矩阵输入预设的RNN深度模型进行训练，获得自相似矩阵的中变化明显的数据点，并获取数据点在第一音频文件中对应的时间点。

RNN深度模型是一类用于处理时间序列数据的神经网络。通过预设的RNN深度模型能够识别出音频文件的自相似矩阵中的数值变化明显的数据点。由于自相似矩阵中的数据点也带有时间信息，预设的RNN深度模型识别出的数值变化明显的数据点相应的反应了音频文件中音律发生变化的时间点。

在本实施例中，可通过预设的RNN深度模型识别音频文件的高潮部分的开头和结尾两个时间点。

上述处理算法均为机器学习领域常用的算法，在此不做赘述。

步骤S205，根据第一指令，在第一音频文件中的指定片段开头和结尾的时间点处添加标识。

在本实施方式中，第二电子设备根据第一指令的第一音频文件中的指定片段开头和结尾的时间点处添加标识，例如，当第一指令为“提取当前音乐的开头部分作为会议闹钟音乐”，该第一指令包含的片段标识为“开头部分”，第二电子设备对第一音频文件进行处理后，从预设的RNN深度模型中获得了第一音频文件的高潮部分的开头和结尾两个时间点，第二电子设备根据片段标识“开头部分”，该第一音频文件的开头和高潮部分开头在这两个时间点处添加标识，得到第二音频文件。

进一步的，第一指令还可包含指定片段截取时长的信息，以设置第二音频文件中标识出的片段的时间长度。

第二电子设备得到第二音频文件后，还包括：

根据该场景标识将第二音频文件存储在相应的场景目录下。

在本实施方式中，第二电子设备中的场景目录可以包含会议场景、娱乐场景、广场场景、学习场景、睡眠场景等多个场景模式，用于每个场景模式用于存储相应有场景标识的第二音频文件。第二音频文件被第二电子设备根据场景标识存于相应的场景目录下，使用户需要特定场景模式的第二音频文件时方便查找。

可选地，当第二电子设备中不存在第一指令中所包含的场景标识对应的场景目录时，第二电子设备可新建一个相应场景目录。

步骤S3，向第一电子设备发送第二音频文件，以使得第一电子设备根据第二音频文件中的片段标识对第二音频文件进行部分播放。

在本实施例中，当第一电子设备满足了预设时间，第一电子设备向第二电子设备请求获取特定场景标识的第二音频文件进行播放，第二电子设备根据第一电子设备的请求向第一电子设备发送第二音频文件，包括：

获取第一电子设备发送的当前场景；

根据当前场景将相应的场景目录中的第二音频文件发送至第一电子设备。

在本实施方式中，第一电子设备的请求中包含第一电子设备的预设时间和当前场景，第二电子设备在接收到第一电子设备的请求后，先判定当前时间是否为第一电子设备的预设时间，若当前时间为第一电子设备的预设时间，第二电子设备查找与场景标识对应的场景目录，并从该场景目录下选取一个第二音频文件发送给第一电子设备。

第二电子设备从场景目录中选取第二音频文件包括：

根据当前场景从相应的场景目录中的至少一个文件中随机选取第二音频文件，并将第二音频文件发送至第一电子设备。

在本实施方式中，单个场景目录下可能存有多个不同的第二音频文件，第二电子设备在场景目录下选择第二音频文件时，可存在多种选择。第二电子设备从场景目录下随机选取一个第二音频文件发送给第一电子设备，使得第一电子设备每次在满足预设条件时收到的第二音频文件都可能不同，丰富了第一电子设备在特定的场景下音乐播放的多样性。

本实施例提供的一种音频播放方法，应用于第二电子设备，包括：获取第一电子设备发送的第一音频文件及第一指令，根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识，向所述第一电子设备发送所述第二音频文件，以使得所述第一电子设备根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。该方法使第二电子设备能够根据第一电子设备发送的第一指令对第一音乐文件进行处理，以获取带有片段标识和场景标识的第二音频文件，以便在特定场景下，为第一电子设备提供多个相应的场景标识的第二音频文件，丰富了第二音频文件的多样性，将第一音频文件和第二音频文件均存储于第二电子设备，减轻了第一电子设备的内存负担，进一步的，将大部分交互逻辑交给第二电子设备处理，进一步降低了对第一电子设备硬件软件的要求，降低了软、硬件成本。

图3示意性示出了本公开实施例提供的第一电子设备与第二电子设备交互的音频播放方法的流程图。

根据图1和图2所述的方法，第一电子设备与第二电子设备之间的交互的音频播放方法如图3所示。

第一电子设备在播放第一音频文件的过程中，获取第一指令，并将第一指令及第一音频文件转发至第二电子设备。

第二电子设备获取第一电子设备发送的第一音频文件及第一指令，根据第一指令对第一音频文件进行处理，得到第二音频文件。

当第一电子设备达到预设的条件，例如，达到了预设的时间，第一电子设备将向第二电子设备获取第二音频文件。

第二电子设备收到第一电子设备发来的预设时间和当前场景后，判断当前时间是否为预设时间，若是，则在与当前场景相应的场景目录下获取第二音频文件，发送给第一电子设备。

第一电子设备获取点第二音频文件后，根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放。

实施例一

以第一电子设备为一种智能音箱为例，用户可通过语音控制音箱，使音箱根据用户的语音指令做出反映，如播放音乐、设置闹钟等。

在音箱播放音乐的过程中，当音箱接收到语音指令“将这首歌的高潮部分设置为会议的闹钟音乐”，该指令中至少包含了场景标识“会议”和片段标识“高潮部分”，音箱将这条语音指令和正在播放的第一音频文件转发给第二电子设备，使第二电子设备根据这条语音指令对该第一音频文件进行处理，对第一音频文件添加片段标识，得到第二音频文件。

用户命令该音箱设置一个“下午三点的会议闹钟”，即该音箱的闹钟的预设时间为“下午三点”，闹钟使用的场景模式为“会议”，当时间到达下午三点时，音箱将预设时间和场景模式均发送给第二电子设备，从第二电子设备获取一个第二音频文件，该第二音频文件带有片段标识，音箱接收并播放该第二音频文件中被标识出的片段。

实施例二

以第二电子设备为一种云服务器为例，该服务器可以根据第一电子设备的指令，第一音频文件进行处理得到第二音频文件，并将第二音频文件发送给第一电子设备。

当该云服务器获取到由第一电子设备发送来的第一指令及第一音频文件，该云服务器根据第一指令对第一音频文件进行处理，例如，第一指令为“将歌曲开头部分前20秒设为起床闹钟”，该第一指令包含了场景标识“起床闹钟”和片段标识“开头部分”，并指明了片段时长为20秒，该云服务器根据第一指令，在第一音频文件的开头部分的前20秒的开头和结尾设置标识，得到第二音频文件，并将该第二音频文件添加到“起床闹钟”场景目录下。

当第一电子设备设置的预设时间到达，该云服务器接收由第一电子设备发送的将预设时间和当前场景，假设预设时间为“早上七点”，当前场景为“起床闹钟”，在判断出当前时间为预设时间的情况下，从“起床闹钟”场景目录下，随机选取一个第二音频文件并发送给音箱，使音箱接收并播放该第二音频文件中被标识出的片段，如果该第二音频文件被标识出的片段为开头部分的前20秒，则音箱将播放该第二音频文件的开头部分的前20秒。

实施例三

以第一电子设备为一种智能音箱，第二电子设备为云服务器为例，该音箱与该云服务器向连接，可相互产生交互。

在音箱播放音乐的过程中，当音箱接收到语音指令“将这首歌的高潮部分的设置为舞蹈音乐”，音箱将这条语音指令和正在播放的第一音频文件转发给云服务器，使云服务器根据这条语音指令对该第一音频文件进行处理。

云服务器在收到该语音指令后，根据该语音指令中包含的场景标识“舞蹈”和片段标识“高潮部分”两条信息，在第一音频文件的“高潮部分”添加片段标识，得到第二音频文件，并将该第二音频文件存储于“舞蹈”场景目录下。

在音箱上设置的“下午两点半的舞蹈闹钟”，该音箱的闹钟的预设时间为“下午两点半”，闹钟使用的场景模式为“舞蹈”，当时间到达下午两点半时，音箱将预设时间和场景模式均发送给云服务器。云服务器接收到该预设时间和场景模式后，在判断出当前时间为预设时间的情况下，根据“舞蹈”场景模式从“舞蹈”场景目录下随机选取一个第二音频文件，并发送给音箱。音箱在接收到该第二音频文件后，接播放该第二音频文件中被标识出的片段。

图4示意性示出了本公开实施例提供的一种音频播放装置的结构框图。

如图4所示，音频播放装置400包括：播放模块410，第一指令发送模块420及获取模块430。该第一电子设备400可执行如图1所描述的方法。

具体的，播放模块410，用于播放第一音频文件。

第一指令发送模块420，用于获取第一指令，并将第一指令及第一音频文件转发至第二电子设备，以使第二电子设备根据第一指令对第一音频文件进行处理，得到第二音频文件，其中，第二音频文件包括片段标识。

获取模块430，用于从第二电子设备获取第二音频文件。

在本实施方式中，在音频播放装置400的播放模块410播放第一音频文件的过程中，当第一指令发送模块420获取到第一指令，第一指令发送模块420将获取到的第一指令及第一音频文件转发至第二电子设备，使第二电子设备根据第一指令对第一音频文件进行处理，得到第二音频文件，当达到音频播放装置400预设时间时，获取模块430从第二电子设备获取第二音频文件，使音频播放装置400播放第二音频文件。

本实施例未尽细节之处，请参阅图1所示实施例的相关描述，在此不再赘述。

可以理解的是，播放模块410、第一指令发送模块420及获取模块430可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，播放模块410、第一指令发送模块420及获取模块430中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，播放模块410、第一指令发送模块420及获取模块430中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

如图5所示，音频播放装置500包括：指令获取模块510，处理模块520及文件发送模块530。该第二电子设备500可执行如图2所描述的方法。

具体的，指令获取模块510，用于获取第一电子设备发送的第一音频文件及第一指令；

处理模块520，用于根据第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，第二音频文件包括片段标识；

文件发送模块530，向第一电子设备发送第二音频文件，以使得第一电子设备根据第二音频文件中的片段标识对第二音频文件进行部分播放。

在本实施方式中，当指令获取模块510获取到第一电子设备发送的第一音频文件及第一指令时，处理模块520根据第一指令对所述第一音频文件进行处理，得到第二音频文件，当第一电子设备的预设时间到达时，文件发送模块530向第一电子设备发送第二音频文件，以使得第一电子设备根据第二音频文件中的片段标识对第二音频文件进行部分播放。

本实施例未尽细节之处，请参阅图2所示实施例的相关描述，在此不再赘述。

可以理解的是，指令获取模块510、处理模块520及文件发送模块530可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，指令获取模块510、处理模块520及文件发送模块530中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，指令获取模块510、处理模块520及文件发送模块530中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的数据处理方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时电可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种音频播放方法，应用于第一电子设备，其特征在于，包括：

播放第一音频文件；

获取第一指令，并将所述第一指令及第一音频文件转发至第二电子设备，以使所述第二电子设备根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；

从所述第二电子设备获取第二音频文件；

其中，所述从所述第二电子设备获取第二音频文件，包括：

向所述第二电子设备发送预设时间；

获取所述第二电子设备发送的所述第二音频文件，所述第二音频文件是在所述第二电子设备判断出当前时间为预设时间时而发送的。

2.根据权利要求1所述的方法，其特征在于，所述从所述第二电子设备获取第二音频文件之后，方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一指令包括场景标识，所述第二电子设备根据该场景标识将所述第二音频文件存储在相应的场景目录下。

4.根据权利要求3所述的方法，其特征在于，从所述第二电子设备获取第二音频文件，包括：

获取当前场景；

根据所述当前场景从所述第二电子设备的相应的场景目录中获取所述第二音频文件。

5.根据权利要求4所述的方法，其特征在于，根据所述当前场景从所述第二电子设备的相应的场景目录中获取所述第二音频文件，包括：

根据所述当前场景从所述第二电子设备的相应的场景目录中的至少一个文件中，随机获取所述第二音频文件。

6.一种音频播放方法，应用于第二电子设备，其特征在于，包括：

获取第一电子设备发送的第一音频文件及第一指令；

根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；

向所述第一电子设备发送所述第二音频文件，以使得所述第一电子设备根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放；

其中，所述向所述第一电子设备发送所述第二音频文件，包括：

获取所述第一电子设备发送的预设时间；

判断当前时间是否为预设时间，若是，则将所述第二音频文件发送至所述第一电子设备。

7.根据权利要求6所述的方法，所述第一指令包括场景标识，其中，方法还包括：

根据该场景标识将所述第二音频文件存储在相应的场景目录下。

8.根据权利要求7所述的方法，其特征在于，向所述第一电子设备发送所述第二音频文件，包括：

获取所述第一电子设备发送的当前场景；

根据所述当前场景将相应的场景目录中的第二音频文件发送至所述第一电子设备。

9.根据权利要求8所述的方法，其特征在于，根据所述当前场景将相应的场景目录中的第二音频文件发送至所述第一电子设备，包括：

10.一种音频播放装置，其特征在于，包括：

播放模块，用于播放第一音频文件；

第一指令发送模块，用于获取第一指令，并将所述第一指令及第一音频文件转发至第二电子设备，以使所述第二电子设备根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；

获取模块，用于从所述第二电子设备获取第二音频文件；

其中，所述获取模块具体用于：

向所述第二电子设备发送预设时间；

11.一种音频播放装置，其特征在于，包括：

指令获取模块，用于获取第一电子设备发送的第一音频文件及第一指令；

处理模块，用于根据所述第一指令对所述第一音频文件进行处理，得到第二音频文件，其中，所述第二音频文件包括片段标识；

文件发送模块，用于向所述第一电子设备发送所述第二音频文件，以使得所述第一电子设备根据所述第二音频文件中的片段标识对所述第二音频文件进行部分播放；

其中，所述文件发送模块具体用于：

获取所述第一电子设备发送的预设时间；

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1～5和/或权利要求6～9所述的方法。