CN116938915A

CN116938915A - 音频交互方法、装置、系统、存储介质及终端

Info

Publication number: CN116938915A
Application number: CN202210374856.XA
Authority: CN
Inventors: 叶敏
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-10-24

Abstract

本申请实施例提供一种音频交互方法、装置、系统、存储介质及终端，该方法包括：录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；在生成每一音频数据包后，直接将生成的音频数据包上传至云服务器，触发云服务器在接收到每个音频数据包后直接进行数据处理，生成处理后音频；从云服务器获取处理后音频中的首段音频以及处理后音频对应的获取地址；播放部分音频，以及基于获取地址从处理后音频中获取首段音频之后的其它音频段进行播放。本申请实施例能够支持从终端到云端一边录音频一边上传，同时也支持从云端到终端一边生成音频一边发送给终端播放，保证了终端设备和云端之间具有高效的音频交互。

Description

音频交互方法、装置、系统、存储介质及终端

技术领域

本申请涉及云计算通信领域，特别涉及一种音频交互方法、装置、系统、存储介质及终端。

背景技术

随着计算机、通信、微电子技术的高速发展，物联网已经逐步融入到人们生活中的方方面面，“万物互联”正在一步步成为现实，并由此产生巨大的经济效益与社会效益。

互联网催生了终端设备的逐步智能化，我们生活中用到的许多设备，已经开始具备一定的与用户交互的能力。如：手表、手机、电视和空调等。语音交互是终端设备智能化的一个重要方向，而音频处理则是语音交互实现的基础。因此，保证终端设备和云端之间具有高效的音频交互，尤为重要。

发明内容

本申请实施例提供一种音频交互方法、装置、系统、存储介质及终端，能够保证终端设备和云端之间具有高效的音频交互。

本申请实施例提供一种音频交互方法，所述方法应用于终端，所述方法包括：

录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；

在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；

从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址；

播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放。

在本实施例所述的音频交互方法中，所述录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包，包括：

录制外部的音频信息；

在录制的过程中，按照预设的打包方式和加密方式对所述录制的音频信息进行打包、加密并压缩，依次生成多个音频数据包。

在本实施例所述的音频交互方法中，所述录制外部的音频信息时，还包括：

生成与云服务器建立本次音频交互的唯一标识，并在将生成的第一个所述音频数据包上传至云服务器的同时，将所述唯一标识上传至云服务器保存，其中，所述唯一标识用于给所述云服务器识别在第一个所述音频数据包上传后上传的所述音频数据包是否为所述本次音频交互的音频数据包。

在本实施例所述的音频交互方法中，所述将所述唯一标识上传至云服务器保存的同时，还包括：

将所述本次音频交互的握手信息发送给云服务器，所述握手信息用于给云服务器确认与其建立所述本次音频交互的终端是否正确。

录制外部的音频信息；

当检测到录制到的所述音频信息超过单个音频数据包的约定值时，将所述音频信息打包成音频数据包，依次生成多个音频数据包。

本申请实施例还提供一种音频交互方法，所述方法应用于云服务器，所述方法包括：

依次接收终端发送的多个音频数据包；

在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频；

存储所述处理后音频，并获取所述处理后音频存储后的获取地址；

从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端；

接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。

在本实施例所述的音频交互方法中，所述依次接收终端发送的多个音频数据包之后，还包括：

将所述终端上传的本次音频交互的唯一标识和本次音频交互的握手信息进行存储，以便后续基于所述唯一标识识别在第一个所述音频数据包上传后上传的所述音频数据包是否为所述本次音频交互的音频数据包，以及基于所述握手信息确认与其建立所述本次音频交互的终端是否正确。

在本实施例所述的音频交互方法中，所述在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频，包括：

在接收到每个所述音频数据包后，基于所述握手信息，对所述音频数据包进行数据处理，生成处理后音频。

本申请实施例还提供一种音频交互装置，所述装置应用于终端，所述装置包括：

录制模块，用于录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；

上传模块，用于在生成每个所述音频数据包后，将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后进行数据处理，生成处理后音频；

获取模块，用于从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址；

播放模块，用于播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放。

本申请实施例还提供一种音频交互装置，所述装置应用于云服务器，所述装置包括：

接收模块，用于依次接收终端发送的多个音频数据包；

处理模块，用于在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频；

存储模块，用于存储所述处理后音频，并获取所述处理后音频存储后的获取地址；

第一发送模块，用于从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端；

第二发送模块，用于接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。

本申请实施例还提供一种音频交互系统，包括终端和云服务器，其中：

所述终端，用于录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放；

所述云服务器，用于依次接收终端发送的多个音频数据包；在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频；存储所述处理后音频，并获取所述处理后音频存储后的获取地址；从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端；接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例所述的音频交互方法。

本申请实施例还提供一种终端，所述终端包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行上述任一实施例所述的音频交互方法。

本申请实施例通过在终端录制外部音频信息的过程中，基于录制的音频信息依次生成多个音频数据包，并在生成每一个音频数据包后，马上将生成的音频数据包上传至云服务器，触发云服务器在接收到该音频数据包后马上对该音频数据包进行数据处理，生成处理后音频。当终端上传完所有的音频数据包后，由于云服务器在终端录制外部音频的时候已经对终端上传的部分音频数据包进行处理，因此，此时终端可以直接从云服务器获取处理后音频中的首段音频以及处理后音频对应的获取地址，然后播放首段音频，以及基于获取地址从处理后音频中获取首段音频之后的其它音频段进行播放。一方面可以支持终端一边录音频一边上传给云端，另一方面可以支持云端一边对音频进行处理一边发送给终端播放，由于去掉了终端在发送完所有音频数据包给云服务器后，还要等待云服务器对音频数据包进行处理完才能获取处理后音频进行播放的时间，所以保证了终端设备和云端之间具有高效的音频交互。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用于终端的音频交互方法的流程示意图。

图2为本申请实施例提供的用于云服务器的音频交互方法的流程示意图。

图3为本申请实施例提供的用于终端的音频交互装置的结构示意图。

图4为本申请实施例提供的用于云服务器的音频交互装置的结构示意图。

图5为本申请实施例提供的用于终端的音频交互装置的另一结构示意图。

图6为本申请实施例提供的用于云服务器的音频交互装置的另一结构示意图。

图7为本申请实施例提供的终端的结构示意图。

图8为本申请实施例提供的音频交互系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频交互方法，所述音频交互方法可以应用于终端设备中。所述终端设备可以是智能手机、平板电脑等设备。

请参阅图1，图1为本申请实施例提供的音频交互方法的流程示意图。所述音频交互方法，应用于终端中，终端可以是智能手机、平板电脑等设备，所述方法可以包括以下步骤：

步骤101，录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包。

其中，外部的音频信息可以是终端用户的说话声，即用户可以通过语音对终端输入自然语言。

其中，终端录制音频信息的过程中，当录制的音频信息大小达到单个音频数据包的预设值(例如：16K)时，音频信息会被打包成一个音频数据包，从而能够依次生成多个音频数据包。例如，终端录制的音频信息完整状态时大小为64k，则终端在开始录制到16k时，将生成第一个音频数据包(0K至16K)，在开始录制到32k时，将生成第二个音频数据包(16K至32K)，在开始录制到48k时，将生成第三个音频数据包(32K至48K)，在开始录制到64k时，将生成第四个音频数据包(48K至64K)。

步骤102，在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频。

其中，每个音频数据包都标识有一个编号。例如，第一个音频数据包编号为01，第二个音频数据包编号为02，第三个音频数据包编号为03，第四个音频数据包编号为04等等，该编号用于表示音频数据包的生成顺序(生成顺序为01-02-03-04)，终端发送的音频数据包的顺序是按照音频数据包的生成顺序进行发送的。但由于网络延迟的存在，云服务器收到的音频数据包的顺序可能会乱序，因此，云服务器会对收到的音频数据包按照该编号进行重排序，并按编号对收到的音频数据包进行数据处理。

其中，终端在生成第一个音频数据包后，一边录制外部的音频信息，以生成第二个音频数据包，一边将生成的第一个音频数据包上传至云服务器，云服务器在接收到终端发送的第一个音频数据包后，直接对第一个音频数据包进行处理，以得到第一个音频数据包对应的处理后音频。同理，终端在生成第二个音频数据包后，一边录制外部的音频信息，以生成第三个音频数据包，一边将生成的第二个音频数据包上传至云服务器，云服务器在接收到终端发送的第二个音频数据包后，直接对第二个音频数据包进行处理，以得到第二个音频数据包对应的处理后音频。同理，第三、第四、…、第N个音频数据包也是以此种方式上传和处理。

步骤103，从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容。

步骤104，播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放

其中，由于云服务器处理音频数据包是需要时间的，尤其是当音频数据包较多数据量较大时，为了让终端能够尽快播放处理后音频，云服务器会首先返回首段音频(处理器已经处理过)给终端播放，同时返回处理后音频对应的获取地址，当终端在播放完首段音频后，云服务器又处理完了一批音频数据包，因此，终端此时可以按照该获取地址向云服务器获取后续的处理音频进行播放，不需要等待。

在一些实施例中，所述录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包，包括：

录制外部的音频信息；

其中，可以预先设置音频信息的打包方式和加密方式，从而在录制的过程中，以预设的打包方式和加密方式对所录制的音频信息进行打包、加密并压缩，依次生成多个音频数据包。

在一些实施例中，所述录制外部的音频信息时，还包括：

例如，终端在将生成的第一个音频数据包(0K至16K)上传至云服务器的同时，将该唯一标识上传至云服务器让云服务器保存，云服务器通过该唯一标识来识别终端后续上传的第二个音频数据包(16K至32K)、第三个音频数据包(32K至48K)和第四个音频数据包(48K至64K)是否为本次音频交互的音频数据包。

在一些实施例中，所述将所述唯一标识上传至云服务器保存的同时，还包括：

其中，握手信息可以包括终端设备的基本信息、音频交互配置的id号、音频数据包的压缩方式和加密方式。其中，终端设备的基本信息用于给云服务器进行设备校验，确保该终端设备是预设的终端设备。音频交互配置的id号用于给云服务器获取动态配置，比如音频的方言、比特率、编码等，以便对音频数据包进行处理(云服务器识别用户意图时，需要将音频翻译为文本，这样才能做出合适的处理。比如：用户说“我要看猫和老鼠”，云服务器收到的是一段音频，则需要先把音频翻译成文字，这时候需要知道音频的方言、码率等，才能正确翻译)。音频数据包的压缩方式和加密方式用于给云服务器对接收到的音频数据包进行解压缩和解密，因为整个音频交互过程中，是可以通过多次http请求来实现，不需要http长连接。

其中，该握手信息是和第一个音频数据包以及唯一标识一起上传至云服务器的，当终端上传除第一个音频数据包之后的其它音频数据包(第二音频数据包、第三音频数据包、第四音频数据包等等)时，不需要同时再上传握手信息，只需要附带唯一标识即可，云服务器只需通过唯一标识来识别终端后续上传的音频数据包(第二音频数据包、第三音频数据包、第四音频数据包等等)是否为本次音频交互的音频数据包即可，大大减少了云服务器的校验流程和校验时间。

请参阅图2，图2为本申请实施例提供的音频交互方法的流程示意图。所述音频交互方法，应用于云服务器中，所述方法可以包括以下步骤：

步骤201，依次接收终端发送的多个音频数据包。

步骤202，在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频。

由于接收到的多个音频数据包之间是有时间间隔的，可能在接收到第一个音频数据包很多秒后才接收到第二个音频数据包，因此，云服务器将先对第一个音频数据包进行处理，而不是等接收到第二个音频数据包后才同时对第一个音频数据包和第二个音频数据包进行处理。例如，在接收到第一个音频数据包后，马上对第一个音频数据包进行处理，生成第一个音频数据包的处理后音频，同时在接收到第二个音频数据包后，马上对第二个音频数据包进行处理，生成第二个音频数据包的处理后音频，直到处理完所有收到的音频数据包，生成总的处理后音频。

步骤203，存储所述处理后音频，并获取所述处理后音频存储后的获取地址。

其中，在生成处理后音频音频后，需要对处理后音频进行存储，以便终端能够从云服务器获取。

步骤204，从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端。

步骤205，接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。

其中，由于处理音频数据包是需要时间的，尤其是当音频数据包较多数据量较大时，为了让终端能够尽快播放处理后音频，云服务器会首先返回首段音频(处理器已经处理过)给终端播放，同时返回处理后音频对应的获取地址，当终端在播放完首段音频后，云服务器又处理完了一批音频数据包，因此，终端此时可以按照该获取地址向云服务器获取后续的处理音频进行播放，不需要等待。

在一些实施例中，所述依次接收终端发送的多个音频数据包之后，还包括：

其中，存储该唯一标识是为了能够直接通过该唯一标识来识别终端后续上传的第二个音频数据包、第三个音频数据包和第四个音频数据包是否为本次音频交互的音频数据包。其中，握手信息可以包括终端设备的基本信息，云服务器可以通过终端设备的基本信息进行设备校验，确保该终端设备是预设的终端设备。

在一些实施例中，所述握手信息包括终端设备的基本信息，所述将所述终端上传的本次音频交互的唯一标识和本次音频交互的握手信息进行存储之前，还包括：

判断所述终端设备的基本信息是否正确。

在一些实施例中，所述存储所述处理后音频，并获取所述处理后音频存储后的获取地址，包括：

若所述终端设备的基本信息正确，则存储所述处理后音频，并获取所述处理后音频存储后的获取地址。

在一些实施例中，所述在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频，包括：

在一些实施例中，所述在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频，还包括：

对所述音频数据包进行重排序，生成处理后音频。

其中，由于网络延迟的存在，云服务器收到的音频数据包的顺序可能会乱序，因此，云服务器会对收到的音频数据进行重排序，以生成处理后音频。

其中，握手信息可以包括音频交互配置的id号、音频数据包的压缩方式和加密方式。云服务器可以通过音频交互配置的id号获取动态配置，比如音频的方言、比特率、编码等，以便对音频数据包进行处理(云服务器识别用户意图时，需要将音频翻译为文本，这样才能做出合适的处理。比如：用户说“我要看猫和老鼠”，云服务器收到的是一段音频，则需要先把音频翻译成文字，这时候需要知道音频的方言、码率等，才能正确翻译)。云服务器可以通过音频数据包的压缩方式和加密方式对接收到的音频数据包进行解压缩和解密，因为整个音频交互过程中，是可以通过多次http请求来实现，不需要http长连接。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的音频交互方法通过在终端录制外部音频信息的过程中，基于录制的音频信息依次生成多个音频数据包，并在生成每个音频数据包后，马上将生成的音频数据包上传至云服务器，触发云服务器在接收到该音频数据包后马上对该音频数据包进行数据处理，生成处理后音频。当终端上传完所有的音频数据包后，由于云服务器在终端录制外部音频的时候已经对终端上传的部分音频数据包进行处理，因此，此时终端可以直接从云服务器获取处理后音频中的首段音频以及处理后音频对应的获取地址，然后播放首段音频，以及基于获取地址从处理后音频中获取首段音频之后的其它音频段进行播放。一方面可以支持终端一边录音频一边上传给云端，另一方面可以支持云端一边对音频进行处理一边发送给终端播放，由于去掉了终端在发送完所有音频数据包给云服务器后，还要等待云服务器对音频数据包进行处理完才能获取处理后音频进行播放的时间，所以保证了终端设备和云端之间具有高效的音频交互。

本申请实施例还提供一种音频交互装置，所述音频交互装置可以集成在终端设备中。所述终端设备可以是智能手机、平板电脑等设备。

请参阅图3，图3为本申请实施例提供的音频交互装置的结构示意图，所述装置应用于终端。音频交互装置30可以包括：

录制模块31，用于录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；

上传模块32，用于在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；

获取模块33，用于从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；

播放模块34，用于播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放。

在一些实施例中，所述录制模块31，用于录制外部的音频信息；在录制的过程中，按照预设的打包方式和加密方式对所述录制的音频信息进行打包、加密并压缩，依次生成多个音频数据包。

在一些实施例中，所述录制模块31，用于录制外部的音频信息；当检测到录制到的所述音频信息超过单个音频数据包的约定值时，将所述音频信息打包成音频数据包，依次生成多个音频数据包。

在一些实施例中，所述上传模块32，用于将所述唯一标识上传至云服务器保存，其中，所述唯一标识用于给所述云服务器识别在第一个所述音频数据包上传后上传的所述音频数据包是否为所述本次音频交互的音频数据包。。

在一些实施例中，所述上传模块32，用于将所述本次音频交互的握手信息发送给云服务器，所述握手信息用于给云服务器确认与其建立所述本次音频交互的终端是否正确，以及基于所述握手信息对接收到的每个所述音频数据包进行数据处理。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。

由上可知，本申请实施例提供的音频交互装置30，通过录制模块31录制外部的音频信息，并在录制过程中基于录制的音频信息依次生成多个音频数据包；通过上传模块32在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；通过获取模块33从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；通过播放模块34播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放。本申请实施例能够保证终端设备和云端之间具有高效的音频交互。

请参阅图4，图4为本申请实施例提供的音频交互装置的结构示意图，所述装置应用于云服务器。音频交互装置40可以包括：

接收模块41，用于依次接收终端发送的多个音频数据包；

处理模块42，用于在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频；

存储模块43，用于存储所述处理后音频，并获取所述处理后音频存储后的获取地址；

第一发送模块44，用于从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端；

第二发送模块45，用于接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。

在一些实施例中，所述处理模块42，用于在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频。

在一些实施例中，所述存储模块43，用于将所述终端上传的本次音频交互的唯一标识和本次音频交互的握手信息进行存储，以便后续基于所述唯一标识识别在第一个所述音频数据包上传后上传的所述音频数据包是否为所述本次音频交互的音频数据包，以及基于所述握手信息确认与其建立所述本次音频交互的终端是否正确。

由上可知，本申请实施例提供的音频交互装置40，通过接收模块41依次接收终端发送的多个音频数据包；在接收到每个所述音频数据包后，通过处理模块42对所述音频数据包进行数据处理，生成处理后音频；通过存储模块43存储所述处理后音频，并获取所述处理后音频存储后的获取地址；通过第一发送模块44从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端；通过第二发送模块45接收所述终端发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端。本申请实施例能够保证终端设备和云端之间具有高效的音频交互。

请参阅图5和图6，图5和图6为本申请实施例提供的音频交互装置的另一结构示意图，音频交互装置30或音频交互装置40包括存储器120、一个或多个处理器180、以及一个或多个应用程序，其中该一个或多个应用程序被存储于该存储器120中，并配置为由该处理器180执行；该处理器180可以包括录制模块31，上传模块32，获取模块33，以及播放模块34，或者，该处理器180可以包括接收模块41，处理模块42，存储模块43，第一发送模块44，以及第二发送模块45。例如，以上各个部件的结构和连接关系可以如下：

存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序，从而执行各种功能应用以及数据处理。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180对存储器120的访问。

处理器180是装置的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的应用程序，以及调用存储在存储器120内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

具体在本实施例中，处理器180会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中，并由处理器180来运行存储在存储器120中的应用程序，从而实现各种功能：

在一些实施例中，所述上传模块32，用于将所述本次音频交互的握手信息发送给云服务器，所述握手信息用于给云服务器确认与其建立所述本次音频交互的终端是否正确。或者：

接收模块41，用于依次接收终端发送的多个音频数据包；

本申请实施例还提供一种终端。所述终端可以是智能手机、平板电脑等设备。

请参阅图7，图7示出了本申请实施例提供的终端的结构示意图，该终端可以用于实施上述实施例中音频交互方法。该终端1200可以为智能手机或平板电脑。

如图7所示，终端1200可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解，图7中示出的终端1200结构并不构成对终端1200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他终端进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他终端进行通讯。

存储器120可用于存储软件程序以及模块，如上述实施例中音频交互方法对应的程序指令/模块，处理器180通过运行存储在存储器120内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器120可进一步包括相对于处理器180远程设置的存储器，这些远程存储器可以通过网络连接至终端1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入终端132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入终端132。具体地，其他输入终端132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1200的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图7中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端1200还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端1200移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端1200的通信。

终端1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了传输模块170，但是可以理解的是，其并不属于终端1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端1200的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端1200的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；在一些实施例中，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端1200还包括给各个部件供电的电源190(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，终端1200的显示单元140是触摸屏显示器，终端1200还包括有存储器120，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器120中，且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令：

在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；

从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；

在一些实施例中，处理器180用于录制外部的音频信息；在录制的过程中，按照预设的打包方式和加密方式对所述录制的音频信息进行打包、加密并压缩，依次生成多个音频数据包。

在一些实施例中，处理器180用于生成与云服务器建立本次音频交互的唯一标识，并在将生成的第一个所述音频数据包上传至云服务器的同时，将所述唯一标识上传至云服务器保存，其中，所述唯一标识用于给所述云服务器识别在第一个所述音频数据包上传后上传的所述音频数据包是否为所述本次音频交互的音频数据包。

在一些实施例中，处理器180用于将所述本次音频交互的握手信息发送给云服务器，所述握手信息用于给云服务器确认与其建立所述本次音频交互的终端是否正确。

由上可知，本申请实施例提供了一种终端1200，所述终端1200执行以下步骤：录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放。本申请实施例通过在终端录制外部音频信息的过程中，基于录制的音频信息依次生成多个音频数据包，并在生成每个音频数据包后，马上将生成的音频数据包上传至云服务器，触发云服务器在接收到该音频数据包后马上对该音频数据包进行数据处理，生成处理后音频。当终端上传完所有的音频数据包后，由于云服务器在终端录制外部音频的时候已经对终端上传的部分音频数据包进行处理，因此，此时终端可以直接从云服务器获取处理后音频中的首段音频以及处理后音频对应的获取地址，然后播放首段音频，以及基于获取地址从处理后音频中获取首段音频之后的其它音频段进行播放。一方面可以支持终端一边录音频一边上传给云端，另一方面可以支持云端一边对音频进行处理一边发送给终端播放，由于去掉了终端在发送完所有音频数据包给云服务器后，还要等待云服务器对音频数据包进行处理完才能获取处理后音频进行播放的时间，所以保证了终端设备和云端之间具有高效的音频交互。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的音频交互方法。

请参阅图8，图8为本申请实施例提供的音频交互系统的结构示意图，所述音频交互系统包括终端1200和云服务器1300，其中：

所述终端1200，用于录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包；在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器1300，触发所述云服务器1300在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；从所述云服务器1300获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；播放所述首段音频，以及基于所述获取地址从所述处理后音频中获取所述首段音频之后的其它音频段进行播放；

所述云服务器1300，用于依次接收终端1200发送的多个音频数据包；在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频；存储所述处理后音频，并获取所述处理后音频存储后的获取地址；从所述处理后音频中获取首段音频，将所述首段音频和所述获取地址发送给终端1200；接收所述终端1200发送包括所述获取地址的音频获取指令，基于所述获取地址获取所述首段音频之后的其它音频段，将所述其它音频段发送给所述终端1200。

需要说明的是，对本申请所述音频交互方法而言，本领域普通测试人员可以理解实现本申请实施例所述音频交互方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述振动调节方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储器(ROM，Read OnlyMemory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频交互装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的音频交互方法、装置、系统、存储介质及终端进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频交互方法，其特征在于，所述方法应用于终端，所述方法包括：

2.如权利要求1所述的音频交互方法，其特征在于，所述录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包，包括：

录制外部的音频信息；

3.如权利要求1所述的音频交互方法，其特征在于，所述录制外部的音频信息时，还包括：

4.如权利要求3所述的音频交互方法，其特征在于，所述将所述唯一标识上传至云服务器保存的同时，还包括：

5.如权利要求1所述的音频交互方法，其特征在于，所述录制外部的音频信息，在录制过程中基于录制的音频信息依次生成多个音频数据包，包括：

录制外部的音频信息；

6.一种音频交互方法，其特征在于，所述方法应用于云服务器，所述方法包括：

依次接收终端发送的多个音频数据包；

7.如权利要求6所述的音频交互方法，其特征在于，所述依次接收终端发送的多个音频数据包之后，还包括：

8.如权利要求7所述的音频交互方法，其特征在于，所述在接收到每个所述音频数据包后，对所述音频数据包进行数据处理，生成处理后音频，包括：

9.一种音频交互装置，其特征在于，所述装置应用于终端，所述装置包括：

上传模块，用于在生成每一所述音频数据包后，直接将生成的所述音频数据包上传至云服务器，触发所述云服务器在接收到每个所述音频数据包后直接进行数据处理，生成处理后音频；

获取模块，用于从所述云服务器获取所述处理后音频中的首段音频以及所述处理后音频对应的获取地址，其中，所述首段音频对应终端在录制过程中生成的第一个音频数据包中的部分音频内容或全部音频内容；

10.一种音频交互装置，其特征在于，所述装置应用于云服务器，所述装置包括：

接收模块，用于依次接收终端发送的多个音频数据包；

处理模块，用于在接收到每一所述音频数据包后，直接对接收到的所述音频数据包进行数据处理，生成处理后音频；

11.一种音频交互系统，其特征在于，包括终端和云服务器，其中：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至8任一项所述的音频交互方法。

13.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1至8任一项所述的音频交互方法。