CN113703712A

CN113703712A - 音频处理方法、装置、存储介质及计算机设备

Info

Publication number: CN113703712A
Application number: CN202110315818.2A
Authority: CN
Inventors: 周烨婷; 吴惑
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-11-26

Abstract

本发明实施例公开了一种音频处理方法、装置、存储介质及计算机设备，方法通过显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收触控操作，确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。以此，通过根据触控操作的位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

Description

音频处理方法、装置、存储介质及计算机设备

技术领域

本发明涉及音频处理技术领域，具体涉及一种音频处理方法、装置、存储介质及计算机设备。

背景技术

近年来，随着物质生活水平的逐渐改善，人们越来越重视对于精神层面的享受和追求。而音乐作为一种拥有悠久历史且普及率极高的艺术表现形式，越来越受到人们的喜爱和追捧。

如今，音乐产业已经发展成为一个成熟的产业，各大互联网公司纷纷布局其音乐产业，推出的音乐播放应用程序也层出不穷。

然而，目前的音乐播放应用程序播放功能单一，只能对确定的单个作品进行播放。

发明内容

本发明实施例提供一种音频处理方法、装置、存储介质及计算机设备，该方法可以根据触控操作的位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

本申请第一方面提供一种音频处理方法，包括：

显示交互界面，所述交互界面包括多个显示元素，每一显示元素关联对应的音频文件；

接收触控操作，确定所述触控操作在所述交互界面中对应的目标位置；

获取所述目标位置和所述多个显示元素之间的位置关系；

根据所述位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

相应的，本发明实施例第二方面提供一种音频处理装置，包括：

显示单元，用于显示交互界面，所述交互界面包括多个显示元素，每一显示元素关联对应的音频文件；

接收单元，用于接收触控操作，确定所述触控操作在所述交互界面中对应的目标位置；

获取单元，用于获取所述目标位置和所述多个显示元素之间的位置关系；

播放单元，用于根据所述位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

在一些实施例中，所述接收单元，包括：

第一显示子单元，用于在所述交互界面显示多个预设触控点；

标记子单元，用于响应于对选中的目标预设触控点的触控操作，标记所述目标预设触控点；

第一获取子单元，用于获取所述目标预设触控点的目标位置。

在一些实施例中，所述第一获取子单元，包括：

接收模块，用于接收对所述目标预设触控点的拖动操作；

第一确定模块，用于确定所述拖动操作的终点位置为目标位置。

在一些实施例中，所述接收模块，包括：

显示子模块，用于在所述交互界面显示所述目标预设触控点的推荐拖动轨迹；

接收子模块，用于接收对所述目标预设触控点沿所述推荐拖动轨迹的拖动操作。

在一些实施例中，所述第一显示子单元，包括：

第一获取模块，用于获取预设时间段内所述交互界面接收到的触控操作的操作记录；

第一生成模块，用于根据所述操作记录对应的触控位置在所述交互界面生成多个预设触控点。

在一些实施例中，所述第一获取子单元，包括：

第二获取模块，用于获取重力感应数据，并根据所述重力感应数据生成位移数据；

更新模块，用于根据所述位移数据更新所述目标预设触控点在所述交互界面中的位置；

第二确定模块，用于确定所述目标预设触控点更新后的位置为目标位置。

在一些实施例中，所述接收单元，包括：

检测子单元，用于接收作用于所述交互界面的触控操作，检测所述触控操作的持续时间；

第一确定子单元，用于当所述持续时间达到预设时间时，确定所述触控操作对应的目标位置。

在一些实施例中，所述确定子单元，包括：

第二生成模块，用于在所述交互界面上与所述触控操作对应的位置生成操作控件；

第三确定模块，用于接收对所述操作控件的拖动操作，确定所述拖动操作的终点位置为目标位置。

在一些实施例中，所述接收单元，包括：

提取子单元，用于接收语音数据，从所述语音数据中提取情绪数据；

第一计算子单元，用于获取每个所述显示元素的标签数据，并计算所述情绪数据与每个标签数据的相似度；

第二确定子单元，用于根据所述情绪数据与每个标签数据的相似度在所述交互界面中确定目标位置。

在一些实施例中，所述播放单元，包括：

第二计算子单元，用于根据所述目标位置与所述多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量；

播放子单元，用于将每个显示元素对应的音频文件按照计算得到的音量进行播放。

在一些实施例中，所述第二计算子单元，包括：

第四确定模块，用于确定每个显示元素的中心位置；

计算模块，用于计算每个显示元素的中心位置与所述目标位置之间的距离信息；

第五确定模块，用于根据所述距离信息确定每个显示元素对应的音频文件的播放音量。

在一些实施例中，所述显示单元，包括：

第二获取子单元，用于获取多张图像，并提取出每张图像中的语义信息和对应的显示元素；

第三获取子单元，用于根据所述语义信息获取每张图像关联的音频文件；

组合子单元，用于将提取得到的多个显示元素组合生成显示图像；

第二显示子单元，用于将所述显示图像显示在交互界面中。

本申请实施例第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的音频处理方法中的步骤。

本申请实施例第四方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请第一方面所提供的音频处理方法中的步骤。

本申请实施例第五方面提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行第一方面提供的音频处理方法中的步骤。

本申请实施例提供的音频处理方法，通过显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收触控操作，确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。以此，通过根据触控操作的位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A及图1B是本申请提供的音频处理的场景示意图；

图2是本申请提供的音频处理方法的流程示意图；

图3为本申请中交互界面的一个示意图；

图4为本申请中交互界面的另一示意图；

图5为本申请中交互界面的又一示意图；

图6为本申请中交互界面的又一示意图；

图7为本申请中交互界面的又一示意图；

图8是本申请提供的音频处理方法的另一流程示意图；

图9为本申请中交互界面的又一示意图；

图10是本申请提供的音频处理装置的结构示意图；

图11是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频处理方法、装置、计算机可读存储介质及计算机设备。其中，该音频处理方法可以使用于音频处理装置中。该音频处理装置可以集成在计算机设备中，该计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图1A及1B，为本申请提供的音频处理的场景示意图；如图所示，用户在计算机设备中打开音乐播放应用，在计算机设备的显示界面显示如图1A所示的音乐场景选择界面，在该音乐场景选择界面可以显示多个可供用户选择的音乐场景触控标签，例如安静、活力、搞怪、激情以及放松等。当用户选择了其中任意一个音乐场景后，计算机设备的显示界面便切换显示被选中的音乐场景对应的音乐播放界面。如图1B所示，为选中的音乐场景对应的音乐播放界面。该音乐播放界面可以为交互界面，交互界面包括多个与选中的音乐场景对应的显示元素，例如显示元素1、显示元素2以及显示元素3，且每一显示元素关联对应的音频文件。然后，交互界面可以接收触控操作，并确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素的关联文件进行音频属性调节并播放音频属性调节后的音频文件。

需要说明的是，图1A及1B所示的音频处理的场景示意图仅仅是一个示例，本申请实施例描述的音频处理场景是为了更加清楚地说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知，随着音频处理的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

基于上述实施场景以下分别进行详细说明。

本申请实施例将从音频处理装置的角度进行描述，该音频处理装置可以集成在计算机设备中。其中，计算机设备可以是终端或服务器。如图2所示，为本申请提供的音频处理方法的流程示意图，该方法包括：

步骤101，显示交互界面。

其中，交互界面包括多个显示元素，此处多个可以是两个也可以是更多。或者可以说交互界面包括至少两个显示元素。多个显示元素可以分别显示在交互界面的不同位置，相互之间没有重叠；多个显示元素之间也可以重叠。显示元素可以是静态图像，也可以是动态图像。多个显示元素可以共同显示在一个图层中，也可以是每个显示元素显示在一个图层中，然后将多个图层进行组合得到交互界面，然后再予以显示。如图3所示，为交互界面的一个示意图，具体为多个图层的显示元素合成交互界面的示意图。其中此处交互界面由三个图层合成得到，每个图层具有一个显示元素。第一层显示了显示元素1，第二层显示了显示元素2，第三层显示了显示元素3。在图3中，三个图层合成得到的交互界面中显示元素1、显示元素2分别与显示元素3重叠。此处的三个图层以及每个图层包含一个显示元素仅为示意，交互界面也可以是两个图层或者更多个图层进行合成得到，每个图层可以具有一个显示元素也可以具有多个显示元素。交互界面的显示元素与用户预先选中的音乐场景对应，且每个音乐场景均可以预先设置对应的显示元素。在本申请中，每个显示元素均关联一个对应的音频文件，显示元素与音频文件的对应关系也可以预先设置。例如，当用户选择了“安静”的音乐场景，便会显示“安静”音乐场景对应的交互界面，在该交互界面会显示与“安静”音乐场景对应的显示元素，假设“安静”音乐场景预先设置了与其关联的三个显示元素：显示元素1、显示元素2以及显示元素3；其中显示元素1关联了音频文件1，显示元素2关联了音频文件2，显示元素3关联了音频文件3。

此处预先设置与不同的音乐场景对应的显示元素，以及预先设置与每一显示元素对应的音频文件中的预先设置过程，可以是应用程序开发过程中已经预先设置完成，也可以是用户在应用程序的设置界面进行手动设置。用户在手动设置不同音乐场景对应的显示元素时，可以在音乐场景对应的显示元素库中挑选确定显示元素，用户可以根据自己的需求或喜好确定显示元素的数量，也可以分别设置每个显示元素在交互界面中的显示位置。

用户在手动设置每一显示元素对应的音频文件时，可以在每一显示元素对应的音频文件库中进行挑选确定，一般情况下每个显示元素对应一个音频文件。

在一些实施例中，显示交互界面，交互界面包括多个显示元素，每个显示元素关联对应的音频文件，包括：

1、获取多张图像，并提取出每张图像中的语义信息和对应的显示元素；

2、根据语义信息获取每张图像关联的音频文件；

3、将提取得到的多个显示元素组合生成显示图像；

4、将显示图像显示在交互界面中。

在一些实施例中，用户不仅可以在应用程序的设置界面设置每个音乐场景对应的显示元素以及每个显示元素对应的音频文件，还可以向应用程序中输入图像，以使得音频处理装置根据输入的图像自动确定音乐场景对应的显示元素以及每个显示元素对应的音频文件。音频处理装置可以对用户输入的图像进行图像识别，提取出每张图像中的语义信息以及每个图像对应的显示元素。然后，音频处理装置根据从每张图像中提取出的语义信息从互联网音乐库中获取与语义信息对应的音频文件，并将与语义信息对应的音频文件确定为每张图像关联的音频文件。进而确定每个显示元素对应的音频文件。其中，对用户输入的图像进行图像识别，以提取出每张图像中的语义信息，可以采用计算机视觉技术对图像进行处理。计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

进一步地，从每张图像中提取出显示元素后，可以将从每张图像中提取出的显示元素进行组合，得到显示图像并将显示图像显示在交互界面中。以此，用户只需输入与自定义的音乐场景对应的多张图像，音频处理装置便可根据这些图像自动生成与用户自定义的音乐场景对应的显示元素以及确定与显示元素对应的音频文件，提高了音频处理的效率，也丰富了用户可以体验的音乐场景。

步骤102，接收触控操作，确定触控操作在交互界面中对应的目标位置。

其中，触控操作为用户作用在交互界面上的触控操作。该触控操作可以是点击操作也可以是长按操作；点击操作可以是单击操作也可以是连续点击操作，例如双击或者三连击等。触控操作可以是对交互界面中任意位置的触控操作，也可以是对交互界面中推荐位置的触控操作。当交互界面接收到触控操作时，进一步确定该触控操作对应的目标位置。

在一些实施例中，接收触控操作，确定触控操作在交互界面中对应的目标位置，包括：

1、在交互界面显示多个预设触控点；

2、响应于对选中的目标预设触控点的触控操作，标记目标预设触控点；

3、获取目标预设触控点的目标位置。

其中，在本申请实施例中，可以先在交互界面中显示多个预设触控点，此处多个预设触控点可以是应用程序根据大数据自动推荐的预设触控点，此处大数据可以是应用程序的多个用户预设时间段内在选中音乐场景的交互界面上的触控操作数据，也可以是当前用户在预设时间段内在选中音乐场景的交互界面上的触控操作数据。多个预设触控点也可以是用户根据个人喜好进行自行设置的。如图4所示，为交互界面的另一示意图，具体为在交互界面显示多个预设触控点的示意图，图4中示出了预设触控点1、预设触控点2以及预设触控点3这三个预设触控点。此处设置三个预设触控点仅为示意，具体实施时，也可以设置一个或两个预设触控点，也可以设置更多个预设触控点。在交互界面显示多个预设触控点之后，用户可以点击任意选中的目标预设触控点。当用户点击了目标预设触控点后，可以对目标预设触控点进行标记以突出显示。如图5所示，为交互界面的又一示意图；具体为对选中的目标预设触控点进行标记的示意图。图中预设触控点3为选中的目标预设触控点，于是对预设触控点3进行标记以突出显示。然后可以进一步获取该目标预设触控点的目标位置，例如确定目标预设触控点当前位置为目标位置。

在一些实施例中，获取目标预设触控点的目标位置，包括：

1.1、接收对目标预设触控点的拖动操作；

1.2、确定拖动操作的终点位置为目标位置。

其中，当用户选中了目标预设触控点，对目标预设触控点进行标记后，用户可以通过按住目标预设触控点再进行拖动的方式改变目标预设触控点的位置。如图6所示，为交互界面的又一示意图，具体为目标预设触控点拖动示意图。如图所示，目标预设触控点，即预设触控点3可以在用户拖动操作下进行移动。当用户将目标预设触控点拖动到另一处位置并且在该位置停止时间达到预设时间(例如1秒)时，便可进一步确定该拖动操作停止位置为目标位置。

在一些实施例中，接收对目标预设触控点的拖动操作，包括：

A、在交互界面显示目标预设触控点的推荐拖动轨迹；

B、接收对目标预设触控点沿推荐拖动轨迹的拖动操作。

其中，在本申请实施例中，在检测到用户对目标预设触控点的拖动操作时，可以在交互界面中显示与该目标预设触控点对应的推荐拖动轨迹，用户可以沿该推荐拖动轨迹拖动目标预设触控点。该推荐拖动轨迹可以是根据用户喜好推荐的音乐对应的位置组成的轨迹。如图7所示，为交互界面的又一示意图，具体为在交互界面中显示目标预设触控点的推荐拖动轨迹的示意图，如图所示，预设触控点3可以沿该推荐拖动轨迹进行拖动。在一些实施例中，由于推荐拖动轨迹虽然可以向用户推荐用户喜欢的音乐体验或者是较为流行的音乐体验，但可能用户并不想受推荐拖动轨迹的限制，此时可以再次触控一次目标预设触控点，以使得不再显示推荐拖动轨迹，此时用户便可按住目标预设触控点进行随意拖动。

a、接收作用于交互界面的触控操作，检测触控操作的持续时间；

b、当持续时间达到预设时间时，确定触控操作对应的目标位置。

在一些实施例中，为了防止误触导致播放用户并非用户想要听到的音乐，导致对用户造成不良音乐体验。可以对用户触控交互界面触发音乐播放的触控操作设置持续时间要求，当用户触控交互界面中某一位置但触控时间并未达到预设时间时，可以确定该触控操作为误触控，此时抛弃该触控数据，不获取该触控操作对应的目标位置。于是，当检测到交互界面上接收到触控操作时，便开始对该触控操作的持续时间进行获取，当该持续时间达到一个预设的时间时，才确定该触控操作对应的位置为目标位置，并进一步根据该目标位置确定音乐播放情况。该方法可以避免音乐播放过程中因误触控导致切换音乐播放的情况，从而可以进一步提升用户的音乐体验。

进一步地，当触控操作的持续时间达到预设时间时，可以在触控操作对应的位置生成操作控件，用户还可以长按该操作控件来对产生的操作控件进行拖动操作以调整音乐播放情况。

步骤103，获取目标位置和多个显示元素之间的位置关系。

其中，获取目标位置与多个显示元素之间的位置关系，可以是获取目标位置与每个显示元素对应的矩形框的中心之间的距离，也可以是获取目标位置与每个显示元素对应的矩形框的四个顶点之间的距离。此处每个显示元素对应的矩形框可以为包含显示元素的最小矩形框。

在一些实施例中，获取目标位置与每个显示元素之间的位置关系还可以是确定目标位置是否处于显示元素的显示范围内，当目标位置不处于显示元素的显示范围内时，再获取目标位置距离显示元素对应的矩形框的四个顶点的距离。

获取到目标位置与每个显示元素的位置关系后，再进一步根据目标位置与每个显示元素的位置关系进行音频播放。

步骤104，根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

其中，音频属性可以包括但不限于音频的音量、频率以及音色等。在本申请实施例中，可以是根据位置关系对每一显示元素关联的音频文件的音量进行调节，然后再播放进行音量调节后的音频文件。

在一些实施例中，根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件，包括：

A、根据目标位置与多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量；

B、将每个显示元素对应的音频文件按照计算得到的音量进行播放。

在本申请实施例中，可以根据目标位置与多个显示元素之间的位置关系确定每个显示元素对应的音频文件的播放音量。在计算得到每个音频文件的播放音量后，以计算得到的音量同时对每一音频文件进行播放。例如当计算得到音频文件1的音量增益为1、音频文件2的音量增益为0.5、音频文件3的音量增益为0.5时，则按上述音量增益同时播放音频文件1、音频文件2以及音频文件3。如此，用户不仅能同时体验到多个音频文件同时播放带来的组合体验，而且由于不同的音频文件具有不同的音量增益，可以让用户感觉不同的音频文件是从不同的位置、距离传来的音乐，给用户带来更为立体的音乐体验。

在一些实施例中，根据目标位置与多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量，包括：

a、确定每个显示元素的中心位置；

b、计算每个显示元素的中心位置与目标位置之间的距离信息；

c、根据距离信息确定每个显示元素对应的音频文件的播放音量。

在本申请实施例中，可以根据目标位置与每个显示元素之间的距离来确定每个显示元素对应的音频文件的播放音量。具体地，确定目标位置与每个显示元素之间的距离，可以根据目标位置与每个显示元素的中心位置之间的距离来确定。显示元素的中心位置可以是包含显示元素的最小矩形框的中心位置，此处矩形框一般为边与显示屏幕的边平行的矩形框。在确定了每个显示元素的中心位置与目标位置之间的距离信息后，可以根据该距离信息进一步确定每个显示元素对应的音频文件的播放音量。例如当目标位置距离显示元素1、显示元素2以及显示元素3的距离的比例为1：2：2时，则可以确定音频文件1、音频文件2以及音频文件3的音量增益比例为2：1：1，设音频文件1的音量增益为1，那么音频文件2与音频文件3的音量增益为0.5。

当然，也可以按照其他预设的规则确定每一音频文件的音量。例如，当目标位置处于显示元素1对应的显示范围中，而且与其他显示元素的中心距离均大于某一预设阈值时，则确定音频文件1的音量增益为1，其他音频文件的音量增益为0，即只播放音频文件1，不播放其他音频文件。在一些情况中，当显示元素1的显示范围包含了显示元素2与显示元素3的显示范围时，可以将显示元素1的音量增益设置为1，然后根据目标位置与显示元素2和显示元素3的中心位置之间的距离比分配1个单位的音量增益。例如目标位置和显示元素2的中心位置之间的距离与目标位置和显示元素3的中心位置之间的距离的比为3:2时，则确定音频文件2的音量增益为0.4而音频文件3的音量增益为0.6。

1、接收语音数据，从语音数据中提取情绪数据；

2、获取每个显示元素的标签数据，并计算情绪数据与每个标签数据的相似度；

3、根据情绪数据与每个标签数据的相似度在交互界面中确定目标位置。

其中，在本申请实施例中，不仅可以通过手动触控操作、拖动操作以及重力感应的方式确定控制音频播放的目标位置，还可以通过输入语音信息对目标位置进行确定。

在本申请中，每个显示元素均对应一个标签数据，该标签数据可以是具体场景例如海洋、丛林或乡村；也可以是情绪描述例如孤独、悲伤或悠闲等。当接收到用户输入的语音信息时，可以对用户输入的语音信息中的文字语义以及情绪数据进行获取。然后根据语音信息中的文字数据或情绪数据计算其每一显示元素的标签数据之间的相似度。其中对用户输入的语音信息中的文字语义以及情绪数据进行提取可以采用语音技术进行处理。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

具体例如当显示元素的标签数据分别为海洋、丛林和乡村时，若从语音信息中的文字数据中识别出“好想去海边看看”，那么则确定文字数据与海洋的相似度最高，与其他两个标签的相似度较低，则可以据此确定目标位置在与海洋对应的显示元素区域，具体的目标位置可以根据计算得到的详细相似度值进行确定。再例如当显示元素的标签数据分别为孤独、悲伤和悠闲时，则再识别出语音信息中的情绪数据分别与孤独、悲伤和悠闲的相似度，再进一步根据该相似度确定在交互界面中的目标位置。

根据上述描述可知，本申请实施例提供的音频处理方法，通过显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收触控操作，确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。以此，通过根据触控操作的位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

相应地，本申请实施例将从计算机设备的角度进一步对本申请提供的音频处理方法进行详细的描述，其中计算机设备可以为终端也可以为服务器。如图8所示，为本申请提供的音频处理方法的另一流程示意图，该方法包括：

步骤201，计算机设备接收对目标音乐场景触控标签的触控指令，显示目标音乐场景标签对应的交互界面。

其中，计算机设备装载的应用程序客户端可以在计算机设备的显示界面上显示多个可供选择的音乐场景触控标签，用户可以触控其中任意一个音乐场景触控标签，以进入与该音乐场景触控标签对应的交互界面。例如，计算机设备的显示界面上可以显示“安静”、“活力”以及“放松”等音乐场景触控标签，当用户在计算机设备的显示界面中点击“安静”音乐场景触控标签时，便进入与“安静”音乐场景触控标签对应的交互界面。在该交互界面中，显示预设的与“安静”音乐场景触控标签对应的多个显示元素，此处的多个显示元素均关联了一个预设的音频文件。

步骤202，计算机设备在交互界面中显示多个预设触控点。

其中，当计算机设备接收到用户对任一音乐场景触控标签的触控操作后，进入与选中的音乐场景触控标签对应的交互界面，并在交互界面上显示多个显示元素后。计算机设备进一步在交互界面中显示多个预设触控点。这些多个预设触控点可以是随机设置的也可以是根据用户的音乐喜好生成的。

在一些实施例中，在交互界面显示多个预设触控点，包括：

1、获取预设时间段内交互界面接收到的触控操作的操作记录；

2、根据操作记录对应的触控位置在交互界面生成多个预设触控点。

在本申请实施例中，当进入与用户选中的音乐场景对应的交互界面时，对预设时间段内该交互界面接收到的触控操作的操作记录进行获取。该交互界面中接收到的触控操作的操作记录可以是当前客户端的交互界面中接收到的触控操作的操作记录，也可以是多个客户端中该音乐场景对应的交互界面中接收到的触控操作的操作记录。该多个客户端可以是定位数据处于预设区域内的多个客户端，也可以是用户年龄处于预设年龄段的客户使用的多个客户端，也可以是预设性别的用户使用的多个客户端。在获取到操作记录后，可以根据操作记录确定触控频率最高的几个触控操作对应的触控位置，然后在这些位置生成预设触控点。

步骤203，计算机设备接收对目标预设触控点的触控操作，标记目标预设触控点。

其中，当用户选定了目标预设触控点，并对该目标预设触控点进行触控操作时，计算机设备接收对该目标预设触控点的触控操作，对目标预设触控点进行标记。该标记可以是对目标预设触控点进行颜色显示，以将该目标预设触控点与其他预设触控点进行区分。

步骤204，计算机设备接收对目标预设触控点的拖动操作，确定拖动操作的终点位置为目标位置。

其中，当目标预设触控点接收到用户的点击操作，计算机设备对该目标预设触控点进行标记后，目标预设触控点可以接收用户的拖动操作并根据用户的拖动操作改变其在交互界面中所处的位置。用户可以将目标预设触控点进行随意拖动，也可以按照预设的推荐拖动轨迹对目标预设拖动点进行拖动。当用户对目标预设触控点进行拖动时，实时检测目标预设触控点的位置信息，当检测到目标预设触控点的位置信息在预设时间段内不再发生变化时，则可以确定用户的拖动操作停止，则确定拖动操作停止位置为目标位置。

在一些实施例中，对目标预设触控点的位置进行改变，还可以通过重力感应的方式进行控制。具体如下：

1、获取重力感应数据，并根据重力感应数据生成位移数据；

2、根据位移数据更新目标预设触控点在交互界面中的位置；

3、确定目标预设触控点更新后的位置为目标位置。

其中，在本申请实施例中，当用户在多个预设触控点中选中目标预设触控点并对目标预设触控点进行标记后，可以对计算机设备的重力感应数据进行获取。具体地，计算机设备会内置重力感应装置，该重力感应装置可以是陀螺仪。计算机设备可以从重力感应装置中获取计算机设备的重力感应数据，然后根据该重力感应数据生成位移数据，该位移数据只取映射在计算机设备显示界面上的位移数据即可。在确定了位移数据后，可以根据位移数据对目标预设触控点在交互界面中的位置进行更新。

例如该位移数据为向右位移2个单位长度，向下位移1个单位长度，则将目标预设触控点在交互界面中向右位移2个单位长度，向下位移1个单位长度。此处单位长度为与计算机设备的显示区域呈一定比例的长度，例如可以设置为计算机设备显示区域的长度的二十分之一。对于不同的计算机设备，该单位长度的具体尺寸也不相同。目标预设触控点根据位移数据更新位置信息后，确定更新后的位置信息为目标位置。

在重力感应模式下，当用户旋转或者晃动手机时，可以持续获取重力感应器回传的在x、y以及z轴方向的回传数据。其中x轴方向为计算机设备的显示界面的横向方向，y轴为计算机设备的显示界面的竖向方向，z轴为垂直与计算机设备显示界面的方向。当计算机设备接收到重力感应器回传的数据后，检测两次回传数据之间的时间差是否大于预设时间差，若两次回传数据之间的时间差没有大于预设的时间差，则抛弃该次回传的数据。当回传数据之间的时间差大于预设时间差时，再确定回传的数据精度是否满足预设条件，当回传数据的精度满足预设条件时，根据重力感应器回传的数据计算位移数据，再根据位移数据更新目标预设触控点的位置。

在一些实施例中，交互界面还可以显示模式切换触控图标，该模式切换触控图标具有手动模式和重力感应模式两个模式，当用户点击该模式切换触控图标将模式设置为手动模式时，则可以手动拖动被选中的目标预设触控点以改变目标预设触控点的位置；当用户再次点击模式切换触控图标将模式设置为重力感应模式时，则可以晃动计算机设备以采用计算机设备的重力感应数据对目标预设触控点的位置进行调整。如图9所示，为交互界面的又一示意图，具体为重力感应模式下目标预设触控点位置变化示意图。如图所示，当用户点击预设触控点3确定预设触控点3为目标预设触控点并对预设触控点3进行标记后，当用户点击模式切换控件将调节模式切换为重力感应模式时，计算机设备获取计算机设备的重力感应数据，并根据重力感应数据确定预设触控点3的位移数据。然后根据预设触控点3的位移数据更新预设触控点3的位置，得到目标位置。

在一些实施例中，当用户设置了重力感应模式后，若显示元素为动态图像，则当用户晃动计算机设备时，计算机设备也会根据重力感应数据调整动态图像的显示内容。

步骤205，计算机设备获取目标位置和多个显示元素之间的位置关系。

其中，当确定了目标位置以及多个显示元素的位置信息后，计算机设备对目标位子与每个显示元素之间的位置关系进行确定。此处位置关系可以包括目标位置与每个显示元素对应的显示区域的从属关系以及距离关系。其中从属关系为目标位置是否处于显示元素对应的显示区域中，距离关系为目标位置与每个显示元素的中心之间的距离。

步骤206，计算机设备根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

其中，计算机设备可以根据每个显示元素与目标位置之间的位置关系对每个显示元素对应的音频文件的音量进行调节。一般情况下，距离目标位置越近的显示元素对应的音频文件的音量越大，距离目标位置越远的显示元素对应的音频文件的音量越小。在对每个显示元素的音频文件的音量进行调节后，同时播放这些音量调节之后的音频文件，以使得用户得到立体的音乐体验。

在一些实施例中，可以对每个音频文件进行音量调节后再将这些音频文件合成得到目标音频文件，然后再播放该目标音频文件。

根据上述描述可知，本申请提供的音频处理方法，通过显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收触控操作，确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。以此，通过根据触控操作的位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

为了更好地实施以上方法，本发明实施例还提供一种音频处理装置，该音频处理装置可以集成在服务器中。

例如，如图10所示，为本申请实施例提供的音频处理装置的结构示意图，该音频处理装置可以包括显示单元301、接收单元302、获取单元303以及播放单元304，如下：

显示单元301，用于显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；

接收单元302，用于接收触控操作，确定触控操作在交互界面中对应的目标位置；

获取单元303，用于获取目标位置和多个显示元素之间的位置关系；

播放单元304，用于根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

在一些实施例中，接收单元，包括：

第一显示子单元，用于在交互界面显示多个预设触控点；

标记子单元，用于响应于对选中的目标预设触控点的触控操作，标记目标预设触控点；

第一获取子单元，用于获取目标预设触控点的目标位置。

在一些实施例中，第一获取子单元，包括：

接收模块，用于接收对目标预设触控点的拖动操作；

第一确定模块，用于确定拖动操作的终点位置为目标位置。

在一些实施例中，接收模块，包括：

显示子模块，用于在交互界面显示目标预设触控点的推荐拖动轨迹；

接收子模块，用于接收对目标预设触控点沿推荐拖动轨迹的拖动操作。

在一些实施例中，第一显示子单元，包括：

第一获取模块，用于获取预设时间段内交互界面接收到的触控操作的操作记录；

第一生成模块，用于根据操作记录对应的触控位置在交互界面生成多个预设触控点。

在一些实施例中，第一获取子单元，包括：

第二获取模块，用于获取重力感应数据，并根据重力感应数据生成位移数据；

更新模块，用于根据位移数据更新目标预设触控点在交互界面中的位置；

第二确定模块，用于确定目标预设触控点更新后的位置为目标位置。

在一些实施例中，接收单元，包括：

检测子单元，用于接收作用于交互界面的触控操作，检测触控操作的持续时间；

第一确定子单元，用于当持续时间达到预设时间时，确定触控操作对应的目标位置。

在一些实施例中，确定子单元，包括：

第二生成模块，用于在交互界面上与触控操作对应的位置生成操作控件；

第三确定模块，用于接收对操作控件的拖动操作，确定拖动操作的终点位置为目标位置。

在一些实施例中，接收单元包括：

提取子单元，用于接收语音数据，从语音数据中提取情绪数据；

第一计算子单元，用于获取每个显示元素的标签数据，并计算情绪数据与每个标签数据的相似度；

第二确定子单元，用于根据情绪数据与每个标签数据的相似度在交互界面中确定目标位置。

在一些实施例中，播放单元，包括：

第二计算子单元，用于根据目标位置与多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量；

在一些实施例中，第二计算子单元，包括：

第四确定模块，用于确定每个显示元素的中心位置；

计算模块，用于计算每个显示元素的中心位置与目标位置之间的距离信息；

第五确定模块，用于根据距离信息确定每个显示元素对应的音频文件的播放音量。

在一些实施例中，显示单元，包括：

第三获取子单元，用于根据语义信息获取每张图像关联的音频文件；

第二显示子单元，用于将显示图像显示在交互界面中。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例提供的音频处理装置，通过显示单元301显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收单元302接收触控操作，确定触控操作在交互界面中对应的目标位置；获取单元303获取目标位置和多个显示元素之间的位置关系；播放单元304根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。以此，通过根据触控操作的不同位置信息对多个音频的属性进行调节，从而实现多样化的音频播放，进而提高了音频播放的多样性。

本申请实施例还提供一种计算机设备，该计算机设备可以为终端也可以为服务器，如图11所示，为本申请提供的计算机设备的结构示意图。具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图11中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及音频处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

显示交互界面，交互界面包括多个显示元素，每一显示元素关联对应的音频文件；接收触控操作，确定触控操作在交互界面中对应的目标位置；获取目标位置和多个显示元素之间的位置关系；根据位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件。

应当说明的是，本申请实施例提供的计算机设备与上文实施例中的音频处理方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或者图8的各种可选实现方式中提供的音频处理方法。

以上对本发明实施例所提供的一种音频处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取所述目标位置和所述多个显示元素之间的位置关系；

2.根据权利要求1所述的方法，其特征在于，所述接收触控操作，确定所述触控操作在所述交互界面中对应的目标位置，包括：

在所述交互界面显示多个预设触控点；

响应于对选中的目标预设触控点的触控操作，标记所述目标预设触控点；

获取所述目标预设触控点的目标位置。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标预设触控点的目标位置，包括：

接收对所述目标预设触控点的拖动操作；

确定所述拖动操作的终点位置为目标位置。

4.根据权利要求3所述的方法，其特征在于，所述接收对所述目标预设触控点的拖动操作，包括：

在所述交互界面显示所述目标预设触控点的推荐拖动轨迹；

接收对所述目标预设触控点沿所述推荐拖动轨迹的拖动操作。

5.根据权利要求2所述的方法，其特征在于，所述在所述交互界面显示多个预设触控点，包括：

获取预设时间段内所述交互界面接收到的触控操作的操作记录；

根据所述操作记录对应的触控位置在所述交互界面生成多个预设触控点。

6.根据权利要求2所述的方法，其特征在于，所述获取所述目标预设触控点的目标位置，包括：

获取重力感应数据，并根据所述重力感应数据生成位移数据；

根据所述位移数据更新所述目标预设触控点在所述交互界面中的位置；

确定所述目标预设触控点更新后的位置为目标位置。

7.根据权利要求1所述的方法，其特征在于，所述接收触控操作，确定所述触控操作在所述交互界面中对应的目标位置，包括：

接收作用于所述交互界面的触控操作，检测所述触控操作的持续时间；

当所述持续时间达到预设时间时，确定所述触控操作对应的目标位置。

8.根据权利要求7所述的方法，其特征在于，所述确定所述触控操作对应的目标位置，包括：

在所述交互界面上与所述触控操作对应的位置生成操作控件；

接收对所述操作控件的拖动操作，确定所述拖动操作的终点位置为目标位置。

9.根据权利要求1所述的方法，其特征在于，所述接收触控操作，确定所述触控操作在所述交互界面中对应的目标位置，包括：

接收语音数据，从所述语音数据中提取情绪数据；

获取每个所述显示元素的标签数据，并计算所述情绪数据与每个标签数据的相似度；

根据所述情绪数据与每个标签数据的相似度在所述交互界面中确定目标位置。

10.根据权利要求1所述的方法，其特征在于，所述根据所述位置关系对每一显示元素关联的音频文件进行音频属性调节并播放音频属性调节后的音频文件，包括：

根据所述目标位置与所述多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量；

将每个显示元素对应的音频文件按照计算得到的音量进行播放。

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标位置与所述多个显示元素之间的位置关系，计算每个显示元素对应的音频文件的播放音量，包括：

确定每个显示元素的中心位置；

计算每个显示元素的中心位置与所述目标位置之间的距离信息；

根据所述距离信息确定每个显示元素对应的音频文件的播放音量。

12.根据权利要求1所述的方法，其特征在于，所述显示交互界面，所述交互界面包括多个显示元素，每个所述显示元素关联对应的音频文件，包括：

获取多张图像，并提取出每张图像中的语义信息和对应的显示元素；

根据所述语义信息获取每张图像关联的音频文件；

将提取得到的多个显示元素组合生成显示图像；

将所述显示图像显示在交互界面中。

13.一种音频处理装置，其特征在于，所述装置包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12中任一项所述的音频处理方法中的步骤。

15.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的音频处理方法。