CN112672207B

CN112672207B - 音频数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112672207B
Application number: CN202011607083.2A
Authority: CN
Inventors: 方依云
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-07-21
Anticipated expiration: 2040-12-30
Also published as: CN112672207A

Abstract

本申请实施例提供一种音频数据处理方法、装置、计算机设备及存储介质。该方法包括：获取初始音频数据；在识别出初始音频数据中包括指定关键词时，获取指定关键词对应的变声参数；基于指定关键词在初始音频数据中确定待变声音频片段；通过指定关键词对应的变声参数对待变声音频片段进行变声处理，得到变声音频数据。本申请实施例提供的技术方案，由于变声参数是由计算机设备基于指定关键词来选择的，上述过程无需用户参与，因此能更快确定出变声参数，并且确定出的变声参数不受人工经验限制，在提高变声效率的同时，提升变声效果。

Description

音频数据处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，特别涉及一种音频数据处理方法、装置、计算机设备及存储介质。

背景技术

在直播过程中，计算机设备会采集音频片段。对上述音频片段进行变声处理是音频数据处理的应用之一。

相关技术提供的音频数据处理方法如下：计算机设备提供有声音选项，比如儿童、男孩、卡通、女孩等等，用户在上述声音选项中选择自身所期望的声音，之后计算机设备按照用户选择的声音选项对音频片段进行变声处理。

相关技术中，对音频片段进行变声处理需要用户手动选择声音选项，导致音频数据处理效率低下。

发明内容

本申请实施例提供一种音频数据处理方法、装置、计算机设备及存储介质。所述技术方案如下：

一方面，本申请实施例提供一种音频数据处理方法，所述方法包括：

获取初始音频数据；

在识别出所述初始音频数据中包括指定关键词时，获取所述指定关键词对应的变声参数；

基于所述指定关键词在所述初始音频数据中确定待变声音频片段；

通过所述指定关键词对应的变声参数对所述待变声音频片段进行变声处理，得到变声音频数据。

另一方面，本申请实施例提供一种音频数据处理装置，所述装置包括：

数据获取模块，用于获取初始音频数据；

参数获取模块，用于在识别出所述初始音频数据中包括指定关键词时，获取所述指定关键词对应的变声参数；

片段确定模块，用于基于所述指定关键词在所述初始音频数据中确定待变声音频片段；

变声处理模块，用于通过所述指定关键词对应的变声参数对所述待变声音频片段进行变声处理，得到变声音频数据。

又一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如一方面所述的音频数据处理方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如一方面所述的音频数据处理方法。

又一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频数据处理方法。

本申请实施例提供的技术方案可以带来的有益效果至少包括：

通过在识别出初始音频片段中包括指定关键词时，在待变声音频片段中确定待变声音频片段以及相应的变声参数，之后自动对待变声音频片段进行变声处理，由于变声参数也是由计算机设备基于指定关键词来选择的，上述过程无需用户参与，因此能更快确定出变声参数，并且确定出的变声参数不受人工经验限制，在提高变声效率的同时，提升变声效果。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的音频数据处理方法的流程图；

图3是本申请一个实施例提供的音频数据处理的示意图；

图4是本申请一个实施例提供的确定待变声音频片段的流程图；

图5是本申请另一个实施例提供的确定待变声音频片段的流程图；

图6是本申请一个实施例提供的音频数据处理装置的框图；

图7是本申请一个实施例示出的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的技术方案，在识别出初始音频片段中包括指定关键词时，在待变声音频片段中确定待变声音频片段以及相应的变声参数，之后自动对待变声音频片段进行变声处理，由于变声参数也是由计算机设备基于指定关键词来选择的，上述过程无需用户参与，因此能更快确定出变声参数，并且确定出的变声参数不受人工经验限制，在提高变声效率的同时，提升变声效果。

本申请实施例提供的技术方案，可以应用在音频处理技术领域。例如对视频中的目标角色对应的音频片段进行变声处理。再例如在直播过程中对主播用户的部分音频片段进行变声处理。

示例性地，在直播过程中，主播用户表演影视片段，影视片段中包括A、B、C三个角色，主播终端获取A、B、C三个角色分别对应的变声参数，并按照每个角色对应的变声参数对该角色的音频片段进行变声处理。示例性地，在直播过程中，主播用户引用名人D的语句，主播终端获取名人D对应的变声参数，并按照名人D对应的变声参数对引用的语句进行变声处理。

下面结合在直播过程中对主播用户的部分音频片段进行变声处理这一场景对本申请实施例提供的实施环境进行介绍。

图1是本申请一个实施例提供的实施环境的示意图。该实施环境包括：主播终端11、服务器12。

主播终端11具有变声处理功能。在一个示例中，主播终端11对视频中的音频片段进行变声处理。在另一个示例中，主播终端11对声音采集组件采集到的音频片段进行变声处理。可选地，主播终端11安装有具有变声处理功能的应用程序，通过该应用程序实现上述变声处理功能。可选地，具有变声处理功能的应用程序为直播类应用程序。

可选地，主播终端11还具有与服务器12进行数据交互的功能，例如将采集到的图像数据，变声处理后的音频数据发送至服务器12。

主播终端11可以是智能手机、平板电脑、个人计算机(Personal Computer，PC)、智能可穿戴设备等等。

服务器12可以是一台服务器，也可以是多台服务器组成的服务器集群，还可以是一个云计算服务中心。可选地，服务器12是上述直播应用程序对应的后台服务器。

可选地，该实施环境还包括：观众终端。观众终端是观众用户所使用的终端，其具有音频播放功能和视频播放功能。观众用户通过观众终端来观看直播。观众终端可以是智能手机、平板电脑、个人计算机、智能可穿戴设备等等。

主播终端11和服务器12之间通过有线或无线网络建立通信连接。服务器12和观众终端之间通过有线或无线网络建立通信连接。

上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是其它任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

需要说明的是，本申请实施例提供的技术方案，各步骤的执行主体还可以是服务器。示例性地，服务器接收主播终端发送的音频片段，并对接收到的音频片段进行变声处理，之后将变声后的音频片段推流至观众终端。以下实施例仅以各步骤的执行主体为主播终端为例进行讲解。

图2是本申请一个实施例提供的音频数据处理方法的流程图。该方法包括：

步骤201，获取初始音频数据。

在一种可能的实现方式中，计算机设备通过声音采集模块采集初始音频数据。示例性地，当计算机设备为主播终端时，其通过麦克风组件采集初始音频数据。

在另一种可能的实现方式中，计算机设备接收与其建立有通信连接的其他终端设备发送的初始音频数据。示例性地，当计算机设备为服务器时，其接收主播终端发送的初始音频数据。

参考图3，主播用户在直播过程中进行角色扮演，对该过程采集得到初始音频数据“妹妹：我才没那么无聊呢；哥哥：谁知道呢”。

步骤202，在识别出初始音频数据中包括指定关键词时，获取指定关键词对应的变声参数。

指定关键词由相关开发人员预先设置，其通常意味着之后的语句存在变声需求，也即指定关键词是用于触发变声处理的词语。可选地，指定关键词为人群类别，比如大叔、萝莉、老人等。可选地，指定关键词为人物姓名，比如小燕子、紫薇等等。

计算机设备先对初始音频数据进行语音识别，得到初始音频数据对应的文本信息，之后对文本信息进行分词处理，得到文本信息所包括的词语，将文本信息中的词语与预设关键词库中的词语进行逐一比对，若预设关键词库中包括文本信息中的词语，则将该词语确定为指定关键词。

可选地，计算机设备通过第一预设算法对初始音频数据进行语音识别，得到初始音频数据对应的文本信息。上述第一预设算法包括且不限于：基于GMM-HMM模型的算法、基于Transformer的算法。

当预设算法为基于GMM-HMM模型的算法时，主播终端通过如下步骤训练GMM-HMM模型：1，在初始化对齐阶段，使用单高斯或者混合高斯对观察概率进行建模；2，在更新模型参数阶段，使用EM算法更新转移概率以及观察概率；3，在重新对齐阶段，采用viterbi算法的硬对齐或采用Baum-Welch学习算法的软对齐。最后，重复步骤2和3直至模型收敛。当预设算法为基于Transformer的算法时，其涉及的模型采用encoder-decoder架构。其中，encoder由6层相同的层组成，每一层分别由多头自注意力机制(multi-head self-attention)和逐层前馈网络(position-wise feed-forward network)组成；decoder和encoder类似但每层多一个多头上下文注意力机制。

可选地，主播终端通过第二预设算法将文本信息中的词语与预设关键词库中的词语进行逐一比对。第二预设算法包括：基于PageRank的方法、基于tf-idf的方法以及词向量模型的方法。

在一种可能的实现方式中，获取指定关键词对应的变声参数包括如下子步骤：

步骤202a，确定指定关键词对应的语音特征。

语音特征包括且不限于：低沉、搞笑、可爱、哭腔、磁性等等。可选地，主播终端保存有语音特征对应的关键词库，若指定关键词存在于某一语音特征对应的关键词库，则将该语言特征确定为指定关键词对应的语音特征。示例性地，可爱对应的关键词库中包括妹妹、女童、萝莉等关键词，指定关键词为妹妹时，确定其对应的语音特征为可爱。

步骤202b，基于指定关键词对应的语音特征，确定变声参数。

可选地，主播终端还包括不同语音特征与不同变声参数之间的第一对应关系，查询上述第一对应关系，即可确定变声参数。

可选地，主播终端在指定关键词为人群类别时，通过上述步骤202a-202b来确定变声参数。

在其他可能的实现方式中，主播终端保存有人物姓名与变声参数之间的第二对应关系，若指定关键词为人物姓名，则查询上述第二对应关系以确定变声参数。

参考图3，对初始音频数据进行语音识别，确定第一指定关键词31“妹妹”与第二指定关键词32“哥哥”，确定第一指定关键词对应的语音特征为可爱，进而确定第一变声参数，确定第一指定关键词对应的语音特征为清亮，进而确定第二变声参数。

步骤203，基于指定关键词在初始音频数据中确定待变声音频片段。

待变声音频片段是指音频数据中需要进行变声处理的音频片段。确定待变声音频片段的方法将在下文实施例进行讲解。

参考图3，基于第一指定关键词31“妹妹”确定第一待变声音频片段33“我才没那么无聊呢”，基于第二指定关键词32“哥哥”确定第二待变声音频片段34“谁知道呢”。

步骤204，通过指定关键词对应的变声参数对待变声音频片段进行变声处理，得到变声音频数据。

主播终端按照确定出的变声参数，对待变声音频片段进行变声处理，得到变声音频数据。

参考图3，主播终端按照第一变声参数对第一待变声音频片段33“我才没那么无聊呢”进行变声处理，以模拟女童说话效果；按照第二变声参数对第二待变声音频片段34“谁知道呢”进行变声处理，以模拟男孩说话效果。

可选地，主播终端将上述变声音频数据推送至服务器，服务器将携带变声音频数据的直播流数据推流至观众终端。

综上所述，本申请实施例提供的技术方案，通过在识别出初始音频片段中包括指定关键词时，在待变声音频片段中确定待变声音频片段以及相应的变声参数，之后自动对待变声音频片段进行变声处理，由于变声参数也是由计算机设备基于指定关键词来选择的，上述过程无需用户参与，因此能更快确定出变声参数，并且确定出的变声参数不受人工经验限制，在提高变声效率的同时，提升变声效果。

在一种可能的实现方式中，计算机设备通过如下步骤确定待变声音频片段。在基于图2所示实施例提供的可选实施例中，参考图4，步骤203包括如下子步骤：

步骤401，获取指定关键词在初始音频数据中的出现时刻。

步骤402，基于出现时刻，确定变声开始时刻。

可选地，主播终端获取位于出现时刻之后，且与出现时刻之间的第一时间间隔符合第一预设条件的第一停顿时段，将第一停顿时段的结束时刻确定为变声开始时刻。

第一停顿时段是指包含空白音频信息的持续时长达到第一预设时长的时间段。可选地，第一预设条件是第一停顿时段的开始时刻与出现时刻之间的时间间隔最小。在其他可能的实现方式中，第一预设条件是第一停顿时段的开始时刻与出现时刻之间的时间间隔达到预设时长。

示例性地，对于语句“妹妹说了，我才不会这么无聊呢，哥哥回答，谁知道呢”。指定关键词“妹妹”的出现时刻为1分25秒，“了”和“我”之间存在一个停顿时段，其开始时刻为1分26秒，该停顿时段距离指定关键词“妹妹”的出现时刻最短，则将1分27秒确定为变声开始时刻，也即待变声音频片段从“我”开始。

步骤403，基于变声开始时刻，确定变声结束时刻。

可选地，主播终端获取位于变声开始时刻之后，且与变声开始时刻之间的第二时间间隔符合第二预设条件的第二停顿时段，将第二停顿时段的开始时刻确定为变声结束时刻。

第二停顿时段是指包含空白音频信息的持续时长达到第二预设时长的时间段。可选地，第二预设条件是第二停顿时段的开始时刻与变声开始时刻之间的时间间隔最小。在其他可能的实现方式中，第二预设条件是第二停顿时段的开始时刻与变声开始时刻之间的时间间隔达到预设时长。

示例性地，对于语句“妹妹说了，我才不会这么无聊呢，哥哥回答，谁知道呢”。变声开始时刻为1分27秒，“呢”和“哥”之间存在一个停顿时刻，其开始时刻为1分29秒，其距离变声开始时刻最短，则将1分29秒确定为变声结束时刻，也即待变声音频片段到“呢”结束。

步骤404，基于变声开始时刻和变声结束时刻，在初始音频数据中确定待变声音频片段。

主播终端将变声开始时刻与变声结束时刻之间的时段对应的音频片段，确定为待变声音频片段。示例性地，对于语句“妹妹说了，我才不会这么无聊呢，哥哥回答，谁知道呢”，其确定的待变声音频片段为“我才不会这么无聊呢”。

在另一种可能的实现方式中，计算机设备通过如下步骤确定待变声音频片段。在基于图2所示实施例提供的可选实施例中，参考图5，步骤203包括如下子步骤：

步骤501，获取指定关键词对应的语料库。

主播终端保存有不同人物姓名对应的语料库，语料库包括该人物说过的语句。若指定关键词为人物姓名，则获取该人物姓名对应的预料库。

步骤502，若初始音频数据对应的文本信息包括语料库中的语句，则将初始音频数据中与语句对应的音频片段确定为待变声音频片段。

示例性地，对于初始音频数据“小燕子说过，累死事小，饿死事大”，指定关键词“小燕子”为人物姓名，其对应的语料库包括“累死事小，饿死事大”这一语句，则将该语句对应的音频片段确定为待变声音频片段。

以下为本申请装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图6，其示出了本申请一个示例性实施例提供的音频数据处理装置的框图。该音频数据处理装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。该音频数据处理装置包括：

数据获取模块601，用于获取初始音频数据。

参数获取模块602，用于在识别出所述初始音频数据中包括指定关键词时，获取所述指定关键词对应的变声参数。

片段确定模块603，用于基于所述指定关键词在所述初始音频数据中确定待变声音频片段。

变声处理模块604，用于通过所述指定关键词对应的变声参数对所述待变声音频片段进行变声处理，得到变声音频数据。

在基于图6所示实施例提供的可选实施例中，所述片段确定模块603，用于：

获取所述指定关键词在所述初始音频数据中的出现时刻；

基于所述出现时刻，确定变声开始时刻；

基于所述变声开始时刻，确定变声结束时刻；

基于所述变声开始时刻和所述变声结束时刻，在所述初始音频数据中确定所述待变声音频片段。

可选地，所述片段确定模块603，用于：

获取位于所述出现时刻之后，且与所述出现时刻之间的第一时间间隔符合第一预设条件的第一停顿时段，所述第一停顿时段是指包含空白音频信息的持续时长达到第一预设时长的时间段；

将所述第一停顿时段的结束时刻确定为所述变声开始时刻。

可选地，所述片段确定模块603，用于：

获取位于所述变声开始时刻之后，且与所述变声开始时刻之间的第二时间间隔符合第二预设条件的第二停顿时段，所述第二停顿时段是指包含空白音频信息的持续时长达到第二预设时长的时间段；

将所述第二停顿时段的开始时刻确定为所述变声结束时刻。

获取所述指定关键词对应的语料库；

若所述初始音频数据对应的文本信息包括所述语料库中的语句，则将所述初始音频数据中与所述语句对应的音频片段确定为所述待变声音频片段。

在基于图6所示实施例提供的可选实施例中，所述装置还包括：语音识别模块(图6未示出)。

语音识别模块，用于：

对所述初始音频数据进行语音识别，得到文本信息；

若预设关键词库中包括所述文本信息中的词语，则将所述词语确定为所述指定关键词。

在基于图6所示实施例提供的可选实施例中，所述参数获取模块602，用于：

确定所述指定关键词对应的语音特征；

基于所述指定关键词对应的语音特征，确定所述变声参数。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本申请一个示例性实施例提供的计算机设备700的结构框图。该计算机设备700可以是：智能手机、平板电脑、MP3播放器、MP4播放器、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。

通常，计算机设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、7核心处理器等。处理器701可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储计算机程序，该计算机程序用于被处理器701所执行以实现本申请中方法实施例提供的版本号生成方法。

在一些实施例中，计算机设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

本领域技术人员可以理解，图7中示出的结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由计算机设备的处理器加载并执行以实现上述方法实施例中的音频数据处理方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面或者一方面的各种可选实现方式中提供的音频数据处理方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

获取初始音频数据；

获取所述指定关键词在所述初始音频数据中的出现时刻；

获取位于所述出现时刻之后的第一停顿时段，所述第一停顿时段的开始时刻与所述出现时刻之间的第一时间间隔符合第一预设条件，所述第一停顿时段是指包含空白音频信息的持续时长达到第一预设时长的时间段；

将所述第一停顿时段的结束时刻确定为变声开始时刻；

基于所述变声开始时刻，确定变声结束时刻；

基于所述变声开始时刻和所述变声结束时刻，在所述初始音频数据中确定待变声音频片段；

2.根据权利要求1所述的方法，其特征在于，所述基于所述变声开始时刻，确定变声结束时刻，包括：

获取位于所述变声开始时刻之后的第二停顿时段，所述第二停顿时段的开始时刻与所述变声开始时刻之间的第二时间间隔符合第二预设条件，所述第二停顿时段是指包含空白音频信息的持续时长达到第二预设时长的时间段；

将所述第二停顿时段的开始时刻确定为所述变声结束时刻。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述指定关键词对应的变声参数之前，还包括：

对所述初始音频数据进行语音识别，得到文本信息；

4.根据权利要求1或2所述的方法，其特征在于，所述获取所述指定关键词对应的变声参数，包括：

确定所述指定关键词对应的语音特征；

基于所述指定关键词对应的语音特征，确定所述变声参数。

5.一种音频数据处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取初始音频数据；

片段确定模块，用于获取所述指定关键词在所述初始音频数据中的出现时刻；获取位于所述出现时刻之后的第一停顿时段，所述第一停顿时段的开始时刻与所述出现时刻之间的第一时间间隔符合第一预设条件，所述第一停顿时段是指包含空白音频信息的持续时长达到第一预设时长的时间段；将所述第一停顿时段的结束时刻确定为变声开始时刻；基于所述变声开始时刻，确定变声结束时刻；基于所述变声开始时刻和所述变声结束时刻，在所述初始音频数据中确定待变声音频片段；

6.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行如权利要求1至4任一项所述的音频数据处理方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至4任一项所述的音频数据处理方法。