CN114242111A

CN114242111A - 音频处理方法、装置、存储介质、电子设备

Info

Publication number: CN114242111A
Application number: CN202111296208.9A
Authority: CN
Inventors: 杨锐; 刘永亮
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-03-25

Abstract

本发明公开了一种音频处理方法、装置、存储介质、电子设备。其中，该方法包括：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。本发明解决了由于音视频盗版者应用共谋攻击方法破坏音视频水印造成的音视频盗版难以溯源、音视频版权保护困难的技术问题。

Description

音频处理方法、装置、存储介质、电子设备

技术领域

本发明涉及音频处理领域，具体而言，涉及一种音频处理方法、装置、存储介质、电子设备。

背景技术

如今音视频的盗版问题越来越多，不法分子通过交易非法采集或下载的付费音视频内容进行牟利，严重侵犯了原权利人的权益。对此，近年来数字水印技术在音视频版权保护领域取得一定的成果，数字水印包括音频水印和视频水平等，其中，音频水印因其复杂度和成本低于视频水印而被广泛应用于音视频版权保护及盗版溯源的场景中。用户获取的每个音频都是包含与该用户信息对应的音频水印的唯一版本，这样，即使含音频水印的音频已受到攻击，依然能够从中提取出对应的用户信息，实现盗版溯源。然而，对相同内容的音频，多个用户各自的版本之间是严格样本对齐的，各版本音频相同位置样本值的差异非常细微，当多个用户将相同内容的各自版本音频进行加权叠加处理(即共谋攻击)后，得到的叠加音频在听觉上与原音频无感知差异，但是在叠加过程中音频水印被破坏，进而导致无法从叠加音频中提取出任何一个用户信息，即无法实现盗版溯源。

目前很多方案都是基于水印信息编码来对抗共谋攻击，但是在共谋数量大于2时，此类方案支持的用户数量非常有限。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频处理方法、装置、存储介质、电子设备，以至少解决由于音视频盗版者应用共谋攻击方法破坏音视频水印造成的音视频盗版难以溯源、音视频版权保护困难的技术问题。

根据本发明实施例的一个方面，提供了一种音频处理方法，包括：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

根据本发明实施例的另一方面，还提供了一种音频处理方法，包括：接收来自于客户端的待处理音频；对上述待处理音频进行分帧处理以得到多个音频帧，对上述多个音频帧的至少一个音频帧进行偏移位置搜索以得到第一样本对和第二样本对，以及基于用户标识信息和多个候选偏移值对上述第一样本对和上述第二样本对进行样本偏移以得到偏移后音频；将上述偏移后音频反馈至上述客户端。

根据本发明实施例的另一方面，还提供了一种音频处理方法，包括：在音频编辑界面内加载待处理音频；响应于待处理音频的第一编辑指令，对待处理音频进行分帧处理，得到多个音频帧；响应于多个音频帧的第二编辑指令，对多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；响应于多个音频帧的第三编辑指令，确定用户标识信息和多个候选偏移值，以及基于用户标识信息和多个候选偏移值，对第一样本对和第二样本对进行样本偏移，得到偏移后音频；在音频编辑界面内展示偏移后音频。

根据本发明实施例的另一方面，还提供了一种音频处理装置，包括：获取模块，用于获取待处理音频；分帧模块，用于对上述待处理音频进行分帧处理，得到多个音频帧；搜索模块，用于对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；处理模块，用于基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

根据本发明实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的音频处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行任意一项上述的音频处理方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

在本发明实施例中，采用帧偏移处理音频的方式，通过获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

容易注意到的是，通过本申请实施例，对各音频帧进行少样本的偏移产生无听觉差异的音频，即使在用户数量较为庞大，多个用户进行共谋攻击的情况下，该共谋攻击得到的样本与原音频听觉差异巨大，无法满足正常使用要求，即共谋攻击失效。

由此，本申请实施例达到了产生各音频帧内少样本偏移的与原音频无听觉差异的音频的目的，从而实现了基于帧偏移处理音频以抗共谋攻击的技术效果，进而解决了由于音视频盗版者应用共谋攻击方法破坏音视频水印造成的音视频盗版难以溯源、音视频版权保护困难的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种音频处理方法的流程图；

图3是根据本发明实施例的一种可选的音频处理过程的示意图；

图4是根据本发明实施例的一种可选的偏移序列与音频帧对应关系示意图；

图5a是根据本发明实施例的一种可选的音频帧偏移处理前样本的示意图；

图5b是根据本发明实施例的一种可选的音频帧偏移处理后样本的示意图；

图6是根据本发明实施例的一种可选的音频处理方法的流程图；

图7是根据本发明实施例的一种可选的在云端服务器进行音频处理的示意图；

图8是根据本发明实施例的另一种可选的音频处理方法的流程图；

图9是根据本发明实施例的一种音频处理装置的结构示意图；

图10是根据本发明实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

共谋攻击：在盗版溯源场景中，多个用户在相同内容中嵌入不同信息的水印得到与用户对应的该相同内容的多个版本，当两个或以上用户将上述多个版本进行加权叠加并得到该内容的盗用版本时，会使得对该盗用版本的溯源水印提取失败，这种产生盗用版本的方法叫做共谋攻击。

帧偏移：是指对音频帧特定区间内的样本进行整体的左移或者右移，使得各音频帧与原始音频帧产出不对齐的操作。

实施例1

根据本发明实施例，还提供了一种音频处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的一种音频处理方法。图2是根据本发明实施例的一种音频处理方法的流程图，如图2所示，该音频分类方法包括：

步骤S102，获取待处理音频；

步骤S104，对上述待处理音频进行分帧处理，得到多个音频帧；

步骤S106，对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

步骤S108，基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

可选地，本申请所提供的上述音频处理方法可以但不限于应用于在线音视频产品保护(如音视频直播、音视频播放器等)、盗版音视频识别(如原创短视频识别、盗版音视频溯源等)，通过采用本申请实施例中的音频处理方法，可以自动生成与原音视频无听觉差异并能对抗共谋攻击的少样本偏移版本的对应音视频。

可选地，上述待处理音频可以为原始音频文件，或者可以为从原始视频文件中提取出的与该原始视频文件对应的音频文件。上述待处理音频可以包含多个音频帧。

可选地，上述分帧处理可以为识别待处理音频，根据实际使用的需要将该待处理音频分为多个音频帧，并按照顺序为该多个音频帧编号，其中，每个音频帧包含多个样本，该多个样本也被按照顺序编号。上述音频帧编号用于确定当前音频帧在音频中的位置，上述样本编号用于确定当前样本在当前音频帧中的位置。上述分帧处理便于后续对该待处理音频的分析和处理操作。

可选地，上述偏移位置可以为对上述多个音频帧的至少一个音频帧进行偏移位置搜索得到的用于后续偏移操作的样本位置。对于该多个音频帧的至少一个音频帧而言，其中，每个音频帧包含两个样本偏移位置，即对应上述第一样本对和上述第二样本对。

可选地，上述用户标识信息可以为包含用户身份标识(Identity document，ID)的数据，其中用户的ID是唯一的，也就是说，相同的身份ID会被当做相同的一个用户。

可选地，上述候选偏移值可以为根据该待处理音频和实际使用情况确定的可偏移值的集合。

在一种可选的实施例中，在步骤S104中，对上述待处理音频进行分帧处理，得到多个音频帧，包括如下方法步骤：

步骤S141，按照固定样本数量对上述待处理音频进行分帧处理，得到上述多个音频帧，其中，上述多个音频帧的每个音频帧包括：多个样本。

可选地，上述固定样本数量可以是根据实际需要确定的数值，在对待处理音频进行分帧前，确定每个音频帧应当包含上述固定样本数量的样本，据此将待处理音频分为多个音频帧。

图3是根据本发明实施例的一种可选的音频处理过程的示意图；如图3所示，上述终端获取的待处理音频为付费音频A进行固定样本数量的分帧操作，首先，确定单个音频帧包含L个样本，据此，将付费音频A分为N个上述音频帧。

在一种可选的实施例中，在步骤S106中，对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对，包括如下方法步骤：

步骤S161，从上述多个样本中的第一个样本开始往后搜索，查找样本符号反转的两个相邻样本，得到上述第一样本对；或者，从上述多个样本中的第一个样本开始往后搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第一样本对。

可选地，上述偏移位置搜索可以为从多个样本中的第一个样本开始往后搜索，当搜索到相邻的两个样本符号反转时，将该相邻的两个样本作为上述第一样本对。其中，该多个样本为用于偏移位置搜索的音频帧中的每个音频帧的多个样本；该用于偏移位置搜索的音频帧为上述多个音频帧的至少一个音频帧。

可选地，上述偏移位置搜索还可以为从多个样本中的第一个样本开始往后搜索，当搜索到连续静音样本时，将其中的两个静音样本作为上述第一样本对。其中，该多个样本为用于偏移位置搜索的音频帧中的每个音频帧的多个样本；该用于偏移位置搜索的音频帧为上述多个音频帧的至少一个音频帧。

仍然如图3所示，在对付费音频A的处理过程中，对经分帧后的付费音频A中N个音频帧中的每个音频帧进行偏移位置搜索，其中，在对第n(n<N)个音频帧进行偏移位置搜索时的操作如下：第n个音频帧中包含L个样本，编号依次为n1～nL，从第一个样本开始搜索，当搜索到其中n4和n5两个样本的符号是反转的，此时确定第n个音频帧的第一样本对为n4和n5，偏移位置为P_f。

仍然如图3所示，在对付费音频A的处理过程中，对经分帧后的付费音频A中N个音频帧中的每个音频帧进行偏移位置搜索，其中，在对第m(m<N)个音频帧进行偏移位置搜索时的操作如下：第m个音频帧中包含L个样本，编号依次为m1～mL，从第一个样本开始搜索，当搜索到其中m2和m3两个连续样本均是静音样本，此时确定第m个音频帧的第一样本对为m2和m3，偏移位置为P_f。

在一种可选的实施例中，在步骤S106中，对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第二样本对，包括如下方法步骤：

步骤S162，从上述多个样本中的末尾样本开始往前搜索，查找样本符号反转的两个相邻样本，得到上述第二样本对；或者，从上述多个样本中的末尾样本开始往前搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第二样本对。

可选地，上述偏移位置搜索可以为从每个音频帧中多个样本中的末尾样本开始往前搜索，当搜索到相邻的两个样本符号反转时，将该相邻的两个样本作为上述第二样本对。

可选地，上述偏移位置搜索还可以为从每个音频帧中多个样本中的末尾样本开始往后搜索，当搜索到连续静音样本时，将其中的两个静音样本作为上述第二样本对。

仍然如图3所示，在对付费音频A的处理过程中，对经分帧后的付费音频A中N个音频帧中的每个音频帧进行偏移位置搜索，其中，在对第n(n<N)个音频帧进行偏移位置搜索时的操作如下：第n个音频帧中包含L个样本，编号依次为n1～nL，从末尾样本开始搜索，当搜索到其中n(L-8)和n(L-7)两个样本的符号是反转的，此时确定第n个音频帧的第二样本对为n(L-8)和n(L-7)，偏移位置为P_t。

仍然如图3所示，在对付费音频A的处理过程中，对经分帧后的付费音频A中N个音频帧中的每个音频帧进行偏移位置搜索，其中，在对第m(m<N)个音频帧进行偏移位置搜索时的操作如下：第m个音频帧中包含L个样本，编号依次为m1～mL，从末尾样本开始搜索，当搜索到其中m(L-6)和m(L-7)两个连续样本均是静音样本，此时确定第m个音频帧的第二样本对为m(L-6)和m(L-7)，偏移位置为P_t。

在一种可选的实施例中，在步骤S108中，基于上述用户标识信息和上述多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到上述偏移后音频，包括如下方法步骤：

步骤S181，基于上述用户标识信息和上述多个候选偏移值，生成偏移序列；

步骤S182，利用上述偏移序列对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后边界样本；

步骤S183，对上述偏移后边界样本进行插值平滑处理，得到上述偏移后音频。

可选地，获取上述用户标识信息和上述多个候选偏移值后，可得到用于偏移操作的偏移序列，利用该偏移序列对上述第一样本对和上述第二样本对进行样本偏移得到偏移后的边界样本，为了最终偏移后音频的实用性，还要对上述偏移后的边界样本进行插值平滑处理，处理后的音频作为偏移后音频。

可选地，上述偏移序列中的元素数量与上述待处理音频包含的音频帧数量相同，偏移序列中的一个元素表示对待处理音频的对应音频帧中对应位置上的样本进行偏移的具体偏移量，其中，音频帧中的对应位置即上述第一样本对和第二样本对确定的位置。

在一种可选的实施例中，在步骤S181中，基于上述用户标识信息和上述多个候选偏移值，生成上述偏移序列，包括如下方法步骤：

步骤S1811，基于第一数量和预设偏移幅度，确定上述多个候选偏移值，其中，上述第一数量为上述多个音频帧的每个音频帧中所包含的固定样本数量；

步骤S1812，利用上述用户标识信息生成随机序列，其中，上述随机序列的长度为第二数量，上述第二数量为上述多个音频帧的数量；

步骤S1813，通过上述随机序列与上述多个候选偏移值之间的映射关系，生成上述偏移序列。

可选地，在进行样本偏移前，需要预先确定上述多个候选偏移值，上述多个候选偏移值可以这样确定：获取音频分帧操作时确定的每个音频帧中所包含的固定样本数量，根据实际使用情况规定一预设偏移幅度，基于该固定样本数量和该预设偏移幅度，确定上述多个候选偏移值。

可选地，用于偏移操作的偏移序列可以是由随机序列通过上述多个候选偏移值映射得到，其中，随机序列是由上述用户标识信息生成的，这保证了每个用户对应的随机序列也是唯一的，这对音频版权保护具有实际意义；另外，该随机序列的长度为待处理音频的音频帧数量，进而能够由随机序列与上述偏移值之间的映射关系产生上述偏移序列，该偏移序列的长度也与音频帧数量相同。

仍然如图3所示，在对付费音频A的处理过程中，上述多个候选偏移值可以这样确定：对于付费音频A而言，如果其中样本偏移幅度超过1％时就会产生用户可感知的听觉差异，因此以偏移幅度不超过1％作为约束生成可偏移值的集合，记为{D₀，D₁，…，D_M-1}，该集合中，任一元素D_i都满足-L×1％<D_i<L×1％，M为不同偏移值的个数。

图4是根据本发明实施例的一种可选的偏移序列与音频帧对应关系示意图；如图4所示，偏移序列中的偏移值与待处理中的音频帧一一对应。

仍然如图3所示，在对付费音频A的处理过程中，上述偏移序列可以这样生成：获取用户ID，基于该用户ID生成一个长度为N的随机序列{R₀，R₁，…，R_N-1}；确定一数值映射函数f(i)；由随机序列{R₀，R₁，…，R_N-1}与可偏移值集合{D₀，D₁，…，D_M-1}产生偏移序列{S₀，S₁，…，S_N-1}，其中S_i＝D_f(i)。

利用偏移序列{S₀，S₁，…，S_N-1}对付费音频A中的各音频帧进行处理，其中对第n个音频帧的处理步骤如下：对该音频帧中位置在P_f和P_t之间的样本进行样本偏移，偏移值为S_n-1，如果S_n-1>0，则偏移方向右，如果S_n-1<0，则偏移方向左；将付费音频A中所有音频帧处理完毕得到偏移后的边界样本，记为A′；对A′进行插值平滑处理，即可得到最终付费音频A对应的少样本偏移后的音频A#。

图5a是根据本发明实施例的一种可选的音频帧偏移处理前样本的示意图，图5b是根据本发明实施例的一种可选的音频帧偏移处理后样本的示意图；图5a中的E、F、G、H点分别对应图5b中的E1、F1、G1、H1点，根据本发明实施例，在该音频帧的样本中删除了一零值附近的两个样本，又插入了另一零值附近的两个样本，使该音频帧产生如图5a和图5b所示的变化，在对原始音频的少样本帧偏移处理的同时，保证了整体样本数不变，且帧偏移幅度在听觉不可感知的范围内，但使得偏移前后对应位置的样本值差异明显，从而实现了基于帧偏移处理音频以抗共谋攻击的技术效果。

在一种可选的实施例中，上述音频处理方法还包括如下方法步骤：

步骤S202，从上述多个音频帧中查找目标音频帧；

步骤S204，对上述多个目标样本进行相关度计算，确定样本对齐位置，其中，上述多个目标样本为上述偏移后音频中选取的多个连续样本，上述目标音频帧与上述多个目标样本的相关度满足预设条件；

步骤S206，从上述样本对齐位置开始，对上述偏移后音频进行分帧处理，得到多个偏移后音频帧；

步骤S208，通过上述多个音频帧与上述多个偏移后音频帧之间的对应关系，从第三数量的偏移后音频帧中连续提取二进制随机序列，其中，上述第三数量为上述用户标识信息的二进制表示所需最大长度；

步骤S210，利用上述二进制随机序列重构上述用户标识信息。

可选地，在有参考源的音频水印溯源场景中，上述音频处理方法还可以通过以下方法步骤实现音频水印的提取：

例如，有一个付费音频A的偏移后音频A#，可以通过本发明实施例中的方法提取A#中的音频水印，进而获取与A#对应的用户ID，实现音频水印溯源。具体地步骤如下：

1)在付费音频A中获取第一个音频帧(包含的样本数量为L)作为目标音频帧；

2)在A#中查找多个目标样本，查找方法为：计算该目标音频帧与A#中所有长度为L的连续样本区间的相关值，规定一预设条件：前述相关值计算结果中的最大值且大于T，当A#中某一长度为L的连续样本区间计算所得相关值满足上述预设条件，则确定该长度为L的连续样本区间为该多个目标样本，并确定该多个目标样本在A#中的位置P作为样本对齐位置；

3)从该样本对齐位置开始，对A#进行分帧处理，其中每个音频帧包含的样本数量为L，得到A#的多个音频帧；

4)将A的多个音频帧与A#的多个音频帧对应，连续对B帧音频进行二进制随机序列提取，以第i个音频帧为例，该二进制随机数的提取方法为：将第i个音频帧中的x个样本进行右偏移并计算相关值y，将第i个音频帧中的x个样本进行左偏移并计算相关值z，如果y>z，则确定第i个音频帧对应的二进制随机数S_i＝1，否则，S_i＝0；按照上述提取方法完成对连续B帧音频的提取得到随机序列{S₀，…，S_B-1}；

5)利用提取得到的二进制随机序列{S₀，…，S_B-1}重构用户ID。

特别的，如果在A#中查找多个目标样本时，选取付费音频A中的第一个音频帧作为目标音频帧无法在A#中查找到该多个目标样本，则选取付费音频A中的下一音频帧作为目标音频帧再次进行中查找，直到在A#中找到该多个目标样本。

本发明其中一实施例还提供了一种音频处理方法，该音频处理方法在云端服务器上运行，图6是根据本发明实施例的一种可选的音频处理方法的流程图，如图6所示，该音频处理方法，包括：

步骤S302，接收来自于客户端的待处理音频；

步骤S304，对上述待处理音频进行分帧处理以得到多个音频帧，对上述多个音频帧的至少一个音频帧进行偏移位置搜索以得到第一样本对和第二样本对，以及基于用户标识信息和多个候选偏移值对上述第一样本对和上述第二样本对进行样本偏移以得到偏移后音频；

步骤S306，将上述偏移后音频反馈至上述客户端。

可选地，图7是根据本发明实施例的一种可选的在云端服务器进行音频处理的示意图，如图7所示，客户端将待处理音频上传至云端服务器，云端服务器采用帧偏移处理音频的方式，对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。然后，云端服务器会向上述客户端反馈处理结果，最终的处理结果会通过客户端的图形用户界面提供给用户。

需要说明的是，本申请实施例所提供的上述音频处理方法，可以但不限于适用于音视频版权保护实际应用场景，通过SaaS服务端和客户端进行交互的方式，采用帧偏移处理音频的方式对上述待处理音频进行处理，并将返回的处理结果通过客户端提供给用户。

本发明其中一实施例还提供了另一种音频处理方法，该音频处理方法用于音频在线编辑，图8是根据本发明实施例的另一种可选的音频处理方法的流程图，如图8所示，该音频处理方法，包括：

步骤S802，在音频编辑界面内加载待处理音频；

步骤S804，响应于待处理音频的第一编辑指令，对待处理音频进行分帧处理，得到多个音频帧；

步骤S806，响应于多个音频帧的第二编辑指令，对多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

步骤S808，响应于多个音频帧的第三编辑指令，确定用户标识信息和多个候选偏移值，以及基于用户标识信息和多个候选偏移值，对第一样本对和第二样本对进行样本偏移，得到偏移后音频；

步骤S810，在音频编辑界面内展示偏移后音频。

本发明实施例提供的音频处理方法可以用于对上述待处理音频进行在线编辑，上述音频编辑界面用于加载用户上传的待处理音频，以及将处理后的音频展示给用户。在音频编辑界面内加载待处理音频后，可以实现如下音频处理动作：当收到待处理音频的第一编辑指令时，对待处理音频进行分帧处理，可以得到多个音频帧；当收到多个音频帧的第二编辑指令时，对多个音频帧的至少一个音频帧进行偏移位置搜索，可以得到第一样本对和第二样本对；当收到多个音频帧的第三编辑指令时，确定用户标识信息和多个候选偏移值，以及基于用户标识信息和多个候选偏移值，对第一样本对和第二样本对进行样本偏移，可以得到偏移后音频。将该偏移后的音频作为音频在线编辑处理后的音频展示给用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述音频处理方法的装置实施例，图9是根据本发明实施例的一种音频处理装置的结构示意图，如图9所示，该装置包括：获取模块110、分帧模块112、搜索模块114、处理模块116，其中，

获取模块110，用于获取待处理音频；分帧模块112，用于对上述待处理音频进行分帧处理，得到多个音频帧；搜索模块114，用于对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；处理模块116，用于基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

可选地，分帧模块112，还用于：按照固定样本数量对上述待处理音频进行分帧处理，得到上述多个音频帧，其中，上述多个音频帧的每个音频帧包括：多个样本。

可选地，搜索模块114，还用于：从上述多个样本中的第一个样本开始往后搜索，查找样本符号反转的两个相邻样本，得到上述第一样本对；或者，从上述多个样本中的第一个样本开始往后搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第一样本对。

可选地，搜索模块114，还用于：从上述多个样本中的末尾样本开始往前搜索，查找样本符号反转的两个相邻样本，得到上述第二样本对；或者，从上述多个样本中的末尾样本开始往前搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第二样本对。

可选地，处理模块116，包括：准备单元1161(图中未画出)，用于基于上述用户标识信息和上述多个候选偏移值，生成偏移序列；偏移单元1162(图中未画出)，用于利用上述偏移序列对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后边界样本；后处理单元1163(图中未画出)，用于对上述偏移后边界样本进行插值平滑处理，得到上述偏移后音频。

可选地，准备单元1161，还用于：基于第一数量和预设偏移幅度，确定上述多个候选偏移值，其中，上述第一数量为上述多个音频帧的每个音频帧中所包含的固定样本数量；利用上述用户标识信息生成随机序列，其中，上述随机序列的长度为第二数量，上述第二数量为上述多个音频帧的数量；通过上述随机序列与上述多个候选偏移值之间的映射关系，生成上述偏移序列。

可选地，上述音频处理装置还包括：帧查找模块210(图中未画出)，用于从上述多个音频帧中查找目标音频帧，其中，上述目标音频帧与上述偏移后音频的相关度满足预设条件；定位模块212(图中未画出)，用于基于上述目标音频帧确定样本对齐位置；第二分帧模块214(图中未画出)，用于从上述样本对齐位置开始，对上述偏移后音频进行分帧处理，得到多个偏移后音频帧；提取模块216(图中未画出)，用于通过上述多个音频帧与上述多个偏移后音频帧之间的对应关系，从第三数量的偏移后音频帧中连续提取二进制随机序列，其中，上述第三数量为上述用户标识信息的二进制表示所需最大长度；重构模块218(图中未画出)，用于利用上述二进制随机序列重构上述用户标识信息。

此处需要说明的是，上述获取模块110、分帧模块112、搜索模块114和处理模块116对应于实施例1中的步骤S102至步骤S108，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

在本发明实施例中，采用帧偏移处理音频的方式，通过获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。容易注意到的是，通过本申请实施例，对各音频帧进行少样本的偏移产生无听觉差异的音频，即使在用户数量较为庞大，多个用户进行共谋攻击的情况下，该共谋攻击得到的样本与原音频听觉差异巨大，无法满足正常使用要求，即共谋攻击失效。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本发明实施例，还提供了一种电子装置的实施例，该电子装置可以是计算装置群中的任意一个计算装置。该电子装置包括：处理器和存储器，其中：

存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

可选地，图10是根据本发明实施例的另一种计算机终端的结构框图，如图10所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器122、存储器124、以及外设接口126。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

可选地，上述处理器还可以执行如下步骤的程序代码：按照固定样本数量对上述待处理音频进行分帧处理，得到上述多个音频帧，其中，上述多个音频帧的每个音频帧包括：多个样本。

可选地，上述处理器还可以执行如下步骤的程序代码：从上述多个样本中的第一个样本开始往后搜索，查找样本符号反转的两个相邻样本，得到上述第一样本对；或者，从上述多个样本中的第一个样本开始往后搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第一样本对。

可选地，上述处理器还可以执行如下步骤的程序代码：从上述多个样本中的末尾样本开始往前搜索，查找样本符号反转的两个相邻样本，得到上述第二样本对；或者，从上述多个样本中的末尾样本开始往前搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第二样本对。

可选地，上述处理器还可以执行如下步骤的程序代码：基于上述用户标识信息和上述多个候选偏移值，生成偏移序列；利用上述偏移序列对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后边界样本；对上述偏移后边界样本进行插值平滑处理，得到上述偏移后音频。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一数量和预设偏移幅度，确定上述多个候选偏移值，其中，上述第一数量为上述多个音频帧的每个音频帧中所包含的固定样本数量；利用上述用户标识信息生成随机序列，其中，上述随机序列的长度为第二数量，上述第二数量为上述多个音频帧的数量；通过上述随机序列与上述多个候选偏移值之间的映射关系，生成上述偏移序列。

可选地，上述处理器还可以执行如下步骤的程序代码：从上述多个音频帧中查找目标音频帧，其中，上述目标音频帧与上述偏移后音频的相关度满足预设条件；基于上述目标音频帧确定样本对齐位置；从上述样本对齐位置开始，对上述偏移后音频进行分帧处理，得到多个偏移后音频帧；通过上述多个音频帧与上述多个偏移后音频帧之间的对应关系，从第三数量的偏移后音频帧中连续提取二进制随机序列，其中，上述第三数量为上述用户标识信息的二进制表示所需最大长度；利用上述二进制随机序列重构上述用户标识信息。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收来自于客户端的待处理音频；对上述待处理音频进行分帧处理以得到多个音频帧，对上述多个音频帧的至少一个音频帧进行偏移位置搜索以得到第一样本对和第二样本对，以及基于用户标识信息和多个候选偏移值对上述第一样本对和上述第二样本对进行样本偏移以得到偏移后音频；将上述偏移后音频反馈至上述客户端。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在音频编辑界面内加载待处理音频；响应于待处理音频的第一编辑指令，对待处理音频进行分帧处理，得到多个音频帧；响应于多个音频帧的第二编辑指令，对多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；响应于多个音频帧的第三编辑指令，确定用户标识信息和多个候选偏移值，以及基于用户标识信息和多个候选偏移值，对第一样本对和第二样本对进行样本偏移，得到偏移后音频；在音频编辑界面内展示偏移后音频。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

根据本发明实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的音频处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理音频；对上述待处理音频进行分帧处理，得到多个音频帧；对上述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；基于用户标识信息和多个候选偏移值，对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后音频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：按照固定样本数量对上述待处理音频进行分帧处理，得到上述多个音频帧，其中，上述多个音频帧的每个音频帧包括：多个样本。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述多个样本中的第一个样本开始往后搜索，查找样本符号反转的两个相邻样本，得到上述第一样本对；或者，从上述多个样本中的第一个样本开始往后搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第一样本对。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述多个样本中的末尾样本开始往前搜索，查找样本符号反转的两个相邻样本，得到上述第二样本对；或者，从上述多个样本中的末尾样本开始往前搜索，查找连续静音样本，并从上述连续静音样本中选取两个静音样本，得到上述第二样本对。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述用户标识信息和上述多个候选偏移值，生成偏移序列；利用上述偏移序列对上述第一样本对和上述第二样本对进行样本偏移，得到偏移后边界样本；对上述偏移后边界样本进行插值平滑处理，得到上述偏移后音频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于第一数量和预设偏移幅度，确定上述多个候选偏移值，其中，上述第一数量为上述多个音频帧的每个音频帧中所包含的固定样本数量；利用上述用户标识信息生成随机序列，其中，上述随机序列的长度为第二数量，上述第二数量为上述多个音频帧的数量；通过上述随机序列与上述多个候选偏移值之间的映射关系，生成上述偏移序列。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述多个音频帧中查找目标音频帧，其中，上述目标音频帧与上述偏移后音频的相关度满足预设条件；基于上述目标音频帧确定样本对齐位置；从上述样本对齐位置开始，对上述偏移后音频进行分帧处理，得到多个偏移后音频帧；通过上述多个音频帧与上述多个偏移后音频帧之间的对应关系，从第三数量的偏移后音频帧中连续提取二进制随机序列，其中，上述第三数量为上述用户标识信息的二进制表示所需最大长度；利用上述二进制随机序列重构上述用户标识信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的待处理音频；对上述待处理音频进行分帧处理以得到多个音频帧，对上述多个音频帧的至少一个音频帧进行偏移位置搜索以得到第一样本对和第二样本对，以及基于用户标识信息和多个候选偏移值对上述第一样本对和上述第二样本对进行样本偏移以得到偏移后音频；将上述偏移后音频反馈至上述客户端。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在音频编辑界面内加载待处理音频；响应于待处理音频的第一编辑指令，对待处理音频进行分帧处理，得到多个音频帧；响应于多个音频帧的第二编辑指令，对多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；响应于多个音频帧的第三编辑指令，确定用户标识信息和多个候选偏移值，以及基于用户标识信息和多个候选偏移值，对第一样本对和第二样本对进行样本偏移，得到偏移后音频；在音频编辑界面内展示偏移后音频。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待处理音频；

对所述待处理音频进行分帧处理，得到多个音频帧；

对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

基于用户标识信息和多个候选偏移值，对所述第一样本对和所述第二样本对进行样本偏移，得到偏移后音频。

2.根据权利要求1所述的音频处理方法，其特征在于，对所述待处理音频进行分帧处理，得到所述多个音频帧包括：

按照固定样本数量对所述待处理音频进行分帧处理，得到所述多个音频帧，其中，所述多个音频帧的每个音频帧包括：多个样本。

3.根据权利要求2所述的音频处理方法，其特征在于，对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到所述第一样本对包括：

从所述多个样本中的第一个样本开始往后搜索，查找样本符号反转的两个相邻样本，得到所述第一样本对；或者，

从所述多个样本中的第一个样本开始往后搜索，查找连续静音样本，并从所述连续静音样本中选取两个静音样本，得到所述第一样本对。

4.根据权利要求2所述的音频处理方法，其特征在于，对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到所述第二样本对包括：

从所述多个样本中的末尾样本开始往前搜索，查找样本符号反转的两个相邻样本，得到所述第二样本对；或者，

从所述多个样本中的末尾样本开始往前搜索，查找连续静音样本，并从所述连续静音样本中选取两个静音样本，得到所述第二样本对。

5.根据权利要求1所述的音频处理方法，其特征在于，基于所述用户标识信息和所述多个候选偏移值，对所述第一样本对和所述第二样本对进行样本偏移，得到所述偏移后音频包括：

基于所述用户标识信息和所述多个候选偏移值，生成偏移序列；

利用所述偏移序列对所述第一样本对和所述第二样本对进行样本偏移，得到偏移后边界样本；

对所述偏移后边界样本进行插值平滑处理，得到所述偏移后音频。

6.根据权利要求5所述的音频处理方法，其特征在于，基于所述用户标识信息和所述多个候选偏移值，生成所述偏移序列包括：

基于第一数量和预设偏移幅度，确定所述多个候选偏移值，其中，所述第一数量为所述多个音频帧的每个音频帧中所包含的固定样本数量；

利用所述用户标识信息生成随机序列，其中，所述随机序列的长度为第二数量，所述第二数量为所述多个音频帧的数量；

通过所述随机序列与所述多个候选偏移值之间的映射关系，生成所述偏移序列。

7.根据权利要求1所述的音频处理方法，其特征在于，所述音频处理方法还包括：

从所述多个音频帧中查找目标音频帧；

对多个目标样本进行相关度计算，确定样本对齐位置，其中，所述多个目标样本为所述偏移后音频中选取的多个连续样本，所述目标音频帧与所述多个目标样本的相关度满足预设条件；

从所述样本对齐位置开始，对所述偏移后音频进行分帧处理，得到多个偏移后音频帧；

通过所述多个音频帧与所述多个偏移后音频帧之间的对应关系，从第三数量的偏移后音频帧中连续提取二进制随机序列，其中，所述第三数量为所述用户标识信息的二进制表示所需最大长度；

利用所述二进制随机序列重构所述用户标识信息。

8.一种音频处理方法，其特征在于，包括：

接收来自于客户端的待处理音频；

对所述待处理音频进行分帧处理以得到多个音频帧，对所述多个音频帧的至少一个音频帧进行偏移位置搜索以得到第一样本对和第二样本对，以及基于用户标识信息和多个候选偏移值对所述第一样本对和所述第二样本对进行样本偏移以得到偏移后音频；

将所述偏移后音频反馈至所述客户端。

9.一种音频处理方法，其特征在于，通过终端设备提供音频编辑界面，所述音频处理方法包括：

在所述音频编辑界面内加载待处理音频；

响应于所述待处理音频的第一编辑指令，对所述待处理音频进行分帧处理，得到多个音频帧；

响应于所述多个音频帧的第二编辑指令，对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

响应于所述多个音频帧的第三编辑指令，确定用户标识信息和多个候选偏移值，以及基于所述用户标识信息和所述多个候选偏移值，对所述第一样本对和所述第二样本对进行样本偏移，得到偏移后音频；

在所述音频编辑界面内展示所述偏移后音频。

10.一种音频处理装置，其特征在于，包括：

获取模块，用于获取待处理音频；

分帧模块，用于对所述待处理音频进行分帧处理，得到多个音频帧；

搜索模块，用于对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

处理模块，用于基于用户标识信息和多个候选偏移值，对所述第一样本对和所述第二样本对进行样本偏移，得到偏移后音频。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的音频处理方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的音频处理方法。

13.一种电子装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

步骤1，获取待处理音频；

步骤2，对所述待处理音频进行分帧处理，得到多个音频帧；

步骤3，对所述多个音频帧的至少一个音频帧进行偏移位置搜索，得到第一样本对和第二样本对；

步骤4，基于用户标识信息和多个候选偏移值，对所述第一样本对和所述第二样本对进行样本偏移，得到偏移后音频。