CN112651429B

CN112651429B - 一种音频信号时序对齐方法和装置

Info

Publication number: CN112651429B
Application number: CN202011447392.8A
Authority: CN
Inventors: 邹李兵; 张一凡; 王学强; 张富强
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-07-12
Anticipated expiration: 2040-12-09
Also published as: US20240038278A1; CN112651429A; WO2022121521A1

Abstract

本申请公开了一种音频信号时序对齐方法和装置。其中方法包括：为待对齐音频信号和模板音频信号分别生成频域图像；将频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量；根据时序偏移量对待对齐音频信号进行时序对齐处理。该技术方案利用深度神经网络从待对齐音频信号和模板音频信号的频域图像中进行特征提取，相较于传统的人工特征方法，鲁棒性更好，特别是在多噪声环境下，深度神经网络提取的特征更具有本质性，稳定性更好；端到端的时序偏移量预测模型精度更高，速度更快。

Description

一种音频信号时序对齐方法和装置

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种音频信号时序对齐方法和装置。

背景技术

在工业生产过程中，通过分析生产设备所产生的音频信号是否异常，可以及发现设备产生的故障，避免发生事故。如在铁路运输过程中，通过检测列车运行过程中车轮与轨道异常声音，可以及时发现轨道或车轮的损伤，从而及时更换损伤设备，避免车轮运行事故的发生。

此外，在声学设备的生产过程中，通过播放特定的不同频段的声音信号，可以分析判断声学设备是否有故障，以及分析出故障发生的频段和时间，以改进生产工艺提升整体产品的品质。

一般地，采集被检设备产生的一段音频信号序列，将其与标准信号序列进行比对，能够判断出异常信号产生的位置。但由于采集设备或者操作的原因，设备采集的信号与原始信号通常存在着时序不匹配的情况，因而有必要对采集的信号序列与标准信号序列进行对齐操作，以方便后续的进一步处理。

发明内容

本申请实施例提供了一种音频信号时序对齐方法和装置，以利用深度神经网络强大的特征表达能力，实现对噪声信号的过滤，最终实现端到端的音频信号的时序对齐。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种音频信号时序对齐方法，包括：为待对齐音频信号和模板音频信号分别生成频域图像；将频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量；根据时序偏移量对待对齐音频信号进行时序对齐处理。

在一些实施例中，为待对齐音频信号和模板音频信号分别生成频域图像包括：根据模板音频信号的时长，对待对齐音频信号进行剪切，使剪切后的待对齐音频信号的时长与模板音频信号的时长相一致；为剪切后的待对齐音频信号和模板音频信号分别生成频域图像。

在一些实施例中，为待对齐音频信号和模板音频信号分别生成频域图像包括：利用快速傅里叶变换法为待对齐音频信号和模板音频信号分别生成频域图像。

在一些实施例中，将两个频域特征进行融合，得到融合特征包括：将两个频域特征进行拼接，得到融合特征；根据时序偏移量对待对齐音频信号进行时序对齐处理包括：根据两个频域特征在拼接时的先后顺序，确定时序偏移量的使用方式。

在一些实施例中，将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量包括：由预测网络的全连接层对融合特征进行全连接处理，得到全连接特征；由预测网络的Flat层对全连接特征进行拉平处理，得到拉平后的一维特征；由预测网络的输出层根据一维特征输出预测的时序偏移量。

在一些实施例中，时序偏移量预测模型是通过如下方式训练得到的：将一组训练样本图像输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量作为样本预测值；根据样本预测值和该组训练样本图像的样本真实值计算训练损失值，根据训练损失值对双生神经网络的参数和预测网络的参数进行更新。

在一些实施例中，方法还包括：生成样本信号的第一频域图像；对第一频域图像进行处理，得到第二频域图像，以模拟样本信号的待对齐信号；将第一频域图像和第二频域图像作为一组训练样本图像，以对时序偏移量预测模型进行在线学习训练。

在一些实施例中，对第一频域图像进行处理包括：对第一频域图像进行偏移处理，将偏移处理使用的偏移量作为该组训练样本图像的样本真实值。

在一些实施例中，对第一频域图像进行处理包括：对第一频域图像增加噪声，以模拟实际场景中的噪声干扰。

第二方面，本申请实施例还提供一种音频信号时序对齐装置，用于实现如上任一所述的音频信号时序对齐方法。

第三方面，本申请实施例还提供一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一所述的音频信号时序对齐方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储一个或多个程序，一个或多个程序当被包括多个应用程序的电子设备执行时，使得电子设备执行如上任一所述的音频信号时序对齐方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：利用深度神经网络从待对齐音频信号和模板音频信号的频域图像中进行特征提取，相较于传统的人工特征方法，鲁棒性更好，特别是在多噪声环境下，深度神经网络提取的特征更具有本质性，稳定性更好；时序偏移量预测模型是端到端的模型，直接能够预测出时序偏移量，相较于MAD、SSDA等算法，噪声的敏感性更小，匹配的精度更高，速度更快。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种音频信号时序对齐方法的流程示意图；

图2示出了根据本申请一个实施例生成的频域图像；

图3示出了根据本申请一个实施例的时序偏移量预测模型的架构示意图；

图4为本申请实施例中一种音频信号时序对齐装置的结构示意图；

图5为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人发现，利用移动延迟值、中间对齐法、特征点匹配法等虽然也能够实现音频信号时序对齐，但这些方法在噪声信号较多时效果不好，究其原因是噪声信号的随机性和多样性。

因此，发明人想到利用神经网络强大的特征表达能力，实现对噪声信号的过滤，最终实现端到端的音频信号的时序对齐。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例中一种音频信号时序对齐方法的流程示意图，如图1所示，该方法包括：

步骤S110，为待对齐音频信号和模板音频信号分别生成频域图像。

其中，待对齐音频信号可以是通过录音设备采集到的音频信号，例如可以是被测试的产品产生的音频信号。那么相应地，可以预先准备模板音频信号。

以被测试的产品为手机为例，可以利用手机播放一段.mp3格式的模板音频(从而确定模板音频信号)，并采集手机实际播放产生的音频信号作为待对齐音频信号。

本申请的实施例并不是直接将音频信号输入到时序偏移量预测模型中，而是生成与音频信号对应的频域图像作为时序偏移量预测模型的输入，这样能很好地利用深度神经网络在图像识别领域的技术基础，并且，选择频域图像而非时域图像，一方面是因为音频信号的时长并不固定，如果使用时域图像，图像的尺寸无法控制，不利于后续输入到时序偏移量预测模型进行处理；另一方面，频域图像能够表达的信息与时域图像不同，经过实验，在特征表达上有着更出色的效果。

步骤S120，将频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征。

其中，时序偏移量预测模型是一个端到端的模型，包含双生神经网络以及预测网络。双生神经网络也叫孪生神经网络，是基于两个深度神经网络建立的耦合架构。双生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。

在本申请的实施例中，双生神经网络所采用的两个深度神经网络的参数共享，可以认为两个深度神经网络完全一致，即如果将一个频域图像分别输入到这两个深度神经网络中，得到的两个频域特征是相同的。双生神经网络所采用的深度神经网络可以ResNet(Residual Network，残差网络)或VGG16等卷积神经网络为骨干网络基础上裁剪，本申请实施例不限定具体层数及每层的具体构成。

因此，本申请实施例将待对齐音频信号的频域图像以及模板音频信号的频域图像分别输入到双生神经网络中，可以不限次序，任选即可。

步骤S130，将两个频域特征进行融合，得到融合特征。这样就得到了两个音频信号的特征表达。

步骤S140，将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量。

由步骤S120～步骤S140可知，将频域图像输入到时序偏移量预测模型中，得到时序偏移量预测模型输出的时序偏移量，由此实现了端到端的时序偏移预测。

步骤S150，根据时序偏移量对待对齐音频信号进行时序对齐处理。

可见，图1所示的方法，利用深度神经网络从待对齐音频信号和模板音频信号的频域图像中进行特征提取，相较于传统的人工特征方法，鲁棒性更好，特别是在多噪声环境下，深度神经网络提取的特征更具有本质性，稳定性更好；时序偏移量预测模型是端到端的模型，直接能够预测出时序偏移量，相较于MAD(Mean Absolute Difference，绝对平均差)算法、SSDA(Sequential Similarity Detection Algorithm，序贯相似性检测算法)，噪声的敏感性更小，匹配的精度更高，速度更快。

在一些实施例中，上述方法中，为待对齐音频信号和模板音频信号分别生成频域图像包括：根据模板音频信号的时长，对待对齐音频信号进行剪切，使剪切后的待对齐音频信号的时长与模板音频信号的时长相一致；为剪切后的待对齐音频信号和模板音频信号分别生成频域图像。

在待对齐音频信号的长度(时间)与模板音频信号的长度不一致的情况下，需要对待对齐音频信号根据模板音频信号的长度进行剪切操作(cut)，剪切可采用首部、中间、尾部对齐方式中的一种，具体可根据应用要求确定。剪切后，待对齐音频信号的长度与模板音频信号的长度相同。

在一些实施例中，上述方法中，为待对齐音频信号和模板音频信号分别生成频域图像包括：利用快速傅里叶变换法为待对齐音频信号和模板音频信号分别生成频域图像。

FFT(Fast Fourier Transform，快速傅里叶变换)的基本思想是把原始的N点序列，依次分解成一系列的短序列。图2示出了根据本申请一个实施例生成的频域图像，其中，横轴方向为时间，纵轴方向为频谱，颜色代表信号的幅度。

在一些实施例中，上述方法中，将两个频域特征进行融合，得到融合特征包括：将两个频域特征进行拼接，得到融合特征；根据时序偏移量对待对齐音频信号进行时序对齐处理包括：根据两个频域特征在拼接时的先后顺序，确定时序偏移量的使用方式。

通过对两个频域特征进行拼接(concat)操作，可以将两个频域特征连接起来得到一个特征，也就是融合特征。根据两个频域特征的拼接顺序不同，得到的时序偏移量也不同，使用方式也就不同。

举例来说，将待对齐音频信号的频域特征放在前面，预测得到的是待对齐音频信号相对于模板音频信号有着1秒的延迟(时序偏移量为-1)，需要将待对齐音频信号的时序前移1秒；而如果将模板音频信号的频域特征放在前面，预测得到的是模板音频信号相对于待对齐音频信号有着1秒的超前(时序偏移量为1)，虽然同样要将待对齐音频信号的时序前移1秒，但可以看出，由于时序偏移量的正负号不同，使用方式也不同。

在一些实施例中，上述方法中，将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量包括：由预测网络的全连接层对融合特征进行全连接处理，得到全连接特征；由预测网络的Flat层对全连接特征进行拉平处理，得到拉平后的一维特征；由预测网络的输出层根据一维特征输出预测的时序偏移量。

在一个具体的实施例中，全连接层(fc)的数量优选为2，即对融合特征进行两次全连接处理，得到全连接特征。由于图像是二维的，而时序偏移量最好是一个数值，因此本申请的实施例利用Flat层对全连接特征进行拉平，得到一维特征，再利用输出层进行预测输出。

在一些实施例中，上述方法中，时序偏移量预测模型是通过如下方式训练得到的：将一组训练样本图像输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量作为样本预测值；根据样本预测值和该组训练样本图像的样本真实值计算训练损失值，根据训练损失值对双生神经网络的参数和预测网络的参数进行更新。

一组训练样本图像包括两个频域图像，可以是根据两个音频信号生成的。但是这种情况下，需要人工标注信息(标注出音频信号的时序偏移量)，也需要大量对照样本组，为解决这一问题，本申请的实施例还提出了利用在线学习进行训练的方式。

在一些实施例中，上述方法还包括：生成样本信号的第一频域图像；对第一频域图像进行处理，得到第二频域图像，以模拟样本信号的待对齐信号；将第一频域图像和第二频域图像作为一组训练样本图像，以对时序偏移量预测模型进行在线学习训练。

由此，可以生成大量的训练样本图像，不需要事先人工打标签操作，克服深度神经网络监督学习大量的样本需求。

具体来说，对第一频域图像进行处理得到第二频域图像，是用来模拟一个待对齐信号的频域图像，而且最好能够模拟实际场景出现的各类情况。

在一些实施例中，上述方法中，对第一频域图像进行处理包括：对第一频域图像进行偏移处理，将偏移处理使用的偏移量作为该组训练样本图像的样本真实值。由此可见，本申请实施例可以仅依赖样本信号，而不需要进行人工标注，实现了自动标注。偏移处理可以采用随机位移操作，模拟实际中待对齐音频信号据与模板音频信号存在时序位移的情况。位移操作可以考虑到尽可能模拟实际场景的情况，具有多样性。位移后的填充可参考图像的填充操作。

在一些实施例中，上述方法中，对第一频域图像进行处理包括：对第一频域图像增加噪声，以模拟实际场景中的噪声干扰。

由此，可以提高时序偏移量预测模型在复杂噪声环境下的健壮性和鲁棒性。噪声类型可为高斯白噪声，泊松噪声、椒盐噪声等，添加噪声时可以考虑噪声的多样性。例如，如增加高斯白噪声时，可通过调节均值和方差来获得噪声的多样性。具体增加噪声的方式可以参照现有技术实现。

图3示出了根据本申请一个实施例的时序偏移量预测模型的架构示意图。如图3所示，在训练阶段，首先为样本信号(sample)利用快速傅里叶变换FFT生成第一频域图像x1，然后对x1增加噪声并进行偏移处理，得到第二频域图像x2，并记录位移值y。最终生成的一组训练样本图像为<x1,x2,y>。

需要说明的是在其他实施例中，增加噪声和偏移处理的次序可以调换，也可以并行执行。

然后，将x1和x2分别输入到时序偏移量预测模型的双生神经网络(网络1和网络2)中，利用网络1、2实现的函数G_w(X)得到输出的频域特征G_w(x1)和G_w(x2)。该双生神经网络的两个深度神经网络共享参数w1。之后对两个频域特征G_w(x1)和G_w(x2)进行拼接concat操作，得到融合特征concat<G_w(x1),G_w(x2)>。

随后，将融合特征输入到预测网络(网络3)中，利用网络3实现的函数Y(X)得到预测的时序偏移量y′。

关于损失函数可以优选为MSE(Mean Square Error，均方误差)损失函数，具体公式为

n为样本个数，然后通过反向传播算法(Backpropagationalgorithm，BP)结合优化函数，对w1以及网络3的参数w2进行优化。优化函数可选择SGD(Stochastic Gradient Descent，随机梯度下降)、BGD(Batch Gradient Descent，批量梯度下降)等等。经过多次迭代后，参数处理稳定状态，时序偏移量预测模型收敛。

在使用训练完成的时序偏移量预测模型时，只需要省略参数优化，以及生成第二频域图像的步骤(因为可以直接根据待对齐音频信号生成频域图像了)。

例如，输出的时序偏移量为y，然后根据确定的匹配点，对待对齐音频信号进行实现调整。例如：若匹配点为k，位移量输出y为-3，则最终输出的匹配点为k-3。其中，如果待对齐音频信号经过了剪切，则匹配点需要根据剪切方式计算得到，否则可以直接选择待对齐音频信号的初始点作为匹配点。

本申请实施例还提供一种音频信号时序对齐装置，用于实现如上任一所述的音频信号时序对齐方法。

具体地，图4为本申请实施例中一种音频信号时序对齐装置的结构示意图。如图4所示，音频信号时序对齐装置400包括：

图像生成单元410，用于为待对齐音频信号和模板音频信号分别生成频域图像。

预测单元420，用于将频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量。

对齐单元430，用于根据时序偏移量对待对齐音频信号进行时序对齐处理。

在一些实施例中，上述装置中，图像生成单元410，用于根据模板音频信号的时长，对待对齐音频信号进行剪切，使剪切后的待对齐音频信号的时长与模板音频信号的时长相一致；为剪切后的待对齐音频信号和模板音频信号分别生成频域图像。

在一些实施例中，上述装置中，图像生成单元410，用于利用快速傅里叶变换法为待对齐音频信号和模板音频信号分别生成频域图像。

在一些实施例中，上述装置中，预测单元420，用于将两个频域特征进行拼接，得到融合特征；根据时序偏移量对待对齐音频信号进行时序对齐处理包括：根据两个频域特征在拼接时的先后顺序，确定时序偏移量的使用方式。

在一些实施例中，上述装置中，预测单元420，用于由预测网络的全连接层对融合特征进行全连接处理，得到全连接特征；由预测网络的Flat层对全连接特征进行拉平处理，得到拉平后的一维特征；由预测网络的输出层根据一维特征输出预测的时序偏移量。

在一些实施例中，上述装置还包括训练单元，用于通过如下方式训练得到时序偏移量预测模型：将一组训练样本图像输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量作为样本预测值；根据样本预测值和该组训练样本图像的样本真实值计算训练损失值，根据训练损失值对双生神经网络的参数和预测网络的参数进行更新。

在一些实施例中，上述装置中，训练单元，用于生成样本信号的第一频域图像；对第一频域图像进行处理，得到第二频域图像，以模拟样本信号的待对齐信号；将第一频域图像和第二频域图像作为一组训练样本图像，以对时序偏移量预测模型进行在线学习训练。

在一些实施例中，上述装置中，训练单元，用于对第一频域图像进行偏移处理，将偏移处理使用的偏移量作为该组训练样本图像的样本真实值。

在一些实施例中，上述装置中，训练单元，用于对第一频域图像增加噪声，以模拟实际场景中的噪声干扰。

能够理解，上述音频信号时序对齐装置，能够实现前述实施例中提供的由音频信号时序对齐服务器执行的音频信号时序对齐方法的各个步骤，关于音频信号时序对齐方法的相关阐释均适用于音频信号时序对齐装置，此处不再赘述。

图5是本申请的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成音频信号时序对齐装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

为待对齐音频信号和模板音频信号分别生成频域图像；将频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到双生神经网络输出的两个频域特征；将两个频域特征进行融合，得到融合特征；将融合特征输入到时序偏移量预测模型的预测网络中，得到预测网络输出的时序偏移量；根据时序偏移量对待对齐音频信号进行时序对齐处理。

上述如本申请图1所示实施例揭示的音频信号时序对齐装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中音频信号时序对齐装置执行的方法，并实现音频信号时序对齐装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中音频信号时序对齐装置执行的方法，并具体用于执行：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频信号时序对齐方法，包括：

为待对齐音频信号和模板音频信号分别生成频域图像；

将所述频域图像分别输入到时序偏移量预测模型的双生神经网络中，得到所述双生神经网络输出的两个频域特征；

将所述两个频域特征进行融合，得到融合特征；

将所述融合特征输入到时序偏移量预测模型的预测网络中，得到所述预测网络输出的时序偏移量；

根据所述时序偏移量对所述待对齐音频信号进行时序对齐处理。

2.如权利要求1所述的方法，其特征在于，所述为待对齐音频信号和模板音频信号分别生成频域图像包括：

根据所述模板音频信号的时长，对所述待对齐音频信号进行剪切，使剪切后的待对齐音频信号的时长与所述模板音频信号的时长相一致；

为剪切后的待对齐音频信号和所述模板音频信号分别生成频域图像。

3.如权利要求1所述的方法，其特征在于，所述为待对齐音频信号和模板音频信号分别生成频域图像包括：

利用快速傅里叶变换法为所述待对齐音频信号和所述模板音频信号分别生成频域图像。

4.如权利要求1所述的方法，其特征在于，所述将所述两个频域特征进行融合，得到融合特征包括：

将所述两个频域特征进行拼接，得到融合特征；

所述根据所述时序偏移量对所述待对齐音频信号进行时序对齐处理包括：根据所述两个频域特征在拼接时的先后顺序，确定所述时序偏移量的使用方式。

5.如权利要求1所述的方法，其特征在于，所述将所述融合特征输入到时序偏移量预测模型的预测网络中，得到所述预测网络输出的时序偏移量包括：

由所述预测网络的全连接层对所述融合特征进行全连接处理，得到全连接特征；

由所述预测网络的Flat层对所述全连接特征进行拉平处理，得到拉平后的一维特征；

由所述预测网络的输出层根据所述一维特征输出预测的时序偏移量。

6.如权利要求1～5中任一项所述的方法，其特征在于，所述时序偏移量预测模型是通过如下方式训练得到的：

将一组训练样本图像输入到时序偏移量预测模型的双生神经网络中，得到所述双生神经网络输出的两个频域特征；

将两个频域特征进行融合，得到融合特征；

将融合特征输入到时序偏移量预测模型的预测网络中，得到所述预测网络输出的时序偏移量作为样本预测值；

根据所述样本预测值和该组训练样本图像的样本真实值计算训练损失值，根据所述训练损失值对所述双生神经网络的参数和所述预测网络的参数进行更新。

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

生成样本信号的第一频域图像；

对所述第一频域图像进行处理，得到第二频域图像，以模拟所述样本信号的待对齐信号；

将所述第一频域图像和所述第二频域图像作为一组训练样本图像，以对所述时序偏移量预测模型进行在线学习训练。

8.如权利要求7所述的方法，其特征在于，所述对所述第一频域图像进行处理包括：

对所述第一频域图像进行偏移处理，将所述偏移处理使用的偏移量作为该组训练样本图像的样本真实值。

9.如权利要求7所述的方法，其特征在于，所述对所述第一频域图像进行处理包括：

对所述第一频域图像增加噪声，以模拟实际场景中的噪声干扰。

10.一种音频信号时序对齐装置，其特征在于，所述音频信号时序对齐装置用于实现权利要求1～9之任一所述音频信号时序对齐方法。