CN116758939B

CN116758939B - 一种多设备音频数据的对齐方法、装置及存储介质

Info

Publication number: CN116758939B
Application number: CN202311047121.7A
Authority: CN
Inventors: 卜辉; 徐昕; 刘运; 张绍极; 韦聪锦
Original assignee: Beijing Hill Shell Technology Co ltd
Current assignee: Beijing Hill Shell Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-03
Anticipated expiration: 2043-08-21
Also published as: CN116758939A

Abstract

本发明提供了一种多设备音频数据的对齐方法、装置及存储介质，属于语音识别以及人工智能交互领域，其中包括：获取多录音设备，根据多录音设备对音频信号进行录制，得到第一音频数据，并对第一音频数据进行预处理，得到第二音频数据；获取冲激信号，将冲激信号作为对齐信号，插入到第二音频数据前；获取冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐时间点，对齐多录音设备；获取冲激信号时间段，根据对齐时间点，在对齐时间点之后添加冲激信号时间段，并删除冲激信号，实现多录音设备音频数据对齐；解决了人工检测各个设备间对齐时间点费时费力、效率低下、人工成本高、存在误差，难以确保音频数据精确性的问题。

Description

一种多设备音频数据的对齐方法、装置及存储介质

技术领域

本发明属于语音识别以及人工智能交互领域，具体涉及一种多设备音频数据的对齐方法、装置及存储介质。

背景技术

随着近年来人工智能技术的不断发展，人工智能产品越来越多，不同产品背后依托的技术对设备鲁棒性要求也不断提高。语音识别或合成作为人工智能交互的主要环节，其算法的好坏直接关系到用户对产品的体验，所使用的数据则直接关乎算法的好坏。因此覆盖多设备的数据更符合现在技术的需求，如何高效处理多设备录制的数据变的尤为重要。

现阶段进行数据采集的时候，尽量保证所有设备在正式录制前没有人说话，且尽可能保证开启时间同步，采集完数据之后，针对每个设备人工进行标注找出起始音频时间点，以此来进行每个设备的录音数据对齐；因此存在着在采集多设备时，设备同时启动的误差，并且人工对起始音频进行标注存在着费时费力的情况，同样也存在着误差，难以确保音频数据的精确性。

发明内容

有鉴于此，本发明的目的在于提供一种多设备音频数据的对齐方法、装置及存储介质，以解决现有技术中人工检测出各个设备间对齐时间点费时费力、效率低下、人工成本高，和在采集多设备时，设备同时启动存在误差，难以确保音频数据的精确性的问题。

具体如下：

根据本公开实施例的一方面，提供了一种多录音设备音频数据对齐方法，包括：

步骤S1、获取多录音设备，根据所述多录音设备对音频信号进行录制，得到第一音频数据，并对所述第一音频数据进行预处理，得到第二音频数据；

步骤S2、获取冲激信号，将所述冲激信号作为对齐信号，插入到所述第二音频数据前；

步骤S3、获取所述冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐时间点，对齐所述多录音设备；

步骤S4、获取冲激信号时间段，根据所述对齐时间点，在所述对齐时间点之后添加所述冲激信号时间段，并删除所述冲激信号，实现多录音设备音频数据对齐。

根据本公开实施例的另一方面，根据所述多录音设备对音频信号进行录制，得到第一音频数据，并对所述第一音频数据进行预处理，得到第二音频数据，包括：

步骤S11、根据所述第一音频数据，检测所述第一音频数据的起始时间点；

步骤S12、根据所述起始时间点，删除所述第一音频信号起始时间点前的音频，得到第二音频数据。

根据本公开实施例的另一方面，获取所述冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐时间点，对齐所述多录音设备，包括：

所述冲激信号的音频特征为梅尔倒谱系统数。

根据本公开实施例的另一方面，包括：

S41、获取所述冲激信号的音频特征，即为第一音频特征，并将所述第一音频特征保存到数据库中；

S42、根据所述第一音频特征检测出所述冲激信号起始时间点，并记录所述起始时间点数值；

S43、在0时间点到冲激信号起始时间点之间设置采集周期，并计算各个采集点的音频特征，即为第二音频特征；

S44、采用余弦相似度方法比较所述第一音频特征与所述第二音频特征的余弦相似度，其中相似度最接近的采集点即为对齐时间点。

根据本公开实施例的另一方面，所述采集周期为10ms。

根据本公开实施例的一方面，提供了一种多录音设备音频数据对齐装置，包括：

第二音频数据获取模块：获取多录音设备，根据所述多录音设备对音频信号进行录制，得到第一音频数据，并对所述第一音频数据进行预处理，得到第二音频数据；

冲激信号插入模块：获取冲激信号，将所述冲激信号作为对齐信号，插入到所述第二音频数据前；

多录音设备对齐模块：获取所述冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐时间点，对齐所述多录音设备；

多录音设备音频数据对齐模块：获取冲激信号时间段，根据所述对齐时间点，在所述对齐时间点之后添加所述冲激信号时间段，并删除所述冲激信号，实现多录音设备音频数据对齐。

根据本公开实施例的一方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现上述任一项所述的多录音设备音频数据对齐方法。

综上所述，本公开实施例提供的技术方案可以包括以下有益效果：

本发明通过采集初始引入冲激信号作为对齐信号，并且利用对齐信号的特征找寻对齐时间点，且各个设备音频实现了自动切割，达到了解决现有技术中人工检测出各个设备间对齐时间点费时费力、效率低下、人工成本高，和在采集多设备时，设备同时启动存在误差，难以确保音频数据的精确性的有益效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例中采用的冲激信号波形示意图；

图2是本公开实施例中为了一种多录音设备音频数据对齐方法的步骤示意图；

图3是本公开实施例中一种多录音设备音频数据对齐方法中步骤S1的具体步骤拆分示意图；

图4是本公开实施例中一种多录音设备音频数据对齐方法中步骤S4的具体步骤拆分示意图；

图5是本公开实施例中一种多录音设备音频数据对齐装置的装置示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将对本公开实施例的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术在进行数据音频数据采集时，通常会尽量保证所有设备在正式录制前没有人说话，且尽可能保证开启时间同步，并且在采集完数据之后，人工针对每个设备找出第一个字的时间点，从而达到每个设备的录音数据对齐。例如“针对于不用型号、系统的手机设备说出“今天天气怎么样”，不同手机设备接收语音数据的启动时间点总是不同的”，因此多设备采集在同时启动的时候存在误差，不好操作；并且人工对音频数据的起始点进行标注费时费力，针对于数据采集的精准性同样存在误差，影响整体采集数据的质量。

对此，针对于现有技术的不足，本申请通过采用利用冲激信号代替对齐信号的方式进行音频数据对齐，所述冲激信号波形如图1所示；

其中，冲激信号是一种瞬时的、高复读的信号，具有下述的主要特性；

瞬时性：冲激信号在时间上是极短暂的，可以被看作是在极短时间间隔内发生的突然变化，通常由突然的能量传递或事件触发所产生，其时间持续非常短暂，可以近似认为是瞬时的；

高幅度性：冲激信号的振幅通常是非常高的，即使在信号的持续时间内，其振幅也可以达到非常大的值，并且具有在短时间内高能量聚集的特点；

幅度谱特性：冲激信号在频域上表现为宽带信号，其频谱在整个频率范围内具有较均匀的能量分布，并且由于冲激信号是瞬时变化的，其频率成分较广，包含了多个频率分量。

因此根据冲激信号的特征可知，将对齐信号替换为冲激信号，在减少误差方面存在着显著效果，对此根据本公开实施例的一方面，提供了一种多录音设备音频数据对齐方法，如图2所述，包括：

其中，针对于步骤S1，实现对所述音频数据进行预处理，得到第一对齐信号，如图3所述，具体为：

综上所述，对所述音频数据进行预处理，得到第一对齐信号，目的在于确保各个设备录制的有效音频数据是时间一致的，进而降低音频本身对算法带来的影响。

步骤S3、获取所述冲激信号的音频特征，并根据所述音频特征对所述冲激信号进行标注，得到对齐时间点，对齐所述多录音设备；

其中，针对于音频特征，本公开实施例所采用的音频特征为MFCC（Mel-scaleFrequency Cepstral Coefficients，梅尔倒谱系数），其中，Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系，而MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征，广泛地应用在语音识别领域。并且由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降，因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。

其中，对齐信号即冲激信号是不是录制所需要的内容，只是辅助找对齐点时间点的，所以最终是需要将对齐信号音频本身切除出去，实现各个设备的音频起始时间则为一致，达到了多录音设备对齐的目的。并且在根据所述对齐时间点，在所述对齐时间点之后添加所述冲激信号时间段，并删除所述冲激信号方面，本公开实施例实现了，检测到对齐时间点之后可以将该时间点之前的无效音频直接切割掉，直接得到后续需要的有效音频部分

针对于步骤S4，为了实现获取所述第二对齐信号的音频特征，并根据所述音频特征对所述第二对齐信号进行标注，得到第二对齐时间点，对齐所述多录音设备，如图4所述，具体为：

其中，本公开实施例中采用冲激信号代替对齐信号，对齐信号本身属于音频信号，可以提取对应的音频特征，本公开实施例中提取的特征是MFCC，也就是梅尔倒谱系数，提取出第二对齐信号的第一音频特征，之后在0时间点到第二对齐信号起始时间点之间设置采集周期，并计算各个采集点的音频特征，即为第二音频特征，利用余弦相似度的方法，分别比较0时间点到第二对齐信号起始时间点之间各个采集点的特征值与第二对齐信号的余弦相似度的值，取最大值即为最相似最接近的，得到对齐时间点。

综上所述，本公开实施例通过采集初始引入冲激信号作为对齐信号，并且利用对齐信号的特征找寻对齐时间点，且各个设备音频实现了自动切割，达到了解决现有技术中人工检测出各个设备间对齐时间点费时费力、效率低下、人工成本高，和在采集多设备时，设备同时启动存在误差，难以确保音频数据的精确性的有益效果。

一种可能的实施例中，针对于采集周期，本公开实施例中采用的采集周期为10ms，但本公开实施例对具体采集周期不做限制，其中其中采集点数与采集周期成反比，即采集周期越短，采集到的采集点数越多。

根据本公开实施例的一方面，提供了一种多录音设备音频数据对齐装置，如图5所述，包括：

第二音频数据获取模块501：获取多录音设备，根据所述多录音设备对音频信号进行录制，得到第一音频数据，并对所述第一音频数据进行预处理，得到第二音频数据；

冲激信号插入模块502：获取冲激信号，将所述冲激信号作为对齐信号，插入到所述第二音频数据前；

多录音设备对齐模块503：获取所述冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐信号时间点，对齐所述多录音设备；

多录音设备音频数据对齐模块504：获取冲激信号时间段，根据所述对齐信号时间点，在所述对齐信号时间点之后添加所述冲激信号时间段，并删除所冲激信号，实现多录音设备音频数据对齐。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开实施例中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现公开实施例公开的技术方案所期望的结果，本公开在此不进行限制。

上述具体实施方式，并不构成对本公开实施例保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开实施例的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开实施例保护范围之内。

Claims

1.一种多录音设备音频数据对齐方法，其特征在于，包括：

步骤S4、获取冲激信号时间段，根据所述对齐时间点，在所述对齐时间点之后添加所述冲激信号时间段，并删除所述冲激信号，实现多录音设备音频数据对齐；

所述冲激信号的音频特征为梅尔倒谱系统数；

还包括：

2.根据权利要求1所述的方法，其特征在于，根据所述多录音设备对音频信号进行录制，得到第一音频数据，并对所述第一音频数据进行预处理，得到第二音频数据，包括：

步骤S12、根据所述起始时间点，删除所述第一音频数据起始时间点前的音频，得到第二音频数据。

3.根据权利要求1所述的方法，其特征在于，所述采集周期为5ms。

4.一种多录音设备音频数据对齐装置，其特征在于，应用权利要求1-3任一项所述的多录音设备音频数据对齐方法，所述装置包括：

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现如权利要求1-3中任一项所述的多录音设备音频数据对齐方法。