CN115426067A

CN115426067A - 一种音频信号同步方法和相关装置

Info

Publication number: CN115426067A
Application number: CN202211064410.3A
Authority: CN
Inventors: 王朋; 王双双
Original assignee: Anhui Lingsi Intelligent Technology Co ltd
Current assignee: Anhui Lingsi Intelligent Technology Co ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-02

Abstract

本申请公开了一种音频信号同步方法和相关装置，以第一设备和第二设备为例，在目标语音发出后，从第一设备获取针对目标语音的第一音频信号和第一参考信号，从第二设备获取针对该目标语音的第二音频信号和第二参考信号。根据第一参考信号和第二参考信号，确定采样时间偏差，根据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对目标语音的语音延迟时间，从而根据语音延迟时间同步第一设备和第二设备的音频信号。由此，将分别到达不同音频设备的、且到达时间相同的第三方信号作为音频信号的对齐参考，从而基于第三方信号间的采样时间偏差，确定音频信号间的语音延迟时间，进而实现音频信号间的同步。

Description

一种音频信号同步方法和相关装置

技术领域

本发明涉及语音信号处理技术领域，尤其是涉及一种音频信号同步方法和相关装置。

背景技术

麦克风阵列是由一定数目的麦克风组成，对声场的空间特性进行采样并滤波的系统。麦克风阵列包括集中式麦克风阵列和分布式麦克风阵列，分布式麦克风阵列作为麦克风阵列的一种特定形态，由于空间覆盖范围大，在很多方面能够获得相对于集中式麦克风阵列更好的性能，同时也可以实现集中式麦克风不具备的功能，如声源定位等。

随着近年来智能设备的普及，配有麦克风的设备越来越多，如电视机、空调、冰箱等语音交互设备，这些语音交互设备的麦克风提供了组成分布式麦克风阵列的硬件条件，使得分布式麦克风阵列相关技术的落地条件更加成熟。

但是，组成分布式麦克风阵列的各语音交互设备开始采集用户语音的时间，即音频信号的开始采样时间会存在一定的差异，无法精准的控制多个语音交互设备在同一时间开始采集音频，从而导致多个语音交互设备采集的音频信号不同步，进而导致声源定位等功能存在误差等。

发明内容

针对上述问题，本申请提供一种音频信号同步方法和相关装置，用于解决多个语音交互设备的音频信号同步的问题。

基于此，本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种音频信号同步方法，所述方法包括：

从第一设备获取针对目标语音的第一音频信号和第一参考信号；

从第二设备获取针对所述目标语音的第二音频信号和第二参考信号，所述第一参考信号到达所述第一设备的时间和所述第二参考信号到达所述第二设备的时间相同；

根据所述第一参考信号和所述第二参考信号，确定采样时间偏差；

根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间；

根据所述语音延迟时间同步所述第一设备的音频信号和所述第二设备的音频信号。

可选的，所述根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间，包括：

根据所述第一音频信号和所述第二音频信号，确定音频时间偏差；

根据所述采样时间偏差和所述音频时间偏差，确定所述第一设备和所述第二设备针对于所述目标语音的语音延迟时间。

根据所述采样时间偏差调整所述第一音频信号，得到第一修正音频信号；

根据所述第一修正音频信号和所述第二音频信号，确定所述第一设备和所述第二设备针对于所述目标语音的语音延迟时间。

可选的，若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；所述根据所述第一参考信号和所述第二参考信号，确定采样时间偏差，包括：

滤除所述第一参考信号中周期性成分，得到第一预处理信号，以及滤除所述第二参考信号中周期性成分，得到第二预处理信号；

确定所述第一预处理信号对应的第一过零点集合，以及确定所述第二预处理信号对应的第二过零点集合；

根据第一目标过零点和所述第二过零点集合中各个过零点的相关性，确定所述采样时间偏差，所述第一目标过零点为所述第一过零点集合中的任意一个过零点。

可选的，所述方法还包括：

从所述第一参考信号中获取第一周期信号；

确定所述第一周期信号的周期数量和采样点数量；

根据所述第一周期信号的周期数量和采样点数量，确定所述第一设备的采样率；和/或，

从所述第二参考信号中获取第二周期信号；

确定所述第二周期信号的周期数量和采样点数量；

根据所述第二周期信号的周期数量和采样点数量，确定所述第二设备的采样率。

可选的，所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；或者，

所述第一参考信号和所述第二参考信号均为来自同一电台的电台信号。

可选的，若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号，所述方法还包括：

获取第一电力信号，以及获取第二电力信号；

根据所述第一电力信号，通过二阶高通滤波器得到第一高频信号，并对所述第一高频信号进行采样，得到所述第一参考信号；

根据所述第二电力信号，通过所述二阶高通滤波器得到第二高频信号，并对所述第二高频信号进行采样，得到所述第二参考信号。

另一方面，本申请提供了一种音频信号同步装置，其特征在于，所述装置包括：第一获取单元、第二获取单元、第一确定单元、第二确定单元和同步单元；

所述第一获取单元，用于从第一设备获取针对目标语音的第一音频信号和第一参考信号；

所述第二获取单元，用于从第二设备获取针对所述目标语音的第二音频信号和第二参考信号，所述第一参考信号到达所述第一设备的时间和所述第二参考信号到达所述第二设备的时间相同；

所述第一确定单元，用于根据所述第一参考信号和所述第二参考信号，确定采样时间偏差；

所述第二确定单元，用于根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间；

所述同步单元，用于根据所述语音延迟时间同步所述第一设备的音频信号和所述第二设备的音频信号。

可选的，所述第二确定单元，具体用于：

可选的，若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；所述第一确定单元，具体用于：

可选的，所述装置还包括第三确定单元，用于：

从所述第一参考信号中获取第一周期信号；

确定所述第一周期信号的周期数量和采样点数量；

从所述第二参考信号中获取第二周期信号；

确定所述第二周期信号的周期数量和采样点数量；

可选的，所述装置还包括预处理单元，用于：

若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号，获取第一电力信号，以及获取第二电力信号；

另一方面，本申请提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序设备或计算机程序，该计算机程序设备或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

本申请上述技术方案的优点在于：

以多个需要同步的音频设备中的两个，即第一设备和第二设备为例，在目标语音发出后，从第一设备获取针对目标语音的第一音频信号和第一参考信号，从第二设备获取针对该目标语音的第二音频信号和第二参考信号。由于第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同，故可以将第一参考信号和第二参考信号作为音频信号的对齐参考。具体地，根据第一参考信号和第二参考信号，确定采样时间偏差，根据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对目标语音的语音延迟时间，从而根据语音延迟时间同步第一设备和第二设备的音频信号。由此，将分别到达不同音频设备的、且到达时间相同的第三方信号作为音频信号的对齐参考，从而基于第三方信号间的采样时间偏差，确定音频信号间的语音延迟时间，进而实现音频信号间的同步。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种音频信号同步方法的流程图；

图2为本申请实施例提供的一种参考信号及其滤除稳态成分之后的频谱图；

图3为本申请实施例提供的一种参考信号及其对应的周期信号的示意图；

图4为本申请实施例提供的一种滤波器的频响示意图；

图5为本申请实施例提供的一种滤波器的电路示意图；

图6为本申请实施例提供的一种音频信号同步方法的场景示意图；

图7为本申请实施例提供的一种音频信号同步方法的场景示意图；

图8为本申请实施例提供的一种音频信号同步方法的流程图；

图9为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随人工智能技术的不断发展，人与机器之间的直接语音交流给人们的日常工作和生活带来极大方便，语音交互设备也层出不穷。例如，电视、空调、音箱等设备均具有语音交互功能，用户能够通过语音关键词唤醒语音交互设备，并通过语音指令控制语音交互设备。但是，若一个空间内具有多个唤醒词相同的语音交互设备，会出现一呼百应的现象。例如，家中有属于一个品牌三台空调，当用户通过“XX(该品牌的唤醒关键词)”唤醒空调后，到底哪一台空调回应用户呢。例如，为了避免一呼百应的问题，可以令距离用户最近的语音交互设备回应用户。

为了确定距离用户最近的语音交互设备，可以通过接收到声音的时间确定，但是由于组成分布式麦克风阵列的各语音交互设备开始采集用户语音的时间，即音频信号的开始采样时间会存在一定的差异，无法精准的控制多个语音交互设备在同一时间开始采集音频，从而导致多个语音交互设备采集的音频信号不同步，进而导致声源定位等功能存在误差等。相关技术中，会采用以下两种方式进行音频信号的同步。

方式一：单独采用布线的方法，在额外布置的线路上为所需的语音交互设备传输同步时钟，所有语音交互设备采用该同步时钟进行内部授时，纠正自己的实时通信(Realtime communication，RTC)时钟。然后各语音交互设备收到用户的语音指令后，把该段带有时间戳的语音指令上传云服务器，云服务器既可以对比语音指令接收先后顺序，也可以对应语音交互设备距离用户的远近。但是该种方式，不但布线成本较高，且线路与语音交互设备间的关系较为固定，安装不灵活也不方便在线路上增加语音交互设备等。

方式二：通过全球定位系统(Global Positioning System，GPS)授时，使得多个语音交互设备调整自己的RTC时钟，以便为用户的语音指令打上时间戳，从而云服务器确定语音交互设备距离用户的远近。但是该种方式需要使得各个语音交互设备均安装有GPS接收装置，成本较高。

基于此，本申请实施例提供一种音频信号同步方法，在目标语音发出后，从第一设备获取针对目标语音的第一音频信号和第一参考信号，从第二设备获取针对该目标语音的第二音频信号和第二参考信号。由于第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同，故可以将第一参考信号和第二参考信号作为音频信号的对齐参考。具体地，根据第一参考信号和第二参考信号，确定采样时间偏差，根据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对目标语音的语音延迟时间，从而根据语音延迟时间同步第一设备和第二设备的音频信号。由此，将分别到达不同音频设备的、且到达时间相同的第三方信号作为音频信号的对齐参考，从而基于第三方信号间的采样时间偏差，确定音频信号间的语音延迟时间，进而实现音频信号间的同步。此外，无需单独布线也无需额外安装GPS接收装置，降低了成本，安装较为灵活。

下面结合图1，对本申请实施例提供的一种音频信号同步方法进行介绍。参见图1，该图为本申请实施例提供的一种音频信号同步方法的流程图，该方法可以包括S101-S105。

S101：从第一设备获取针对目标语音的第一音频信号和第一参考信号。

S102：从第二设备获取针对目标语音的第二音频信号和第二参考信号。

本申请实施例不具体限定S101和S102执行的先后顺序，可以先后执行，也可以同时执行，本领域技术人员可以根据实际需要进行设置。

其中，第一设备和第二设备是处于同一空间的、需要进行音频信号同步的设备，二者均具有如麦克风等能够采集音频信号的装置。例如，第一设备和第二设备可以为均具有麦克风的两台电视。

目标语音是向第一设备和第二设备发出的语音。例如，第一设备和第二设备可以是唤醒词相同的设备，从而用户在发出包括唤醒词的目标语音后，第一设备和第二设备采集包括唤醒词的目标语音，然后针对目标语音进行音频信号同步，以便后续可以根据业务需求等确定响应目标语音的语音交互设备等。

本申请实施例不具体限定目标语音的长短，例如，目标语音可以是用户发出的全部语音，也可以是全部语音中仅包括唤醒词等关键语音指令的部分语音。作为一种可能的实现方式，目标语音可以是信噪比较高或信号幅度比较大的语音片段，以便第一设备和第二设备可以及时采集到目标语音，提高用户的交互体验。

在向第一设备和第二设备发出目标语音后，第一设备采集针对目标语音的第一音频信号，第二设备采集针对目标语音的第二音频信号。例如，通过各自的麦克风录制目标语音。由于第一设备和第二设备开始采集音频信号的时间不同，故为了后续能够对音频信号进行同步，第一设备在采集第一音频信号的同时，还可以采集第一参考信号，同理，第二设备在采集第二音频信号的同时，还可以采集第二参考信号。

其中，第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同。本申请对此不做具体限定，本领域技术人员可以根据实际需要进行设置。

例如，第一参考信号和第二参考信号为电力信号，且为了使得第一参考信号和第二参考信号分别同时到达各自对应的设备，第一参考信号和第二参考信号应该为来自同一变压器的市电交流电，即第一设备和第二设备均连接在同一个变压器的电源网络下。由于电力信号在线路上传输的速度很快，故可以认为第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同。

又如，第一参考信号和第二参考信号为电台信号。需要说明的是，此时第一设备和第二设备均包括具有接收电台信号的装置，如频率调制(Frequency Modulation，FM)接收机、其他短波收音机等。因为第一设备和第二设备是联网的，故上位机或者云服务器很容易下发指令，让内置在第一设备和第二设备包括的具有接收电台信号的装置同时接收同一电台信号，由于电波传输的速度很快，故可以认为第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同。需要说明的是，语音交互设备中安装具有接收电台信号的装置的成本低于安装GPS接收装置的成本，故可以在同步音频信号的同时，降低设备成本。

作为一种可能的实现方式，为了保证参考信号是质量较好，不是信号较差或者没有声音的信号，上位机或云服务器可以将信噪比较高的音乐或者新闻的电台信号发送给第一设备和第二设备。

S103：根据第一参考信号和第二参考信号，确定采样时间偏差。

由于第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同，故可以将第一参考信号和第二参考信号作为音频信号的对齐参考，从而基于第一参考信号和第二参考信号间的时间偏差，即采样时间偏差确定第一音频信号和第二音频信号间的语音延迟时间。

本申请实施例不具体限定采样时间偏差的确定方式，下面以一种实施例为例进行说明，参见A1-A3。

A1：滤除第一参考信号中周期性成分，得到第一预处理信号，以及滤除第二参考信号中周期性成分，得到第二预处理信号。

可以通过线性预测滤波器等方式滤除参考信号中的周期性成分，得到预处理信号。具体地，滤除第一参考信号中周期性成分，得到第一预处理信号，以及滤除第二参考信号中周期性成分，得到第二预处理信号。

下面以参考信号为电力信号为例进行说明。

可以采用线性预测滤波器滤除周期性成分，这些成分包括了工频及其各阶谐波，线性预测的残留即为非周期信号。线性滤波器可以采用归一化最小均方(normalizedLeast Mean Square，NLMS)算法或者最小二乘法(Recursive Least Square，RLS)等常规滤波器算法。

参见图2，该图为本申请实施例提供的一种参考信号及其滤除稳态成分之后的频谱图。在图2中，上方的信号为参考信号，下方的信号为预处理信号，可以看出预处理信号中包括明显的非平稳成分。

A2：滤除第一参考信号中非周期性成分，得到第三预处理信号，以及滤除第二参考信号中非周期性成分，得到第四预处理信号。

A3：根据第三预处理信号确定第一过零点集合，根据第四预处理信号确定第二过零点集合；

过零点集合中包括至少一个过零点。

本申请实施例不具体限定过零点的方式，例如，从第一参考信号中获取第一周期信号，以及从第二参考信号中获取第二周期信号。根据第一周期信号确定第一过零点集合，根据第二周期信号确定第二过零点集合。其中，参考信号中存在周期性部分，可以提取周期性部分，通过过零点确定参考信号的周期，进而确定第一参考信号和第二参考信号间的采样时间偏差。

以电力信号为例，电力信号的主要成分是50Hz成分及其倍频信号，其中50Hz成分的能量最强，可以通过常规的窄带滤波器等方式从电力信号中提取50Hz成分，即从第一参考信号中获取第一周期信号。同理，从第二参考信号中获取第二周期信号。

参见图3，该图为本申请实施例提供的一种参考信号及其对应的周期信号的示意图。在图3中，上方的信号为参考信号，下方的信号为周期信号。周期信号与横轴的交点为过零点，图3下方的周期信号包括13个过零点，进而可以确定出包括13个过零点的过零点集合。

A4：根据第一过零点集合和第二过零点集合，对齐第一预处理信号和第二预处理信号。

若对两路非周期的信号做相关性分析，是把其中一路信号，向前向后滑动，前后的时间长度，是时间偏差可能的范围，比如前后500mS，理论上每滑动一个采样点(sample)，就形成一对参考信号，就可以计算一个相关度，把所有的相关度都计算出来，就可以找到最大的相关值，这个相关值对应的滑动的时间，就是参考信号的时间差。需要说明的是，若第一参考信号和第二参考信号均为来自同一电台的电台信号时，可以采用该种方式确定采样时间偏差。

但是，经过研究发现，上述方式的计算量较大。基于此，若第一参考信号和第二参考信号为来自同一变压器的市电交流电对应的电力信号时，本申请实施例对此进行了改进。

因为这两路信号的交流电的过零点一定是同步的，显然，找到的最大相关度时，这两路信号的周期信号也是同步的，即过零点是对齐的。因此就不需要按照sample这么细的颗粒度滑动，先按照周期信号的过零点，对齐两路分离后的非周期信号，然后按照周期信号的周期为步进滑动，即可大大减少计算量。

A5：根据第一目标过零点和第二过零点集合中各个过零点的相关性，确定采样时间偏差。

根据第一预处理信号和第二预处理信号，采用互相关最大的方法确定采样时间偏差，即根据过零点的位置对不同的预处理信号进行延迟再求互相关，取互相关最大对应的延迟为采样时间偏差。具体地，对于第一设备和第二设备，固定第一设备的延迟为其中一个过零点，即第一目标过零点。其中，第一目标过零点为第一过零点集合中的任意一个过零点。对第二设备的第二预处理信号的不同过零点的位置来做延迟，再求互相关，取最大值。具体如下式：

其中，t_m1_p1为第一设备对应的第一过零点集合中的第一目标过零点，t_m2_p为第二设备对应的第二过零点集合中各个过零点，y_m1为第一设备对应的第一预处理信号，y_m2为第二设备对应的第二预处理信号，n为采样点序号，T为采样点的总数。

S104：根据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对于目标语音的语音延迟时间。

第一音频信号和第二音频信号间的语音延迟时间包括开始采样的时间偏差，故在确定出第一参考信号和第二参考信号间的采样时间偏差后，可以将采样时间偏差作为开始语音延迟时间的参考，依据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对于目标语音的语音延迟时间。

本申请实施例不具体限定确定语音延迟时间的方式，下面以两种方式为例进行说明。

方式一：根据第一音频信号和第二音频信号，确定音频时间偏差；根据采样时间偏差和音频时间偏差，确定第一设备和第二设备针对于目标语音的语音延迟时间。

第一音频信号S1和第二音频信号S2间的音频时间偏差为dTVn，第一参考信号V1和第二参考信号V2的采样时间偏差为dTVn。由于开始采样时间偏差的存在，音频时间偏差dTVn中包括采样时间偏差dTVn，故可以根据dTn＝dTVn-dTSn得到语音延迟时间dTn。

需要说明的是，信号间的偏差可以通过相关度计算确定，本申请对此不做具体限定。

方式二：根据采样时间偏差调整第一音频信号，得到第一修正音频信号；根据第一修正音频信号和第二音频信号，确定第一设备和第二设备针对于目标语音的语音延迟时间。

例如，若通过第一参考信号和第二参考信号确定第一设备相对于第二设备延迟1秒，则可以去掉第一设备的音频信号开始后的前1秒，得到第一修正音频信号，再通过对第一修正音频信号和第二音频信号间的相关度计算，得到语音延迟时间。

S105：根据语音延迟时间同步第一设备的音频信号和第二设备的音频信号。

在同步第一设备和第二设备的音频后，可以确定出第一设备和第二设备距离目标语音的远近，从而可以根据业务需求确定回应目标语音的设备，例如设定距离目标语音最近的设备作为应答设备，从而基于分布式麦克风阵列为用户提供更好的应答响应功能。

由上述技术方案可知，以多个需要同步的音频设备中的两个，即第一设备和第二设备为例，在目标语音发出后，从第一设备获取针对目标语音的第一音频信号和第一参考信号，从第二设备获取针对该目标语音的第二音频信号和第二参考信号。由于第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同，故可以将第一参考信号和第二参考信号作为音频信号的对齐参考。具体地，根据第一参考信号和第二参考信号，确定采样时间偏差，根据采样时间偏差、第一音频信号和第二音频信号，确定第一设备和第二设备针对目标语音的语音延迟时间，从而根据语音延迟时间同步第一设备和第二设备的音频信号。由此，将分别到达不同音频设备的、且到达时间相同的第三方信号作为音频信号的对齐参考，从而基于第三方信号间的采样时间偏差，确定音频信号间的语音延迟时间，进而实现音频信号间的同步。

作为一种可能的实现方式，若第一参考信号和第二参考信号为来自同一变压器的市电交流电对应的电力信号，在采集电力信号后，可以对其进行变压、滤波和采样，得到参考信号。下面具体说明。

变压是将强电通过变压器件转换成弱电信号，即电力信号从将220V转换为200mV。

因为市电交流电的主要功能是为了给电网内的设备提供AC220V\50Hz电能，因此电力信号主要频谱是50Hz的交流电，为了后续分析方便，需要接近高斯特性的噪音，这些噪音是电网内的设备不同的负载特性造成电网的影响，故为了抑制较低的50Hz工频，在采集电力信号后，通过滤波得到高频信号。由此，滤波可以实现两个功能：其一是低通滤波，保证模拟数字转换器(Analog-to-Digital Converter，ADC)不会产生频谱混叠。其二是衰减低频，保证高频的能量占比。

参见图4，该图为本申请实施例提供的一种滤波器的频响示意图。在图4中，F0略高于工频频率(50Hz)，F1等于ADC采样频率的一半，A是工频信号的响应。实际系统中，采用多个不同滤波电路级联得到。参见图5，该图为本申请实施例提供的一种滤波器的电路示意图。第一电容C1的第一端用于接收信号，第一电容C1的第二端与第一电感的R1第一端连接，第一电感R1的第二端与第二电容C2的第一端连接，第二电容C2的第二端接地，第一电感R1与第二电容C2的公共端用于输出信号。作为一种可能的实现方式，第一电容C1为1微法(uf)，第一电感R1为1K欧姆(Ω)，第二电容C2为10uf。

例如，在采集第一电力信号后，使用二阶高通滤波器，得到第一高频信号。其中，二阶高通滤波器截止频率为500Hz，可以有效抑制低频工频干扰。在采集第二电力信号后，使用二阶高通滤波器，得到第二高频信号。需要说明的是，第一电力信号与第二电力信号可以使用同一个滤波器，也可以使用不同的滤波器，本申请对此不做具体限定。

前述电力信号与高频信号均为模拟电压信号，为了后续分析，还可以通过采样将其转换为数字电压信号。具体地，对高频信号进行采样，转换为数字电压信号，即参考信号。例如，对第一高频信号进行采样，得到第一参考信号，对第二高频信号进行采样，得到第二参考信号。

为了使本申请实施例提供的技术方案更加清楚，下面结合图6和图7以两个实例对本申请实施例提供的音频信号同步方法进行说明。

实例一：有线方案。

参见图6，该图为本申请实施例提供的一种音频信号同步方法的场景示意图。图6中，以n＝3为例进行表示，即用户向三台空调发出语音指令。

在用户发出语音后，家中具有语音交互功能的语音交互设备都可以同步录到两个音频，一个是从空气中采集到的音频信号Sn，另一个是交流电噪音的参考信号Vn，其中n代表不同的设备编号。

从物理原理可知，Sn之间是高度相关的语音信号，但时间上因声程差异而并不同步，但Vn信号因是公用电网，因此也是高度相关的信号，并且由前述可知信号采集时同步的，例如，第一参考信号到达第一设备的时间和第二参考信号到达第二设备的时间相同。

1、每个语音交互设备开机后都进入等待语音信号的待机状态；

2、用户发出语音指令；

3、每个语音交互设备采集语音指令，并通过唤醒和识别引擎，确认是否位有效语音指令；

4、如果不是有效的语音指令，则返回状态1，继续等待；

5、如果是有效语音指令，上传语音指令的完整或部分录音，录音包括音频信号Sn和同步录制的参考信号，此时参考信号为电力信号Vn，上传对象是云服务器或者上位机；

6、在云服务器或者上位机的处理器中收集所有语音交互设备上传的音频信号Sn和电力信号Vn；

7、首先假定一个语音交互设备的录音为参考基准信号，其音频信号是S1，电力信号是V1，其他设备的Vn和V1进行相关度计算，根据相关度的峰值，找出时间偏差dTVn；同样的方法，Sn和S1进行相关度计算，根据相关度的峰值，找出时间偏差dTSn；相关之处可以参照前述S101-S105；

8、此时根据简单的物理常识，可以知道语音交互设备n相对语音交互设备1的语音延迟时间为：dTn＝dTVn+dTSn，其中n为设备编号[2，∞)；

9、根据dTn的差异，语音交互设备物联网服务可以依据业务需求，决策语音交互设备的应答策略。完成分布式麦克风阵列的主观体验更好的应答响应功能。

实例二：无线方案。

参见图7，该图为本申请实施例提供的一种音频信号同步方法的场景示意图。图7中，以n＝3为例进行表示，即用户向三台空调发出语音指令。

1、每个语音交互设备初始化完成，包括打开接收同一个FM频道的设置；

2、用户发出语音指令；

3、每个语音交互设备采集该指令，并通过唤醒和识别引擎，确认是否位有效语音指令；

4、如果不是有效的语音指令，则返回状态1，继续等待；

5、如果是有效语音指令，上传语音指令的完整或部分录音，录音包括语音信号Sn同步录制的参考信号，此时参考信号为电台信号FMn，上传对象是云服务器或者上位机；

6、在云服务器或者上位机的处理器中收集所有语音交互设备上传的音频信号Sn和电台信号FMn；

7、首先假定一个语音交互设备的录音为参考基准信号，其音频信号是S1，电台信号是FM1，其他设备的FMn和FM1进行相关度计算，根据相关度的峰值，找出时间偏差dTFMn；同样的方法，Sn和S1进行相关度计算，根据相关度的峰值，找出时间偏差dTSn；相关之处可以参照前述S101-S105；

8、此时根据简单的物理常识，可以知道语音交互设备n相对语音交互设备1的语音延迟时间为：dTn＝dTFMn+dTSn，其中n为设备编号[2，∞)；

本申请实施例除了提供的音频信号同步方法外，还提供了音频信号同步装置，如图8所示，包括：第一获取单元801、第二获取单元802、第一确定单元803、第二确定单元804和同步单元805；

所述第一获取单元801，用于从第一设备获取针对目标语音的第一音频信号和第一参考信号；

所述第二获取单元802，用于从第二设备获取针对所述目标语音的第二音频信号和第二参考信号，所述第一参考信号到达所述第一设备的时间和所述第二参考信号到达所述第二设备的时间相同；

所述第一确定单元803，用于根据所述第一参考信号和所述第二参考信号，确定采样时间偏差；

所述第二确定单元804，用于根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间；

所述同步单元805，用于根据所述语音延迟时间同步所述第一设备的音频信号和所述第二设备的音频信号。

作为一种可能的实现方式，所述第二确定单元804，具体用于：

作为一种可能的实现方式，所述第一确定单元803，具体用于：

作为一种可能的实现方式，所述装置还包括第三确定单元，用于：

从所述第一参考信号中获取第一周期信号；

确定所述第一周期信号的周期数量和采样点数量；

从所述第二参考信号中获取第二周期信号；

确定所述第二周期信号的周期数量和采样点数量；

作为一种可能的实现方式，所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；或者，

作为一种可能的实现方式，所述装置还包括预处理单元，用于：

本申请实施例还提供了一种计算机设备，参见图9，该图示出了本申请实施例提供的一种计算机设备的结构图，如图9所示，所述设备包括处理器910以及存储器920：

所述存储器910用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器920用于根据所述程序代码中的指令执行上述实施例提供的任一种音频信号同步方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序于执行上述实施例提供的任一种音频信号同步方法。

本申请实施例还提供了一种计算机程序设备或计算机程序，该计算机程序设备或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的音频信号同步方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频信号同步方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述采样时间偏差、所述第一音频信号和所述第二音频信号，确定所述第一设备和第二设备针对于所述目标语音的语音延迟时间，包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；或者，

5.根据权利要求4所述的方法，其特征在于，若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号；所述根据所述第一参考信号和所述第二参考信号，确定采样时间偏差，包括：

滤除所述第一参考信号中非周期性成分，得到第三预处理信号，以及滤除所述第二参考信号中非周期性成分，得到第四预处理信号；

根据所述第三预处理信号确定第一过零点集合，根据所述第四预处理信号确定第二过零点集合；

根据所述第一过零点集合和所述第二过零点集合，对齐所述第一预处理信号和所述第二预处理信号；

6.根据权利要求4所述的方法，其特征在于，若所述第一参考信号和所述第二参考信号为来自同一变压器的市电交流电对应的电力信号，所述方法还包括：

获取第一电力信号，以及获取第二电力信号；

7.一种音频信号同步装置，其特征在于，所述装置包括：第一获取单元、第二获取单元、第一确定单元、第二确定单元和同步单元；

8.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6任意一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序或指令；当所述计算机程序或指令被处理器执行时，执行权利要求1-6任意一项所述的方法。