CN111415675A

CN111415675A - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN111415675A
Application number: CN202010092701.8A
Authority: CN
Inventors: 张东魁; 陈孝良; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-07-14
Anticipated expiration: 2040-02-14
Also published as: CN111415675B

Abstract

本公开揭示了一种音频信号处理方法、装置、设备及存储介质，属于智能家居技术领域。所述方法包括：获取第一声卡输出的多通道麦克风信号；将多通道麦克风信号拆分成n个单通道麦克风信号；获取第二声卡输出的回采信号；将n个单通道麦克风信号与回采信号进行同步；输出同步后的n个单通道麦克风信号与回采信号。通过上述方法，使得语音交互设备能够获取到完整且同步的音频信号，从而提高了后续音频处理的准确性，进而提高录音效果。

Description

音频信号处理方法、装置、设备及存储介质

技术领域

本公开涉及智能家居技术领域，特别涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

随着人工智能的而不断发展，人们对智能音箱的使用已经十分普遍。智能音箱被配置为接收用户的语音命令，通过对该语音命令的执行以达到用户语音上网的目的。

在相关技术中，智能音箱能够通过声卡驱动来控制声卡设备工作，比如，控制声卡设备播放声音以及录音。其中，在进行录音时，智能音箱通过单个声卡设备获取采样信号，采样信号中包含麦克风信号和回采信号，后续通过回采信号对麦克风信号进行回声消除等处理，得到最终的录音信号。

在上述相关技术中，由于从单个声卡设备获得的采样信号中混合了麦克风信号和回采信号，且两种信号不同步，影响后续处理的准确性，从而影响录音效果。

发明内容

本公开提供一种音频信号处理方法、装置、设备及存储介质。所述技术方案如下：

根据本公开实施例的第一方面，提供了一种音频信号处理方法，所述方法由语音交互设备执行，所述语音交互设备包含第一声卡和第二声卡，所述方法包括：

获取所述第一声卡输出的多通道麦克风信号；所述多通道麦克风信号是通过麦克风组件输入所述语音交互设备的，经过所述第一声卡处理后所获得的n通道的声音信号，n为正整数；

将所述多通道麦克风信号拆分为n个单通道麦克风信号；

获取所述第二声卡输出的回采信号，所述回采信号是所述第二声卡记录的所述语音交互设备播放的单通道的声音信号；

将所述n个单通道麦克风信号与所述回采信号进行同步；

输出同步后的所述n个单通道麦克风信号与所述回采信号。

在一种可能的实现方式中，所述将所述n个单通道麦克风信号与所述回采信号进行同步之前，还包括：

确定第一起始位置与第二起始位置之间的先后顺序，所述第一起始位置是指所述n个单通道麦克风信号的起始位置，所述第二起始位置是指所述回采信号的起始位置；

确定所述第一起始位置与所述第二起始位置之间的时间间隔；

所述将所述n个单通道麦克风信号与所述回采信号进行同步，包括：

根据所述第一起始位置与所述第二起始位置之间的先后顺序以及时间间隔对所述n个单通道麦克风信号与所述回采信号进行同步。

在一种可能的实现方式中，所述根据所述第一起始位置与所述第二起始位置之间的先后顺序以及时间间隔对所述n个单通道麦克风信号与所述回采信号进行同步，包括：

响应于所述第一起始位置提前于所述第二起始位置，根据所述第一起始位置与所述第二起始位置之间的所述时间间隔，在所述第一起始位置之前添加N个样本点，N为正整数，所述N个样本点的持续时长等于所述时间间隔；

响应于所述第二起始位置提前于所述第一起始位置，根据所述第一起始位置与所述第二起始位置之间的所述时间间隔，在所述第二起始位置之前添加N个样本点。

在一种可能的实现方式中，所述N个样本点的数值为0。

在一种可能的实现方式中，所述n个单通道麦克风信号分别有对应的通道标识，所述n个单通道麦克风信号以采样点为单位根据所述通道标识交替存放组成所述多通道麦克风信号；所述将所述多通道麦克风信号拆分为n个单通道麦克风信号，包括：

根据所述n个单通道麦克风信号分别对应的所述通道标识，将所述多通道麦克风信号拆分为所述n个单通道麦克风信号。

在一种可能的实现方式中，所述获取所述第一声卡采集输出的多通道麦克风信号，包括：

获取所述第一声卡以预设采样频率采样、量化、编码后输出的所述多通道麦克风信号；

所述获取所述第二声卡输出的回采信号，包括：

获取所述第二声卡以所述预设采样频率采样、量化、编码后输出的所述回采信号。

根据本公开实施例的第二方面，提供了一种音频信号处理装置，所述装置用于语音交互设备中，所述语音交互设备包含第一声卡和第二声卡，所述装置包括：

第一获取模块，用于获取所述第一声卡输出的多通道麦克风信号；所述多通道麦克风信号是通过麦克风组件输入所述语音交互设备的，经过所述第一声卡处理后所获得的n通道的声音信号，n为正整数；

拆分模块，用于将所述多通道麦克风信号拆分为n个单通道麦克风信号；

第二获取模块，用于获取所述第二声卡输出的回采信号，所述回采信号是所述第二声卡记录的所述语音交互设备播放的单通道的声音信号；

同步模块，用于将所述n个单通道麦克风信号与所述回采信号进行同步；

输出模块，用于输出同步后的所述n个单通道麦克风信号与所述回采信号。

在一种可能的实现方式中，所述装置还包括：

第一确定模块，用于确定第一起始位置与第二起始位置之间的先后顺序，所述第一起始位置是指所述n个单通道麦克风信号的起始位置，所述第二起始位置是指所述回采信号的起始位置；

第二确定模块，用于确定所述第一起始位置与所述第二起始位置之间的时间间隔；

所述同步模块，用于根据所述第一起始位置与所述第二起始位置之间的先后顺序以及时间间隔对所述n个单通道麦克风信号与所述回采信号进行同步。

在一种可能的实现方式中，所述同步模块，包括：

第一添加子模块，用于响应于所述第一起始位置提前于所述第二起始位置，根据所述第一起始位置与所述第二起始位置之间的所述时间间隔，在所述第一起始位置之前添加N个样本点，N为正整数，所述N个样本点的持续时长等于所述时间间隔；

第二添加子模块，用于响应于所述第二起始位置提前于所述第一起始位置，根据所述第一起始位置与所述第二起始位置之间的所述时间间隔，在所述第二起始位置之前添加N个样本点。

在一种可能的实现方式中，所述N个样本点的数值为0。

在一种可能的实现方式中，所述n个单通道麦克风信号分别有对应的通道标识，所述n个单通道麦克风信号以采样点为单位根据所述通道标识交替存放组成所述多通道麦克风信号；所述拆分模块，用于根据所述n个单通道麦克风信号分别对应的所述通道标识，将所述多通道麦克风信号拆分为所述n个单通道麦克风信号。

在一种可能的实现方式中，所述第一获取模块，用于获取所述第一声卡以预设采样频率采样、量化、编码后输出的所述多通道麦克风信号；

所述第二获取模块，用于获取所述第二声卡以所述预设采样频率采样、量化、编码后输出的所述回采信号。

根据本公开实施例的第三方面，提供了一种音频信号处理装置，所述装置用于语音交互设备中，所述语音交互设备包含第一声卡和第二声卡，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

将所述多通道麦克风信号拆分为n个单通道麦克风信号；

将所述n个单通道麦克风信号与所述回采信号进行同步；

输出同步后的所述n个单通道麦克风信号与所述回采信号。

根据本公开实施例的第四方面，提供一种设备，所述设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现第一方面的任一可选方案所述的音频信号处理方法。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现第一方面的任一可选方案所述的音频信号处理方法。

本公开提供的技术方案可以包括以下有益效果：

在包含第一声卡和第二声卡的语音交互设备中，当语音设备处于音频播放状态时，通过获取第一声卡输出的多通道麦克风信号，将多通道麦克风信号拆分成n个单通道麦克风信号，并与获从第二声卡获取到的回采信号进行同步，将同步后的n个单通道麦克风信号和回采信号输出，使得语音交互设备能够获取到完整且同步的音频信号，从而提高了后续音频处理的准确性，进而提高录音效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一智能家居设备的应用场景的空间布局示意图；

图2示出了本公开一个示例性实施例提供的智能家居设备的结构示意图；

图3示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图；

图4示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图；

图5示出了本公开一个示例性实施例提供的一种音频信号处理装置的方框图；

图6是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开涉及智能家居技术领域，特别涉及一种音频信号处理方法。

首先，对本公开涉及的一些名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语音技术(Speech Technology)

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)智能音箱

智能音箱是音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

4)传声器

传声器俗称话筒、麦克风，是电声设备中的第一个环节。传声器是把电能转变为机械能，然后再把机械能变为电能的换能器。目前，人们利用各种换能原理制成了各种各样的传声器，录音中常用的有电容、动圈、铝带传声器等。

5)采样

在本公开中，采样，就是在实现模数转换过程中，对模拟信号进行周期性扫描，把时间上连续的信号变成时间上离散的信号的过程，采样必须遵循奈奎斯特采样定理(若频带宽度有限的，要从采样信号中无失真地恢复原信号，采样频率应大于2倍信号最高频率)，采样频率用以表示计算机每秒钟能采集多少个声音样本，采样频率越高，即采样的时间间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确。该模拟信号经过采样后还应当包含原信号中所有信息，也就是说能无失真的恢复原模拟信号。它的采样速率的下限是由采样定理确定的。

6)量化

在本公开中，量化，就是把经过采样得到的瞬时值将其幅度离散，即用一组规定的电平，把瞬时采样值用最接近的电平值来表示，通常是用二进制表示，该过程为现将采样后的信号按整个声波的幅度划分成优先个区段的集合，把落入某个区段内的样值归为一类，并赋予相同的量化值。

7)编码

在本公开中，编码，就是用一组二进制码组来表示每一个有固定电平的量化值。然而，实际上量化是在编码过程中同时完成的，故编码过程也称为模/数变换，可记作A/D。

8)采样位数

采样位数，即采样值或取样值，用来衡量声音波动变化的参数，是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数。

采样位数可以理解为声卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。

9)声卡(Sound Card)

声卡，又称音频卡，是计算机多媒体系统中基本的组成部分，是实现声波/数字信号相互转换的一种硬件，声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口使乐器发出声音。

图1是根据一示例性实施例示出的一智能家居设备的应用场景的空间布局示意图。如图1所示，在房间100中，包含了若干个智能家居设备101。

其中，智能家居设备101是具有放音功能和/或拾音功能的家居设备。例如，智能家居设备101可以包括但不限于智能音箱、智能电视、智能机器人、智能冰箱、智能空调、智能电饭煲、智能传感器(比如红外传感器、光线传感器、震动传感器以及声音传感器等)、智能净水器等固定安装或者小范围移动的设备。或者，智能家居设备101也可以是MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、智能蓝牙耳机等移动设备。

在一种可能的情况下，各个智能家居设备之间还可以通过有线网络或无线网络相连，可选地，无线网络或者有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local AreaNetwork，LAN)、城域网(MetropolitanArea Network，MAN)、广域网(Wide Area Network，MAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper TextMark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(SecureSocket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在一种可能的情况下，在房间100中，还可以包含一个或者多个控制设备102，控制设备102可以通过上述有线网络或无线网络与智能家居设备101相连，用户可以通过对控制设备102的控制，使得相应的智能家居设备执行相应的操作。在一种可能的情况下，该控制设备102可以是智能终端。在一种可能的情况下，智能终端可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表等。例如，用户可以通过智能手机，控制智能家居设备中的A设备向B设备发送数据或者信号，或者，用户通过智能手机，控制智能家居设备中的智能冰箱的温度等等。

其中，在一种可能的实现方式中，上述智能家居设备101中的一个或者多个设备也可以作为上述控制设备102。

录音即是将声音信号记录在媒质上的过程，使声音通过传声器、放大器转换为电信号，用不同的材料和工艺记录下来。录音在智能音箱中占有重要的位置，智能有了正确的和高质量的语音数据，智能音箱才能保证后续更好的用户体验。智能音箱中常用的语音数据时原始的PCM(Pulse Code Modulation，脉冲编码调制)数据，人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术，原理是用一个固定的频率对模拟信号进行采样，采样后的信号在波形上呈现为一串连续的幅值不一的脉冲，把这些脉冲的幅值按一定进度进行量化，这些量化后的数值被连续的输出、传输、处理或记录到存储介质中，所以数据音频的而产生需要经过采样、量化、编码三个过程，采样频率是设备一秒钟内对模拟信号的采样次数，采样位数比如8比特、16比特和24比特，指的是描述数字信号所使用的位数。声道数是声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。在录音时，音频驱动不停地把采样所得的PCM数据送回给上层应用，以便上层应用完成其他操作。

在相关技术中，在对声卡设备进行录音时，只能进行对一个声卡设备进行录音，也就是说，在以不同声卡设备获取麦克风信号和回采信号的情况下，录音的结果只能获得单独的麦克风信号或者单独的回采信号。为实现在从不同声卡设备获得麦克风信号和回采信号的情况下，保证录音的完整性，便于上层应用对音频信号进行处理，本公开，提供一种音频信号处理方法，从而实现对具有双声卡语音交互设备的录音，将分离的麦克风信号和回采信号进行整合和同步。接下来将结合附图对本公开实施例涉及的音频信号处理方法进行详细介绍。

在一种可能的情况下，该语音交互设备是智能家居设备的一种，请参考图2，其示出了本公开一个示例性实施例提供的智能家居设备的结构示意图，如图2所示，该语音交互设备包括主板210、外部输出/输入设备220、存储器230、外部接口240、触控系统250以及电源260。

其中，主板210中集成有处理器和控制器等处理元件，该处理器可以是高品质音频处理芯片。

外部输出/输入设备220可以包括显示组件(比如显示屏)、声音播放组件(比如扬声器)、声音采集组件(比如麦克风)以及各类按键等，该声音采集组件可以是线性和/或环形的麦克风阵列。

存储器230中存储有程序代码和数据。

外部接口240可以包括耳机接口、充电接口以及数据接口等。

触控系统250可以集成在外部输出/输入设备220的显示组件或者按键中，触控系统250用于检测用户在显示组件或者按键上执行的触控操作。

电源260用于对终端中的其它各个部件进行供电。

在本公开实施例中，主板210中的处理器可以通过执行或者调用储存器中储存的程序代码和数据来生成音频内容，将生成的音频内容通过外部输出/输入设备220进行播放。在音频内容播放的过程中，可以通过触控系统350检测用户与触控系统交互时执行的按键或者其它操作等等。

由于在现实中，由于声源的位置是不断变化的，对于麦克风收音会造成影响，因此，在本申请实施例中，为提高语音交互设备的收音效果，该语音交互设备的声音采集组件可以是由一定数目的声学传感器(一般是麦克风)组成的麦克风阵列，用于对声场的空间特性进行采样并处理，从而利用麦克风阵列接收到的音频信号来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取。

本公开中的语音交互设备具有语音播放功能，比如，该语音交互设备可以是智能音箱、智能电视、智能电视机顶盒、智能机器人等等，在该语音交互设备被唤醒并接收到用户指示进行语音播放的指令时，该语音交互设备会进行语音播放，输出对应于该语音播放指令的音频，比如，在该语音交互设备被唤醒的状态下，用户指令指示该语音交互设备播放音乐，那么该语音交互设备在接收到该指令后，对该指令做出响应，进行音乐播放。

若用户在语音交互设备正在进行音频播放的过程中，向该语音交互设备发出其他指令，那么该语音交互设备的麦克风阵列在接收用户指令的同时，也会接收到包含该语音设备发出的音频内容在内的环境中的声音，针对语音交互设备正在进行音频播放的场景，本公开提供一种音频信号处理方法。

请参考图3，其示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图，该方法可以应用于图1所示的智能家居设备的应用场景中，该方法由语音交互设备执行，该语音交互设备包含第一声卡和第二声卡，其中该语音交互设备可以是上述图1中的智能家居设备中具有语音交互功能的智能化家居设备中的一种。如图3所示，该方法可以包括以下步骤：

步骤310，获取第一声卡输出的多通道麦克风信号；该多通道麦克风信号是通过麦克风组件输入语音交互设备的，经过第一声卡处理后所获得的n通道的声音信号，n为正整数。

对于本公开中的语音交互设备，麦克风组件输入该语音交互设备的声音是n通道的声源信号，其中，通道的数量可以对应于麦克风组件中所包含的麦克风的个数，比如，若该麦克风组件所包含的麦克风的个数为4个，那么麦克风组件输入该语音交互设备的声音即为4通道的声源信号，该声源信号可以是发布语音命令的对象所发出的声音。

当该语音交互设备中麦克风阵列在采集到环境中的声音后，会将其发送到声卡中，由声卡实现声音到声音信号转变，将声波转换为数字信号。由于输入该语音交互设备的声音为多通道的，那么声卡对该声音进行处理后，输出的声音信号也为多通道，即多通道麦克风信号。

在本公开所述的实施例中，第一声卡被配置为处理麦克风组件输入的声源信号，并输出多通道麦克风信号。

步骤320，将多通道麦克风信号拆分成n个单通道麦克风信号。

由于第一声卡输出的声音信号为多通道麦克风信号，其中，每个通道的麦克风信号所记录的声源内容都是一致的，比如，对于某一采样点的声源信号，在该麦克风阵列包含四个麦克风的情况下，有4个与之对应的声卡输出的麦克风信号，每个麦克风信号都记录了该采样点声源信号的内容，只是由于麦克风阵列中，每个麦克风与声源之间的方位和/或距离不同，从而导致了各个麦克风所接收到的声源信号的频率、强度等存在差异，从而使得声卡对多通道声源信号进行处理过后输出的多通道麦克风信号存在差异。

步骤330，获取第二声卡输出的回采信号，该回采信号是该第二声卡记录的该语音交互设备播放的单通道的声音信号。

在本公开所述方法的应用场景中，该语音交互设备处于进行音频播放的状态下。在本公开所述的实施例中，第二声卡被配置为记录回采信号，其中回采信号是指该语音交互设备播放的单通道的声音信号，该回采信号无需通过该语音交互设备的麦克风阵列进行采集，而是通过在语音交互设备进行音频播放过程中，直接对该语音交互设备播放的声音信号进行记录，相当于通过第二声卡对预定交互设备播放的内容进行了信息存储。

步骤340，将n个单通道麦克风信号与回采信号进行同步。

尽管在语音交互设备进行音频播放的过程中，第一声卡和第二声卡均在对声音信号进行处理和输出，但是由于语音交互设备工作过程中不可避免的存在一定范围内误差，该误差可以是麦克风组件的工作状态所造成的，也可是第一声卡和第二声卡的工作状态造成的，也可是语音交互设备进行获取操作时产生的延迟，从而造成n个单通道麦克风信号与回采信号不同步的现象，因此该智能交互设备需要通过一定的操作将n个单通道麦克等信号与回采信号进行同步。

步骤350，输出同步后的n个单通道麦克风信号与回采信号。

在一种可能的实现方式中，将n个单通道麦克风信号与回采信号进行同步之前，还包括：

确定第一起始位置与第二起始位置之间的先后顺序，该第一起始位置是指n个单通道麦克风信号的起始位置，该第二起始位置是指回采信号的起始位置；

确定第一起始位置与第二起始位置之间的时间间隔；

将n个单通道麦克风信号与回采信号进行同步，包括：

根据第一起始位置与第二起始位置之间的先后顺序以及时间间隔对n个单通道麦克风信号与回采信号进行同步。

在一种可能的实现方式中，根据第一起始位置与第二起始位置之间的先后顺序以及时间间隔对n个单通道麦克风信号与回采信号进行同步，包括：

响应于第一起始位置提前于第二起始位置，根据第一起始位置与第二起始位置之间的时间间隔，在第一起始位置之前添加N个样本点，N为正整数，N个样本点的持续时长等于时间间隔；

响应于第二起始位置提前于第一起始位置，根据第一起始位置与第二起始位置之间的时间间隔，在第二起始位置之前添加N个样本点。

在一种可能的实现方式中，N个样本点的数值为0。

在一种可能的实现方式中，n个单通道麦克风信号分别有对应的通道标识，n个单通道麦克风信号以采样点为单位根据通道标识交替存放组成多通道麦克风信号；将多通道麦克风信号拆分为n个单通道麦克风信号，包括：

根据n个单通道麦克风信号分别对应的通道标识，将多通道麦克风信号拆分为n个单通道麦克风信号。

在一种可能的实现方式中，获取第一声卡采集输出的多通道麦克风信号，包括：

获取第一声卡以预设采样频率采样、量化、编码后输出的多通道麦克风信号；

获取第二声卡输出的回采信号，包括：

获取第二声卡以预设采样频率采样、量化、编码后输出的回采信号。

综上所述，本公开提供的音频信号处理方法，在包含第一声卡和第二声卡语音交互设备中，当语音设备处于音频播放状态时，通过获取第一声卡输出的多通道麦克风信号，将多通道麦克风信号拆分成n个单通道麦克风信号，并与获从第二声卡获取到的回采信号进行同步，将同步后的n个单通道麦克风信号和回采信号输出，使得语音交互设备能够获取到完整且同步的音频信号，从而提高了后续音频处理的准确性，进而提高录音效果。

结合图3所示实施例所示的方法内容，请参考图4，其示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图，该方法可以应用于图1所示的智能家居设备的应用场景中，该方法由语音交互设备执行，该语音交互设备包含第一声卡和第二声卡，其中该语音交互设备可以是上述图1中的智能家居设备中具有语音交互功能的智能化家居设备中的一种。如图3所示，该方法可以包括以下步骤：

步骤410，获取第一声卡以预设采样频率采样、量化、编码后输出的多通道麦克风信号。

在语音交互设备的工作过程中，声卡输出的音频信号是数字信号，声卡通过用一个固定的频率对传入语音交互设备中的模拟信号(声源信号)进行采样，并对采样后的信号的幅值按照一定精度进行量化，然后将量化后的数值输出、传输、处理或记录到存储介质中，因此上述过程也可以描述为语音交互设备从存储介质中获取第一声卡输出的多通道麦克风信号，该多通道麦克风信号是数字信号。

步骤420，将多通道麦克风信号拆分为n个单通道麦克风信号。

在一种可能的情况下，n个单通道麦克风信号分别有对应的通道标识，n个单通道麦克风信号以采样点为单位根据通道标识交替存放组成多通道麦克风信号；上述将多通道麦克风信号拆分为n个单通道麦克风信号，可以实现为：

根据n通道的声音信号分别对应的通道标识，将多通道麦克风信号拆分为n个单通道麦克风信号。

比如，假设该多通道麦克风信号为4通道麦克风信号，第一声卡以固定的采样频率读取多通道的麦克风信号，比如该采样频率为16kHz，那么该多通道麦克风信号可以表现为：

1_1

2_1

3_1

4_1

…

1_128

2_128

3_128

4_128

…

1_256

2_256

3_256

4_256

其中，1_1表示多通道麦克风信号中的第一麦克风通道的第一个音频信号，该第一麦克风通道的第一个音频信号可以是对应于第一个采样点的第一通道麦克风信号；2_1表示多通道麦克风信号中的第二麦克通道的第一个音频信号，对应于第一麦克风通道，该第二麦克通道的第一个音频信号可以是对应于第一个采样点的第一通道麦克风信号；3_1表示多通道麦克风信号中的第三麦克通道的第一个音频信号，该第三麦克通道的第一个音频信号可以是对应于第一个采样点的第三通道麦克风信号；4_1表示多通道麦克风信号中的第四麦克通道的第一个音频信号，该第四麦克通道的第一个音频信号可以是对应于第一个采样点的第四通道麦克风信号。其中1、2、3、4分别为第一麦克风通道、第二麦克风通道、第三麦克风通道以及第四麦克风通道的通道标识，通道标识后的“1”表示对应于第一个采样点，可以理解为采样点标识。

也就是说，语音交互设备在对多通道麦克风信号进行存储时，是以采样点为单位依次进行存储的，也就是先存储对应于第一采样点的麦克风信号，再存储对应于第二采样点的麦克风信号…，因此，需要对多通道的麦克风信号进行拆分。

由于多通道麦克风信号中的每一个麦克风信号都有与之对应的通道标识和采样点标识，因此可以根据通道标识和采样点标识将多通道麦克风信号拆分成n个单通道麦克风信号，并使得单通道麦克风信号中仍按照采样点标识的顺序对麦克风信号进行存储。

以上述4通道麦克风信号为例，拆分后得到4个单通道麦克风信号可以表现为：

第1麦克风通道的麦克风信号：

M1_1

M1_2

M1_3

…

M1_128

…

M1_255

M1_256

其中，M1_1对应为1_1，M1_2对应为1_2，…，M1_128对应为1_128，M1_255对应为1_255，M1_562对应为1_256。

第2麦克风通道的麦克风信号：

M2_1

M2_2

M2_3

…

M2_128

…

M2_255

M2_256

其中，M2_1对应为2_1，M2_2对应为2_2，…，M2_128对应为2_128，M2_255对应为2_255，M2_562对应为2_256。

第3麦克风通道的麦克风信号：

M3_1

M3_2

M3_3

…

M3_128

…

M3_255

M3_256

其中，M3_1对应为3_1，M3_2对应为3_2，…，M3_128对应为3_128，M3_255对应为3_255，M3_562对应为3_256。

第4麦克风通道的麦克风信号：

M4_1

M4_2

M4_3

…

M4_128

…

M4_255

M4_256

其中，M4_1对应为4_1，M4_2对应为4_2，…，M4_128对应为4_128，M4_255对应为4_255，M4_562对应为4_256。

步骤430，获取第二声卡以预设采样频率采样、量化、编码后输出的回采信号。

其中，回采信号为单通道的声音信号，对应于语音交互设备播放的音频信号，第二声卡对语音交互设备播放的音频信号的处理过程与第一声卡对应，需要说明的是，第二声卡的预设采样频率需要与第一声卡的预设采样频率保持一致，基于声卡的工作方式，上述过程也可以描述为语音交互设备从存储介质中获取第二声卡输出的回采信号。

该回采信号的存储格式可以表现为：

E1_1

E1_2

E1_3

…

E1_254

…

E1_255

E1_256

步骤440，确定第一起始位置与第二起始位置之间的先后顺序，该第一起始位置是指n个单通道麦克风信号的起始位置，该第二起始位置是指回采信号的起始位置。

由于麦克风组件在采集外界声音信号的过程中，是保持同时开启和同时关闭的，因此n个单通道麦克风信号的起始位置是保持一致的，记为第一起始位置，而由于回采信号的获取方式与多通道麦克风信号的获取方式存在差异，且分别通过不同的声卡获得，因此会存在n个单通道麦克风信号的起始位置(第一起始位置)与回采信号的起始位置(第二起始位置)不同步的现象，并且存在两种情况：第一起始位置提前于第二起始位置，或者，第二起始位置提前于第一起始位置。

步骤450，确定第一起始位置与第二起始位置之间的时间间隔。

该时间间隔可以表现为第一起始位置与第二起始位置之间相差若干个样本点，即第一起始位置提前于第二起始位置N个样本点，或者，第二起始位置提前于第一起始位置N个样本点。

步骤460，根据第一起始位置与第二起始位置之间的先后顺序以及时间间隔对n个单通道麦克风信号与回采信号进行同步。

在一种可能的情况下，响应于第一起始位置提前于第二起始位置，根据第一起始位置与第二起始位置之间的时间间隔，在第一起始位置之前添加N个样本点，N为正整数，该N个样本点的持续时长等于时间间隔；

在一种可能的情况下，N个样本点的数值为0。

对于麦克风信号相对于回采信号提前N个样本点，对麦克风信号和回采信号进同步包括：

在首次进行音频信号处理时，在麦克风信号的每个通道的起始位置添加N个样本点；则同步后的麦克风信号表现为：

同步第1通道麦克风信号：

0

…

0

M1_1

M1_2

…

M1_(256-N)

…

M1_255

M1_256

同步第2通道麦克风信号：

0

…

0

M2_1

M2_2

…

M2_(256-N)

…

M2_255

M2_256

同步第3通道麦克风信号：

0

…

0

M3_1

M3_2

…

M3_(256-N)

…

M3_255

M3_256

同步第4通道麦克风信号：

0

…

0

M4_1

M4_2

…

M4_(256-N)

…

M4_255

M4_256

其中，数值0的个数为N，且N为正整数，且N个数值使得麦克风信号与回采信号同步。

对于回采信号相对于麦克风信号提前N个样本点，对麦克风信号和回采信号进同步包括：

在首次进行音频信号处理时，在麦克风信号的每个通道的起始位置添加N个样本点；则同步后的回采信号表现为：

0

…

0

E1_1

E1_2

…

E1_(256-N)

…

E1_255

E1_256

步骤470，输出同步后的n个单通道麦克风信号与回采信号。

对于麦克风信号相对于回采信号提前N个样本点的情况，未同步的n个单通道麦克风信号与回采信号表现为：

M1_1

M1_2

…

M1_(256-N)

…

M1_255

M1_256

M2_1

M2_2

…

M2_(256-N)

…

M2_255

M2_256

M3_1

M3_2

…

M3_(256-N)

…

M3_255

M3_256

M4_1

M4_2

…

M4_(256-N)

…

M4_255

M4_256

E1_1

E1_2

…

E1_(256-N)

…

E1_255

E1_256

输出的同步后的n个单通道麦克风信号与回采信号为：

0

…

0

M1_1

M1_2

…

M1_(256-N)

…

M1_255

M1_256

0

…

0

M2_1

M2_2

…

M2_(256-N)

…

M2_255

M2_256

0

…

0

M3_1

M3_2

…

M3_(256-N)

…

M3_255

M3_256

0

…

0

M4_1

M4_2

…

M4_(256-N)

…

M4_255

M4_256

E1_1

E1_2

…

E1_(256-N)

…

E1_255

E1_256

对于回采信号相对于麦克风信号提前N个样本点的情况，未同步的n个单通道麦克风信号与回采信号表现为：

M1_1

M1_2

…

M1_(256-N)

…

M1_255

M1_256

M2_1

M2_2

…

M2_(256-N)

…

M2_255

M2_256

M3_1

M3_2

…

M3_(256-N)

…

M3_255

M3_256

M4_1

M4_2

…

M4_(256-N)

…

M4_255

M4_256

E1_1

E1_2

…

E1_(256-N)

…

E1_255

E1_256

输出的同步后的n个单通道麦克风信号与回采信号为：

M1_1

M1_2

…

M1_(256-N)

…

M1_255

M1_256

M2_1

M2_2

…

M2_(256-N)

…

M2_255

M2_256

M3_1

M3_2

…

M3_(256-N)

…

M3_255

M3_256

M4_1

M4_2

…

M4_(256-N)

…

M4_255

M4_256

0

…

0

E1_1

E1_2

…

E1_(256-N)

…

E1_255

E1_256

请参考图5，其示出了本公开一个示例性实施例提供的一种音频信号处理装置的方框图，该装置应用于图1所示的智能家居设备的应用场景中，同时，该装置应用于图2所示的语音交互设备中，用以执行上述图3以及图4所示任一实施例的方法的全部或部分步骤，该语音交互设备包含第一声卡和第二声卡，如图5所示，该装置可以包括：

第一获取模块510，用于获取第一声卡输出的多通道麦克风信号；该多通道麦克风信号是通过麦克风组件输入语音交互设备的，经过第一声卡处理后所获得的n通道的声音信号，n为正整数；

拆分模块520，用于将多通道麦克风信号拆分为n个单通道麦克风信号；

第二获取模块，用于获取第二声卡输出的回采信号，该回采信号是第二声卡记录的语音交互设备播放的单通道的声音信号；

同步模块530，用于将n个单通道麦克风信号与回采信号进行同步；

输出模块540，用于输出同步后的n个单通道麦克风信号与回采信号。

在一种可能的实现方式中，该装置还包括：

第一确定模块，用于确定第一起始位置与第二起始位置之间的先后顺序，该第一起始位置是指n个单通道麦克风信号的起始位置，该第二起始位置是指回采信号的起始位置；

第二确定模块，用于确定第一起始位置与第二起始位置之间的时间间隔；

该同步模块530，用于根据第一起始位置与第二起始位置之间的先后顺序以及时间间隔对n个单通道麦克风信号与回采信号进行同步。

在一种可能的实现方式中，该同步模块530，包括：

第一添加子模块，用于响应于第一起始位置提前于第二起始位置，根据第一起始位置与第二起始位置之间的时间间隔，在第一起始位置之前添加N个样本点，N为正整数，N个样本点的持续时长等于时间间隔；

第二添加子模块，用于响应于第二起始位置提前于第一起始位置，根据第一起始位置与第二起始位置之间的时间间隔，在第二起始位置之前添加N个样本点。

在一种可能的实现方式中，N个样本点的数值为0。

在一种可能的实现方式中，n个单通道麦克风信号分别有对应的通道标识，n个单通道麦克风信号以采样点为单位根据通道标识交替存放组成多通道麦克风信号；该拆分模块520，用于根据n个单通道麦克风信号分别对应的通道标识，将多通道麦克风信号拆分为n个单通道麦克风信号。

在一种可能的实现方式中，该第一获取模块510，用于获取第一声卡以预设采样频率采样、量化、编码后输出的多通道麦克风信号；

该第二获取模块530，用于获取第二声卡以预设采样频率采样、量化、编码后输出的回采信号。

综上所述，本公开提供的音频信号处理装置，应用于包含第一声卡和第二声卡语音交互设备中，当语音设备处于音频播放状态时，通过获取第一声卡输出的多通道麦克风信号，将多通道麦克风信号拆分成n个单通道麦克风信号，并与获从第二声卡获取到的回采信号进行同步，将同步后的n个单通道麦克风信号和回采信号输出，使得语音交互设备能够获取到完整且同步的音频信号，从而提高了后续音频处理的准确性，进而提高录音效果。

本公开一示例性实施例提供了一种音频信号处理装置，能够实现本公开上述图3以及图4所示任一实施例的方法的全部或部分步骤，该装置用于语音交互设备中，该语音交互设备包含第一声卡和第二声卡，该装置可以包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，该处理器被配置为：

获取第一声卡输出的多通道麦克风信号；多通道麦克风信号是通过麦克风组件输入语音交互设备的，经过第一声卡处理后所获得的n通道的声音信号，n为正整数；

将多通道麦克风信号拆分为n个单通道麦克风信号；

获取第二声卡输出的回采信号，该回采信号是第二声卡记录的语音交互设备播放的单通道的声音信号；

将n个单通道麦克风信号与回采信号进行同步；

输出同步后的n个单通道麦克风信号与回采信号。

确定第一起始位置与第二起始位置之间的时间间隔；

将n个单通道麦克风信号与回采信号进行同步，包括：

在一种可能的实现方式中，N个样本点的数值为0。

获取第二声卡输出的回采信号，包括：

图6是根据一示例性实施例示出的计算机设备的结构框图。该计算机设备可以实现为本公开上述方案中的智能家居设备。所述计算机设备600包括中央处理单元(CentralProcessing Unit，CPU)601、包括随机存取存储器(Random Access Memory，RAM)602和只读存储器(Read-Only Memory，ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本公开的各种实施例，所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器601通过执行该一个或一个以上程序来实现图3或图4所示的方法中，由语音交互设备执行的全部或者部分步骤。

本公开实施例还提供了一种计算机可读存储介质，用于储存为上述计算机设备所用的计算机软件指令，其包含用于执行上述音频信号处理方法所设计的程序。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上文介绍的音频信号处理方法中，由语音交互设备执行的全部或者部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，所述方法由语音交互设备执行，所述语音交互设备包含第一声卡和第二声卡，所述方法包括：

将所述多通道麦克风信号拆分为n个单通道麦克风信号；

将所述n个单通道麦克风信号与所述回采信号进行同步；

输出同步后的所述n个单通道麦克风信号与所述回采信号。

2.根据权利要求1所述的方法，其特征在于，所述将所述n个单通道麦克风信号与所述回采信号进行同步之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一起始位置与所述第二起始位置之间的先后顺序以及时间间隔对所述n个单通道麦克风信号与所述回采信号进行同步，包括：

4.根据权利要求3所述的方法，其特征在于，所述N个样本点的数值为0。

5.根据权利要求1所述的方法，其特征在于，所述n个单通道麦克风信号分别有对应的通道标识，所述n个单通道麦克风信号以采样点为单位根据所述通道标识交替存放组成所述多通道麦克风信号；所述将所述多通道麦克风信号拆分为n个单通道麦克风信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述第一声卡采集输出的多通道麦克风信号，包括：

所述获取所述第二声卡输出的回采信号，包括：

7.一种音频信号处理装置，其特征在于，所述装置用于语音交互设备中，所述语音交互设备包含第一声卡和第二声卡，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述装置，其特征在于，所述同步模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述N个样本点的数值为0。

11.根据权利要求7所述的装置，其特征在于，所述n个单通道麦克风信号分别有对应的通道标识，所述n个单通道麦克风信号以采样点为单位根据所述通道标识交替存放组成所述多通道麦克风信号；所述拆分模块，用于根据所述n个单通道麦克风信号分别对应的所述通道标识，将所述多通道麦克风信号拆分为所述n个单通道麦克风信号。

12.根据权利要求7所述的装置，其特征在于，所述第一获取模块，用于获取所述第一声卡以预设采样频率采样、量化、编码后输出的所述多通道麦克风信号；

13.一种音频信号处理装置，其特征在于，所述装置用于语音交互设备中，所述语音交互设备包含第一声卡和第二声卡，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

将所述多通道麦克风信号拆分为n个单通道麦克风信号；

将所述n个单通道麦克风信号与所述回采信号进行同步；

输出同步后的所述n个单通道麦克风信号与所述回采信号。

14.一种设备，其特征在于，所述设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的音频信号处理方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的音频信号处理方法。