CN112509595A

CN112509595A - 音频数据处理方法、系统及存储介质

Info

Publication number: CN112509595A
Application number: CN202011229072.5A
Authority: CN
Inventors: 谢芳
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-03-16

Abstract

本申请公开了一种音频数据处理方法、系统以及存储介质。处理方法包括：播放音频文件并获取第一音频数据以形成播放声音信号，采集包括播放声音信号的环境声音信号以获得第二音频数据，确定第二音频数据中播放声音信号对应的数据相对第一音频数据的信号延迟时间，根据信号延迟时间缓存第一音频数据，以和第二音频数据进行同步，消除第二音频数据中播放声音信号对应的数据以获得目标音频数据。本申请的处理方法中，根据第二音频数据中播放声音信号对应的数据相对第一音频数据的信号延迟时间，对第一音频数据缓存以便与第二音频数据进行同步，如此，避免了因第一音频数据和第二音频数据不同步导致的回声消除效果差的问题，提升了回声消除效果。

Description

音频数据处理方法、系统及存储介质

技术领域

本申请涉及多媒体领域，特别涉及一种音频数据处理方法、系统及存储介质。

背景技术

在多媒体领域回声消除系统(Automatic Echo Cancellation，AEC)得到了广泛的应用。在一些具有上下行音频数据流的使用场景，比如说终端通话，语音识别，多麦克阵列智能音响等。这些场景的拾音系统往往由于音乐以及背景噪声的干扰，导致用户的语音很难被系统获取。回声消除系统原理是对上行信号以及下行参考信号做算法处理，并将上行信号中的回声部分进行消除，从而得到干净的上行信号。为获取到干净的上行信号，如何处理上下行信号同步的问题成为回声消除的关键。

发明内容

有鉴于此，本申请提供一种音频数据处理方法、系统及存储介质。

本申请的音频数据处理方法包括：

播放音频文件并获取第一音频数据，所述第一音频数据用于形成播放声音信号；

采集包括所述播放声音信号的环境声音信号以获得第二音频数据；

确定所述第二音频数据中与所述播放声音信号对应的数据相对所述第一音频数据的信号延迟时间；和

根据所述第一音频数据和所述信号延迟时间缓存所述第一音频数据以使所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据。

在某些实施方式中，所述第一音频数据包括预设脉冲音频数据。

在某些实施方式中，所述确定所述第二音频数据中与所述播放声音信号对应的数据相对所述第一音频数据的信号延迟时间包括：

根据所述预设脉冲音频数据的脉冲周期确定所述第二音频数据中所述预设脉冲音频数据对应的数据的波峰；和

根据所述预设脉冲音频数据的波峰与所述第二音频数据中与预设脉冲音频数据对应的数据的波峰确定所述信号延迟时间。

在某些实施方式中，所述预设脉冲音频数据包括第一采样率，所述第二音频数据包括第二采样率，所述根据所述预设脉冲音频数据的波峰与所述第二音频数据中与预设脉冲音频数据对应的数据的波峰确定所述信号延迟时间包括：

对所述预设脉冲音频数据和/或所述第二音频数据进行重采样处理以使所述第二采样率与所述第一采样率相同；

确定所述预设脉冲音频数据的波峰与相应的所述第二音频数据中与所述预设脉冲音频数据对应的数据的波峰之间的采样点个数；和

根据所述采样点个数和重采样处理后的采样率计算所述信号延迟时间。

在某些实施方式中，所述根据所述第一音频数据和所述信号延迟时间缓存所述第一音频数据以使所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据包括：

缓存所述第一音频数据；和

利用回声消除算法对缓存的所述第一音频数据与经过所述信号延迟时间后的所述第二音频数据进行处理以消除所述第二音频数据中所述播放声音信号对应的数据。

在某些实施方式中，所述音频数据处理方法还包括：

对所述目标音频数据进行语音识别以获取用户指令。

本申请的音频数据处理系统，包括：

输出模块，所述输出模块可以用于播放音频文件并获取第一音频数据，所述第一音频数据用于形成播放声音信号；

输入模块，所述输入模块可以用于采集包括所述播放声音信号的环境声音信号以获得第二音频数据；

处理模块，所述处理模块可以用于确定所述第二音频数据中与所述播放声音信号对应的数据相对所述第一音频数据的信号延迟时间；以及

所述处理模块还可以用于根据所述第一音频数据和所述信号延迟时间缓存所述第一音频数据以使所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据。

在某些实施方式中，输出模块包括非线性处理单元，所述非线性处理单元用于对音频文件进行非线性处理以获取第一音频数据。

在某些实施方式中，所述输出模块还包括数模转换电路、功放单元和扬声器，所述数模转换电路用于将所述第一音频数据转换成模拟信号并通过所述功放单元驱动所述扬声器形成播放声音信号。

在某些实施方式中，所述输入模块包括麦克风和模数转换电路，所述模数转换电路将所述麦克风采集的信号转换为数字信号以获得第二音频数据。

本申请的音频数据处理系统，还包括：

一个或多个处理器、存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被所述一个或多个处理器执行，所述程序包括用于执行上述任意一项所述的音频数据处理方法的指令。

本申请还提供了一种计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行上述中任一项所述的音频数据处理方法。

本申请实施方式的音频数据处理方法、系统及存储介质中，通过获取第二音频数据中播放声音信号对应的数据与第一音频数据的信号延迟时间，从而可以对信号延迟时间进行补偿，使得第一音频数据与第二音频数据中播放声音信号对应的数据进行同步，从而，系统能够将第二音频数据中的播放声音信号对应的数据消除，得到所需的目标音频数据。如此，避免了因第一音频数据和第二音频数据不同步导致的回声消除效果差的问题，提升了回声消除效果和用户体验。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的音频数据处理方法的流程示意图；

图2是本申请某些实施方式的音频数据处理系统的模块示意图；

图3是本申请某些实施方式的音频数据处理系统的又一模块示意图；

图4是本申请某些实施方式的存储介质与处理器连接的模块示意图；

图5是本申请某些实施方式的音频数据处理系统的再一模块示意图；

图6是本申请某些实施方式的进行回声消除处理的过程示意图；

图7是本申请某些实施方式的音频数据处理方法的流程示意图；

图8是本申请某些实施方式的预设音频脉冲数据与第二音频数据的脉冲周期示意图；

图9是本申请某些实施方式的音频数据处理方法的流程示意图；

图10是本申请某些实施方式的预设音频脉冲数据与第二音频数据的采样示意图；

图11是本申请某些实施方式的音频数据处理方法的流程示意图。

主要元件符号说明：

音频数据处理系统10、输出模块11、非线性处理单元111、混音单元MIX、音量调节单元Vol、均衡器EQ、数模转换电路DAC、功放单元PA、扬声器LS、输入模块12、麦克风Mic、模数转换电路ADC、处理模块13、系统芯片14、处理器1、存储器2、程序21、可读存储介质3、可执行指令31。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在多媒体领域回声消除系统(Automatic Echo Cancellation，AEC)得到了广泛的应用。AEC系统主要用于在一些具有上下行音频数据流的使用场景，比如说终端通话，语音识别，多麦克阵列智能音响等。可以理解，通常，用户使用终端系统通话过程中，终端系统的麦克风接收到的不仅仅包含用户的语音信号还包含终端系统自身通过扬声器所发出的例如音乐等声音(这里我们将系统自身所发出的声音称为回声)和一些其它的背景噪声的干扰，导致用户的语音难以被终端系统获取识别，影响用户体验。AEC系统的目的就是将回声从收集的语音信号中消除，从而避免回声对麦克风所采集的语音信号造成干扰。

AEC主要原理是通过对从麦克风采集的上行信号以及经过均衡器(Equalizer，EQ)处理的下行参考信号做算法处理，并将上行信号中的回声部分进行消除，从而得到干净的上行信号。然而，要进行AEC算法处理，数据同步非常重要，相关技术中，AEC的技术方案由于无法对上下行信号进行针对性的、较为准确的同步，导致回音消除效果差、回声消除性能不稳定。在一些在实际的应用场景中，由于回声消不干净，语音识别拿到数据往往就带有回声信号。例如，系统语音播报:“电话来了，要接听，还是拒绝？”，此时，若回声消除不干净，“接听”“拒绝“”并可能被麦克风采集而被语音识别引擎拿到。数据中的“接听”或者“拒绝”被误认为用户指令，从而接听或者挂掉电话，给用户带来不好的用户体验。

有鉴于此，请参阅图1，本申请提供一种音频数据处理方法，处理方法包括步骤：

S11，播放音频文件并获取第一音频数据，第一音频数据用于形成播放声音信号；

S12，采集包括播放声音信号的环境声音信号以获得第二音频数据；

S13，确定第二音频数据中与播放声音信号对应的数据相对第一音频数据的信号延迟时间；和

S14，根据第一音频数据和信号延迟时间缓存第一音频数据以对第一音频数据和第二音频数据进行同步，消除第二音频数据中播放声音信号对应的数据以获得目标音频数据。

请参阅图2，本申请实施方式提供了一种音频数据处理系统10。处理系统10包括输出模块11、输入模块12、处理模块13。

S11可以由输出模块11实现，S12可以由输入模块12实现，S13和S14可以由处理模块13实现。

或者说，输出模块11可以用于播放音频文件并获取第一音频数据，第一音频数据用于形成播放声音信号。

输入模块12可以用于采集包括播放声音信号的环境声音信号以获得第二音频数据。

处理模块13可以用于确定第二音频数据中与播放声音信号对应的数据相对第一音频数据的信号延迟时间，处理模块13还可以用于信号延迟时间缓存第一音频数据以对第一音频数据和第二音频数据进行同步，消除第二音频数据中播放声音信号对应的数据以获得目标音频数据。

请参阅图3，本申请的音频数据处理系统10，还包括一个或者多个处理器1、存储器2；和一个或多个程序21，其中一个或多个程序21被存储在存储器2中，并且被一个或多个处理器1执行，程序21被处理器1执行上述音频数据处理方法的指令。

请参阅图4，本申请实施方式还提供了一种非易失性计算机可读存储介质3，可读存储介质3存储有计算机程序31，当计算机程序31被一个或多个处理器1执行时，使得处理器1执行上述的音频数据处理方法。

本申请实施方式的音频数据处理方法、系统及存储介质3中，通过获取第二音频数据中播放声音信号对应的数据与第一音频数据的信号延迟时间，从而可以对信号延迟时间进行补偿，即可以根据信号延迟时间对第一音频数据进行缓存，使得第一音频数据与第二音频数据中播放声音信号对应的数据进行同步，从而，系统能够将第二音频数据中的播放声音信号对应的数据消除，得到所需的目标音频数据。如此，避免了因第一音频数据和第二音频数据不同步导致的回声消除效果差的问题，提升了回声消除效果和用户体验。

在一些实施方式中，计算机可读存储介质3可以是内置在音频数据处理系统10的存储介质，例如可以是存储器2，也可以是能够插拔地插接在音频数据处理系统的存储介质，例如SD卡。

需要说明的是，请结合图5，音频数据处理系统10包括系统芯片(System on Chip，SOC)14、输出模块11、输入模块12以及处理模块13，其中，分别连接系统芯片14和输出模块11。系统芯片14可通过电路内置音频总线(Inter IC Sound，I2S)接口和串行外设接口(Serial Peripheral Interface，SPI)与系统芯片14相连。系统芯片14预设有音频文件，音频文件用于得到信号延迟时间。

输出模块11包括与系统芯片14电性连接的非线性处理单元111，其中，非线性处理单元111包括依次连接的混音单元MIX、音量调节单元VOL以及均衡器EQ，均衡器EQ连接处理模块13。音频文件通过混音单元MIX、音量调节单元VOL、以及均衡器EQ进行非线性处理并得到音频数据，并由均衡器EQ输出音频数据。

输出模块11还包括依次连接的数模转换电路DAC、功放单元PA和扬声器LS，数模转换电路DAC连接均衡器EQ，数模转换电路DAC将均衡器EQ输出的音频数据转换成模拟信号并通过功放单元PA驱动扬声器LS形成音频信号。

输入模块12用于采集的音频数据并发送至处理模块13，输入模块12包括麦克风Mic和模数转换电路ADC，模数转换电路ADC分别与麦克风Mic和处理模块13电性连接，模数转换电路ADC用于将麦克风Mic采集的信号转换为数字信号以获得音频数据。

还需要说明的是，处理模块13从数模转换电路DAC、扬声器、麦克风Mic、模数转换电路ADC所得到的音频数据为回声，也即是，在本申请中，第二音频数据中播放声音信号对应的数据为回声。

具体地，在音频数据处理系统10启动时，系统芯片14将预设的音频文件进行播放，从而由混音单元MIX、音量调节单元VOL、以及均衡器EQ将音频文件进行非线性处理并生成第一音频数据，并由均衡器EQ将第一音频数据同时输出至处理模块13以及数模转换电路DAC，处理模块13接收到第一音频数据，同时，第一音频数据经第一数模转换单元DAC处理生成模拟信号并在功放单元的驱动下通过扬声器形成播放声音信号。

进一步地，在扬声器形成播放声音信号的同时，麦克风Mic对环境声音信号进行采集以获得播放声音信号。可以理解，环境声音信号可包括从扬声器播放的播放声音信号以及除播放声音信号的其它声音信号。进而，麦克风获取到环境声音信号后，由第二数模转换电路将环境声音信号转换为数字信号以得到第二音频数据，并将第二音频数据发送至处理模块13，处理模块13根据第二音频数据进行处理，得到第二音频数据中播放声音信号对应的数据，可以理解，播放声音信号对应的数据与第一音频数据相似。并根据得到的播放声音信号对应的数据与第一音频数据确定得到彼此之间的时间差，即信号延迟时间。

请结合图6，更进一步地，在得到信号延迟时间后，若音频数据处理系统10再播放例如音乐或者广播等其它音频文件并生成第一音频数据后，则可将均衡器EQ发送至处理模块13的第一音频数据根据信号延迟时间进行缓存，缓存信号延迟时间后，再由处理模块13对第二音频数据和第一音频数据一并进行回声消除算法处理，从而消除第二音频数据中播放声音信号对应的数据，得到目标音频数据。

需要说明，回声消除算法可以基于频域分块处理方法或者基于LMS/NLMS、RLS(recursive least square)、APA(Affine Projection Algorithm)自适应处理方法实现，具体的回声消除算法不限。

如此，根据对信号延迟时间对处理模块直接从均衡器EQ获取的第一音频数据进行时间补偿，从而，在每次麦克风Mic获取环境声音信号时，处理模块13都能够精准地将音频数据处理系统1通过扬声器LS发出的声音消除，避免了因第一音频数据和第二音频数据不同步导致的回声消除效果差的问题，提升了回声消除效果和用户体验。

需要说明的是，在本申请中，每次音频数据处理系统10启动时，都需要对音频数据处理系统10做一次校准，也即是，在每次音频数据处理系统10启动时，先执行上述步骤S11、S12、S13，从而得到信号延迟时间，如此，每次音频数据处理系统10启动后，处理模块13都能根据当前信号延迟时间对直接从均衡器EQ获取的第一音频数据进行补偿，使得处理模块13能够同步第一音频数据和第二音频数据，从而音频数据处理系统1在进行回声消除时准确的消除回声，提升了回声消除效果，提升了用户体验。

请参阅图7，在某些实施方式中，第一音频数据包括预设音频脉冲数据，步骤S13还包括步骤：

S132：根据预设脉冲音频数据的脉冲周期确定第二音频数据中预设脉冲音频数据对应的数据的波峰；

S134：根据预设脉冲音频数据的波峰与第二音频数据中与预设脉冲音频数据对应的数据的波峰确定信号延迟时间。

在某些实施方式中，步骤S132和步骤S134可以由处理模块13完成。或者说，处理模块13还可以用于根据预设脉冲音频数据的脉冲周期确定第二音频数据中预设脉冲音频数据对应的数据的波峰，处理模块13还可以用于根据预设脉冲音频数据的波峰与第二音频数据中与预设脉冲音频数据对应的数据的波峰确定信号延迟时间。

需要说明的是，预设音频脉冲数据是由系统芯片14预设的音频文件生成，用于计算得到第一音频数据和第二音频数据的信号延迟时间，也即是，在本申请中，通过预设音频脉冲数据进行测试，得到第一音频数据从数模处理电路DAC、扬声器LS、麦克风Mic以及模数处理电路ADC到达后处理模块13所需要的时间(信号延迟时间)。脉冲音频数据包括脉冲信号，并且，脉冲信号中的脉冲呈周期性变化。另外，信号延迟时间小于脉冲周期的时长，例如，信号延迟时间为1ms，脉冲周期为100ms。

还需要说明的是，预设音频脉冲数据在数模处理电路DAC、扬声器LS、麦克风Mic以及模数处理电路ADC到达后至处理模块13的过程中，由于麦克风Mic录音时可能带有环境背景噪声，虽然可能对第二音频数据中与预设音频脉冲数据对应的数据的脉冲信号整体幅度产生影响，但变化幅度小且不影响脉冲信号的周期及其变化规律，预设音频脉冲数据的脉冲信号与第二音频数据中预设音频脉冲数据对应的数据的脉冲信号相似，因此，根据预设音频脉冲数据的脉冲信号能够确认第二音频数据中预设音频脉冲数据对应数据的波峰。在本申请中，可以以其中一个脉冲周期中幅度最大的波峰作为处理依据。

请结合图8，具体而言，处理模块13包括回声处理单元，回声处理单元可根据预设脉冲音频数据的脉冲周期选择其中一个脉冲周期，例如，选择第二个脉冲周期，并得到在该脉冲周期内的幅度最大的波峰。进而，由于预设脉冲音频数据的脉冲周期与第二音频数据中预设脉冲音频数据所对应的脉冲周期变化相同且整体接近，因此，回声处理单元可将预设脉冲音频数据的脉冲周期与第二音频数据中预设脉冲音频数据所对应的脉冲周期比对，从而得到第二音频数据中预设脉冲音频数据所对应的脉冲周期的波峰。如此，回声处理单元可根据两个脉冲周期的波峰之间间隔得到信号延迟时间。

请参阅图9，在某些实施方式中，预设脉冲音频数据包括第一采样率，第二音频数据包括第二采样率，步骤S134包括步骤：

S1342，对预设脉冲音频数据和/或第二音频数据进行重采样处理以使第二采样率与第一采样率相同；

S1344，确定预设脉冲音频数据的波峰与相应的第二音频数据中与预设脉冲音频数据对应的数据的波峰之间的采样点个数；

S1346，根据采样点个数和重采样处理后的采样率计算信号延迟时间。

请进一步结合图2，在某些实施方式中，步骤S1342、步骤S1344、步骤S1346可以由处理模块13实现。或者说，处理模块13可以用于对预设脉冲音频数据和/或第二音频数据进行重采样处理以使第二采样率与第一采样率相同。处理模块13还可以用于确定预设脉冲音频数据的波峰与相应的第二音频数据中与预设脉冲音频数据对应的数据的波峰之间的采样点个数，以及根据采样点个数和重采样处理后的采样率计算信号延迟时间。

本领域技术人员可以理解，重采样是指根据一类象元的信息内插出另一类象元信息的过程。重采样方法可包括但不限于最邻近内插法(nearest neighborinterpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubicconvolution interpolation)。

需要说明的是，由于第二音频数据是由预设脉冲音频数据在经数模处理电路DAC、扬声器LS播放并由麦克风Mic采集以及模数处理电路ADC得到。而不同的麦克风Mic采样率可能不同，麦克风Mic对环境声音信号的采样率可能与预设脉冲音频数据原本的采样率不符，导致第二音频数据中与预设脉冲音频数据对应的数据与预设脉冲音频数据的采样率不符。因此，为了便于换算，需要将第二音频数据的采样率与预设脉冲音频数据的采样率相同。

请结合图10，具体而言，确定第一采样率是否与第而二采样率相同，若第一采样率与第二采样率相同，则无需进行重采样，直接预设脉冲音频数据的波峰与相应的第二音频数据中与预设脉冲音频数据对应的数据的波峰之间的采样点个数以及采样率计算得到信号延迟时间。若第一采样率与第二采样率不同，则将预设脉冲音频数据以第二采样率进行重采样，使得预设脉冲音频数据与第二音频数据的采样率相同，或者，将第二音频数据以第一采样率进行重采样，使得预设脉冲音频数据与第二音频数据的采样率相同，进而，预设脉冲音频数据的波峰与相应的第二音频数据中与预设脉冲音频数据对应的数据的波峰之间的采样点个数，并根据采样点个数以及采样率计算得到信号延迟时间。

信号延迟时间t的具体计算公式为：

t＝1*1000*采样点个数/采样率。

例如，对应采样率为16000，采样点个数为15，则信号延迟时间t＝1*1000*15/16000＝0.9375ms。

另外，处理模块13还包括有存储单元，存储单元用于信号延迟时间，存储单元的选择信号延迟时间数据的大小来确定，使得存储单元的容量与信号延迟时间数据的大小相匹配，避免存储单元容量过大，造成浪费，或存储单元容量过小而无法实现对信号延迟时间的存储要求。

信号延迟时间数据的大小与信号延迟时间长短、预设脉冲音频数据的声道、采样率以及采样位数相关，信号延迟时间数据的大小计算公式为：

信号延迟时间数据的大小＝声道数*采样率*采样位数*信号延迟时间。

例如，在一些示例中，预设脉冲音频数据为两声道，采样率为16000次/每秒，采样位数为16bits，采样点个数为15，则预设脉冲音频数据的大小＝16*2*2*0.9375字节。

请参阅图11，在某些实施方式中，音频数据处理方法还包括步骤：

S15，对目标音频数据进行语音识别以获取用户指令。

在某些实施方式中，步骤S15可以由系统芯片14实现。或者说，系统芯片14可以用于对目标音频数据进行语音识别以获取用户指令。

具体而言，处理模块13通过电路内置音频总线将目标音频数据传输至系统芯片14，从而，由系统芯片14直接对目标音频数据进行语音识别得到用户指令，或，由系统芯片14传输至中央处理器(central processing unit，CPU)，通过中央处理器对目标音频数据进行语音识别从而用户指令，如此，通过目标音频数据进行语音识别提升了识别效率与准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指定相关的硬件来完成，该计算机程序在执行时，可包括如上述各方法的实施方式的流程。

以上实施方式仅表达了本申请的其中几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种音频数据处理方法，其特征在于，包括：

根据所述信号延迟时间缓存所述第一音频数据以对所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据。

2.如权利要求1所述的音频数据处理方法，其特征在于，所述第一音频数据包括预设脉冲音频数据。

3.如权利要求2所述的音频数据处理方法，其特征在于，所述确定所述第二音频数据中与所述播放声音信号对应的数据相对所述第一音频数据的信号延迟时间包括：

4.如权利要求3所述的音频数据处理方法，其特征在于，所述预设脉冲音频数据包括第一采样率，所述第二音频数据包括第二采样率，所述根据所述预设脉冲音频数据的波峰与所述第二音频数据中与预设脉冲音频数据对应的数据的波峰确定所述信号延迟时间包括：

5.如权利要求4所述的音频数据处理方法，其特征在于，所述根据所述信号延迟时间缓存所述第一音频数据以使所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据包括：

6.如权利要求5所述的音频数据处理方法，其特征在于，所述音频数据处理方法还包括：

对所述目标音频数据进行语音识别以获取用户指令。

7.一种音频数据处理系统，其特征在于，包括：

所述处理模块还可以用于根据所述信号延迟时间缓存所述第一音频数据以使所述第一音频数据和所述第二音频数据进行同步，消除所述第二音频数据中所述播放声音信号对应的数据以获得目标音频数据。

8.如权利要求7所述音频数据处理系统，其特征在于，所述输出模块包括非线性处理单元，所述非线性处理单元用于对音频文件进行非线性处理以获取第一音频数据。

9.如权利要求7所述音频数据处理系统，其特征在于，所述输出模块还包括数模转换电路、功放单元和扬声器，所述数模转换电路用于将所述第一音频数据转换成模拟信号并通过所述功放单元驱动所述扬声器形成播放声音信号。

10.如权利要求7所述音频数据处理系统，其特征在于，所述输入模块包括麦克风和模数转换电路，所述模数转换电路将所述麦克风采集的信号转换为数字信号以获得第二音频数据。

11.一种音频数据处理系统，其特征在于，包括：

一个或多个处理器、存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被所述一个或多个处理器执行，所述程序包括用于执行根据权利要求1-6任意一项所述的音频数据处理方法的指令。

12.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行权利要求1-6中任一项所述的音频数据处理方法。