CN109599098A

CN109599098A - 音频处理方法和装置

Info

Publication number: CN109599098A
Application number: CN201811296970.5A
Authority: CN
Inventors: 周星杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-04-09
Also published as: US11621014B2; US20200143800A1

Abstract

本申请实施例提供一种音频处理方法和装置，该方法包括，移动终端和车载终端处于连接状态，移动终端与车载终端同步播放第一音频，移动终端播放第一音频时对应的振幅为0；移动终端获取对当前环境的录制音频，录制音频包括所述车载终端播放的第一音频以及用于语音识别的第二音频；根据移动终端播放的第一音频，消除录制音频中车载终端播放的第一音频，以得到第二音频。本申请实施例通过移动终端与车载终端同步播放第一音频，以实现能够根据移动终端播放的第一音频，得到录制音频中的用于语音识别的第二音频，提高了移动终端识别到用户语音的概率。

Description

音频处理方法和装置

技术领域

本申请实施例涉及终端技术领域，尤其涉及一种音频处理方法和装置。

背景技术

在用户开车时，用户可将移动终端和车载终端连接，若用户操作移动终端播放音乐，实际进行音乐播放的为车载终端，以达到听音乐的目的。

但是，这样在用户当前所处的环境中就存在音乐的声音。若此时，用户通过语音控制移动终端控制某一应用，则移动终端的录音中会既包括音乐的声音和用户的语音，由于音乐等声音的干扰，造成移动终端根据录音可识别到用户的语音以实现控制该应用的概率比较低。

发明内容

本申请实施例提供一种音频处理方法和装置，提高了终端识别到用户语音的概率。

第一方面，本申请实施例提供一种音频处理方法，移动终端和车载终端处于连接状态，所述方法应用于移动终端，所述方法包括：

与车载终端同步播放第一音频，所述移动终端播放第一音频时对应的振幅为0；

获取对当前环境的录制音频，所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频；

根据所述移动终端播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

在一种可能的设计中，所述与车载终端同步播放第一音频之前，还包括：

将所述第一音频缓存至本地。

在一种可能的设计中，所述根据所述移动终端播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

对所述移动终端播放的所述第一音频进行重采样处理，得到第三音频；

根据所述第三音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

在一种可能的设计中，所述根据所述第三音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

以所述第三音频为参考音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

对所述第三音频进行双通道转单通道处理，得到第四音频；

根据所述第四音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

在一种可能的设计中，所述根据所述第四音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

以所述第四音频为参考音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

第二方面，本申请实施例提供一种音频处理装置，音频处理装置和车载终端处于连接状态，包括：

播放模块，用于与车载终端同步播放第一音频，所述音频处理装置播放第一音频时对应的振幅为0；

获取模块，用于获取对当前环境的录制音频，所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频；

消除模块，用于根据所述音频处理装置播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

在一种可能的设计中，还包括：缓存模块；

所述缓存模块，用于与车载终端同步播放第一音频之前，将所述第一音频缓存至本地。

在一种可能的设计中，所述消除模块，具体用于：

对所述音频处理装置播放的所述第一音频进行重采样处理，得到第三音频；

在一种可能的设计中，所述消除模块，具体用于：

对所述第三音频进行双通道转单通道处理，得到第四音频；

在一种可能的设计中，所述消除模块，具体用于：

第三方面，本申请实施例提供一种可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，第一方面以及第一方面任一可能的设计中的方法被执行。

第四方面，本申请实施例一种终端，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，调用所述存储器中存储的计算机程序，以实现第一方面以及第一方面任一可能的设计中的方法。

本申请中，通过移动终端与车载终端同步播放第一音频，以实现能够根据移动终端播放的第一音频，消除录制音频中车载终端播放的第一音频，以得到用于语音识别的第二音频，提高了移动终端识别到用户的语音的概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用场景图；

图2为本申请实施例的音频处理方法的流程图；

图3为本申请实施例的音频处理装置的结构示意图一；

图4为本申请实施例的音频处理装置的结构示意图二；

图5为本申请实施例的终端的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本申请实施例提供的应用场景图。参见图1，图1中移动终端11与车载终端12处于连接状态。

具体地，移动终端11与车载终端同步播放第一音频，移动终端11播放第一音频时对应的振幅为0；移动终端11实时获取对当前环境的录制音频，录制音频包括车载终端12播放的第一音频以及用于语音识别的第二音频；移动终端11根据移动终端11播放的第一音频，消除录制音频中车载终端播放的第一音频，以得到第二音频。

这样通过移动终端与车载终端同步播放第一音频，若用户正在通过语音控制移动终端的应用，则可消除录制音频中车载终端12播放的第一音频，移动终端11识别到录制音频中用于语音识别的第二音频的概率就比较高，即在该应用场景下，提高了用户通过语音有效控制移动终端的应用的概率。

下面结合上述的应用场景，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本申请实施例的音频处理方法的流程图，本实施例的方法包括步骤S101～步骤S103，本实施例的执行主体可为图1中的移动终端。参见图2，本实施例的方法包括：

步骤S101、与车载终端同步播放第一音频，移动终端播放第一音频时对应的振幅为0。

具体地，在移动终端与车载终端连接的状态下，移动终端将第一音频发送至车载终端进行播放。在车载终端播放该第一音频时，环境中具有声音。

在移动终端与车载终端连接的状态下，移动终端将第一音频发送至车载终端进行播放的同时，移动终端还会将第一音频缓存至本地(移动终端中)，以实现移动终端在车载终端进行播放第一音频的同时，移动终端同步播放第一音频。

示例性的，用户想通过移动终端控制车载终端播放A歌曲，则移动终端对A歌曲的音频发送至车载终端进行播放，同时，移动终端播放A歌曲的音频。

进一步地，为了使得移动终端播放第一音频时，当前环境中不产生声音，移动终端播放第一音频时对应的振幅为0，也就是说移动终端播放第一音频实际上为模拟播放第一音频，移动终端实际播放的是对第一音频处理后的振幅为0的音频，以实现移动终端播放第一音频时对应的振幅为0的目的。

可以理解的是，在当前的应用场景下，用户需要车载终端播放出声音，因此，车载终端实际播放音频即为第一音频，第一音频的振幅不为0。

步骤S102、获取对当前环境的录制音频，录制音频包括车载终端播放的第一音频以及用于语音识别的第二音频。

具体地，移动终端可实时获取对当前环境的录制音频。

如上一实施例所述，移动终端播放的第一音频对应的振幅为0，车载终端播放的第一音频对应的振幅不为0，因此，移动终端获取的对当前环境的录制音频中会包括车载终端播放的第一音频。若用户正在通过语音控制应用，则当前环境中包括用于语音识别的第二音频，此时，移动终端获取的对当前环境的录制音频中除了包括车载终端播放的第一音频外，还包括用于语音识别的第二音频。

若移动终端播放第一音频时，当前环境中产生声音，这样移动终端获取的对当前环境的录制音频中还包括移动终端播放的第一音频，这样会使得对录制音频的处理变得复杂，因此，在步骤S101中需要使得移动终端播放第一音频时对应的振幅为0。

进一步地，移动终端还可控制移动终端播放第一音频时的音量为0。

步骤S103、根据移动终端播放的第一音频，消除录制音频中车载终端播放的第一音频，以得到第二音频。

具体地，由于移动终端和车载终端同步播放第一音频，因此，移动终端可以根据移动终端模拟播放的第一音频，确定获取当前环境的录制音频时，车载终端正在播放的第一音频，或者说，获取当前环境的录制音频时，移动终端正在模拟播放的第一音频就是车载终端正在播放的第一音频。

具体地，在一种方式中，根据移动终端播放的第一音频，消除移动终端对当前环境的录制音频中的车载终端播放的第一音频，以得到第二音频，包括：

b1、对移动终端播放的第一音频进行重采样处理，得到第三音频；

具体地，此处的“移动终端播放的第一音频”为获取当前环境的录制音频时，移动终端播放的第一音频。

需要对移动终端播放的第一音频进行重采样处理的原因如下：

受限于移动终端内部的语音识别模块的性质，移动终端播放的第一音频的形式语音识别模块可能无法处理，因此，此时需要对移动终端播放的第一音频进行重采样处理，得到第三音频。可以理解的是，第三音频为与语音识别模块相匹配的音频。

b2、根据第三音频，消除录制音频中车载终端播放的第一音频，以得到第二音频。

具体地，根据第三音频，消除录制音频中车载终端播放的第一音频，以得到第二音频，可以具有如下两种、但不限于如下两种可实现的实施方式。

第一种可实现的实施方式为：根据第三音频，消除录制音频中车载终端播放的第一音频，以得到第二音频，包括：以第三音频为参考音频，消除对当前环境的录制音频中车载终端播放的第一音频，以得到用于语音识别的第二音频。

即采用回声消除算法，以该第三音频为参考数据，消除对当前环境的录制音频中的车载终端播放的第一音频。回声消除算法为现有的算法，此处不再赘述。

第二种可实现的实施方式：根据移动终端播放的第一音频，消除录制音频中车载终端播放的第一音频，以得到第二音频，包括：

对上述的第三音频进行双通道转单通道处理，得到第四音频；

根据第四音频，消除当前环境的录制音频中车载终端播放的第一音频，以得到用于语音识别的第二音频。

即此时即采用回声消除算法，以第四音频为参考数据，消除当前环境的录制音频中的车载终端播放的第一音频，以得到用于语音识别的第二音频。

第二种方式适用于第三音频为双通道数据，移动终端中用于消除该录制音频中车载终端播放的第一音频的语音识别模块支持的通道为单通道的情形。

进一步地，对当前环境的录制音频并不是移动终端的语音识别模块获取到的，当前环境的录制音频传输至该语音识别模块需要一定的时间，作为消除当前环境的录制音频中的参考音频也不是该语音识别模块获取到的，参考音频传输至该语音识别模块也需要一定的时间，因此，语音识别模块会将参考音频和当前环境的录制音频进行时间校准，以保证参考音频是移动终端获取对当前环境的录制音频时车载终端正在播放的第一音频处理后的音频，即保证消除的准确性。

在一种方式中，语音识别模块将参考音频和当前环境的录制音频进行时间校准的过程可如下：

语音识别模块获取移动终端获取录制音频时至语音识别模块接收到该对录制音频的第一时长，获取移动终端获取录制音频时至语音识别模块接收到该录制音频对应的参考音频的第二时长；

语音识别模块将第一时长减去第二时长，得到传输延迟时长；

语音识别模块将第一时长减去传输延迟时长，得到第二时间，将语音识别模块在第二时间接收到的音频确定为该录制音频对应的参考音频，第一时间为语音识别模块接收到该录制音频的时间。

其中，该录制音频对应的参考音频为上述的第三音频或者第四音频。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图3为本申请实施例提供的音频处理装置的结构示意图一，音频处理装置和车载终端处于连接状态；如图3所示，本实施例的装置可以包括：播放模块31、获取模块32、消除模块33；

播放模块31，用于与车载终端同步播放第一音频，所述音频处理装置播放第一音频时对应的振幅为0；

获取模块32，用于获取对当前环境的录制音频，所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频；

消除模块33，用于根据所述音频处理装置播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频。

在一种可能的设计中，所述消除模块33，具体用于：

对所述第三音频进行双通道转单通道处理，得到第四音频；

在一种可能的设计中，所述消除模块33，具体用于：

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本申请实施例提供的音频处理装置的结构示意图二，如图4所示，本实施例的装置在图3所示装置结构的基础上，进一步地，还可以包括：缓存模块34；

缓存模块34，用于与车载终端同步播放第一音频之前，将所述第一音频缓存至本地。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述

图5为本申请实施例提供的终端的结构示意图，参见图5，本实施例的终端包括：处理器51、存储器52和通信总线53，通信总线53用于连接处理器51和存储器52，处理器51与存储器52耦合；

所述存储器51用于，存储计算机程序；

所述处理器52用于，调用所述存储器中存储的计算机程序，以实现上述方法实施例中的方法。

其中，计算机程序还可存储在终端外部的存储器中。

应理解，在本申请实施例中，该处理器52可以是CPU，该处理器52还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器51可以包括只读存储器和随机存取存储器，并向处理器52提供指令和数据。存储器51还可以包括非易失性随机存取存储器。例如，存储器51还可以存储设备类型的信息。

该存储器51可以是易失性存储器或非易失性存储器，或均可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

该总线53除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线53。

本申请实施例提供一种可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，上述方法实施例中的方法被执行。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述各实施例对本申请实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例方案的范围。

Claims

1.一种音频处理方法，其特征在于，移动终端和车载终端处于连接状态，所述方法应用于移动终端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述与车载终端同步播放第一音频之前，还包括：

将所述第一音频缓存至本地。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述移动终端播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第三音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述移动终端播放的所述第一音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

对所述第三音频进行双通道转单通道处理，得到第四音频；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第四音频，消除所述录制音频中所述车载终端播放的所述第一音频，以得到所述第二音频，包括：

7.一种音频处理装置，其特征在于，音频处理装置和车载终端处于连接状态，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：缓存模块；

9.根据权利要求7或8所述的装置，其特征在于，所述消除模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述消除模块，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述消除模块，具体用于：

对所述第三音频进行双通道转单通道处理，得到第四音频；

12.根据权利要求11所述的装置，其特征在于，所述消除模块，具体用于：

13.一种终端，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，调用所述存储器中存储的计算机程序，以实现权利要求1～6任一所述的方法。

14.一种可读存储介质，其特征在于，包括程序或指令，当所述程序或指令在计算机上运行时，权利要求1～6任一所述的方法被执行。