CN109599098A - 音频处理方法和装置 - Google Patents

音频处理方法和装置 Download PDF

Info

Publication number
CN109599098A
CN109599098A CN201811296970.5A CN201811296970A CN109599098A CN 109599098 A CN109599098 A CN 109599098A CN 201811296970 A CN201811296970 A CN 201811296970A CN 109599098 A CN109599098 A CN 109599098A
Authority
CN
China
Prior art keywords
audio
car
mounted terminal
recording
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811296970.5A
Other languages
English (en)
Inventor
周星杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811296970.5A priority Critical patent/CN109599098A/zh
Publication of CN109599098A publication Critical patent/CN109599098A/zh
Priority to US16/668,087 priority patent/US11621014B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请实施例提供一种音频处理方法和装置,该方法包括,移动终端和车载终端处于连接状态,移动终端与车载终端同步播放第一音频,移动终端播放第一音频时对应的振幅为0;移动终端获取对当前环境的录制音频,录制音频包括所述车载终端播放的第一音频以及用于语音识别的第二音频;根据移动终端播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到第二音频。本申请实施例通过移动终端与车载终端同步播放第一音频,以实现能够根据移动终端播放的第一音频,得到录制音频中的用于语音识别的第二音频,提高了移动终端识别到用户语音的概率。

Description

音频处理方法和装置
技术领域
本申请实施例涉及终端技术领域,尤其涉及一种音频处理方法和装置。
背景技术
在用户开车时,用户可将移动终端和车载终端连接,若用户操作移动终端播放音乐,实际进行音乐播放的为车载终端,以达到听音乐的目的。
但是,这样在用户当前所处的环境中就存在音乐的声音。若此时,用户通过语音控制移动终端控制某一应用,则移动终端的录音中会既包括音乐的声音和用户的语音,由于音乐等声音的干扰,造成移动终端根据录音可识别到用户的语音以实现控制该应用的概率比较低。
发明内容
本申请实施例提供一种音频处理方法和装置,提高了终端识别到用户语音的概率。
第一方面,本申请实施例提供一种音频处理方法,移动终端和车载终端处于连接状态,所述方法应用于移动终端,所述方法包括:
与车载终端同步播放第一音频,所述移动终端播放第一音频时对应的振幅为0;
获取对当前环境的录制音频,所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频;
根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述与车载终端同步播放第一音频之前,还包括:
将所述第一音频缓存至本地。
在一种可能的设计中,所述根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
对所述移动终端播放的所述第一音频进行重采样处理,得到第三音频;
根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
以所述第三音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
对所述第三音频进行双通道转单通道处理,得到第四音频;
根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
以所述第四音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
第二方面,本申请实施例提供一种音频处理装置,音频处理装置和车载终端处于连接状态,包括:
播放模块,用于与车载终端同步播放第一音频,所述音频处理装置播放第一音频时对应的振幅为0;
获取模块,用于获取对当前环境的录制音频,所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频;
消除模块,用于根据所述音频处理装置播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,还包括:缓存模块;
所述缓存模块,用于与车载终端同步播放第一音频之前,将所述第一音频缓存至本地。
在一种可能的设计中,所述消除模块,具体用于:
对所述音频处理装置播放的所述第一音频进行重采样处理,得到第三音频;
根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块,具体用于:
以所述第三音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块,具体用于:
对所述第三音频进行双通道转单通道处理,得到第四音频;
根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块,具体用于:
以所述第四音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
第三方面,本申请实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,第一方面以及第一方面任一可能的设计中的方法被执行。
第四方面,本申请实施例一种终端,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,调用所述存储器中存储的计算机程序,以实现第一方面以及第一方面任一可能的设计中的方法。
本申请中,通过移动终端与车载终端同步播放第一音频,以实现能够根据移动终端播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到用于语音识别的第二音频,提高了移动终端识别到用户的语音的概率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用场景图;
图2为本申请实施例的音频处理方法的流程图;
图3为本申请实施例的音频处理装置的结构示意图一;
图4为本申请实施例的音频处理装置的结构示意图二;
图5为本申请实施例的终端的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本申请实施例提供的应用场景图。参见图1,图1中移动终端11与车载终端12处于连接状态。
具体地,移动终端11与车载终端同步播放第一音频,移动终端11播放第一音频时对应的振幅为0;移动终端11实时获取对当前环境的录制音频,录制音频包括车载终端12播放的第一音频以及用于语音识别的第二音频;移动终端11根据移动终端11播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到第二音频。
这样通过移动终端与车载终端同步播放第一音频,若用户正在通过语音控制移动终端的应用,则可消除录制音频中车载终端12播放的第一音频,移动终端11识别到录制音频中用于语音识别的第二音频的概率就比较高,即在该应用场景下,提高了用户通过语音有效控制移动终端的应用的概率。
下面结合上述的应用场景,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本申请实施例的音频处理方法的流程图,本实施例的方法包括步骤S101~步骤S103,本实施例的执行主体可为图1中的移动终端。参见图2,本实施例的方法包括:
步骤S101、与车载终端同步播放第一音频,移动终端播放第一音频时对应的振幅为0。
具体地,在移动终端与车载终端连接的状态下,移动终端将第一音频发送至车载终端进行播放。在车载终端播放该第一音频时,环境中具有声音。
在移动终端与车载终端连接的状态下,移动终端将第一音频发送至车载终端进行播放的同时,移动终端还会将第一音频缓存至本地(移动终端中),以实现移动终端在车载终端进行播放第一音频的同时,移动终端同步播放第一音频。
示例性的,用户想通过移动终端控制车载终端播放A歌曲,则移动终端对A歌曲的音频发送至车载终端进行播放,同时,移动终端播放A歌曲的音频。
进一步地,为了使得移动终端播放第一音频时,当前环境中不产生声音,移动终端播放第一音频时对应的振幅为0,也就是说移动终端播放第一音频实际上为模拟播放第一音频,移动终端实际播放的是对第一音频处理后的振幅为0的音频,以实现移动终端播放第一音频时对应的振幅为0的目的。
可以理解的是,在当前的应用场景下,用户需要车载终端播放出声音,因此,车载终端实际播放音频即为第一音频,第一音频的振幅不为0。
步骤S102、获取对当前环境的录制音频,录制音频包括车载终端播放的第一音频以及用于语音识别的第二音频。
具体地,移动终端可实时获取对当前环境的录制音频。
如上一实施例所述,移动终端播放的第一音频对应的振幅为0,车载终端播放的第一音频对应的振幅不为0,因此,移动终端获取的对当前环境的录制音频中会包括车载终端播放的第一音频。若用户正在通过语音控制应用,则当前环境中包括用于语音识别的第二音频,此时,移动终端获取的对当前环境的录制音频中除了包括车载终端播放的第一音频外,还包括用于语音识别的第二音频。
若移动终端播放第一音频时,当前环境中产生声音,这样移动终端获取的对当前环境的录制音频中还包括移动终端播放的第一音频,这样会使得对录制音频的处理变得复杂,因此,在步骤S101中需要使得移动终端播放第一音频时对应的振幅为0。
进一步地,移动终端还可控制移动终端播放第一音频时的音量为0。
步骤S103、根据移动终端播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到第二音频。
具体地,由于移动终端和车载终端同步播放第一音频,因此,移动终端可以根据移动终端模拟播放的第一音频,确定获取当前环境的录制音频时,车载终端正在播放的第一音频,或者说,获取当前环境的录制音频时,移动终端正在模拟播放的第一音频就是车载终端正在播放的第一音频。
具体地,在一种方式中,根据移动终端播放的第一音频,消除移动终端对当前环境的录制音频中的车载终端播放的第一音频,以得到第二音频,包括:
b1、对移动终端播放的第一音频进行重采样处理,得到第三音频;
具体地,此处的“移动终端播放的第一音频”为获取当前环境的录制音频时,移动终端播放的第一音频。
需要对移动终端播放的第一音频进行重采样处理的原因如下:
受限于移动终端内部的语音识别模块的性质,移动终端播放的第一音频的形式语音识别模块可能无法处理,因此,此时需要对移动终端播放的第一音频进行重采样处理,得到第三音频。可以理解的是,第三音频为与语音识别模块相匹配的音频。
b2、根据第三音频,消除录制音频中车载终端播放的第一音频,以得到第二音频。
具体地,根据第三音频,消除录制音频中车载终端播放的第一音频,以得到第二音频,可以具有如下两种、但不限于如下两种可实现的实施方式。
第一种可实现的实施方式为:根据第三音频,消除录制音频中车载终端播放的第一音频,以得到第二音频,包括:以第三音频为参考音频,消除对当前环境的录制音频中车载终端播放的第一音频,以得到用于语音识别的第二音频。
即采用回声消除算法,以该第三音频为参考数据,消除对当前环境的录制音频中的车载终端播放的第一音频。回声消除算法为现有的算法,此处不再赘述。
第二种可实现的实施方式:根据移动终端播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到第二音频,包括:
对上述的第三音频进行双通道转单通道处理,得到第四音频;
根据第四音频,消除当前环境的录制音频中车载终端播放的第一音频,以得到用于语音识别的第二音频。
即此时即采用回声消除算法,以第四音频为参考数据,消除当前环境的录制音频中的车载终端播放的第一音频,以得到用于语音识别的第二音频。
第二种方式适用于第三音频为双通道数据,移动终端中用于消除该录制音频中车载终端播放的第一音频的语音识别模块支持的通道为单通道的情形。
进一步地,对当前环境的录制音频并不是移动终端的语音识别模块获取到的,当前环境的录制音频传输至该语音识别模块需要一定的时间,作为消除当前环境的录制音频中的参考音频也不是该语音识别模块获取到的,参考音频传输至该语音识别模块也需要一定的时间,因此,语音识别模块会将参考音频和当前环境的录制音频进行时间校准,以保证参考音频是移动终端获取对当前环境的录制音频时车载终端正在播放的第一音频处理后的音频,即保证消除的准确性。
在一种方式中,语音识别模块将参考音频和当前环境的录制音频进行时间校准的过程可如下:
语音识别模块获取移动终端获取录制音频时至语音识别模块接收到该对录制音频的第一时长,获取移动终端获取录制音频时至语音识别模块接收到该录制音频对应的参考音频的第二时长;
语音识别模块将第一时长减去第二时长,得到传输延迟时长;
语音识别模块将第一时长减去传输延迟时长,得到第二时间,将语音识别模块在第二时间接收到的音频确定为该录制音频对应的参考音频,第一时间为语音识别模块接收到该录制音频的时间。
其中,该录制音频对应的参考音频为上述的第三音频或者第四音频。
本申请中,通过移动终端与车载终端同步播放第一音频,以实现能够根据移动终端播放的第一音频,消除录制音频中车载终端播放的第一音频,以得到用于语音识别的第二音频,提高了移动终端识别到用户的语音的概率。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3为本申请实施例提供的音频处理装置的结构示意图一,音频处理装置和车载终端处于连接状态;如图3所示,本实施例的装置可以包括:播放模块31、获取模块32、消除模块33;
播放模块31,用于与车载终端同步播放第一音频,所述音频处理装置播放第一音频时对应的振幅为0;
获取模块32,用于获取对当前环境的录制音频,所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频;
消除模块33,用于根据所述音频处理装置播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块33,具体用于:
对所述音频处理装置播放的所述第一音频进行重采样处理,得到第三音频;
根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块33,具体用于:
以所述第三音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块33,具体用于:
对所述第三音频进行双通道转单通道处理,得到第四音频;
根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
在一种可能的设计中,所述消除模块33,具体用于:
以所述第四音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本申请实施例提供的音频处理装置的结构示意图二,如图4所示,本实施例的装置在图3所示装置结构的基础上,进一步地,还可以包括:缓存模块34;
缓存模块34,用于与车载终端同步播放第一音频之前,将所述第一音频缓存至本地。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述
图5为本申请实施例提供的终端的结构示意图,参见图5,本实施例的终端包括:处理器51、存储器52和通信总线53,通信总线53用于连接处理器51和存储器52,处理器51与存储器52耦合;
所述存储器51用于,存储计算机程序;
所述处理器52用于,调用所述存储器中存储的计算机程序,以实现上述方法实施例中的方法。
其中,计算机程序还可存储在终端外部的存储器中。
应理解,在本申请实施例中,该处理器52可以是CPU,该处理器52还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
该存储器51可以包括只读存储器和随机存取存储器,并向处理器52提供指令和数据。存储器51还可以包括非易失性随机存取存储器。例如,存储器51还可以存储设备类型的信息。
该存储器51可以是易失性存储器或非易失性存储器,或均可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
该总线53除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线53。
本申请实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,上述方法实施例中的方法被执行。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请实施例的技术方案,而非对其限制;尽管参照前述各实施例对本申请实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例方案的范围。

Claims (14)

1.一种音频处理方法,其特征在于,移动终端和车载终端处于连接状态,所述方法应用于移动终端,所述方法包括:
与车载终端同步播放第一音频,所述移动终端播放第一音频时对应的振幅为0;
获取对当前环境的录制音频,所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频;
根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
2.根据权利要求1所述的方法,其特征在于,所述与车载终端同步播放第一音频之前,还包括:
将所述第一音频缓存至本地。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
对所述移动终端播放的所述第一音频进行重采样处理,得到第三音频;
根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
以所述第三音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
5.根据权利要求3所述的方法,其特征在于,所述根据所述移动终端播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
对所述第三音频进行双通道转单通道处理,得到第四音频;
根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频,包括:
以所述第四音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
7.一种音频处理装置,其特征在于,音频处理装置和车载终端处于连接状态,包括:
播放模块,用于与车载终端同步播放第一音频,所述音频处理装置播放第一音频时对应的振幅为0;
获取模块,用于获取对当前环境的录制音频,所述录制音频包括所述车载终端播放的所述第一音频以及用于语音识别的第二音频;
消除模块,用于根据所述音频处理装置播放的所述第一音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
8.根据权利要求7所述的装置,其特征在于,还包括:缓存模块;
所述缓存模块,用于与车载终端同步播放第一音频之前,将所述第一音频缓存至本地。
9.根据权利要求7或8所述的装置,其特征在于,所述消除模块,具体用于:
对所述音频处理装置播放的所述第一音频进行重采样处理,得到第三音频;
根据所述第三音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
10.根据权利要求9所述的装置,其特征在于,所述消除模块,具体用于:
以所述第三音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
11.根据权利要求9所述的装置,其特征在于,所述消除模块,具体用于:
对所述第三音频进行双通道转单通道处理,得到第四音频;
根据所述第四音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
12.根据权利要求11所述的装置,其特征在于,所述消除模块,具体用于:
以所述第四音频为参考音频,消除所述录制音频中所述车载终端播放的所述第一音频,以得到所述第二音频。
13.一种终端,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,调用所述存储器中存储的计算机程序,以实现权利要求1~6任一所述的方法。
14.一种可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机上运行时,权利要求1~6任一所述的方法被执行。
CN201811296970.5A 2018-11-01 2018-11-01 音频处理方法和装置 Pending CN109599098A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811296970.5A CN109599098A (zh) 2018-11-01 2018-11-01 音频处理方法和装置
US16/668,087 US11621014B2 (en) 2018-11-01 2019-10-30 Audio processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296970.5A CN109599098A (zh) 2018-11-01 2018-11-01 音频处理方法和装置

Publications (1)

Publication Number Publication Date
CN109599098A true CN109599098A (zh) 2019-04-09

Family

ID=65957164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296970.5A Pending CN109599098A (zh) 2018-11-01 2018-11-01 音频处理方法和装置

Country Status (2)

Country Link
US (1) US11621014B2 (zh)
CN (1) CN109599098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299321A (zh) * 2021-05-11 2021-08-24 南京市德赛西威汽车电子有限公司 一种车载娱乐系统多用户音频共享方法、车载系统及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019007263T5 (de) * 2019-06-20 2022-01-05 LG Electronics Inc. Anzeigegerät

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312913A (zh) * 2013-07-03 2013-09-18 苏州科达科技股份有限公司 一种消除回声的系统及方法
CN106910510A (zh) * 2017-02-16 2017-06-30 智车优行科技(北京)有限公司 车载功放设备、车辆及其音频播放处理方法
CN107452396A (zh) * 2017-09-08 2017-12-08 西安蜂语信息科技有限公司 降噪方法、装置及系统
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
CN108091341A (zh) * 2017-11-28 2018-05-29 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
US8868417B2 (en) * 2007-06-15 2014-10-21 Alon Konchitsky Handset intelligibility enhancement system using adaptive filters and signal buffers
US9462115B2 (en) * 2013-04-04 2016-10-04 James S. Rand Unified communications system and method
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CA2924443A1 (en) * 2016-02-11 2017-08-11 Stephanie England Audio transmitter and receiver
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US20200045166A1 (en) * 2017-03-08 2020-02-06 Mitsubishi Electric Corporation Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
US11189303B2 (en) * 2017-09-25 2021-11-30 Cirrus Logic, Inc. Persistent interference detection
US10943599B2 (en) * 2018-10-26 2021-03-09 Spotify Ab Audio cancellation for voice recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312913A (zh) * 2013-07-03 2013-09-18 苏州科达科技股份有限公司 一种消除回声的系统及方法
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
CN106910510A (zh) * 2017-02-16 2017-06-30 智车优行科技(北京)有限公司 车载功放设备、车辆及其音频播放处理方法
CN107452396A (zh) * 2017-09-08 2017-12-08 西安蜂语信息科技有限公司 降噪方法、装置及系统
CN108091341A (zh) * 2017-11-28 2018-05-29 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299321A (zh) * 2021-05-11 2021-08-24 南京市德赛西威汽车电子有限公司 一种车载娱乐系统多用户音频共享方法、车载系统及存储介质
CN113299321B (zh) * 2021-05-11 2022-07-29 南京市德赛西威汽车电子有限公司 一种车载娱乐系统多用户音频共享方法、车载系统及存储介质

Also Published As

Publication number Publication date
US11621014B2 (en) 2023-04-04
US20200143800A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
JP6480644B1 (ja) マルチチャネル音声認識のための適応的オーディオ強化
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
KR20210008510A (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
US20200395003A1 (en) System and method for array data simulation and customized acoustic modeling for ambient asr
CN108429994B (zh) 音频识别、回声消除方法、装置及设备
CN108269567A (zh) 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
US8682678B2 (en) Automatic realtime speech impairment correction
CN109599098A (zh) 音频处理方法和装置
CN109803059A (zh) 音频处理方法和装置
KR20210032809A (ko) 동시 통역 방법 및 장치
CN108877766A (zh) 歌曲合成方法、装置、设备及存储介质
CN110223707A (zh) 显示装置
CN110399315A (zh) 一种语音播报的处理方法、装置、终端设备及存储介质
CN113571047A (zh) 一种音频数据的处理方法、装置及设备
US20210327439A1 (en) Audio data recovery method, device and Bluetooth device
CN113035223B (zh) 音频处理方法、装置、设备及存储介质
JP2001520764A (ja) スピーチ分析システム
CN112863496A (zh) 一种语音端点检测方法以及装置
JP7343087B2 (ja) 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体
US9749746B2 (en) Devices and methods for reducing the processing time of the convergence of a spatial filter
CN109378012B (zh) 用于单通道语音设备录制音频的降噪方法及系统
CN111161712A (zh) 语音数据处理方法、装置、存储介质和计算设备
CN113593540B (zh) 一种语音处理方法、装置及设备
CN109511051A (zh) 声音再现方法及声音再现装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211021

Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.