CN111402868B

CN111402868B - 语音识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111402868B
Application number: CN202010185078.0A
Authority: CN
Inventors: 欧阳能钧; 许峻华; 宋政斌; 杨丹青; 徐刚
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-10-24
Anticipated expiration: 2040-03-17
Also published as: EP3882914A1; JP2021149086A; US20210295857A1; DK3882914T3; JP7209674B2; EP3882914B1; CN111402868A

Abstract

本申请公开了一种语音识别方法、装置、电子设备及计算机可读存储介质，涉及语音识别技术领域。具体实现方案为：根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值；获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号；根据所述第二参考信号对采集的第二麦克风信号进行消噪处理，得到待识别语音信号；对所述待识别语音信号进行识别。根据本申请中方案，可以增强语音识别效果。

Description

语音识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人们对出行舒适度的要求越来越高，传统的前装汽车电子已经不能满足人们的需求。而车机互联可以有效弥补导航、音乐、语音等出行需求，因此，车机互联逐渐被人们接受。但在车机互联的情况下，由于车载终端播放音频时的传输时延较多，将会造成现有识别输入语音时的降噪方式无法满足降噪需求，导致语音识别效果差。

发明内容

本申请实施例提供一种语音识别方法、装置、电子设备及计算机可读存储介质，以解决现有技术中的语音识别效果差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音识别方法，包括：

根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值；

获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号；

根据所述第二参考信号对采集的第二麦克风信号进行消噪处理，得到待识别语音信号；

对所述待识别语音信号进行识别。

这样，可以借助时延估计得到的时延值，来获取用于消噪处理的参考信号，从而保证参考信号与相应麦克风信号的对齐，增强对麦克风信号的消噪处理效果，从而增强该麦克风信号中语音信号的识别效果。

可选的，所述根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值，包括：

循环执行以下过程，直至得到的第一时延值满足预设收敛条件：

利用当前时间段的第一参考信号对在所述当前时间段采集的第一麦克风信号进行回声消噪处理，得到消噪后的信号；

根据所述当前时间段内的第一参考信号、第一麦克风信号和消噪后的信号进行时延估计，得到第一时延值；

其中，所述当前时间段的第一参考信号是：利用前一个时间段内得到的第一时延值对所述当前时间段的系统音频信号进行处理得到。

这样，借助上述循环过程，可以获得稳定的且准确度高的时延值，从而保证后续获取的参考信号与相应麦克风信号的对齐。

可选的，所述方法还包括：

当检测到出现新的时延值时，重新执行所述循环的过程，得到新的时延值，并利用所述新的时延值对相应系统音频信号进行处理，得到第三参考信号，并根据所述第三参考信号对采集的第三麦克风信号进行消噪处理，得到待识别语音信号。

这样，可以自适应的随着时延值的变化而快速获得新的时延值，从而保证后续获取的参考信号与相应麦克风信号的对齐。

可选的，所述利用所述时延值对所述系统音频信号进行处理，得到第二参考信号，包括：

将所述系统音频信号缓存所述时延值后，得到所述第二参考信号。

这样，借助缓存过程，可以简单方便获得所需的参考信号。

可选的，所述获取系统音频信号之后，所述方法还包括：

将所述系统音频信号输出给车载终端，以使所述车载终端播放所述系统音频信号；

其中，所述第二麦克风信号包括由麦克风采集的所述车载终端播放的音频信号。

这样，借助本申请中方案，在车机互联的情况下，即使车载终端播放音频时的传输时延较多，也可以满足在识别输入语音时的降噪需求，增强语音识别效果。

第二方面，本申请实施例还提供了一种语音识别装置，包括：

时延估计模块，用于根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值；

第一处理模块，用于获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号；

第二处理模块，用于根据所述第二参考信号对采集的第二麦克风信号进行处理，得到待识别语音信号；

识别模块，用于对所述待识别语音信号进行识别。

可选的，所述时延估计模块具体用于：循环执行以下过程，直至得到的第一时延值满足预设收敛条件：

可选的，所述时延估计模块还用于：当检测到出现新的时延值时，重新执行所述循环的过程，得到新的时延值；

所述第一处理模块还用于：利用所述新的时延值对相应系统音频信号进行处理，得到第三参考信号；

所述第二处理模块还用于：根据所述第三参考信号对采集的第三麦克风信号进行消噪处理，得到待识别语音信号。

可选的，所述第一处理模块具体用于：将所述系统音频信号缓存所述时延值后，得到所述第二参考信号。

可选的，所述装置还包括：

输出模块，用于将所述系统音频信号输出给车载终端，以使所述车载终端播放所述系统音频信号；

第三方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语音识别方法。

第四方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的语音识别方法。

上述申请中的一个实施例具有如下优点或有益效果：可以借助时延估计得到的时延值，来获取用于消噪处理的参考信号，从而保证参考信号与相应麦克风信号的对齐，增强对麦克风信号的消噪处理效果，从而增强该麦克风信号中语音信号的识别效果。因为采用了根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值，获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号，根据所述第二参考信号对采集的第二麦克风信号进行消噪处理，得到待识别语音信号，对所述待识别语音信号进行识别的技术手段，所以克服了现有技术中的语音识别效果差的问题，进而达到了增强语音识别效果的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例的语音识别方法的流程图；

图2是本申请具体实例中的语音识别过程的框架图；

图3是用来实现本申请实施例的语音识别方法的语音识别装置的框图；

图4是用来实现本申请实施例的语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参见图1，图1是本申请实施例提供的一种语音识别方法的流程图，该方法应用于电子设备，如图1所示，该方法包括如下步骤：

步骤101：根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值。

本实施例中，该电子设备可选为车载后装设备，比如智能后视镜、智能方向盘、智能前视镜等，也可选为与车载设备连接的手机、iPad、智能手环等终端设备，对此不进行限制。

对于此步骤中的时延估计过程，可主要通过电子设备中的中央处理器(CentralProcessing Unit，CPU)实现，即采用软件方式实现。这样借助CPU强大的运算能力，可以快速实现时延值的估计。该预设时间段可为预先设置的时间段。该时延值可理解为第一麦克风信号中与第一参考信号对应的信号相对于该第一参考信号的时间差值。

步骤102：获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号。

本实施例中，该系统音频信号可理解为电子设备中待输出或待播放的原始音频信号。比如，该电子设备与某车载终端连接，该电子设备中的主系统级芯片(System on Chip，SoC)可采集编译码器Codec输出的系统音频信号，并在软件层封装出相应的接口(比如AudioRecord接口)，以使应用层(App层)通过该接口获取系统音频信号，并将该系统音频信号通过该电子设备与车载终端之间的连接通道(比如USB通道)传输至车载终端进行播放。该主SoC可理解为CPU。

一种实施方式中，在利用时延值对系统音频信号进行处理，得到第二参考信号时，可以直接将系统音频信号缓存该时延值后，得到第二参考信号。这样借助缓存过程，可以简单方便获得所需的参考信号。而除此方式之外，本实施例中也可采用其他方式比如利用该时延值调整系统音频信号的时间的方式来得到第二参考信号。

步骤103：根据所述第二参考信号对采集的第二麦克风信号进行消噪处理，得到待识别语音信号。

本实施例中，此步骤中的消噪处理具体可为回声消噪处理，即对因回声而产生的噪声进行消除。可选的，此步骤中的消噪处理可通过电子设备中的数字信号处理器(Digital Signal Processing，DSP)实现，即采用硬降噪方式实现。这样，结合采用软件方式实现时延估计，可以结合软硬件方式实现降噪，即在软件层面(SoC层面)实现时延估计，并在硬件层面实现消噪，一方面降低算力消耗，另一方面利用软件内存巨大的特性，从而发挥软件和硬件各自的优势。

一种实施方式中，上述获取系统音频信号之后，电子设备还可将该系统音频信号输出给车载终端，以使车载终端播放该系统音频信号。此情况下，该采集的第二麦克风信号中除包括待识别语音信号之外，还包括由麦克风采集的该车载终端播放的音频信号。

步骤104：对所述待识别语音信号进行识别。

可选的，在对待识别语音信号进行识别时，可以将待识别语音信号输入到语音识别引擎中进行识别。而具体的语音识别方式，可以采用现有方式，本实施例不对此进行限制。

本申请实施例的语音识别方法，可以借助时延估计得到的时延值，来获取用于消噪处理的参考信号，从而保证参考信号与相应麦克风信号的对齐，增强对麦克风信号的消噪处理效果，从而增强该麦克风信号中语音信号的识别效果。

本申请实施例中，上述步骤101中的时延估计过程可为：循环执行以下过程，直至得到的第一时延值满足预设收敛条件：

其中，所述当前时间段的第一参考信号是：利用前一个时间段内得到的第一时延值对当前时间段的系统音频信号进行处理(比如缓存)得到。所述第一时延值为当前时间段内的第一麦克风信号相对于对应系统音频信号的到达时间差值，可根据当前时间段内的第一参考信号、第一麦克风信号和消噪后的信号之间的比较分析得到。

所述当前时间段可理解为当前时延估计时的时间段。随着循环执行时延估计过程，所得到的时延值会不断收敛并接近于稳定。上述预设收敛条件可为第一时延值小于预设阈值，此时满足预设收敛条件的第一时延值即是估计得到的时延值。该预设阈值比如为20ms。

进一步的，当检测到出现新的时延值时，电子设备还可重新执行上述循环的过程，得到新的时延值，并利用所述新的时延值对相应系统音频信号进行处理，得到第三参考信号，并根据所述第三参考信号对采集的第三麦克风信号进行消噪处理，得到待识别语音信号。这样，可以自适应的随着时延值的变化而快速获得新的时延值，从而保证后续获取的参考信号与相应麦克风信号的对齐。

可选的，检测是否出现新的时延值的方式可为：根据得到的待识别语音信号、第二参考信号以及第二麦克风信号进行时延估计，并检测得到的时延值是否满足预设收敛条件，若满足则没有出现新的时延值，否则出现新的时延值；或者，检测基于已估计的时延值进行消噪处理后的信号的失真程度，若失真严重则出现新的时延值，否则没有出现新的时延值。

下面结合图2，对本申请具体实例中的语音识别过程进行说明。

本申请具体实例中，如图2所示，智能后视镜与车载终端通过USB连接，且智能后视镜与车载终端中都安装有用于实现互联的小程序(比如CarLife)；智能后视镜输出音频信号(比如歌曲的音频信号)给车载终端，以使车载终端播放该音频信号。若在车载终端播放该音频信号的过程中，用户输入语音控制信号给智能后视镜，以调节车载终端所播放的歌曲，则智能后视镜中的语音识别过程可包括：

1)麦克风阵列采集信号，其中两接口对应的信号即Mic0信号和Mic1信号至少包括用户输入的语音控制信号和车载终端播放的音频信号；DSP采集到麦克风信号后，结合参考信号(由主SoC输入的Ref信号，对相应系统音频信号进行缓存后得到)，进行回声消噪处理，得到消噪后的信号(Line out信号，实质上是用户输入的语音控制信号)；

2)DSP将Mic0信号、Mic1信号、Ref信号和Line out信号采用如下表1形式组合成双声道I2S信号输出；DSP可以支持I2S的时分复用(Time-division multiplexing，TDM)格式输出；

表1

	前16bit	后16bit
			左声道	Mic0	Line out
右声道	Mic1	Ref

3)主SoC接收DSP输出的I2S信号，并在软件层封装出相应的AudioRecord接口，以使App层获取到DSP输出的I2S信号；

4)同理，主SoC采集Codec输出的系统音频信号，并在软件层封装出相应的AudioRecord接口，以使App层获取到系统音频信号，并将该系统音频信号通过USB通道传输到车载终端进行播放；

5)App层获取到DSP输出的I2S信号后，按照协定的方式解析出原始信号即Mic0信号、Mic1信号、Ref信号和Line out信号，用于进行时延估计，即估计出麦克风信号相对于相应系统音频信号的到达时间差值，得到时延估计值(也可称为时延值)；同时，此Line out信号可以直接输入至语音识别引擎进行识别；

6)对于该时延估计值，系统层可释放一个接口，用于接收该时延估计值，并根据该时延估计值调整输入给DSP的参考信号，比如将该时延估计值传给ROM层处理，而ROM层会按照该时延估计值自动缓存当前系统音频信号后作为参考信号输入给DSP。

需指出的，对于上述的时延估计过程，借由控制信号可以循环执行，直至得到的时延估计值满足预设收敛条件，比如收敛到小于20ms，此时可表示参考信号与麦克风信号已对齐并满足回声消噪需求，可自动停止注册时延估计值，直至出现新的时延估计值。而在停止注册时延估计值时，可以基于当前注册的时延估计值来调整输入给DSP的参考信号，以实现用户输入的语音控制信号的识别。这样，在车机互联的情况下，即使车载终端播放音频时的传输时延较多且不稳定，也可以满足在识别输入语音时的降噪需求，增强语音识别效果。

请参见图3，图3是本申请实施例提供的一种语音识别装置的结构示意图，如图3所示，该语音识别装置30包括：

时延估计模块31，用于根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值；

第一处理模块32，用于获取系统音频信号，并利用所述时延值对所述系统音频信号进行处理，得到第二参考信号；

第二处理模块33，用于根据所述第二参考信号对采集的第二麦克风信号进行处理，得到待识别语音信号；

识别模块34，用于对所述待识别语音信号进行识别。

可选的，所述时延估计模块31具体用于：循环执行以下过程，直至得到的第一时延值满足预设收敛条件：

可选的，所述时延估计模块31还用于：当检测到出现新的时延值时，重新执行所述循环的过程，得到新的时延值；

所述第一处理模块32还用于：利用所述新的时延值对相应系统音频信号进行处理，得到第三参考信号；

所述第二处理模块33还用于：根据所述第三参考信号对采集的第三麦克风信号进行消噪处理，得到待识别语音信号。

可选的，所述第一处理模块32具体用于：将所述系统音频信号缓存所述时延值后，得到所述第二参考信号。

可选的，所述装置还包括：

可理解的，本申请实施例的语音识别装置30，可以实现上述图1所示方法实施例中实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是用来实现本申请实施例的语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块(例如，附图3所示的时延估计模块31、第一处理模块32、第二处理模块33和识别模块34)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音识别方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声音输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，可以借助时延估计得到的时延值，来获取用于消噪处理的参考信号，从而保证参考信号与相应麦克风信号的对齐，增强对麦克风信号的消噪处理效果，从而增强该麦克风信号中语音信号的识别效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

对所述待识别语音信号进行识别；

所述根据预设时间段内的第一麦克风信号和第一参考信号进行时延估计，得到时延值，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述时延值对所述系统音频信号进行处理，得到第二参考信号，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取系统音频信号之后，所述方法还包括：

5.一种语音识别装置，其特征在于，包括：

识别模块，用于对所述待识别语音信号进行识别；

所述时延估计模块具体用于：循环执行以下过程，直至得到的第一时延值满足预设收敛条件：

6.根据权利要求5所述的装置，其特征在于，

所述时延估计模块还用于：当检测到出现新的时延值时，重新执行所述循环的过程，得到新的时延值；

7.根据权利要求5所述的装置，其特征在于，

所述第一处理模块具体用于：将所述系统音频信号缓存所述时延值后，得到所述第二参考信号。

8.根据权利要求5至7中任一项所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的方法。