CN107845388B

CN107845388B - 语音识别方法及装置

Info

Publication number: CN107845388B
Application number: CN201711419212.3A
Authority: CN
Inventors: 仇迁; 王海盈
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2021-06-01
Anticipated expiration: 2037-12-25
Also published as: CN107845388A

Abstract

本发明实施例提供一种语音识别方法及装置，应用于包括控制设备和被控设备的控制系统，控制设备上设置有第一麦克风MIC，被控设备上设置有至少一个第二MIC，该方法包括：接收控制设备发送的、第一MIC采集得到的第一语音信号；接收第二MIC采集得到的第二语音信号；确定第一语音信号和第二语音信号之间的时延；根据时延，对第一语音信号和第二语音信号进行语音处理得到控制指令，控制指令用于对被控设备进行控制。用于提高语音识别效果。

Description

语音识别方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，随着智能语音技术的发展，越来越多的智能家居设备可以通过语音控制，例如，智能家居设备可以为电视、空调等。

在现有技术中，通常采用控制设备(例如遥控器)在对智能家居设备进行语音控制。具体的，在遥控器上设置两个麦克风(Microphone，简称MIC)，通过两个MIC采集用户的语音信号，并通过信号相关度相减的降噪算法对两个MIC采集得到的语音信号进行降噪处理，得到降噪处理后的语音信号，并对降噪处理后的语音信号进行语音识别，得到对应的控制指令，并根据控制指令对智能家居设备进行控制。其中，当两个MIC采集得到的语音信号的幅值差异大于预设阈值时，通过信号相关度相减的降噪算法可以对语音信号进行良好的降噪处理。

然而，在现有技术中，由于控制设备的尺寸通常较小，使得设置在控制设备设备上的两个MIC之间的距离有限，使得两个MIC采集得到语音信号的幅值差异较小，导致根据信号相关度相减的降噪算法无法对两个MIC采集得到语音信号进行良好的降噪，导致语音识别效果差。

发明内容

本发明实施例提供一种语音识别方法及装置，提高了语音识别效果。

第一方面，本发明实施例提供一种语音识别方法，应用于包括控制设备和被控设备的控制系统，所述控制设备上设置有第一麦克风MIC，所述被控设备上设置有至少一个第二MIC，所述方法包括：

接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号；

接收所述第二MIC采集得到的第二语音信号；

确定所述第一语音信号和所述第二语音信号之间的时延；

根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，所述控制指令用于对所述被控设备进行控制。

在一种可能的实施方式中，接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号，包括：

接收所述控制设备通过蓝牙发送的、所述第一MIC采集得到的第一语音信号；或者，

接收所述控制设备通过无线网络发送的、所述第一MIC采集得到的第一语音信号。

在另一种可能的实施方式中，确定所述第一语音信号和所述第二语音信号之间的时延，包括：

获取接收到所述第一MIC采集的同步语音信号的第一时刻，所述同步语音信号为所述被控设备发送的；

获取接收到所述第二MIC采集的所述同步语音信号的第二时刻；

根据所述第一时刻和所述第二时刻，确定所述第一语音信号和所述第二语音信号之间的时延。

在另一种可能的实施方式中，所述同步语音信号的频率大于人耳可识别的最高频率，所述同步语音信号的频率在所述第一MIC和所述第二MIC的采集频率范围内。

在另一种可能的实施方式中，根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，包括：

根据所述时延，对所述第二语音信号进行延时处理，得到第三语音信号；

对所述第一语音信号和所述第三语音信号进行降噪处理，得到第四语音信号；

对所述第四语音信号进行语音识别，得到所述控制指令。

第二方面，本发明实施例提供一种语音识别装置，应用于包括控制设备和被控设备的控制系统，所述控制设备上设置有第一麦克风MIC，所述被控设备上设置有至少一个第二MIC，所述装置包括接收模块、确定模块和语音处理模块，其中，

所述接收模块用于，接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号；

所述接收模块还用于，接收所述第二MIC采集得到的第二语音信号；

所述确定模块用于，确定所述第一语音信号和所述第二语音信号之间的时延；

所述语音处理模块用于，根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，所述控制指令用于对所述被控设备进行控制。

在一种可能的实施方式中，所述接收模块具体用于：

在另一种可能的实施方式中，所述确定模块具体用于：

在另一种可能的实施方式中，所述语音处理模块具体用于：

对所述第四语音信号进行语音识别，得到所述控制指令。

本发明实施例提供的语音识别方法及装置，第一MIC设置在控制设备上，至少一个第二MIC设置在被控设备上，在语音识别装置获取得到第一MIC采集得到的第一语音信号和第二MIC采集得到的第二语音信号之后，先获取第一语音信号和第二语音信号之后的时延，根据时延，对第一语音信号和第二语音信号进行语音处理得到控制指令。在上述过程中，在根据时延对第一语音信号和第二语音信号进行处理之后，可以使得处理后的语音信号同步，进一步，由于控制设备和被控设备的距离通常较远，使得第一MIC和第二MIC之间的距离也较远，这样，第一MIC和第二MIC采集得到语音信号的幅值差异较大，使得根据信号相关度相减的降噪算法可以对第一MIC和第二MIC采集得到语音信号进行良好的降噪处理，进而提高语音识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的系统架构图；

图2为本发明实施例提供的语音识别方法的流程示意图；

图3为本发明实施例提供的获取时延方法的流程示意图；

图4为本发明实施例提供的同步语音信号的波形图；

图5为本发明实施例提供的语音识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的语音识别方法的系统架构图。请参见图1，包括控制设备101和被控设备102。可选的，控制设备101可以为遥控器等设备，被控设备102可以为电视、空调、冰箱等设备。其中，控制设备101中设置有第一MIC 101-1和传输模块101-2，第一MIC 101-1可以采集语音信号，以使控制设备101可以通过传输模块将第一MIC 101-1采集得到语音信号传输至被控设备102中的语音处理装置102-2。被控设备102中设置有至少一个第二MIC 102-1和语音处理装置102-2，第二MIC 102-1可以采集语音信号，并将采集得到的语音信号发送给语音处理装置102-2，语音处理装置102-2可以对接收到的、第一MIC101-1和第二MIC102-1采集的语音信号进行处理，以得到语音信号对应的控制指令，控制指令用于对被控设备进行控制。

第一MIC设置在控制设备上，至少一个第二MIC设置在被控设备上，在语音识别装置获取得到第一MIC采集得到的第一语音信号和第二MIC采集得到的第二语音信号之后，先获取第一语音信号和第二语音信号之间的时延，并根据时延，对第一语音信号和第二语音信号进行语音处理得到控制指令。在上述过程中，在根据时延对第一语音信号和第二语音信号进行处理之后，可以使得处理后的语音信号同步，进一步，由于控制设备和被控设备的距离通常较远，使得第一MIC和第二MIC之间的距离也较远，这样，第一MIC和第二MIC采集得到语音信号的幅值差异较大，使得根据信号相关度相减的降噪算法可以对第一MIC和第二MIC采集得到语音信号进行良好的降噪处理，进而提高语音识别效果。

下面，通过具体实施例，对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例不再进行重复说明。

图2为本发明实施例提供的语音识别方法的流程示意图。请参见图2，该方法可以包括：

S201、接收控制设备发送的、第一MIC采集得到的第一语音信号。

本发明实施例的执行主体为语音识别装置，该语音识别装置可以设置在被控设备中。可选的，语音识别装置可以通过软件实现，或者，语音识别装置可以通过软件和硬件的结合实现。

本发明实施例所示的第一MIC设置在控制设备中。第一MIC可以实时进行语音信号采集，并将采集得到的第一语音信号传输给控制设备，以使控制设备将第一MIC采集得到的第一语音信号发送给语音识别装置。

在本发明实施例中，通过将语音识别装置设置在被控设备上，这样，可以节省控制设备的成本及耗电量。

可选的，控制设备可以周期性的向语音识别装置发送第一MIC采集得到的第一语音信号，例如，第一MIC每采集30秒的语音信号之后，控制设备将该30秒的语音信号发送给语音识别装置。

可选的，第一MIC和控制设备之间可以设置有传输接口，以使第一MIC可以通过传输接口将采集得到的第一语音信号传输给控制设备。

可选的，第一语音信号可以为对第一MIC采集得到的原始语音信号进行处理后的语音信号，例如，在第一MIC采集得到原始语音信号之后，可以由第一MIC或者控制设备对原始语音信号进行模数转换处理、编码处理等处理，以得到第一语音信号。

可选的，在控制设备和被控设备上设置有无线通信模块，这样，在控制设备接收到第一MIC采集的第一语音信号之后，可以通过控制设备上的通信模块将第一语音信号发送给被控设备，以使被控设备可以通过被控设备上的通信模块接收第一语音信号。例如，无线通信模块可以为蓝牙、WiFi等。

可选的，可以接收控制设备通过蓝牙发送的、第一MIC采集得到的第一语音信号；或者，接收控制设备通过无线网络发送的、第一MIC采集得到的第一语音信号。

S202、接收第二MIC采集得到的第二语音信号。

本发明实施例所示的第二MIC设置在被控设备中。第二MIC可以实时进行语音信号采集，并将第二语音信号发送给被控设备中的语音识别装置。

可选的，第二MIC可以周期性的向语音识别装置发送采集得到的第二语音信号，例如，第二MIC每采集30秒的语音信号之后，将该30秒的语音信号发送给语音识别装置。

可选的，第二MIC和被控设备中的语音识别模块之间可以设置有传输接口，以使第二MIC可以通过传输接口将采集得到的第二语音信号传输给语音识别模块。

可选的，第二语音信号可以为对第二MIC采集得到的原始语音信号进行处理后的语音信号，例如，在第二MIC采集得到原始语音信号之后，对原始语音信号进行模数转换处理、编码处理等处理，以得到第二语音信号。

S203、获取第一语音信号和第二语音信号之间的时延。

其中，本发明实施例所示的第一语音信号和第二语音信号为语音识别装置在相同时刻接收到第一MIC和第二MIC采集得到的信号。

可选的，在第一MIC采集得到第一语音信号之后，需要通过无线通信模块将第一语音信号传输给语音识别装置，而第二MIC采集得到第二语音信号之后，可以直接通过传输接口将第二语音信号传输给语音识别装置。通过无线通信模块传输语音信号所需的时长大于通过传输接口传输语音信号所需的时长，因此，第一语音信号和第二语音信号之间具有时延。即，第一语音信号和第二语音信号可能为不同的语音段对应的语音信号。

可选的，被控设备可以周期性的发射同步语音信号，在第一MIC接收到同步语音信号之后，将同步语音信号传输给控制设备，由控制设备通过无线通信模块将同步语音信号发送给语音识别装置。在第二MIC接收到同步语音信号之后，将同步语音信号传输给语音识别装置。由于存在时延，因此，语音识别装置会在不同的时刻接收到第一MIC和第二MIC发送的同步语音信号，语音识别装置可以根据接收到同步语音信号之间的时间差，确定时延。

需要说明的是，在图3所示的实施例中，对获取第一语音信号和第二语音信号之间的时延的方法进行详细说明，此处不再进行说明。

S204、根据时延，对第一语音信号和第二语音信号进行语音处理得到控制指令。

其中，控制指令用于对被控设备进行控制。

可选的，根据时延，对第二语音信号进行延时处理，得到第三语音信号，对第一语音信号和第三语音信号进行降噪处理，得到第四语音信号，对第四语音信号进行语音识别，得到控制指令。

在对第二语音信号进行延时处理之后，得到的第三语音信号和第一语音信号为同步的，即，第一语音信号和第三语音信号为相同语音段对应的语音信号。

可选的，可以通过信号相关度相减的降噪算法，对第一语音信号和第三语音信号进行降噪处理，得到第四语音信号。

需要说明的是，可以参见现有技术中的信号相关度相减的降噪算法，对第一语音信号和第三语音信号进行降噪处理，本发明实施例对此不作具体限定。

本发明实施例提供的语音识别方法，第一MIC设置在控制设备上，至少一个第二MIC设置在被控设备上，在语音识别装置获取得到第一MIC采集得到的第一语音信号和第二MIC采集得到的第二语音信号之后，先获取第一语音信号和第二语音信号之后的时延，根据时延，对第一语音信号和第二语音信号进行语音处理得到控制指令。在上述过程中，在根据时延对第一语音信号和第二语音信号进行处理之后，可以使得处理后的语音信号同步，进一步，由于控制设备和被控设备的距离通常较远，使得第一MIC和第二MIC之间的距离也较远，这样，第一MIC和第二MIC采集得到语音信号的幅值差异较大，使得根据信号相关度相减的降噪算法可以对第一MIC和第二MIC采集得到语音信号进行良好的降噪处理，进而提高语音识别效果。

在上述任意实施例的基础上，可选的，可以通过如下可行的实现方式获取第一语音信号和第二语音信号之间的时延(图2所示实施例中的S203)，具体的，请参见图3所示的实施例。

图3为本发明实施例提供的获取时延方法的流程示意图。请参见图3，该方法可以包括：

S301、获取接收到第一MIC采集的同步语音信号的第一时刻。

需要说明的是，在S301之前，被控设备发送同步语音信号。在第一MIC采集得到同步语音信号之后，第一MIC将同步语音信号发送给控制设备，由控制设备将第一MIC采集得到的同步语音信号发送给语音识别装置。

其中，同步语音信号为被控设备发送的。可选的，被控设备可以周期性的发送同步语音信号，例如，该周期可以为20毫秒、1秒等，在实际应用过程中，可以根据实际需要设置该周期。

由于控制设备周期性的发送同步语音信号，本发明实施例中所示的同步语音信号的发送时刻与语音识别装置接收到第一语音信号的时刻之间的时间差小于预设阈值。即，本发明实施例所示的同步语音信号为被控设备最近一次发送的。

可选的，同步语音信号的频率大于人耳可识别的最高频率，且同步语音信号的频率在第一MIC和第二MIC的采集频率范围内，这样，第一MIC和第二MIC可以采集得到同步语音信号，而用户无法听到同步语音信号对应的声音。

可选的，同步语音信号的频率大于20Khz。例如，同步语音信号可以为24Khz的正弦信号。

S302、获取接收到第二MIC采集的同步语音信号的第二时刻。

在第二MIC采集得到同步语音信号之后，第二MIC将同步语音信号发送语音识别装置。

S303、根据第一时刻和第二时刻，确定第一语音信号和第二语音信号之间的时延。

可选的，可以将第一时刻和第二时刻之间的时间差确定为第一语音信号和第二语音信号之间的时延。

在图3所示的实施例中，在第一MIC和第二MIC接收到同步语音信号的同时，还接收到其它语音信号，因此，第一MIC和第二MIC向语音识别装置发送采集得到的同步语音信号的同时，还向语音识别装置发送采集得到的其他语音信号。即，语音识别装置接收到的语音信号为同步语音信号和其它语音信号的叠加，因此，语音识别装置需要从接收到的语音信号中提取同步语音信号。

可选的，语音识别装置可以通过高通滤波器对接收到的语音信号进行滤波，由于同步语音信号的频率大于人耳可识别的最高频率，因此，通过高通滤波器可以筛选得到同步语音信号。进一步的，可以获取筛选得到的同步语音信号的有效值，并根据有效值确定第一语音信号和第二语音信号之间的时延。

下面，结合图4，通过具体示例对获取第一语音信号和第二语音信号之间的时延的方法进行详细说明。

图4为本发明实施例提供的同步语音信号的波形图。请参见图4，包括框图401-403。

请参见框图401，语音识别装置接收到的第一MIC和第二MIC采集得到的语音信号，在每一个语音信号中包括语音同步信号和其它语音信号。

请参见框图402，语音识别装置通过高通滤波器对框图401中的语音信号进行滤波，得到框图402中的语音信号，框图402中的语音信号即为同步语音信号。

请参见框图403，语音识别装置提取框图402中的同步语音信号的有效值，并确定第一MIC采集得到的同步语音信号对应的有效值的时刻为t1，第二MIC采集得到的同步语音信号对应的有效值的时刻为t2，则可以确定时延为t2-t1。

在实际应用过程中，可选的，被控设备还可以按照不同的周期发送两个或多个同步语音信号，分别根据不同的同步语音信号确定得到多个时延。可以将根据不同的同步语音信号确定得到的时延的均值确定为最终的时延。其中，根据每一个同步语音信号确定时延的过程与图3实施例所示的过程相同，此处不再进行赘述。

图5为本发明实施例提供的语音识别装置的结构示意图。应用于包括控制设备和被控设备的控制系统，所述控制设备上设置有第一麦克风MIC，所述被控设备上设置有至少一个第二MIC。请参见图5，所述装置包括接收模块11、确定模块12和语音处理模块13，其中，

所述接收模块11用于，接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号；

所述接收模块11还用于，接收所述第二MIC采集得到的第二语音信号；

所述确定模块12用于，确定所述第一语音信号和所述第二语音信号之间的时延；

所述语音处理模块13用于，根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，所述控制指令用于对所述被控设备进行控制。

本发明实施例提供的语音识别装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述接收模块11具体用于：

在另一种可能的实施方式中，所述确定模块12具体用于：

在另一种可能的实施方式中，所述语音处理模块13具体用于：

对所述第四语音信号进行语音识别，得到所述控制指令。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims

1.一种语音识别方法，其特征在于，应用于包括控制设备和被控设备的控制系统，所述控制设备上设置有第一麦克风MIC，所述被控设备上设置有至少一个第二MIC，所述方法包括：

接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号，所述第一语音信号为对所述第一MIC采集得到的原始语音信号进行处理后的语音信号；

接收所述第二MIC采集得到的第二语音信号，所述第二语音信号为对所述第二MIC采集得到的原始语音信号进行处理后的语音信号；

根据所述第一时刻和所述第二时刻，确定所述第一语音信号和所述第二语音信号之间的时延；

2.根据权利要求1所述的方法，其特征在于，接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述同步语音信号的频率大于人耳可识别的最高频率，所述同步语音信号的频率在所述第一MIC和所述第二MIC的采集频率范围内。

4.根据权利要求1或2所述的方法，其特征在于，根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，包括：

对所述第四语音信号进行语音识别，得到所述控制指令。

5.一种语音识别装置，其特征在于，应用于包括控制设备和被控设备的控制系统，所述控制设备上设置有第一麦克风MIC，所述被控设备上设置有至少一个第二MIC，所述装置包括接收模块、确定模块和语音处理模块，其中，

所述接收模块用于，接收所述控制设备发送的、所述第一MIC采集得到的第一语音信号，所述第一语音信号为对所述第一MIC采集得到的原始语音信号进行处理后的语音信号；

所述接收模块还用于，接收所述第二MIC采集得到的第二语音信号，所述第二语音信号为对所述第二MIC采集得到的原始语音信号进行处理后的语音信号；

所述确定模块用于，获取接收到所述第一MIC采集的同步语音信号的第一时刻，所述同步语音信号为所述被控设备发送的；获取接收到所述第二MIC采集的所述同步语音信号的第二时刻；根据所述第一时刻和所述第二时刻，确定所述第一语音信号和所述第二语音信号之间的时延；所述语音处理模块用于，根据所述时延，对所述第一语音信号和所述第二语音信号进行语音处理得到控制指令，所述控制指令用于对所述被控设备进行控制。

6.根据权利要求5所述的装置，其特征在于，所述接收模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述同步语音信号的频率大于人耳可识别的最高频率，所述同步语音信号的频率在所述第一MIC和所述第二MIC的采集频率范围内。

8.根据权利要求5或6所述的装置，其特征在于，所述语音处理模块具体用于：

对所述第四语音信号进行语音识别，得到所述控制指令。