CN115862598A

CN115862598A - 语音识别方法、装置、存储介质及电子设备

Info

Publication number: CN115862598A
Application number: CN202211468821.9A
Authority: CN
Inventors: 李林峰; 牛坤; 黄海荣
Original assignee: Hubei Xingji Shidai Technology Co Ltd
Current assignee: Hubei Xingji Shidai Technology Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-28

Abstract

本申请公开了一种语音识别方法、装置、存储介质及电子设备，其中方法包括：基于麦克风扩展阵列采集第一语音；确定第一语音的语音识别结果包含预设唤醒词；基于麦克风扩展阵列中各个麦克风采集第一语音对应的声音传播参数，确定目标麦克风；基于麦克风扩展阵列进行信号采集并对目标麦克风采集的信号进行增强，确定第二语音；确定第二语音的语音识别结果；其中，麦克风扩展阵列包括车载终端中的第一麦克风阵列，以及与车载终端连接的移动终端中的一个或多个麦克风。本申请提供的方法和装置，在不增加车辆硬件成本的条件下增加了用于采集语音的麦克风数量，提高了语音唤醒和语音识别的准确度，提高了用户的语音交互体验。

Description

语音识别方法、装置、存储介质及电子设备

技术领域

本申请涉及人机交互技术领域，具体而言，涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术

随着语音交互技术的进步，用户在车内使用语音对车载电子系统进行操作的频率也日益增加。

汽车在行驶过程中，车内的噪声可以包括引擎运转声、空调运转声、轮胎摩擦声、空气摩擦声、车内乘客说话声和使用电子设备娱乐时发出的声音等。这些声音对用户与车载电子系统进行交互的语音造成了干扰。

发明内容

本申请提供一种语音识别方法，应用于车载终端，包括：

基于麦克风扩展阵列采集第一语音；

确定所述第一语音的语音识别结果包含预设唤醒词；

基于所述麦克风扩展阵列中各个麦克风采集第一语音对应的声音传播参数，确定目标麦克风；

基于所述麦克风扩展阵列进行信号采集并对所述目标麦克风采集的信号进行增强，确定第二语音；

确定所述第二语音的语音识别结果；

其中，所述麦克风扩展阵列包括车载终端中的第一麦克风阵列，以及与所述车载终端连接的移动终端中的一个或多个麦克风。

根据本申请提供的语音识别方法，所述麦克风扩展阵列是基于如下步骤确定的：

确定所述移动终端与所述车载终端连接成功；

发送麦克风功能查询请求至所述移动终端；

接收所述移动终端基于所述麦克风功能查询请求发送的麦克风功能配置响应；

基于所述麦克风功能配置响应确定所述移动终端支持麦克风扩展的情况；

基于所述移动终端中的一个或多个麦克风对所述车载终端中的第一麦克风阵列进行扩展，得到所述麦克风扩展阵列。

根据本申请提供的语音识别方法，所述基于麦克风扩展阵列采集第一语音，包括：

对所述麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除；

对回声消除后的第一音频信号进行波束成形处理，得到各个麦克风采集的第一语音。

根据本申请提供的语音识别方法，所述对所述麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除，包括：

确定所述麦克风扩展阵列中任一麦克风对应的采集终端；

在所述采集终端为车载终端的情况下，对所述任一麦克风采集的第一音频信号进行回声消除；

在所述采集终端为移动终端的情况下，向所述移动终端发送回声消除指令；所述回声消除指令用于控制所述移动终端对所述任一麦克风采集的第一音频信号进行回声消除。

根据本申请提供的语音识别方法，所述基于所述麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风，包括：

基于各个麦克风采集第一语音的声音传播参数，确定所述第一语音从发声源传播至各个麦克风的到达时间；

基于各个麦克风对应的到达时间，确定各个麦克风与所述发声源的距离；

将与所述发声源的距离最小的麦克风确定为目标麦克风。

根据本申请提供的语音识别方法，所述基于所述麦克风扩展阵列进行信号采集并对所述目标麦克风采集的信号进行增强，确定第二语音，包括：

对所述目标麦克风采集的第二音频信号进行回声消除；

基于所述目标麦克风在所述麦克风扩展阵列中的位置，对所述目标麦克风采集的第二音频信号进行波束成形处理，得到所述目标麦克风采集的第二语音。

根据本申请提供的语音识别方法，所述得到所述目标麦克风采集的第二语音之后，包括：

对所述目标麦克风采集的第二语音进行降噪处理。

根据本申请提供的语音识别方法，所述确定所述第二语音的语音识别结果，包括：

将所述第二语音输入语音识别模型，得到所述语音识别模型输出的语音识别结果；

其中，所述语音识别模型包括特征提取层、静音检测层和语音识别层；所述静音检测层和所述语音识别层分别与所述特征提取层连接；

所述特征提取层用于将所述第二语音划分为多个语音帧，并提取各个语音帧的声学识别特征；所述静音检测层用于基于各个语音帧的声学识别特征，确定所述第二语音中的待识别语音帧；所述语音识别层用于基于所述待识别语音帧的声学识别特征，确定所述第二语音的语音识别结果。

根据本申请提供的语音识别方法，所述语音识别模型部署于所述车载终端或者所述车载终端对应的云端服务器。

本申请提供一种语音识别装置，包括：

第一采集模块，用于基于麦克风扩展阵列采集第一语音；

唤醒模块，用于确定所述第一语音的语音识别结果包含预设唤醒词；

确定模块，用于基于所述麦克风扩展阵列中各个麦克风采集第一语音对应的声音传播参数，确定目标麦克风；

第二采集模块，用于基于所述麦克风扩展阵列进行信号采集并对所述目标麦克风采集的信号进行增强，确定第二语音；

识别模块，用于确定所述第二语音的语音识别结果；

本申请提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述的语音识别方法。

本申请提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述的语音识别方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的语音识别方法的流程示意图之一；

图2是本申请一个实施例提供的语音识别方法的流程示意图之二；

图3是本申请一个实施例提供的语音识别方法的时序图；

图4是本申请一个实施例提供的软件模块图；

图5是本申请一个实施例提供的语音识别装置的结构示意图；

图6是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的语音识别方法适用于搭载人机语音交互系统的终端设备。人机语音交互系统为以语音为载体，与用户进行信息交互的系统。

终端设备包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备、或连接到无线调制解调器的其它处理设备，例如，手机、平板、台式笔记本以及可以运行应用程序的智能设备，包括智能汽车的中央控制台等。具体可以指用户设备(UserEquipment，UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。

终端设备还可以是卫星电话、蜂窝电话、智能手机、无线数据卡、无线调制解调器、机器类型通信设备、可以是无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal DigitalAssistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备或可穿戴设备，虚拟现实(virtual reality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Self-driving)中的无线终端、远程医疗(Remote medical)中的无线终端、智能电网(Smart grid)中的无线终端、运输安全(Transportation safety)中的无线终端、智慧城市(Smart city)中的无线终端、智慧家庭(Smart home)中的无线终端、5G网络或者未来通信网络中的终端设备等。

终端设备可以由电池供电，还可以附接到车辆或者船舶的电源系统，并由车辆或者船舶的电源系统供电。车辆或者船舶的电源系统还可以为终端设备的电池充电，以延长终端设备通信时间。

图1是本申请一个实施例提供的语音识别方法的流程示意图之一，如图1所示，该方法包括步骤110、步骤120、步骤130、步骤140和步骤150。该方法流程步骤仅仅作为本申请一个可能的实现方式。

步骤110、基于麦克风扩展阵列采集第一语音。其中，麦克风扩展阵列包括车载终端中的第一麦克风阵列，以及与车载终端连接的移动终端中的一个或多个麦克风。

具体地，本申请实施例的语音识别方法的执行主体为语音识别装置。语音识别装置可以为车载终端中单独设置的硬件模块，也可以为在车载终端中运行的软件程序。

麦克风阵列(Microphone Array)是指多个麦克风组成的排列，即由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的系统。

车载终端为车辆内部安装的终端设备，例如可以为智能汽车控制系统等。第一麦克风阵列为车载终端中设置的麦克风阵列，其中可以包含2个麦克风、4个麦克风、6个麦克风或者8个麦克风等。可以在车辆内部的各个座椅附近分别安装1个麦克风，从而构成第一麦克风阵列。

移动终端为用户携带的智能终端，例如包括智能手机，也可以包括平板电脑，还可以包括智能可穿戴式设备，比如无线耳机、智能手表和AR眼镜等。移动终端中一般都有一个或多个麦克风。以智能手机为例，智能手机底部一般安装1个麦克风。

在移动终端与车载终端连接的情况下，可以将移动终端中的一个或多个麦克风和车载终端中的第一麦克风阵列进行合并，形成麦克风扩展阵列。例如，车载终端中的第一麦克风阵列包括4个麦克风，移动终端包括2个麦克风。在用户携带移动终端进入车辆内部后，移动终端与车载终端建立通信连接，移动终端将2个麦克风所获取的音频信号通过通信的方式实时发送至车载终端。对于车载终端而言，所获取的音频信号不仅来自于第一麦克风阵列，还来自于移动终端中的麦克风，即实现了将移动终端中的一个或多个麦克风对车载终端中的第一麦克风阵列进行扩展，得到了麦克风扩展阵列。

用户在与车载终端进行语音交互时，可以发出第一语音。此时，车载终端通过麦克风扩展阵列采集用户发出的第一语音。比如，基于各个麦克风采集第一语音，再对各个麦克风采集的第一语音进行融合。

步骤120、确定第一语音的语音识别结果包含预设唤醒词。

具体地，唤醒词是用来触发车载终端结束低功耗状态或者休眠状态，使得车载终端可以继续获取用户发出的语音，并响应于该语音执行该语音对应的控制操作。

可以在车载终端中设置预设唤醒词，用来判断第一语音是否体现用户的意图为唤醒车载终端。

预设唤醒词可以设置为多个字词的组合，以贴近用户的表达习惯，同时提高车载终端的唤醒准确性。例如，如果手机中语音助理的唤醒词为小梦，则可以设置多个预设唤醒词“小梦小梦”、“小梦同学”和“你好小梦”等。车载终端可以调用语音识别模型对用户发出的第一语音进行语音识别，得到第一语音的语音识别结果。车载终端可以将第一语音的语音识别结果与预设唤醒词进行语义相似度匹配，若匹配一致则说明第一语音包含预设唤醒词，若匹配不一致则说明第一语音不包含预设唤醒词。

声音传播参数为对声音在传播过程中的特性进行描述的参数，例如可以包括传播速度、到达时间、波达方向、声音响度和相位等。由于麦克风扩展阵列中各个麦克风的分布位置是各不相同的，各个麦克风在采集第一语音时所确定的声音传播参数也存在差异。

步骤130、基于麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风。

具体地，在第一语音的语音识别结果包含预设唤醒词的情况下，可以通过麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风。目标麦克风为能取得最佳声音采集效果的麦克风。例如，可以将采集的第一语音的响度最大的麦克风作为目标麦克风，也可以将最先采集到第一语音的麦克风作为目标麦克风，也可以将采集的第一语音的信噪比越高的麦克风作为目标麦克风等。

步骤140、基于麦克风扩展阵列进行信号采集并对目标麦克风采集的信号进行增强，确定第二语音。

具体地，第一语音和第二语音是同一用户发出的。

在确定目标麦克风之后，可以对目标麦克风进行信号增强，获取更加准确的第二语音。

信号增强的方式可以为根据各个麦克风采集第一语音的声音传播参数，计算其他麦克风与目标麦克风的信号延迟时间。在采集第二语音时，根据信号延迟时间对各个麦克风采集的第二语音进行信号对齐后融合。

麦克风阵列对语音增强最简单的方法是先找到目标方向(正面0度方向的麦克风)，计算出其他麦克风与正面麦克风的延迟，再对所有麦克风信号延迟求和，达到增强的目的。实际应用中声音信号源和任一麦克风不一定是正面0度关系，所有麦克风收到同一信号的时间不一致相位也不相同，可以使用波束成形的方法来对某一麦克风或者所有麦克风信号增强。

步骤150、确定第二语音的语音识别结果。

具体地，对采集的第二语音进行语音识别，得到第二语音的语音识别结果。

第二语音的语音识别结果可以为“开始导航”和“进行录音”等。车载终端根据语音识别结果，自动调用车载终端中安装的应用，执行相应的导航功能或者录音功能。

本申请实施例提供的语音识别方法，根据麦克风扩展阵列采集第一语音；确定第一语音的语音识别结果包含预设唤醒词；根据麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风；对目标麦克风进行信号增强并采集第二语音；确定第二语音的语音识别结果。由于麦克风扩展阵列不仅包含了车载终端中的第一麦克风阵列，也包括了移动终端中的一个或多个麦克风，在不增加车辆硬件成本的条件下增加了用于采集语音的麦克风数量，同时根据唤醒语音的采集结果对麦克风阵列进行信号增强，使得车载终端可以更加准确地感知用户发声的位置，采集更准确的用户语音，提高了语音唤醒和语音识别的准确度，提高了用户的语音交互体验。

需要说明的是，本申请每一个实施方式可以自由组合、调换顺序或者单独执行，并不需要依靠或依赖固定的执行顺序。

在一些实施例中，麦克风扩展阵列是基于如下步骤确定的：

确定移动终端与车载终端连接成功；

发送麦克风功能查询请求至移动终端；

接收移动终端基于麦克风功能查询请求发送的麦克风功能配置响应；

基于麦克风功能配置响应确定移动终端支持麦克风扩展；

基于移动终端中的一个或多个麦克风对车载终端中的第一麦克风阵列进行扩展，得到麦克风扩展阵列。

具体地，在用户携带移动终端进入车辆内部后，移动终端与车载终端可以建立通信连接，例如可以通过蓝牙或者WiFi等实现终端互联。

车载终端可以向移动终端发送连接请求，连接请求中的字段可以包括请求建立连接和会话标识符。请求建立连接用于向移动终端表示建立连接的请求，会话标识符用于对本次车载终端与移动终端之间的会话进行标记。例如，连接请求的格式如表1所示。

表1连接请求格式

移动终端可以根据连接请求，发送连接响应至车载终端。连接响应中的字段可以包括会话标识符、终端标识符、终端设备类型、终端操作系统类型、终端注册用户名和终端注册用户标识符。终端标识符用于标记移动终端的识别标识，终端设备类型用于表示移动终端的设备类型，终端操作系统类型用于表示移动终端中所运行的操作系统的类型，终端注册用户名用于表示使用移动终端的用户的名称，终端注册用户标识符用于对用户的身份进行标记。

例如，连接响应的格式如表2所示。

表2连接响应格式

在移动终端与车载终端连接成功的情况下，车载终端发送麦克风功能查询请求至移动终端。麦克风功能查询请求用于请求获取移动终端中麦克风所支持的功能。麦克风功能查询请求中的字段可以包括会话标识符和协议类型检查。其中，协议类型检查用于请求获取移动终端中麦克风所支持的功能。

例如，麦克风功能查询请求的格式如表3所示。

表3麦克风功能查询请求格式

移动终端根据麦克风功能查询请求，向车载终端发送麦克风功能配置响应。麦克风功能配置响应用于表示移动终端所支持的功能。麦克风功能配置响应中的字段可以包括会话标识符、功能列表和麦克风通道数。其中，功能列表用于表示移动终端所支持的所有功能，麦克风通道数用于表示移动终端中支持扩展的麦克风数量。

例如，麦克风功能配置响应的格式如表4所示。

表4麦克风功能配置响应格式

车载终端在确定移动终端是否支持麦克风扩展后，还可以向移动终端发送确认消息。确认消息中的字段包括会话标识符和扩展结果确认。其中，扩展结果确认用于表示麦克风扩展是否成功。

例如，确认消息如表5所示。

表5确认消息格式

字段	类型	描述
			session_id	String	会话ID
result	boolean	0---fail,1---success

在车载终端确定移动终端支持麦克风扩展的情况下，将移动终端中的一个或多个麦克风对车载终端中的第一麦克风阵列进行扩展，得到麦克风扩展阵列。

本申请实施例提供的语音识别方法，通过车载终端向移动终端进行自动查询的方式，确定麦克风扩展阵列，无需用户进行操作，提高了用户的语音交互体验。

在一些实施例中，步骤110包括：

对麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除；

具体地，在语音采集过程中，车载终端的扬声器播放的声音被麦克风采集之后形成的信号叫回声，而麦克风目的是采集用户的讲话声，回声需要被消除，否则干扰各个麦克风对人声的采集和语音识别。

回声消除的一般方案是根据扬声器播放的信号和麦克风采集到的信号，估计回声信号的延迟时间，延迟时间估计方法可以采用卡尔曼滤波算法。根据得到的延迟时间，把回声信号和麦克风采集的录音信号对齐，从录音数据中把回声信号减掉，例如设计一个滤波器，输出的信号和回声波形相同，相位相反，累加到录音数据中，抵消掉回声信号。滤波器算法可以采用NLMS(Normalized Least Mean Square，归一化最小均方)算法。

第一音频信号为各个麦克风对第一语音进行采集时的原始信号。可以对麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除。然后对回声消除后的第一音频信号进行波束成形处理，得到各个麦克风采集的第一语音。

波束成形主要是利用多麦克风采集到的信号的空间特性，来对目标方向信号进行增强，对非目标方向信号抑制，提高信噪比。波束成形处理可以采用广义旁瓣对消算法(General Side-lobe Canceller，GSC)等。

本申请实施例提供的语音识别方法，对各个麦克风采集的第一音频信号进行回声消除和波束成形，提高了语音唤醒的准确度。

在一些实施例中，对麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除，包括：

确定麦克风扩展阵列中任一麦克风对应的采集终端；

在采集终端为车载终端的情况下，对任一麦克风采集的第一音频信号进行回声消除；

在采集终端为移动终端的情况下，向移动终端发送回声消除指令；回声消除指令用于控制移动终端对任一麦克风采集的第一音频信号进行回声消除。

具体地，在对各个麦克风采集的第一音频信号进行回声消除时，可以选择车载终端或者移动终端进行回声消除。可以在车载终端或者移动终端中运行回声消除算法或者设置回声消除模块对第一音频信号进行回声消除。

对于任一麦克风，可以先确定该麦克风所对应的采集终端。如果该麦克风所在的采集终端为车载终端，则可以由车载终端对该麦克风采集的第一音频信号进行回声消除；如果该麦克风所在的采集终端为移动终端一个或多个麦克风，则车载终端可以向移动终端发送回声消除指令，由移动终端对该麦克风采集的第一音频信号进行回声消除。

本申请实施例提供的语音识别方法，通过对不同位置的麦克风采集的第一音频信号选择合适的终端进行回声消除，可以减轻车载终端的运算量，提高车载终端的响应速度，提高用户的语音交互体验。

在一些实施例中，步骤130包括：

基于各个麦克风采集第一语音的声音传播参数，确定第一语音从发声源传播至各个麦克风的到达时间；

基于各个麦克风对应的到达时间，确定各个麦克风与发声源的距离；

将与发声源的距离最小的麦克风确定为目标麦克风。

具体地，发声源为发出第一语音的声源。根据各个麦克风采集第一语音的声音传播参数，可以计算第一语音从发声源传播至各个麦克风的到达时间。根据声音的传播速度，以及各个麦克风对应的到达时间，可以确定各个麦克风与发声源的距离。可以将与发声源的距离最小的麦克风确定为目标麦克风。

在本实施例中，还可以通过TDOA(Time Difference Of Arrival，到达时间差)算法，即通过计算信号到达麦克风之间的时间差，从而计算出发声源的位置坐标。

本申请实施例提供的语音识别方法，通过各个麦克风采集第一语音的声音传播参数，确定目标麦克风，运算简便，易于执行。

在一些实施例中，步骤130包括：

基于各个麦克风采集第一语音的声音传播参数，确定第一语音的空间谱；

基于所述空间谱，确定目标麦克风。

具体地，可以根据各个麦克风采集第一语音的声音传播参数，确定第一语音的空间谱。空间谱可以用来表示第一语音的信号在空间各个方向上的能量分布。

可以通过高分辨率谱估计技术，利用第一语音的空间谱，求解麦克风之间的相关矩阵来确定方向角，确定声源的位置，从而确定距离声源位置最近的目标麦克风。声源的位置可以采用最小方差谱估计法和特征值分解算法等。

在一些实施例中，步骤140包括：

对目标麦克风采集的第二音频信号进行回声消除；

基于目标麦克风在麦克风扩展阵列中的位置，对目标麦克风采集的第二音频信号进行波束成形处理，得到目标麦克风采集的第二语音。

具体地，第二音频信号为各个麦克风对第二语音进行采集时的原始信号。对目标麦克风采集的第二音频信号进行回声消除与上述实施例中对第一音频信号进行回声消除的方法类似，在此不再赘述。

利用波束成形的方法，对第二音频信号进行信号增强，例如可以采用广义旁瓣对消算法(General Side-lobe Canceller，GSC)，加后置滤波等。

与上述实施例中采集第一音频信号时对各个麦克风均进行波束成形不同，在对第二音频信号进行采集时，仅根据目标麦克风在麦克风扩展阵列中的位置，对目标麦克风采集的第二音频信号进行波束成形处理，即只对目标麦克风进行进行信号增强，可以得到目标麦克风采集的第二语音。

在一些实施例中，得到目标麦克风采集的第二语音之后，包括：

对目标麦克风采集的第二语音进行降噪处理。

具体地，降噪目的是降低噪声成分，提高信噪比，便于后续语音识别。

降噪处理的算法可以采用基于神经网络的降噪算法，例如RNNoise算法，可以实现快速降噪，提高信噪比，提高第二语音的识别准确度。

在一些实施例中，步骤150包括：

将第二语音输入语音识别模型，得到语音识别模型输出的语音识别结果；

其中，语音识别模型包括特征提取层、静音检测层和语音识别层；静音检测层和语音识别层分别与特征提取层连接；

特征提取层用于将第二语音划分为多个语音帧，并提取各个语音帧的声学识别特征；静音检测层用于基于各个语音帧的声学识别特征，确定第二语音中的待识别语音帧；语音识别层用于基于待识别语音帧的声学识别特征，确定第二语音的语音识别结果。

具体地，在实际的语音交互过程中，用户发出的第二语音中可以包含语音部分和非语音部分。非语音部分可以是静音部分或者环境声音部分。例如用户超过一半的时间都不在讲话，采集的第二语音中超过一半是静音，对带有静音的第二语音进行识别处理，浪费了车载终端的计算资源。

可以以神经网络模型为初始模型，建立语音识别模型，用于对第二语音进行处理，得到语音识别结果。

考虑到静音检测和语音识别在采用神经网络模型进行实现时，都可以建立在对第二语音的声学特征进行分析的基础上。因此，本申请实施例建立的语音识别模型从模型结构上可以包括特征提取层、静音检测层和语音识别层。静音检测层和语音识别层分别与特征提取层连接。

特征提取层用于将第二语音划分为多个语音帧，并提取各个语音帧的声学识别特征。首先，特征提取层可以将第二语音划分为多个语音帧。例如，将第二语音按照10ms为一帧分开。其次，特征提取层提取各个语音帧的声学识别特征。声学识别特征用于描述语音帧在声学特性方面的物理量。例如，声学识别特征可以为韵律特征、音色特征和响度特征等；也可以为时域特征和频域特征等。其中，频域特征又可以包括梅尔倒谱系数特征(MelFrequency Cepstral Coefficent，MFCC)和滤波器组特征(Filter-Bank，FBANK)等。

静音检测层用于根据特征提取层输出的声学识别特征，确定第二语音中的待识别语音帧。待识别语音帧为对各个语音帧进行静音检测后，确定为包含用户语音的语音帧。通过提取待识别语音帧，可以将第二语音中的有用部分(语音部分)提取出来，减少对无用部分(非语音部分)进行处理，从而减少系统的计算量。

语音识别层用于根据待识别语音帧的声学识别特征，确定第二语音的语音识别结果。

特征提取层、静音检测层和语音识别层可以采用不同的初始神经网络模型进行实现。各个层所采用的初始神经网络模型的种类可以相同，也可以不同，本申请实施例对此不做具体限定。初始神经网络模型可以包括卷积神经网络(Convolutional Neural Network，CNN)、深度前馈序列记忆神经网络(Deep Feedforward Sequential Memory Network，DFSMN)、长短期记忆神经网络(Long-Stort Term Memory，LSTM)、注意力神经网络(Transformer)等。

为了缩小语音识别模型的模型结构，静音检测层和语音识别层也可以采用神经网络的部分结构进行实现，例如神经网络中的全连接层等。由于各个层执行的任务不同，虽然都采用全连接层实现，但是各个层的神经元数量和权重参数等均不相同。

本申请实施例提供的语音识别方法，由于语音识别模型中的静音检测层和语音识别层共用一个特征提取层，通过模型融合的方式使得语音识别模型分别实现了静音检测和语音识别等功能，减小了语音识别模型的网络尺寸和计算参数，提高了语音识别模型的运算速度，提高了语音识别模型的响应速度，同时减小了语音识别模型对计算资源的需求量，使得语音识别模型可以部署在硬件资源有限的平台上，提高了用户使用语音交互系统的便捷性，提高了用户对于车载终端的使用体验。

在一些实施例中，语音识别模型部署于车载终端或者车载终端对应的云端服务器。

具体地，可以根据语音识别模型的模型结构和模型参数，计算得到语音识别模型的运算量。在运算量小于预设数据量阈值的情况下，可以将语音识别模型部署于车载终端中；在运算量大于或者等于预设数据量阈值的情况下，可以将语音识别模型部署于车载终端对应的云端服务器，由车载终端与云端服务器进行数据通信，实现对第二语音的语音识别。即车载终端将第二语音发送至云端服务器，由云端服务器中部署的语音识别模型对第二语音进行识别后，将语音识别结果发送至车载终端。

其中，预设数据量阈值是根据车载终端的运算能力确定的。

在一些实施例中，图2是本申请一个实施例提供的语音识别方法的流程示意图之二，图3是本申请一个实施例提供的语音识别方法的时序图，如图2和图3所示，该方法应用于车载终端，包括：

步骤210、检测移动终端

用户携带移动终端进入汽车，蓝牙自动连接，汽车上的车载终端和移动终端建立通信连接。检测移动终端消息由车载终端发起，移动终端应答。

步骤220、语音功能匹配

通信连接建立后，需要检查移动终端和车载终端的语音功能是否匹配，主要检查移动终端是否支持麦克风扩展。如果功能和软件匹配，则返回成功的确认消息，否则返回失败。

步骤230、麦克风扩展

将移动终端中的麦克风阵列与车载终端中的麦克风阵列进行组合，得到麦克风扩展阵列。

移动终端先对本地麦克风信号进行回声消除，再把采集到的音频传输到车载终端上，车载终端把移动终端传输的音频和车载的音频合在一起组成语音信号组合。

步骤240、语音唤醒

车载终端语音交互不是对用户的所有讲话都识别和反馈，只对有限领域识别，例如导航、音乐、天气等，一般使用唤醒词唤醒后才能进一步交互。使用唤醒除了排除掉不相干的讲话外，也为了节省算力资源，只有在唤醒以后，车载终端才会对后续录音进行识别。

步骤250、语音识别

车载终端对用户的语音进行识别后，执行相应的操作。

相应地，上述方法在车载终端和移动终端中实现时，需要在各个终端中设置相应的软件模块。图4是本申请一个实施例提供的软件模块图，如图4所示，车载终端中的软件模块包括阵列合并模块、回声消除模块、声源定位模块、波束成形模块、降噪模块、静音检测模块、语音唤醒模块和语音识别模块；移动终端中的软件模块包括音频传输模块和回声消除模块。

下面对本申请提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

图5是本申请一个实施例提供的语音识别装置的结构示意图，如图5所示，该装置包括：

第一采集模块510，用于基于麦克风扩展阵列采集第一语音；

唤醒模块520，用于确定第一语音的语音识别结果包含预设唤醒词；

确定模块530，用于基于麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风；

第二采集模块540，用于基于麦克风扩展阵列进行信号采集并对目标麦克风采集的信号进行增强，确定第二语音；

识别模块550，用于确定第二语音的语音识别结果；

其中，麦克风扩展阵列包括车载终端中的第一麦克风阵列，以及与车载终端连接的移动终端中的一个或多个麦克风。

本申请实施例提供的语音识别装置，根据麦克风扩展阵列采集第一语音；确定在第一语音的语音识别结果包含预设唤醒词，根据麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风；对目标麦克风进行信号增强并采集第二语音；确定第二语音的语音识别结果。由于麦克风扩展阵列不仅包含了车载终端中的第一麦克风阵列，也包括了移动终端中的一个或多个麦克风，在不增加车辆硬件成本的条件下增加了用于采集语音的麦克风数量，同时根据唤醒语音的采集结果对麦克风阵列进行信号增强，使得车载终端可以更加准确地感知用户发声的位置，采集更准确的用户语音，提高了语音唤醒和语音识别的准确度，提高了用户的语音交互体验。

在一些实施例中，该装置还包括：

麦克风扩展模块，用于确定移动终端与车载终端连接成功；发送麦克风功能查询请求至移动终端；

基于麦克风功能配置响应确定移动终端支持麦克风扩展；

在一些实施例中，第一采集模块具体用于：

在一些实施例中，第一采集模块还具体用于：

确定麦克风扩展阵列中任一麦克风对应的采集终端；

在一些实施例中，确定模块具体用于：

将与发声源的距离最小的麦克风确定为目标麦克风。

在一些实施例中，第二采集模块具体用于：

对目标麦克风采集的第二音频信号进行回声消除；

在一些实施例中，该装置还包括：

降噪模块，用于对目标麦克风采集的第二语音进行降噪处理。

在一些实施例中，识别模块具体用于：

在一些实施例中，图6为本申请一个实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(Processor)610、通信接口(CommunicationsInterface)620、存储器(Memory)630和通信总线(Communications Bus)640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑命令，以执行如下方法：

基于麦克风扩展阵列采集第一语音；确定第一语音的语音识别结果包含预设唤醒词；基于麦克风扩展阵列中各个麦克风采集第一语音的声音传播参数，确定目标麦克风；基于麦克风扩展阵列进行信号采集并对目标麦克风采集的信号进行增强，确定第二语音；确定第二语音的语音识别结果；其中，麦克风扩展阵列包括车载终端中的第一麦克风阵列，以及与车载终端连接的移动终端中的一个或多个麦克风。

此外，上述的存储器630中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本申请实施例还提供一种计算机可读的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。

其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本申请实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，应用于车载终端，包括：

基于麦克风扩展阵列采集第一语音；

确定所述第一语音的语音识别结果包含预设唤醒词；

确定所述第二语音的语音识别结果；

2.根据权利要求1所述的语音识别方法，其特征在于，所述麦克风扩展阵列是基于如下步骤确定的：

确定所述移动终端与所述车载终端连接成功；

发送麦克风功能查询请求至所述移动终端；

基于所述麦克风功能配置响应确定所述移动终端支持麦克风扩展；

3.根据权利要求1所述的语音识别方法，其特征在于，所述基于麦克风扩展阵列采集第一语音，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述对所述麦克风扩展阵列中各个麦克风采集的第一音频信号进行回声消除，包括：

确定所述麦克风扩展阵列中任一麦克风对应的采集终端；

5.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述麦克风扩展阵列中各个麦克风采集第一语音对应的声音传播参数，确定目标麦克风，包括：

基于各个麦克风采集第一语音对应的声音传播参数，确定所述第一语音从发声源传播至各个麦克风的到达时间；

将与所述发声源的距离最小的麦克风确定为目标麦克风。

6.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述麦克风扩展阵列进行信号采集并对所述目标麦克风采集的信号进行增强，确定第二语音，包括：

对所述目标麦克风采集的第二音频信号进行回声消除；

7.根据权利要求6所述的语音识别方法，其特征在于，所述得到所述目标麦克风采集的第二语音之后，包括：

对所述目标麦克风采集的第二语音进行降噪处理。

8.根据权利要求1至7任一项所述的语音识别方法，其特征在于，所述确定所述第二语音的语音识别结果，包括：

9.根据权利要求8所述的语音识别方法，其特征在于，所述语音识别模型部署于所述车载终端或者所述车载终端对应的云端服务器。

10.一种语音识别装置，其特征在于，包括：

第一采集模块，用于基于麦克风扩展阵列采集第一语音；

识别模块，用于确定所述第二语音的语音识别结果；

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至9中任一项所述的语音识别方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至9中任一项所述的语音识别方法。