CN113990320A

CN113990320A - 语音识别方法、装置、设备和存储介质

Info

Publication number: CN113990320A
Application number: CN202111266002.1A
Authority: CN
Inventors: 陈建哲; 张腾飞; 向伟
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2022-01-28
Also published as: CN110010126A; CN110010126B; CN113782019A

Abstract

本发明实施例提出一种语音识别方法、装置、设备和存储介质。其中，所述语音识别方法可以包括：获取来自多个位置的多路唤醒语音信号；对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置；对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号；对所述待识别信号进行语音识别。通过先确定出唤醒语音位置，可以对其他位置的音频信号进行抑制，从而保持唤醒语音位置的语音的有效性，减少其他位置的噪声信号对语音识别的影响，减少对唤醒语音位置的干扰。

Description

语音识别方法、装置、设备和存储介质

本申请是申请日为2019年03月11日、申请号为201910180338.2、发明名称为“语音识别方法、装置、设备和存储介质”的中国专利申请的分案申请。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备和存储介质。

背景技术

目前的车载语音识别系统，通常只允许安静的环境下，某个特定位置人进行语音输入。但是，在车载环境下，经常出现车上有多人说话的场景。例如，有人在打电话，同时另外有其他人想语音发起导航之类的操作。此时如果电话的声音被车机的麦克风录入，可能造成车机出现很多误识别。

发明内容

本发明实施例提供一种语音识别方法、装置、设备和存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种语音识别方法，包括：

获取来自多个位置的多路唤醒语音信号；

对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置；

对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号；

对所述待识别信号进行语音识别。

在本发明的一个实施例中，对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置，包括：

利用所述多路唤醒语音信号的信号能量进行声源定位，将信号能量最大的一路唤醒语音信号对应的位置确定为唤醒语音位置。

在本发明的一个实施例中，该方法还包括：

利用波束成形的方式调整麦克风阵列的角度，以使得所述麦克风阵列朝向所述唤醒语音位置。

在本发明的一个实施例中，对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号，包括：

接收所述唤醒语音位置的麦克风的第一语音信号；

接收所述其他位置的各麦克风的第二语音信号；

利用数字信号处理器从所述第一语音信号中消除各所述第二语音信号，以得到待识别信号。

控制所述其他位置的麦克风停止收音；

接收所述唤醒语音位置的麦克风的待识别信号。

第二方面，本发明实施例提供了一种语音识别装置，包括：

获取单元，用于获取来自多个位置的多路唤醒语音信号；

声源定位单元，用于对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置；

抑制单元，用于对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号；

识别单元，用于对所述待识别信号进行语音识别。

在本发明的一个实施例中，所述声源定位单元还用于利用所述多路唤醒语音信号的信号能量进行声源定位，将信号能量最大的一路唤醒语音信号对应的位置确定为唤醒语音位置。

在本发明的一个实施例中，该装置还包括：

波束成形单元，用于利用波束成形的方式调整麦克风阵列的角度，以使得所述麦克风阵列朝向所述唤醒语音位置。

在本发明的一个实施例中，所述抑制单元包括：

第一接收子单元，用于接收所述唤醒语音位置的麦克风的第一语音信号；接收所述其他位置的各麦克风的第二语音信号；

消除子单元，用于利用数字信号处理器从所述第一语音信号中消除各所述第二语音信号，以得到待识别信号。

在本发明的一个实施例中，所述抑制单元包括：

停止控制单元，用于控制所述其他位置的麦克风停止收音；

第二接收子单元，用于接收所述唤醒语音位置的麦克风的待识别信号。

第三方面，本发明实施例提供了一种语音识别设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。

在一种实施方式中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述语音识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音识别设备所用的计算机软件指令，其包括用于执行上述语音识别方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过先确定出唤醒语音位置，可以对其他位置的音频信号进行抑制，从而保持唤醒语音位置的语音的有效性，减少其他位置的噪声信号对语音识别的影响，减少对唤醒语音位置的干扰。因此，更加有利于得到准确的语音识别结果，提高用户体验。

上述技术方案中的另一个技术方案具有如下优点或有益效果：采用本发明实施例的语音识别方法，可以在车辆内加入识别抗干扰的方案。如果车辆内的某个位置的人发出唤醒词，将该位置确定为唤醒语音位置，然后可以对该位置的人讲的话进行识别。其他位置的人在讲话时，不会干扰到唤醒语音位置的人，使得用户体验更好，使车机的语音识别更智能和准确。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示意性示出根据本发明一个实施例的语音识别方法的流程图。

图2示意性示出根据本发明另一个实施例的语音识别方法的流程图。

图3示意性示出根据本发明再一个实施例的语音识别方法的应用场景的示意图。

图4示意性示出根据本发明再一个实施例的语音识别方法语音识别方法的流程图。

图5示意性示出根据本发明一个实施例的语音识别装置的示意图。

图6示意性示出根据本发明另一个实施例的语音识别装置的示意图。

图7示意性示出根据本发明一个实施例的语音识别设备的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示意性示出根据本发明一个实施例的语音识别方法的流程图。如图1所示，该方法可以包括：

步骤101、获取来自多个位置的多路唤醒语音信号。

步骤102、对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置。

步骤103、对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号。

步骤104、对所述待识别信号进行语音识别。

在一个实施例中，麦克风阵列包括的多个麦克风可以安装在多个位置，可以按照各麦克风的位置将指定空间划分出多个音区。例如：在车辆内部安装四个麦克风，分别靠近正驾驶位置、副驾驶位置、左后驾驶位置和右后驾驶位置。利用这四个麦克风将车辆内部的空间划分为四个音区，对应为正驾驶音区、副驾驶音区、左后驾驶音区和右后驾驶音区。

每个麦克风还可以连接对应的唤醒引擎。语音设备未被唤醒时麦克风可以保持收音状态。如果某个麦克风接收到的语音信号中包括唤醒词，则与该麦克风连接的唤醒引擎可以将这一路的语音功能唤醒。这些包括唤醒词的语音信号可以简称唤醒语音信号。

在一个实施例中，步骤102包括：利用所述多路唤醒语音信号的信号能量进行声源定位，将信号能量最大的一路唤醒语音信号对应的位置确定为唤醒语音位置。

同一声源与各麦克风之间的距离可能不同，因此，各麦克风收到的该声源发出的语音信号的能量大小可能不同。比较各麦克风信号收到的唤醒语音信号，可以将收到能量最大的信号的麦克风所在的位置确定为唤醒语音位置。

在一个实施例中，如图2所示，该方法还包括：

步骤201、利用波束成形的方式调整麦克风阵列的角度，以使得所述麦克风阵列朝向所述唤醒语音位置。具体地，在声源定位之后，利用波束成形的方式调整麦克风阵列的角度，可以使得唤醒语音位置所在的方向获取到的语音信号能量最大，最有效，其他方向削弱，达到对噪音信号的初步抑制作用。

在一个实施例中，步骤103可以包括多种方式，示例如下：

示例一：利用数字信号处理器(DSP，Digital Signal Processor)消除其他位置的音频信号。具体可以包括：接收所述唤醒语音位置的麦克风的第一语音信号；接收所述其他位置的各麦克风的第二语音信号；利用DSP从所述第一语音信号中消除各所述第二语音信号，以得到待识别信号。例如，DSP可以将唤醒语音位置之外的各个麦克风的信号通过减法消除。

在一种应用场景中，正驾驶的麦克风的收到的语音信号中包含副驾驶的麦克风收到的语音信号。如果能够获得副驾驶的麦克风收到的语音信号，则可以从正驾驶的麦克风收到的语音信号中消除掉副驾驶的麦克风收到的语音信号。这样，可以更加有效的消除其他麦克风对正驾驶的麦克风收到的信号的影响。

示例二：控制唤醒语音位置的麦克风收音，禁止其他位置的麦克风收音。具体可以包括：控制所述其他位置的麦克风停止收音；接收所述唤醒语音位置的麦克风的待识别信号。

根据本发明实施例的上述方法，通过先确定出唤醒语音位置，可以对其他位置的音频信号进行抑制，从而保持唤醒语音位置的语音的有效性，减少其他位置的噪声信号对语音识别的影响，减少对唤醒语音位置的干扰。因此，更加有利于得到准确的语音识别结果，提高用户体验。

在一种应用示例中，以车辆的语音识别系统为例。如图3所示，车辆内部在四个位置(例如驾驶位置、副驾驶位置、左后驾驶位置、右后驾驶位置)包含四个对应的麦克风301。每个麦克风301连接一路唤醒引擎302，总计四路唤醒引擎。四路麦克风收到的语音信号都输入到同一个DSP中，进行抑制处理，从而达到抗干扰的效果。此外，该系统还可以包括一路识别引擎303，对DSP抑制处理后的信号进行语音识别。

如图4所示，语音识别的流程可以包括：

步骤401、如果声源发出的语音包括唤醒词，对某个位置进行唤醒。例如，靠近声源位置的麦克风有包括唤醒词的语音信号输入，可以将该麦克风所在的音区唤醒。由于语音信号没有经过DSP抑制处理，其他三个位置也有语音信号输入，因此，其他位置所在的音区也会被唤醒。这种情况下，车机的四个麦克风进行四路录音。正驾驶、副驾驶、左右驾驶和右后驾驶都有声音录入。

步骤402、DSP在初始化时可以通过波速成型技术，调整麦克风阵列的角度，指向对应的四个位置。因此，四个位置的四路唤醒语音信号输入到DSP中进行处理。其中，通过声源定位，可以将信号能量最大的位置作为唤醒语音位置。DSP通过算法抑制其他三个位置的音频信号，得到该唤醒语音位置的干净的语音信号。

步骤403、可以锁定唤醒语音位置所在的音区，只获取唤醒语音位置所在的音区的待识别信号。此外，在进行语音识别时，通过DSP可以得到该音区的干净的待识别信号。

步骤404、确定唤醒语音位置所在的音区后，如果执行语音识别功能，可以只响应唤醒语音位置所在的音区的待识别信号。如果其他位置的有人在聊天，能够起到抗干扰的作用。例如，正驾驶所在音区唤醒后进行导航的识别，此时如果副驾驶位置有人在打电话。由于只获取正驾驶位置的语音信号，并且正驾驶位置的语音信号经过DSP抑制处理。因此，正驾驶能够正确地识别出导航的指令。

采用本发明实施例的语音识别方法，可以在车辆内加入识别抗干扰的方案。如果车辆内的某个位置的人发出唤醒词，将该位置确定为唤醒语音位置，然后可以对该位置的人讲的话进行识别。其他位置的人在讲话时，不会干扰到唤醒语音位置的人，使得用户体验更好，使车机的语音识别更智能和准确。

图5示意性示出根据本发明一个实施例的语音识别装置的示意图。如图5所示，该装置可以包括：

获取单元501，用于获取来自多个位置的多路唤醒语音信号；

声源定位单元502，用于对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置；

抑制单元503，用于对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号；

识别单元504，用于对所述待识别信号进行语音识别。

在本发明的一个实施例中，如图6所示，该装置还包括：

波束成形单元601，用于利用波束成形的方式调整麦克风阵列的角度，以使得所述麦克风阵列朝向所述唤醒语音位置。

在本发明的一个实施例中，所述抑制单元503包括：

停止控制单元，用于控制所述其他位置的麦克风停止收音；

本发明实施例各装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

图7示意性示出根据本发明一个实施例的语音识别设备的示意图。如图7所示，该语音识别设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的语音识别方法。所述存储器910和处理器920的数量可以为一个或多个。

该设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

获取来自多个位置的多路唤醒语音信号；

通过调整收音设备的朝向角度，对所述多路唤醒语音信号进行声源定位，从而确定唤醒语音位置；

对所述待识别信号进行语音识别。

2.根据权利要求1所述的方法，其特征在于，对所述多路唤醒语音信号进行声源定位，确定唤醒语音位置，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，在收取到所述唤醒语音位置之外的其他位置的音频信号的情况下，包括：

接收所述唤醒语音位置的麦克风的第一语音信号；

接收所述其他位置的各麦克风的第二语音信号；

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过停止收音的方式对所述唤醒语音位置之外的其他位置的音频信号进行抑制，以得到待识别信号，包括：

控制所述其他位置的麦克风停止收音；

接收所述唤醒语音位置的麦克风的待识别信号。

6.一种语音识别装置，其特征在于，包括：

获取单元，用于获取来自多个位置的多路唤醒语音信号；

声源定位单元，用于通过调整收音设备的朝向角度，对所述多路唤醒语音信号进行声源定位，从而确定唤醒语音位置；

识别单元，用于对所述待识别信号进行语音识别。

7.根据权利要求6所述的装置，其特征在于，所述声源定位单元还用于利用所述多路唤醒语音信号的信号能量进行声源定位，将信号能量最大的一路唤醒语音信号对应的位置确定为唤醒语音位置。

8.根据权利要求6所述的装置，其特征在于，还包括：

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述抑制单元包括：

10.根据权利要求6至8中任一项所述的装置，其特征在于，所述抑制单元包括：

停止控制单元，用于控制所述其他位置的麦克风停止收音；

11.一种语音识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。