CN111883160A

CN111883160A - 一种定向麦克风阵列拾音降噪方法及装置

Info

Publication number: CN111883160A
Application number: CN202010786357.2A
Authority: CN
Inventors: 陈晓松; 李旭滨
Original assignee: Shanghai Maosheng Intelligent Technology Co ltd
Current assignee: Shanghai Maosheng Intelligent Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-03
Anticipated expiration: 2040-08-07
Also published as: CN111883160B

Abstract

本申请涉及一种定向麦克风阵列拾音降噪方法及装置，该方法包括获取原始语音信息；对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；对降噪语音信息进行清晰化处理，以生成清晰语音信息；识别清晰语音信息，以获取第一语义信息，解决了无法对干扰信号处理导致语音识别不准确的问题，实现了消除干扰信号、提高语音识别准确率的技术效果。

Description

一种定向麦克风阵列拾音降噪方法及装置

技术领域

本申请涉及语音降噪技术领域，特别是涉及一种定向麦克风阵列拾音降噪方法及装置。

背景技术

在噪杂场景中，如地铁站厅，用户在进行语音购票或语音问询时，会出现因外界噪声干扰大，导致无法进行流畅语音交互的问题。

在相关技术中，为了减少外界噪声对语音识别的影响，通常使用等间距麦克风阵列以及配套的语音降噪算法对原始语音音频进行降噪处理，从而提高语音识别的准确率。其具体流程如下：等间距麦克风阵列录入多路音频，降噪算法对多路音频进行处理，从而得到单路降噪音频，将该单路降噪音频送入语音识别引擎进行识别，获得语音识别结果后用于语音交互。

然而，在地铁站厅中，多个地铁售票机相邻设置，邻近地铁售票机的用户对话、过往的旅客和工作人员的说话、以及地铁站内广播都会对用户语音购票或语音问询造成干扰。上述降噪算法无法对干扰信号进行处理，导致在后续的语音识别阶段产生大量的误识别。

目前针对相关技术中无法对干扰信号进行处理导致语音识别不准确的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种定向麦克风阵列拾音降噪方法及装置，以至少解决相关技术中无法对干扰信号处理导致语音识别不准确的问题。

第一方面，本申请实施例提供了一种定向麦克风阵列拾音降噪方法，应用于躁杂场景，包括：

获取原始语音信息；

对所述原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；

对所述降噪语音信息进行清晰化处理，以生成清晰语音信息；

识别所述清晰语音信息，以获取第一语义信息。

在其中的一些实施例中，对所述原始语音信息进行降噪处理包括：

利用超指向性波束形成算法对所述原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成第一过渡语音信息；

利用广义旁瓣相消算法对所述第一过渡语音信息进行增强处理，以生成降噪语音信息。

在其中的一些实施例中，对所述降噪语音信息进行清晰化处理，以生成清晰语音信息包括：

对所述降噪语音信息进行回声消除处理，消除回声信号，以生成第二过渡语音信息；

对所述第二过渡语音信息进行去混响处理，消除混响信号，以生成清晰语音信息。

对所述降噪语音信息进行去混响处理，消除混响信号，以生成第二过渡语音信息；

对所述第二过渡语音信息进行回声消除处理，消除回声信号，以生成清晰语音信息。

在其中的一些实施例中，对所述原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息，还包括：

获取所述原始语音信息的第一信噪比以及所述降噪语音信息的第二信噪比；

在所述第二信噪比与所述第一信噪比的比值未达到第一预设阈值的情况下，对所述原始语音信息或所述降噪语音信息进行降噪处理，直至所述第二信噪比与所述第一信噪比的比值达到第一预设阈值。

在其中的一些实施例中，对所述降噪语音信息进行清晰化处理，以生成清晰语音信息，包括：

获取所述降噪语音信息的第一信号回声比以及所述清晰语音信息的第二信号回声比；

在所述第二信号回声比与所述第一信号回声比的比值未达到第二预设阈值的情况下，对所述降噪语音信息或所述清晰语音信息进行清晰化处理，直至所述第二信号回声比与所述第一信号回声比的比值达到所述第二预设阈值。

在其中的一些实施例中，对所述降噪语音信息进行回声消除处理，消除回声信号，以生成第二过渡语音信息，包括：

获取所述降噪语音信息的第一信号回声比以及所述第二过渡语音信息的第二信号回声比；

在所述第二信号回声比与所述第一信号回声比的比值未达到第二预设阈值的情况下，对所述降噪语音信息或所述第二过渡语音信息或所述清晰语音信息进行清晰化处理，直至所述第二信号回声比与所述第一信号回声比的比值达到所述第二预设阈值。

在其中的一些实施例中，在获取第一语义信息之后，所述方法还包括：

生成与所述第一语义信息相对应的执行动作指令；

获取与所述执行动作指令相对应的反馈信息，在所述反馈信息为无响应状态的情况下，对所述降噪语音信息或所述清晰语音信息进行清晰化处理，直至所述反馈信息为响应状态。

生成与所述第一语义信息相对应的执行动作指令；

获取与所述执行动作指令相对应的反馈信息，在所述反馈信息为无响应状态的情况下，对所述降噪语音信息或所述第二过渡语音信息或所述清晰语音信息进行去混响处理，直至所述反馈信息为响应状态。

识别所述清晰语音信息，以获取第二语义信息；

在所述第二语义信息与所述第一语义信息的相似率未达到第三预设阈值的情况下，对所述降噪语音信息或所述清晰语音信息进行清晰化处理，直至所述第二语义信息与所述第一语义信息的相似率达到所述第三预设阈值。

识别所述清晰语音信息，以获取第二语义信息；

在所述第二语义信息与所述第一语义信息的相似率未达到第三预设阈值的情况下，对所述降噪语音信息或所述第二过渡语音信息或所述清晰语音信息进行去混响处理，直至所述第二语义信息与所述第一语义信息的相似率达到所述第三预设阈值。

第二方面，本申请实施例提供了一种定向麦克风阵列拾音降噪装置，包括：

定向麦克风单元，用于获取原始语音信息；

降噪处理单元，用于对所述原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；

清晰化处理单元，用于对所述降噪语音信息进行清晰化处理，以生成清晰语音信息；

语音识别单元，用于识别所述清晰语音信息，以获取第一语义信息。

在其中的一些实施例中，所述清晰化处理单元包括回声消除模块和去混响模块：

所述回声消除模块用于对所述降噪语音信息进行回声消除处理，消除回声信号，以生成第二过渡语音信息；所述去混响模块用于对所述第二过渡语音信息进行去混响处理，消除混响信号，以生成清晰语音信息；或

所述去混响模块用于对所述降噪语音信息进行去混响处理，消除混响信号，以生成第二过渡语音信息；所述回声消除模块用于对所述第二过渡语音信息进行回声消除处理，消除回声信号，以生成清晰语音信息。

在其中的一些实施例中，还包括：

判断单元，用于获取所述原始语音信息的第一信噪比以及所述降噪语音信息的第二信噪比、以及获取所述降噪语音信息的第一信号回声比以及所述降噪语音信息的第二信号回声比，判断所述第二信噪比与所述第一信噪比的比值是否达到第一预设阈值、以及所述第二信号回声比与所述第一信号回声比的比值是否达到第二预设阈值；

所述降噪处理单元还用于在所述第二信噪比与所述第一信噪比的比值未达到第一预设阈值的情况下，对所述原始语音信息或所述降噪语音信息进行降噪处理，直至所述第二信噪比与所述第一信噪比的比值达到所述第一预设阈值；

所述清晰化处理单元还用于在所述第二信号回声比与所述第一信号回声比的比值未达到第二预设阈值的情况下，对所述降噪语音信息或所述清晰语音信息进行清晰化处理，直至所述第二信号回声比与所述第一信号回声比的比值达到所述第二预设阈值。

第三方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面所述所述的定向麦克风阵列拾音降噪方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的定向麦克风阵列拾音降噪方法。

相比于相关技术，本申请实施例提供的一种定向麦克风阵列拾音降噪方法及装置，通过获取原始语音信息；对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；对降噪语音信息进行清晰化处理，以生成清晰语音信息；识别清晰语音信息，以获取第一语义信息，解决了无法对干扰信号处理导致语音识别不准确的问题，实现了消除干扰信号、提高语音识别准确率的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的定向麦克风阵列拾音降噪方法的应用场景图；

图2是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(一)；

图3是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(二)；

图4是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(三)；

图5是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(四)；

图6是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(五)；

图7是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(六)；

图8是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(七)；

图9是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(八)；

图10是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(九)；

图11是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(一)；

图12是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(二)；

图13是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(三)。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

图1是根据本申请实施例的定向麦克风阵列拾音降噪方法的应用场景图。如图1所示，其包括地铁售票机120、定向麦克风阵列拾音降噪装置110以及服务器130。

定向麦克风阵列拾音降噪装置110安装于地铁售票机120，用于获取用户的原始语音信息，并进行降噪处理、清晰化处理后生成清晰语音信息，以及识别清晰语音信息获取第一语义信息。

其中，原始语音信息为多路音频信息，清晰语音信息为单路音频信息。

在一些实施例中，定向麦克风阵列拾音降噪装置110包括多路麦克风阵列，如6路麦克风阵列、8路麦克风阵列。

地铁售票机120，与定向麦克风阵列拾音降噪装置110进行通信连接，用于根据第一语义信息进行动作，如进行购票或进行语音问询。

服务器130，与定向麦克风阵列拾音降噪装置110、地铁售票机120进行通信连接，用于在进行语音问询的情况下，返回与第一语义信息相对应的应答信息，以及用于对定向麦克风阵列拾音降噪装置110的各种算法、模型进行更新，或者获取地铁售票机120的实时工作状态(如地铁票的剩余量、购票款的累积量、地铁售票机120是否正常工作)。

在一些实施例中，服务器130可以是本地服务器，也可以是远程服务器，如云服务器。可以是单服务器，也可以多服务器集群。

通信连接通过网络140进行连接，可以是有线网络连接，也可以是无线网络连接。在其中的一些实施例中，网络140可以可以包括公共网络(例如，因特网)、专用网络(例如，局域网(LAN)、广域网(WAN)等)、无线网络(例如，802.11网络、Wi-Fi网络等)、蜂窝网络(例如，4G网络、5G网络等)、帧中继网络、虚拟专用网络(VPN)、卫星网络、路由器、集线器、交换机、服务器等或者其任意组合。仅作为示例，网络140可包括电缆网络、有线网络、光纤网络、电信网络、内联网、无线局域网(WLAN)、城域网(MAN)、公共电话交换网(PSTN)等或者其任意组合。在一些实施例中，网络140可包括一个或多个网络接入点。例如，网络140可包括有线和/或无线网络接入点，诸如基站和/或因特网交换点，上述装置可通过这些接入点连接到网络以交换信息和/或数据。

图2是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(一)。如图2所示，定向麦克风阵列拾音降噪方法包括：

步骤S202，获取原始语音信息；

步骤S204，对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；

步骤S206，对降噪语音信息进行清晰化处理，以生成清晰语音信息；

步骤S208，识别清晰语音信息，以获取第一语义信息。

在上述步骤S204中，预设角度范围为定向麦克风阵列的有效拾音角度，以定向麦克风阵列的中心为圆点的具有一定角度的扇形，如-45°～45°、-30°～30°、-25°～25°。

在一些实施例中，对原始语音信息可以进行单次降噪处理，也可以进行多次降噪处理，从而尽可能地消除预设角度范围以外的干扰信号。

在上述步骤S206中，清晰化处理包括回声消除处理、去混响处理，以消除定向麦克风阵列的产生的音频信号和/或环境产生的音频信号。

在一些实施例中，对降噪语音信息可以进行单次清晰化处理，也可以进行多次清晰化处理，从而生成清晰度高的(或纯净度高)的清晰语音信息。

通过上述步骤，对原始语音依次进行降噪处理以及清晰化处理，消除干扰信号，从而满足获取干净清晰的语音音频的需要，进而解决了相关技术中无法对干扰信号处理导致语音识别不准确的问题，实现了消除干扰信号、提高语音识别准确率的技术效果。

图3是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(二)。如图3所示，对原始语音信息进行降噪处理包括：

步骤S302，利用超指向性波束形成算法对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成第一过渡语音信息；

步骤S304，利用广义旁瓣相消算法对第一过渡语音信息进行增强处理，以生成降噪语音信息。

在上述步骤S302中，利用超指向性波束形成算法能够针对性地抑制预设角度范围之外的干扰信号，有效地过滤预设角度范围之外的音频信号，从而使预设角度范围以内的音频信号更清晰，即第一过渡语音信息的信噪比(信号与干扰加噪声比，Signal toInterference plus Noise Ratio，SINR)相对于原始语音信息的信噪比大。

在其中的一些实施例中，可以利用超指向性波束形成算法对原始语音信息进行单次降噪处理，也可以进行多次降噪处理，从而尽可能地消除预设角度范围以外的干扰信号。

在上述步骤S304中，利用广义旁瓣相消算法能够对预设角度范围以内的音频信号进行增强，即降噪语音信息的信噪比相对于第一过渡语音信息的信噪比大。

在其中的一些实施例中，可以利用广义旁瓣相消算法对第一过渡语音信息进行单次增强处理，也可以进行多次增强处理，从而尽可能地增强预设角度范围以内的音频信号。

图4是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(三)。如图4所示，对原始语音信息进行降噪处理包括：

步骤S402，利用广义旁瓣相消算法对原始语音信息进行增强处理，以生成第一过渡语音信息；

步骤S404，利用超指向性波束形成算法对第一过渡语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息。

在上述步骤中，对原始语音信息先进行增强处理，使得预设角度范围之内的音频信号的强度比预设角度范围之外的干扰信号的强度大，便于后续的超指向性波束形成算法对预设角度范围之外的干扰信号进行抑制、消除。

在其中的一些实施例中，可以利用广义旁瓣相消算法对原始语音信息进行单次增强处理，也可以进行多次增强处理，从而尽可能地增强预设角度范围以内的音频信号。

在其中的一些实施例中，可以利用超指向性波束形成算法对第一过渡语音信息进行单次降噪处理，也可以进行多次降噪处理，从而尽可能地消除预设角度范围以外的干扰信号。

通过上述步骤，定向降噪算法由超指向性波束形成算法和广义旁瓣相消算法进行结合，可以对原始语音信息进行干扰信号抑制以及有效信号增强，从而获得清晰度较高(纯净度较高)的降噪语音信息，解决了相关技术中无法对干扰信号进行有效抑制的问题。

图5是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(四)。如图5所示，对降噪语音信息进行清晰化处理，以生成清晰语音信息包括：

步骤S502，对降噪语音信息进行回声消除处理，消除回声信号，以生成第二过渡语音信息；

步骤S504，对第二过渡语音信息进行去混响处理，消除混响信号，以生成清晰语音信息。

在上述步骤S502中，利用回声消除算法对降噪语音信息进行回声消除处理，其作用是消除定向麦克风阵列在拾音(录音)中的回声(即相关设备自身播放的声音)。

在其中的一些实施例中，可以利用回声消除算法对降噪语音信息进行单次回声消除处理，也可以进行多次回声消除处理，以尽可能地消除降噪语音信息中的回声信号。

在上述步骤S504中，利用去混响算法对第二过渡语音信息进行去混响处理，其作用是消除空间(如封闭空间)内的混响信号。

在其中的一些实施例中，可以利用去混响算法对第二过渡语音信息进行单次去混响处理，也可以进行多次去混响处理，以尽可能地消除第二过渡语音信息中的混响信号。

图6是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(五)。如图6所示，对降噪语音进行清晰化处理，以生成清晰语音信息包括：

步骤S602，对降噪语音信息进行去混响处理，消除混响信号，以生成第二过渡语音信息；

步骤S604，对第二过渡语音信息进行回声消除处理，消除回声信号，以生成清晰语音信息。

在上述步骤中，利用去混响算法对降噪语音信息先进行去混响处理，消除其中的混响信号，便于后续的回声消除算法消除其中的回声信号。

在其中的一些实施例中，可以利用去混响算法对降噪语音信息进行单次去混响处理，也可以进行多次去混响处理，从而尽可能地消除混响信号。

在其中的一些实施例中，可以利用回声消除算法对第二过渡语音信息进行单次回声消除处理，也可以进行多次回声消除处理，从而尽可能地消除回声信号。

通过上述步骤，清晰化处理算法由回声消除算法和去混响算法进行结合，可以对降噪语音信息进行回声消除处理以及去混响处理，从而获得清晰度更高(纯净度更高)的清晰语音信息，解决了相关技术中降噪处理后的音频信号不清晰的问题。

图7是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(六)。如图7所示，对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息，还包括：

步骤S702，获取原始语音信息的第一信噪比以及降噪语音信息的第二信噪比；

步骤S704，在第二信噪比与所述第一信噪比的比值未达到第一预设阈值的情况下，对原始语音信息或降噪语音信息进行降噪处理，直至第二信噪比与所述第一信噪比的比值达到第一预设阈值。

一般地，经降噪处理获得降噪语音信息的第二信噪比一般会比原始语音信息的信噪比大。为了保证降噪效果，将第二信噪比与第一信噪比进行比较，判断降噪处理是否满足要求。

具体地，以第一预设阈值为100为例，如第一信噪比为60dB，第二信噪比为80dB，第二信噪比与第一信噪比的比值为100，即表明降噪语音信息满足降噪要求。若第二信噪比为70dB，则第二信噪比与第一信噪比的比值为10，表明降噪语音信息不满足降噪要求，需要再次进行降噪处理。

通过上述步骤，对降噪语音信息进行判断，在不满足降噪要求的情况下对降噪语音信息或原始语音信息进行再次降噪处理，使得降噪语音信息满足后续使用要求，解决了相关技术中无法对降噪效果欠佳的语音信息进行二次降噪的问题，实现了在后续流程中提高语音识别准确率的技术效果。

图8是根据本申请实施例的定向麦克风阵列拾音降噪方法的流程图(七)。如图8所示，对降噪语音信息进行清晰化处理，以生成清晰语音信息，包括：

步骤S802，获取降噪语音信息的第一信号回声比以及清晰语音信息的第二信号回声比；

步骤S804，在第二信号回声比与第一信号回声比的比值未达到第二预设阈值的情况下，对降噪语音信息或清晰语音信息进行清晰化处理，直至第二信号回声比与第一信号回声比的比值达到第二预设阈值。

一般地，经清晰化处理获得清晰语音信息的第二信号回声比一般会比降噪语音信息的信号回声比大。为了保证清晰化处理效果，将第二信号回声比与第一信号回声比进行比较，判断清晰化处理是否满足要求。

具体地，以第二预设阈值为25为例，如第一信号回声比为50dB，第二信号回声比为70dB，则第二信号回声比与第一信号回声比的比值为100，即表明清晰语音数据满足后续识别要求。若第二信号回声比为60dB，则第二信号回声比与第一信号回声比的比值为10，表明清晰语音信息不满足后续识别要求，需要再次进行清晰化处理。

在一些实施例中，若清晰化处理的顺序为回声消除处理→去混响处理，上述步骤还可以为：

获取降噪语音信息的第一信号回声比以及第二过渡语音信息的第二信号回声比(对应于步骤S802)；

在第二信号回声比与第一信号回声比的比值未达到第二预设阈值的情况下，对降噪语音信息或第二过渡语音信息或清晰语音信息进行清晰化处理，直至第二信号回声比与第一信号回声比的比值达到第二预设阈值(对应于步骤S804)。

通过上述步骤，对清晰语音信息进行回声消除效果判断，在不满足后续识别要求的情况下对清晰语音信息或降噪语音信息进行再次清晰化处理(主要是回声消除处理)，使得清晰语音信息满足后续识别要求，解决了相关技术中无法对清晰度欠佳的语音信息进行二次清晰化处理的问题，实现了在后续流程中提高语音识别准确率的技术效果。

图9是根据本申请实施例的的定向麦克风阵列拾音降噪方法的流程图(八)。如图9所示，在获取第一语义信息之后，方法还包括：

步骤S902，生成与第一语义信息相对应的执行动作指令；

步骤S904，获取与执行动作指令相对应的反馈信息，在反馈信息为无响应状态的情况下，对降噪语音信息或清晰语音信息进行清晰化处理，直至反馈信息为响应状态。

一般地，经过降噪处理以及清晰化处理后，清晰语音信息的清晰度高(纯净度高)，对清晰语音信息进行识别后达到的第一语义信息基本是准确的。为了保证清晰化处理效果，会根据第一语义信息进行相关设备的唤醒率的判断清晰化处理效果。

具体地，如第一语义信息是准确的，则执行动作指令是明确的；如果设备获取执行动作指令后无响应，如无唤醒、无动作，则会生成一个无响应状态的反馈信号，即表明第一语义信息是不准确的。因此，则需要对降噪语音信息或清晰语音信息再次进行清晰化处理，从而确保相关设备能够响应执行动作指令。

在一些实施例中，若清晰化处理的顺序为去混响处理→回声消除处理，上述步骤还可以为：

生成与第一语义信息相对应的执行动作指令(对应于步骤S902)；

获取与执行动作指令相对应的反馈信息，在反馈信息为无响应状态的情况下，对降噪语音信息或第二过渡语音信息或清晰语音信息进行清晰化处理，直至反馈信息为响应状态(对应于步骤S904)。

通过上述步骤，利用反馈信息进行去混响效果判断，在无响应状态的情况下，对清晰语音信息或降噪语音信息进行再次清晰化处理(主要是去混响处理)，使得清晰语音信息满足后续识别要求，解决了相关技术中无法对清晰度欠佳的语音信息进行二次清晰化处理的问题，实现了在后续流程中提高语音识别准确率的技术效果。

图10是根据本申请实施例的的定向麦克风阵列拾音降噪方法的流程图(九)。如图10所示，在获取第一语义信息之后，方法还包括：

步骤S1002，识别清晰语音信息，以获取第二语义信息；

步骤S1004，在第二语义信息与第一语义信息的相似率未达到第三预设阈值的情况下，对降噪语音信息或清晰语音信息进行清晰化处理，直至第二语义信息与第一语义信息的相似率达到第三预设阈值。

一般地，经过降噪处理以及清晰化处理后，清晰语音信息的清晰度高(纯净度高)，对清晰语音信息进行识别后达到的第一语义信息基本是准确的。为了保证清晰化处理效果，对清晰语音信息进行再次识别获取第二语义信息，会根据第二语义信息与第一语义信息的相似率判断清晰化处理效果。

具体地，如清晰语音信息的清晰度满足要求，则第二语义信息与第一语义信息应近似或相似或相等。以第三预设阈值为90％为例，若第二语义信息与第一语义信息的相似率(即第二语音信息与第一语义信息的比值)为95％，则表明清晰语音信息满足识别要求。如第一语义信息为“我要购买地铁车票”，第二语义信息为“我要买地铁车票”或“我要购买地铁票”，第二语义信息与第一语义信息的相似率达到90％，表明清晰语音信息的清晰度高，满足语音识别要求。

若第二语义信息与第一语义信息的相似率为85％，则表明清晰语音信息无法满足识别要求。如第一语义信息为“我要购买地铁车票”，第二语义信息为“我要购买五张地铁票”，第二语义信息与第一语义信息的相似率低于90％，表明清晰语音信息的清晰度低，不满足语音识别要求。

识别清晰语音信息，以获取第二语义信息(对应于步骤S1002)；

在第二语义信息与第一语义信息的相似率未达到第三预设阈值的情况下，对降噪语音信息或第二过渡语音信息或清晰语音信息进行清晰化处理，直至第二语义信息与第一语义信息的相似率达到第三预设阈值(对应于步骤S1004)。

通过上述步骤，利用第二语义信息与第一语义信息的相似率进行去混响效果判断，在相似率未达到第三预设阈值的情况下，对清晰语音信息或降噪语音信息进行再次清晰化处理(主要是去混响处理)，使得清晰语音信息满足后续识别要求，解决了相关技术中无法对清晰度欠佳的语音信息进行二次清晰化处理的问题，实现了在后续流程中提高语音识别准确率的技术效果。

图11是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(一)。如图11所示，定向麦克风阵列拾音降噪装置110包括定向麦克风单元1110、降噪处理单元1120、清晰化处理单元1130和语音识别单元1140。

定向麦克风单元1110，用于获取原始语音信息；

降噪处理单元1120，与定向麦克风单元1110通信连接，用于对原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息；

清晰化处理单元1130，与降噪处理单元1120通信连接，用于对降噪语音信息进行清晰化处理，以生成清晰语音信息；

语音识别单元1140，与清晰化处理单元1130通信连接，用于识别清晰语音信息，以获取第一语义信息。

在其中的一些实施例中，定向麦克风单元1110包括8路麦克风，8路麦克风沿直线排列，其中，以第4路麦克风与第5路麦克风的间距的中心设置中心点，以该中心点为圆心设置一个虚拟的预设角度范围的扇形，即以中心点为起点，做一条垂直于8路麦克风的直线的法线(直线与法线均位于同一水平面)，扇形关于该法线轴对称。

在其中的一些实施例中，降噪处理单元1120利用定向降噪算法对原始语音信息进行降噪处理。具体地，定向降噪算法由超指向性波束形成算法和广义旁瓣相消算法进行结合，可以对原始语音信息进行干扰信号抑制以及有效信号增强，从而获得清晰度较高(纯净度较高)的降噪语音信息，解决了相关技术中无法对干扰信号进行有效抑制的问题。

通过上述单元，对原始语音依次进行降噪处理以及清晰化处理，消除干扰信号，从而满足获取干净清晰的语音音频的需要，进而解决了相关技术中无法对干扰信号处理导致语音识别不准确的问题，实现了消除干扰信号、提高语音识别准确率的技术效果。

图12是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(二)。如图12所示，清晰化处理单元1130包括回声消除模块1131和去混响模块1132，回声消除模块1131与去混响模块1132通信连接。

在其中的一些实施例中，回声消除模块1131与降噪处理单元1120通信连接，用于对降噪语音信息进行回声消除处理，消除回声信号，以生成第二过渡语音信息；去混响模块1132用于对第二过渡语音信息进行去混响处理，消除混响信号，以生成清晰语音信息。

在其中的一些实施例中，去混响模块1132与降噪处理单元1120通信连接，用于对降噪语音信息进行去混响处理，消除混响信号，以生成第二过渡语音信息；回声消除模块1131用于对第二过渡语音信息进行回声消除处理，消除回声信号，以生成清晰语音信息。

通过上述装置，清晰化处理单元利用回声消除算法和去混响算法，可以对降噪语音信息进行回声消除处理以及去混响处理，从而获得清晰度更高(纯净度更高)的清晰语音信息，解决了相关技术中降噪处理后的音频信号不清晰的问题。

图13是根据本申请实施例的定向麦克风阵列拾音降噪装置的结构框图(三)。如图13所示，该装置还包括判断单元1150。

判断单元1150分别与降噪处理单元1120、清晰化处理单元1130通信连接，用于获取原始语音信息的第一信噪比以及降噪语音信息的第二信噪比、以及获取降噪语音信息的第一信号回声比以及降噪语音信息的第二信号回声比，判断第二信噪比与第一信噪比的比值是否达到第一预设阈值、以及第二信号回声比与第一信号回声比的比值是否达到第二预设阈值。

降噪处理单元1120还用于在第二信噪比与第一信噪比的比值未达到第一预设阈值的情况下，对原始语音信息或降噪语音信息进行降噪处理，直至第二信噪比与第一信噪比的比值达到第一预设阈值。

清晰化处理单元1130还用于在第二信号回声比与第一信号回声比的比值未达到第二预设阈值的情况下，对降噪语音信息或清晰语音信息进行清晰化处理，直至第二信号回声比与第一信号回声比的比值达到第二预设阈值。

在一些实施例中，判断单元1150还与语音识别单元1140通信连接。

语音识别单元1140还用于识别清晰语音信息，以获取第二语义信息。判断单元1150还用于判断第二语义信息与第一语义信息的相似率是否达到第三预设阈值。

清晰化处理单元1130还用于在第二语义信息与第一语义信息的相似率未达到第三预设阈值的情况下，对降噪语音信息或清晰语音信息进行清晰化处理，直至第二语义信息与第一语义信息的相似率达到第三预设阈值。

通过上述装置，可以对降噪处理的效果、清晰化处理的效果进行判断，从而在效果未达到要求的情况下，再次进行降噪处理和/或清晰化处理，以满足后续语音识别要求，提高语音识别准确率。

另外，本申请实施例的定向麦克风阵列拾音降噪方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。

在一些实施例中，处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种定向麦克风阵列拾音降噪方法。

在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(HyperTransport，简称为HT)互连、工业标准架构(IndustryStandard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(LowPin Count，简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment，简称为SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以执行本申请实施例中的定向麦克风阵列拾音降噪方法。

另外，结合上述实施例中的定向麦克风阵列拾音降噪方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种定向麦克风阵列拾音降噪方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种定向麦克风阵列拾音降噪方法，应用于躁杂场景，其特征在于，包括：

获取原始语音信息；

识别所述清晰语音信息，以获取第一语义信息。

2.根据权利要求1所述的定向麦克风阵列拾音降噪方法，其特征在于，对所述原始语音信息进行降噪处理包括：

3.根据权利要求1所述的定向麦克风阵列拾音降噪方法，其特征在于，对所述降噪语音信息进行清晰化处理，以生成清晰语音信息包括：

对所述第二过渡语音信息进行去混响处理，消除混响信号，以生成清晰语音信息；

或

对所述降噪语音进行去混响处理，消除混响信号，以生成第二过渡语音信息；

4.根据权利要求1所述的定向麦克风阵列拾音降噪方法，其特征在于，对所述原始语音信息进行降噪处理，消除在预设角度范围之外的干扰信号，以生成降噪语音信息，还包括：

在所述第二信噪比与所述第一信噪比的比值未达到第一预设阈值的情况下，对所述原始语音信息或所述降噪语音信息进行降噪处理，直至所述第二信噪比与所述第一信噪比的比值达到所述第一预设阈值。

5.根据权利要求1所述的定向麦克风阵列拾音降噪方法，其特征在于，对所述降噪语音信息进行清晰化处理，以生成清晰语音信息，包括：

6.一种定向麦克风阵列拾音降噪装置，其特征在于，包括：

定向麦克风单元，用于获取原始语音信息；

7.根据权利要求6所述的定向麦克风阵列拾音降噪装置，其特征在于，所述清晰化处理单元包括回声消除模块和去混响模块：

8.根据权利要求6所述的定向麦克风阵列拾音降噪装置，其特征在于，还包括：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1～5中任一项所述的定向麦克风阵列拾音降噪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1～5中任一项所述的定向麦克风阵列拾音降噪方法。