CN114464184B

CN114464184B - 语音识别的方法、设备和存储介质

Info

Publication number: CN114464184B
Application number: CN202210372646.7A
Authority: CN
Inventors: 王志超
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-09-02
Anticipated expiration: 2042-04-11
Also published as: CN114464184A

Abstract

本申请提供一种语音识别的方法、设备和存储介质，方法应用于智能终端，方法包括：检测唤醒信号；检测到唤醒信号后，测量声源的距离信息，声源的距离信息表示声源到智能终端的距离；根据声源的距离信息优化语音增强算法和语音识别算法，用优化后的语音增强算法和优化后的语音识别算法处理用户语音，得到对应的识别结果。本方案在开始语音识别前根据用户的距离信息优化语音增强算法和语音识别算法，使智能终端的算法能够适应于在多种距离下采集到的语音，改善语音识别的方法在不同距离下输出的识别结果的准确度。

Description

语音识别的方法、设备和存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别的方法、设备和存储介质。

背景技术

语音识别技术已经在人机交互等多种场景中广泛应用。具有语音识别功能的终端设备（简称智能终端）采集用户的语音信号后，利用语音增强算法和语音识别算法处理语音信号，得到识别结果，进而执行识别结果对应的指令。

目前的智能终端仅使用固定的语音增强算法和语音识别算法。这类智能终端的识别结果的准确度会受用户和智能终端间距离影响，例如，用户和智能终端间距离近时识别结果较准确，距离远时识别结果则很不准确。

发明内容

本申请提供了一种语音识别方法、设备和存储介质，以提供一种在多种距离下均能获得准确度较高的识别结果的语音识别方案。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供一种语音识别的方法，应用于智能终端，所述方法包括：

检测唤醒信号；

检测到所述唤醒信号后，测量声源的距离信息，所述声源的距离信息表示所述声源到所述智能终端的距离；

根据所述声源的距离信息优化语音增强算法，并用优化后的所述语音增强算法处理用户语音，得到增强用户语音，所述用户语音为所述智能终端从所述声源采集到的语音信号；

根据所述声源的距离信息优化语音识别算法，并用优化后的语音识别算法识别所述增强用户语音，得到所述用户语音的识别结果。

本实施例的有益效果在于，在开始语音识别前根据用户的距离信息优化语音增强算法和语音识别算法，使智能终端的算法能够适应于在多种距离下采集到的语音，改善语音识别的方法在不同距离下输出的识别结果的准确度。

在一些可选的实施例中，所述检测唤醒信号，包括：

检测采集到的音频信号是否为语音信号；

若采集到的音频信号为语音信号，检测所述语音信号是否包含预设的唤醒词；

若所述语音信号包括所述唤醒词，确定检测到唤醒信号。

示例性的，上述唤醒词可以是“你好YOYO”，也就是说，若智能终端检测到“你好YOYO”的语音，则确定该语音为唤醒信号。

本实施例的有益效果在于，将特定唤醒词的语音确定为唤醒信号，可以避免附近有人说话时智能终端被频繁地唤醒，从而降低智能终端的功耗。

在一些可选的实施例中，所述检测到所述唤醒信号后，测量声源的距离信息，包括：

计算所述声源的方位；

调用和所述声源的方位匹配的测距传感器测量声源的距离信息。

本实施例的有益效果在于，利用和声源的方位相匹配的测距传感器测量距离信息，可以提高测得的距离信息的准确度。

在一些可选的实施例中，所述语音增强算法包括权重预测估计算法，波束形成算法和增益算法中的任意一种或多种。

在一些可选的实施例中，优化所述权重预测估计算法的过程包括：

根据所述声源的距离信息确定优化系数；

根据所述优化系数调整所述权重预测估计算法预测的混响信号在观测信号中的比例。

示例性的，当声源的距离信息为100厘米时，对应的优化系数可以是0.5，在智能终端根据权重预测估计算法混响时，可以将权重预测估计算法中预测的混响信号乘以优化系数0.5。

本实施例的有益效果在于，根据距离信息调整混响信号的比例，使得被去除的混响信号更接近真实的混响信号。

在一些可选的实施例中，优化所述波束形成算法的过程包括：

若所述声源的距离信息小于或等于预设的距离阈值，基于近场模型合并多通道的所述用户语音，所述距离阈值根据所述声源的最小波长和所述智能终端的麦克风阵列的阵列孔径确定；

若所述声源的距离信息大于所述距离阈值，基于远场模型合并多通道的所述用户语音。

示例性的，基于近场模型合并多通道的语音时，可以直接将多通道的语音的平均作为合并后的语音，基于远场模型合并多通道的语音时，可以按特定的权值向量将多通道的语音加权得到合并后的语音。

本实施例的有益效果在于，根据声源到智能终端距离的远近选择不同声场模型对应的合并算法，可以使合并得到的单通道的语音信号更接近用户实际发出的语音信号，避免合并出的单通道的语音信号严重失真，有助于提高后续获得的识别结果的准确度。

在一些可选的实施例中，优化所述增益算法的过程包括：

根据所述声源的距离信息和预设的标准距离，计算得到所述用户语音的衰减量，所述用户语音的衰减量用于确定所述增益算法的补偿量。

示例性的，若根据距离信息计算得到衰减量为12dB，则执行增益算法时同样按12dB的补偿量来补偿语音信号。

本实施例的有益效果在于，根据距离信息确定合适的补偿量，既避免补偿量过大导致补偿后的语音失真，也能避免补偿量不足而导致补偿后的语音强度过低无法被识别。

在一些可选的实施例中，所述根据所述声源的距离信息优化语音识别算法包括：

将所述声源的距离信息所属的距离区间确定为目标距离区间；

利用适用于所述目标距离区间的语音识别模型识别所述增强用户语音。

本实施例的有益效果在于，根据声源所在距离区间的不同选用对应的语音识别模型，可以提高获得的识别结果的准确度。

在一些可选的实施例中，所述智能终端配置有多个语音识别模型，不同的所述语音识别模型适用于不同的距离区间；

所述语音识别模型，利用适用的距离区间内录制的实录数据，以及模拟适用的距离区间的模拟数据训练得到。

也就是说，用于训练适用于特定距离区间的语音识别模型的语音数据，包括两部分，一部分是在该特定距离区间内录制的实录数据，另一部分是通过卷积特定冲击响应而得到的，模拟该距离区间的模拟数据。

示例性的，针对适用于1米以内的语音识别模型，在训练时所用的语音数据包括，在距离声源1米以内录制的实录数据，以及将纯净数据和衰减时间在200ms以内的房间冲击响应卷积得到的模拟数据。

本申请第二方面提供一种电子设备，包括存储器和一个或多个处理器；

所述存储器用于存储计算机程序；

所述一个或多个处理器用于执行所述计算机程序，具体用于实现本申请第一方面任意一项所提供的语音识别的方法。

本申请第三方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，具体用于实现本申请第一方面任意一项所提供的语音识别的方法。

附图说明

图1为本申请实施例提供的一种基于语音识别的人机交互场景示意图；

图2为本申请实施例提供的一种语音识别方法的算法框架示意图；

图3为本申请实施例提供的一种语音识别方法的流程图；

图4为本申请实施例提供的一种传感器测距的示意图；

图5为本申请实施例提供的一种不同麦克风之间的信号延迟示意图；

图6为本申请实施例提供的一种加权预测误差算法的原理示意图；

图7为本申请实施例提供的一种不同声场中声波的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便说明本申请的方案，首先简要介绍本申请可能涉及的部分术语。

语音识别，是指电子设备根据预先配置的语音识别算法，处理采集得到的语音信号，从而获得表示该语音信号的含义的识别结果的技术。

麦克风阵列，由按特定方式排列的若干个麦克风集成的录音设备，针对同一个声源，麦克风阵列中每一个麦克风都会采集到对应的音频信号。麦克风阵列中不同麦克风采集的音频信号可以用不同的通道表示，例如，麦克风1采集的音频信号记为通道1的音频信号，麦克风2采集的音频信号记为通道2的音频信号。

混响信号，声源发出的音频信号在接触到物体表面时会被发射，从物体表面反射出的音频信号称为混响信号。在实际应用场景，特别是在室内场景中，录音设备采集到的音频信号，可以视为从声源直接发出的音频信号和物体表面发射的混响信号叠加得到的信号。在语音识别领域中，混响信号的存在会对语音识别的准确度造成不良影响。

目前，语音识别被广泛应用于各类智能终端，以实现基于语音的人机交互，即用户说话后，智能终端利用语音识别技术处理用户的语音，得到识别结果，进而根据识别结果执行符合用户意图操作，例如播报特定信息，播放特定节目等。

本申请实施例所述的智能终端，可以是智能音箱，智慧屏等终端设备。智慧屏，可以理解为能够接入互联网，并基于互联网提供语音识别，多设备互动，视频通话，网络视频点播等多种功能的电视类设备。

请参见图1，为以智能音箱为例的智能终端人机交互场景示意图。在室内场景中，用户发出语音“你好YOYO，天气怎么样”后，智能音箱101通过麦克风阵列采集到用户的语音，利用语音识别技术处理用户的语音，得到识别结果。识别结果中可以包含“天气”这一关键词，基于该识别结果，智能音箱101可以确定用户意图为播报当前的天气，于是智能音箱101播报语音信息：“天气晴，气温29度，外出请注意防晒”。

一般的在采集到语音信号后，智能终端首先利用语音增强算法处理语音信号，获得增强后的语音信号，然后在利用语音识别算法处理增强后的语音信号，获得识别结果。

可以理解，对于同一用户所说的同样的话，根据用户和智能终端之间距离的不同，智能终端实际采集到的语音信号也会有所不同。而目前的智能终端所配置的语音增强算法和语音识别算法往往是固定的，即算法中涉及的参数和模型不会发生变化，所以这些智能终端只有在用户位于一定距离范围内时获得准确度较好的识别结果，当用户不在该距离范围内时，获得的识别结果的准确度就较低。

也就是说，对于配置固定的语音增强算法和语音识别算法的智能终端，若智能终端的语音增强算法和语音识别算法是基于近距离的语音信号调试的，则智能终端和用户距离太远时，智能终端识别用户语音得到的识别结果就不准确；若智能终端的语音增强算法和语音识别算法是基于远距离的语音信号调试的，则用户靠近智能终端时，智能终端识别用户语音得到的识别结果就不准确。

为了解决上述问题，本申请实施例提供一种语音识别的方法，适用于智能终端。通过实施本申请的方法，智能终端每次采集到语音信号后，可以根据用户和智能终端之间的距离优化智能终端所用的语音增强算法和语音识别算法，然后根据优化后的语音增强算法和优化后的语音识别算法识别语音信号，由此，不论用户和智能终端的距离远近，智能终端都可以获得准确度较高的识别结果。

请参见图2，为本申请实施例提供的语音识别方法的算法框架示意图。

图2的算法框架最左端为麦克风阵列201，用于采集音频信号。

采集到的音频信号一方面可以进入唤醒算法模块202，唤醒算法模块202可以语音检测算法，或者可以包括唤醒词算法，还可以包括语音检测算法和唤醒词算法。

语音检测算法用于识别音频信号是否为用户说话产生的语音信号，通俗地说，也就是识别采集到的声音是否为人说话的声音。本实施例对具体使用的语音检测算法不做限定。在一些可选的实施例中，语音检测算法具体可以是语音活动检测（Voice ActivityDetection，VAD）算法。

唤醒词算法，又称唤醒词模型，Wakeup模型，用于识别音频信号中是否包含特定的唤醒词语音。唤醒词的具体内容可以根据实际情况而设定，对此不作限定。示例性的，本实施例中，唤醒词算法可以检测音频信号中是否包含“你好YOYO”的语音，此处的“你好YOYO”即为一种唤醒词的示例。

唤醒算法模块202之后为DOA算法模块203，DOA的全称为Direction-of-Arrival，中文为到达方向。DOA算法用于根据麦克风阵列采集到的多个通道的音频信号确定声源相对用于智能终端的方位。一般的，声源的方位，可以声源所在的方向和麦克风阵列的法向之间的夹角Theta表示。

需要说明，相关技术中，DOA算法可以理解为一类根据多通道的音频信号识别声源方位的算法的统称，在具体实现时，根据使用场景可以使用不同的DOA算法。示例性的，本实施例中所用的DOA算法，可以是广义互相关相位转换（Generalized Cross-CorrelationPhase Transform，GCC-PHAT）算法。

声源的方位可以提供给传感器测距模块204，传感器测距模块204根据声源的方位调用智能终端上对应方位的测距传感器，从而测量得到声源和智能终端之间的距离信息。

另一方面，当麦克风阵列201采集到的音频信号是语音信号时，语音信号可以进入语音增强算法模块205，语音增强算法模块用于通过一种或多种算法增强输入的语音信号，输出增强后的语音信号给自动语音识别（Automatic Speech Recognition，ASR）算法模块206，进行语音识别。在语音识别前对语音信号增强，可以提高识别结果的准确度。

本实施例中，语音增强算法模块205具体可以包括权重预测估计（WeightedPrediction Estimation，WPE）算法，波束形成（Beam Forming，BF）算法和增益（Gain）算法。

其中，WPE算法为一种语音去混响的算法，用于削弱语音信号中的混响信号。BF算法用于将麦克风阵列采集的多通道的语音信号合并为单通道的语音信号，Gain算法用于补偿语音信号，以提高语音信号的幅度。

增强后的语音信号进入ASR算法模块206后，ASR算法模块206后调用智能终端中预先存储的语音识别模型识别增强后的语音信号，获得对应的识别结果。

本实施例中，智能终端存储有多个预先训练好的语音识别模型，根据适用的距离的不同，可以分为近场模型，远场模型和超远场模型，适用的距离由近到远。ASR算法模块206根据传感器测距模块204检测得到的用户和智能终端的距离信息，加载并使用对应的语音识别模型。

也就是说，若用户和智能终端的距离较近，则ASR算法模块206利用近场模型识别增强后的语音信号；若用户和智能终端的距离较远，则ASR算法模块206利用远场模型识别增强后的语音信号；若用户和智能终端的距离很远，则ASR算法模块206利用超远场模型识别增强后的语音信号。

需要说明，图2所示的算法框架仅为本申请的语音识别的方法所涉及的一种示例性的算法框架。在本申请其他实施例中，智能终端可以只使用图2中部分算法模块实现本申请的语音识别方法，也可以使用和图2不同的算法模块实现本申请的语音识别方法。

根据图2所示的算法框架，本申请实施例提供一种语音识别的方法，请参见图3，本实施例可以包括如下步骤。

在一些可选的实施例中，智能终端的处理器可以执行预先配置的计算机指令，使得智能终端实现本实施例的如下步骤。

S301，检测唤醒信号。

智能终端在启动后可以默认处于休眠状态，此时智能终端可以实时地执行步骤S301，若在步骤S301中检测到唤醒信号，则智能终端进入唤醒状态，开始执行步骤S302及其后续步骤，若未检测到唤醒信号，则智能终端保持休眠状态，继续执行步骤S301，不执行后续步骤，直至智能终端关闭或者检测到唤醒信号为止。

在一些可选的实施例中，唤醒信号，可以是任意的语音信号。也就是说，当智能终端检测到语音信号时就会被唤醒，然后针对采集到的语音信号执行后续的语音增强和语音识别等步骤。

本实施例中步骤S301的具体实施方式可以是，当智能终端的麦克风阵列采集到音频信号时，将该音频信号输入唤醒算法模块，唤醒算法模块利用语音检测算法识别输入的音频信号中是否有语音信号，如果检测到有语音信号，则认为检测到唤醒信号，若输入的音频信号中没有语音信号，则认为未检测到唤醒信号。

作为一个示例，在S301中可以用VAD算法检测输入的音频信号是否包含语音信号。下面简要说明VAD算法的原理：

人说话的声音（即语音信号）和环境中的噪音一般具有不同的特征，例如，频率的分布不同，强度不同等。因此，可以预先从多段语音信号中提取出语音信号的特征，例如可以提取多段语音信号的Fbank特征（或其他特征，对此不作限定），得到语音信号的特征库，当有待检测的音频信号时，提取该音频信号的Fbank特征（或其他特征，和前文一致），比对该音频信号的Fbank和特征库中语音信号的Fbank特征，若两者相匹配，则认为待检测的音频信号包含语音信号，若两者不相匹配，则认为待检测的音频信号不包含语音信号。Fbank的全称为Filter Bank，对应的中文为滤波器组。

当以任意的语音信号作为唤醒信号时，图2所示的唤醒算法模块可以不包括唤醒词算法。

在另一些可选的实施例中，唤醒信号也可以是包含特定唤醒词的语音信号。也就是说，只有在检测到语音信号并且识别出语音信号中包含特定的唤醒词的时候，智能终端才会被唤醒。

本实施例中步骤S301的具体实施方式可以是，当智能终端的麦克风阵列采集到音频信号时，将该音频信号输入唤醒算法模块，唤醒算法模块首先利用语音检测算法识别输入的音频信号中是否有语音信号，若输入的音频信号中没有语音信号，则认为未检测到唤醒信号。

如果语音检测算法检测到有语音信号，则唤醒算法模块利用唤醒词算法进一步检测语音信号中是否包含特定的唤醒词，如果包含特定的唤醒词，则认为检测到唤醒信号，如果不包含特定的唤醒词，则认为未检测到唤醒信号。

其中，唤醒词算法，可以是一个预先训练好的用于识别语音中特定的唤醒词的神经网络模型。

作为一个示例，唤醒词可以被设定为“你好YOYO”。相应的，确定音频信号为语音信号之后，智能终端利用唤醒词模型识别语音信号中是否包含“你好YOYO”，如果包含，则智能终端进入唤醒状态，如果不包含，则智能终端继续处于休眠状态。本示例中，“你好YOYO”的语音信号就可以视为S301所述的唤醒信号。

以包含特定唤醒词的语音信号作为唤醒信号的好处在于：

当智能终端所在的场景内有多人相互交流时，以包含特定唤醒词的语音信号作为唤醒信号，可以避免智能终端频繁的被唤醒并执行后续的语音增强和语音识别步骤，从而降低智能终端的耗电量。

S302，检测到唤醒信号后，测量声源的距离信息。

声源，指发出声音的事物。对于语音信号而言，步骤S302的声源可以理解为用户，即说话的人。声源的距离信息，就是声源到采集声音的设备，即智能终端之间的距离。换言之，步骤S302可以理解为，在检测到唤醒信号后，测量用户和智能终端的距离。本申请中，测量得到的声源的距离信息可以记为Dis。

示例性的，测量得到的声源的距离信息可以为200厘米（cm），说明发出语音的用户和智能终端之间的距离为200cm。

步骤S302的具体实施方式可以是：

步骤a，利用DOA算法模块检测声源的方位。

步骤b，调用和声源的方位匹配的测距传感器测量声源的距离信息。

下面结合图4说明步骤a和b。

如图4所示，智能终端400配置有麦克风阵列401和测距传感器402，其中测距传感器402的数量有多个，例如图4中有8个测距传感器402。多个测距传感器402环形的均匀布置在智能终端400上。

当声源403发出声音，例如用户说话产生语音时，麦克风阵列401的多个麦克风分别采集到多个通道的语音信号。由于麦克风阵列401中各个麦克风到声源403的距离不同，不同通道的语音信号之间会存在一定的延迟，因此，步骤a中DOA算法模块可以利用不同通道的语音信号之间的延迟，根据DOA算法计算得到声源的方位。

声源的方位可以用声源的方向和麦克风阵列的法向的夹角（记为方位角）表示，如图4所示，声源403的方位可以用方位角404表示。

在一些可选的实施例中，DOA算法模块可以仅根据采集到的一部分语音信号进行声源定位，例如，仅根据用户的完整语音中唤醒词部分的语音进行声源定位。

以图1所示的场景为例，用户发出的语音为“你好YOYO，天气怎么样”，本实施例中，当唤醒算法模块识别到“你好YOYO”的语音后，DOA算法模块根据“你好YOYO”的语音进行声源定位，并触发传感器测距模块用对应方位的测距传感器测量声源的距离信息。

本实施例的有益效果在于，可以在采集到用户的完整语音之前就完成声源的距离信息的测量以及根据距离信息对语音增强算法和语音识别算法的优化，在采集到用户的完整语音后就可以立即根据优化后的语音增强算法和语音识别算法进行语音识别，缩短了响应用户的语音所需的时间。

在另一些可选的实施例中，DOA算法模块可以根据采集到的一段完成的语音信号进行声源定位。以图1所示的场景为例，用户发出的语音为“你好YOYO，天气怎么样”，本实施例中，DOA算法模块根据麦克风阵列采集的完整语音，即“你好YOYO，天气怎么样”进行声源定位。

本实施例的有益效果在于，可以提高声源定位结果的准确度，获得更准确的声源的方位角。

步骤b中，获得方位角后，智能终端就可以调用环形分布的多个测距传感器中，最接近该方位角的测距传感器测量声源的距离信息。

作为一个示例，步骤a中DOA算法模块可以根据GCC-PHAT算法检测声源的方位。下面介绍GCC-PHAT算法的实现原理。

请参见图5，为GCC-PHAT算法的原理示意图。图5中Theta表示声源的方位角，即声源的方向和麦克风阵列的法向之间的夹角，麦克风1和麦克风2为麦克风阵列中相邻的两个麦克风，D为麦克风间距，表示麦克风阵列中相邻的两个麦克风之间的距离。D为麦克风阵列预先标定好的固有参数，也就是说智能终端在安装麦克风阵列后，自然就能获得该麦克风阵列中相邻的两个麦克风之间的距离。

从图5可以看出，由于声源的方位角的存在，不同麦克风采集到的语音信号的传播距离有一定差异。传播可以理解为语音信号从声源传递到麦克风所经过的距离。例如麦克风1采集的语音信号的传播距离，比麦克风2采集的语音信号的传播距离短了Dp。可以看出，麦克风间距D和相邻两个麦克风采集的语音信号的传播距离之差，就可以用反三角函数计算出声源的方位角Theta，即：

传播距离之差Dp可以利用如下公式计算得到：

公式（2）中，X_a（t,f）表示麦克风1采集的语音信号的频域形式，X_b（t,f）表示增加延时T0后的麦克风2的语音信号的频域形式，*表示括号内信号的共轭，［X_b（t,f）］^*可以理解为信号X_b（t,f）的共轭信号。R_PHAT可以视为信号X_a（t,f）和X_b（t,f）的互相关函数。IDFT全称为Inverse Discrete Fourier Transform，对应的中文为离散傅里叶逆变换。

公式（3）中，argmax表示对括号内的函数，求解出使该函数达到最大值时的自变量d。

可以理解，互相关函数为关于自变量延时T0的函数，延时T0可以用d/C表示，d表示距离，C为空气中的音速，对应的互相关函数被转换为关于自变量d的函数，即R_PHAT(d)，随着d的不同取值，R_PHAT(d)的值对应的发生变化，当d等于图5所示的麦克风1和麦克风2的传播距离之差Dp时，R_PHAT(d)达到最大值。

因此，如公式（3）所示，构建出函数R_PHAT(d)后，求解使R_PHAT(d)达到最大值的自变量d的值，解出的结果就相当于图5所示的麦克风1和麦克风2的传播距离之差Dp。然后将Dp和预先标定的麦克风阵列的麦克风间距D代入前述计算方位角的公式（1），就可以计算得到声源的方位角Theta。

在步骤S302中，智能终端可以利用自身配置的测距传感器检测声源到智能终端的距离信息。本实施例中，测距传感器具体可以是基于超声波技术实现的超声波传感器，也可以是基于红外光技术实现的红外传感器，还可以超声波传感器和红外传感器混用，即智能终端配置的多个测距传感器中一部分为超声波传感器，另一部分是红外传感器。本实施例对测距传感器的具体类型和所用技术不做限定。

作为一种示例，在步骤S302中智能终端可以利用和声源方位匹配的超声波传感器测量声源的距离信息。超声波传感器的工作原理为，向指定方向发射超声波束，然后接收物体表面发射回来的超声波束，从发射到接收所经过的时间的一半，就是超声波束从超声波传感器传播到物体所需的时间，记为T1，然后基于公式：L=C×T1，就可以计算得到超声波传感器到物体的距离L，其中C为预先设定的空气中的音速。

需要说明，步骤a为可选的步骤。即在一些可选的实施例中，智能终端在执行步骤S302时可以不检测声源的方位，直接调用测距传感器测量距离信息，相应的，该实施例中智能终端可以不配置如图2所示的DOA算法模块。

这种情况下，智能终端可以只配置一个测距传感器，执行步骤S302时直接调用配置的唯一一个测距传感器测量得到距离信息；或者，智能终端也可以配置多个测距传感器，执行步骤S302时同时调用多个测距传感器测得多个备选的距离信息，从中选择一个距离信息作为最终测得的距离信息。

执行步骤a的有益效果在于，通过检测声源的方位并调用方位对应的测距传感器，可以提高测得的距离信息的准确度。

S303，根据声源的距离信息优化语音增强算法，并用优化后的语音增强算法处理用户语音，得到增强用户语音。

优化语音增强算法，是指优化图2所示的语音增强算法模块205所包括的算法。智能终端的语音增强算法模块205可以包括WPE算法，BF算法和增益算法中任意一种或多种，对应的，在步骤S303中可以对WPE算法，BF算法和增益算法中任意一种或多种进行优化。

下面说明WPE算法的优化方式。

首先结合图6的WPE算法的原理的示意图，简要介绍WPE算法的原理。K和delta分别为WPE算法中需要预先设定的两个参数，K可以称为抽头系数（Filter tape），delta可以称为步长。

在WPE算法中，麦克风阵列等录音设备采集的原始信号记为观测信号

，n表示第n帧信号，观测信号可以被划分为纯净信号和混响信号两部分，WPE算法将

中的混响信号，视为关于第n-delta-K+1帧至第n-delta帧的观测信号的函数，也就是将第n-delta-K +1帧至第n-delta帧的观测信号经过滤波器过去后的信号视为第n帧的混响信号，其中滤波器又可以根据第n-delta+1帧至第n-1帧的观测信号确定。

综上，参见图6，WPE算法去除观测信号

的混响信号时，根据之前的K帧观测信号（即第n-delta-K+1帧至第n-delta帧）预测第n帧信号

中的混响信号，再从观测信号

中减去预测的混响信号，从而得到第n帧信号

中的纯净信号

。

基于上述WPE算法的原理，本实施例对WPE算法的优化方式为，在预测出的第n帧的混响信号之前，增加一个和声源的距离信息相关的优化系数Beta，利用优化系数调整WPE算法预测出的混响信号在观测信号中的比例。增加优化系数后的WPE算法可以用如下公式（4）表示：

公式（4）中，

表示第n-delta-K+1帧至第n-delta帧的观测信号，即

至

的集合，h^H(n)表示第n帧信号

的滤波器，

表示去除信号

的混响信号后得到的第n帧纯净信号。

优化系数Beta可以根据声源的距离信息，按如下公式（5）确定：

也就是说，若用户到智能终端距离不大于100cm，则优化系数为距离除以200，若用户到智能终端距离大于100cm且小于300cm，则优化系数为距离除以300，若用户到智能终端距离大于300cm，则优化系数等于1。以上距离单位均为厘米。

在步骤S303中，智能终端可以根据声源的距离信息，按公式（5）确定优化系数Beta，在去除混响时，将确定好的优化系数Beta代入公式（4），按公式（4）所示的用优化系数Beta优化后的WPE算法从观测信号去除混响信号。

按上述方式优化WPE算法的好处在于：

一般的，当声源和录音设备的距离较近时，采集到的观测信号中混响信号所占的比例较小，当声源和录音设备的距离较远时，采集到的观测信号中混响信号所占的比例则较大。通过设置与距离信息相关的优化系数，本方案可以在用户和智能终端距离较近时，例如在100cm以内时，降低预测的混响信号的占比，在用户和智能终端距离较远时，例如在300cm以外时，提高预测的混响信号的占比。因此，优化后的WPE算法输出的纯净信号更接近麦克风阵列实际采集到的纯净信号，从而有助于提高后续基于纯净信号语音识别得到的识别结果的准确度。

需要说明，在WPE算法中所述的一帧观测信号，包括在该帧对应的时刻麦克风阵列中全部通道的观测信号，以图6为例，第n帧观测信号

包括，通道1至通道4对应的麦克风采集到的第n帧音频信号。

下面说明BF算法的优化方式。

BF算法在合并多个通道的语音信号时，根据声场模型的不同，具体的合并算法也不同。本方案对BF算法的优化方式为，预先配置多种不同的声场模型对应的合并算法，在获得声源的距离信息后，选择和距离信息相匹配的声场模型对应的合并算法，使得BF算法合并得到的单通道的语音信号更准确。

一般的，根据声源和麦克风阵列距离的远近，可将声场模型分为两种：近场模型和远场模型。

请参见图7，在近场模型中，声波被视为球面波，所以基于近场模型合并多个通道的语音信号时，需要考虑不同通道的语音信号间的幅度差；在远场模型中，声波被简化为平面波，基于远场模型合并多个通道的语音信号时，可以忽略不同通道的语音信号的幅度差，近似认为各通道的语音信号之间是简单的时延关系。

适用近场模型还是远场模型，可以根据声源到麦克风阵列中心的距离是否超过特定距离阈值来确定，该距离阈值和麦克风阵列的阵列孔径，以及声源发出的声音的最小波长有关。以图7为例，该距离阈值R0可以按如下公式（6）计算得到：

其中，d为麦克风阵列的阵列孔径，阵列孔径是麦克风阵列预先标定好的固有参数，Lambda为声源发出的声音的最小波长。声源发出的声音的最小波长，也可以视为，声源发出的最高频率的声音的波长。

若声源到麦克风阵列中心的距离大于距离阈值R0，则可以基于远场模型来合并语音信号，若声源到麦克风阵列中心的距离不大于距离阈值R0，则可以基于近场模型来合并语音信号。

作为一个示例，在本实施例针对的用户说话的场景中，人的声带能够发出的声音频率一般不超过8000Hz，因此可以认为人发出的声音的最小波长Lambda=340/8000Hz，即4.25cm，其中340为空气中声波的速度，单位是米每秒。常用的麦克风阵列的阵列孔径为17.5cm，将上述参数代入公式（6）可以计算得到距离阈值R0约为144cm。

因此，在上述示例中，智能终端可以判断声源的距离信息是否大于144cm，若声源的距离信息大于144cm，则智能终端用BF算法合并语音信号时，应用远场模型对应的合并算法；若声源的距离信息小于或等于144cm，则智能终端用BF算法合并语音信号时，应用近场模型对应的合并算法。

本申请实施例对近场模型和远场模型对应的具体算法不做限定。

作为一个示例，为了节约计算资源，提高计算速度，近场模型对应的合并算法可以为，计算麦克风阵列所有通道的语音信号的均值作为合并得到的单通道的信号，具体算法请参见公式（7）：

公式（7）中，y（t）表示合并得到的单通道的语音信号，x_i(t)表示通道i的语音信号，M表示通道的总数，可以理解为麦克风阵列中麦克风的数量。

远场模型对应的合并算法可以为，确定每个通道对应的权值向量，根据每个通道的权值向量将各个通道的语音信号加权求和，得到合并后的单通道的语音信号，具体算法请参见公式（8）：

公式（8）中，

表示通道i对应的权值向量，可以利用延时求和波束形成（Delay-and-Sum Beamformer，DSB）算法计算得到。

根据声源到智能终端距离的远近选择不同声场模型对应的合并算法，可以使合并得到的单通道的语音信号更接近用户实际发出的语音信号，避免合并出的单通道的语音信号严重失真，有助于提高后续获得的识别结果的准确度。

下面说明增益算法的优化方式：

声波从声源传播到录音设备时，传播距离越远，录音设备采集到的声音的强度就越弱，由声音转换出的信号的电平就越低，而电平过低不利于识别语音信号，所以智能终端可以在进行语音识别前，用增益算法补偿语音信号，以提高语音信号的电平。

在声学领域，一般假设录音设备与声源的距离每增加一倍，则录音设备从声波转换出的电信号的电平将下降6dB。基于上述假设，智能终端采集到的语音信号的衰减量可以用如下公式（9）计算得到：

公式（9）中，R2为预设的标准距离，其具体数值可以根据智能终端的常见应用场景而预先设定，示例性的，R2可以设定为1米（m）。

基于上述衰减量的计算公式，本实施例中优化增益算法的方式可以是：

将声源的距离信息Dis代入公式（9），计算出麦克风阵列采集的语音信号的衰减量，在根据增益算法补偿语音信号时，根据衰减量确定相应的补偿量。

示例性的，若根据距离信息计算得到语音信号的衰减量为12dB，则用增益算法补偿语音信号时，智能终端将补偿量设定为和衰减量相等，即按12dB的补偿量对语音信号进行补偿。

本实施例的有益效果在于：

根据声源的距离信息计算语音信号的衰减量，从而根据衰减量确定合适的补偿量，既能够避免补偿量过多的导致语音信号失真，也能够避免补偿量不足而导致输出的语音信号的电平过低，有助于提高后续语音识别时获得的识别结果的准确度。

在S303中，若语音增强算法模块包括WPE算法，BF算法和增益算法，则对语音信号的处理可以是，先用WPE算法去除语音信号的混响，然后用BF算法将去除混响后多个通道的语音信号合并为单通道的语音信号，最后用增强算法对单通道的语音信号做补偿，提高语音信号的电平，经过去混响，合并和补偿后的语音信号记为前述增强语音信号。

可选的，若语音增强算法模块仅包括WPE算法，BF算法，则经过去混响和合并即为前述增强语音信号。其他情况，如语音增强算法模块仅包括WPE算法，或者仅包括BF算法的情况类似，不再赘述。

S304，根据声源的距离信息优化语音识别算法，并用优化后的语音识别算法识别增强用户语音，得到识别结果。

步骤S304中对语音识别算法的优化方式可以是：

预先训练得到多个语音识别模型，多个语音识别模型分别适用于不同的距离区间，进行语音识别时，ASR算法模块206根据距离信息，选择适用的距离区域和距离信息相匹配的语音识别模型加载，根据加载的语音识别模型识别增强用户语音，得到对应的识别结果。

距离区间的数量和每个距离区间的范围，可以根据智能终端的具体使用场景而设定，根据距离区间的数量，相应的可以训练同样数量的语音识别模型，以确保每个距离区间都有适用的语音识别模型，本实施例对距离区间的数量和范围，以及语音识别模型的数量均不做限定。

作为一种可选的示例，可以设定1米以内，1米至3米，以及3米以外三个距离区间，其中适用于1米以内的语音识别模型称为近场识别模型，适用于1米至3米的语音识别模型可以称为远场识别模型，适用于3米以外的语音识别模型称为超远场识别模型。

适用于不同距离区间的语音识别模型，可以具有相同的架构，也可以具有不相同的架构，本申请对各个距离区间所适用的语音识别模型的具体架构不做限定。

适用于不同距离区间的语音识别模型之间的差异主要在于，用于训练语音识别模型的语音数据不同。

在一些可选的实施例中，针对每一个距离区间，可以获得符合该距离区间的特征的语音数据训练深度学习模型（或神经网络模型，具体不限定），完成训练后就可以得到适用于该距离区间的语音识别模型。

其中，用于训练的语音数据可以包括模拟数据和实录数据，实录数据是指在真实的日常使用场景中用录音设备录制得到的语音数据；模拟数据，是指用纯净语音数据和特定使用场景下的冲击响应做卷积运算后得到的语音数据，将纯净语音数据和特定使用场景下的冲击响应做卷积运算，可以模拟用户在对应场景内说话时的语音。

例如，用纯净语音数据和室内场景的冲击响应（称为房间冲击响应）做卷积运算得到的模拟数据，可以模拟用户在室内场景说话时的语音；用纯净语音数据和空旷的室外场景的冲击响应做卷积运算得到的模拟数据，可以模拟用户在空旷的室外说话时的语音。

纯净语音数据可以在混响足够弱的室内环境中录音得到。

本申请提供的语音识别的方法适用于智能音箱，智慧屏等智能终端，而这类智能终端主要的使用场景为室内场景，因此下文均以纯净语音数据和房间冲击响应卷积产生的模拟数据为例进行说明。

可以理解，当适用的电子设备的主要使用场景不同时，用于训练的模拟数据可以用相应场景的冲击响应卷积运算得到，本申请对此不作限定。

对于室内场景，声源到智能终端的距离显然和所在房间的大小相关，房间越大则声源（即用户）越可能和智能终端相隔较远的距离。因此针对适用于较远距离的语音识别模型，训练时所用的模拟数据可以用模拟较大房间的房间冲击响应卷积运算得到，针对适用于较近距离的语音识别模型，训练时所用的模拟数据可以用模拟较小房间的房间冲击响应卷积运算得到。

房间冲击响应模拟的房间的大小和房间冲击响应的衰减时间具有一定关系，一般的，房间越大，该房间内的冲击响应衰减越慢，相应的房间冲击响应的衰减时间越长。因此针对适用于较远距离的语音识别模型，训练时所用的模拟数据可以用衰减时间较长的房间冲击响应卷积运算得到，针对适用于较近距离的语音识别模型，训练时所用的模拟数据可以用衰减时间较短的房间冲击响应卷积运算得到。

结合前述示例，在训练适用于1米以内的近场识别模型时，所用的训练数据可以包括，录音设备在声源1米以内录制得到的近场实录数据，以及纯净数据和衰减时间在200毫秒（ms）以内的房间冲击响应卷积运算得到的近场模拟数据。

在训练适用于1米至3米的远场识别模型时，所用的训练数据可以包括，录音设备在声源1米至3米范围内录制得到的远场实录数据，以及纯净数据和衰减时间在200ms至600ms之间的房间冲击响应卷积运算得到的远场模拟数据。

在训练适用于3米以外的超远场识别模型时，所用的训练数据可以包括，录音设备在声源3米以外录制得到的超远场实录数据，以及纯净数据和衰减时间在600ms以上的房间冲击响应卷积运算得到的超远场模拟数据。

结合上述示例，步骤S304的具体实施方式可以是：

确定声源的距离信息位于1米以内，1米至3米，以及3米以外哪个距离区间内，若声源的距离信息在1米以内，则ASR算法模块206加载近场识别模型，根据近场识别模型识别增强用户语音，得到识别结果；若声源的距离信息在1米至3米之间，则ASR算法模块206加载远场识别模型，根据远场识别模型识别增强用户语音，得到识别结果；若声源的距离信息在3米以外，则ASR算法模块206加载超远场识别模型，根据超远场识别模型识别增强用户语音，得到识别结果。

最后结合图1所示的使用场景说明本申请的语音识别的方法的执行过程：

在室内场景中，智能音箱101启动后，智能音箱101处于休眠状态，休眠状态下智能音箱101实时用麦克风阵列采集环境中的声音并检测其中是否包含唤醒信号，即实时执行步骤S301。

用户发出语音“你好YOYO，天气怎么样”时，智能音箱101的唤醒算法模块202通过VAD算法识别出该声音为用户的语音，并且通过唤醒词算法识别出其中包含预设的唤醒词“你好YOYO”，智能音箱101进入唤醒状态，执行步骤S302。即，智能音箱101的DOA算法模块203根据语音信号“你好YOYO”，确定用户的方位角，然后传感器测距模块204启动位于用户的方位角上的超声波传感器，测量用户的距离信息，也就是测量用户到智能音箱101的距离。

传感器测距模块204测的距离信息后将距离信息提供给语音增强算法模块205和ASR算法模块206。

语音增强算法模块205基于用户的距离信息执行步骤S303，对模块中的WPE算法，BF算法和Gain算法进行优化，具体的优化方式请参见图3所示实施例的步骤S303，不再赘述，然后用优化后的WPE算法，BF算法和Gain算法依次处理语音信号“你好YOYO，（或者为减小计算量，也可以只处理不含唤醒词的部分，即语音“天气怎么样”），然后输出处理后的增强用户语音给ASR算法模块206。

ASR算法模块206根据用户的距离信息和增强用户语音执行步骤S304，即首先根据距离信息所属的距离区间，选择适用的语音识别模型，示例性的，假设图1中用户到智能音箱距离小于1米，所以ASR算法模块206加载适用于1米以内的近场识别模型，根据近场识别模型对增强用户语音进行语音识别，得到识别结果。

本实施例对识别结果的具体形式不做限定，示例性的，识别结果中可以包含关键词“天气”，随后，智能音箱101根据识别结果确定用户意图为播报当前的天气，于是智能音箱101播报语音信息：“天气晴，气温29度，外出请注意防晒”。

本申请实施例提供一种电子设备，包括存储器和一个或多个处理器。

存储器用于存储计算机程序。

一个或多个处理器用于执行计算机程序，具体用于实现本申请任一实施例所提供的语音识别的方法。

上述电子设备，可以是智能音箱，智慧屏等智能终端设备。

本申请实施例还提供一种计算机存储介质，用于存储计算机程序，该计算机程序被执行时，具体用于实现本申请任一实施例所提供的语音识别的方法。

上述计算机存储介质，可以是智能音箱，智慧屏等智能终端设备中的存储器。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例涉及的多个，是指大于或等于两个。需要说明的是，在本申请实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

Claims

1.一种语音识别的方法，其特征在于，应用于智能终端，所述方法包括：

检测唤醒信号；

根据所述声源的距离信息优化语音识别算法，并用优化后的语音识别算法识别所述增强用户语音，得到所述用户语音的识别结果；

所述语音增强算法至少包括权重预测估计算法；

所述根据所述声源的距离信息优化语音增强算法，至少包括：

根据所述声源的距离信息确定优化系数；

根据所述优化系数调整所述权重预测估计算法预测的混响信号在观测信号中的比例；所述观测信号为所述用户语音。

2.根据权利要求1所述的方法，其特征在于，所述检测唤醒信号，包括：

检测采集到的音频信号是否为语音信号；

若所述语音信号包括所述唤醒词，确定检测到唤醒信号。

3.根据权利要求1所述的方法，其特征在于，所述检测到所述唤醒信号后，测量声源的距离信息，包括：

计算所述声源的方位；

4.根据权利要求1所述的方法，其特征在于，所述语音增强算法还包括波束形成算法和/或增益算法。

5.根据权利要求4所述的方法，其特征在于，优化所述波束形成算法的过程包括：

6.根据权利要求4所述的方法，其特征在于，优化所述增益算法的过程包括：

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述根据所述声源的距离信息优化语音识别算法包括：

8.根据权利要求7所述的方法，其特征在于，所述智能终端配置有多个语音识别模型，不同的所述语音识别模型适用于不同的距离区间；

9.一种电子设备，其特征在于，包括存储器和一个或多个处理器；

所述存储器用于存储计算机程序；

所述一个或多个处理器用于执行所述计算机程序，具体用于实现如权利要求1至8任意一项所述的语音识别的方法。

10.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，具体用于实现如权利要求1至8任意一项所述的语音识别的方法。