CN113782024B

CN113782024B - 一种针对语音唤醒后提升自动语音识别准确率的方法

Info

Publication number: CN113782024B
Application number: CN202111136150.1A
Authority: CN
Inventors: 尹钧; 赵亚丽; 缪炜
Original assignee: Shanghai Huwen Information Technology Co ltd
Current assignee: Shanghai Huwen Information Technology Co ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2024-03-12
Anticipated expiration: 2041-09-27
Also published as: CN113782024A

Abstract

本发明涉及智能语音交互技术领域，且公开了一种针对语音唤醒后提升自动语音识别准确率的方法，将N个语音采集设备以间距d线性排列构成语音采集模块，N为大于等于2的正整数，将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块，根据预先设计的多个导向矢量生成多个方向的固定波束。该针对语音唤醒后提升自动语音识别准确率的方法，通过提供一种简单有效的提升识别正确率的方法，利用了唤醒加识别的这种常用语音交互模式，将看似没有关系的两者有效结合在一起，以固定波束形成方式，且只在唤醒后识别前触发噪声统计的更新，无需再估计语音统计特性，避免了复杂的计算以及参数估计错误带来的语音畸变。

Description

一种针对语音唤醒后提升自动语音识别准确率的方法

技术领域

本发明涉及智能语音交互技术领域，具体为一种针对语音唤醒后提升自动语音识别准确率的方法。

背景技术

随着远场智能语音交互应用的越来越深入发展，语音识别的效果直接影响着用户在智能语音设备上的体验，通常来说，语音识别技术涉及到对设备的唤醒、唤醒后对设备的语音控制、与设备进行人机对话等，为方便描述，这里术语“识别”特指通过云端自动语音识别(ASR)系统对唤醒后用户的请求进行识别(如“今天天气怎么样”)，在识别中，一个字的错误也可能导致错误的请求。

在实际产品的应用中，环境噪声、房间混响等因素会导致语音识别准确性的严重下降，语音信号处理是现代通信和人工智能等领域的核心技术之一，信号被声传感器，即麦克风采集后，通过前端信号处理技术改善目标语音质量，是一种有效的提升语音识别率的方法，其中，麦克风阵列技术能够利用空间多个麦克风采集到的信息通过波束形成的方式来增强目标语音，波束形成的方法有很多，简单来说，可分为固定波束形成和自适应波束形成，一般来说，固定波束形成即通过设计固定权重方式对空间生成相应拾音波束，该方法稳定且计算复杂度低，但因为无法获知实时的房间混响、噪声统计特性等信息，导致在不同环境很难保持性能一致性，自适应波束形成通过噪声统计特性以及传递函数的估计实时更新权重，使得性能对环境变化有一定的适应性，但算法不够轻便，相比之下会大幅度增加设备使用功耗，并且在更新波束权重时，需要准确区分语音或噪声段，否则有可能损伤到目标语音，严重的在语音识别中会造成掉字、换字等错误，影响用户体验，设计通过简单有效的阵列信号处理来提升识别率的方法是非常必要的。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法，具备通过简单有效的阵列信号处理来提升识别率等优点，解决了环境噪声、房间混响等因素会导致语音识别准确性的严重下降，导致可能损伤到目标语音，严重的在语音识别中会造成掉字、换字等错误，影响用户体验的问题。

(二)技术方案

本发明要解决的另一技术问题是提供一种针对语音唤醒后提升自动语音识别准确率的方法，包括以下步骤：

1)将N个语音采集设备以间距d线性排列构成语音采集模块，N为大于等于2的正整数；

2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块，根据预先设计的多个导向矢量生成多个方向的固定波束；

3)将所述多路固定波束数据输入唤醒模块进行唤醒打分；

4)在成功唤醒后，锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi)，并记录唤醒时刻t0，其中，k为对应子频带，θi为期望方向角；

5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn；

6)将所述噪声协方差矩阵Rn重构目标函数后，再基于导向矢量S(k,θi)生成约束条件，可计算出波束权重W(k)，在识别状态开启时停止更新权重，并沿用估计的权重合成波束数据用于识别直到识别状态关闭；

所述步骤六中波束权重的更新，其特征在于对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新，使得更新后的波束对当前噪声即波束旁瓣有更好的抑制，实现方式是基于线性约束最小方差的方法，根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件，计算出波束权重W，其中WH为W的共轭转置。

进一步，所述步骤二中固定波束形成模块，包括预先对平面空间划分为至少2个可能的方向角或导向矢量，具体划分方式可根据步骤一中语音采集设备数量和间距来设计，以至少有一个导向矢量包含目标语音方向为准，并根据不同导向矢量预先完成固定波束权重的计算，预先设计的固定波束不依赖环境，所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。

进一步，所述固定波束数据，包括经过波束形成滤波以及后置滤波得到的增强的语音数据。

进一步，所述步骤五包括确定识别请求发生的时刻t1，该时刻可根据语音存在概率进行判断，并利用t0至t1的这段时间来估计当下的噪声协方差矩阵，在t1时刻后停止更新，也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间通常小于1s来更新噪声协方差矩阵，所述唤醒时刻t0一般指触发唤醒的那一刻，也可以综合唤醒分数低于预设的阈值时调整为唤醒词说完的某一刻。

进一步，所述波束权重的更新在识别开始时停止更新，保存波束权重，并用固定波束形成的方式得到增强后的语音数据送去识别，与步骤四中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了，步骤四中固定波束所使用的协方差矩阵Rn是预先设计的，可以是单位矩阵，也可以是根据sinc(.)函数或者其他函数特别构造的，同时，在某些特殊环境下，所更新的噪声协方差矩阵Rn也可退化成步骤四中所述固定波束对应的协方差矩阵。

(三)有益效果

与现有技术相比，本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法，具备以下有益效果：

1、该针对语音唤醒后提升自动语音识别准确率的方法，通过提供一种简单有效的提升识别正确率的方法，利用了唤醒加识别的这种常用语音交互模式，将看似没有关系的两者有效结合在一起。

2、该针对语音唤醒后提升自动语音识别准确率的方法，以固定波束形成方式，且只在唤醒后识别前触发噪声统计的更新，无需再估计语音统计特性，避免了复杂的计算以及参数估计错误带来的语音畸变。

3、该针对语音唤醒后提升自动语音识别准确率的方法，在识别过程中实时更新权重可能会严重损伤到语音，本发明有效结合唤醒时刻信息创造了权重更新的时机，既能避免在识别过程中更新波束，又可以尽可能的得到满足短时平稳的噪声统计特性。

4、该针对语音唤醒后提升自动语音识别准确率的方法，简单有效不仅指的是对噪声协方差矩阵的更新方式，也包括利用唤醒分数来选择所需的置信度最高的导向矢量，从而避免了对导向矢量的冗余计算，用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。

附图说明

图1为本发明中一种提升语音识别正确率的流程图；

图2为本发明中的固定波束形成模块的框架图；

图3为本发明中的更新固定波束的示意图。

具体实施方式

下面将结合本发明的实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～3所示，一种针对唤醒后提升自动语音识别的方法，包括以下步骤：

1)将N个语音采集设备以间距d线性排列构成语音采集模块，N为大于等于2的正整数，相比于传统的键盘输入、文字输入，语音输入的速度，语音输入的效率至少是传统输入方式的三倍以上，在这种输入方式不变的场景下，通过语音的交互效率会更高，通过语音的方式，直接下达指令会更方便，即我们发出语音指令的时候，可以一次性的下达多条指令，然后由机器识别之后，分别去执行这些指令的意图；

2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块，根据预先设计的多个导向矢量生成多个方向的固定波束，固定波束形成模块，包括预先对平面空间划分为至少2个可能的方向角或导向矢量，具体划分方式可根据步骤一中语音采集设备数量和间距来设计，以至少有一个导向矢量包含目标语音方向为准，并根据不同导向矢量预先完成固定波束权重的计算，傅里叶变换是数字信号处理中的基本操作，广泛应用于表述及分析离散时域信号领域，但由于其运算量与变换点数N的平方成正比关系，因此，在N较大时，直接应用DFT算法进行谱变换是不切合实际的，然而，快速傅里叶变换技术的出现使情况发生了根本性的变化，使得该方法的实用性能得到广泛应用；

3)将多路固定波束数据输入唤醒模块进行唤醒打分，送去唤醒的固定波束数据，包括经过波束形成滤波以及后置滤波得到的增强的语音数据，波束形成的优点是可以利用空间信息做空间滤波(Spatial filtering)，以单麦克风降噪为例，单麦克风接收到的信号，无法分辨来波方向，对于噪声的抑制主要抑制平稳噪声，因为语音信号是非平稳的，如何准确区分非平稳的噪声和语音比较困难，麦克风阵列至少有两颗麦克风，能够一定程度的区分来波方向，对于非期望方向的干扰语音或者其他非平稳噪声可以线性地衰减；

4)在成功唤醒后，锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi)，并记录唤醒时刻t0，其中，k为对应子频带，θi为期望方向角，麦克风阵列的性能主要用白噪声增益和指向性来评价，前者用来评价阵列在白噪声场景下的抑制能力，后者用来评价阵列在扩散场噪声下的阵列增益，其本质都是阵列增益，可以理解为输出信噪比除以输入信噪比，也可以表示为信号的传递函数；

5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn，所属步骤包括确定识别请求发生的时刻t1，该时刻可根据语音存在概率判断，并利用t0至t1的这段时间来估计当下的噪声协方差矩阵，在t1时刻后停止更新，也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间(通常小于1s)来更新噪声协方差矩阵，唤醒时刻t0一般指触发唤醒的那一刻，也可以综合唤醒分数(低于预设的阈值时)调整为唤醒词说完的某一刻，在统计学与概率论中，协方差矩阵的每个元素是各个向量元素之间的协方差，是从标量随机变量到高维度随机向量的自然推广，协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的，标准差和方差一般是用来描述一维数据的，可以利用协方差矩阵来运算多维数据的数据集；

6)将噪声协方差矩阵Rn重构目标函数后，再基于导向矢量S(k,θi)生成约束条件，可计算出波束权重W(k)，在识别状态开启时停止更新权重，并沿用估计的权重合成波束数据用于识别直到识别状态关闭，波束权重的更新，指的是对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新，使得更新后的波束对当前噪声(即波束旁瓣)有更好的抑制，实现方式是基于线性约束最小方差的方法，根据噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件，计算出波束权重W，其中WH为W的共轭转置，同时，在某些特殊环境下，所更新的噪声协方差矩阵Rn也可退化成步骤四中固定波束对应的协方差矩阵。

本发明的有益效果是：提供了一种简单有效的提升识别正确率的方法，利用了唤醒加识别的这种常用语音交互模式，将看似没有关系的两者有效结合在一起，以固定波束形成方式，且只在唤醒后识别前触发噪声统计的更新，无需再估计语音统计特性，避免了复杂的计算以及参数估计错误带来的语音畸变，在识别过程中实时更新权重可能会严重损伤到语音，本发明有效结合唤醒时刻信息创造了权重更新的时机，既能避免在识别过程中更新波束，又可以尽可能的得到满足短时平稳的噪声统计特性，本发明简单有效不仅指的是对噪声协方差矩阵的更新方式，也包括利用唤醒分数来选择所需的置信度最高的导向矢量，从而避免了对导向矢量的冗余计算，用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种针对语音唤醒后提升自动语音识别准确率的方法，其特征在于：包括以下步骤：

3)将多路固定波束数据输入唤醒模块进行唤醒打分；

5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn；

所述6)中波束权重的更新，包括对于4)中置信度最高的那一路固定波束基于当前噪声统计特性的更新，使得更新后的波束对当前噪声有更好的抑制，该噪声为波束旁瓣，实现方式是基于线性约束最小方差的方法，根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件，计算出波束权重W，其中WH为W的共轭转置。

2.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法，其特征在于：所述2)中固定波束形成模块，包括预先对平面空间划分为至少2个可能的方向角或导向矢量，具体划分方式可根据1)中语音采集设备数量和间距来设计，以至少有一个导向矢量包含目标语音方向为准，并根据不同导向矢量预先完成固定波束权重的计算，预先设计的固定波束不依赖环境，所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。

3.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法，其特征在于：所述固定波束数据，包括经过波束形成滤波以及后置滤波得到的增强的语音数据。

4.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法，其特征在于：所述5)包括确定识别请求发生的时刻t1，该时刻可根据语音存在概率进行判断，并利用t0至t1的这段时间来估计当下的噪声协方差矩阵，在t1时刻后停止更新，或者直接简单的根据唤醒时刻t0之后的一段固定长度的时间来更新噪声协方差矩阵，该时间小于1s，所述唤醒时刻t0指触发唤醒的那一刻，或者将综合唤醒分数低于预设的阈值时调整为唤醒词说完的某一刻作为t0。

5.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法，其特征在于：所述波束权重的更新，在识别开始时停止更新，保存波束权重，并用固定波束形成的方式得到增强后的语音数据送去识别，与4)中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了，4)中固定波束所使用的协方差矩阵Rn是预先设计的，或者是单位矩阵，或者是根据sinc(.)函数或者其他函数特别构造的，同时，在某些特殊环境下，所更新的噪声协方差矩阵Rn退化成4)中所述固定波束对应的协方差矩阵。