CN115295000B

CN115295000B - 提高多对象说话场景下语音识别准确性的方法、装置及设备

Info

Publication number: CN115295000B
Application number: CN202211220119.0A
Authority: CN
Inventors: 陶贵宾
Original assignee: Shenzhen Tonglian Financial Network Technology Service Co ltd
Current assignee: Shenzhen Tonglian Financial Network Technology Service Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-03
Anticipated expiration: 2042-10-08
Also published as: CN115295000A

Abstract

本公开涉及一种提高多对象说话场景下语音识别准确性的方法、装置及设备。包括：获取多个对象的待识别语音音频，确定各对象相对于其他对象的皮尔逊相关系数，根据皮尔逊相关系数从麦克风阵列中确定极点麦克风和极轴麦克风；根据待识别语音音频相对极点麦克风的信号强度，对多个对象进行区域划分；根据区域的数量和采集间隔时长从预设差分阵列系数确定目标差分阵列系数，根据极点和极轴麦克风构建极坐标系，确定麦克风在极坐标系中的坐标；根据坐标和目标差分阵列系数，提取待识别语音音频的纯净峰信息和混合峰信息，根据纯净峰信息和混合峰信息对待识别语音音频进行对象区分，对对象区分后待识别语音音频进行波束成形及识别得到语音识别结果。

Description

提高多对象说话场景下语音识别准确性的方法、装置及设备

技术领域

本公开涉及语音识别技术领域，特别是涉及一种提高多对象说话场景下语音识别准确性的方法、装置及设备。

背景技术

在许多语音对话场景中，对话的对象包括多个，例如，部分语音为需要识别的，部分语音为不需要识别的，因而需要对不需要识别的语音进行过滤，并且针对需要识别的语音，不仅需要识别不同语音信号对应的发言对象和语音含义，并且还要区别不同发言对象相互之间的发言顺序，以便于后续语音文本整理过程中匹配到正确的发言端，从而最大限度地还原多个说话对象的表达内容。

相关技术中，通过对若干发言端中各自的语音信号及其语音采集时间戳进行识别处理，将每一个周期内的识别结果转换成若干文本格式信息，并将若干文本格式信息进行顺序缓存处理，判断缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份，若是，则继续对其他相连的两个数据节点进行判断，若否，则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间，若是，则确认相邻的两个数据节点对应的发言端身份发生切换，进而生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果，并通过前端特征提取的方式提取获得声学特征，对声学特征进行统计建模，以得到声学模型，对统计库中的词串进行统计建模，以得到语言模型，根据声学模型和语言模型，通过预设设计算法得到相应的最优词串，并将最优词串作为文本格式识别结果。然而，对每一对象的语音识别准确性仍然较低。

发明内容

基于此，有必要针对多对象说话场景下语音识别准确性较低的问题，提供一种提高多对象说话场景下语音识别准确性的方法、装置及设备。

本公开第一方面，提供一种提高多对象说话场景下语音识别准确性的方法，所述方法应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，所述方法包括：

通过所述麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频，并对所述多个对象进行声源定位，根据定位后的对象，确定每一所述对象与其他对象之间的距离；

根据每一所述对象与其他对象之间的距离，确定每一所述对象相对于其他对象的皮尔逊相关系数，并基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风；

根据各待识别语音音频相对所述极点麦克风的信号强度，对多个对象进行环形区域划分，其中，每一所述环形区域环绕所述极点麦克风，且随与所述极点麦克风的距离增大，多个所述环形区域的宽度依次增大；

根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数，以及以所述极点麦克风为极点，所述极点麦克风与所述极轴麦克风的连线为极轴，构建极坐标系，并确定每一环形区域内的麦克风在所述极坐标系中的极坐标；

根据各所述麦克风的极坐标以及所述目标差分阵列系数，对所述待识别语音音频的纯净峰信息和混合峰信息进行提取，并根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分，并根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果。

在其中一个实施例中，所述基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风的步骤，包括：

基于最小二乘法，将所述麦克风阵列中相对于其他对象的皮尔逊相关系数最小的所述对象作为所述极点麦克风；

将所述其他对象中，与所述极点麦克风对应的皮尔逊相关系数最小的作为所述极轴麦克风。

在其中一个实施例中，所述根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数的步骤，包括：

根据所述麦克风之间采集同一所述语音数据的采集间隔时长，计算所述采集间隔时长的方差和标准差；

基于高斯原理，根据所述方差、所述标准差以及所述麦克风之间采集同一所述语音数据的采集间隔时长，确定所述麦克风阵列中各个所述麦克风相对所述基准麦克风的采集时间差；

根据所述各个所述麦克风相对所述基准麦克风的采集时间差以及所述环形区域的数量，从预设的差分阵列系数中确定目标差分阵列系数，其中，所述差分阵列系数、所述采集时间差以及所述环形区域的数量三者存在一一对应关系。

在其中一个实施例中，所述根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分的步骤，包括：

根据所述待识别语音音频对应的混合峰信息以及采集到所述混合峰信息的峰值采集时间戳，构建针对该待识别语音音频对应的目标对象的声纹谱函数；

根据所述纯净峰信息从每一所述待识别语音音频对应的目标对象的声纹谱函数中，提取一组拓扑指数；

将各组拓扑指数分别作为比对拓扑指数，遍历确定其他组拓扑指数与所述比对拓扑指数的匹配度；

将匹配度小于预设匹配度阈值的组拓扑指数对应的纯净峰信息作为同一对象的目标纯净峰信息，得到多个目标纯净峰信息；

从所述待识别语音音频中，确定携带有各所述目标纯净峰信息的目标识别语音数据，完成对象区分。

在其中一个实施例中，所述对所述多个对象进行声源定位的步骤，包括：

根据任意两个麦克风采集到的待识别语音音频，计算得到针对该两个麦克风的采集时间差、采集能量差和匹配滤波器的系数向量；

根据所述采集时间差，按转向角确定搜索匹配方向，并根据所述搜索匹配方向以及所述待识别语音音频中的陷波方向，得到候选区域，其中，所述搜索匹配方向与所述陷波方向指向方向角度差值小于预设阈值；

在所述候选区域中搜索匹配的采集能量差对应的转向角和俯仰角，得到目标空间区域；

根据匹配滤波器的系数向量，在所述目标空间区域内计算每个方向上针对所述匹配滤波器的声纹相似度，并基于贝叶斯分层的搜索策略，根据所述候选区域内所有方向中，概率最大的声源的转向角和俯仰角进行声源定位。

在其中一个实施例中，所述根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果的步骤，包括：

通过预设的波束成形矩阵，对完成对象区分后的待识别语音音频分别进行一次波束成形，所述预设的波束成形矩阵包括所述麦克风阵列中各麦克风的波束成形权重，每个波束成形权重包括声纹幅度的复值和声纹相位的复值；

确定所述一次波束成形后的音频的波达方向，并将所述预设的波束成形矩阵中所述极点麦克风对应的波束成形权重的相位的复值设置为零，得到备用波束成形矩阵；

通过归一化所述备用波束成形矩阵的每个列向量，执行对所述备用波束成形矩阵的平滑，根据所述波达方向对平滑后的备用波束成形矩阵进行压缩，得到目标波束成形矩阵；

根据目标波束成形矩阵对所述完成对象区分后的待识别语音音频分别进行二次波束成形，得到待识别音频，并对所述待识别音频进行语音识别，得到各对象的语音识别结果。

在其中一个实施例中，在所述对所述多个对象进行声源定位的步骤之前，包括：

对每一所述麦克风获取的待识别语音音频进行环境音消除；

确定每一经过所述环境音消除的所述待识别语音音频的语音起始点和语音结束点；

根据所述语音起始点和所述语音结束点，对每一经过所述环境音消除的所述待识别语音音频进行过滤，使得每一所述待识别语音音频中只包含说话对象的语音；

对每一经过所述过滤后的所述待识别语音音频进行降噪。

本公开第二方面，提供一种提高多对象说话场景下语音识别准确性的装置，应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，所述装置包括：

获取模块，被配置为通过所述麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频，并对所述多个对象进行声源定位，根据定位后的对象，确定每一所述对象与其他对象之间的距离；

第一确定模块，被配置为根据每一所述对象与其他对象之间的距离，确定每一所述对象相对于其他对象的皮尔逊相关系数，并基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风；

划分模块，被配置为根据各对象的待识别语音音频相对所述极点麦克风的信号强度，对所述多个对象进行环形区域划分，其中，每一所述环形区域环绕所述极点麦克风，且随与所述极点麦克风的距离增大，多个所述环形区域的宽度依次增大；

第二确定模块，被配置为根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数，以及以所述极点麦克风为极点，所述极点麦克风与所述极轴麦克风的连线为极轴，构建极坐标系，并确定每一环形区域内的麦克风在所述极坐标系中的极坐标；

成形模块，被配置为根据各所述麦克风的极坐标以及所述目标差分阵列系数，对所述待识别语音音频的纯净峰信息和混合峰信息进行提取，并根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分，并根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果。

在其中一个实施例中，所述第一确定模块，被配置为：

在其中一个实施例中，所述第二确定模块，被配置为：

在其中一个实施例中，所述成形模块，被配置为：

在其中一个实施例中，所述获取模块，被配置为：

在其中一个实施例中，所述成形模块，被配置为：

在其中一个实施例中，所述获取模块，还被配置为：

在所述对所述多个对象进行声源定位的步骤之前，对每一所述麦克风获取的待识别语音音频进行环境音消除；

对每一经过所述过滤后的所述待识别语音音频进行降噪。

本公开第三方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任意一项所述提高多对象说话场景下语音识别准确性的方法的步骤。

上述提高多对象说话场景下语音识别准确性的方法通过获取多个对象的待识别语音音频，确定各对象相对于其他对象的皮尔逊相关系数，根据皮尔逊相关系数从麦克风阵列中确定极点麦克风和极轴麦克风；根据待识别语音音频相对极点麦克风的信号强度，对多个对象进行区域划分；根据区域的数量和采集间隔时长从预设差分阵列系数确定目标差分阵列系数，根据极点和极轴麦克风构建极坐标系，确定麦克风在极坐标系中的坐标；根据坐标和目标差分阵列系数，提取待识别语音音频的纯净峰信息和混合峰信息，根据纯净峰信息和混合峰信息对待识别语音音频进行对象区分，对对象区分后待识别语音音频进行波束成形及识别得到语音识别结果。提高了多对象说话场景下语音识别准确性。

附图说明

图1为其中一个实施例的提高多对象说话场景下语音识别准确性的方法的流程图。

图2为其中一个实施例的提高多对象说话场景下语音识别准确性的装置的框图。

具体实施方式

为使本公开的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本公开。但是本公开能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本公开内涵的情况下做类似改进，因此本公开不受下面公开的具体实施例的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

图1为其中一个实施例的提高多对象说话场景下语音识别准确性的方法的流程图，所述方法应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，如图1所示，该方法包括以下步骤：

在步骤S11中，通过所述麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频，并对所述多个对象进行声源定位，根据定位后的对象，确定每一所述对象与其他对象之间的距离；

在步骤S12中，根据每一所述对象与其他对象之间的距离，确定每一所述对象相对于其他对象的皮尔逊相关系数，并基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风；

在步骤S13中，根据各待识别语音音频相对所述极点麦克风的信号强度，对多个对象进行环形区域划分，其中，每一所述环形区域环绕所述极点麦克风，且随与所述极点麦克风的距离增大，多个所述环形区域的宽度依次增大；

在步骤S14中，根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数，以及以所述极点麦克风为极点，所述极点麦克风与所述极轴麦克风的连线为极轴，构建极坐标系，并确定每一环形区域内的麦克风在所述极坐标系中的极坐标；

在步骤S15中，根据各所述麦克风的极坐标以及所述目标差分阵列系数，对所述待识别语音音频的纯净峰信息和混合峰信息进行提取，并根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分，并根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果。

对每一所述麦克风获取的待识别语音音频进行环境音消除；

对每一经过所述过滤后的所述待识别语音音频进行降噪。

基于相同的发明构思，本公开还提供一种提高多对象说话场景下语音识别准确性的装置，应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，图2为其中一个实施例的提高多对象说话场景下语音识别准确性的装置的框图，如图2所示，所述装置200包括：

获取模块210，被配置为通过所述麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频，并对所述多个对象进行声源定位，根据定位后的对象，确定每一所述对象与其他对象之间的距离；

第一确定模块220，被配置为根据每一所述对象与其他对象之间的距离，确定每一所述对象相对于其他对象的皮尔逊相关系数，并基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风；

划分模块230，被配置为根据各对象的待识别语音音频相对所述极点麦克风的信号强度，对所述多个对象进行环形区域划分，其中，每一所述环形区域环绕所述极点麦克风，且随与所述极点麦克风的距离增大，多个所述环形区域的宽度依次增大；

第二确定模块240，被配置为根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数，以及以所述极点麦克风为极点，所述极点麦克风与所述极轴麦克风的连线为极轴，构建极坐标系，并确定每一环形区域内的麦克风在所述极坐标系中的极坐标；

成形模块250，被配置为根据各所述麦克风的极坐标以及所述目标差分阵列系数，对所述待识别语音音频的纯净峰信息和混合峰信息进行提取，并根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分，并根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果。

在其中一个实施例中，所述第一确定模块220，被配置为：

在其中一个实施例中，所述第二确定模块240，被配置为：

在其中一个实施例中，所述成形模块250，被配置为：

在其中一个实施例中，所述获取模块210，被配置为：

在其中一个实施例中，所述成形模块250，被配置为：

在其中一个实施例中，所述获取模块210，还被配置为：

对每一经过所述过滤后的所述待识别语音音频进行降噪。

本公开第三方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现前述中任意一项所述提高多对象说话场景下语音识别准确性的方法的步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对公开专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种提高多对象说话场景下语音识别准确性的方法，其特征在于，所述方法应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于最小二乘法，根据每一所述对象相对于其他对象的皮尔逊相关系数，从所述麦克风阵列中确定极点麦克风和极轴麦克风的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述环形区域的数量以及每一所述麦克风采集到所述待识别语音音频的采集间隔时长，从预设的差分阵列系数中确定目标差分阵列系数的步骤，包括：

根据所述麦克风之间采集同一所述待识别语音音频的采集间隔时长，计算所述采集间隔时长的方差和标准差；

基于高斯原理，根据所述方差、所述标准差以及所述麦克风之间采集同一所述待识别语音音频的采集间隔时长，确定所述麦克风阵列中各个所述麦克风相对基准麦克风的采集时间差；

4.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音音频的纯净峰信息和混合峰信息对所述待识别语音音频进行对象区分的步骤，包括：

根据各所述待识别语音音频对应的混合峰信息以及采集到所述混合峰信息的峰值采集时间戳，构建针对该待识别语音音频对应的目标对象的声纹谱函数；

5.根据权利要求1所述的方法，其特征在于，所述对所述多个对象进行声源定位的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据对象区分后的待识别语音音频分别进行波束成形及识别，得到各对象的语音识别结果的步骤，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述对所述多个对象进行声源定位的步骤之前，包括：

对每一所述麦克风获取的待识别语音音频进行环境音消除；

对每一经过所述过滤后的所述待识别语音音频进行降噪。

8.一种提高多对象说话场景下语音识别准确性的装置，其特征在于，应用于语音识别系统，所述语音识别系统包括设置于不同方位的麦克风组成的麦克风阵列，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，被配置为：

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任意一项所述提高多对象说话场景下语音识别准确性的方法的步骤。