CN114550740A

CN114550740A - 噪声下的语音清晰度算法及其列车音频播放方法、系统

Info

Publication number: CN114550740A
Application number: CN202210442351.2A
Authority: CN
Inventors: 张有利; 李跃群
Original assignee: Tianjin Beihai Communication Technology Co ltd
Current assignee: Tianjin Beihai Communication Technology Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-05-27
Anticipated expiration: 2042-04-26
Also published as: CN114550740B

Abstract

本发明公开了一种噪声下的语音清晰度算法及其列车音频播放方法、系统，其方法包括：S101、获取预布设在列车各节车厢的拾音器所采集的噪声音频；接收车载PIS系统发出的音频流，且做音频流预处理；S102、基于如权利要求1所述的噪声下的语音清晰度算法对噪声音频分析；S103、基于S102的分析结果调整语音信号在音频流的不同频带的能量分布，得到重新能量均衡后的音频流；S104、各个车厢分别采集噪声音频，且对应执行S102‑103；S105、各个重新能量均衡后的音频流分别建立与各个车厢的一一对应关系。本申请具有提升车厢内的语音播报效果，改善乘客的体验的效果。

Description

噪声下的语音清晰度算法及其列车音频播放方法、系统

技术领域

本申请涉及列车音频播放技术领域，尤其是涉及一种噪声下的语音清晰度算法及其列车音频播放方法、系统。

背景技术

地铁在运行过程中伴随着非稳态噪声，且车厢内的声压级一般均呈现出较大范围的动态变化。该噪声将对车厢内的语音播报产生两方面的干扰：

一方面，为了保证高噪声环境下的语音清晰度，语音播报系统可能设置有相对较高的音量，这在低噪声环境下不仅冗余，并且可能对部分乘客产生困扰；

另一方面，在某些区间段车厢内的噪声过强，即使系统采用最大音量，也不能有效提升播报语音的清晰度。

针对上述，本申请提出一种新的技术方案。

发明内容

为了提升车厢内的语音播报效果，改善乘客的体验，本申请提供一种噪声下的语音清晰度算法及其列车音频播放方法、系统。

第一方面，本申请提供一种噪声下的语音清晰度算法，采用如下的技术方案：

一种噪声下的语音清晰度算法，包括：

建立环境噪声对语音清晰度

影响的关系公式：

；其中，下标

表示第

个频带，

为不同频带的权重系数，

表示语音失真度，K表示环境噪声对语音的掩蔽效应；

令，

；其中，

为频带内的语音信号能量，

为正常语音能量的标准值；

令，

；其中，

则为考虑环境噪声对语音的掩蔽效应后的等效噪声功率；

此时，D满足公式：

；

而其中的

又为：

；

上述的下标

表示第

个频带,且定义：

、

均作为变量指示计算中应使用第几个频带的对应数值，差异在于，下标

对应的为外层循环时的变量，下标

对应的为内层循环时的变量；

上述

表示第

个频带的噪声功率，

表示第

个频带的噪声功率，

表示第

个频带的中心频率，

表示第

个频带的上截止频率，

表示第

个频带的下截止频率。

第二方面，本申请提供一种列车音频播放方法，采用如下的技术方案：

一种列车音频播放方法，包括：

S101、获取预布设在列车各节车厢的拾音器所采集的噪声音频；

接收车载PIS系统发出的音频流，且做音频流预处理；

S102、基于如上述的噪声下的语音清晰度算法对噪声音频分析；

S103、基于S102的分析结果调整语音信号在音频流的不同频带的能量分布，得到重新能量均衡后的音频流；

S104、各个车厢分别采集噪声音频，且对应执行S102-103；

S105、各个重新能量均衡后的音频流分别建立与各个车厢的一一对应关系。

可选的，所述音频流预处理包括：以IIR带通滤波器对音频率做频率段划分。

可选的，所述频率段划分包括：躲避噪声音频中的能量高点，并在其他频段以倍频方式输出，确定中心频点。

可选的，还包括：对噪声音频识别，基于预建立的噪声特征-车厢场景数据库确定噪声音频获取时的场景；其中，所述对噪声音频识别包括噪声类型识别和噪声参数识别。

可选的，还包括：记录各个车厢历次播放的音频流的处理过程，产生调整档案，并存入数据库；

获取对当前车厢的噪声音频的识别结果，并根据识别结果查找数据库，得到匹配的调整档案；

调用匹配的调整档案中重新能量均衡后的音频流，发送车载PIS系统使用。

第三方面，本申请提供一种列车音频播放系统，采用如下的技术方案：

一种列车音频播放系统，包括：

拾音器，其布设于车厢，用于车厢内的噪声采集；

集成分析模块，其连接于拾音器，且用于加载和执行实现如上述任一所述的列车音频播放方法的计算机程序；

车载PIS系统，其连接于集成分析模块，用于记录原始的音频流和接收重新能量均衡后的音频流，并控制车厢的扬声器播放对应的音频流。

综上所述，本申请包括以下至少一种有益技术效果：首先，可以通过调节语音信号不同频带处的能量分布，在不增加语音总体能量的前提下，提升播报语音清晰度，使乘客能够更清楚的听到播报内容；其次，当环境噪声降低时，可以在不降低语音清晰度的前提下，自适应降低总体播报语音能量，避免给乘客带来高声压级困扰；同时，列车在运行过程中每个车厢的噪声环境其实还是有部分差异的，本申请还可以用于解决各个车厢差异需求，对各个车厢播放的音频流进行实时调整变化。

附图说明

图1是本申请的方法的主流程示意图；

图2是本申请的语音增强概念流程示意图。

具体实施方式

以下结合附图1-2对本申请作进一步详细说明。

本申请实施例公开一种噪声下的语音清晰度算法，其包括：

建立环境噪声对语音清晰度

影响的关系公式：

；其中，下标

表示第

个频带，

为不同频带的权重系数，

表示语音失真度，K表示环境噪声对语音的掩蔽效应。

令，

；其中，

为频带内的语音信号能量，

为正常语音能量的标准值。

令，

；其中，

则为考虑环境噪声对语音的掩蔽效应后的等效噪声功率。

此时，D满足公式：

；

而其中的

又为：

；

上述，下标

表示第

个频带,且定义：

、

对应的为外层循环时的变量，下标

对应的为内层循环时的变量，下述以计算第5个频带的

具体示例解释；

上述

表示第

个频带的噪声功率，

表示第

个频带的噪声功率，

表示第

个频带的中心频率，

表示第

个频带的上截止频率，

表示第

个频带的下截止频率。

关于

、

之间的差异分析，以计算第5个频带的

为具体示例：

；

展开为：

。

从上述即可看出，

、

分别为外层循环、内层循环的差异；公式中同时需要计算

、

、

、

的值；

；

；

；

。

根据上述可知，语音清晰度是当前语音信号以及当前噪声信号的函数；基于上述，只需对车厢内的噪声进行采集并根据上述分析噪声，对音频流调整，即可改善语音清晰度，以提升车厢内的语音播报效果，改善乘客的体验。

本申请实施例公开一种列车音频播放方法。

参照图1和图2，列车音频播放方法包括：

S101、获取预布设在列车各节车厢的拾音器所采集的噪声音频；以及，

接收车载PIS系统发出的音频流，且做音频流预处理。

可以理解的是，上述噪声音频包括乘客的交谈声、列车产生的机械/风噪、乘客个人终端发出的声音等，并非单指列车运行产生的机械/风噪。

在本实施例中上述音频流预处理，其可使用IIR带通滤波器实现；IIR带通滤波器可称为无限冲激响应滤波器，具有计算量小的特点；带通滤波器的参数设置通过matlab实现。上述音频流预处理包括频率段划分，具体地：躲避噪声音频中的能量高点，并在其他频段以倍频方式输出，确定中心频点。

在一个实施例以10个为例，中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k；划分过程的滤波器的截止频率相重合。上述是为了进行10段均衡处理，在每个频率段分别调整后，再次混音为一个音频流。

S102、基于上述的噪声下的语音清晰度算法对噪声音频分析。

S103、基于S102的分析结果调整语音信号在音频流的不同频带的能量分布，得到重新能量均衡后的音频流。

可以理解的是，上述不同频带指的是一个音频流的不同频带。能量分布调整，即选择增加，选择增强都是在倍频点上增加的，例如：16k 、32k、64k等。整体思路可以简易理解是：根据噪声或者特定预设场景，在噪声能量高的频段增加语音能量；反之，减少能量。调整量与噪声的关系可预设。

关于上述调整语音信号在音频流的不同频带的能量分布，如：

均衡处理：进行10段均衡，假定上述的每频率段的中心频点为32、64、128、256、512、1k、2k、4k、8k、16k；

之后分别调整每路的增益，此时，每段的调整幅度为-12dBm-12dBm；

最后进行混音处理。

回响处理：将原始声音（如：语音）进行衰减复制，复制至相应的音频位置与原始的后续音频进行混音，达到调整景深的目的，调整衰减系数用来调整环境材质的感受；

混音处理：将音频进行矩阵加处理，对溢出的音频进行数字压限并记录增益系数，在后续音频中声音混音音频不溢出，则对增益系数进行调整，在10ms内使增益系数恢复至1.0。

S104、各个车厢分别采集噪声音频，且执行S102-103。

根据上述内容，本方法可以通过调节语音信号不同频带处的能量分布，在不增加语音总体能量的前提下，提升播报语音清晰度，使乘客能够更清楚的听到播报内容；其次，当环境噪声降低时，可以在不降低语音清晰度的前提下，自适应降低总体播报语音能量，避免给乘客带来高声压级困扰；同时，列车在运行过程中每个车厢的噪声环境其实还是有部分差异的，本方法可以用于解决各个车厢差异需求，对各个车厢播放的音频流进行实时调整变化。

在本申请的另一个实施例中，本方法还包括：对噪声音频识别，基于预建立的噪声特征-车厢场景数据库确定噪声音频获取时的场景。

其中，对噪声音频识别包括噪声类型识别和噪声参数识别。基于实施例的噪声内容，具体地，如：先识别噪声类型，如乘客交谈声，背景噪声（列车噪声），再识别两者的频/幅（即噪声参数识别），以根据差异判断车厢的不同场景。

可以理解的是，对于本申请的混音等音频处理手段，可参考和借用音源组件或其他可做音频剪辑和混音的各类App+语音识别技术配合实现；如增益调整可直观地示例有，读者以手机等终端打开音乐播放器中的均衡器功能，即可见调整；上述为现有技术，因此不再赘述。

在本申请的另一个实施例中，本方法还包括：

记录各个车厢历次播放的音频流的处理过程，产生调整档案，并存入数据库；

根据上述内容，除了可以产生记录方便工作人员验证方法的执行效果，还可以在数据积累到一定量后，逐渐减小对调整运算的依赖度，满足列车多样化的环境的同时高效执行；同时，还可以将数据应用于其他列车而不必再增设调整运算的部分，满足更多的使用环境，减小推广难度。

本申请实施例还公开一种列车音频播放系统，其包括：

拾音器，其布设于车厢，用于车厢内的噪声采集；

集成分析模块，其连接于拾音器，且用于加载和执行实现如上述方法的计算机程序；

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。