CN114121033B

CN114121033B - 基于深度学习的列车广播语音增强方法和系统

Info

Publication number: CN114121033B
Application number: CN202210099789.5A
Authority: CN
Inventors: 李跃群; 张有利
Original assignee: Shenzhen Beihai Rail Transit Technology Co ltd
Current assignee: Beihai Communication (Shenzhen) Group Co.,Ltd.
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-26
Anticipated expiration: 2042-01-27
Also published as: CN114121033A

Abstract

本发明公开了一种基于深度学习的列车广播语音增强方法和系统，其方法包括获取车载PIS系统的列车运行信息；识别列车运行信息，确定列车实时场景；从预设的数据库中读取列车实时场景所匹配的声学均衡参数；获取车载PIS系统的音频流；以及，基于声学均衡参数，以预设的中控声效算法对音频流处理，同时调整声音感受位置，并发送处理后音频流至车载PIS系统用作播放。本申请具有能结合列车不同运营场景自动切换声场均衡参数，动态增加声场的效果。

Description

基于深度学习的列车广播语音增强方法和系统

技术领域

本申请涉及音频处理技术领域，尤其是涉及一种基于深度学习的列车广播语音增强方法和系统。

背景技术

对于列车而言，其站点播报、消息通知等均需要通过广播进行通知。然而，在列车运行过程中，除了内部乘客发出的噪声外，还有列车外部的风噪、机械噪声等，干扰了语音播报效果。

申请号为CN201710105745.8的专利一种基于ARM+FPGA架构的列车语音放大单元，该列车语音放大单元包括主控制模块、编解码放大模块和通信模块三部分。主控制模块包括主控芯片及外围器件，负责系统的初始化、音频存储与处理，以及运行应用程序和AGC、限幅限频算法。编解码放大模块包括编解码子模块、功放子模块和检测子模块，负责对各种格式的音频信号进行处理与放大，同时实现电流检测以及音频降级功能。通信模块包括两路千兆以太网和RS485及RS232总线，负责音频与噪检信号传输。各功能模块协调工作，构成了完整的语音放大单元。

上述技术方案给出了一种用于列车使用环境的音频芯片，但是其无法结合地铁列车乘客信息系统的相关信息，对不同运营场景自动切换声场均衡参数，动态增加声场，因此本申请提出一种新的技术方案。

发明内容

为了能结合列车不同运营场景自动切换声场均衡参数，动态增加声场，本申请提供一种基于深度学习的列车广播语音增强方法和系统。

第一方面，本申请提供一种基于深度学习的列车广播语音增强方法，采用如下的技术方案：

一种基于深度学习的列车广播语音增强方法，包括：

获取车载PIS系统的列车运行信息；

识别列车运行信息，确定列车实时场景；

从预设的数据库中读取列车实时场景所匹配的声学均衡参数；

获取车载PIS系统的音频流；以及，

基于声学均衡参数，以预设的中控声效算法对音频流处理，同时调整声音感受位置，并发送处理后音频流至车载PIS系统用作播放。

可选的，所述中控声效算法包括：

信号预处理，其包括将音频流做满足FPU计算的归一化处理；

均衡处理，其包括划分10个频率段，以所述声学均衡参数对划分后的10个频率段分别做均衡，调整增益，并进行混音处理；其中，各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k；

回响处理，其包括对音频中的原始声音衰减复制，复制至相应的音频位置与原后续音频进行混音。

可选的，所述划分10个频率段包括：以IIR带通滤波器对音频流做频率段划分处理。

可选的，所述调整增益包括：每段的调整幅度为-12dBm至12dBm。

可选的，所述识别列车运行信息，确定列车实时场景包括：

当列车运行信息识别为速度信息，且为0-Xkm/H，则判定为启动场景； X-0KM/H，则判定为停靠场景；其他则判定运行场景；其中，X为低速阈值；

当列车运行信息识别为指定识别信息，则判定为预匹配的指定场景。

可选的，所述识别列车运行信息，确定列车实时场景包括：

当列车运行信息识别为视频信息，则对视频信息做图像识别，识别统计实时人流量，并判断是否超出高峰人流阈值或低于低峰人流阈值，如果是，则判定为高峰人流场或低峰人流场景。

可选的，还包括：

记录过程信息，绑定时间参数，存为音频改造档案；

利用音频改造档案训练预设的神经网络模型；

以训练后的神经网络模型识别后续的实时音频流，如果存在记录，且列车当前环境匹配记录信息，则调取记录中的处理后音频流发送至车载PIS系统用作播放。

第二方面，本申请提供一种基于深度学习的列车广播语音增强系统，采用如下的技术方案：

一种基于深度学习的列车广播语音增强系统，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述任一种基于深度学习的列车广播语音增强方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：本方法可以针对列车的不同场景定制特有声学均衡参数，根据原始声音，模拟出回响的效果，使用户感受到场景深度及场景材质的变化，调整如声音可懂度、声音感受位置，增加声音的饱满度、可懂度，从而改善列车环境的语音播报效果；同时，不需要改动车载PIS原有系统即可完成，成本更低，实现难度更小。

附图说明

图1是本申请的方法的流程示意图；

图2是本申请的中控声效算法的流程示意图。

具体实施方式

以下结合附图1-2对本申请作进一步详细说明。

本申请实施例公开一种基于深度学习的列车广播语音增强方法，其可通过处理单元加载执行一对应的计算机程序实现。

实施例1：

参照图1，基于深度学习的列车广播语音增强方法包括：

S101、获取车载PIS系统的列车运行信息。

上述车载PIS系统，即乘客信息系统。在本申请中，列车运行信息包括：速度信息（车速）、视频信息以及指定识别信息，其用于判别列车实时所处的场景。

且，车速0-30KM/H时，认定为启动场景；车速30-0KM/H时，认定为停靠场景；其他车速，认定为运行场景；需要注意的是，上述30为赋值给低速阈值X的数，具体可以根据车型、运营环境选定。

上述视频信息为列车各个站点，如候车站台所安装的摄像头采集的视频流。指定识别信息，则可以是列车进入各个区域，如地下车站、高架车站等环境时反馈的位置信息。

S102、识别列车运行信息，确定列车实时场景。

可以理解的是，一、可以根据车速确定列车在启动、停靠，还是在运行。

二、基于视频信息判定场景；具体地：加载一具有人流统计功能的图像识别系统对视频信息做处理，获取候车站台的实时人流量；当实时人流量超出高峰人流阈值，则确定为高峰人流场景；当实时人流量低于低峰人流阈值，则确定为低峰人流场景。

三、基于指定识别信息判定场景；具体地：当从车载PIS系统所获取的列车位置信息符合预设的某一指定识别信息，即判定为该指定识别信息对应的场景。

S103、从预设的数据库中读取列车实时场景所匹配的声学均衡参数。

可以理解的是，在本方法执行前，可由工作人员基于验证所得建立各个列车实时场景一一对应各个声学均衡参数的关系数据，并存储入数据库中等待调用。

S104、获取车载PIS系统的音频流。

上述音频流，即车载PIS系统中控发出的，随后需要由功放模块进行播放的音频信息。

S105、基于声学均衡参数，以预设的中控声效算法对音频流处理，同时调整声音感受位置，并发送处理后音频流至车载PIS系统用作播放。

根据上述内容，本方法可以针对不同场景定制特有声学均衡参数，根据原始声音，模拟出回响的效果，使用户感受到场景深度及场景材质的变化，调整如声音可懂度、声音感受位置，增加声音的饱满度、可懂度，从而改善列车环境的语音播报效果；同时，不需要改动车载PIS原有系统即可完成，成本更低，实现难度更小。

参照图2，关于中控声效算法，具体地，其包括：信息预处理、均衡处理、回响处理以及其中必备的混音处理。

其中，信号预处理，其包括将音频流做满足FPU计算的归一化处理。之所以执行上述步骤，是因为现在的处理器已经集成硬件浮点运算器，如背景所述，在计算前将所有音频进行小数归一化，可以使程序使用FPU进行计算，达到增加精度，加速计算的目的。

均衡处理，其包括划分10个频率段，以声学均衡参数对划分后的10个频率段分别做均衡，调整增益，并进行混音处理。

其中，频率段的划分，在本实施例中使用的是，IIR带通滤波器，其可以称为无限冲激响应滤波器，具有计算量小的特点；带通滤波器的参数通过MATLAB设置，每个滤波器的截止频率相重合。各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k。调整增益，可以理解为调整功放电路的增益，在本实施例中每段的调整幅度为-12dBm至12dBm，具体调节量可根据场景匹配的声学均衡参数确定。混音，即将多个处理后的频率段重新整合，当前大多音频剪辑软件均设置，上述混音无特殊。

其中，原始声音可以理解为语音信息；可以理解的是，列车播放的音频除了语音，还有背景配乐等，而本申请侧重在于语音的增强，因此需要对其调整，调整景深。上述衰减复制，可通过音源组件AudioSource配合实现，如提取语音段，赋给音源组件，根据前述的声学均衡参数以音源组件定制衰减曲线，完成后导出再进行混音。

可以理解的是，上述归一化、IIR带通滤波器和混音均为现有技术，不再赘述；其中，混音处理，可将音频进行矩阵加处理，即引入音频矩阵模块，在此阶段对溢出的音频做数字压限记录增益系数；在后续音频中声音混音音频不溢出，则对增益系数进行调整，在10ms内使增益系数恢复至1.0。

实施例2：

与实施例1的区别在于，本方法还包括：

记录过程信息，绑定时间参数，存为音频改造档案；

利用音频改造档案训练预设的神经网络模型；

可以理解的是，上述过程信息，即实施例所述方法执行过程中的关键信息，例如：原音频流，对应的列车实时场景、处理后音频流、声学均衡参数等。通过绑定时间参数，可以建立一一对应关系，知悉何时何地，何种场景，何种原音频流被处理后，以何种处理后音频进行播放。

对于神经网络模型，作为人工智能的机器学习技术，目前被广泛应用于图像、文本、语音等多种类型数据的处理，实现分类、预测。本实施例中，对其的应用实际即落在预测上；预建立的基于神经网络的分析模型，以大量历史过程信息训练，深度学习后，若再次遇上相同事件，则给出可能会出现的预测结果；在上述条件下，预测结果即为过往记录中对应的处理后的音频流。

可以理解的是，上述列车当前环境包括实时场景、时间以及其他可能影响列车语音播报效果的干扰因素，各个因素从车载PIS系统获取；环境匹配，简易的可以是多个因素相同；更合理的，则是近似度符合阈值，近似度可以欧氏距离计算实现。

本申请实施例还公开一种基于深度学习的列车广播语音增强系统。

基于深度学习的列车广播语音增强系统包括存储器和处理器，其中，存储器上存储有能够被处理器加载并执行如上述任一种基于深度学习的列车广播语音增强方法的计算机程序。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于深度学习的列车广播语音增强方法，其特征在于，包括：

获取车载PIS系统的列车运行信息；

识别列车运行信息，确定列车实时场景；

所述识别列车运行信息，确定列车实时场景包括：

当列车运行信息识别为视频信息，则对视频信息做图像识别，识别统计实时人流量，并判断是否超出高峰人流阈值或低于低峰人流阈值，如果是，则判定为高峰人流场景或低峰人流场景；

获取车载PIS系统的音频流；以及，

2.根据权利要求1所述的基于深度学习的列车广播语音增强方法，其特征在于，所述中控声效算法包括：

信号预处理，其包括将音频流做满足FPU计算的归一化处理；

3.根据权利要求2所述的基于深度学习的列车广播语音增强方法，其特征在于：所述划分10个频率段包括：以IIR带通滤波器对音频流做频率段划分处理。

4.根据权利要求2所述的基于深度学习的列车广播语音增强方法，其特征在于：所述调整增益包括：每段的调整幅度为-12dBm至12dBm。

5.根据权利要求1所述的基于深度学习的列车广播语音增强方法，其特征在于：所述识别列车运行信息，确定列车实时场景包括：

6.根据权利要求1所述的基于深度学习的列车广播语音增强方法，其特征在于，还包括：

记录过程信息，绑定时间参数，存为音频改造档案；

利用音频改造档案训练预设的神经网络模型；

7.一种基于深度学习的列车广播语音增强系统，其特征在于：包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至6中任一种基于深度学习的列车广播语音增强方法的计算机程序。