CN114121033A - 基于深度学习的列车广播语音增强方法和系统 - Google Patents
基于深度学习的列车广播语音增强方法和系统 Download PDFInfo
- Publication number
- CN114121033A CN114121033A CN202210099789.5A CN202210099789A CN114121033A CN 114121033 A CN114121033 A CN 114121033A CN 202210099789 A CN202210099789 A CN 202210099789A CN 114121033 A CN114121033 A CN 114121033A
- Authority
- CN
- China
- Prior art keywords
- train
- audio
- scene
- deep learning
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003321 amplification Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度学习的列车广播语音增强方法和系统,其方法包括获取车载PIS系统的列车运行信息;识别列车运行信息,确定列车实时场景;从预设的数据库中读取列车实时场景所匹配的声学均衡参数;获取车载PIS系统的音频流;以及,基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。本申请具有能结合列车不同运营场景自动切换声场均衡参数,动态增加声场的效果。
Description
技术领域
本申请涉及音频处理技术领域,尤其是涉及一种基于深度学习的列车广播语音增强方法和系统。
背景技术
对于列车而言,其站点播报、消息通知等均需要通过广播进行通知。然而,在列车运行过程中,除了内部乘客发出的噪声外,还有列车外部的风噪、机械噪声等,干扰了语音播报效果。
申请号为CN201710105745.8的专利一种基于ARM+FPGA架构的列车语音放大单元,该列车语音放大单元包括主控制模块、编解码放大模块和通信模块三部分。主控制模块包括主控芯片及外围器件,负责系统的初始化、音频存储与处理,以及运行应用程序和AGC、限幅限频算法。编解码放大模块包括编解码子模块、功放子模块和检测子模块,负责对各种格式的音频信号进行处理与放大,同时实现电流检测以及音频降级功能。通信模块包括两路千兆以太网和RS485及RS232总线,负责音频与噪检信号传输。各功能模块协调工作,构成了完整的语音放大单元。
上述技术方案给出了一种用于列车使用环境的音频芯片,但是其无法结合地铁列车乘客信息系统的相关信息,对不同运营场景自动切换声场均衡参数,动态增加声场,因此本申请提出一种新的技术方案。
发明内容
为了能结合列车不同运营场景自动切换声场均衡参数,动态增加声场,本申请提供一种基于深度学习的列车广播语音增强方法和系统。
第一方面,本申请提供一种基于深度学习的列车广播语音增强方法,采用如下的技术方案:
一种基于深度学习的列车广播语音增强方法,包括:
获取车载PIS系统的列车运行信息;
识别列车运行信息,确定列车实时场景;
从预设的数据库中读取列车实时场景所匹配的声学均衡参数;
获取车载PIS系统的音频流;以及,
基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。
可选的,所述中控声效算法包括:
信号预处理,其包括将音频流做满足FPU计算的归一化处理;
均衡处理,其包括划分10个频率段,以所述声学均衡参数对划分后的10个频率段分别做均衡,调整增益,并进行混音处理;其中,各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k;
回响处理,其包括对音频中的原始声音衰减复制,复制至相应的音频位置与原后续音频进行混音。
可选的,所述划分10个频率段包括:以IIR带通滤波器对音频流做频率段划分处理。
可选的,所述调整增益包括:每段的调整幅度为-12dBm至12dBm。
可选的,所述识别列车运行信息,确定列车实时场景包括:
当列车运行信息识别为速度信息,且为0-Xkm/H,则判定为启动场景; X-0KM/H,则判定为停靠场景;其他则判定运行场景;其中,X为低速阈值;
当列车运行信息识别为指定识别信息,则判定为预匹配的指定场景。
可选的,所述识别列车运行信息,确定列车实时场景包括:
当列车运行信息识别为视频信息,则对视频信息做图像识别,识别统计实时人流量,并判断是否超出高峰人流阈值或低于低峰人流阈值,如果是,则判定为高峰人流场或低峰人流场景。
可选的,还包括:
记录过程信息,绑定时间参数,存为音频改造档案;
利用音频改造档案训练预设的神经网络模型;
以训练后的神经网络模型识别后续的实时音频流,如果存在记录,且列车当前环境匹配记录信息,则调取记录中的处理后音频流发送至车载PIS系统用作播放。
第二方面,本申请提供一种基于深度学习的列车广播语音增强系统,采用如下的技术方案:
一种基于深度学习的列车广播语音增强系统,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种基于深度学习的列车广播语音增强方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:本方法可以针对列车的不同场景定制特有声学均衡参数,根据原始声音,模拟出回响的效果,使用户感受到场景深度及场景材质的变化,调整如声音可懂度、声音感受位置,增加声音的饱满度、可懂度,从而改善列车环境的语音播报效果;同时,不需要改动车载PIS原有系统即可完成,成本更低,实现难度更小。
附图说明
图1是本申请的方法的流程示意图;
图2是本申请的中控声效算法的流程示意图。
具体实施方式
以下结合附图1-2对本申请作进一步详细说明。
本申请实施例公开一种基于深度学习的列车广播语音增强方法,其可通过处理单元加载执行一对应的计算机程序实现。
实施例1:
参照图1,基于深度学习的列车广播语音增强方法包括:
S101、获取车载PIS系统的列车运行信息。
上述车载PIS系统,即乘客信息系统。在本申请中,列车运行信息包括:速度信息(车速)、视频信息以及指定识别信息,其用于判别列车实时所处的场景。
且,车速0-30KM/H时,认定为启动场景;车速30-0KM/H时,认定为停靠场景;其他车速,认定为运行场景;需要注意的是,上述30为赋值给低速阈值X的数,具体可以根据车型、运营环境选定。
上述视频信息为列车各个站点,如候车站台所安装的摄像头采集的视频流。指定识别信息,则可以是列车进入各个区域,如地下车站、高架车站等环境时反馈的位置信息。
S102、识别列车运行信息,确定列车实时场景。
可以理解的是,一、可以根据车速确定列车在启动、停靠,还是在运行。
二、基于视频信息判定场景;具体地:加载一具有人流统计功能的图像识别系统对视频信息做处理,获取候车站台的实时人流量;当实时人流量超出高峰人流阈值,则确定为高峰人流场景;当实时人流量低于低峰人流阈值,则确定为低峰人流场景。
三、基于指定识别信息判定场景;具体地:当从车载PIS系统所获取的列车位置信息符合预设的某一指定识别信息,即判定为该指定识别信息对应的场景。
S103、从预设的数据库中读取列车实时场景所匹配的声学均衡参数。
可以理解的是,在本方法执行前,可由工作人员基于验证所得建立各个列车实时场景一一对应各个声学均衡参数的关系数据,并存储入数据库中等待调用。
S104、获取车载PIS系统的音频流。
上述音频流,即车载PIS系统中控发出的,随后需要由功放模块进行播放的音频信息。
S105、基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。
根据上述内容,本方法可以针对不同场景定制特有声学均衡参数,根据原始声音,模拟出回响的效果,使用户感受到场景深度及场景材质的变化,调整如声音可懂度、声音感受位置,增加声音的饱满度、可懂度,从而改善列车环境的语音播报效果;同时,不需要改动车载PIS原有系统即可完成,成本更低,实现难度更小。
参照图2,关于中控声效算法,具体地,其包括:信息预处理、均衡处理、回响处理以及其中必备的混音处理。
其中,信号预处理,其包括将音频流做满足FPU计算的归一化处理。之所以执行上述步骤,是因为现在的处理器已经集成硬件浮点运算器,如背景所述,在计算前将所有音频进行小数归一化,可以使程序使用FPU进行计算,达到增加精度,加速计算的目的。
均衡处理,其包括划分10个频率段,以声学均衡参数对划分后的10个频率段分别做均衡,调整增益,并进行混音处理。
其中,频率段的划分,在本实施例中使用的是,IIR带通滤波器,其可以称为无限冲激响应滤波器,具有计算量小的特点;带通滤波器的参数通过MATLAB设置,每个滤波器的截止频率相重合。各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k。调整增益,可以理解为调整功放电路的增益,在本实施例中每段的调整幅度为-12dBm至12dBm,具体调节量可根据场景匹配的声学均衡参数确定。混音,即将多个处理后的频率段重新整合,当前大多音频剪辑软件均设置,上述混音无特殊。
回响处理,其包括对音频中的原始声音衰减复制,复制至相应的音频位置与原后续音频进行混音。
其中,原始声音可以理解为语音信息;可以理解的是,列车播放的音频除了语音,还有背景配乐等,而本申请侧重在于语音的增强,因此需要对其调整,调整景深。上述衰减复制,可通过音源组件AudioSource配合实现,如提取语音段,赋给音源组件,根据前述的声学均衡参数以音源组件定制衰减曲线,完成后导出再进行混音。
可以理解的是,上述归一化、IIR带通滤波器和混音均为现有技术,不再赘述;其中,混音处理,可将音频进行矩阵加处理,即引入音频矩阵模块,在此阶段对溢出的音频做数字压限记录增益系数;在后续音频中声音混音音频不溢出,则对增益系数进行调整,在10ms内使增益系数恢复至1.0。
实施例2:
与实施例1的区别在于,本方法还包括:
记录过程信息,绑定时间参数,存为音频改造档案;
利用音频改造档案训练预设的神经网络模型;
以训练后的神经网络模型识别后续的实时音频流,如果存在记录,且列车当前环境匹配记录信息,则调取记录中的处理后音频流发送至车载PIS系统用作播放。
可以理解的是,上述过程信息,即实施例所述方法执行过程中的关键信息,例如:原音频流,对应的列车实时场景、处理后音频流、声学均衡参数等。通过绑定时间参数,可以建立一一对应关系,知悉何时何地,何种场景,何种原音频流被处理后,以何种处理后音频进行播放。
对于神经网络模型,作为人工智能的机器学习技术,目前被广泛应用于图像、文本、语音等多种类型数据的处理,实现分类、预测。本实施例中,对其的应用实际即落在预测上;预建立的基于神经网络的分析模型,以大量历史过程信息训练,深度学习后,若再次遇上相同事件,则给出可能会出现的预测结果;在上述条件下,预测结果即为过往记录中对应的处理后的音频流。
可以理解的是,上述列车当前环境包括实时场景、时间以及其他可能影响列车语音播报效果的干扰因素,各个因素从车载PIS系统获取;环境匹配,简易的可以是多个因素相同;更合理的,则是近似度符合阈值,近似度可以欧氏距离计算实现。
本申请实施例还公开一种基于深度学习的列车广播语音增强系统。
基于深度学习的列车广播语音增强系统包括存储器和处理器,其中,存储器上存储有能够被处理器加载并执行如上述任一种基于深度学习的列车广播语音增强方法的计算机程序。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (8)
1.一种基于深度学习的列车广播语音增强方法,其特征在于,包括:
获取车载PIS系统的列车运行信息;
识别列车运行信息,确定列车实时场景;
从预设的数据库中读取列车实时场景所匹配的声学均衡参数;
获取车载PIS系统的音频流;以及,
基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。
2.根据权利要求1所述的基于深度学习的列车广播语音增强方法,其特征在于,所述中控声效算法包括:
信号预处理,其包括将音频流做满足FPU计算的归一化处理;
均衡处理,其包括划分10个频率段,以所述声学均衡参数对划分后的10个频率段分别做均衡,调整增益,并进行混音处理;其中,各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k;
回响处理,其包括对音频中的原始声音衰减复制,复制至相应的音频位置与原后续音频进行混音。
3.根据权利要求2所述的基于深度学习的列车广播语音增强方法,其特征在于:所述划分10个频率段包括:以IIR带通滤波器对音频流做频率段划分处理。
4.根据权利要求2所述的基于深度学习的列车广播语音增强方法,其特征在于:所述调整增益包括:每段的调整幅度为-12dBm至12dBm。
5.根据权利要求1所述的基于深度学习的列车广播语音增强方法,其特征在于:所述识别列车运行信息,确定列车实时场景包括:
当列车运行信息识别为速度信息,且为0-Xkm/H,则判定为启动场景; X-0KM/H,则判定为停靠场景;其他则判定运行场景;其中,X为低速阈值;
当列车运行信息识别为指定识别信息,则判定为预匹配的指定场景。
6.根据权利要求1所述的基于深度学习的列车广播语音增强方法,其特征在于:所述识别列车运行信息,确定列车实时场景包括:
当列车运行信息识别为视频信息,则对视频信息做图像识别,识别统计实时人流量,并判断是否超出高峰人流阈值或低于低峰人流阈值,如果是,则判定为高峰人流场或低峰人流场景。
7.根据权利要求1所述的基于深度学习的列车广播语音增强方法,其特征在于,还包括:
记录过程信息,绑定时间参数,存为音频改造档案;
利用音频改造档案训练预设的神经网络模型;
以训练后的神经网络模型识别后续的实时音频流,如果存在记录,且列车当前环境匹配记录信息,则调取记录中的处理后音频流发送至车载PIS系统用作播放。
8.一种基于深度学习的列车广播语音增强系统,其特征在于:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种基于深度学习的列车广播语音增强方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210099789.5A CN114121033B (zh) | 2022-01-27 | 2022-01-27 | 基于深度学习的列车广播语音增强方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210099789.5A CN114121033B (zh) | 2022-01-27 | 2022-01-27 | 基于深度学习的列车广播语音增强方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114121033A true CN114121033A (zh) | 2022-03-01 |
CN114121033B CN114121033B (zh) | 2022-04-26 |
Family
ID=80361698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210099789.5A Active CN114121033B (zh) | 2022-01-27 | 2022-01-27 | 基于深度学习的列车广播语音增强方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114121033B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420132A (zh) * | 2022-03-28 | 2022-04-29 | 天津市北海通信技术有限公司 | 一种列车语音播报内容校验方法、系统和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617797A (zh) * | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
CN203491984U (zh) * | 2013-08-30 | 2014-03-19 | 深圳市诺威达科技有限公司 | 自动增益处理系统 |
CN105787005A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 信息处理方法及移动终端 |
CN106486127A (zh) * | 2015-08-25 | 2017-03-08 | 中兴通讯股份有限公司 | 一种语音识别参数自动调整的方法、装置及移动终端 |
CN106952650A (zh) * | 2017-02-28 | 2017-07-14 | 大连理工大学 | 一种基于arm+fpga架构的列车语音放大单元 |
CN108621930A (zh) * | 2018-04-23 | 2018-10-09 | 上海迪彼电子科技有限公司 | 汽车主动控制声音增强的方法及系统 |
CN108989541A (zh) * | 2017-05-30 | 2018-12-11 | 现代自动车株式会社 | 基于情境的会话启动装置、系统、车辆和方法 |
CN110049403A (zh) * | 2018-01-17 | 2019-07-23 | 北京小鸟听听科技有限公司 | 一种基于场景识别的自适应音频控制装置和方法 |
CN111464913A (zh) * | 2020-05-11 | 2020-07-28 | 广州橙行智动汽车科技有限公司 | 车辆的音频播放控制方法及装置、车辆和可读存储介质 |
CN112216300A (zh) * | 2020-09-25 | 2021-01-12 | 三一专用汽车有限责任公司 | 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 |
CN112700672A (zh) * | 2020-12-21 | 2021-04-23 | 深圳供电局有限公司 | 一种智能语音播报系统及方法 |
CN113129917A (zh) * | 2020-01-15 | 2021-07-16 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
-
2022
- 2022-01-27 CN CN202210099789.5A patent/CN114121033B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203491984U (zh) * | 2013-08-30 | 2014-03-19 | 深圳市诺威达科技有限公司 | 自动增益处理系统 |
CN103617797A (zh) * | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
CN106486127A (zh) * | 2015-08-25 | 2017-03-08 | 中兴通讯股份有限公司 | 一种语音识别参数自动调整的方法、装置及移动终端 |
CN105787005A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 信息处理方法及移动终端 |
CN106952650A (zh) * | 2017-02-28 | 2017-07-14 | 大连理工大学 | 一种基于arm+fpga架构的列车语音放大单元 |
CN108989541A (zh) * | 2017-05-30 | 2018-12-11 | 现代自动车株式会社 | 基于情境的会话启动装置、系统、车辆和方法 |
CN110049403A (zh) * | 2018-01-17 | 2019-07-23 | 北京小鸟听听科技有限公司 | 一种基于场景识别的自适应音频控制装置和方法 |
CN108621930A (zh) * | 2018-04-23 | 2018-10-09 | 上海迪彼电子科技有限公司 | 汽车主动控制声音增强的方法及系统 |
CN113129917A (zh) * | 2020-01-15 | 2021-07-16 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
CN111464913A (zh) * | 2020-05-11 | 2020-07-28 | 广州橙行智动汽车科技有限公司 | 车辆的音频播放控制方法及装置、车辆和可读存储介质 |
CN112216300A (zh) * | 2020-09-25 | 2021-01-12 | 三一专用汽车有限责任公司 | 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 |
CN112700672A (zh) * | 2020-12-21 | 2021-04-23 | 深圳供电局有限公司 | 一种智能语音播报系统及方法 |
Non-Patent Citations (1)
Title |
---|
许智斌: "轨道交通高音质音频播放系统的设计与实现", 《万方》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420132A (zh) * | 2022-03-28 | 2022-04-29 | 天津市北海通信技术有限公司 | 一种列车语音播报内容校验方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114121033B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108877823B (zh) | 语音增强方法和装置 | |
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN114121033B (zh) | 基于深度学习的列车广播语音增强方法和系统 | |
CN110600054A (zh) | 基于网络模型融合的声场景分类方法 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN113793624B (zh) | 一种声学场景分类方法 | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
CN111477240B (zh) | 音频处理方法、装置、设备和存储介质 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
CN114550740B (zh) | 噪声下的语音清晰度算法及其列车音频播放方法、系统 | |
CN114512134A (zh) | 声纹信息提取、模型训练与声纹识别的方法和装置 | |
TWI779261B (zh) | 風切濾波裝置 | |
KR20220053498A (ko) | 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 | |
Vilouras | Acoustic scene classification using fully convolutional neural networks and per-channel energy normalization | |
CN117524252B (zh) | 一种基于醉汉模型的轻量化声学场景感知方法 | |
CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 | |
CN111951786A (zh) | 声音识别模型的训练方法、装置、终端设备及介质 | |
WO2023159582A1 (zh) | 耳机控制方法、耳机、装置及存储介质 | |
US11823703B2 (en) | System and method for processing an audio input signal | |
CN117012220A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN115171682A (zh) | 基于车机的声音复刻方法、系统、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |