CN112216300A - 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 - Google Patents

用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 Download PDF

Info

Publication number
CN112216300A
CN112216300A CN202011025496.XA CN202011025496A CN112216300A CN 112216300 A CN112216300 A CN 112216300A CN 202011025496 A CN202011025496 A CN 202011025496A CN 112216300 A CN112216300 A CN 112216300A
Authority
CN
China
Prior art keywords
noise
sound
scene
cab
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011025496.XA
Other languages
English (en)
Inventor
王清泉
贺志国
肖剑明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sany Special Vehicle Co Ltd
Original Assignee
Sany Special Vehicle Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sany Special Vehicle Co Ltd filed Critical Sany Special Vehicle Co Ltd
Priority to CN202011025496.XA priority Critical patent/CN112216300A/zh
Publication of CN112216300A publication Critical patent/CN112216300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明提供了一种用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车。用于搅拌车驾驶室内声音的降噪方法,包括:采集搅拌车驾驶室内的声音信号;将声音信号输入至声纹识别模型,声纹识别模型对声音信号进行噪声识别;将噪声识别结果和声纹识别模型的参数输入至语音分离模型,得到噪声信号;将噪声信号输入至场景识别模型,得到搅拌车所处的场景;根据场景对应的预设参数,获取反向噪声信号;将反向噪声信号,输出至搅拌车驾驶室。本发明通过声纹识别模型进行噪声识别,通过语音分离模型提取噪声信号,有效区分有用的声音和噪声,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性和安全性。

Description

用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车
技术领域
本发明涉及搅拌车的技术领域,具体而言,涉及一种用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车。
背景技术
环境噪音中通常包含有效信息,因此不能全部滤除,需要提取特定的噪声进行滤除,并且保留有用信息。
针对搅拌车驾驶室内声音,存在噪音和其他有用声音,例如鸣笛声和人声等属于有用声音,需要驾驶员能够识别出来的声音,目前,对于搅拌车驾驶室内的声音,没有有效的去除其中噪音,同时保留其他有用声音的方法。
发明内容
本发明旨在解决上述技术问题的至少之一。
为此,本发明的第一目的在于提供一种用于搅拌车驾驶室内声音的降噪方法。
本发明的第二目的在于提供一种用于搅拌车驾驶室内声音的降噪装置。
本发明的第三目的在于提供一种搅拌车。
为实现本发明的第一目的,本发明的技术方案提供了一种用于搅拌车驾驶室内声音的降噪方法,包括:采集搅拌车驾驶室内的声音信号;将声音信号输入至声纹识别模型,声纹识别模型对声音信号进行噪声识别;将噪声识别结果和声纹识别模型的参数输入至语音分离模型,得到噪声信号;将噪声信号输入至场景识别模型,得到搅拌车所处的场景;根据场景对应的预设参数,获取反向噪声信号;将反向噪声信号,输出至搅拌车驾驶室。
本技术方案中,通过声纹识别模型进行噪声识别,通过语音分离模型提取噪声信号,有效区分有用的声音和噪声,为后续噪声的消除提供基础,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性、安全性以及机械操作的专注性。
另外,本发明上述技术方案提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,执行采集搅拌车驾驶室内的声音信号之前,还包括:采集至少两个场景下,搅拌车驾驶室内的声音信号,作为目标检测声音;采集至少两个场景下,车辆驾驶室内的声音信号,作为参考声音;采用参考声音作为训练数据,得到通用背景模型;根据目标检测声音的特征参数,对通用背景模型进行自适应高斯滤波,得到声纹识别模型。
利用声音采集组件采集不同场景下的搅拌车的驾驶室噪声,输入声纹识别模型中进行声纹注册,然后利用声纹识别模型进行声纹提取,采用声纹识别模型识别噪声,有效降低了噪声识别的难度,提升了噪声识别的准确性。
上述任一技术方案中,语音分离模型包括第一卷积神经网络和长短期记忆网络模型。
采用第一卷积神经网络和长短期记忆网络模型相结合进行语音分离,可以提高语音分离的准确度。
上述任一技术方案中,将噪音信号输入至语音分离模型,得到目标音频信号,包括:将噪声识别结果输入至第一卷积神经网络,第一卷积神经网络获取的结果输出至长短期记忆网络模型,将声纹识别模型的参数输入至长短期记忆网络模型,长短期记忆网络模型生成软掩码;将噪声识别结果的幅度谱与软掩码相乘,得到噪声信号幅度谱,将噪声识别结果音频的相位增加到噪声信号幅度谱上,得到噪声信号。
通过第一卷积神经网络的输出结果和声纹识别模型的参数,长短期记忆网络模型生成软掩码,通过软掩码与噪声识别结果的幅度谱获取噪声信号幅度谱,进而得到噪声信号,通过采用第一卷积神经网络与长短期记忆网络模型,有效提高得到噪声信号的精度。
上述任一技术方案中,执行采集搅拌车驾驶室内的声音信号之前,还包括:设置场景,场景包括搅拌车为启动状态但未行驶的场景和/或搅拌车为第一速度行驶的场景和/或搅拌车为第二速度行驶的场景;收集场景中,搅拌车驾驶室内的声音信号;构建场景识别模型,场景识别模型包括第二卷积神经网络;采用第二卷积神经网络对场景的搅拌车驾驶室内的声音信号进行分类训练。
本技术方案中,定义不同的场景,包含启动状态但未行驶的场景、第一速度行驶的场景、第二速度行驶的场景,然后收集以上场景中,搅拌车驾驶室中的声音,最后,使用卷积神经网络对不同场景声音进行分类训练,将场景进行划分,使得本技术方案更加符合搅拌车的应用场景,根据场景进行降噪,可以快速的进行降噪。
上述任一技术方案中,执行采集搅拌车驾驶室内的声音信号之前,还包括:针对场景的声音信号进行聚类,输出场景下的代表信号,采用最小均方算法,模拟滤波器生成代表信号的反向信号,得到场景对应的预设参数。
本技术方案将场景与预设参数进行对应,在实际应用时,只需要识别出搅拌车所处的场景,即可直接应用预设参数,滤波器根据预设参数,直接获取反向信号,使得降噪方法可以快速进行响应。
上述任一技术方案中,根据场景对应的预设参数,获取反向噪声信号,包括:根据场景对应的预设参数,通过滤波器生成等幅的反向噪声信号。
本技术方案通过使用预设参数获取反向噪声信号,可以有效降低反向噪声信号与目标信号之间时延,提高降噪效果。
上述任一技术方案中,噪声信号通过短时傅立叶逆变换方法获取。
采用短时傅立叶逆变换,能够快速获取有效的噪声信号。
为实现本发明的第二目的,本发明的技术方案提供了一种用于搅拌车驾驶室内声音的降噪装置,包括:声音采集组件、声音预处理模块、声音分离模块、场景识别模块和主动降噪模块,声音预处理模块包括声纹识别模型,声音分离模块包括语音分离模型,场景识别模块包括场景识别模型;其中,声音采集组件采集搅拌车的驾驶室内的声音信号;将声音信号输入至声纹识别模型,声纹识别模型对声音信号进行噪声识别;将噪声识别结果和声纹识别模型的参数输入至语音分离模型,得到噪声信号;将噪声信号输入至场景识别模型,得到搅拌车所处的场景;根据场景对应的预设参数,主动降噪模块获取反向噪声信号,反向噪声信号输出至搅拌车的驾驶室。
本技术方案中,通过声纹识别模型进行噪声识别,通过语音分离模型提取噪声信号,有效区分有用的声音和噪声,为后续噪声的消除提供基础,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性、安全性以及机械操作的专注性。
为实现本发明的第三目的,本发明的技术方案提供了一种搅拌车,包括:搅拌车本体和如本发明任一技术方案中的用于搅拌车驾驶室内声音的降噪装置,搅拌车本体设有驾驶室;其中,用于搅拌车驾驶室内声音的降噪装置位于驾驶室内。
本发明技术方案提供的搅拌车包括如本发明任一技术方案的用于搅拌车驾驶室内声音的降噪装置,因而其具有如本发明任一技术方案的用于搅拌车驾驶室内声音的降噪装置的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的降噪方法流程图之一;
图2为本发明一个实施例的降噪方法流程图之二;
图3为本发明一个实施例的降噪方法流程图之三;
图4为本发明一个实施例的降噪方法流程图之四;
图5为本发明一个实施例的降噪方法流程图之五;
图6为本发明一个实施例的降噪方法流程图之六;
图7为本发明一个实施例的降噪装置组成示意图;
图8为本发明一个实施例的声音预处理模块组成示意图;
图9为本发明一个实施例的声音分离模块组成示意图;
图10为本发明一个实施例的场景识别模块组成示意图;
图11为本发明一个实施例的搅拌车组成示意图;
图12为本发明一个实施例的主动降噪示意图;
图13为本发明一个实施例的降噪装置示意图;
图14为本发明一个实施例的降噪方法流程图之七。
其中,图7至图13中附图标记与部件名称之间的对应关系为:
100:用于搅拌车驾驶室内声音的降噪装置,110:声音采集组件,112:麦克风,114:第一喇叭,116:第二喇叭,118:主动降噪算法,120:声音预处理模块,122:声纹识别模型,124:时频分解,126:特征提取,130:声音分离模块,132:语音分离模型,134:噪声信号,140:场景识别模块,142:场景识别模型,150:主动降噪模块,152:反向噪声信号,154:驾驶员感知信号,200:搅拌车,210:搅拌车本体,220:驾驶室,230:驾驶员。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图14描述本发明一些实施例的用于搅拌车驾驶室内声音的降噪方法、用于搅拌车驾驶室内声音的降噪装置100和搅拌车200。
实施例1:
如图1所示,本实施例提供了一种用于搅拌车驾驶室内声音的降噪方法,包括以下步骤:
步骤S102,采集搅拌车驾驶室内的声音信号;
步骤S104,将声音信号输入至声纹识别模型,声纹识别模型对声音信号进行噪声识别;
步骤S106,将噪声识别结果和声纹识别模型的参数输入至语音分离模型,得到噪声信号;
步骤S108,将噪声信号输入至场景识别模型,得到搅拌车所处的场景;
步骤S110,根据场景对应的预设参数,获取反向噪声信号;
步骤S112,将反向噪声信号,输出至搅拌车驾驶室。
声纹识别是通过对语音信号特征分析来达到对未知声音辨别的目的,声纹识别的理论基础是每个声音都有独特的特征。正如不同的人有独特的声纹,不同的机器,例如搅拌车200也有独特的声纹特征。
本实施例中,采集搅拌车200的驾驶室220内的声音信号,然后输入至声纹识别模型122,声纹识别模型122用作分类器,将噪声识别出来,然后,采用语音分离模型132,根据噪声识别结果,提取噪音信号,达到语音分离的目的。驾驶室220的声音信号,具有多样性,可能存在有鸣笛声、人声等需要驾驶员识别的有用的声音,也可能存在环境噪声或者搅拌机运行的噪声,噪声会影响驾驶员的驾驶体验以及机械操作的专注性,本实施例,通过声纹识别模型122实现噪声识别的功能,通过语音分离模型132提取噪声信号,有效区分有用的声音和噪声,为后续噪声的消除提供基础,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性、安全性以及机械操作的专注性。
举例而言,搅拌车200的驾驶室220可以设有立体声扩音器系统。
语音分离模型132提取的噪声信号作为主动降噪算法输入,结合场景识别结果,根据场景对应的预设参数,通过滤波器生成反向噪声信号(反向声波),通过安装在搅拌车200的驾驶室220内的立体声扩音器系统,播放到搅拌车200的驾驶室220中,完成降噪。
本实施例中,声纹识别模型122实现声纹识别,包括不同场景下的声纹注册、声纹提取,语音分离模型132通过注册声纹提取噪声信号(目标噪声),主动降噪为通过神经网络判断当前场景,加载预设参数,生成语音分离出的噪声信号的反向声波。
相关技术存在一种用于扫地机器人主动降噪的方法、设备及系统,用于扫地机器人,实现主动降噪的功能,用于LMS(Learning Management System,学习管理系统)迭代牺牲使得滤波器收敛,存在无法区别有效声音与噪声的问题,本实施例用于搅拌车驾驶室内降噪,着重实现注册本车机械声纹、提取该声纹相关噪声,并保留其他有效声音(鸣笛声、人声),利用神经网络模型进行场景分类,滤波器根据场景加载预设参数。
实施例2:
如图2所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
执行采集搅拌车驾驶室内的声音信号之前,还包括以下步骤:
步骤S202,采集至少两个场景下,搅拌车驾驶室内的声音信号,作为目标检测声音;
步骤S204,采集至少两个场景下,车辆驾驶室内的声音信号,作为参考声音;
步骤S206,采用参考声音作为训练数据,得到通用背景模型;
步骤S208,根据目标检测声音的特征参数,对通用背景模型进行自适应高斯滤波,得到声纹识别模型。
本实施例中,利用声音采集组件110采集不同场景下的搅拌车200的驾驶室220噪声,输入声纹识别模型122中进行声纹注册,然后利用声纹识别模型122进行声纹提取,采用声纹识别模型122识别噪声,有效降低了噪声识别的难度,提升了噪声识别的准确性。
本实施例收集不同场景下搅拌车200驾驶室220内声音作为目标检测声音,然后收集不同车辆驾驶室内声音作为参考声音,由参考声音作为训练数据训练出一个通用背景模型UBM(Universal Background Model),在不同场景下的声音根据其特征参数在UBM的每个高斯上自适应得到目标声音模型,即声纹识别模型122。
实施例3:
除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
语音分离模型包括第一卷积神经网络和长短期记忆网络模型。
通过语音分离模型,获取噪声信号。采用第一卷积神经网络和长短期记忆网络模型相结合进行语音分离,可以减低语音分离的复杂程度,提高语音分离的准确度。
实施例4:
如图3所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
将噪声识别结果和声纹识别模型的参数输入至语音分离模型,得到噪声信号,包括以下步骤:
步骤S302,将噪声识别结果输入至第一卷积神经网络,第一卷积神经网络获取的结果输出至长短期记忆网络模型,将声纹识别模型的参数输入至长短期记忆网络模型,长短期记忆网络模型生成软掩码;
步骤S304,将噪声识别结果的幅度谱与软掩码相乘,得到噪声信号幅度谱,将噪声识别结果音频的相位增加到噪声信号幅度谱上,得到噪声信号。
本实施例中,将噪声识别结果输入CNN网络(第一卷积神经网络)进行处理输出到LSTM模型(长短期记忆网络模型),同时目标声音GMM模型(声纹识别模型122)参数也作为LSTM输入,生成软掩码,噪声信号幅度谱与软掩码相乘得到目标声音信号幅度谱,将噪声音频的相位增加到幅度谱上。
通过第一卷积神经网络的输出结果,以及声纹识别模型122的参数,长短期记忆网络模型生成软掩码,通过软掩码与噪声识别结果的幅度谱获取噪声信号幅度谱,进而得到噪声信号,通过采用第一卷积神经网络与长短期记忆网络模型,有效提高得到噪声信号的精度,降低获取噪声信号的复杂度。
实施例5:
如图4所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
执行采集搅拌车驾驶室内的声音信号之前,还包括以下步骤:
步骤S402,设置场景,场景包括搅拌车为启动状态但未行驶的场景和/或搅拌车为第一速度行驶的场景和/或搅拌车为第二速度行驶的场景;
步骤S404,收集场景中,搅拌车驾驶室内的声音信号;
步骤S406,构建场景识别模型,场景识别模型包括第二卷积神经网络;
步骤S408,采用第二卷积神经网络对场景的搅拌车驾驶室内的声音信号进行分类训练。
举例而言,第一速度行驶的场景可以为低速度行驶的场景,低速度可以为40km/h以下,第二速度行驶的场景可以正常行驶的场景,正常行驶为40km/h-80km/h。
本实施例中,定义不同的场景,包含启动状态但未行驶的场景、低速行驶的场景、正常行驶的场景,然后收集以上场景中,搅拌车200驾驶室220中的声音,最后,使用CNN神经网络(卷积神经网络)对不同场景声音进行分类训练,通过将搅拌车200所处的场景进行划分,使得本实施例更加符合搅拌车200的应用场景,针对不同场景,搅拌车200驾驶室220中的噪声均不同,对场景进行划分,即对驾驶室220中不同的噪声进行划分,根据噪声的不同,得到不同的预设参数,有针对性的进行降噪,有效的提高降噪的准确性,进而去除噪音,保留有效声音,提高驾驶员的驾驶体验。
实施例6:
如图5所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
执行采集搅拌车驾驶室内的声音信号之前,还包括以下步骤:
步骤S502,针对场景的声音信号进行聚类,输出场景下的代表信号,采用最小均方算法,模拟滤波器生成代表信号的反向信号,得到场景对应的预设参数。
本实施例针对不同场景的声音信号进行聚类后输出不同场景下代表信号,采用LMS算法(最小均方算法)进行滤波器模拟其反向信号,得到不同场景下的对应的预设参数。
本实施例将场景与预设参数进行对应,在实际应用时,只需要识别出搅拌车200所处的场景,即可直接应用预设参数,滤波器根据预设参数,直接获取反向信号,使得降噪方法可以快速进行响应。
实施例7:
如图6所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
根据场景对应的预设参数,获取反向噪声信号,包括:
步骤S602,根据场景对应的预设参数,通过滤波器生成等幅的反向噪声信号。
在降噪时,滤波器加载不同场景下的固定的预设参数,得到反向噪声信号,将反向噪声信号通过驾驶室220的立体声扩音器输出,进行降噪。
本实施例通过使用预设参数获取反向噪声信号,可以有效降低反向噪声信号与原始噪声信号之间时延,提高降噪效果。
实施例8:
除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
噪声信号通过短时傅立叶逆变换方法获取。
采用短时傅立叶逆变换,能够快速获取有效的噪声信号。
实施例9:
如图7所示,本实施例提供了一种用于搅拌车驾驶室内声音的降噪装置100,包括:声音采集组件110、声音预处理模块120、声音分离模块130、场景识别模块140和主动降噪模块150,如图8所示,声音预处理模块120包括声纹识别模型122,如图9所示,声音分离模块130包括语音分离模型132,如图10所示,场景识别模块140包括场景识别模型142;其中,声音采集组件110采集搅拌车200的驾驶室220内的声音信号;将声音信号输入至声纹识别模型122,声纹识别模型122对声音信号进行噪声识别;将噪声识别结果和声纹识别模型的参数输入至语音分离模型132,得到噪声信号;将噪声信号输入至场景识别模型142,得到搅拌车200所处的场景;根据场景对应的预设参数,主动降噪模块150获取反向噪声信号,反向噪声信号输出至搅拌车200的驾驶室220。
本实施例中,声音采集组件110采集搅拌车200的驾驶室220内的声音信号,然后输入至声纹识别模型122,声纹识别模型122用作分类器,将噪声识别出来,然后,采用语音分离模型132,根据噪声识别结果,提取噪音信号,达到语音分离的目的。驾驶室220的声音信号,具有多样性,可能存在有鸣笛声、人声等需要驾驶员识别的有用的声音,也可能存在环境噪声或者搅拌机运行的噪声,噪声会影响驾驶员的驾驶体验以及机械操作的专注性,本实施例,通过声纹识别模型122实现噪声识别的功能,通过语音分离模型132提取噪声信号,有效区分有用的声音和噪声,为后续噪声的消除提供基础,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性、安全性以及机械操作的专注性。
语音分离模型132提取的噪声信号作为主动降噪算法输入,结合场景识别结果,根据场景对应的预设参数,通过滤波器生成反向噪声信号(反向声波),通过安装在搅拌车200的驾驶室220内的立体声扩音器系统,播放到搅拌车200的驾驶室220中,完成降噪。
实施例10:
如图11所示,本实施例提供了一种搅拌车200,包括:搅拌车本体210和如本发明任一实施例中的用于搅拌车驾驶室内声音的降噪装置100,搅拌车本体210设有驾驶室220;其中,用于搅拌车驾驶室内声音的降噪装置100位于驾驶室220内。
实施例11:
本实施例提供了一种用于搅拌车驾驶室内声音的降噪装置100,基于语音分离的特定声源抑制系统。
本实施例的技术方案主要包括以下三个方面:
(1)声纹识别,包括不同场景下的声纹注册、声纹提取;
(2)语音分离,通过注册声纹提取目标噪声;
(3)主动降噪,通过神经网络判断当前场景,加载固定参数(预设参数),生成语音分离出的目标噪声反向声波。
本实施例首先训练一个声纹识别模型122,利用声音采集组件110将不同场景下的驾驶噪声进行采集,然后输入声纹识别模型122中进行注册。在实际使用过程中,声纹识别模型122用作分类器,识别噪声,语音分离模型132将噪声信号提取出来,达到语音分离的目的。该部分提取的噪声信号作为主动降噪算法输入,结合场景识别模块140的识别结果,主动降噪模块150加载不同预设参数,输入到滤波器中生成反向噪声信号(反向声波),通过安装的立体声扩音器系统,播放到驾驶室220中。
如图12所示,声音采集组件110可以采用麦克风112,麦克风112采集的声音,通过主动降噪算法118进行降噪,然后通过立体声扩音器系统(第一喇叭114和第二喇叭116)的喇叭输出,使得驾驶员230获取降噪后的声音。
如图13所示,一种用于搅拌车驾驶室内声音的降噪装置100,包括:声音采集组件110、声音预处理模块120、声音分离模块130、场景识别模块140和主动降噪模块150,其中,声音采集组件110采集搅拌车200的驾驶室220内的声音信号(即得到的混合信号),将混合信号输入至声音预处理模块120,对混合信号进行时频分解124,得到MFCC系数,对MFCC系数进行特征提取126,通过声纹识别模型122,识别搅拌车200的驾驶室220的噪声;将识别噪声结果输入至声音分离模块130,通过语音分离模型132进行语音分离,得到噪声信号134;将噪声信号输入至场景识别模块140,通过场景识别模型142得到搅拌车200所处的场景;根据场景对应的预设参数,主动降噪模块150获取反向噪声信号152,最后得到驾驶员感知信号154。
实施例12:
本实施例提供了一种用于搅拌车驾驶室内声音的降噪方法,如图14所示,包括:
步骤S802,声纹识别处理;
注册搅拌车噪声信号,将搅拌车本身噪音作为目标识别信号;
步骤S804,语音分离处理;
结合噪声识别结果,通过CNN-LSTM进行语音分离,提取目标信号源(噪声信号);
步骤S806,场景识别处理;
使用CNN模型进行分类,输出识别场景;
步骤S808,主动降噪;
通过预设参数,滤波器生成反向噪声信号,降低时延,提升降噪效果;
步骤S810,立体声输出;
针对驾驶位使用立体声扩音系统,将反向信号输出。
本实施例中涉及的模型训练包括:
声纹GMM-UBM模型训练;
(1)收集不同场景下搅拌车驾驶室内声音作为目标检测声音,然后收集不同汽车驾驶室内声音作为参考声音;
(2)由参考声音作为训练数据训练出一个通用背景模型UBM;
(3)不同场景下的声音根据其特征参数在UBM的每个高斯上自适应得到目标声音模型(即声纹识别模型122);
语音分离模型CNN-LSTM训练:
(1)将噪声识别结果输入CNN网络进行处理输出到LSTM模型,同时目标声音GMM模型参数也作为LSTM输入,生成软掩码;
(2)噪声识别结果的幅度谱与软掩码相乘得到目标声音信号幅度谱,将噪声识别结果的音频的相位增加到幅度谱上,用ISTFT方法得到目标音频信号;
场景识别模型:
(1)定义不同的场景,包含启动状态但未行驶、低速行驶、正常行驶;
(2)收集以上场景中声音;
(3)使用CNN神经网络对不同场景声音进行分类训练;
主动降噪模块:
(1)针对不同场景的声音信号进行聚类后输出不同场景下代表信号,用LMS算法进行滤波器模拟其反向信号,形成不同场景下的固定参数;
(2)在降噪时,滤波器加载不同场景下的固定参数得到反向信号,通过立体声扩音器输出。使用固定参数可以有效降低反向信号与目标信号之间时延。
本实施例建立主动降噪系统功能,一方面,为驾驶员降低噪音,提供安静的驾驶环境,提升产品竞争力,另一方面,使用语音分离技术,使得降噪的同时保留外界有效信号,消除单纯降噪带来的负面影响,最后,主动降噪系统,提升车辆的科技感。
综上,本发明实施例的有益效果为:
1.本实施例,通过声纹识别模型122进行噪声识别,通过语音分离模型132提取噪声信号,有效区分有用的声音和噪声,为后续噪声的消除提供基础,在去除环境噪声和搅拌机运行噪声的基础上,保留鸣笛声、人声等有用声音,提高驾驶员的驾驶舒适性、安全性以及机械操作的专注性。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于搅拌车驾驶室内声音的降噪方法,其特征在于,包括:
采集搅拌车驾驶室内的声音信号;
将所述声音信号输入至声纹识别模型,所述声纹识别模型对所述声音信号进行噪声识别;
将所述噪声识别结果和所述声纹识别模型的参数输入至语音分离模型,得到噪声信号;
将所述噪声信号输入至场景识别模型,得到所述搅拌车所处的场景;
根据所述场景对应的预设参数,获取反向噪声信号;
将所述反向噪声信号,输出至所述搅拌车驾驶室。
2.根据权利要求1所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,执行所述采集搅拌车驾驶室内的声音信号之前,还包括:
采集至少两个所述场景下,所述搅拌车驾驶室内的声音信号,作为目标检测声音;
采集至少两个所述场景下,车辆驾驶室内的声音信号,作为参考声音;
采用所述参考声音作为训练数据,得到通用背景模型;
根据所述目标检测声音的特征参数,对所述通用背景模型进行自适应高斯滤波,得到所述声纹识别模型。
3.根据权利要求2所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,所述语音分离模型包括第一卷积神经网络和长短期记忆网络模型。
4.根据权利要求3所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,所述将所述噪声识别结果和所述声纹识别模型的参数输入至语音分离模型,得到噪声信号,包括:
将所述噪声识别结果输入至所述第一卷积神经网络,所述第一卷积神经网络获取的结果输出至所述长短期记忆网络模型,将所述声纹识别模型的参数输入至所述长短期记忆网络模型,所述长短期记忆网络模型生成软掩码;
将所述噪声识别结果的幅度谱与所述软掩码相乘,得到所述噪声信号幅度谱,将所述噪声识别结果音频的相位增加到所述噪声信号幅度谱上,得到所述噪声信号。
5.根据权利要求1所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,执行所述采集搅拌车驾驶室内的声音信号之前,还包括:
设置所述场景,所述场景包括所述搅拌车为启动状态但未行驶的场景和/或所述搅拌车为第一速度行驶的场景和/或所述搅拌车为第二速度行驶的场景;
收集所述场景中,所述搅拌车驾驶室内的声音信号;
构建所述场景识别模型,所述场景识别模型包括第二卷积神经网络;
采用所述第二卷积神经网络对所述场景的所述搅拌车驾驶室内的声音信号进行分类训练。
6.根据权利要求1所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,执行所述采集搅拌车驾驶室内的声音信号之前,还包括:
针对所述场景的所述声音信号进行聚类,输出所述场景下的代表信号,采用最小均方算法,模拟滤波器生成所述代表信号的反向信号,得到所述场景对应的所述预设参数。
7.根据权利要求6所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,根据所述场景对应的预设参数,获取反向噪声信号,包括:
根据所述场景对应的预设参数,通过滤波器生成等幅的反向噪声信号。
8.根据权利要求4所述的用于搅拌车驾驶室内声音的降噪方法,其特征在于,所述噪声信号通过短时傅立叶逆变换方法获取。
9.一种用于搅拌车驾驶室内声音的降噪装置(100),其特征在于,包括:
声音采集组件(110);
声音预处理模块(120),包括声纹识别模型(122);
声音分离模块(130),包括语音分离模型(132);
场景识别模块(140),包括场景识别模型(142);
主动降噪模块(150);
其中,所述声音采集组件(110)采集搅拌车(200)的驾驶室(220)内的声音信号;将所述声音信号输入至所述声纹识别模型(122),所述声纹识别模型(122)对所述声音信号进行噪声识别;将所述噪声识别结果和所述声纹识别模型的参数输入至语音分离模型(132),得到所述搅拌车(200)的驾驶室(220)的噪音信号;将所述噪音信号输入至所述场景识别模型(142),得到所述搅拌车(200)所处的场景;根据所述场景对应的预设参数,所述主动降噪模块(150)获取反向噪声信号,所述反向噪声信号输出至所述搅拌车(200)的驾驶室(220)。
10.一种搅拌车(200),其特征在于,包括:
搅拌车本体(210),设有驾驶室(220);
如权利要求9所述的用于搅拌车驾驶室内声音的降噪装置(100);
其中,所述用于搅拌车驾驶室内声音的降噪装置(100)位于所述驾驶室(220)内。
CN202011025496.XA 2020-09-25 2020-09-25 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车 Pending CN112216300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011025496.XA CN112216300A (zh) 2020-09-25 2020-09-25 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011025496.XA CN112216300A (zh) 2020-09-25 2020-09-25 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车

Publications (1)

Publication Number Publication Date
CN112216300A true CN112216300A (zh) 2021-01-12

Family

ID=74052383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011025496.XA Pending CN112216300A (zh) 2020-09-25 2020-09-25 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车

Country Status (1)

Country Link
CN (1) CN112216300A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490115A (zh) * 2021-08-13 2021-10-08 广州市迪声音响有限公司 一种基于声纹识别技术的声反馈抑制方法及系统
CN113689900A (zh) * 2021-08-20 2021-11-23 上海明略人工智能(集团)有限公司 用于音频文件降噪的方法及装置、服务器、存储介质
CN114121033A (zh) * 2022-01-27 2022-03-01 深圳市北海轨道交通技术有限公司 基于深度学习的列车广播语音增强方法和系统
CN115482835A (zh) * 2022-09-06 2022-12-16 北京声智科技有限公司 噪声检测方法、装置、电子设备和介质
WO2023005560A1 (zh) * 2021-07-28 2023-02-02 Oppo广东移动通信有限公司 音频处理方法、装置、终端及存储介质
WO2023093412A1 (zh) * 2021-11-23 2023-06-01 华为技术有限公司 主动降噪的方法及电子设备
CN117079634A (zh) * 2023-10-16 2023-11-17 深圳波洛斯科技有限公司 一种音频主动降噪方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009269530A (ja) * 2008-05-09 2009-11-19 Kenwood Corp 車両用ノイズ低減装置及び車両の走行ノイズ低減方法
CN102402985A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 提高声纹识别安全性的声纹认证系统及其实现方法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109378010A (zh) * 2018-10-29 2019-02-22 珠海格力电器股份有限公司 神经网络模型的训练方法、语音去噪方法及装置
CN109817236A (zh) * 2019-02-01 2019-05-28 安克创新科技股份有限公司 基于场景的音频降噪方法、装置、电子设备和存储介质
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110753291A (zh) * 2019-10-31 2020-02-04 朗狮(深圳)科技有限公司 室内开关的降噪装置和降噪方法
WO2020029906A1 (zh) * 2018-08-09 2020-02-13 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN111145736A (zh) * 2019-12-09 2020-05-12 华为技术有限公司 语音识别方法及相关设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009269530A (ja) * 2008-05-09 2009-11-19 Kenwood Corp 車両用ノイズ低減装置及び車両の走行ノイズ低減方法
CN102402985A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 提高声纹识别安全性的声纹认证系统及其实现方法
WO2020029906A1 (zh) * 2018-08-09 2020-02-13 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109378010A (zh) * 2018-10-29 2019-02-22 珠海格力电器股份有限公司 神经网络模型的训练方法、语音去噪方法及装置
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109817236A (zh) * 2019-02-01 2019-05-28 安克创新科技股份有限公司 基于场景的音频降噪方法、装置、电子设备和存储介质
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110753291A (zh) * 2019-10-31 2020-02-04 朗狮(深圳)科技有限公司 室内开关的降噪装置和降噪方法
CN111145736A (zh) * 2019-12-09 2020-05-12 华为技术有限公司 语音识别方法及相关设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023005560A1 (zh) * 2021-07-28 2023-02-02 Oppo广东移动通信有限公司 音频处理方法、装置、终端及存储介质
CN113490115A (zh) * 2021-08-13 2021-10-08 广州市迪声音响有限公司 一种基于声纹识别技术的声反馈抑制方法及系统
CN113689900A (zh) * 2021-08-20 2021-11-23 上海明略人工智能(集团)有限公司 用于音频文件降噪的方法及装置、服务器、存储介质
WO2023093412A1 (zh) * 2021-11-23 2023-06-01 华为技术有限公司 主动降噪的方法及电子设备
CN114121033A (zh) * 2022-01-27 2022-03-01 深圳市北海轨道交通技术有限公司 基于深度学习的列车广播语音增强方法和系统
CN115482835A (zh) * 2022-09-06 2022-12-16 北京声智科技有限公司 噪声检测方法、装置、电子设备和介质
CN117079634A (zh) * 2023-10-16 2023-11-17 深圳波洛斯科技有限公司 一种音频主动降噪方法
CN117079634B (zh) * 2023-10-16 2023-12-22 深圳波洛斯科技有限公司 一种音频主动降噪方法

Similar Documents

Publication Publication Date Title
CN112216300A (zh) 用于搅拌车驾驶室内声音的降噪方法、装置和搅拌车
CN110197670B (zh) 音频降噪方法、装置及电子设备
DE102017116528B4 (de) Verfahren und Vorrichtung zur Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung
CN107910013B (zh) 一种语音信号的输出处理方法及装置
DE102007051261A1 (de) Verfahren und Vorrichtung zur akustischen Beurteilung eines Kraftfahrzeuges
CN108696794B (zh) 自适应乘员会话感知系统
CN107097718A (zh) 主动声音合成装置及交通工具
CN106992002A (zh) 用于改进含噪语音识别的动态声学模型切换
CN113270095B (zh) 语音处理方法、装置、存储介质及电子设备
CN115862657A (zh) 随噪增益方法和装置、车载系统、电子设备及存储介质
CN111696539A (zh) 对内部通话主动降噪的语音交互系统及车辆
CN115312061A (zh) 驾驶场景中的语音问答方法、装置及车载终端
CN115295011A (zh) 一种声音信号处理方法、装置、设备及存储介质
CN114103850A (zh) 一种实现汽车主动声增强的系统
CN112017636B (zh) 基于车辆的用户发音模拟方法、系统、设备及存储介质
CN113053402A (zh) 一种语音处理方法、装置和车辆
CN115132173A (zh) 语音交互系统的测试方法、音频识别方法及相关设备
CN113850106A (zh) 车辆及其控制方法
CN113470632A (zh) 减轻门钣金与扬声器共振的音频处理方法及系统
CN118506805A (zh) 一种汽车智能座舱的环境音透传方法与装置
Martinek et al. Hybrid In-Vehicle Background Noise Reduction for Robust Speech Recognition: The Possibilities of Next Generation 5G Data Networks.
CN118571219B (zh) 座舱内人员对话增强方法、装置、设备及存储介质
CN118366448A (zh) 一种农用车车载语音识别方法和装置
CN113611334A (zh) 一种车外声音感知方法和系统
JP2001296887A (ja) 音声認識方法及びその方法を用いた音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112