CN117746879A - 一种车内外声音交流方法、系统及车辆 - Google Patents
一种车内外声音交流方法、系统及车辆 Download PDFInfo
- Publication number
- CN117746879A CN117746879A CN202410006805.0A CN202410006805A CN117746879A CN 117746879 A CN117746879 A CN 117746879A CN 202410006805 A CN202410006805 A CN 202410006805A CN 117746879 A CN117746879 A CN 117746879A
- Authority
- CN
- China
- Prior art keywords
- sound
- vehicle
- target
- external
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims abstract description 183
- 230000006854 communication Effects 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000004891 communication Methods 0.000 claims abstract description 54
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 230000008030 elimination Effects 0.000 claims abstract description 12
- 238000003379 elimination reaction Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 7
- 238000005314 correlation function Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 18
- 238000011161 development Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种车内外声音交流方法、系统及车辆,所述方法包括:获取多个外部声音信号,对外部声音信号进行预处理和声音特征提取,得到多个声音特征;将多个声音特征输入到声音分类模型中进行分析,得到多个声源的类别;获取多个声源的类别中的目标类别音源,计算目标类别音源相对于车辆的目标位置;控制离所述目标位置最近的车外麦克风获取目标类别音源发出的第一外部目标声音信号;对第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,将第二外部目标声音信号在车内进行播放。本申请解决了车内和车外人员在车窗关闭时,声音交互受限,车内的人员难以听清车外传来的声音的问题,为汽车行业发展带来积极影响。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种车内外声音交流方法、系统、车辆及计算机可读存储介质。
背景技术
随着汽车的普及,车辆占比越来越高,车辆的车载设备往往采用麦克风来收集车内的语音信号,从而实现语音控制功能,使得用户能够通过声控指令来控制各种应用程序,例如,打开音乐、书籍朗读、搜索兴趣点、对讲机应用等。
然而,现有技术中,在汽车内部与外部之间进行声音交流时,车辆在不打开车窗的条件下,车内人员与车外人员无法进行精确、高效的语音沟通,即必须打开车窗,但是车辆在行驶时开窗会影响车内的空调效果,造成资源的浪费,并且会毫无疑问的增大车内人员的驾乘安全风险,同时如果交流受到其它噪音的影响,如环境噪音的干扰或者汽车声音干扰,对话者之间距离稍微远一点就难以听清对方的声音。
因此,现有技术还有待于改进和发展。
发明内容
本申请的主要目的在于提供一种车内外声音交流方法、系统、车辆及计算机可读存储介质,旨在解决现有技术中车内和车外声音交互受限,车内的人员难以听清车外传来的声音的问题。
本申请第一方面实施例提供一种车内外声音交流方法,包括以下步骤:获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征;将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别;获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置;控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号;对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
根据上述技术手段,本申请实施例将高灵敏度麦克风阵列、声音识别、定位、增强技术以及车载通讯系统等多项技术有机结合,形成了一套完整的声音交互系统;通过对所述外部声音信号进行预处理和声音特征提取,并输入到声音分类模型中进行分析,得到多个所述声源的类别,从所述类别中获取目标类别音源,并基于麦克风列阵时间差实现精确的声音定位,并进行增强处理和双向互动,实现了车内外的高效声音交流;不仅可以提升驾驶员和乘客的体验,还为汽车行业带来了新的商机和市场竞争力。
可选地,在本申请的一个实施例中,所述将所述第二外部目标声音信号在车内进行播放,之后还包括:获取车内麦克风阵列采集到的座舱人员发出的内部声音信号,将所述内部声音信号进行预处理、声音增强处理和噪音消除处理后,得到目标内部声音信号,将所述目标内部声音信号通过车内距离所述目标类别音源最近的所述车外麦克风阵列中预设数量的麦克风发送到车外进行播放。
根据上述技术手段,本申请实施例中驾驶员向外发出的声音可以经过预处理、声音增强处理和噪音消除处理后,基于之前获取到的车内距离所述目标类别音源最近的所述车外麦克风阵列中预设数量的麦克风发送到车外进行播放,进而与行人进行语音沟通,例如在交通拥堵时向行人询问路况或向行人说明自己的意图,实现双向的沟通交互。
可选地,在本申请的一个实施例中,所述获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取后得到多个声音特征,具体包括:获取所述车外麦克风阵列采集到的多角度和多源的多个外部声音信号;对每个外部声音信号进行去噪处理,得到去噪后的多个外部声音信号;将去噪后的每个外部声音信号进行时域滤波和自适应滤波,得到滤波后的多个外部声音信号;将滤波后的每个外部声音信号进行放大处理,得到预处理后的多个外部声音信号;将预处理后的每个外部声音信号进行分帧,对分帧后的每一帧使用离散傅里叶变换得到多个频谱,将多个所述频谱映射到梅尔频率域中,分别得到多个所述频谱的多个对数,对多个所述对数进行离散余弦变换得到的多个梅尔频率倒谱系数,将多个梅尔频率倒谱系数作为多个所述声音特征。
根据上述技术手段,本申请实施例可以将采集到的包含不同频率、幅度和时域特性的声音信号进行预处理,包括去除噪音、滤波、放大等处理,并计算预处理后的每个外部声音信号的梅尔频率倒谱系数,得到多个声音特征,得到的声音特征更加的精确合理,实现对采集到的声音信号的分析、分类和准确识别,为后续的声音定位、增强和交互提供必要的信息;为后续声源的类别的确定打下基础,有助于提高后续识别算法的准确性。
可选地,在本申请的一个实施例中,所述将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别,之前还包括:获取声音训练样本数据,将所述声音训练样本数据进行数据清理,将清理后的声音训练样本数据按照预设比例随机分成训练集与验证集;将所述训练集输入到分类模型中对所述分类模型进行训练,并使用验证集验证训练后的分类模型的性能,当训练后的分类模型的性能满足预设要求后得到声音分类模型;所述分类模型包括高斯混合模型、支持向量机和深度学习模型中的任意一个。
根据上述技术手段,本申请实施例可以采用先进的声音识别算法,基于深度学习技术对预处理后的声音信号进行分析和分类,通过预先训练好的神经网络模型算法将声音信号分为不同的声音源类别,如行人、车辆、自然环境等,每个声音源类别具有独特的声音特征,通过训练的算法可以根据这些特征进行分类,从而确定声音的来源,具备实时性和高度精确性。
可选地,在本申请的一个实施例中,所述根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,具体包括:获取所述目标类别音源到达所述车外麦克风阵列中多个不同麦克风之间的时间,根据若干不同的到达时间,通过交叉相关函数或者相位差测量法计算所述目标类别音源到达不同麦克风的时间差;根据所述时间差,通过三角测量法确定所述目标类别音源相对于车辆的目标位置。
根据上述技术手段,本申请实施例可以通过计算目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,实现声音的定位与跟踪,并针对声音的位置,对麦克风阵列中的麦克风进行调整,控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的声音信号,保证所收到的声音信号噪音最小。
可选地,在本申请的一个实施例中,所述对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,具体包括:通过声音增强算法对所述目标位置的所述目标类别音源发出的所述第一外部目标声音信号进行响度加大处理,得到增强后的声音信号;通过自适应噪声抑制技术将所述增强后的声音信号中包含的杂音和干扰进行消除,得到所述第二外部目标声音信号。
根据上述技术手段,本申请实施例可以对定位到的特定声音源,应用声音增强算法,以提高其声音信号的响度,同时,通过自适应噪声抑制技术,消除背景环境中的杂音和干扰,对目标音源的声音进行二次处理,进一步降低了目标音源声音中噪音的干扰,确保车内的声音清晰可辨,提升了驾驶员和乘客的驾车体验。
可选地,在本申请的一个实施例中,所述根据所述目标类别的音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别的音源相对于车辆的目标位置,之后还包括:计算除了所述目标类别音源以外的其他类别音源相对于车辆的位置,将所述目标类别音源相对于车辆的目标位置和其他类别音源相对于车辆的位置在车内的显示屏上显示;在车辆移动时,通过泛波束形成技术对所有音源相对于车辆的位置进行实时更新,并将更新后的所有音源相对于车辆的位置在车内的显示屏上显示。
根据上述技术手段,本申请实施例可以采用泛波束形成技术精确计算所有采集到的声音源的位置,并在汽车坐标系中进行显示和跟踪,帮助车内人员了解外部的声音分布情况,辅助车内驾驶者做出正确的判断,根据显示屏上显示的音源类型和位置,准确定位到车外人员的声音方向;并确保随着车辆移动声音源位置的实时更新,能够提高道路安全性和交通效率。
本申请第二方面实施例提供一种车内外声音交流系统,所述车内外声音交流系统包括:声音特征提取模块,用于获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征;声源类别获取模块,用于将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别;声源位置获取模块,用于获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置;第一外部目标声音获取模块,用于控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号;第二外部目标声音获取模块,用于对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
可选地,在本申请的一个实施例中,所述声音特征提取模块包括:外部声音获取单元,用于获取车外麦克风阵列采集的不同声源发出的多个外部声音信号;第一声音处理单元,用于对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征。
可选地,在本申请的一个实施例中,所述声源位置获取模块包括:目标类别音源获取单元,用于获取多个所述声源的类别中的目标类别音源;目标位置计算单元,用于根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置。
可选地,在本申请的一个实施例中,第一外部目标声音获取模块包括:麦克风阵列控制单元,用于控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风;目标声音信号接收单元,用于通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号。
可选地,在本申请的一个实施例中,第二外部目标声音获取模块包括:第二声音处理单元,用于对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号;声音信号播放单元,用于将所述第二外部目标声音信号在车内进行播放。
本申请第三方面实施例提供一种车辆,所述车辆包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的车内外声音交流程序,所述车内外声音交流程序被所述处理器执行时实现如上述实施例所述的车内外声音交流方法的步骤。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有车内外声音交流程序,所述车内外声音交流程序被处理器执行时实现如上述实施例所述的车内外声音交流方法的步骤。
本申请的有益效果:
(1)本申请实施例可以将高灵敏度麦克风阵列、声音识别、定位、增强技术以及车载通讯系统等多项技术有机结合,形成了一套完整的声音交互系统;通过对所述外部声音信号进行预处理和声音特征提取,并输入到声音分类模型中进行分析,得到多个所述声源的类别,从所述类别中获取目标类别音源,并基于麦克风列阵时间差实现精确的声音定位,并进行增强处理和双向互动,实现了车内外的高效声音交流;不仅可以提升驾驶员和乘客的体验,还为汽车行业带来了新的商机和市场竞争力。
(2)本申请实施例可以将采集到的包含不同频率、幅度和时域特性的声音信号进行预处理,包括去除噪音、滤波、放大等处理,并计算预处理后的每个外部声音信号的梅尔频率倒谱系数,得到多个声音特征,得到的声音特征更加的精确合理,实现对采集到的声音信号的分析、分类和准确识别,为后续的声音定位、增强和交互提供必要的信息;为后续声源的类别的确定打下基础,有助于提高后续识别算法的准确性。
(3)本申请实施例可以采用先进的声音识别算法,基于深度学习技术对预处理后的声音信号进行分析和分类,通过预先训练好的神经网络模型算法将声音信号分为不同的声音源类别,如行人、车辆、自然环境等,每个声音源类别具有独特的声音特征,通过训练的算法可以根据这些特征进行分类,从而确定声音的来源,具备实时性和高度精确性。
(4)本申请实施例可以通过计算目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,实现声音的定位与跟踪,并针对声音的位置,对麦克风阵列中的麦克风进行调整,控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的声音信号,保证所收到的声音信号噪音最小。
(5)本申请实施例可以对定位到的特定声音源,应用声音增强算法,以提高其声音信号的响度,同时,通过自适应噪声抑制技术,消除背景环境中的杂音和干扰,对目标音源的声音进行二次处理,进一步降低了目标音源声音中噪音的干扰,确保车内的声音清晰可辨,提升了驾驶员和乘客的驾车体验。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本申请车内外声音交流方法的较佳实施例的流程图;
图2是本申请车内外声音交流方法的较佳实施例的原理图;
图3是本申请车内外声音交流方法的较佳实施例中对所述外部声音信号进行处理的流程图;
图4是本申请车内外声音交流系统的较佳实施例的结构示意图;
图5为本申请车辆的较佳实施例的结构示意图。
其中,10-车内外声音交流系统;100-声音特征提取模块、200-声源类别获取模块、300-声源位置获取模块、400-第一外部目标声音获取模块和500-第二外部目标声音获取模块;501-存储器、502-处理器和503-通信接口。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的车内外声音交流方法、系统、车辆及计算机可读存储介质。针对上述背景技术中提到的相关技术中车内和车外声音交互受限,车内的人员难以听清车外传来的声音的问题,本申请提供了车内外声音交流方法,在该方法中,获取多个外部声音信号,对外部声音信号进行预处理和声音特征提取,得到多个声音特征;将多个声音特征输入到声音分类模型中进行分析,得到多个声源的类别;获取多个声源的类别中的目标类别音源,计算目标类别音源相对于车辆的目标位置;控制离所述目标位置最近的车外麦克风获取目标类别音源发出的第一外部目标声音信号;对第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,将第二外部目标声音信号在车内进行播放。本申请为汽车内外声音交流受限提供了一种全新的解决方案,在交通、驾驶和安全方面具有广泛应用前景,为汽车行业发展带来积极影响。由此,解决了相关技术中车内和车外声音交互受限,车内的人员难以听清车外传来的声音的问题。
具体而言,图1为本申请实施例所提供的一种车内外声音交流方法的流程示意图。
如图1和图2所示,该车内外声音交流方法包括以下步骤:
在步骤S101中,获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征。
如图3所示,所述获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取后得到多个声音特征,具体包括:
S1011、获取所述车外麦克风阵列采集到的多角度和多源的多个外部声音信号。
在本实施例中,在汽车的前后左右多个位置分别安装高灵敏度的麦克风,构建声音采集阵列。这些麦克风将采集来自外部的多角度和多源的多个外部声音信号,并将声音信号传输到中央处理单元(CPU)进行分析。
可以理解的是,多麦克风阵列中的麦克风通常分布在不同位置,形成一个几何布局。这些麦克风可以按照线性、圆形、矩形等不同的方式排列。
S1012、对每个外部声音信号进行去噪处理,得到去噪后的多个外部声音信号。
信号去噪是指通过各种技术手段对信号进行处理,以减少或消除噪声对信号的影响,从而提高信号的质量和可靠性。
在本实施例中,可以使用滑动平均法(moving average,也叫做移动平均法、移动平均值滤波法等等,是一种时间域思想上的信号光滑方法。算法思路为:将该点附近的采样点做算数平均,从而作为这个点光滑后的值)或者中位值法(也叫移动中位数法、中值滤波法等。优点是:在数据采样点密集,且比较平滑的情况下,中位数法可以很好地剔除离群值。缺点是不适用于噪声较大的情况;而且平滑之后,数据光滑度不足;经过中位值法处理之后,极值点会丢失)对每个外部声音信号进行去噪处理,得到去噪后的多个外部声音信号。
S1013、将去噪后的每个外部声音信号进行时域滤波和自适应滤波,得到滤波后的多个外部声音信号。
可以理解的是,时域滤波是声音信号预处理的第一步。时域滤波旨在处理声音信号的时间域特性,以降低高频噪音、去除不需要的信号成分或减小其他干扰。这些处理有助于净化原始声音信号,使其更适合后续处理。
自适应滤波通常是在时域滤波之后使用的。自适应滤波技术旨在根据环境噪音的特性来自动调整滤波器参数,以提高信号质量。自适应滤波通常用于进一步去除残留的噪音或干扰,特别是在变化的环境中。
将去噪后的每个外部声音信号进行时域滤波(Digital Time-Domain Filtering)和自适应滤波(Adaptive Filtering);通过公式进行时域滤波,其中,x(t-n)表示原始声音信号,t表示时间,n是离散时间点的索引(在离散时间信号处理中,信号在不同时间点上被采样,每个时间点由离散的整数索引n来表示;n通常代表时间的离散步骤或采样点,可以是整数值),h(n)表示滤波器的冲激响应(通常包括一系列滤波器系数,描述了滤波器的特性),s(t)表示滤波器的输出,即滤波后的声音信号。
将进行时域滤波后的声音信号通过公式进行自适应滤波,其中,e(n)表示误差信号,表示期望输出与实际输出的差异;d(n)表示期望输出,即原始声音信号的理想输出,/>为实际输出。需要说明的是,上述公式和符号用于描述声音信号预处理中的时域滤波和自适应滤波的基本原理和计算过程,具体的数值和参数会根据实际应用和问题的需求而变化。
S1014、将滤波后的每个外部声音信号进行放大处理,得到预处理后的多个外部声音信号。
将滤波后的每个外部声音信号通过声音放大器进行放大,声音放大器的输入信号一般是音频信号,通常是低电平信号,经过前置放大器进行信号放大消除干扰信号后,送入主放大器将前置放大器输出的信号进一步放大。
S1015、将预处理后的每个外部声音信号进行分帧,对分帧后的每一帧使用离散傅里叶变换得到多个频谱,将多个所述频谱映射到梅尔频率域中,分别得到多个所述频谱的多个对数,对多个所述对数进行离散余弦变换得到的多个梅尔频率倒谱系数,将多个梅尔频率倒谱系数作为多个所述声音特征。
可以理解的是,声音识别算法通常是对从声音信号中提取的声音特征,通常是MFCC系数,进行识别。MFCC(梅尔频率倒谱系数)是一种常用的声音特征提取方法,它用于将声音信号转化为一组特征向量,这些特征向量通常用于声音识别任务。
得到声音特征的具体过程为:将外部声音信号进行分帧处理,对分帧后的每一帧使用离散傅里叶变换(把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律)得到多个频谱,将多个所述频谱映射到梅尔频率域(是一种将音频信号转换到频率表示的方法)中,分别得到多个所述频谱的多个对数,对多个所述对数进行离散余弦变换(是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数,离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换)得到的多个梅尔频率倒谱系数,将多个梅尔频率倒谱系数作为多个所述声音特征。
可见,本申请实施例可以将采集到的包含不同频率、幅度和时域特性的声音信号进行预处理,包括去除噪音、滤波、放大等处理,并计算预处理后的每个外部声音信号的梅尔频率倒谱系数,得到多个声音特征,得到的声音特征更加的精确合理,实现对采集到的声音信号的分析、分类和准确识别,为后续的声音定位、增强和交互提供必要的信息;为后续声源的类别的确定打下基础,有助于提高后续识别算法的准确性。
在步骤S102中,将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别。
可以理解的是,所述将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别,之前还包括:
获取声音训练样本数据,将所述声音训练样本数据进行数据清理,将清理后的声音训练样本数据按照预设比例随机分成训练集与验证集。
将所述训练集输入到分类模型中对所述分类模型进行训练,并使用验证集验证训练后的分类模型的性能,当训练后的分类模型的性能满足预设要求后得到声音分类模型;所述分类模型包括高斯混合模型、支持向量机和深度学习模型中的任意一个。
数据质量是影响实验研究结果的重要因素之一,为了减少缺失值的影响,本发明对所述数据集中的数据进行数据清理,删除掉所述数据集中缺失值超过第一预设阈值的数据,所述第一阈值可以优选为30%,并使用数据的中位数对删除掉的数据进行填补,得到清理后的声音训练样本数据。
将清理后的声音训练样本数据按照预设比例随机分成训练集与验证集,例如以7:3的比例随机分成训练集与验证集,其中70%的数据用于训练模型,其余30%用于验证上模型性能。
在本实施例中,将所述训练数据输入到所述分类模型后,需要对所述分类模型的参数进行训练,若所述分类模型为深度学习模型,则采用随机梯度下降法(SGD,是一种简单但非常有效的方法,多用于支持向量机、逻辑回归(LR)等凸损失函数下的线性分类器的学习。并且SGD已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题)训练所述分类模型的参数;具体地,首先初始化参数,从数据集中随机选取一个样本,计算其对应的梯度,然后根据梯度更新参数,并根据所述梯度更新所述分类模型的参数。
进一步地,当所述参数的变化达到预设最大迭代次数时(也可以是预设一个预设值,当所述参数的变化小于预设值时),根据所述参数优化所述分类模型,并使用所述验证集来验证优化后的分类模型的性能,最终得到符合要求的所述健康预测模型;此外,还可以使用图形处理器来加速随机梯度下降法的计算,这是因为它有许多可以并行处理的操作,可以大大减少训练时间,为实时模型提供支持,从而为实际应用提供了一种可行的方法,通过所述算法可以有效避免局部最优解,缩短训练时间,并可以用硬件加速,为实时应用提供支持。
类似地,若所述分类模型为支持向量机,则使用支持向量机算法进行训练,通过寻找最大间隔超平面来确定分类决策边界,也可以使用上述的随机梯度下降进行训练。若所述分类模型为高斯混合模型,则使用最大似然估计(MLE)或期望最大化(EM)算法进行训练。
进一步地,高斯混合模型(Gaussian Mixture Model,GMM)、支持向量机(SupportVector Machine,SVM)和深度学习模型(如卷积神经网络和循环神经网络)都是用于机器学习和模式识别领域的不同类型的分类和识别模型。它们在一些方面有联系,但在方法和应用方面也存在差异。下面是这三种模型之间的联系和区别:
高斯混合模型(GMM):GMM是一种生成式模型,它试图对数据的生成过程进行建模。GMM假设数据是从多个高斯分布中生成的混合物,每个分布对应一个类别。它在分类问题中可以用于估计类别的概率分布;GMM:GMM的参数数量相对较少,模型较为简单,通常用于数据较为简单的分类任务。它适用于建模多峰分布的数据。
支持向量机(SVM):SVM是一种判别式模型,它的主要目标是找到一个决策边界,以将不同类别的数据分开,同时最大化边界间隔。SVM不直接建模数据的生成过程,而是通过寻找最佳决策边界来实现分类;SVM:SVM在二分类问题中表现出色,尤其在高维空间中有较好的性能。它可以使用核函数来处理非线性问题。
深度学习模型:深度学习模型包括多种神经网络架构,如卷积神经网络(CNN)、循环神经网络(RNN)、和深度神经网络(DNN)。这些模型可以用于生成式建模和判别式建模,具体取决于网络架构和训练方式;深度学习模型通常具有很大的模型容量,可以自动学习复杂的特征表示,适用于大规模数据和复杂任务。深度学习模型在图像、语音和自然语言处理等领域表现出色。
具体使用哪一种分类模型,可以根据实际情况和需求来决定,对于特定声音源的识别,可以采用定制化的模型进行训练。例如,针对紧急情况下的警报声或车辆之间的通信信号,可以建立专门的声音模型,以便更准确地识别这些声音。
作为举例,如果想要建立一个说话人识别系统,你可以针对每个说话人训练一个独立的GMM或HMM模型。对于每个说话人,收集他们的声音训练数据,并使用这些数据来训练对应的模型,然后在实际应用中,当有一个声音样本时,可以使用这些模型来确定声音源的身份。
可见,本申请实施例可以采用先进的声音识别算法,基于深度学习技术对预处理后的声音信号进行分析和分类,通过预先训练好的神经网络模型算法将声音信号分为不同的声音源类别,如行人、车辆、自然环境等,每个声音源类别具有独特的声音特征,通过训练的算法可以根据这些特征进行分类,从而确定声音的来源,具备实时性和高度精确性。
在步骤S103中,获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置。
所述根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,具体包括:
获取所述目标类别音源到达所述车外麦克风阵列中多个不同麦克风之间的时间,根据若干不同的到达时间,通过交叉相关函数或者相位差测量法计算所述目标类别音源到达不同麦克风的时间差。
根据所述时间差,通过三角测量法确定所述目标类别音源相对于车辆的目标位置。
其中,通过交叉相关函数计算时间差的过程为:通过计算麦克风对上的声音信号之间的交叉相关函数,可以确定信号的延迟,从而得出时间差,当两个麦克风上的信号高度相关时,它们的交叉相关函数将产生峰值,该峰值对应于时间差。
相位差测量法计算时间差的过程为:麦克风阵列中的麦克风捕获声音波的相位信息。通过比较不同麦克风上的相位差异,可以确定到达时间差。
可以理解的是,多麦克风阵列中声音信号的时间差通常是通过声音信号的到达时间差(Time of Arrival,TOA)测量来获取的,多麦克风阵列利用声音波传播时在不同麦克风之间的到达时间差来确定声音源的方向,多麦克风阵列中的时间差测量可以用于声源定位、声音源分离、环境声音分类等应用,这些技术在语音处理、音频处理和声音识别中具有广泛的应用。
进一步地,所述根据所述目标类别的音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别的音源相对于车辆的目标位置,之后还包括:
计算除了所述目标类别音源以外的其他类别音源相对于车辆的位置,将所述目标类别音源相对于车辆的目标位置和其他类别音源相对于车辆的位置在车内的显示屏上显示。
在车辆移动时,通过泛波束形成技术对所有音源相对于车辆的位置进行实时更新,并将更新后的所有音源相对于车辆的位置在车内的显示屏上显示。
也就是说,在计算述目标类别音源相对于车辆的位置的同时,还会将其他类别音源相对于车辆的位置也通过到达麦克风阵列的时间差计算出,并将当前车辆外部所有的音源位置都显示在车内的显示屏上,并结合泛波束形成技术对所有音源相对于车辆的位置进行实时更新,保证在车辆移动时或外部音源位置移动时,也能以及捕获到外部音源与车辆的相对位置关系,驾驶员可以根据所述位置关系做出正确的决策。
可见,本申请实施例可以采用泛波束形成技术精确计算所有采集到的声音源的位置,并在汽车坐标系中进行显示和跟踪,帮助车内人员了解外部的声音分布情况,辅助车内驾驶者做出正确的判断,根据显示屏上显示的音源类型和位置,准确定位到车外人员的声音方向;并确保随着车辆移动声音源位置的实时更新,能够提高道路安全性和交通效率。
在步骤S104中,控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号。
可以理解的是,获取所述目标位置后,只需要控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,因为离所述目标位置最近的麦克风能最快且最准确的获取到从所述目标位置发送过来的声音信号,而距离较远的麦克风不仅接收到声音信号的速度相对较慢,还容易受到其他音源的干扰。
作为举例,同通过分类模型获取到车外存在三种声音,分别是车辆噪声、车外人员出发的声音和轻微雨声,将所述车外人员出发的声音作为目标类别音源,根据所述车外人员出发的声音到达所述车外麦克风阵列中不同麦克风之间的时间差计算出所述车外人员出发的声音相对于车辆的目标位置为在车辆的副驾驶位右侧,则控制麦克风阵列中设置在车辆副驾驶位右侧的三个麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过这三个麦克风获取所述目标类别音源发出的第一外部目标声音信号。
可见,本申请实施例可以通过计算目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,实现声音的定位与跟踪,并针对声音的位置,对麦克风阵列中的麦克风进行调整,控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的声音信号,保证所收到的声音信号噪音最小。
在步骤S105中、对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
所述对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,具体包括:
通过声音增强算法对所述目标位置的所述目标类别音源发出的所述第一外部目标声音信号进行响度加大处理,得到增强后的声音信号。
通过自适应噪声抑制技术将所述增强后的声音信号中包含的杂音和干扰进行消除,得到所述第二外部目标声音信号。
可以理解的是,采用基于卡尔曼滤波的语音增强算法对所述目标位置的所述目标类别音源发出的所述第一外部目标声音信号进行响度加大处理,得到增强后的声音信号,再使用自适应噪声抑制技术将所述增强后的声音信号中包含的杂音和干扰进行二次的消除处理,消除背景环境中的杂音和干扰,确保车内的声音清晰可辨,得到所述第二外部目标声音信号。
可见,本申请实施例可以对定位到的特定声音源,应用声音增强算法,以提高其声音信号的响度,同时,通过自适应噪声抑制技术,消除背景环境中的杂音和干扰,对目标音源的声音进行二次处理,进一步降低了目标音源声音中噪音的干扰,确保车内的声音清晰可辨,提升了驾驶员和乘客的驾车体验。
进一步地,得到所述第二外部目标声音信号后,车载通讯系统会自动建立连接,将所述第二外部目标声音信号在车内通过车内的显示屏、语音助手、麦克风或者是已经连接好的耳机上进行播放。
更进一步地,所述将所述第二外部目标声音信号在车内进行播放,之后还包括:
获取车内麦克风阵列采集到的座舱人员发出的内部声音信号,将所述内部声音信号进行预处理、声音增强处理和噪音消除处理后,得到目标内部声音信号,将所述目标内部声音信号通过车内距离所述目标类别音源最近的所述车外麦克风阵列中预设数量的麦克风发送到车外进行播放。
由此实现双向互动与控制,通过车载通讯系统,驾驶员或乘客可以通过车内的显示屏、语音助手或耳机与声音源进行双向互动,进行语音对话、问答等,同时,还可以支持语音命令,使驾驶员能够对声音源进行控制,如调整通话音量、切换通话模式等。
其次参照附图描述根据本申请实施例提出的车内外声音交流系统。
图4是本申请实施例的车内外声音交流系统的方框示意图。
如图4所示,该车内外声音交流系统10包括:声音特征提取模块100、声源类别获取模块200、声源位置获取模块300、第一外部目标声音获取模块400和第二外部目标声音获取模块500。
具体地,声音特征提取模块100,用于获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征;
声源类别获取模块200,用于将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别;
声源位置获取模块300,用于获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置;
第一外部目标声音获取模块400,用于控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号;
第二外部目标声音获取模块500,用于对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
可选地,在本申请的一个实施例中,声音特征提取模块100包括:外部声音获取单元和第一声音处理单元。
其中,外部声音获取单元,用于获取车外麦克风阵列采集的不同声源发出的多个外部声音信号;
第一声音处理单元,用于对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征。
可选地,在本申请的一个实施例中,声源位置获取模块300包括:目标类别音源获取单元和目标位置计算单元。
其中,目标类别音源获取单元,用于获取多个所述声源的类别中的目标类别音源;
目标位置计算单元,用于根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置。
可选地,在本申请的一个实施例中,第一外部目标声音获取模块400包括:麦克风阵列控制单元和目标声音信号接收单元。
其中,麦克风阵列控制单元,用于控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风;
目标声音信号接收单元,用于通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号。
可选地,在本申请的一个实施例中,第二外部目标声音获取模块500包括:第二声音处理单元和声音信号播放单元。
其中,第二声音处理单元,用于对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号;
声音信号播放单元,用于将所述第二外部目标声音信号在车内进行播放。
需要说明的是,前述对车内外声音交流方法实施例的解释说明也适用于该实施例的车内外声音交流系统,此处不再赘述。
根据本申请实施例提出的车内外声音交流系统,可以将高灵敏度麦克风阵列、声音识别、定位、增强技术以及车载通讯系统等多项技术有机结合,形成了一套完整的声音交互系统;通过对所述外部声音信号进行预处理和声音特征提取,并输入到声音分类模型中进行分析,得到多个所述声源的类别,从所述类别中获取目标类别音源,并基于麦克风列阵时间差实现精确的声音定位,并进行增强处理和双向互动,实现了车内外的高效声音交流;不仅可以提升驾驶员和乘客的体验,还为汽车行业带来了新的商机和市场竞争力。
由此,解决了相关技术中车内和车外声音交互受限,车内的人员难以听清车外传来的声音的问题。
图5为本申请实施例提供的车辆的结构示意图。该车辆可以包括:
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
处理器502执行程序时实现上述实施例中提供的车内外声音交流方法。
进一步地,车辆还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机程序。
存储器501可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandardArchitecture,简称为EIS)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的车内外声音交流方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
应当理解的是,本申请的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本申请所附权利要求的保护范围。
Claims (10)
1.一种车内外声音交流方法,其特征在于,所述车内外声音交流方法包括:
获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征;
将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别;
获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置;
控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号;
对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
2.根据权利要求1所述的车内外声音交流方法,其特征在于,所述将所述第二外部目标声音信号在车内进行播放,之后还包括:
获取车内麦克风阵列采集到的座舱人员发出的内部声音信号,将所述内部声音信号进行预处理、声音增强处理和噪音消除处理后,得到目标内部声音信号,将所述目标内部声音信号通过车内距离所述目标类别音源最近的所述车外麦克风阵列中预设数量的麦克风发送到车外进行播放。
3.根据权利要求1所述的车内外声音交流方法,其特征在于,所述获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取后得到多个声音特征,具体包括:
获取所述车外麦克风阵列采集到的多角度和多源的多个外部声音信号;
对每个外部声音信号进行去噪处理,得到去噪后的多个外部声音信号;
将去噪后的每个外部声音信号进行时域滤波和自适应滤波,得到滤波后的多个外部声音信号;
将滤波后的每个外部声音信号进行放大处理,得到预处理后的多个外部声音信号;
将预处理后的每个外部声音信号进行分帧,对分帧后的每一帧使用离散傅里叶变换得到多个频谱,将多个所述频谱映射到梅尔频率域中,分别得到多个所述频谱的多个对数,对多个所述对数进行离散余弦变换得到的多个梅尔频率倒谱系数,将多个梅尔频率倒谱系数作为多个所述声音特征。
4.根据权利要求1所述的车内外声音交流方法,其特征在于,所述将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别,之前还包括:
获取声音训练样本数据,将所述声音训练样本数据进行数据清理,将清理后的声音训练样本数据按照预设比例随机分成训练集与验证集;
将所述训练集输入到分类模型中对所述分类模型进行训练,并使用验证集验证训练后的分类模型的性能,当训练后的分类模型的性能满足预设要求后得到声音分类模型;
其中,所述分类模型包括高斯混合模型、支持向量机和深度学习模型中的任意一个。
5.根据权利要求1所述的车内外声音交流方法,其特征在于,所述根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置,具体包括:
获取所述目标类别音源到达所述车外麦克风阵列中多个不同麦克风之间的时间,根据若干不同的到达时间,通过交叉相关函数或者相位差测量法计算所述目标类别音源到达不同麦克风的时间差;根据所述时间差,通过三角测量法确定所述目标类别音源相对于车辆的目标位置。
6.根据权利要求1所述的车内外声音交流方法,其特征在于,所述对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,具体包括:
通过声音增强算法对所述目标位置的所述目标类别音源发出的所述第一外部目标声音信号进行响度加大处理,得到增强后的声音信号;
通过自适应噪声抑制技术将所述增强后的声音信号中包含的杂音和干扰进行消除,得到所述第二外部目标声音信号。
7.根据权利要求1所述的车内外声音交流方法,其特征在于,所述根据所述目标类别的音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别的音源相对于车辆的目标位置,之后还包括:
计算除了所述目标类别音源以外的其他类别音源相对于车辆的位置,将所述目标类别音源相对于车辆的目标位置和其他类别音源相对于车辆的位置在车内的显示屏上显示;
在车辆移动时,通过泛波束形成技术对所有音源相对于车辆的位置进行实时更新,并将更新后的所有音源相对于车辆的位置在车内的显示屏上显示。
8.一种车内外声音交流系统,其特征在于,所述车内外声音交流系统包括:
声音特征提取模块,用于获取车外麦克风阵列采集的不同声源发出的多个外部声音信号,对所述外部声音信号进行预处理和声音特征提取,得到多个声音特征;
声源类别获取模块,用于将多个所述声音特征输入到声音分类模型中进行分析,得到多个所述声源的类别;
声源位置获取模块,用于获取多个所述声源的类别中的目标类别音源,根据所述目标类别音源到达所述车外麦克风阵列中不同麦克风之间的时间差计算所述目标类别音源相对于车辆的目标位置;
第一外部目标声音获取模块,用于控制离所述目标位置最近的所述车外麦克风阵列中预设数量的麦克风处于开启状态,关闭所述车外麦克风阵列中的其他麦克风,通过所述预设数量的麦克风获取所述目标类别音源发出的第一外部目标声音信号;
第二外部目标声音获取模块,用于对所述第一外部目标声音信号进行声音增强处理和噪音消除处理,得到第二外部目标声音信号,并将所述第二外部目标声音信号在车内进行播放。
9.一种车辆,其特征在于,所述车辆包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的车内外声音交流程序,所述车内外声音交流程序被所述处理器执行时实现如权利要求1-7任一项所述的车内外声音交流方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有车内外声音交流程序,所述车内外声音交流程序被处理器执行时实现如权利要求1-7任一项所述的车内外声音交流方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410006805.0A CN117746879A (zh) | 2024-01-02 | 2024-01-02 | 一种车内外声音交流方法、系统及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410006805.0A CN117746879A (zh) | 2024-01-02 | 2024-01-02 | 一种车内外声音交流方法、系统及车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746879A true CN117746879A (zh) | 2024-03-22 |
Family
ID=90252783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410006805.0A Pending CN117746879A (zh) | 2024-01-02 | 2024-01-02 | 一种车内外声音交流方法、系统及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746879A (zh) |
-
2024
- 2024-01-02 CN CN202410006805.0A patent/CN117746879A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782504B (zh) | 语音识别方法和装置 | |
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
US8744849B2 (en) | Microphone-array-based speech recognition system and method | |
KR102487160B1 (ko) | 정량적 신호 대 노이즈비 분석 및 적응형 위너 필터링에 기초한 오디오 신호 품질 향상 방법 | |
US20170125038A1 (en) | Transfer function to generate lombard speech from neutral speech | |
Fatimah et al. | An automatic siren detection algorithm using Fourier Decomposition Method and MFCC | |
CN111323753A (zh) | 定位汽车内语音源的方法 | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
Loh et al. | Speech recognition interactive system for vehicle | |
CN112149498A (zh) | 一种面向汽车复杂部件异响的在线智能识别系统及方法 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
Bu et al. | Classifying in-vehicle noise from multi-channel sound spectrum by deep beamforming networks | |
CN117746879A (zh) | 一种车内外声音交流方法、系统及车辆 | |
Kamble et al. | Teager energy subband filtered features for near and far-field automatic speech recognition | |
Ichikawa et al. | DOA estimation with local-peak-weighted CSP | |
Krishnamurthy et al. | Car noise verification and applications | |
Choudhury et al. | Review of Emergency Vehicle Detection Techniques by Acoustic Signals | |
Hu et al. | Robust speaker's location detection in a vehicle environment using GMM models | |
CN115641861A (zh) | 一种车载语音增强方法、装置、存储介质及设备 | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Martinek et al. | Hybrid In-Vehicle Background Noise Reduction for Robust Speech Recognition: The Possibilities of Next Generation 5G Data Networks. | |
Firoozabadi et al. | Speakers counting by proposed nested microphone array in combination with limited space SRP | |
Al-Mafrachi et al. | A Robust Acoustic Head Orientation Estimation and Speech Enhancement for In-Car Communication Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |