CN113689876A

CN113689876A - 车辆声音处理方法及系统

Info

Publication number: CN113689876A
Application number: CN202110990959.4A
Authority: CN
Inventors: 白云贺
Original assignee: Beijing Zhuocheng Technology Development Co ltd
Current assignee: Beijing Zhuocheng Technology Development Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-23

Abstract

本发明提出了车辆声音处理方法及系统，车辆声音处理技术领域。包括以下步骤：获取车内的一切语音信息；从获取的语音信息中提取声音特征；将提取到的声音特征转化为输出语音；将输出语音放大后进行播报；语音获取模块，提取模块，转化模块以及播报模块，从而将车内的声音进行采集，并除去声音特征之外其他的声音，而再将声音特征转化处理后，从而在将其播报出来，以获得清晰地人员对话以及其他通过人员发出的声音，并且，将其进行放大，从而便能够使得车内的对话效率更高，进而可以使车内人员的沟通不受车内及车外噪声的影响，方便车内人员之间的交流。

Description

车辆声音处理方法及系统

技术领域

本发明涉及车辆声音处理技术领域，具体而言，涉及车辆声音处理方法及系统。

背景技术

随着社会的发展，车辆的使用已经达到普及状态；而汽车在行驶过程中，由于汽车自身产生的噪音以及外部风声比较大，而车内人员之间的对话往往听不清楚，尤其是在窗户打开时，风声和胎噪产生的噪音往往使得车内人员的对话较困难，而在高速行车时，发动机在高速运转过程中，减少其噪音比较困难，成本也比较高；隔音车窗虽然能够有效隔离外部噪声，但是仍然不理想，进而导致车内人员之间的对话就难以相互听清楚，交流十分不方便。

针对上述问题，如何设计一种车辆声音处理方法及系统是我们目前迫切需要解决的。

发明内容

本发明的目的在于提供车辆声音处理方法及系统，以解决上述背景技术中存在的问题。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供车辆声音处理方法，其包括以下步骤：

获取车内的一切语音信息；

从获取的语音信息中提取声音特征；

将提取到的声音特征转化为输出语音；

将输出语音放大后进行播报。

在本发明的一些实施例中，上述从获取的语音信息中提取声音特征通过以下的方式实现：

将语音信息依次通过预加重、分帧、加明汉窗、快速傅里叶变换、三角带通滤波以及离散余弦变换处理，以得到语音信息中的声音特征。

在本发明的一些实施例中，上述预加重处理的表达式为：

S₁(n)＝s(n)-μs(n-1)，其中s(n)为原始的语音信息。

在本发明的一些实施例中，上述加明汉窗的表达式为：

在本发明的一些实施例中，上述快速傅里叶变换的表达式为：

在本发明的一些实施例中，上述离散余弦变换的表达式为：

其中，

第二方面，本申请实施例提供车辆声音处理系统，其包括：

语音获取模块，用户获取车内的一切语音信息，并将语音信息传输至提取模块；

提取模块，用于接收语音获取模块传输的语音信息，从中提取声音特征，并将声音特征传输至转化模块；

转化模块，用于接收提取模块传输的声音特征，且将声音特征转化为输出语音，并传输至播报模块；

播报模块，用于接收转化模块传输的输出语音，并进行播放。

在本发明的一些实施例中，上述提取模块包括：预加重单元、分帧单元、加明汉窗单元、快速傅里叶变换单元、三角带通滤波单元以及离散余弦变换单元。

第三方面，本申请实施例提供一种电子设备，其包括：至少一个处理单元；以及与处理单元连接的至少一个存储器、总线；

其中，处理单元、存储器通过总线完成相互间的通信；

处理单元用于调用存储器中的程序指令，以执行上述方法中任一的方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述方法中任一的方法。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：使用时，也就是通过将车内声音的收集，当然，此是收集车内的能够听到的各种声音，将车内发生的声音收集后，继而再将此声音中人员的对话语音、以及其他人员发出的声音，比如播放的音乐声、广播声等等，将这些声音进行提取，从而获得此声音特征，而获得声音特征的过程中，也就将其他的声音进行过滤，比如风声和胎噪声等等，也就是除去声音特征之外其他的声音，而再将声音特征转化处理后，从而在将其播报出来，以获得清晰地人员对话以及其他通过人员发出的声音，并且，将其进行放大，从而便能够使得车内的对话效率更高，进而可以使车内人员的沟通不受车内及车外噪声的影响，方便车内人员之间的交流。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的连接框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1-图2，图1为本发明实施例中的方法流程图；图2为本发明实施例中的连接框图。

S1、获取车内的一切语音信息；也即是获取车内环境中的一切声音，包括说话声音、风声以及胎噪声等等，将车内能够发生出的声音都进行收集，进而转存至数据缓冲区中，以便进行下一步的操作。

S2、从获取的语音信息中提取声音特征；此步骤也就是用于提取语音信息中的声音特征，此声音特征也就是人员对话产生的语音，也就是说话的声音，将此声音从语音信息中提取出来，从而再进行下一步的操作。

S3、将提取到的声音特征转化为输出语音；此步骤也就是将提取到的说话声音，也就是声音特征进行处理和转化，也就是将其转化为能够进行播报、输出的信号。

S4、将输出语音放大后进行播报。也就将S3中处理转化得到的输出语音进行播报，在必要时还需要进行放大，从而达到增加对话的效率，以避免其他嘈杂声影响人员之间的交流。

在使用时，也就是通过将车内声音的收集，当然，此是收集车内的能够听到的各种声音，将车内发生的声音收集后，继而再将此声音中人员的对话语音、以及其他人员发出的声音，比如播放的音乐声、广播声等等，将这些声音进行提取，从而获得此声音特征，而获得声音特征的过程中，也就将其他的声音进行过滤，比如风声和胎噪声等等，也就是除去声音特征之外其他的声音，而再将声音特征转化处理后，从而在将其播报出来，以获得清晰地人员对话以及其他通过人员发出的声音，并且，将其进行放大，从而便能够使得车内的对话效率更高。

当然，此处理过程的，是实时进行的，也就是在人员对话的同时，便输出相关的对话语音，从而与人员之间同时进行，提高效率；进而可以使车内人员的沟通不受车内及车外噪声的影响，方便车内人员之间的交流。

在本实施例中，上述从获取的语音信息中提取声音特征通过以下的方式实现：

预加重处理，也就是预加重的本质是将语音信号通过一个高通滤波器，预加重处理是使输入信号功率谱中较少的高频部分得到提升,避免了低频过强高频过弱而导致的信号失真。

而分帧处理，也就是将若干采样点合并为一帧,帧长度一般为128-512，而每帧时间约为20-30ms，为了避免相邻两帧差异过大，通常在两帧之间保留一段重叠，常取重叠率为50％。

加汉明窗处理，若不加处理，则每帧信号的两端会不连续，在傅里叶展开后会出现吉布斯现象；而添加汉明窗可以使帧两端的信号逐渐减弱至0，保证了两帧信号的连续性。

因为加上汉明窗，只有中间的数据体现出来了，两边的数据信息丢失了，所以等会移窗的时候，只会移1/3或1/2窗，这样被前一帧或二帧丢失的数据又重新得到了体现。

语音信号一般在10ms到30ms之间，我们可以把它看成是平稳的。为了处理语音信号，我们要对语音信号进行加窗，也就是一次仅处理窗中的数据。因为实际的语音信号是很长的，我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据，进行分析，然后再取下一段数据，再进行分析。

三角带通滤波处理，也就是三角带通滤波器，通过将傅氏频谱输入一组梅尔刻度的三角滤波器组，滤波后对信号求对数,以摸拟人耳听觉，添加该滤波器的主要目的是使频谱平滑，并消除谐波，突显原先语音的共振峰，同时也可降低计算量。

而每个滤波器组输出的对数能量为：

其中，M为此滤波器的数量，Hm(k)为三角滤波器的频率响应。

在本实施例中，上述预加重处理的表达式为：

S₁(n)＝s(n)-μs(n-1)，其中s(n)为原始的语音信息。

在本实施例中，上述加明汉窗的表达式为：

其中，a值决定汉明窗的滤波效果，a常取值为0.46，N为帧长，也是汉明窗的宽度。

在本实施例中，上述快速傅里叶变换的表达式为：

而快速傅里叶变换FFT不是与傅里叶变换不同的另一种变换，而是为了减少DFT运算次数的一种改进算法。它使其成为若干小点数的组合对变换式进行一次次分解，从而减少运算量。通常FFT以2为基数，长度N＝21，当要变换的序列长度不是2的整数次方时，仍然取2为基数的FFT，然后在末位进行补零，使其长度延长至2的整数次方。FFT具有使用非常方便、运算效率高、程序简单等优点。

在本实施例中，上述离散余弦变换的表达式为：

其中，

离散余弦变换也就是DCT，DCT的作用是对滤波后的信号进行无损的降维,去除声音中的冗余信号,用于语音识别的MFCC一般取前13位；上述的表达式中，设f(k,l)为二维离散函数，k,l＝0，1,…,N－1,F(x,y)为返回的倒谱信号。

实施例2

请参阅图1-图2，第二方面，本申请实施例提供车辆声音处理系统，其包括：

转化模块，用于接收提取模块传输的声音特征，且将声音特征转化为输出语音，并传输至播报模块；转化模块，也就是将提取到的声音特征转化为播报模块能够接受并播放的信号。

语音获取模块，此通过至少两个麦克风采集车内说话者的语音，该麦克风分别安装于车辆上对应于乘客的前方的位置处，用于采集乘客的语音。而播报模块则是在每个麦克风处设置的声音播放器，还有用于放大声音的放大器，并且还具有音量调节的功能。

在本实施例中，上述提取模块包括：预加重单元、分帧单元、加明汉窗单元、快速傅里叶变换单元、三角带通滤波单元以及离散余弦变换单元。

实施例3

其中，处理单元、存储器通过总线完成相互间的通信；

实施例4

车辆声音处理方法及系统的工作原理是：使用时，也就是通过将车内声音的收集，当然，此是收集车内的能够听到的各种声音，将车内发生的声音收集后，继而再将此声音中人员的对话语音、以及其他人员发出的声音，比如播放的音乐声、广播声等等，将这些声音进行提取，从而获得此声音特征，而获得声音特征的过程中，也就将其他的声音进行过滤，比如风声和胎噪声等等，也就是除去声音特征之外其他的声音，而再将声音特征转化处理后，从而在将其播报出来，以获得清晰地人员对话以及其他通过人员发出的声音。

其中，此系统中还是有用于数据存储的元件，也即是用于提供数据缓冲区的存储器，存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

而控制此整体系统运行的还有处理器，处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1-图2所示的结构仅为示意，还可包括比图1-图2中所示更多或者更少的组件，或者具有与图1-图2所示不同的配置。图1-图2中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。