CN113851142A - 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 - Google Patents
用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 Download PDFInfo
- Publication number
- CN113851142A CN113851142A CN202111224426.1A CN202111224426A CN113851142A CN 113851142 A CN113851142 A CN 113851142A CN 202111224426 A CN202111224426 A CN 202111224426A CN 113851142 A CN113851142 A CN 113851142A
- Authority
- CN
- China
- Prior art keywords
- motion
- audio
- vector
- difference
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000009467 reduction Effects 0.000 title claims abstract description 61
- 238000010586 diagram Methods 0.000 claims abstract description 39
- 230000003416 augmentation Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 237
- 230000005236 sound signal Effects 0.000 claims description 91
- 239000011159 matrix material Substances 0.000 claims description 84
- 238000013527 convolutional neural network Methods 0.000 claims description 36
- 238000005070 sampling Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 27
- 230000001133 acceleration Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 238000006073 displacement reaction Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 14
- 238000003491 array Methods 0.000 claims description 12
- 230000003321 amplification Effects 0.000 claims description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 11
- 238000010183 spectrum analysis Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013434 data augmentation Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/16—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Radar, Positioning & Navigation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Automation & Control Theory (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Headphones And Earphones (AREA)
Abstract
本申请公开了一种用于高性能TWS蓝牙音频芯片的降噪方法、系统和电子设备,其通过使用运动差分特征图的运动增广特征图,以提高运动差分特征图对于手机和蓝牙耳机之间的相对运动信息的表达能力,同时考虑到运动差分特征图在其所对应的高维特征空间中,在时间维度上的特征分布较为稀疏,因此在本申请中构造更适于反映手机和蓝牙耳机之间的相对运动特征的运动特征空间,这样,通过提高特征分布的稠密度,可以使得解码器模型所进行的回归操作获得更好的效果。
Description
技术领域
本发明涉及音频智能降噪的领域,且更为具体地,涉及一种用于高性能TWS蓝牙音频芯片的降噪方法、系统和电子设备。
背景技术
TWS的全称是True Wireless Stereo,意思是真正无线立体声。TWS技术是基于蓝牙芯片技术发展而来的,其工作原理是指手机通过连接主耳机,再由主耳机通过无线方式快速地连接副耳机,实现真正的蓝牙左右声道无线分离使用。也就是,音频数据首先从手机传输到主耳机、再由主耳机传输到副耳机。
目前,例如在用户边运动边使用TWS蓝牙耳机的场景中,通常周围的环境中都会存在着大量的信号噪声,这些信号噪声会干扰到音频的传输质量,并且除了一般的环境噪声以外,还会由于蓝牙发送端,即手机和蓝牙耳机的接收端,以及蓝牙耳机之间的运动不同步而产生的运动噪声。
因此,为了使得TWS蓝牙耳机能够达到人们满意的效果,期望一种用于高性能TWS蓝牙音频芯片的降噪方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于高性能TWS蓝牙音频芯片的降噪方法、系统和电子设备,其通过使用运动差分特征图的运动增广特征图,以提高运动差分特征图对于手机和蓝牙耳机之间的相对运动信息的表达能力,同时考虑到运动差分特征图在其所对应的高维特征空间中,在时间维度上的特征分布较为稀疏,因此在本申请中构造更适于反映手机和蓝牙耳机之间的相对运动特征的运动特征空间,这样,通过提高特征分布的稠密度,可以使得解码器模型所进行的回归操作获得更好的效果。
根据本申请的一个方面,提供了一种用于高性能TWS蓝牙音频芯片的降噪方法,其包括:
通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;
计算所述手机和所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;
将所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;
使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;
对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;
获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;
将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;
将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;
计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量;
将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量;
将所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及
基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。
根据本申请的另一方面,提供了一种用于高性能TWS蓝牙音频芯片的降噪系统,其包括:
运动信息获取单元,用于通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;
运动信息差值计算单元,用于计算所述运动信息获取单元获得的所述手机和所述运动信息获取单元获得的所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;
运动差分矩阵构造单元,用于将所述运动信息差值计算单元获得的所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;
卷积神经网络处理单元,用于使用卷积神经网络从所述运动差分矩阵构造单元获得的所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;
运动增广特征图生成单元,用于对所述卷积神经网络处理单元获得的所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;
音频信号获取单元,用于获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;
发送特征向量生成单元,用于将所述音频信号获取单元获得的所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;
接收特征向量生成单元,用于将所述音频信号获取单元获得的所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;
特征向量差值计算单元,用于计算所述发送特征向量生成单元获得的所述发送特征向量与所述接收特征向量生成单元获得的所述接收特征向量之间的差值以得到差分特征向量;
补偿特征向量生成单元,用于将所述特征向量差值计算单元获得的所述差分特征向量作为查询向量与所述运动增广特征图生成单元获得的所述运动增广特征图进行相乘以获得补偿特征向量;
去噪音频向量生成单元,用于将所述补偿特征向量生成单元获得的所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及
去噪后的音频信号生成单元,基于所述去噪音频向量生成单元获得的所述用于补偿的去噪音频向量和所述发送特征向量生成单元获得的所述发送特征向量,生成去噪后的音频信号。
根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于高性能TWS蓝牙音频芯片的降噪方法。
根据本申请的再又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于高性能TWS蓝牙音频芯片的降噪方法。
与现有技术相比,本申请提供的用于高性能TWS蓝牙音频芯片的降噪方法、系统和电子设备,其通过使用运动差分特征图的运动增广特征图,以提高运动差分特征图对于手机和蓝牙耳机之间的相对运动信息的表达能力,同时考虑到运动差分特征图在其所对应的高维特征空间中,在时间维度上的特征分布较为稀疏,因此在本申请中构造更适于反映手机和蓝牙耳机之间的相对运动特征的运动特征空间,这样,通过提高特征分布的稠密度,可以使得解码器模型所进行的回归操作获得更好的效果。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法的应用场景图;
图2为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法的流程图;
图3为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法的系统架构示意图;
图4为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图的流程图;
图5为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法中,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量的流程图;
图6为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统的框图;
图7为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统中运动增广特征图生成单元的框图;
图8为根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统中发送特征向量生成单元的框图;
图9为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,在用户边运动边使用TWS蓝牙耳机的场景中,通常周围的环境中都会存在着大量的信号噪声,这些信号噪声会干扰到音频的传输质量,并且除了一般的环境噪声以外,还会由于蓝牙发送端,即手机和蓝牙耳机的接收端,以及蓝牙耳机之间的运动不同步而产生的运动噪声,因此,为了使得TWS蓝牙耳机能够达到人们满意的效果,期望一种用于高性能TWS蓝牙音频芯片的降噪方案。
基于此,在本申请的技术方案中,首先分别通过手机和蓝牙耳机中的惯性传感器来分别获取手机和蓝牙耳机在运动过程当中的一系列时间点上的运动信息,包括在X、Y和Z三个方向的位移量,速度和加速度。然后,分别计算手机和蓝牙耳机之间这些运动信息的差值,获得(Δdx,Δdy,Δdz,Δvx,Δvy,Δvz,Δax,Δay,Δaz)的九元数组。
针对以上数值分别对应于距离、速度和加速度三个维度,首先对其进行最大值归一化,即将每个值都按照其最大值映射到[0,1]之间的空间,然后按照各个时间点得到运动差分矩阵,这里,该运动差分矩阵的行数为时间点数目,而列数为9。
接下来,将运动差分矩阵输入卷积神经网络,以获得运动差分特征图,从而提取出不同运动数据的维度以及不同的运动采样时间之间的高维关联特征。这里,该卷积神经网络并不改变运动差分矩阵的尺度,因此,运动差分特征图中的每个特征矩阵的行数仍然为时间点数目,而列数仍然为9。这样,可以基于每个特征矩阵中的每行的九个特征值的均值和方差,构造具有该均值和方差的高斯分布,然后对该高斯分布进行采样,以便获得符合该高斯分布的更多的数据点,以得到运动差分特征图的运动增广特征图。
然后,分别获取手机发送的音频信号的音频向量和蓝牙耳机接收到的音频信号的音频向量,首先通过由多个全连接层组成的编码器模型转换到高维特征空间,以得到发送特征向量和接收特征向量,再计算发送特征向量与接收特征向量之间的差值以得到差分特征向量。然后,将差分特征向量作为查询向量乘以运动增广特征图以得到补偿特征向量。最后,将补偿特征向量输入与编码器模型对称的解码器模型,就可以得到用于补偿的去噪音频向量。
基于此,本申请提出了一种用于高性能TWS蓝牙音频芯片的降噪方法,其包括:通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;计算所述手机和所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;将所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量;将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量;将所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及,基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。
图1图示了根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法的应用场景图。如图1所示,在该应用场景中,首先,通过安装于手机(例如,如图1中所示意的P1)和蓝牙耳机的主耳机(例如,如图1中所示意的P2)中的惯性传感器(例如,如图1中所示意的T)获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,以及通过手机终端获得所述手机发送的第一音频信号和通过蓝牙耳机终端获得所述蓝牙耳机接收到的第二音频信号,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度。当然,在别的应用场景中,还可以通过别的传感器来获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,对此并不为本申请所局限。
应可以理解,所述蓝牙耳机的主耳机内还部署有音频芯片(例如,如图1中所示意的C),其中,所述音频芯片能够对接收到的第二音频信号进行降噪处理,以及,将音频信号传输给蓝牙耳机的副耳机(例如,如图1中所示意的P3)。
然后,将获得的所述运动信息和第一与第二音频信号输入至部署有用于高性能TWS蓝牙音频芯片的降噪算法的服务器中(例如,如图1中所示意的S),其中,所述服务器能够以用于高性能TWS蓝牙音频芯片的降噪算法对所述运动信息和第一与第二音频信号进行处理,以生成去噪后的音频信号。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2图示了用于高性能TWS蓝牙音频芯片的降噪方法的流程图。如图2所示,根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法,包括:S110,通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;S120,计算所述手机和所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;S130,将所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;S140,使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;S150,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;S160,获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;S170,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;S180,将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;S190,计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量;S200,将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量;S210,将所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及,S220,基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。
图3图示了根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法的架构示意图。如图3所示,在所述用于高性能TWS蓝牙音频芯片的降噪方法的网络架构中,首先,计算在相同时间点下所述手机的运动信息(例如,如图3中所示意的P1)和所述蓝牙耳机的运动信息(例如,如图3中所示意的P2)之间的差值,以获得多个九元数组(例如,如图3中所示意的A);S130,将所述多个九元数组按照时间维度构造为运动差分矩阵(例如,如图3中所示意的M);S140,使用卷积神经网络(例如,如图3中所示意的CNN)从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图(例如,如图3中所示意的F1);S150,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图(例如,如图3中所示意的F2);S170,将获得的所述手机发送的第一音频信号(例如,如图3中所示意的Q1)转化为第一音频向量(例如,如图3中所示意的V1)后通过编码器模型(例如,如图3中所示意的E)以获得发送特征向量(例如,如图3中所示意的FV1);S180,将获得的所述蓝牙耳机接收到的第二音频信号(例如,如图3中所示意的Q2)转化为第二音频向量(例如,如图3中所示意的V2)后通过所述编码器模型以获得接收特征向量(例如,如图3中所示意的FV2);S190,计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量(例如,如图3中所示意的FVD);S200,将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量(例如,如图3中所示意的FVC);S210,将所述补偿特征向量输入解码器模型(例如,如图3中所示意的D)以获得用于补偿的去噪音频向量(例如,如图3中所示意的V),其中,所述解码器模型与所述编码器模型具有对称的结构;以及,S220,基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号(例如,如图3中所示意的OUT)。
在步骤S110和步骤S120中,通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度,并计算所述手机和所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差。如上所述,本申请考虑到在高性能TWS蓝牙耳机的特定使用场景,即用户边运动边使用蓝牙耳机的场景中,除了一般的环境噪声以外,还会由于蓝牙的发送端,也就是,所述手机的发送端和所述蓝牙耳机的接收端,以及所述蓝牙耳机之间的运动不同步而产生运动噪声,因此期望能够建模并通过应用补偿音频来进行降噪。
因此,在本申请的技术方案中,首先,就需要获取所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,这里,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度。在一个具体示例中,可以通过安装于手机和蓝牙耳机中的惯性传感器来获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,当然,在别的具体示例中,还可以通过其他的传感器来获取所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,对此并不为本申请所局限。然后,再分别计算所述手机和所述蓝牙耳机之间在相同时间点的这些运动信息的差值,获得(Δdx,Δdy,Δdz,Δvx,Δvy,Δvz,Δax,Δay,Δaz)的九元数组。
在步骤S130中,将所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9。也就是,将所述九元数组中分别对应于距离、速度和加速度三个维度的数据,首先对其进行最大值归一化处理,即将每个值都按照其最大值映射到[0,1]之间的空间;然后将归一化处理后的所述多个九元数组按照各个时间点排列以得到运动差分矩阵,值得一提的是,这里,所述运动差分矩阵的行数为时间点数目,而列数为9。
具体地,在本申请实施例中,将所述多个九元数组按照时间维度构造为运动差分矩阵的过程,包括:首先,对所述多个九元数组中的每个值进行基于最大值的归一化处理,以将所述多个九元数组中的每个值都按照其最大值映射到[0,1]之间的空间。相应地,在一个具体示例中,可用公式Xnorm=(Xi-Xmin)/(Xmax-Xmin)计算所述多个九元数组中的每个值的最大值归一化数据,其中,Xi表示所述多个九元数组中的每个值。然后,再将归一化处理的所述多个九元数组按时间维度为行排列为所述运动差分矩阵。应可以理解,由于距离、速度、加速度为三个不同单位之间的数据,因此,通过这样的方式处理,不仅可以消除数据特征之间的量纲影响,便于度量和后续的计算,而且还可以便于后续卷积神经网络的训练与收敛。
在步骤S140中,使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图。也就是,采用卷积神经网络对所述运动差分矩阵进行处理,以提取出所述运动差分矩阵中的不同运动数据的维度以及不同的运动采样时间之间的高维关联特征,从而获得运动差分特征图。
具体地,在本申请实施例中,使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图的过程,包括:所述卷积神经网络以如下公式从所述运动差分矩阵获得所述运动差分特征图;
其中,所述公式为:
fi=Sigmoid(Ni×fi-1+Bi)
其中,fi-1为第i层卷积神经网络的输入,fi为第i层卷积神经网络的输出,Ni为第i层卷积神经网络的滤波器,且Bi为第i层卷积神经网络的偏置向量,Sigmoid表示非线性激活函数。
在步骤S150中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图。应可以理解,考虑到由于所述运动差分特征图在其所对应的高维特征空间中,在时间维度上的特征分布较为稀疏,因此,在本申请的技术方案中,通过使用所述运动差分特征图的运动增广特征图,以提高所述运动差分特征图对于手机和蓝牙耳机之间的相对运动信息的表达能力,同时也可以构造更适于反映手机和蓝牙耳机之间的相对运动特征的运动特征空间,以解决用于运动噪声的建模的特征表达问题。这样,通过提高特征分布的稠密度,可以使得解码器模型所进行的回归操作获得更好的效果。
具体地,在本申请实施例中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图的过程,包括:首先,基于每个所述特征矩阵中的每行的九个特征值的均值和方差,构造具有该方差和该均值的高斯分布。应可以理解,由于经过所述卷积神经网络的处理后并不改变所述运动差分矩阵的尺度,因此,所述运动差分特征图中的每个特征矩阵的行数仍然为时间点数目,而列数仍然为9。这样,在本申请的技术方案中,就可以基于每个所述特征矩阵中的每行的九个特征值的均值和方差,构造具有该均值和方差的高斯分布。然后,对所述高斯分布进行随机采样以获得更多的数据点作为所述特征矩阵的一行的数据点,以获得所述运动增广特征图。也就是,对所述高斯分布进行随机采样,以便获得符合该所述高斯分布的更多的数据点,以得到所述运动差分特征图的运动增广特征图。
图4图示了根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图的流程图。如图4所示,在本申请实施例中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图,包括:S310,基于每个所述特征矩阵中的每行的九个特征值的均值和方差,构造具有该方差和该均值的高斯分布;以及,S320,对所述高斯分布进行随机采样以获得更多的数据点作为所述特征矩阵的一行的数据点,以获得所述运动增广特征图。
在步骤S160、步骤S170和步骤S180中,获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号,并将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量,再将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量。应可以理解,本申请考虑到在高性能TWS蓝牙耳机的特定使用场景,即用户边运动边使用蓝牙耳机的场景中,除了一般的环境噪声以外,还会由于蓝牙发送端,即手机和蓝牙接收端,即蓝牙耳机之间的运动不同步而产生运动噪声,因此期望能够建模并通过应用补偿音频来进行降噪。因此,在本申请的技术方案中,在得到所述运动增广特征图之后,首先就需要分别从手机终端中获取所述手机发送的第一音频信号和从蓝牙耳机终端中获取所述蓝牙耳机接收到的第二音频信号。然后,再将所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号转化为所述第一音频向量和所述第二音频向量。最后,再将所述第一音频向量和所述第二音频向量通过由多个全连接层组成的编码器模型,以将所述第一音频向量和所述第二音频向量转换到高维特征空间中,从而得到发送特征向量和接收特征向量。
具体地,在本申请实施例中,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量的过程,包括:首先,使用模数转化器将所述第一音频信号转化为第一数字信号,以便于后续计算机对其进行处理。也就是,对获得的所述第一音频信号进行模数转换,以把模拟信号转换为数字信号,具体地,其包括两个步骤:采样和量化,即以一定的采样率和采样位数把声音连续波形转换为离散的数据点。
接着,使用声谱分析器所述第一数字信号进行音谱分析,所述音频分析包括对所述第一数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第一数字信号进行Mel滤波。应可以理解,声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,在本申请的技术方案中,必须将声音波形进行音频分析以将其转换为声学特征向量。也就是,在一个具体示例中,所述音频分析包括:首先,对所述第一数字信号进行离散傅里叶变换以把获得的数字化的所述第一数字信号的时域特征转化到音谱频域中。应可以理解,所述离散傅里叶变换能够从一个离散信号中提取离散频段频谱的信息。然后,对经离散傅里叶变换后的数字化的所述第一数字信号进行Mel滤波。应可以理解,人耳听觉对不同频带的敏感度是不同的,人耳对高频不如低频敏感,这一分界线大约是1000Hz,因此,在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。值得一提的是,这里,频率(单位Hz)和Mel刻度之间的对应关系在1000Hz以下是线性的,在1000Hz以上是对数的,其计算公式如下:Mel(f)=1127ln(1+f/700)。
然后,使用参数变换器对经音谱分析的所述第一数字信号进行处理以获得所述第一音频向量。最后,使用所述编码器模型的多个全连接层对所述第一音频向量进行全连接编码以将其转换到高维特征空间中,从而获得所述发送特征向量。
同样地,在一个具体示例中,将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量的过程,包括:首先,使用所述模数转化器将所述第二音频信号转化为第二数字信号;接着,使用所述声谱分析器所述第二数字信号进行音谱分析,所述音频分析包括对所述第二数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第二数字信号进行Mel滤波;然后,使用所述参数变换器对经音谱分析的所述第二数字信号进行处理以获得所述第二音频向量;最后,使用所述编码器模型的多个全连接层对所述第二音频向量进行全连接编码以获得所述接收特征向量。
图5图示了根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法中,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量的流程图。如图5所示,在本申请实施例中,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量,包括:S410,使用模数转化器将所述第一音频信号转化为第一数字信号,以将所述多个终端设备的当前分配网络资源转化到0到1的区间内;S420,使用声谱分析器所述第一数字信号进行音谱分析,所述音频分析包括对所述第一数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第一数字信号进行Mel滤波;S430,使用参数变换器对经音谱分析的所述第一数字信号进行处理以获得所述第一音频向量;以及,S440,使用所述编码器模型的多个全连接层对所述第一音频向量进行全连接编码以获得所述发送特征向量。
在步骤S190和步骤S200中,计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量,并将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量。也就是,首先,计算所述发送特征向量与所述接收特征向量之间的差值,以得到表示所述手机发送信号与所述蓝牙耳机接收信号之间在高维空间中的差异程度的差分特征向量。然后,再将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘,以融合所述不同步的运动噪声与环境损耗噪声之间的关联性特征,从而获得补偿特征向量。
在步骤S210和步骤S220中,将所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构,并基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。也就是,首先,通过解码器模型对所述补偿特征向量进行处理,以还原出所述用于补偿的去噪音频向量,值得一提的是,这里,所述解码器模型与所述编码器模型具有对称的结构。然后,再基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。应可以理解,本申请通过提高特征分布的稠密度,可以使得所述解码器模型所进行的回归操作获得更好的效果。
具体地,在本申请实施例中,基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号的过程,包括:首先,计算所述用于补偿的去噪音频向量和所述发送特征向量的按位置求和以获得去噪后特征向量;然后,将所述去噪后特征向量转化为所述去噪后的音频信号。
综上,本申请实施例的用于高性能TWS蓝牙音频芯片的降噪方法被阐明,其通过使用运动差分特征图的运动增广特征图,以提高运动差分特征图对于手机和蓝牙耳机之间的相对运动信息的表达能力,同时考虑到运动差分特征图在其所对应的高维特征空间中,在时间维度上的特征分布较为稀疏,因此在本申请中构造更适于反映手机和蓝牙耳机之间的相对运动特征的运动特征空间,这样,通过提高特征分布的稠密度,可以使得解码器模型所进行的回归操作获得更好的效果。
示例性系统
图6图示了根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统的框图。如图6所示,根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统600,包括:运动信息获取单元610,用于通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;运动信息差值计算单元620,用于计算所述运动信息获取单元610获得的所述手机和所述运动信息获取单元获得的所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;运动差分矩阵构造单元630,用于将所述运动信息差值计算单元620获得的所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;卷积神经网络处理单元640,用于使用卷积神经网络从所述运动差分矩阵构造单元630获得的所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;运动增广特征图生成单元650,用于对所述卷积神经网络处理单元640获得的所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;音频信号获取单元660,用于获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;发送特征向量生成单元670,用于将所述音频信号获取单元660获得的所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;接收特征向量生成单元680,用于将所述音频信号获取单元660获得的所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;特征向量差值计算单元690,用于计算所述发送特征向量生成单元670获得的所述发送特征向量与所述接收特征向量生成单元680获得的所述接收特征向量之间的差值以得到差分特征向量;补偿特征向量生成单元700,用于将所述特征向量差值计算单元690获得的所述差分特征向量作为查询向量与所述运动增广特征图生成单元650获得的所述运动增广特征图进行相乘以获得补偿特征向量;去噪音频向量生成单元710,用于将所述补偿特征向量生成单元700获得的所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及,去噪后的音频信号生成单元720,基于所述去噪音频向量生成单元710获得的所述用于补偿的去噪音频向量和所述发送特征向量生成单元获得的所述发送特征向量,生成去噪后的音频信号。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,所述运动差分矩阵构造单元630,包括:归一化子单元,用于对所述多个九元数组中的每个值进行基于最大值的归一化处理;以及,运动差分矩阵排列子单元,用于将归一化处理的所述归一化子单元获得的所述多个九元数组按时间维度为行排列为所述运动差分矩阵。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,所述卷积神经网络处理单元640,进一步用于:所述卷积神经网络以如下公式从所述运动差分矩阵获得所述运动差分特征图;其中,所述公式为:
fi=Sigmoid(Ni×fi-1+Bi)
其中,fi-1为第i层卷积神经网络的输入,fi为第i层卷积神经网络的输出,Ni为第i层卷积神经网络的滤波器,且Bi为第i层卷积神经网络的偏置向量,Sigmoid表示非线性激活函数。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,如图7所示,所述运动增广特征图生成单元650,包括:高斯分布构造子单元651,用于基于每个所述特征矩阵中的每行的九个特征值的均值和方差,构造具有该方差和该均值的高斯分布;以及,采样子单元652,用于对所述高斯分布构造子单元651获得的所述高斯分布进行随机采样以获得更多的数据点作为所述特征矩阵的一行的数据点,以获得所述运动增广特征图。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,如图8所示,所述发送特征向量生成单元670,包括:数字信号转化子单元671,用于使用模数转化器将所述第一音频信号转化为第一数字信号;音谱分析子单元672,用于使用声谱分析器所述数字信号转化子单元671获得的所述第一数字信号进行音谱分析,所述音频分析包括对所述第一数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第一数字信号进行Mel滤波;参数变换子单元673,用于使用参数变换器对经音谱分析的所述音谱分析子单元672获得的所述第一数字信号进行处理以获得所述第一音频向量;以及,全连接编码子单元674,用于使用所述编码器模型的多个全连接层对所述参数变换子单元673获得的所述第一音频向量进行全连接编码以获得所述发送特征向量。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,所述接收特征向量生成单元680,进一步用于:使用所述模数转化器将所述第二音频信号转化为第二数字信号;使用所述声谱分析器所述第二数字信号进行音谱分析,所述音频分析包括对所述第二数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第二数字信号进行Mel滤波;使用所述参数变换器对经音谱分析的所述第二数字信号进行处理以获得所述第二音频向量;以及,使用所述编码器模型的多个全连接层对所述第二音频向量进行全连接编码以获得所述接收特征向量。
在一个示例中,在上述用于高性能TWS蓝牙音频芯片的降噪系统600中,所述去噪后的音频信号生成单元720,进一步用于:计算所述用于补偿的去噪音频向量和所述发送特征向量的按位置求和以获得去噪后特征向量;以及,将所述去噪后特征向量转化为所述去噪后的音频信号。
这里,本领域技术人员可以理解,上述用于高性能TWS蓝牙音频芯片的降噪系统600中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的用于高性能TWS蓝牙音频芯片的降噪方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的用于高性能TWS蓝牙音频芯片的降噪系统600可以实现在各种终端设备中,例如TWS蓝牙耳机的主耳机的音频芯片。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。如图9所示,电子设备包括10包括一个或多个处理器11和存储器12。所述处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于高性能TWS蓝牙音频芯片的降噪方法的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如运动差分矩阵、差分特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入系统13和输出系统14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入系统13可以包括例如键盘、鼠标等等。
该输出系统14可以向外部输出各种信息,包括去噪后的音频信号等。该输出系统14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于高性能TWS蓝牙音频芯片的降噪方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的用于高性能TWS蓝牙音频芯片的降噪方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种用于高性能TWS蓝牙音频芯片的降噪方法,其特征在于,包括:
通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;
计算所述手机和所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;
将所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;
使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;
对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;
获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;
将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;
将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;
计算所述发送特征向量与所述接收特征向量之间的差值以得到差分特征向量;
将所述差分特征向量作为查询向量与所述运动增广特征图进行相乘以获得补偿特征向量;
将所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及
基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号。
2.根据权利要求1所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,将所述多个九元数组按照时间维度构造为运动差分矩阵,包括:
对所述多个九元数组中的每个值进行基于最大值的归一化处理;以及
将归一化处理的所述多个九元数组按时间维度为行排列为所述运动差分矩阵。
3.根据权利要求1所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,使用卷积神经网络从所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图,包括:
所述卷积神经网络以如下公式从所述运动差分矩阵获得所述运动差分特征图;
其中,所述公式为:
fi=Sigmoid(Ni×fi-1+Bi)
其中,fi-1为第i层卷积神经网络的输入,fi为第i层卷积神经网络的输出,Ni为第i层卷积神经网络的滤波器,且Bi为第i层卷积神经网络的偏置向量,Sigmoid表示非线性激活函数。
4.根据权利要求3所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,对所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图,包括:
基于每个所述特征矩阵中的每行的九个特征值的均值和方差,构造具有该方差和该均值的高斯分布;以及
对所述高斯分布进行随机采样以获得更多的数据点作为所述特征矩阵的一行的数据点,以获得所述运动增广特征图。
5.根据权利要求1所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,将所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量,包括:
使用模数转化器将所述第一音频信号转化为第一数字信号;
使用声谱分析器所述第一数字信号进行音谱分析,所述音频分析包括对所述第一数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第一数字信号进行Mel滤波;
使用参数变换器对经音谱分析的所述第一数字信号进行处理以获得所述第一音频向量;以及
使用所述编码器模型的多个全连接层对所述第一音频向量进行全连接编码以获得所述发送特征向量。
6.根据权利要求5所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,将所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量,包括:
使用所述模数转化器将所述第二音频信号转化为第二数字信号;
使用所述声谱分析器所述第二数字信号进行音谱分析,所述音频分析包括对所述第二数字信号进行离散傅里叶变换,以及,对经离散傅里叶变换后的所述第二数字信号进行Mel滤波;
使用所述参数变换器对经音谱分析的所述第二数字信号进行处理以获得所述第二音频向量;以及
使用所述编码器模型的多个全连接层对所述第二音频向量进行全连接编码以获得所述接收特征向量。
7.根据权利要求1所述的用于高性能TWS蓝牙音频芯片的降噪方法,其中,基于所述用于补偿的去噪音频向量和所述发送特征向量,生成去噪后的音频信号,包括:
计算所述用于补偿的去噪音频向量和所述发送特征向量的按位置求和以获得去噪后特征向量;以及
将所述去噪后特征向量转化为所述去噪后的音频信号。
8.一种用于高性能TWS蓝牙音频芯片的降噪系统,其特征在于,包括:
运动信息获取单元,用于通过安装于手机和蓝牙耳机中的惯性传感器获得所述手机和所述蓝牙耳机在运动过程中的一系列时间点上的运动信息,其中,所述运动信息包括在X轴、Y轴和Z轴三个方向上的位移量、速度和加速度;
运动信息差值计算单元,用于计算所述运动信息获取单元获得的所述手机和所述运动信息获取单元获得的所述蓝牙耳机在相同时间点的运动信息之间的差值,以获得多个九元数组,其中,所述九元数组包括在X轴、Y轴和Z轴方向的位移量之差、速度之差和加速度之差;
运动差分矩阵构造单元,用于将所述运动信息差值计算单元获得的所述多个九元数组按照时间维度构造为运动差分矩阵,其中,所述运动差分矩阵的行数为时间点的数目,其列数为9;
卷积神经网络处理单元,用于使用卷积神经网络从所述运动差分矩阵构造单元获得的所述运动差分矩阵获得用于表示不同运动信息的维度以及不同的运动采样时间之间的高维关联特征的运动差分特征图;
运动增广特征图生成单元,用于对所述卷积神经网络处理单元获得的所述运动差分特征图在通道维度上的各个特征矩阵进行基于构造高斯分布和随机采样的数据增广,以获得运动增广特征图;
音频信号获取单元,用于获得所述手机发送的第一音频信号和所述蓝牙耳机接收到的第二音频信号;
发送特征向量生成单元,用于将所述音频信号获取单元获得的所述第一音频信号转化为第一音频向量后通过编码器模型以获得发送特征向量;
接收特征向量生成单元,用于将所述音频信号获取单元获得的所述第二音频信号转化为第二音频向量后通过所述编码器模型以获得接收特征向量;
特征向量差值计算单元,用于计算所述发送特征向量生成单元获得的所述发送特征向量与所述接收特征向量生成单元获得的所述接收特征向量之间的差值以得到差分特征向量;
补偿特征向量生成单元,用于将所述特征向量差值计算单元获得的所述差分特征向量作为查询向量与所述运动增广特征图生成单元获得的所述运动增广特征图进行相乘以获得补偿特征向量;
去噪音频向量生成单元,用于将所述补偿特征向量生成单元获得的所述补偿特征向量输入解码器模型以获得用于补偿的去噪音频向量,其中,所述解码器模型与所述编码器模型具有对称的结构;以及
去噪后的音频信号生成单元,基于所述去噪音频向量生成单元获得的所述用于补偿的去噪音频向量和所述发送特征向量生成单元获得的所述发送特征向量,生成去噪后的音频信号。
9.根据权利要求8所述的用于高性能TWS蓝牙音频芯片的降噪系统,其中,所述运动差分矩阵构造单元,包括:
归一化子单元,用于对所述多个九元数组中的每个值进行基于最大值的归一化处理;以及
运动差分矩阵排列子单元,用于将归一化处理的所述归一化子单元获得的所述多个九元数组按时间维度为行排列为所述运动差分矩阵。
10.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的用于高性能TWS蓝牙音频芯片的降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224426.1A CN113851142A (zh) | 2021-10-21 | 2021-10-21 | 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224426.1A CN113851142A (zh) | 2021-10-21 | 2021-10-21 | 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113851142A true CN113851142A (zh) | 2021-12-28 |
Family
ID=78982369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111224426.1A Pending CN113851142A (zh) | 2021-10-21 | 2021-10-21 | 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113851142A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、系统和电子设备 |
CN114900779A (zh) * | 2022-04-12 | 2022-08-12 | 东莞市晨新电子科技有限公司 | 音频补偿方法、系统和电子设备 |
-
2021
- 2021-10-21 CN CN202111224426.1A patent/CN113851142A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、系统和电子设备 |
CN114900779A (zh) * | 2022-04-12 | 2022-08-12 | 东莞市晨新电子科技有限公司 | 音频补偿方法、系统和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113851142A (zh) | 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 | |
US10891967B2 (en) | Method and apparatus for enhancing speech | |
CA2005117C (en) | Noise reduction system | |
KR101238362B1 (ko) | 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치 | |
US20190304480A1 (en) | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data | |
CN111309883A (zh) | 基于人工智能的人机对话方法、模型训练方法及装置 | |
KR102033929B1 (ko) | 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치 | |
CN103426434A (zh) | 结合源方向信息通过独立分量分析的源分离 | |
WO2016100460A1 (en) | Systems and methods for source localization and separation | |
CN110675892B (zh) | 多位置语音分离方法和装置、存储介质、电子设备 | |
US20180277140A1 (en) | Signal processing system, signal processing method and storage medium | |
CN111462728A (zh) | 用于生成语音的方法、装置、电子设备和计算机可读介质 | |
CN112652320B (zh) | 声源定位方法和装置、计算机可读存储介质、电子设备 | |
US20240046955A1 (en) | Voice extraction method and apparatus, and electronic device | |
CN113611315B (zh) | 基于轻量化卷积神经网络的声纹识别方法和装置 | |
CN106327555A (zh) | 一种获得唇形动画的方法及装置 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
KR20180060903A (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN107895580B (zh) | 一种音频信号的重建方法和装置 | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN111401036B (zh) | 一种指代消解文本的生成方法、装置及电子设备 | |
CN112346012A (zh) | 声源位置确定方法和装置、可读存储介质、电子设备 | |
CN110660399A (zh) | 声纹识别的训练方法、装置、终端及计算机存储介质 | |
CN113593527B (zh) | 一种生成声学特征、语音模型训练、语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |