CN114007169A - 用于tws蓝牙耳机的音频调节方法、系统和电子设备 - Google Patents
用于tws蓝牙耳机的音频调节方法、系统和电子设备 Download PDFInfo
- Publication number
- CN114007169A CN114007169A CN202111303587.XA CN202111303587A CN114007169A CN 114007169 A CN114007169 A CN 114007169A CN 202111303587 A CN202111303587 A CN 202111303587A CN 114007169 A CN114007169 A CN 114007169A
- Authority
- CN
- China
- Prior art keywords
- audio
- vector
- earphone
- signal
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 345
- 239000011159 matrix material Substances 0.000 claims abstract description 109
- 238000012546 transfer Methods 0.000 claims abstract description 106
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 230000008054 signal transmission Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 66
- 230000005540 biological transmission Effects 0.000 claims description 42
- 230000005236 sound signal Effects 0.000 claims description 35
- 230000003750 conditioning effect Effects 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000010183 spectrum analysis Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 13
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/34—Directing or guiding sound by means of a phase plug
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种用于TWS蓝牙耳机的音频调节方法、系统和电子设备,其针对手机与主耳机之间的信号传输+噪声模型和主耳机与副耳机之间的信号传输+噪声模型的共同特征关系,应用深度神经网络所获得的高维特征向量之间的转移矩阵来分别进行表达模型特征,再进一步基于自由空间内的Friis法则来基于模型特征获得彼此相关联的用于分类的特征向量,从而实现了主耳机和副耳机的协同调节。这样,不仅在协同调节中考虑到了降噪功能且还考虑到了传播损耗,以使得主耳机和副耳机之间形成的立体声效果更好。
Description
技术领域
本申请涉及智能蓝牙耳机的领域,且更为具体地,涉及一种用于TWS蓝牙耳机的音频调节方法、用于TWS蓝牙耳机的音频调节系统和电子设备。
背景技术
TWS的全称是True Wireless Stereo,意思是真正无线立体声。TWS技术是基于蓝牙芯片技术发展而来的,其工作原理是指手机通过连接主耳机,再由主耳机通过无线方式快速地连接副耳机,实现真正的蓝牙左右声道无线分离使用。也就是,音频数据首先从手机传输到主耳机、再由主耳机传输到副耳机。相应地,在音频播放过程中,常常会碰到周围的环境中存在大量噪声的情形,因此,基于环境噪声的情况来做音频调节是非常有必要的。
相较于传统的耳机,TWS蓝牙耳机在音频传输方面有其特殊性:音频数据首先从手机传输到主耳机、再由主耳机传输到副耳机。相应地,在调整副耳机的音频数据时,不仅仅要考虑环境噪声的特征,还需要考虑主耳机到副耳机的音频数据传播损耗。并且,由于TWS蓝牙要实现的是立体声的效果,因此,还需要考虑主耳机的音频数据与副耳机的音频数据之间能够相互配合以形成立体声的效果。
因此,期望提供一种用于TWS蓝牙耳机的音频调节方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于TWS蓝牙耳机的音频调节方法、用于TWS蓝牙耳机的音频调节系统和电子设备,其针对手机与主耳机之间的信号传输+噪声模型和主耳机与副耳机之间的信号传输+噪声模型的共同特征关系,应用深度神经网络所获得的高维特征向量之间的转移矩阵来分别进行表达模型特征,再进一步基于自由空间内的Friis法则来基于模型特征获得彼此相关联的用于分类的特征向量,从而实现了主耳机和副耳机的协同调节。这样,不仅在协同调节中考虑到了降噪功能且还考虑到了传播损耗,以使得主耳机和副耳机之间形成的立体声效果更好。
根据本申请的一个方面,提供了一种用于TWS蓝牙耳机的音频调节方法,其包括:
训练阶段,包括:
获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;
将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;
分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;
分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;
计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及
计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征;以及
推断阶段,包括:
获取手机的当前发送音频信号;
将所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;
基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;
基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及
将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
根据本申请的另一方面,提供了一种用于TWS蓝牙耳机的音频调节系统,其包括:
训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;
向量转化单元,用于将所述训练数据获取单元获得的所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;
第一深度神经网络单元,用于分别将所述向量转化单元获得的所述手机发送音频向量和所述向量转化单元获得的所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;
第二深度神经网络单元,用于分别将所述向量转化单元获得的所述主耳机发送音频向量和所述向量转化单元获得的所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;
第一转移矩阵计算单元,用于计算所述第一深度神经网络单元获得的所述手机发送特征向量和所述第一深度神经网络单元获得的所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及
第二转移矩阵计算单元,用于计算所述第二深度神经网络单元获得的所述主耳机发送特征向量和所述第二深度神经网络单元获得的所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征;以及
推断模块,包括:
发送音频信号获取单元,用于获取手机的当前发送音频信号;
当前音频特征向量生成单元,用于将所述发送音频信号获取单元获得的所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;
主分类特征音频向量生成单元,用于基于自由空间内的Friis法则、所述当前音频特征向量生成单元获得的所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;
副分类特征音频向量生成单元,用于基于自由空间内的Friis法则、所述主分类特征音频向量生成单元获得的所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及
分类单元,用于将所述主分类特征音频向量生成单元获得的所述主耳机的分类特征音频向量和所述副分类特征音频向量生成单元获得的所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于TWS蓝牙耳机的音频调节方法。
根据本申请的再又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于TWS蓝牙耳机的音频调节方法。
根据本申请提供的用于TWS蓝牙耳机的音频调节方法、用于TWS蓝牙耳机的音频调节系统和电子设备,其针对手机与主耳机之间的信号传输+噪声模型和主耳机与副耳机之间的信号传输+噪声模型的共同特征关系,应用深度神经网络所获得的高维特征向量之间的转移矩阵来分别进行表达模型特征,再进一步基于自由空间内的Friis法则来基于模型特征获得彼此相关联的用于分类的特征向量,从而实现了主耳机和副耳机的协同调节。这样,不仅在协同调节中考虑到了降噪功能且还考虑到了传播损耗,以使得主耳机和副耳机之间形成的立体声效果更好。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的用于TWS蓝牙耳机的音频调节方法的场景示意图。
图2A为根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中训练阶段的流程图。
图2B为根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中推断阶段的流程图。
图3A为根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中训练阶段的架构示意图。
图3B为根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中推断阶段的架构示意图。
图4为根据本申请实施例的用于TWS蓝牙耳机的音频调节系统的框图。
图5为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,相较于传统的耳机,TWS蓝牙耳机在音频传输方面有其特殊性:音频数据首先从手机传输到主耳机、再由主耳机传输到副耳机。相应地,在调整副耳机的音频数据时,不仅仅要考虑环境噪声的特征,还需要考虑主耳机到副耳机的音频数据传播损耗。并且,由于TWS蓝牙要实现的是立体声的效果,因此,还需要考虑主耳机的音频数据与副耳机的音频数据之间能够相互配合以形成立体声的效果。因此,期望提供一种用于TWS蓝牙耳机的音频调节方案。
相应地,首先获取训练数据集,包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号,并分别将其通过嵌入模型转换为音频向量,即手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量。然后,分别将手机发送音频向量、主耳机接收音频向量输入第一深度神经网络得到手机发送特征向量和主耳机接收特征向量,并将主耳机发送音频向量和副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量。
这样,通过计算手机发送特征向量和主耳机接收特征向量之间的第一转移矩阵,即使得第一转移矩阵乘以手机发送特征向量等于主耳机接收特征向量,就获得了手机与主耳机之间的信号传输+噪声的高维特征模型。类似地,通过计算主耳机发送特征向量和副耳机接收特征向量之间的第二转移矩阵,就获得了主耳机与副耳机之间的信号传输+噪声的高维特征模型。
当需要调节手机和主耳机的发射功率时,就获得手机的当前发送音频向量,并输入所述第一深度神经网络以得到当前音频特征向量,例如记为Vo,并基于自由空间内的Friis法则,获得主耳机的分类特征音频向量VM,表示为:
其中M1为第一转移矩阵,λ1手机发送信号的波长,且d1为手机与主耳机之间的距离。
另外,可以同样基于自由空间内的Friis法则,获得副耳机的分类特征音频向量VS,表示为:
其中M2为第二转移矩阵,λ2为主耳机发送信号的波长,且d2为主耳机与副耳机之间的距离。
然后,再将主耳机的分类特征音频向量VM和副耳机的分类特征音频向量VS分别输入分类器,就可以得到手机和主耳机的音频调节结果。
基于此,本申请提出了一种用于TWS蓝牙耳机的音频调节方法,其包括:训练阶段和推断阶段。其中,训练阶段包括步骤:获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。其中,推断阶段包括步骤:获取手机的当前发送音频信号;将所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
图1图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节方法的场景示意图。如图1所示,在该应用场景的训练阶段中,首先,从终端设备(例如,如图1中所示意的T)中获取训练数据集,其中,所述训练数据集包括从手机终端(例如,如图1中所示意的T1)中获取的发送信号、从主耳机终端(例如,如图1中所示意的T2)中获取的接收信号和发送信号以及从副耳机终端(例如,如图1中所示意的T3)中获取的接收信号。然后,将获得的所述训练数据集输入至部署有用于TWS蓝牙耳机的音频调节算法的服务器(例如,如图1中所示意的S)中,其中,所述服务器能够用于TWS蓝牙耳机的音频调节算法以所述训练数据集对用于TWS蓝牙耳机的音频调节的卷积神经网络进行训练。
在训练完成后,在推断阶段中,首先,从手机终端(例如,如图1中所示意的T)中获取当前发送的音频信号;然后,将获得的所述当前发送的音频信号输入至部署有用于TWS蓝牙耳机的音频调节算法的服务器(例如,如图1中所示意的S)中,其中,所述服务器能够以用于TWS蓝牙耳机的音频调节算法对所述当前发送的音频信号进行处理,以生成所述手机和所述主耳机的音频调节结果。进而,再基于所述手机和所述主耳机的音频调节结果分别对所述手机和所述主耳机进行音频调节,以使得TWS蓝牙耳机实现所需的立体声效果更好。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2A图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中训练阶段的流程图。如图2A所示,根据本申请实施例的用于TWS蓝牙耳机的音频调节方法,包括:训练阶段,包括步骤:S110,获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;S120,将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;S130,分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;S140,分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;S150,计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及,S160,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。
图2B图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中推断阶段的流程图。如图2B所示,根据本申请实施例的用于TWS蓝牙耳机的音频调节方法,还包括:推断阶段,包括步骤:S210,获取手机的当前发送音频信号;S220,将所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;S230,基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;S240,基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及,S250,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
图3A图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中训练阶段的架构示意图。如图3A所示,在训练阶段中,在该网络架构中,首先,将获得的所述训练数据(例如,如图3A中所示意的P)中的手机发送信号(例如,如图3A中所示意的P1)、主耳机接收信号(例如,如图3A中所示意的P2)、主耳机发送信号(例如,如图3A中所示意的P3)和副耳机接收信号(例如,如图3A中所示意的P4)通过嵌入模型(例如,如图3A中所示意的E)转化为手机发送音频向量(例如,如图3A中所示意的V1)、主耳机接收音频向量(例如,如图3A中所示意的V2)、主耳机发送音频向量(例如,如图3A中所示意的V3)和副耳机接收音频向量(例如,如图3A中所示意的V4);接着,分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络(例如,如图3A中所示意的DNN1)以获得手机发送特征向量(例如,如图3A中所示意的VF1)和主耳机接收特征向量(例如,如图3A中所示意的VF2);然后,分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络(例如,如图3A中所示意的DNN2)以得到主耳机发送特征向量(例如,如图3A中所示意的VF3)和副耳机接收特征向量(例如,如图3A中所示意的VF4);接着,计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵(例如,如图3A中所示意的M1),所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及,最后,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵(例如,如图3A中所示意的M2),所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。
图3B图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节方法中推断阶段的架构示意图。如图3B所示,在推断阶段中,在该网络结构中,首先,将获得的所述手机的当前发送音频信号(例如,如图3B中所示意的IN)通过嵌入模型(例如,如图3B中所示意的E)转化为当前发送音频向量(例如,如图3B中所示意的V)并输入第一深度神经网络(例如,如图3B中所示意的DNN1)以获得当前音频特征向量(例如,如图3B中所示意的VF);S230,基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量(例如,如图3B中所示意的VC1);S240,基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量(例如,如图3B中所示意的VC2);以及,S250,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器(例如,如图3B中所示意的圈S)以获得所述手机和所述主耳机的音频调节结果。
更具体地,在训练阶段中,在步骤S110中,获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号。如前所述,为了使得TWS蓝牙耳机能够实现所需的立体声效果,必须协同调节到达主耳机和副耳机的音频信号,也就是协同调节手机和主耳机的发射功率,因此,在本申请的技术方案中,需要通过建立共同地表达手机与主耳机之间的信号传输+噪声和主耳机与副耳机之间的信号传输+噪声的特征模型,而在此之前,首先就需要获取所述训练数据。值得一提的是,在一个具体示例中,可以从终端设备中获取训练数据,其中,所述训练数据包括从手机终端中获取的发送信号、从主耳机终端中获取的接收信号和发送信号以及从副耳机终端中获取的接收信号。
更具体地,在训练阶段中,在步骤S120中,将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量。应可以理解,为了后续通过深度神经网络来挖掘出所述训练数据中各个信号的高维关联特征,就需要将所述训练数据中的各个信号通过嵌入模型中进行处理,以转化为计算机能够识别的且便于处理的信号向量。
具体地,在本申请实施例中,将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量的过程,包括:首先,使用所述嵌入模型的模数转化器将所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号分别转化为数字信号,以便于后续计算机对其进行处理。也就是,对获得的所述各个信号进行模数转换,以把模拟信号转换为数字信号,具体地,其包括两个步骤:采样和量化,即以一定的采样率和采样位数把声音连续波形转换为离散的数据点。
然后,使用所述嵌入模型的声谱分析器对转化为数字信号后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行音谱分析。应可以理解,声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形进行音频分析以将其转换为声学特征向量。也就是,在一个具体示例中,首先,对所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行离散傅里叶变换以把获得的所述各个信号的时域特征转化到音谱频域中。应可以理解,所述离散傅里叶变换能够从一个离散信号中提取离散频段频谱的信息。接着,再对经离散傅里叶变换后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行Mel滤波。应可以理解,人耳听觉对不同频带的敏感度是不同的,人耳对高频不如低频敏感,这一分界线大约是1000Hz,因此,在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。值得一提的是,这里,频率(单位Hz)和Mel刻度之间的对应关系在1000Hz以下是线性的,在1000Hz以上是对数的,其计算公式如下:Mel(f)=1127ln(1+f/700)。
最后,使用所述嵌入模型的参数变换器对经音谱分析的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行处理以获得所述手机发送音频向量、所述主耳机接收音频向量、所述主耳机发送音频向量和所述副耳机接收音频向量。
更具体地,在训练阶段中,在步骤S130和步骤S140中,分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量,并分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量。也就是,首先,用第一深度神经网络分别对所述手机发送音频向量和所述主耳机接收音频向量进行处理,以通过神经网络来提取出所述手机发送音频向量和所述主耳机接收音频向量中的高维特征,从而得到手机发送特征向量和主耳机接收特征向量。然后,用第二深度神经网络分别对所述主耳机发送音频向量和所述副耳机接收音频向量进行处理,以通过神经网络来提取出所述主耳机发送音频向量和所述副耳机接收音频向量中的高维特征,从而得到主耳机发送特征向量和副耳机接收特征向量。
更具体地,在训练阶段中,在步骤S150中,计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征。应可以理解,为了使得TWS蓝牙耳机能够实现所需的立体声效果,必须协同调节到达主耳机和副耳机的音频信号,也就是协同调节手机和主耳机的发射功率,因此,需要通过建立共同地表达手机与主耳机之间的信号传输+噪声的特征模型。也就是,通过计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,即使得所述第一转移矩阵乘以所述手机发送特征向量等于所述主耳机接收特征向量,就获得了手机与主耳机之间的信号传输+噪声的高维特征模型。
具体地,在本申请实施例中,设定所述手机发送特征向量为A,所述主耳机接收特征向量为B,且所述第一转移矩阵为M1;其中,计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,包括:以如下公式计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述公式为:B=M1A。值得一提的是,这里,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征。
更具体地,在训练阶段中,在步骤S160中,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。应可以理解,为了使得TWS蓝牙耳机能够实现所需的立体声效果,必须协同调节到达主耳机和副耳机的音频信号,也就是协同调节手机和主耳机的发射功率,因此,需要通过建立共同地表达主耳机与副耳机之间的信号传输+噪声的特征模型。也就是,通过计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,即使得所述第二转移矩阵乘以所述主耳机发送特征向量等于所述副耳机接收特征向量,就获得了主耳机与副耳机之间的信号传输+噪声的高维特征模型。
具体地,在本申请实施例中,设定所述主耳机发送特征向量为C,所述副耳机接收特征向量为D,且所述第二转移矩阵为M2;其中,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,包括:以如下公式计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述公式为D=M2C。值得一提的是,这里,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。
在训练完成后,进入推断阶段。
更具体地,在推断阶段中,在步骤S210和步骤S220中,获取手机的当前发送音频信号,并将所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量。如前所述,同理,也就是,当需要调节手机和主耳机的发射功率时,首先,就获得手机的当前发送音频信号。在一个具体示例中,可以从手机终端设备中获取当前发送音频信号。
然后,再将所述当前发送音频信号通过嵌入模型转化为当前发送音频向量。在一个具体示例中,首先使用所述嵌入模型的模数转化器将所述当前发送音频信号转化为数字信号;然后使用所述嵌入模型的声谱分析器对转化为数字信号后的所述当前发送音频信号进行音谱分析;最后使用所述嵌入模型的参数变换器对经音谱分析的所述当前发送音频信号进行处理以获得所述当前发送音频向量。
最后,将所述当前发送音频向量输入所述第一深度神经网络以得到当前音频特征向量。也就是,以所述第一深度神经网络对所述当前发送音频向量进行处理,以提取出所述当前发送音频向量中的高维特征,从而得到所述当前音频特征向量。
更具体地,在推断阶段中,在步骤S230和步骤S240中,基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量,并基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量。应可以理解,弗里斯公式是用来计算从一个天线到第二个天线的接收功率,其将传输功率、天线增益、距离、波长与接收功率联系了起来。因此,同理,在本申请的技术方案中,也可以类似的计算手机的当前发送音频特征向量到主耳机的分类特征音频向量以及主耳机的分类特征音频向量到副耳机的分类特征音频向量。
具体地,在本申请实施例中,基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量的过程,包括:基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,以如下公式计算所述主耳机的分类特征音频向量;所述公式为:
其中M1为所述第一转移矩阵,λ1手机发送信号的波长,且d1为手机与主耳机之间的距离,Vo为所述当前音频特征向量。
具体地,在本申请实施例中,基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量的过程,包括:基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,以如下公式计算所述副耳机的分类特征音频向量;所述公式为:
其中M2为所述第二转移矩阵,λ2为主耳机发送信号的波长,且d2为主耳机与副耳机之间的距离。
更具体地,在推断阶段中,在步骤S250中,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
具体地,在本申请实施例中,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果的过程,包括:首先,将所述主耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述主耳机的分类特征音频归属于所述手机的发射功率应增大的第一概率和所述主耳机的分类特征音频归属于所述手机的发射功率应减小的第二概率。接着,基于所述第一概率和所述第二概率的比较,确定所述手机的音频调节结果,所述手机的音频调节结果用于表示所述手机的发射功率应增大或应减小。具体地,当所述第一概率大于所述第二概率时,所述手机的音频调节结果为所述手机的发射功率应增大;当所述第一概率小于所述第二概率时,所述手机的音频调节结果为所述手机的发射功率应减小。
然后,将所述副耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应增大的第一概率和所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应减小的第二概率。最后,基于所述第一概率和所述第二概率的比较,确定所述主耳机的音频调节结果,所述主耳机的音频调节结果用于表示所述主耳机的发射功率应增大或应减小。具体地,当所述第一概率大于所述第二概率时,所述主耳机的音频调节结果为所述主耳机的发射功率应增大;当所述第一概率小于所述第二概率时,所述主耳机的音频调节结果为所述主耳机的发射功率应减小。
综上,基于本申请实施例的用于TWS蓝牙耳机的音频调节方法被阐明,其针对手机与主耳机之间的信号传输+噪声模型和主耳机与副耳机之间的信号传输+噪声模型的共同特征关系,应用深度神经网络所获得的高维特征向量之间的转移矩阵来分别进行表达模型特征,再进一步基于自由空间内的Friis法则来基于模型特征获得彼此相关联的用于分类的特征向量,从而实现了主耳机和副耳机的协同调节。这样,不仅在协同调节中考虑到了降噪功能且还考虑到了传播损耗,以使得主耳机和副耳机之间形成的立体声效果更好。
示例性系统
图4图示了根据本申请实施例的用于TWS蓝牙耳机的音频调节系统的框图。如图4所示,根据本申请实施例的用于TWS蓝牙耳机的音频调节系统400,包括:训练模块410和推断模块420。
如图4所示,所述训练模块410,包括:训练数据获取单元411,用于获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;向量转化单元412,用于将所述训练数据获取单元411获得的所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;第一深度神经网络单元413,用于分别将所述向量转化单元412获得的所述手机发送音频向量和所述向量转化单元412获得的所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;第二深度神经网络单元414,用于分别将所述向量转化单元412获得的所述主耳机发送音频向量和所述向量转化单元412获得的所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;第一转移矩阵计算单元415,用于计算所述第一深度神经网络单元413获得的所述手机发送特征向量和所述第一深度神经网络单元413获得的所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及,第二转移矩阵计算单元416,用于计算所述第二深度神经网络单元414获得的所述主耳机发送特征向量和所述第二深度神经网络单元414获得的所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征。
如图4所示,所述推断模块420,包括:发送音频信号获取单元421,用于获取手机的当前发送音频信号;当前音频特征向量生成单元422,用于将所述发送音频信号获取单元421获得的所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;主分类特征音频向量生成单元423,用于基于自由空间内的Friis法则、所述当前音频特征向量生成单元422获得的所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;副分类特征音频向量生成单元424,用于基于自由空间内的Friis法则、所述主分类特征音频向量生成单元423获得的所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及,分类单元425,用于将所述主分类特征音频向量生成单元423获得的所述主耳机的分类特征音频向量和所述副分类特征音频向量生成424单元获得的所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,所述向量转化单元412,包括:转化子单元,用于使用所述嵌入模型的模数转化器将所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号分别转化为数字信号;音谱分析单元,用于使用所述嵌入模型的声谱分析器对转化为数字信号后的所述转化子单元获得的所述手机发送信号、所述转化子单元获得的所述主耳机接收信号、所述转化子单元获得的所述主耳机发送信号和所述转化子单元获得的所述副耳机接收信号进行音谱分析;以及,参数变换单元,用于使用所述嵌入模型的参数变换器对经音谱分析的所述音谱分析单元获得的所述手机发送信号、所述音谱分析单元获得的所述主耳机接收信号、所述音谱分析单元获得的所述主耳机发送信号和所述音谱分析单元获得的所述副耳机接收信号进行处理以获得所述手机发送音频向量、所述主耳机接收音频向量、所述主耳机发送音频向量和所述副耳机接收音频向量。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,所述音谱分析单元,进一步用于:对所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行离散傅里叶变换;以及,对经离散傅里叶变换后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行Mel滤波。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,设定所述手机发送特征向量为A,所述主耳机接收特征向量为B,且所述第一转移矩阵为M1;所述第一转移矩阵计算单元415,进一步用于:以如下公式计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述公式为:B=M1A。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,设定所述主耳机发送特征向量为C,所述副耳机接收特征向量为D,且所述第二转移矩阵为M2;所述第二转移矩阵计算单元416,进一步用于:以如下公式计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述公式为D=M2C。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,所述主分类特征音频向量生成单元423,进一步用于:基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,以如下公式计算所述主耳机的分类特征音频向量;所述公式为:
其中M1为所述第一转移矩阵,λ1手机发送信号的波长,且d1为手机与主耳机之间的距离。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,所述副分类特征音频向量生成单元424,进一步用于:基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,以如下公式计算所述副耳机的分类特征音频向量;所述公式为:
其中M2为所述第二转移矩阵,λ2为主耳机发送信号的波长,且d2为主耳机与副耳机之间的距离。
在一个示例中,在上述用于TWS蓝牙耳机的音频调节系统400中,所述分类单元425,包括:主概率计算单元,用于将所述主耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述主耳机的分类特征音频归属于所述手机的发射功率应增大的第一概率和所述主耳机的分类特征音频归属于所述手机的发射功率应减小的第二概率;主比较单元,用于基于所述主概率计算单元获得的所述第一概率和所述主概率计算单元获得的所述第二概率的比较,确定所述手机的音频调节结果,所述手机的音频调节结果用于表示所述手机的发射功率应增大或应减小;副概率计算单元,用于将所述副耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应增大的第一概率和所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应减小的第二概率;以及,副比较单元,用于基于所述副概率计算单元获得的所述第一概率和所述副概率计算单元获得的所述第二概率的比较,确定所述主耳机的音频调节结果,所述主耳机的音频调节结果用于表示所述主耳机的发射功率应增大或应减小。
这里,本领域技术人员可以理解,上述用于TWS蓝牙耳机的音频调节系统400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3B的用于TWS蓝牙耳机的音频调节方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的用于TWS蓝牙耳机的音频调节系统400可以实现在各种终端设备中,例如用于TWS蓝牙耳机的音频调节算法的服务器等。在一个示例中,根据本申请实施例的用于TWS蓝牙耳机的音频调节系统400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该用于TWS蓝牙耳机的音频调节系统400可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该用于TWS蓝牙耳机的音频调节系统400同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该用于TWS蓝牙耳机的音频调节系统400与该终端设备也可以是分立的设备,并且该用于TWS蓝牙耳机的音频调节系统400可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图5来描述根据本申请实施例的电子设备。如图5所示,电子设备包括10包括一个或多个处理器11和存储器12。所述处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于TWS蓝牙耳机的音频调节方法的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如当前音频特征向量、主耳机的分类音频特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入系统13和输出系统14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入系统13可以包括例如键盘、鼠标等等。
该输出系统14可以向外部输出各种信息,包括调节结果等。该输出系统14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于TWS蓝牙耳机的音频调节方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的用于TWS蓝牙耳机的音频调节方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种用于TWS蓝牙耳机的音频调节方法,其特征在于,包括:
训练阶段,包括:
获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;
将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;
分别将所述手机发送音频向量和所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;
分别将所述主耳机发送音频向量和所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;
计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及
计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征;以及
推断阶段,包括:
获取手机的当前发送音频信号;
将所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;
基于自由空间内的Friis法则、所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;
基于自由空间内的Friis法则、所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及
将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
2.根据权利要求1所述的用于TWS蓝牙耳机的音频调节方法,其中,将所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量,包括:
使用所述嵌入模型的模数转化器将所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号分别转化为数字信号;
使用所述嵌入模型的声谱分析器对转化为数字信号后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行音谱分析;以及
使用所述嵌入模型的参数变换器对经音谱分析的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行处理以获得所述手机发送音频向量、所述主耳机接收音频向量、所述主耳机发送音频向量和所述副耳机接收音频向量。
3.根据权利要求2所述的用于TWS蓝牙耳机的音频调节方法,其中,使用所述嵌入模型的声谱分析器对转化为数字信号后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行音谱分析,包括:
对所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行离散傅里叶变换;以及
对经离散傅里叶变换后的所述手机发送信号、所述主耳机接收信号、所述主耳机发送信号和所述副耳机接收信号进行Mel滤波。
4.根据权利要求1所述的用于TWS蓝牙耳机的音频调节方法,其中,设定所述手机发送特征向量为A,所述主耳机接收特征向量为B,且所述第一转移矩阵为M1;
其中,计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,包括:以如下公式计算所述手机发送特征向量和所述主耳机接收特征向量之间的第一转移矩阵,所述公式为:B=M1A。
5.根据权利要求4所述的用于TWS蓝牙耳机的音频调节方法,其中,设定所述主耳机发送特征向量为C,所述副耳机接收特征向量为D,且所述第二转移矩阵为M2;
其中,计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,包括:以如下公式计算所述主耳机发送特征向量和所述副耳机接收特征向量之间的第二转移矩阵,所述公式为D=M2C。
8.根据权利要求7所述的用于TWS蓝牙耳机的音频调节方法,其中,将所述主耳机的分类特征音频向量和所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果,包括:
将所述主耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述主耳机的分类特征音频归属于所述手机的发射功率应增大的第一概率和所述主耳机的分类特征音频归属于所述手机的发射功率应减小的第二概率;
基于所述第一概率和所述第二概率的比较,确定所述手机的音频调节结果,所述手机的音频调节结果用于表示所述手机的发射功率应增大或应减小;
将所述副耳机的分类特征音频向量输入所述分类器的Softmax分类函数以获得所述所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应增大的第一概率和所述副耳机的分类特征音频向量归属于所述主耳机的发射功率应减小的第二概率;以及
基于所述第一概率和所述第二概率的比较,确定所述主耳机的音频调节结果,所述主耳机的音频调节结果用于表示所述主耳机的发射功率应增大或应减小。
9.一种用于TWS蓝牙耳机的音频调节系统,其特征在于,包括:
训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号;
向量转化单元,用于将所述训练数据获取单元获得的所述训练数据中的手机发送信号、主耳机接收信号、主耳机发送信号和副耳机接收信号通过嵌入模型转化为手机发送音频向量、主耳机接收音频向量、主耳机发送音频向量和副耳机接收音频向量;
第一深度神经网络单元,用于分别将所述向量转化单元获得的所述手机发送音频向量和所述向量转化单元获得的所述主耳机接收音频向量输入第一深度神经网络以获得手机发送特征向量和主耳机接收特征向量;
第二深度神经网络单元,用于分别将所述向量转化单元获得的所述主耳机发送音频向量和所述向量转化单元获得的所述副耳机接收音频向量输入第二深度神经网络以得到主耳机发送特征向量和副耳机接收特征向量;
第一转移矩阵计算单元,用于计算所述第一深度神经网络单元获得的所述手机发送特征向量和所述第一深度神经网络单元获得的所述主耳机接收特征向量之间的第一转移矩阵,所述第一转移矩阵用于表示手机与主耳机之间的信号传输加噪声的高维特征;以及
第二转移矩阵计算单元,用于计算所述第二深度神经网络单元获得的所述主耳机发送特征向量和所述第二深度神经网络单元获得的所述副耳机接收特征向量之间的第二转移矩阵,所述第二转移矩阵用于表示主耳机与副耳机之间的信号传输加噪声的高维特征;以及
推断模块,包括:
发送音频信号获取单元,用于获取手机的当前发送音频信号;
当前音频特征向量生成单元,用于将所述发送音频信号获取单元获得的所述手机的当前发送音频信号通过嵌入模型转化为当前发送音频向量并输入第一深度神经网络以获得当前音频特征向量;
主分类特征音频向量生成单元,用于基于自由空间内的Friis法则、所述当前音频特征向量生成单元获得的所述当前音频特征向量和所述第一转移矩阵,获得主耳机的分类特征音频向量;
副分类特征音频向量生成单元,用于基于自由空间内的Friis法则、所述主分类特征音频向量生成单元获得的所述主耳机的分类特征音频向量和所述第二转移矩阵,获得副耳机的分类特征音频向量;以及
分类单元,用于将所述主分类特征音频向量生成单元获得的所述主耳机的分类特征音频向量和所述副分类特征音频向量生成单元获得的所述副耳机的分类特征音频向量分别通过分类器以获得所述手机和所述主耳机的音频调节结果。
10.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的用于TWS蓝牙耳机的音频调节方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111303587.XA CN114007169B (zh) | 2021-11-05 | 2021-11-05 | 用于tws蓝牙耳机的音频调节方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111303587.XA CN114007169B (zh) | 2021-11-05 | 2021-11-05 | 用于tws蓝牙耳机的音频调节方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114007169A true CN114007169A (zh) | 2022-02-01 |
CN114007169B CN114007169B (zh) | 2023-12-01 |
Family
ID=79927752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111303587.XA Active CN114007169B (zh) | 2021-11-05 | 2021-11-05 | 用于tws蓝牙耳机的音频调节方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114007169B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600897A (zh) * | 2018-07-20 | 2018-09-28 | 恒玄科技(上海)有限公司 | 实现低频切换的一拖二蓝牙耳机及通信方法 |
CN111225332A (zh) * | 2020-01-21 | 2020-06-02 | 深圳市科奈信科技有限公司 | 一种蓝牙耳机的测试方法及系统 |
-
2021
- 2021-11-05 CN CN202111303587.XA patent/CN114007169B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600897A (zh) * | 2018-07-20 | 2018-09-28 | 恒玄科技(上海)有限公司 | 实现低频切换的一拖二蓝牙耳机及通信方法 |
CN111225332A (zh) * | 2020-01-21 | 2020-06-02 | 深圳市科奈信科技有限公司 | 一种蓝牙耳机的测试方法及系统 |
Non-Patent Citations (1)
Title |
---|
全敏绮;: "基于TA7376高保真蓝牙耳机的设计", 企业技术开发, no. 24 * |
Also Published As
Publication number | Publication date |
---|---|
CN114007169B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190325889A1 (en) | Method and apparatus for enhancing speech | |
US20180152163A1 (en) | Noise control method and device | |
US10909332B2 (en) | Signal processing terminal and method | |
CN112349292B (zh) | 信号分离方法和装置、计算机可读存储介质、电子设备 | |
KR102565447B1 (ko) | 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법 | |
KR102194194B1 (ko) | 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 | |
CN115884032A (zh) | 一种后馈式耳机的智慧通话降噪方法及系统 | |
CN113851142A (zh) | 用于高性能tws蓝牙音频芯片的降噪方法、系统和电子设备 | |
CN113593598A (zh) | 音频放大器在待机状态下的降噪方法、装置和电子设备 | |
KR20220157965A (ko) | 적응형 네트워크를 이용한 앰비소닉 계수들 변환 | |
CN110570877B (zh) | 手语视频生成方法、电子设备及计算机可读存储介质 | |
CN114007169B (zh) | 用于tws蓝牙耳机的音频调节方法、系统和电子设备 | |
CN112599147A (zh) | 音频降噪传输方法、装置、电子设备和计算机可读介质 | |
US20190214037A1 (en) | Recommendation device, recommendation method, and non-transitory computer-readable storage medium storing recommendation program | |
US11783809B2 (en) | User voice activity detection using dynamic classifier | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
CN109872719A (zh) | 一种分级式智能语音系统及其语音处理方法 | |
CN114420158A (zh) | 模型训练方法及装置、目标频响信息确定方法及装置 | |
US10997984B2 (en) | Sounding device, audio transmission system, and audio analysis method thereof | |
CN113299309A (zh) | 语音翻译方法及装置、计算机可读介质和电子设备 | |
EP4380193A1 (en) | Electronic device for performing audio streaming and operating method thereof | |
CN117116289B (zh) | 病区医护对讲管理系统及其方法 | |
CN115376501B (zh) | 语音增强方法及装置、存储介质、电子设备 | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
CN116256981A (zh) | 基于物联网的智能家居控制方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |