具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,在下述附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
本公开基于TWS的蓝牙耳机,更具体的说,应用在采用蓝牙进行音频传输,耳机左右声道之间互相独立且一般无物理连接,构成立体声道的耳机上,主要应用在通勤路上、公共场所以及私人空间的场景内;
如图1所示,一种实现通话降噪的TWS蓝牙耳机,包括:
通过第一采集器采集实时第一音频,并对第一音频进行场景分析,并生成噪音场景;
通过第二采集器采集通话第一音频;
读取预设噪音场景内的噪音特征;
选取噪音场景内的噪音特征对通话第一音频进行特征修正,得到第一修正音频;
通过第三采集器采集通话第二音频;
将第一修正音频与通话第二音频进行重合,得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出。
下面结合具体实施例对本发明进行详细阐述;
实施1
当使用场景为通勤路上时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处通勤路上的全部音频信息,可以是汽车引擎声、飞机引擎声、汽车鸣笛声、轮胎轮噪声、轮渡引擎声等;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以时地铁站、飞机场、汽车站、火车站等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为8min,该音频信号包括400个关键点,分别为关键点1,关键点2,……,关键点399和关键点400,关键点1的时间信息为2秒(s),关键点2的时间信息为4s,关键点3的时间信息为5.5s,关键点5的时间信息为8s,关键点5的时间信息为9s,……,关键点399的时间信息为460s,关键点400的时间信息为470s;
那么蓝牙耳机设备可以将音频文本中[2s,4s)这一时间区间的信号确定为第一音频段,将音频文本中[5.5s,8s)这一时间区间的信号确定为第二音频段,将音频文本中[8s,9s)这一时间区间的信号确定为第三音频段,……,将音频文本中[460s,470s)这一时间区间的信号确定为第N音频段。
在该实施例中,当设定的抓取点越低则选取到的音频段越多,对应音频文本的解析度越高,但大量的音频段可能导致蓝牙耳机设备耗电量增大,故在具体实施时,抓取点因蓝牙耳机设备不同,选取也不同。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪。
实施2
当使用场景为公共场所时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处公共场所的全部音频信息,可以是交谈声;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以是菜市场、超市、酒店等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为3min,该音频信号包括200个关键点,分别为关键点1,关键点2,……,关键点199和关键点200,关键点1的时间信息为1秒(s),关键点2的时间信息为2s,关键点3的时间信息为3.5s,关键点5的时间信息为4s,关键点5的时间信息为5s,……,关键点199的时间信息为179s,关键点200的时间信息为180s;
那么蓝牙耳机设备可以将音频文本中[1s,2s)这一时间区间的信号确定为第一音频段,将音频文本中[2s,3.5s)这一时间区间的信号确定为第二音频段,将音频文本中[3.5s,4s)这一时间区间的信号确定为第三音频段,……,将音频文本中[179s,180s)这一时间区间的信号确定为第N音频段。
在该实施例中,因为公共场所内较为嘈杂,则在设定的抓取点时,应低于通勤路上的抓取点。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪。
实施3
当使用场景为私人空间时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处私人空间的全部音频信息,可以是猫叫、狗叫、家电工作声音等;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以时地铁站、飞机场、汽车站、火车站等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为8min,该音频信号包括400个关键点,分别为关键点1,关键点2,……,关键点399和关键点400,关键点1的时间信息为2秒(s),关键点2的时间信息为4s,关键点3的时间信息为5.5s,关键点5的时间信息为8s,关键点5的时间信息为9s,……,关键点399的时间信息为460s,关键点400的时间信息为470s;
那么蓝牙耳机设备可以将音频文本中[2s,4s)这一时间区间的信号确定为第一音频段,将音频文本中[5.5s,8s)这一时间区间的信号确定为第二音频段,将音频文本中[8s,9s)这一时间区间的信号确定为第三音频段,……,将音频文本中[460s,470s)这一时间区间的信号确定为第N音频段。
在该实施例中,因为私人空间内噪音较低,所以抓取点的设置可以高于公共场所。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪;
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。