CN113301468B - 一种实现通话降噪的tws蓝牙耳机 - Google Patents

一种实现通话降噪的tws蓝牙耳机 Download PDF

Info

Publication number
CN113301468B
CN113301468B CN202110514685.1A CN202110514685A CN113301468B CN 113301468 B CN113301468 B CN 113301468B CN 202110514685 A CN202110514685 A CN 202110514685A CN 113301468 B CN113301468 B CN 113301468B
Authority
CN
China
Prior art keywords
audio
noise
call
bluetooth headset
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110514685.1A
Other languages
English (en)
Other versions
CN113301468A (zh
Inventor
江正红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Xizhongxi Technology Co Ltd
Original Assignee
Guangdong Xizhongxi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Xizhongxi Technology Co Ltd filed Critical Guangdong Xizhongxi Technology Co Ltd
Priority to CN202110514685.1A priority Critical patent/CN113301468B/zh
Publication of CN113301468A publication Critical patent/CN113301468A/zh
Application granted granted Critical
Publication of CN113301468B publication Critical patent/CN113301468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/105Manufacture of mono- or stereophonic headphone components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Headphones And Earphones (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种实现通话降噪的TWS蓝牙耳机,本发明属于TWS蓝牙耳机领域,涉及通话降噪技术,用于解决TWS蓝牙耳机无法更具使用场景进行智能降噪的的问题,本申请实施例通过对音频文本进行关键点检测,得到各个关键点在音频文本中的位置,将音频文本中相邻关键点之间的信号确定为音频段,使用预设音频特征提取算法对各个音频段进行音频特征提取,得到各个音频段的音频向量,将各个音频向量进行组合,得到音频信号的音频特征。因此基于关键点对音频文本进行分段,可确保音频文本的结构完整性。另外,将音频文本中相邻节拍点之间的信号确定为音频段,可有效缩短音频特征长度,提高蓝牙耳机设备的处理能效,进而提升降噪水平。

Description

一种实现通话降噪的TWS蓝牙耳机
技术领域
本发明属于TWS蓝牙耳机领域,涉及通话降噪技术,具体是一种实现通话降噪的TWS蓝牙耳机。
背景技术
双麦克风降噪技术是大规模应用的最普遍的降噪技术,一个麦克风为普通的用户通话时使用的麦克风,用于收集人声,而另一个配置在机身顶端的麦克风,具备背景噪声采集功能,方便采集周围环境噪音。
手机设有A、B两个性能相同的电容式麦克风,其中A是主话筒,用于拾取通话的语音,话筒B是背景声拾音话筒,它通常安装在手机话筒的背面,并且远离A话筒,两个话筒在内部有主板隔离。正常语音通话时,嘴巴靠近话筒A,它产生较大的音频信号Va,与此同时,话筒B多多少少也会得到一些语音信号Vb,但它要比A小得多,这两个信号输入话筒处理器,其输入端是个差分放大器,也就是把两路信号相减后再放大,于是得到的信号是Vm=Va-Vb。在使用环境中有背景噪音,因为音源是远离手机的,所以到达手机的两个话筒时声波的强度几乎是一样的,也就是Va≈Vb,于是对于背景噪音,两个话筒虽然是都拾取了,但Vm=Va-Vb≈0上面的分析可以看出,这样的设计可以有效地抵御手机周边的环境噪声干扰,大大提高正常通话的清晰度。
发明内容
本发明的目的在于提供一种实现通话降噪的TWS蓝牙耳机,用于解决TWS蓝牙耳机无法更具使用场景进行智能降噪的的问题。
本发明的目的可以通过以下技术方案实现:
一种实现通话降噪的TWS蓝牙耳机,包括:
通过第一采集器采集实时第一音频,并对第一音频进行场景分析,并生成噪音场景;
通过第二采集器采集通话第一音频;
读取预设噪音场景内的噪音特征;
选取噪音场景内的噪音特征对通话第一音频进行特征修正,得到第一修正音频;
通过第三采集器采集通话第二音频;
将第一修正音频与通话第二音频进行重合,得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出。
进一步的,所述第一采集器设置在蓝牙耳机的外侧,所述第一音频为连续的环境语音信号。
进一步的,所述进行场景分析之前还包括:
预先采集若干个场景内的音频文本;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
将所述音频文本中相邻关键点之间的文本确定为音频段;
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
进一步的,所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
将实时音频特征与预设音频特征进行对比,得出噪音场景。
进一步的,所述第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
所述通话第一音频为若干采集者的通信音频。
进一步的,所述读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;将所述平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征。
进一步的,所述对通话第一音频进行特征修正包括:
获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
进一步的,所述第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
所述通话第二音频为若干采集者的骨传导通信音频。
进一步的,所述将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
进一步的,所述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
与现有技术相比,本发明的有益效果是:
本申请实施例通过对音频文本进行关键点检测,得到各个关键点在音频文本中的位置,将音频文本中相邻关键点之间的信号确定为音频段,使用预设音频特征提取算法对各个音频段进行音频特征提取,得到各个音频段的音频向量,将各个音频向量进行组合,得到音频信号的音频特征。因此基于关键点对音频文本进行分段,可确保音频文本的结构完整性。另外,将音频文本中相邻节拍点之间的信号确定为音频段,可有效缩短音频特征长度,提高蓝牙耳机设备的处理能效,进而提升降噪水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,在下述附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
本公开基于TWS的蓝牙耳机,更具体的说,应用在采用蓝牙进行音频传输,耳机左右声道之间互相独立且一般无物理连接,构成立体声道的耳机上,主要应用在通勤路上、公共场所以及私人空间的场景内;
如图1所示,一种实现通话降噪的TWS蓝牙耳机,包括:
通过第一采集器采集实时第一音频,并对第一音频进行场景分析,并生成噪音场景;
通过第二采集器采集通话第一音频;
读取预设噪音场景内的噪音特征;
选取噪音场景内的噪音特征对通话第一音频进行特征修正,得到第一修正音频;
通过第三采集器采集通话第二音频;
将第一修正音频与通话第二音频进行重合,得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出。
下面结合具体实施例对本发明进行详细阐述;
实施1
当使用场景为通勤路上时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处通勤路上的全部音频信息,可以是汽车引擎声、飞机引擎声、汽车鸣笛声、轮胎轮噪声、轮渡引擎声等;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以时地铁站、飞机场、汽车站、火车站等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为8min,该音频信号包括400个关键点,分别为关键点1,关键点2,……,关键点399和关键点400,关键点1的时间信息为2秒(s),关键点2的时间信息为4s,关键点3的时间信息为5.5s,关键点5的时间信息为8s,关键点5的时间信息为9s,……,关键点399的时间信息为460s,关键点400的时间信息为470s;
那么蓝牙耳机设备可以将音频文本中[2s,4s)这一时间区间的信号确定为第一音频段,将音频文本中[5.5s,8s)这一时间区间的信号确定为第二音频段,将音频文本中[8s,9s)这一时间区间的信号确定为第三音频段,……,将音频文本中[460s,470s)这一时间区间的信号确定为第N音频段。
在该实施例中,当设定的抓取点越低则选取到的音频段越多,对应音频文本的解析度越高,但大量的音频段可能导致蓝牙耳机设备耗电量增大,故在具体实施时,抓取点因蓝牙耳机设备不同,选取也不同。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪。
实施2
当使用场景为公共场所时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处公共场所的全部音频信息,可以是交谈声;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以是菜市场、超市、酒店等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为3min,该音频信号包括200个关键点,分别为关键点1,关键点2,……,关键点199和关键点200,关键点1的时间信息为1秒(s),关键点2的时间信息为2s,关键点3的时间信息为3.5s,关键点5的时间信息为4s,关键点5的时间信息为5s,……,关键点199的时间信息为179s,关键点200的时间信息为180s;
那么蓝牙耳机设备可以将音频文本中[1s,2s)这一时间区间的信号确定为第一音频段,将音频文本中[2s,3.5s)这一时间区间的信号确定为第二音频段,将音频文本中[3.5s,4s)这一时间区间的信号确定为第三音频段,……,将音频文本中[179s,180s)这一时间区间的信号确定为第N音频段。
在该实施例中,因为公共场所内较为嘈杂,则在设定的抓取点时,应低于通勤路上的抓取点。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪。
实施3
当使用场景为私人空间时;
通过第一采集器采集实时第一音频,其中,第一采集器设置在蓝牙耳机的外侧,更具体,第一采集器设置在蓝牙耳机的外侧且靠近中部的位置,第一音频为连续的环境语音信号;
在本实施例中,第一音频具体为,采集者与蓝牙耳机建立数据连接后,蓝牙耳机开始采集连续的环境语音信号;
具体的,连续的环境语音信号为采集者所处私人空间的全部音频信息,可以是猫叫、狗叫、家电工作声音等;
对第一音频进行场景分析,并生成噪音场景,但在进行场景分析之前还包括:
预先采集若干个场景内的音频文本;其中,若干个场景包括通勤路上的使用场景;
音频文本为通勤路上的连续采集音频,采集点可以时地铁站、飞机场、汽车站、火车站等;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
具体实现中,蓝牙耳机设备可以使用预设关键点跟踪算法对音频文本进行关键点检测,得到各个关键点在音频文本中的位置。
上述音频文本可以为蓝牙耳机设备中存储的音频信号,或者从其他电子设备接收到的音频文本,或者通过互联网获取到的音频文本,具体不受本申请实施例的限制。
示例性的,蓝牙耳机设备可以将音频文本作为输入参数,预设关键点跟踪算法对该输入参数进行处理,得到各个关键点的时间信息,蓝牙耳机设备可以基于时间信息确定对应关键点在音频文本中的位置。
更具体的,上述预设关键点跟踪算法具体为,设定抓取点,对输入预设关键点跟踪算法的音频文本进行图形展示,其中,图形可以为波形图、柱状图以及点阵图;以抓取点为基准点得到基准线,此时图形内越过基准线的点即为关键点。
将所述音频文本中相邻关键点之间的文本确定为音频段;
具体实现中,假设音频文本的时长为8min,该音频信号包括400个关键点,分别为关键点1,关键点2,……,关键点399和关键点400,关键点1的时间信息为2秒(s),关键点2的时间信息为4s,关键点3的时间信息为5.5s,关键点5的时间信息为8s,关键点5的时间信息为9s,……,关键点399的时间信息为460s,关键点400的时间信息为470s;
那么蓝牙耳机设备可以将音频文本中[2s,4s)这一时间区间的信号确定为第一音频段,将音频文本中[5.5s,8s)这一时间区间的信号确定为第二音频段,将音频文本中[8s,9s)这一时间区间的信号确定为第三音频段,……,将音频文本中[460s,470s)这一时间区间的信号确定为第N音频段。
在该实施例中,因为私人空间内噪音较低,所以抓取点的设置可以高于公共场所。
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征。
蓝牙耳机设备可以将各个音频段作为预设人工神经网络的输入,得到输出结果,输出结果包括各个音频段的音频向量。
其中,人工神经网络是一种利用反向传播算法使得输出序列等于输入序列的神经网络,即先将输入序列压缩成潜在空间表征,然后通过这种表征来重构输出序列,输出序列是对输入序列的更加有效的表示。
示例性的,蓝牙耳机设备可以将某一音频段作为预设人工神经网络的输入序列,预设人工神经网络可以使用seq2seq模型对输入序列进行处理,得到输出序列,该输出序列为文本序列,电子设备可以将该输出序列确定为该音频段的音频向量。
同时电子设备还可以通过预设人工神经网络使用LSTM模型对各个音频段进行处理,得到输出结果。
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
在得出音频向量后,蓝牙耳机设备将各个音频段的音频向量按照各个音频段的时间顺序进行组合,得到音频信号的实时音频特征。
例如,假设音频文本获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段,第一音频段的音频向量为第一音频向量,第二音频段的音频向量为第二音频向量,第三音频段的音频向量为第三音频向量,那么蓝牙耳机设备可以将第一音频向量、第二音频向量和第三音频向量进行组合,得到音频信号的实时音频特征,其中实时音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。
将实时音频特征与预设音频特征进行对比,得出噪音场景。
示例性的,通过预先采集音频文本并获取音频文本的实时音频特征,并与预设音频特征进行对比,得出噪音场景。
通过第二采集器采集通话第一音频;
再具体实现时,第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
示例性的,通话第一音频为若干采集者的通信音频;
读取预设噪音场景内的噪音特征,但在读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;
示例性的,选取通信音频前3秒的音频为采集音频,此时获取前3秒音频的平均音频值;
上述平均音频值为单位时间内对应音频的音量与单位时间次数的商;
将平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征;
示例性的,通过平均音频值为节点,此时,将预设音频特征转化为音频文件,此时音频文件内高于节点的音频既为噪音特征;
此时,获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
通过第三采集器采集通话第二音频,第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
上述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
示例性的,通话第二音频为若干采集者的骨传导通信音频。
将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
示例性的,因为通话第二音频采用骨传导采集通信音频,故与第一修正音频会存在时间差;
此时通过计算通话第二音频的相似点采集时间与第一修正音频的相似点采集时间的时间间隔即可得时间差;
上述相似点为第一修正音频与通话第二音频前1-3秒音频文本中最突出的音频信息。
将第一修正音频与通话第二音频进行重合,得到重混音频;
示例性的,将时间差加入第一修正音频后,使得第一修正音频内的相似点与通话第二音频内的相似点重合,此时,将第一修正音频与通话第二音频进行重合得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出完成降噪;
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (7)

1.一种实现通话降噪的TWS蓝牙耳机,其特征在于,包括:
通过第一采集器采集实时第一音频,并对第一音频进行场景分析,并生成噪音场景;
通过第二采集器采集通话第一音频;
读取预设噪音场景内的噪音特征;
选取噪音场景内的噪音特征对通话第一音频进行特征修正,得到第一修正音频;
通过第三采集器采集通话第二音频;
将第一修正音频与通话第二音频进行重合,得到重混音频;
计算重混音频中各个频点的信噪比,并进行加权处理得到输出音频,将输出音频转换到时域并输出;
所述进行场景分析之前还包括:
预先采集若干个场景内的音频文本;
对音频文本进行关键点检测,得到各个关键点在所述音频文本中的位置;
将所述音频文本中相邻关键点之间的文本确定为音频段;
获取音频段内响动,得到各个所述音频段的音频向量,将各个所述音频向量进行组合,得到预设音频特征;
所述对第一音频进行场景分析,并生成噪音场景,包括:
获取实时第一音频的音频向量,并进行组合,得到实时音频特征;
将实时音频特征与预设音频特征进行对比,得出噪音场景;
所述第三采集器设置在耳机的内侧靠近耳朵内腔的位置;
所述通话第二音频为若干采集者的骨传导通信音频。
2.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述第一采集器设置在蓝牙耳机的外侧,所述第一音频为连续的环境语音信号。
3.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述第二采集器设置在蓝牙耳机的外侧且靠近采集者的嘴部;
所述通话第一音频为若干采集者的通信音频。
4.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述读取预设噪音场景内的噪音特征之前还包括:
获取通信音频的平均音频值;将所述平均音频值作为筛选条件,筛选对应噪音场景的预设音频特征,得出噪音特征。
5.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述对通话第一音频进行特征修正包括:
获取噪音特征,将噪音特征与通话第一音频吻合,剔除高于噪音特征的通信特征,完成修正得到第一修正音频。
6.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述将第一修正音频与通话第二音频进行重合之前还包括:获取第一修正音频与通话第二音频的相似点。
7.根据权利要求1所述的一种实现通话降噪的TWS蓝牙耳机,其特征在于,所述通话第一音频与通话第二音频还包括平稳态噪声和瞬态噪声。
CN202110514685.1A 2021-05-12 2021-05-12 一种实现通话降噪的tws蓝牙耳机 Active CN113301468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110514685.1A CN113301468B (zh) 2021-05-12 2021-05-12 一种实现通话降噪的tws蓝牙耳机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110514685.1A CN113301468B (zh) 2021-05-12 2021-05-12 一种实现通话降噪的tws蓝牙耳机

Publications (2)

Publication Number Publication Date
CN113301468A CN113301468A (zh) 2021-08-24
CN113301468B true CN113301468B (zh) 2024-05-31

Family

ID=77321439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110514685.1A Active CN113301468B (zh) 2021-05-12 2021-05-12 一种实现通话降噪的tws蓝牙耳机

Country Status (1)

Country Link
CN (1) CN113301468B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000261530A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
CN103219011A (zh) * 2012-01-18 2013-07-24 联想移动通信科技有限公司 降噪方法、装置与通信终端
CN104240719A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
CN108429963A (zh) * 2018-05-08 2018-08-21 歌尔股份有限公司 一种耳机及降噪方法
CN110265056A (zh) * 2019-06-11 2019-09-20 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
CN110688520A (zh) * 2019-09-20 2020-01-14 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法、装置及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000261530A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
CN103219011A (zh) * 2012-01-18 2013-07-24 联想移动通信科技有限公司 降噪方法、装置与通信终端
CN104240719A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
CN108429963A (zh) * 2018-05-08 2018-08-21 歌尔股份有限公司 一种耳机及降噪方法
CN110265056A (zh) * 2019-06-11 2019-09-20 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
CN110688520A (zh) * 2019-09-20 2020-01-14 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法、装置及介质

Also Published As

Publication number Publication date
CN113301468A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
EP3852106A1 (en) Sound processing method, apparatus and device
CN111883091B (zh) 音频降噪方法和音频降噪模型的训练方法
US20230352038A1 (en) Voice activation detecting method of earphones, earphones and storage medium
CN112509549B (zh) 用于环境噪声的主动降噪方法
CN112992169B (zh) 语音信号的采集方法、装置、电子设备以及存储介质
CN110708625A (zh) 基于智能终端的环境声抑制与增强可调节耳机系统与方法
CN101430882A (zh) 一种抑制风噪声的方法及装置
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
CN108022597A (zh) 一种声音处理系统、方法及车辆
CN108769400A (zh) 一种定位录音的方法及装置
CN101996639A (zh) 音频信号分离装置及其操作方法
CN111508531A (zh) 音频处理方法及装置
CN101447189A (zh) 一种语音干扰方法
CN113301468B (zh) 一种实现通话降噪的tws蓝牙耳机
CN101867853B (zh) 基于传声器阵列的语音信号处理方法及装置
CN112735382A (zh) 音频数据处理方法、装置、电子设备及可读存储介质
CN213547829U (zh) 麦克风的电路结构及终端
CN113808566B (zh) 振动噪音处理方法、装置、电子设备及存储介质
CN105910702A (zh) 一种基于相位补偿的异步头相关传输函数测量方法
CN108495186A (zh) 视频标记方法及相关产品
CN116055951A (zh) 信号处理方法和电子设备
CN114550729A (zh) 哭声检测模型的训练方法、装置、电子设备及存储介质
CN207518801U (zh) 用于脖戴式语音交互耳机的远程音乐播放装置
CN113099338A (zh) 一种智能控制的音频芯片及无线降噪耳机
CN206282615U (zh) 一种立体声录音执法仪

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240430

Address after: Building 7, 8, and 22, No.1 Jizhou Middle Road, Daojiao Town, Dongguan City, Guangdong Province, 523000

Applicant after: Guangdong xizhongxi Technology Co.,Ltd.

Country or region after: China

Address before: 518000 7th floor, building D, jinbolong Industrial Zone, No.1 Huayun Road, Yucui community, Longhua street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN MEIEN MICROELECTRONICS Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant