CN112908353A - 用于助听器的边缘计算与云计算相结合的语音增强方法 - Google Patents
用于助听器的边缘计算与云计算相结合的语音增强方法 Download PDFInfo
- Publication number
- CN112908353A CN112908353A CN202110149675.2A CN202110149675A CN112908353A CN 112908353 A CN112908353 A CN 112908353A CN 202110149675 A CN202110149675 A CN 202110149675A CN 112908353 A CN112908353 A CN 112908353A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- speech
- network
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种用于助听器的边缘计算与云计算相结合的语音增强方法,包括步骤:利用纯净语音数据与噪声数据,根据不同信噪比合成带噪语音,形成云计算用的语音数据;利用云计算用的语音数据训练神经网络,通过不断优化网络结构与网络各层参数,得到语音增强网络;将得到的语音增强网络应用于边缘设备助听器中进行边缘计算,获取实时语音预处理,输入语音增强网络,得到增益,然后将增益与带噪语音数据相运算,得到增强后的语音数据。本发明将云计算与边缘计算相结合,实现了数字助听器的语音增强。
Description
技术领域
本发明属于助听器噪声消除算法以及音频信号处理技术领域,具体涉及用于助听器的边缘计算与云计算相结合的语音增强方法。
背景技术
听力损失是现今常见的几种慢性疾病之一,尤其多发于老年人。我国是世界上听力残疾人数最多的国家。据统计,我国的听力残疾人约2780万人,占全国残疾人的30%以上,而佩戴助听器是现阶段除药物治疗外最主要的治疗方式。
在助听器的使用过程中,会处于各种不同的环境中,助听器不可避免地会受到周边语音环境的影响,使得用户听到的语音信号的清晰度下降,极大地影响了助听器助听的功能。传统的助听器语音增强算法难以应对生活中较为常见的非平稳噪声,因此助听器的语音增强功能至关重要。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种用于助听器的边缘计算与云计算相结合的语音增强方法,将云计算与边缘计算相结合,用于数字助听器的语音增强。
为实现本发明的目的所采用的技术方案是:
一种用于助听器的边缘计算与云计算相结合的语音增强方法,包括步骤:
利用纯净语音数据与噪声数据,根据不同信噪比合成带噪语音,形成云计算用的语音数据;
利用云计算用的语音数据训练神经网络,通过不断优化网络结构与网络各层参数,得到语音增强网络;
将得到的语音增强网络应用于边缘设备助听器中进行边缘计算,获取实时语音预处理,输入语音增强网络,得到增益,然后将增益与带噪语音数据相运算,与带噪语音的相位进行波形重构输出增强后的语音数据。
其中,利用语音数据训练神经网络的数据处理方法如下:
对语音数据特征提取,包括对语音数据分帧、加窗处理,得到语音数据分帧、加窗后的时域采样点数据;对时域采样点数据进行梅尔通道数划分;
计算每个梅尔通道语音数据的对数能量与增益,并作为神经网络的输入与输出,对所述神经网络进行训练。
其中,所述增益的计算方法如下:
G=(Es/Ey)1/2
其中,G为增益,Es为纯净语音的能量,Ey为带噪语音的能量,y(t)为带噪语音的幅度,s(t)为纯净语音的幅度,y(t)为带噪语音的幅度,N为语音数据的长度。
其中,所述梅尔通道数根据以下方法划分:
mi=2840*i/n,
其中,n为总通道数;
Fs>=2fmax,
其中,Fs为信号的采样率,语音最大频率fmax为8KHz;
m=1127Ln(1+f/700),
其中,f为语音频率,m为对应的音高,梅尔范围为0-2840Mel,将该梅尔范围按照频段数平均划分,得到梅尔边界向量[0,m1,m2....mi,2840]。
其中,所述增强后语音数据获取公式如下:
S(t)=G·y(t)
其中,G为增益,y(t)为带噪语音数据。
本发明将边缘计算与云计算结合起来,由于分别训练不同噪声环境下的网络,因此可做到环境自适应,即不同环境下采用相同的网络结构,不同的网络参数,然后交由边缘端的神经网络处理,得出输出增益值,以便助听器进行语音降噪、语音识别等进一步语音处理。本发明还可记录边缘端接收到的语音进行上传到云端,有助于进一步改良网络的性能。
附图说明
图1是本发明用于助听器的边缘计算与云计算相结合的语音增强方法的整体流程图。
图2是本发明所用的云计算与边缘计算的系统结构示意图。
图3是本发明的云计算结构示意图。
图4是本发明的边缘计算结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
本发明利用云计算平台构建一种计算力更强、处理复杂性更高的云训练平台,以解决现有助听器计算力不足、处理能力弱等问题,此外,将边缘计算应用于助听器,边缘计算将云训练效果最优秀的方法应用于助听器,其复杂性低,更加适用于助听器这样的实时处理设备。
本发明用于助听器的边缘计算与云计算相结合的语音增强方法,其是通过将助听器接收到的语音信号进行预处理后,交由云端发送给边缘端的RNN循环神经网络进行运算,从而得出语音的增益值。
如图1所示,本发明用于助听器的边缘计算与云计算相结合的语音增强方法,包括以下步骤:
利用纯净语音数据与噪声数据,根据不同信噪比合成带噪语音,形成云计算用的语音数据;
利用云计算用的语音数据RNN循环训练神经网络,通过不断优化网络结构与网络各层参数,得到语音增强网络;
将得到的语音增强网络应用于边缘设备助听器中进行边缘计算,边缘端获取助听器收集到实时语音预处理,输入RNN语音增强网络(即训练好的RNN循环训练神经网络),得到增益,然后将增益与带噪语音数据相运算进行后处理,之后再将提取带噪语音的特征数据与带噪语音的相位进行波形重构,输出增强后的语音数据。
使用时,将助听器收集到的语音数据预处理,提取特征后,输入到RNN循环训练神经网络计算相应的增益输出到,然后将增益与带噪语音数据相运算进行后处理,之后再将提取带噪语音的特征数据与带噪语音的相位进行波形重构,输出增强后的语音数据。
本发明中,在云端是将语音数据经过预处理的特征提取后作为RNN循环神经网络的输入,语音的增益为输出,对RNN神经网络进行训练,并将训练完成后的RNN神经网络应用于数字助听器中。
本发明中,所述的带噪语音数据,是由助听器所采集后传送云端以实现云计算使用。
其中,利用语音数据RNN循环训练神经网络的数据处理方法如下:
对语音数据特征提取,包括对语音数据分帧、加窗处理,得到语音数据分帧、加窗后的时域采样点数据;对时域采样点数据进行梅尔通道数划分;
计算每个梅尔通道语音数据的对数能量与增益,并作为神经网络的输入与输出,对所述神经网络进行训练。
本发明中,所述的助听器处于助听模式时,所述的助听器将不再依靠云计算,而是依赖于边缘计算,通过将助听器收集到的带噪语音数据作为输入,经过相应的特征提取的步骤,便能经过RNN循环神经网络算出增益,利用后处理,即将增益值与带噪语音数据相乘,与带噪语音的相位进行波形重构输出增强后的语音。其中,使用带噪语音的相位进行波形重构的原因是人耳对于相位信息的表现不敏感。
其中,所述的增益(Gain)的计算方法如下:
G=(Es/Ey)1/2
其中,G为增益,Es为纯净语音的能量,Ey为带噪语音的能量,s(t)为纯净语音的幅度,y(t)为带噪语音的幅度,N为语音数据的长度。
其中,所述梅尔通道数根据以下方法划分:
mi=2840*i/n,
其中,n为总通道数;
Fs>=2fmax,
其中,Fs为信号的采样率,语音最大频率fmax为8KHz;
m=1127Ln(1+f/700),
其中,f为语音频率,m为对应的音高,梅尔范围为0-2840Mel,将该梅尔范围按照频段数平均划分,得到梅尔边界向量[0,m1,m2....mi,2840]。
其中,所述增强后语音数据获取公式如下:
S(t)=G·y(t)
其中,G为增益,y(t)为带噪语音数据。
图2是本发明用于语音增强的云计算与边缘计算的系统结构示意图。如图2所示,由云计算进行网络的搭建与训练,之后发送给边缘计算;而边缘计算利用网络结构进行相应的语音增强,并把接受到的带噪语音数据发送到云端,便于网络的优化。
图3是本发明用于语音增强的云计算结构示意图。如图3所示,神经网络分为输入层、隐藏层、输出层三层。云计算分为两个过程:前向传播与反向传播;表达式如下:
Y=activation(w*x+b),
式中,w为神经网络隐藏层的权重,b为偏置,activation为所使用的激活函数,Y为前向传播的输出。反向传播即利用损失函数的导数来来寻找其最优值,损失函数越小,表明训练的网络性能越优秀。
图4所示是本发明用于语音增强的边缘计算结构示意图。如图4所示,即带噪语音输入到预先训练好的网络中,计算出增强的语音增益。相比于云计算,边缘计算的复杂度明显更低、所需计算力更小,能够用于实时的助听器系统中。
本发明将边缘计算与云计算运用于助听器语音增强算法中,由于将复杂的网络训练运用在云端,避免了高复杂度,使得算法具有低复杂性、实时性强的优势,此外,本发明采用环境自适应的语音增强,即分别训练不同噪声环境下的网络,这样可以大大提高语音增强的准确率,大大提升助听器使用者的使用体验。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.用于助听器的边缘计算与云计算相结合的语音增强方法,包括步骤:
利用纯净语音数据与噪声数据,根据不同信噪比合成带噪语音,形成云计算用的语音数据;
利用云计算用的语音数据训练神经网络,通过不断优化网络结构与网络各层参数,得到语音增强网络;
将得到的语音增强网络应用于边缘设备助听器中进行边缘计算,获取实时语音预处理,输入语音增强网络,得到增益,然后将增益与带噪语音数据相运算,与带噪语音的相位进行波形重构输出增强后的语音数据。
2.根据权利要求1所述用于助听器的边缘计算与云计算相结合的语音增强方法,其特征在于,利用语音数据训练神经网络的数据处理方法如下:
对语音数据特征提取,包括对语音数据分帧、加窗处理,得到语音数据分帧、加窗后的时域采样点数据;对时域采样点数据进行梅尔通道数划分;
计算每个梅尔通道语音数据的对数能量与增益,并作为神经网络的输入与输出,对所述神经网络进行训练。
4.根据权利要求2所述用于助听器的边缘计算与云计算相结合的语音增强方法,其特征在于,所述梅尔通道数根据以下方法划分:
mi=2840*i/n,
其中,n为总通道数;
Fs>=2fmax,
其中,Fs为信号的采样率,语音最大频率fmax为8KHz;
m=1127Ln(1+f/700),
其中,f为语音频率,m为对应的音高,梅尔范围为0-2840Mel,将该梅尔范围按照频段数平均划分,得到梅尔边界向量[0,m1,m2....mi,2840]。
5.根据权利要求1所述用于助听器的边缘计算与云计算相结合的语音增强方法,其特征在于,所述增强后语音数据获取公式如下:
S(t)=G·y(t)
其中,G为增益,y(t)为带噪语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110149675.2A CN112908353A (zh) | 2021-02-03 | 2021-02-03 | 用于助听器的边缘计算与云计算相结合的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110149675.2A CN112908353A (zh) | 2021-02-03 | 2021-02-03 | 用于助听器的边缘计算与云计算相结合的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908353A true CN112908353A (zh) | 2021-06-04 |
Family
ID=76121819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110149675.2A Pending CN112908353A (zh) | 2021-02-03 | 2021-02-03 | 用于助听器的边缘计算与云计算相结合的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908353A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954570A (zh) * | 2021-02-20 | 2021-06-11 | 深圳市智听科技有限公司 | 融合边缘计算与云计算的助听方法、装置、设备及介质 |
CN113393852A (zh) * | 2021-08-18 | 2021-09-14 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782497A (zh) * | 2016-11-30 | 2017-05-31 | 天津大学 | 一种基于便携式智能终端的智能语音降噪算法 |
CN108694938A (zh) * | 2017-03-31 | 2018-10-23 | 英特尔公司 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
CN111405234A (zh) * | 2020-04-17 | 2020-07-10 | 杭州大轶科技有限公司 | 一种云端和边缘计算融合的视频会议信息系统和方法 |
CN111830408A (zh) * | 2020-06-23 | 2020-10-27 | 朗斯顿科技(北京)有限公司 | 一种基于边缘计算和深度学习的电机故障诊断系统及方法 |
WO2020246649A1 (ko) * | 2019-06-07 | 2020-12-10 | 엘지전자 주식회사 | 엣지 컴퓨팅 디바이스에서 음성 인식 방법 |
-
2021
- 2021-02-03 CN CN202110149675.2A patent/CN112908353A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782497A (zh) * | 2016-11-30 | 2017-05-31 | 天津大学 | 一种基于便携式智能终端的智能语音降噪算法 |
CN108694938A (zh) * | 2017-03-31 | 2018-10-23 | 英特尔公司 | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 |
WO2020246649A1 (ko) * | 2019-06-07 | 2020-12-10 | 엘지전자 주식회사 | 엣지 컴퓨팅 디바이스에서 음성 인식 방법 |
CN111405234A (zh) * | 2020-04-17 | 2020-07-10 | 杭州大轶科技有限公司 | 一种云端和边缘计算融合的视频会议信息系统和方法 |
CN111830408A (zh) * | 2020-06-23 | 2020-10-27 | 朗斯顿科技(北京)有限公司 | 一种基于边缘计算和深度学习的电机故障诊断系统及方法 |
Non-Patent Citations (1)
Title |
---|
张雨晨 等: "《基于循环神经网络与子带谱熵法的助听器语音增强》", 《传感技术学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954570A (zh) * | 2021-02-20 | 2021-06-11 | 深圳市智听科技有限公司 | 融合边缘计算与云计算的助听方法、装置、设备及介质 |
CN112954570B (zh) * | 2021-02-20 | 2022-10-25 | 深圳市智听科技有限公司 | 融合边缘计算与云计算的助听方法、装置、设备及介质 |
CN113393852A (zh) * | 2021-08-18 | 2021-09-14 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN113393852B (zh) * | 2021-08-18 | 2021-11-05 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741849B (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
WO2022160593A1 (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN103236260B (zh) | 语音识别系统 | |
CN109195042B (zh) | 低功耗的高效降噪耳机及降噪系统 | |
CN112908353A (zh) | 用于助听器的边缘计算与云计算相结合的语音增强方法 | |
JP2004029754A (ja) | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 | |
CN106782497A (zh) | 一种基于便携式智能终端的智能语音降噪算法 | |
CN110148419A (zh) | 基于深度学习的语音分离方法 | |
CN105575403A (zh) | 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 | |
WO2020087716A1 (zh) | 人工耳蜗听觉场景识别方法 | |
CN107785028A (zh) | 基于信号自相关的语音降噪方法及装置 | |
TWI819478B (zh) | 具端至端神經網路之聽力裝置及音訊處理方法 | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN103475986A (zh) | 基于多分辨率小波的数字助听器语音增强方法 | |
CN101867853B (zh) | 基于传声器阵列的语音信号处理方法及装置 | |
CN111225317B (zh) | 一种回声消除方法 | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
Zaman et al. | Classification of Harmful Noise Signals for Hearing Aid Applications using Spectrogram Images and Convolutional Neural Networks | |
JP2003510665A (ja) | 適応フィルタリングアルゴリズムを用いるデエッサーのための装置および方法 | |
JP2008209445A (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN109862498A (zh) | 一种基于卷积神经网络的数字助听器声源定向方法 | |
CN111028857B (zh) | 基于深度学习的多通道音视频会议降噪的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210604 |