CN117692855A - 一种助听器语音质量评价方法及系统 - Google Patents

一种助听器语音质量评价方法及系统 Download PDF

Info

Publication number
CN117692855A
CN117692855A CN202311691041.5A CN202311691041A CN117692855A CN 117692855 A CN117692855 A CN 117692855A CN 202311691041 A CN202311691041 A CN 202311691041A CN 117692855 A CN117692855 A CN 117692855A
Authority
CN
China
Prior art keywords
hearing aid
time
real
network
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311691041.5A
Other languages
English (en)
Inventor
鲍武辉
许凤玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ziqing Medical Instrument Co ltd
Original Assignee
Shenzhen Ziqing Medical Instrument Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ziqing Medical Instrument Co ltd filed Critical Shenzhen Ziqing Medical Instrument Co ltd
Priority to CN202311691041.5A priority Critical patent/CN117692855A/zh
Publication of CN117692855A publication Critical patent/CN117692855A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供了一种助听器语音质量评价方法及系统。其中,该方法首先利用助听器采集环境中的声音数据,获得基础声音成分。基于这些基础声音成分,捕获声音成分之间的关联强度。通过分析这一复杂网络的网络特性,该方法能够生成一个动态语音评价指数。该动态语音评价指数和助听器采集的实时语音数据一起被输入到一个长短时记忆网络中。该网络输出一个实时语音质量评价指数,根据这一指数,调整助听器的各项参数。最后,该方法还考虑到了用户的生理参数和反馈数据,综合生成最终的语音质量评价指数。这一综合评价不仅反映了当前的语音质量,还融合了用户个性化需求和生理状态,从而能够为用户提供更加个性化和精准的助听方案。

Description

一种助听器语音质量评价方法及系统
技术领域
本发明涉及语音质量评价技术领域,特别涉及一种助听器语音质量评价方法及系统。
背景技术
助听器是一种用于改善听力障碍人群听觉体验的医疗设备。然而,传统的助听器往往只能在预设或有限的环境条件下表现得相对理想。例如,它们在嘈杂环境或者多人对话情境下的性能可能并不理想。更重要的是,传统助听器通常没有充分考虑到用户个体差异,如生理参数和个人反馈,这些因素实际上在助听体验中起到了重要作用。
为了评价助听器的性能,常见的方法包括使用客观和主观的评价指标。客观指标,如信噪比、频响曲线等,虽然能提供一定程度的评价,但不能全面反映用户在实际使用过程中的体验。主观指标,如用户满意度调查等,受到个体差异和主观感受的影响,缺乏统一性和可比性。
同时,大多数现有的助听器调整方法较为简单,常常是基于预设环境或者用户选择的模式来进行。这些方法没有动态地根据实时的环境变化和用户状态进行优化,因而不能提供最佳的听觉体验。
因此,存在一种迫切需要,即开发一种全新的助听器语音质量评价方法及系统,以解决上述问题。
发明内容
本申请提供一种助听器语音质量评价方法及系统,以提高助听器语音质量评价的准确性。
本申请提供一种助听器语音质量评价方法,包括:
利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声;
依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度;
获得所述复杂网络的网络特性数据,并根据所述网络特性数据获得动态语音评价指数;
将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数;
根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩;
根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
更进一步地,所述利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括:
利用助听器内嵌的麦克风阵列和波束成形技术捕获环境音频数据;
缓存并预处理捕获的音频数据,以去除数字噪声并标准化振幅水平;
执行非负矩阵分解算法,该算法包括将预处理的音频数据构成一个非负矩阵V,初始化两个非负矩阵W和H,并利用梯度下降方法迭代更新W和H矩阵,以最小化V和W*H之间的距离或误差;
在每次非负矩阵分解算法的迭代过程中,评估是否达到了预定的收敛准则或最大迭代次数,并据此决定是否停止迭代;
从迭代后的W和H矩阵中提取出人声和背景噪声的成分,并应用稀疏约束来进一步优化这两个成分,并将优化后的成分保存为独立的音频流或数据结构。
更进一步地,所述依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,包括:
构建代表基础声音成分的节点,其中,每个节点具有三个主要属性:频率范围(F)、持续时间(T)和相对强度(I),并将节点的信息存储在一个数组或数据表中;
定义一个如下的权重函数W(x,y),用于计算任意两个节点之间的关联强度:
W(x,y)=α*|F1-F2|+β*|T1-T2|+γ*|I1-I2|
其中,α、β、γ是权重系数;F1、T1、I1是任意两个节点中第一个节点代表的声音成分的频率,时间以及强度;F2、T2、I2是任意两个节点中第二个节点代表的声音成分的频率,时间以及强度;
应用所设计的权重函数W(x,y),对每一对节点计算关联强度,并用这些计算出的关联强度作为复杂网络中的边权重;
根据构建的节点以及计算出来的边权重,构建一个复杂网络;
使用图优化算法,剔除边权重低于预定阈值的边,以实现网络构建与优化。
更进一步地,所述获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数,包括:
计算复杂网络的邻接矩阵,并通过基于矩阵特征值的算法来获得邻接矩阵的谱半径R和特征熵H;
在特定的时间窗口内,对网络特性进行动态性分析,计算谱半径的变化速度ΔR和特征熵的变化速度ΔH;
根据如下公式计算自适应阈值threshold:
threshold=a·ΔH+b·ΔR
其中,a和b是预设的常数;自适应阈值threshold用于进一步筛选和调整复杂网络;
利用如下公式,计算动态语音评价指数index:
Index=w1×R+w2×H+w3×Threshold
其中,w1、w2和w3是权重系数。
更进一步地,所述将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数,包括:
对实时语音数据进行去噪处理、归一化处理、特征提取以及标准化处理;
构建一个长短时记忆网络,该网络包括三个隐藏层,其中,在每一个隐藏层包括的LSTM单元内部包括一种自适应门控机制,该自适应门控机制根据输入的动态语音评价指数动态调整信息流;
对所述长短时记忆网络进行训练;
将实时采集的语音数据和动态语音评价指数输入到已训练的长短时记忆网络中,输出实时语音质量评价指数。
更进一步地,所述将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数,还包括:
如果实时语音质量评价指数在第一预定时间窗口内的标准偏差超过第一预定阈值,则在所述长短时记忆网络中增加一个隐藏层;
如果实时语音质量评价指数在第二预定时间窗口内的变化幅度小于第二预定阈值,则减小自适应门控机制的权重。
更进一步地,所述根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩,包括:
预先设定三个阈值:0.3、0.6和0.9,并利用这些阈值将实时语音质量评价指数划分为四个区间:差(0-0.3)、一般(0.3-0.6)、好(0.6-0.9)和优秀(0.9-1);
构建一个基于模糊逻辑的决策算法,该算法综合考虑实时语音质量评价指数、环境噪声等级(低、中、高)和用户的年龄及听力状态(一个从0到1的数值)。
根据模糊逻辑决策算法的输出,调整助听器的参数。
更进一步地,所述根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数,包括:
采集用户的生理参数、用户提供的反馈数据以及实时语音质量评价指数;
应用主成分分析算法与傅里叶变换,对采集到的用户的生理参数、用户提供的反馈数据以及实时语音质量评价指数进行特征工程和维度约简;
构建一个能同时处理生理参数、用户反馈和实时语音质量评价指数的多模态神经网络,其中,该多模态神经网络的三个子网络分别负责处理生理参数、用户反馈和语音质量指数,每个子网络都具有两层全连接层,并在全连接层之后设置批标准化层和ReLU激活函数层;该多模态神经网络的三个子网络的输出被送到一个有64个神经元的全连接融合层,该全连接融合层负责综合各个子网络的信息;
利用训练完成后的多模态神经网络,生成语音质量评价指数。
本申请提供一种助听器语音质量评价系统,其特征在于,包括:
处理单元,用于利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声;
构建单元,用于依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度;
获得单元,用于获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数;
应用单元,用于将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数;
调整单元,用于根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩;
生成单元,用于根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
本申请有益的效果包括:(1)通过使用多种数据来源,包括环境声音数据、用户生理参数和用户反馈,本申请提供的方法提供了一个全面的助听器语音质量评价体系。这不仅能准确评估当前的声音环境质量,还能依据用户个体情况进行更为精确的评价。(2)该方法可以实时获取环境声音数据和用户生理参数,并利用长短时记忆网络实时输出语音质量评价指数。这对于助听器用户来说意味着更快的反应时间和更高的舒适度。(3)根据实时语音质量评价指数,助听器的参数如增益、频率响应和动态范围压缩可以被即时调整。这意味着助听器能够自适应地优化其性能,提供更好的用户体验。(4)除了环境声音质量,该方法还考虑了用户生理参数和个人反馈,从而生成更个性化的语音质量评价指数。这样可以确保助听器设置更贴近个体用户的需求和舒适度。(5)使用非负矩阵分解算法和复杂网络理论来处理和分析声音数据,这些算法能够更准确地提取有用信息并进行精准分析。
附图说明
图1是本申请第一实施例提供的一种助听器语音质量评价方法的流程图。
图2是本申请第二实施例提供的一种助听器语音质量评价系统的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种助听器语音质量评价方法。请参看图1,该图为本申请第一实施例的示意图。以下结合图1对本申请第一实施例提供一种助听器语音质量评价方法进行详细说明。
步骤S101:利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声。
步骤S101是整个助听器语音质量评价系统的数据收集和预处理的起始点。在传统方法中,环境噪声和人声通常作为一个整体进行处理或通过简单的滤波,这限制了进行细致的音频调整的能力。通过在这个早期阶段引入非负矩阵分解(NMF)算法,该步骤的方法为后续的音质评估和调整奠定了基础。NMF算法不仅将音频信号分解为人声和背景噪声成分,而且以一种保留原始结构和特性的方式进行,这对质量评估至关重要。
所述利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括:
利用助听器内嵌的麦克风阵列和波束成形技术捕获环境音频数据;
缓存并预处理捕获的音频数据,以去除数字噪声并标准化振幅水平;
执行非负矩阵分解算法,该算法包括将预处理的音频数据构成一个非负矩阵V,初始化两个非负矩阵W和H,并利用梯度下降方法迭代更新W和H矩阵,以最小化V和W*H之间的距离或误差;
在每次非负矩阵分解算法的迭代过程中,评估是否达到了预定的收敛准则或最大迭代次数,并据此决定是否停止迭代;
从迭代后的W和H矩阵中提取出人声和背景噪声的成分,并应用稀疏约束来进一步优化这两个成分,并将优化后的成分保存为独立的音频流或数据结构。
该步骤可以包括如下子步骤:
(1)音频数据收集:助听器内嵌的麦克风阵列捕获环境音频。可以使用高级信号处理技术,如波束成形,以更有效地获取数据。
(2)缓存和预处理:捕获的音频数据存储在设备的内存中并进行预处理,以去除任何数字噪声并标准化振幅水平。
(3)执行NMF算法:预处理后的音频数据然后输入到NMF算法中。该NMF特别针对实时操作和低计算负担进行了优化。
NMF算法具体包括如下步骤:
将预处理的音频数据构成一个非负矩阵V。
初始化两个非负矩阵W和H,其中W的列数与矩阵V的列数相同,H的行数与W的列数相同。
利用逐步近似或梯度下降等方法,迭代更新W和H矩阵,以最小化V和W*H之间的距离或误差。
在每次迭代过程中,评估是否达到了预定的收敛准则或最大迭代次数。如果是,则停止迭代。
(4)成分分离:NMF将原始音频信号分解为两个主要成分:人声和背景噪声。可以应用高级技术,如稀疏约束,以提高分离质量。
首先,从迭代完成后的W和H矩阵中提取出人声和背景噪声的分量。具体而言,W矩阵的某一列可能代表人声,而另一列可能代表背景噪声。
然后,应用稀疏约束或其他先进技术来进一步优化这两个成分。这可以通过添加一个稀疏性正则项到NMF的优化目标函数中来实现。
最后,将这两个优化后的成分保存为独立的音频流或数据结构,以便后续分析。
步骤S102:依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度。
所述依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,包括:
构建代表基础声音成分的节点,其中,每个节点具有三个主要属性:频率范围(F)、持续时间(T)和相对强度(I),并将节点的信息存储在一个数组或数据表中;
定义一个如下的权重函数W(x,y),用于计算任意两个节点之间的关联强度:
W(x,y)=α*|F1-F2|+β*|T1-T2|+γ*|I1-I2|
其中,α、β、γ是权重系数;F1、T1、I1是任意两个节点中第一个节点代表的声音成分的频率,时间以及强度;F2、T2、I2是任意两个节点中第二个节点代表的声音成分的频率,时间以及强度;
应用所设计的权重函数W(x,y),对每一对节点计算关联强度,并用这些计算出的关联强度作为复杂网络中的边权重;
根据构建的节点以及计算出来的边权重,构建一个复杂网络;
使用图优化算法,剔除边权重低于预定阈值的边,以实现网络构建与优化。
该步骤在整个助听器语音质量评价方法中占有重要的地位,它的核心任务是将步骤S101提供的基础声音成分(如人声和背景噪声)用复杂网络的形式进行表示和分析。这不仅增加了声音数据的结构化程度,也为后续的动态和实时语音质量评估提供了有力的理论和数据基础。
具体的实施步骤如下:
(1)构建节点
每个节点代表一个基础声音成分,这些成分从步骤S101的非负矩阵分解中获得。为每个声音成分构建一个节点。每个节点具体包含三个主要属性:频率范围(F),持续时间(T),和相对强度(I)。将这些节点信息存储在一个数组或数据表中,以备后续使用。
(2)设计边的权重计算方式
边的权重(关联强度)通常采用一种基于多因素的计算模型,这个模型不仅考虑频率和持续时间,还可能考虑更多的音频特性。
设计一个权重函数W(x,y),其中x和y是两个不同的声音成分(节点)。权重函数考虑了以下三个方面:频率相似度(F1,F2)、时间重叠(T1,T2)和相对强度差(I1,I2)。
W(x,y)=α*|F1-F2|+β*|T1-T2|+γ*|I1-I2|
其中,α、β、γ是权重系数,需要通过实验数据进行调整。
应用权重函数W(x,y),对每一对声音成分(节点)计算权重。
(3)网络构建与优化
用上述节点和已计算的边权重构建一个初步的全连接或部分连接的复杂网络。使用图优化算法,如最小生成树或社群结构优化,剔除权重低于预定阈值的边。
步骤S103:获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数。
所述获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数,包括:
计算复杂网络的邻接矩阵,并通过基于矩阵特征值的算法来获得矩阵的谱半径R和特征熵H;
在特定的时间窗口内,对网络特性进行动态性分析,计算谱半径的变化速度ΔR和特征熵的变化速度ΔH;
根据如下公式计算自适应阈值threshold:
threshold=a·ΔH+b·ΔR
其中,a和b是预设的常数;自适应阈值threshold用于进一步筛选和调整复杂网络;
利用如下公式,计算动态语音评价指数index:
Index=w1×R+w2×H+w3×Threshold
其中,w1、w2和w3是权重系数。
步骤S103旨在从构建的复杂网络中提取有用的网络特性,然后利用这些特性来计算一个动态语音评价指数。这一指数对于助听器的性能非常关键,因为它能够综合反映环境声音成分(如人声和背景噪声)之间的复杂互动关系,从而为后续的语音质量调整提供更准确的参考。
具体的实施步骤包括:
(1)网络特性的提取:采用基于矩阵特征值的方法来获取网络的核心网络特性,包括但不限于矩阵的谱半径、特征熵等。
在本实施步骤中,首先要使用Python的NumPy库或其他数值计算库来计算复杂网络的邻接矩阵。然后,应用基于矩阵特征值的算法来提取邻接矩阵的谱半径和特征熵。
谱半径R是邻接矩阵所有特征值中绝对值最大的一个。它可通过数值方法如幂迭代法直接计算。
特征熵是所有非零特征值的信息熵。特征值首先被归一化,然后用于计算特征熵H:
H=-∑(pi·log(pi)),其中pi是第i个归一化的特征值。
(2)动态性分析:在特定时间窗口内,计算网络特性的变化速率,如矩阵的谱半径的变化速度、特征熵的变化速度等,以捕捉到声场的动态变化。
在给定的时间窗口(比如,每秒)内,通过比较连续两个窗口(时间t和时间t-1)的谱半径和特征熵来计算它们的变化速率。
谱半径R的变化速度:ΔR=Rt-Rt-1
特征熵H的变化速度:ΔH=Ht-Ht-1
(3)自适应阈值设置:根据网络特性和其动态性,计算一个自适应阈值,该阈值用于进一步筛选和调整网络。比如,如果特征熵突然增大,表示声音场更加复杂,可以提高阈值,以减少网络剪枝,保留更多的信息。
自适应阈值threshold可以通过如下公式计算:
threshold=a·ΔH+b·ΔR
其中a和b是预设的常数,可以通过实验数据获得。
(4)动态语音评价指数的计算:利用上述提取的网络特性和自适应阈值,构建一个复合型动态语音评价指数。该指数是多个网络特性和自适应阈值的加权平均,其中权重可以通过遗传算法进行优化。具体来说,该动态语音评价指数Index可以表示为:
Index=w1×R+w2×H+w3×Threshold
其中,w1、w2和w3是权重系数,其可以通过实验数据获得。
(5)验证和调整:利用实际数据对动态语音评价指数进行验证。如果预测的质量与实际质量有较大偏差,回到第一步,重新调整网络特性提取方法或权重。
通过以上具体的实施步骤,步骤S103不仅用于评价当前助听器捕捉到的声音质量,而且为后续步骤提供了可靠、准确的动态参考,有助于实现个性化的助听器设置。
步骤S104:将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数。
所述将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数,包括:
对实时语音数据进行去噪处理、归一化处理、特征提取以及标准化处理;
构建一个长短时记忆网络,该网络包括三个隐藏层,其中,在每一个隐藏层包括的LSTM单元内部包括一种自适应门控机制,该自适应门控机制根据输入的动态语音评价指数动态调整信息流;
对所述长短时记忆网络进行训练;
将实时采集的语音数据和动态语音评价指数输入到已训练的长短时记忆网络中,输出为实时语音质量评价指数。
在步骤S104中,助听器采集的实时语音数据和之前计算得到的动态语音评价指数被应用于一个长短时记忆(LSTM)网络,目的是获得实时语音质量评价指数。该步骤在助听器语音质量评价体系中具有重要作用,它实时地集成多维信息,并通过深度学习模型提供更精确和个性化的语音质量评价。
具体实施步骤包括:
(1)数据预处理
首先,将实时语音数据进行预处理,包括去噪、归一化和特征提取。与此同时,动态语音评价指数也被标准化,以使其适用于LSTM网络。具体包括:
对实时语音数据应用谱减法算法进行去噪处理。
归一化:利用最小最大缩放(Min-Max scaling)将去噪后的数据归一化到[0,1]范围内。
使用Mel频率倒谱系数(MFCC)进行特征提取。
应用z-score标准化,即从每个数据点减去平均值并除以标准差。
(2)LSTM网络构建
然后,构建一个具有多个隐藏层的LSTM网络。这里采用一个改进的LSTM单元,其中包括一层自适应门控机制,该机制依据动态语音评价指数动态调整信息流。
LSTM网络的输入:预处理后的实时语音数据,即经过去噪、归一化和特征提取后的Mel频率倒谱系数(MFCC)特征。另一个输入是标准化后的动态语音评价指数。
LSTM网络的输出:实时语音质量评价指数,是一个在[0,1]范围内的数值。
隐藏层设计:LSTM网络由三个隐藏层组成,每层有64个单元。
自适应门控机制:在每个隐藏层的LSTM单元内部,添加一个名为"自适应门"的附加层。该门控机制通过sigmoid函数将动态语音评价指数映射到[0,1],并用于调整单元状态的更新速度。
通过引入动态语音评价指数作为输入,自适应门控机制使得模型能够实时调整其内部状态。这一点是尤其重要的,因为语音质量可能受到多种因素(如背景噪音、用户语速等)的实时影响。
如下是LSTM网络的参考代码:
/>
(3)模型训练
使用包含多种场景(如室内、室外、交通)的标注语音数据集。
初始学习率设为0.01,并在每个epoch后根据验证集的性能进行自适应调整。
当验证集的准确率在连续10个epoch内没有提升时,终止训练。
(4)实时语音质量评价
在LSTM网络训练完成后,将实时采集的语音数据和动态语音评价指数输入到模型中,输出为实时语音质量评价指数。该指数是一个连续的数值,用于量化语音质量。
(5)优化策略
根据实时语音质量评价指数,动态调整LSTM网络的参数和结构。这包括但不限于,根据实时语音质量评价指数的变化,调整隐藏层的数量或自适应门控机制的权重。
如果实时语音质量评价指数在一个预定时间窗口(如5分钟)内的标准偏差超过预定阈值,例如0.1,在所述长短时记忆网络中增加一个隐藏层。
如果实时语音质量评价指数在一个预定时间窗口(如5分钟)内的变化幅度小于预定阈值,例如0.05,减小自适应门控机制的权重。
通过以上步骤,步骤S104不仅提供了一种实时评价助听器语音质量的方法,还能根据不同环境和用户需求进行个性化调整。这大大增强了助听器在不同使用场景下的适应性和用户体验。
步骤S105:根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩。
所述根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩,包括:
预先设定三个阈值:0.3、0.6和0.9,这些阈值用于将实时语音质量评价指数划分为四个区间:差(0-0.3)、一般(0.3-0.6)、好(0.6-0.9)和优秀(0.9-1);
构建一个基于模糊逻辑的决策算法,该算法综合考虑实时语音质量评价指数、环境噪声等级(低、中、高)和用户的年龄及听力状态(一个从0到1的数值)。
根据模糊逻辑决策算法的输出,调整助听器的参数。
步骤S105在整个助听器语音质量评价中起到至关重要的作用。具体地说,它作为整个系统的“执行器”,根据前一步骤(S104)得到的实时语音质量评价指数,动态调整助听器的关键参数,包括助听器的增益、频率响应和动态范围压缩。这一步骤保证了助听器能够在不同环境和使用情境下提供最佳的听觉体验。
助听器的增益,在助听器中,增益是一个关键参数,它决定了声音信号会被放大多少倍,以便于听力受损的用户能更清晰地听到声音。通常,增益可以在不同的频率范围内单独调整,以更精准地满足用户的听力需求。
助听器的频率响应,频率响应是指助听器对不同频率声音的放大能力。每个人的听力损失情况都是不同的,有的人在高频段听力下降更明显,有的则是在低频段。因此,助听器通常允许用户(或听力医学专家)调整不同频率范围的增益,这就是频率响应的调整。通过这种方式,助听器可以为用户提供更为个性化的听觉支持。
助听器的动态范围压缩,动态范围压缩(Dynamic Range Compression,DRC)是一种音频处理技术,用于减少声音信号中最大和最小振幅之间的差距。简单地说,它会让响声更轻、轻声更响,以便于听力受损的用户能在不同环境中更好地听清声音。动态范围压缩可以根据环境噪声、用户反馈或其他相关因素进行自动或手动调整。
这三个参数的综合调整对于助听器的性能和用户体验有着至关重要的影响。特别是在复杂的听觉环境中,如何灵活、准确地调整这些参数是优化助听器性能的关键。
该步骤具体包括如下实施步骤:
首先,从步骤S104获得实时语音质量评价指数。这一评价指数可以是一个介于0和1之间的数值,由长短时记忆网络(LSTM)分析而来。
预先设定三个阈值:0.3、0.6和0.9。这些阈值用于将实时语音质量评价指数划分为四个区间:差(0-0.3)、一般(0.3-0.6)、好(0.6-0.9)和优秀(0.9-1)。
接下来,构建基于模糊逻辑的决策算法。该算法考虑以下三个明确的因素:
实时语音质量评价指数;
环境噪声等级,可以通过助听器采集的背景噪声数据进行分析,并分类为低、中、高三个等级。具体来说,如果背景噪声低于40dB,则分类为低;40dB到70dB为中;高于70dB为高;
用户年龄和听力情况,这是一个介于0(极差)到1(极好)的数值,可以通过用户设定或医疗听力测试获取。
模糊逻辑算法会根据这三个因素,输出对增益、频率响应和动态范围压缩的具体调整值。
基于模糊逻辑决策算法的输出,系统进行如下明确的调整操作:
如果实时语音质量评价指数位于好或优秀区间,而环境噪声等级为低或中,增加动态范围压缩到70%,降低增益到-2dB。
如果实时语音质量评价指数位于差或一般区间,而环境噪声等级为高,降低动态范围压缩到30%,提高增益到4dB。
步骤S106:根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
所述根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数,包括:
采集用户生理参数、用户提供的反馈数据以及实时语音质量评价指数;
应用主成分分析算法与傅里叶变换,对采集到的用户生理参数、用户提供的反馈数据以及实时语音质量评价指数进行特征工程和维度约简;
构建一个能同时处理生理参数、用户反馈和实时语音质量评价指数的多模态神经网络,其中,该多模态神经网络的三个子网络分别负责处理生理参数、用户反馈和语音质量指数,每个子网络都具有两层全连接层,并在全连接层之后设置批标准化层和ReLU激活函数层;该多模态神经网络的三个子网络的输出被送到一个有64个神经元的全连接融合层,该全连接融合层负责综合各个子网络的信息;
利用训练完成后的多模态神经网络,生成语音质量评价指数。
步骤S106在整个助听器语音质量评价体系中扮演关键角色,它用于生成最终的语音质量评价指数。这个评价指数不仅反映实时语音质量,还综合了用户的生理参数和反馈数据,为用户提供更加个性化、精准的助听方案。
具体实施步骤如下:
(1)数据接收与整合:获取助听器内置传感器采集的用户的生理参数(如心率、皮肤电阻等)、用户通过用户界面提供的反馈数据,以及实时语音质量评价指数。
(2)特征工程与维度约简:对接收到的多维数据进行特征工程和维度约简。这里,引入一种改进的主成分分析(PCA)算法,用于将生理参数、用户反馈和实时语音质量评价指数融合为一个低维特征向量。
读取输入数据(实时语音质量评价指数、生理参数等)。
使用傅里叶变换分析每种输入数据的频谱特性,计算信噪比。
根据信噪比为每种输入数据设定一个动态权重。
对带权重的数据进行PCA算法处理,降维到指定的维数(比如从10维降至3维)。
请参考如下针对特征工程与维度约简的示例性代码:
import numpy as np
from scipy.fftpack import fft
from sklearn.decomposition import PCA
#数据接收与整合
#模拟实时语音质量指数、生理参数和用户反馈
voice_quality_index=np.random.rand(100,1)
physiological_params=np.random.rand(100,4)#例如,心率、皮肤电阻等user_feedback=np.random.rand(100,2)#例如,用户反馈分数
#将这些数据合并成一个矩阵
combined_data=np.hstack([voice_quality_index,physiological_params,user_feedback])
#特征工程与维度约简
#傅里叶变换进行频谱特性分析
fourier_features=np.abs(fft(combined_data))
#信噪比(SNR)-在这里是模拟的snr=np.random.rand(combined_data.shape[1])
#基于信噪比的动态权重
dynamic_weights=snr/np.sum(snr)
#将动态权重应用于数据
weighted_data=combined_data*dynamic_weights
#应用PCA进行维度约简
pca=PCA(n_components=3)#降至3维
low_dimensional_data=pca.fit_transform(weighted_data)
#输出降维后的数据
print("降维后的数据:",low_dimensional_data)
(3)多模态神经网络构建与训练:在传统神经网络的基础上,设计一个多模态神经网络,能同时处理不同类型的输入数据。网络内设有三个子网络,分别负责处理生理参数、用户反馈和语音质量指数。
该多模态神经网络包含三个子网络,每个子网络都具有两层全连接层。全连接层的神经元数量分别是64和128。每一层全连接层之后都会接上一个批标准化层,然后接一个ReLU激活函数层。三个子网络的输出会进一步送到一个有64个神经元的全连接融合层。这个融合层负责综合各个子网络的信息,最终输出新的语音质量评价指数。
第一个子网络的输入是助听器采集的用户的生理参数,这可能包括心率、皮肤电阻等,作为衡量用户舒适度的参考。
第二个子网络的输入是用户的反馈数据,这可能是通过助听器的用户界面直接输入的,例如用户对当前环境下助听器性能的满意度评分。
第三个子网络的输入是实时语音质量评价指数,这是前面步骤中通过长短时记忆网络和其他方法计算出的。
这三类数据各自经过对应的子网络处理后,其输出被送到一个有64个神经元的全连接融合层。融合层对这三种类型的信息进行整合,最终生成一个综合的语音质量评价指数。
多模态神经网络模型训练与优化包括:
使用Adam优化器,学习率设为0.001。
损失函数使用均方误差(MSE)。
数据集分为训练集、验证集和测试集,比例为7:2:1。
运用5折交叉验证,在验证集上的性能最好的模型被选为最终模型。
(4)生成语音质量评价指数:在训练完成后,多模态神经网络输出一个新的语音质量评价指数,该指数是一个介于0和1之间的数值,用于量化语音质量。
以下是使用TensorFlow库实现多模态神经网络的Python代码。代码包括网络的构建、训练和预测步骤。
/>
/>
在上述的实施例中,提供了一种助听器语音质量评价方法,与之相对应的,本申请还提供一种助听器语音质量评价系统。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请第二实施例提供一种助听器语音质量评价系统,包括:
处理单元201,用于利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声;
构建单元202,用于依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度;
获得单元203,用于获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数;
应用单元204,用于将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数;
调整单元205,用于根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩;
生成单元206,用于根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行本申请第一实施例中提供的助听器语音质量评价方法。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,执行本申请第一实施例中提供的助听器语音质量评价方法。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (9)

1.一种助听器语音质量评价方法,其特征在于,包括:
利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声;
依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度;
获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数;
将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数;
根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩;
根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
2.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括:
利用助听器内嵌的麦克风阵列和波束成形技术捕获环境音频数据;
缓存并预处理捕获的音频数据,以去除数字噪声并标准化振幅水平;
执行非负矩阵分解算法,该算法包括将预处理的音频数据构成一个非负矩阵V,初始化两个非负矩阵W和H,并利用梯度下降方法迭代更新W和H矩阵,以最小化V和W*H之间的距离或误差;
在每次非负矩阵分解算法的迭代过程中,评估是否达到了预定的收敛准则或最大迭代次数,并据此决定是否停止迭代;
从迭代后的W和H矩阵中提取出人声和背景噪声的成分,并应用稀疏约束来进一步优化这两个成分,并将优化后的成分保存为独立的音频流或数据结构。
3.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,包括:
构建代表基础声音成分的节点,其中,每个节点具有三个主要属性:频率范围F、持续时间T和相对强度I,并将节点的信息存储在一个数组或数据表中;
定义一个如下的权重函数W(x,y),用于计算任意两个节点之间的关联强度:
W(x,y)=α*|F1-F2|+β*|T1-T2|+γ*|I1-I2|
其中,α、β、γ是权重系数;F1、T1、I1分别是任意两个节点中第一个节点代表的声音成分的频率,时间以及强度;F2、T2、I2分别是任意两个节点中第二个节点代表的声音成分的频率,时间以及强度;
应用所设计的权重函数W(x,y),对每一对节点计算关联强度,并用这些计算出的关联强度作为复杂网络中的边权重;
根据构建的节点以及计算出来的边权重,构建一个复杂网络;
使用图优化算法,剔除边权重低于预定阈值的边,以实现网络构建与优化。
4.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数,包括:
计算复杂网络的邻接矩阵,并通过基于矩阵特征值的算法来获得矩阵的谱半径R和特征熵H;
在特定的时间窗口内,对网络特性进行动态性分析,计算谱半径的变化速度ΔR和特征熵的变化速度ΔH;
根据如下公式计算自适应阈值threshold:
threshold=a·ΔH+b·ΔR
其中,a和b是预设的常数;自适应阈值threshold用于进一步筛选和调整复杂网络;
利用如下公式,计算动态语音评价指数index:
Index=w1×R+w2×H+w3×Threshold
其中,w1、w2和w3是权重系数。
5.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数,包括:
对实时语音数据进行去噪处理、归一化处理、特征提取以及标准化处理;
构建一个长短时记忆网络,该网络包括三个隐藏层,其中,在每一个隐藏层包括的LSTM单元内部包括一种自适应门控机制,该自适应门控机制根据输入的动态语音评价指数动态调整信息流;
对所述长短时记忆网络进行训练;
将实时采集的语音数据和动态语音评价指数输入到已训练的长短时记忆网络中,输出为实时语音质量评价指数。
6.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数,还包括:
如果实时语音质量评价指数在第一预定时间窗口内的标准偏差超过第一预定阈值,则在所述长短时记忆网络中增加一个隐藏层;
如果实时语音质量评价指数在第二预定时间窗口内的变化幅度小于第二预定阈值,则减小自适应门控机制的权重。
7.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩,包括:
预先设定三个阈值:0.3、0.6和0.9,这些阈值用于将实时语音质量评价指数划分为四个区间:差(0-0.3)、一般(0.3-0.6)、好(0.6-0.9)和优秀(0.9-1);
构建一个基于模糊逻辑的决策算法,该决策算法综合考虑实时语音质量评价指数、环境噪声等级和用户的年龄及听力状态其中,所述环境噪声等级分为低、中、高三个等级,所述听力状态是一个从0到1的数值。
根据基于模糊逻辑的决策算法的输出,调整助听器的参数。
8.根据权利要求1所述的助听器语音质量评价方法,其特征在于,所述根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数,包括:
采集用户生理参数、用户提供的反馈数据以及实时语音质量评价指数;
应用主成分分析算法与傅里叶变换,对采集到的用户生理参数、用户提供的反馈数据以及实时语音质量评价指数进行特征工程和维度约简;
构建一个能同时处理生理参数、用户反馈和实时语音质量评价指数的多模态神经网络,其中,该多模态神经网络的三个子网络分别负责处理生理参数、用户反馈和语音质量指数,每个子网络都具有两层全连接层,并在全连接层之后设置批标准化层和ReLU激活函数层;该多模态神经网络的三个子网络的输出被送到全连接融合层,该全连接融合层负责综合各个子网络的信息;
利用训练完成后的多模态神经网络,生成语音质量评价指数。
9.一种助听器语音质量评价系统,其特征在于,包括:
处理单元,用于利用助听器采集环境声音数据,并通过非负矩阵分解算法对其进行处理,获得基础声音成分,包括人声和背景噪声;
构建单元,用于依据所述基础声音成分,利用复杂网络理论构建一个复杂网络,其中,所述复杂网络的节点代表基础声音成分,边代表所述基础声音成分的关联强度;
获得单元,用于获得所述复杂网络的网络特性,并根据所述网络特性获得动态语音评价指数;
应用单元,用于将助听器采集的实时语音数据以及所述动态语音评价指数,应用于长短时记忆网络,获得实时语音质量评价指数;
调整单元,用于根据所述实时语音质量评价指数,调整助听器的参数,所述参数包括助听器的增益、频率响应和动态范围压缩;
生成单元,用于根据助听器采集的用户的生理参数、用户的反馈数据以及所述实时语音质量评价指数,生成语音质量评价指数。
CN202311691041.5A 2023-12-07 2023-12-07 一种助听器语音质量评价方法及系统 Pending CN117692855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311691041.5A CN117692855A (zh) 2023-12-07 2023-12-07 一种助听器语音质量评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311691041.5A CN117692855A (zh) 2023-12-07 2023-12-07 一种助听器语音质量评价方法及系统

Publications (1)

Publication Number Publication Date
CN117692855A true CN117692855A (zh) 2024-03-12

Family

ID=90125869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311691041.5A Pending CN117692855A (zh) 2023-12-07 2023-12-07 一种助听器语音质量评价方法及系统

Country Status (1)

Country Link
CN (1) CN117692855A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999019779A1 (en) * 1997-10-15 1999-04-22 Beltone Electronics Corporation A neurofuzzy based device for programmable hearing aids
US20070055508A1 (en) * 2005-09-03 2007-03-08 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
WO2020077348A1 (en) * 2018-10-12 2020-04-16 Intricon Corporation Hearing assist device fitting method, system, algorithm, software, performance testing and training
US10997970B1 (en) * 2019-07-30 2021-05-04 Abbas Rafii Methods and systems implementing language-trainable computer-assisted hearing aids
CN114584908A (zh) * 2022-03-04 2022-06-03 科大讯飞股份有限公司 助听器的声学测试方法、装置以及设备
CN116453547A (zh) * 2022-06-02 2023-07-18 南京工程学院 基于听损分类的助听器语音质量自评价方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999019779A1 (en) * 1997-10-15 1999-04-22 Beltone Electronics Corporation A neurofuzzy based device for programmable hearing aids
US20070055508A1 (en) * 2005-09-03 2007-03-08 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
WO2020077348A1 (en) * 2018-10-12 2020-04-16 Intricon Corporation Hearing assist device fitting method, system, algorithm, software, performance testing and training
US10997970B1 (en) * 2019-07-30 2021-05-04 Abbas Rafii Methods and systems implementing language-trainable computer-assisted hearing aids
CN114584908A (zh) * 2022-03-04 2022-06-03 科大讯飞股份有限公司 助听器的声学测试方法、装置以及设备
CN116453547A (zh) * 2022-06-02 2023-07-18 南京工程学院 基于听损分类的助听器语音质量自评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雨晨;陈霏;韩悦;朱亚涛;贾雯;: "基于循环神经网络与子带谱熵法的助听器语音增强", 传感技术学报, no. 08, 15 August 2020 (2020-08-15) *

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN111564160B (zh) 一种基于aewgan的语音降噪的方法
CN109326299B (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US20180286423A1 (en) Audio processing device, audio processing method, and program
KR102206546B1 (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
KR102630449B1 (ko) 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법
CN116347318B (zh) 一种音响的智能生产测试方法及系统
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
CN105306673A (zh) 移动终端及其自动调整情景模式的方法
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Naik et al. Audio analysis of statistically instantaneous signals with mixed Gaussian probability distributions
CN115188389A (zh) 基于神经网络的端到端语音增强方法、装置
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
US20230136220A1 (en) Quantifying Signal Purity by means of Machine Learning
CN117692855A (zh) 一种助听器语音质量评价方法及系统
KR20180065761A (ko) 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법
CN113921030B (zh) 一种基于加权语音损失的语音增强神经网络训练方法及装置
CN116453547A (zh) 基于听损分类的助听器语音质量自评价方法
CN113327589A (zh) 一种基于姿态传感器的语音活动检测方法
Bhat et al. A computationally efficient blind source separation for hearing aid applications and its real-time implementation on smartphone
Ondusko et al. Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination