CN111144482A

CN111144482A - 一种面向数字助听器的场景匹配方法、装置及计算机设备

Info

Publication number: CN111144482A
Application number: CN201911364101.6A
Authority: CN
Inventors: 王敏
Original assignee: Huizhou Jinghao Medical Technology Co ltd
Current assignee: Huizhou Jinghao Medical Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12
Anticipated expiration: 2039-12-26
Also published as: CN111144482B

Abstract

本发明公开一种面向数字助听器的场景匹配方法，先获取声音信号，根据所述声音信号，得到信号样本；然后通过对信号样本进行第一次特征提取以实现场景的初始匹配；再基于初始匹配的结果，通过对信号样本进行第二次特征提取以实现场景的最终匹配。本发明提供的方法通过两次特征提取和两个不同分类器的分类，可有效提高分类精度，且计算速度快，可满足实时处理的需求，非常适合助听器的应用市场，具有很高的实用价值。

Description

一种面向数字助听器的场景匹配方法、装置及计算机设备

技术领域

本发明涉及语音信号处理技术领域，尤其是一种面向数字助听器的场景匹配方法、装置及计算机设备。

背景技术

听觉是人类的重要感觉之一，是与周围交流与沟通的重要环节，其重要性丝毫不亚于视觉。近年来由于全球噪音污染以及世界人口结构的老龄化使得全球听力损失的人口日益增多。几个世纪以来，科学家们正不断的采用各种手段来帮助听力障碍患者提高听力，在没有重大医疗突破之前，佩戴助听器是补偿听力损失患者最常用的方法之一。

随着数字助听器技术的发展，听觉场景分类已成为智能数字助听器的核心功能之一。场景分类能够自动识别助听器使用者当前的听力环境，从而自适应地调用相应的处理参数或程序，实现针对不同场景声信号的个性化处理，达到最佳的使用效果。基于场景分类的自适应处理模式能够大大的提高数字助听器在各种噪声环境下的性能。

近年来，针对数字助听器应用，很多学者对声音场景分类算法进行了研究州。这些方法各有特色，实验所用的数据库也各有不同。很多学者研究声学特征参数集的选取和分类模型的建立。合理地选取出适合区分声音场景的特征能够提高整个分类系统的性能，降低模型的计算量。在这些研究中，短时能量、线性回归系数、过零率、基音频率、共振峰、嫡信息以及倒平共谱信息等都是主要使用的特征。很多学者也对声音场景提出各种分类算法，如人工神经网络训、支持向量机、隐马尔可夫模型以及混合高斯模型等。但这些算法的复杂度往往较高，导致数字助听器DSP计算量变大，实时性变差，在实际系统中常常由于功耗过大无法应用。

发明内容

本发明提供一种面向数字助听器的场景匹配方法、装置及计算机设备，用于克服现有技术中计算量大、实时性差等缺陷，实现分类精度高，且计算速度快，可以满足实时处理的需求，非常适合助听器的应用市场，具有很高的实用价值。

为实现上述目的，本发明提出一种面向数字助听器的场景匹配方法，包括：

101：获取声音信号，根据所述声音信号，得到信号样本；

102：根据所述信号样本在频域上的特征，构建所述信号样本对应的第一特征集；

103：根据预先设置的高斯模型，得到所述第一特征集对应的特征均值和特征方差，并将所述特征均值和所述特征方差输入预先训练的马氏距离分类器，输出所述样本信号概率排序靠前的两个以上的场景类别；

104：将所述信号样本分为多个样本子信号，提取每个所述样本子信号的能量特征，构建第二特征集；

105：将所述第二特征集中的能量特征输入所述场景类别对应的预先设置的SVM分类器中进行分类，根据所述SVM分类器的输出来确定所述信号样本实际对应的场景类别。

为实现上述目的，本发明还提出一种面向数字助听器的场景匹配装置，包括：

信号采集模块，用于获取声音信号，根据所述声音信号，得到信号样本；

第一特征提取模块，用于根据所述信号样本在频域上的特征，构建所述信号样本对应的第一特征集；

第一分类模块，用于根据预先设置的高斯模型，得到所述第一特征集对应的特征均值和特征方差，并将所述特征均值和所述特征方差输入预先训练的马氏距离分类器，输出所述样本信号概率排序靠前的两个以上的场景类别；

第二特征提取模块，用于将所述信号样本分为多个样本子信号，提取每个所述样本子信号的能量特征，构建第二特征集；

第二分类模块，用于将所述第二特征集中的能量特征输入所述场景类别对应的预先设置的SVM分类器中进行分类，根据所述SVM分类器的输出得到，确定所述信号样本实际对应的场景类别。

为实现上述目的，本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

与现有技术相比，本发明的有益效果有：

1、本发明提供的面向数字助听器的场景匹配方法，通过对信号样本进行第一次特征提取以实现场景的初始匹配，即从多种不同场景中筛选出概率最大的两个以上场景类别，该第一次特征提取选择提取信号样本在频域上的特征，因为通过试验发现选择该特征作为初始匹配的特征可使得初始匹配结果更精确；再基于初始匹配的结果，通过对信号样本进行第二次特征提取以实现场景的最终匹配，即从初始匹配中得到的场景类别中最终筛选出信号样本实际对应的场景类别，该第二次特征提取选择提取样本子信号的能量特征，与第一次特征提取相比，第二次特征提取选择的特征更细化、提取过程更复杂，以保证场景匹配的准确性。本发明方法采用先简单分类，再精细分类的模式，能够有效的提高及时效率。本发明提供的方法通过两次特征提取和两个不同分类器的分类，可有效提高分类精度，且计算速度快，可满足实时处理的需求，非常适合助听器的应用市场，具有很高的实用价值。

2、本发明采用了两种分类器：马氏距离分类器和SVM分类器。马氏距离分类器比较简单，分类效果一般，可用于初始匹配；SVM分类器比较复杂，但分类精确度高。基于助听器的运算能力有限，所以本发明先采用简单的方法找到最有可能的两种场景类别后，再针对这两类进行更复杂精准的分类，以满足助听器的使用要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提供的面向数字助听器的场景匹配方法的流程图；

图2为本发明实施例中马氏距离分类器的训练流程图；

图3为本发明实施例中SVM分类器的训练流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本实施例提出一种面向数字助听器的场景匹配方法，如图1所示，包括：

101：获取声音信号，根据所述声音信号，得到信号样本；

数字助听器自动收集所处的环境的声音信号种类、信噪比、前后麦克风强度差等情况，定义不同的环境，自动调节降噪、方向、压缩比等特性，以适应不断变化的环境。本发明即面向数字助听器提供一种场景匹配方法，以提高数字助听器的环境适应能力。

在101中，数字助听器中设置有麦克风，通过麦克风可以采集到声音信号。信号样本指的是数字形式的信号，可以通过A/D转换器将声音信号转换为数字信号。

信号样本可以是截取声音信号中的多个声音帧得到的，也可以是通过截取声音信号中某一时间段的信号得到的。

将获取的声音信号经过预处理从而获得信号样本，具体为：

将获取的声音信号转换成数字信号，并对所述数字信号进行分帧和傅里叶变换，得到信号样本。

本实施例中预处理方法为信号处理的基本方法，将声音信号变换到频率空间，后续的特征都是在频域内进行。

本实施例中，每一帧为一个信号样本。

在102中，频域是描述信号在频率方面特性时用到的一种坐标系。信号样本在频域上的特征包括频域能量特征、频域能量变化特征和频域能量分布特征。

信号样本的频域能量特征、频域能量变化特征和频域能量分布特征构成该信号样本的第一特征集。

所述频域能量特征的计算方法为：

式中，Y_i,j(k)表示信号样本，i表示场景类别，j表示帧序号，k表示频点；h表示信号样本采样频率的一半；该特征是单个数值，因此维数是1。

所述频域能量变化特征的计算方法为：

f2_i,j＝|f1_i,j-1-f1_i,j|+|f1_i,j+1-f1_i,j|+0.5×|f1_i,j-1-f1_i,j+1| (2)

式中，f1_i,j表示频域能量特征，i表示场景类别，j表示帧序号；该特征是单个数值，因此维数是1。

所述频域能量分布特征的计算方法为：

将Y_i,j(k)分成N个样本子信号，记为{Y_i,j,t(k)|t＝1,...,N}，其中t表示样本子信号序号，每个样本子信号的带宽是原信号带宽的1/N，N为正整数，

式中，A_t和B_t分别表示样本子信号t的频率分布的上、下边界；f1_i,j表示频域能量特征，i表示场景类别，j表示帧序号；Y_i,j(k)表示信号样本，i表示场景类别，j表示帧序号，k表示频点；该特征维数是N。

本实施例中，将Y_i,j(k)分成8个样本子信号，记为{Y_i,j,t(k)|t＝1,...,8}，其中t表示样本子信号序号，每个样本子信号的带宽是原信号带宽的1/8。

上述计算所得的信号样本的频域能量特征、频域能量变化特征和频域能量分布特征组合在一起，构成所述信号样本的第一特征集，该第一特征集的特征维数为N+2，本实施例中第一特征集的特征维数为10。

在103中，所述高斯模型为：

式中，μ_i和

分别表示特征均值和特征方差，i表示场景类别；j表示帧序号；X表示声音信号总帧数；F表示第一特征集；

所述马氏距离分类器为：

式中，μ_i和

分别表示特征均值和特征方差，i表示场景类别；x表示待分类信号样本。

所述马氏距离分类器表示待分类信号样本和场景类别的距离信息，因此得分越低，说明属于该类别的概率越大。

马氏距离分类器用于初始匹配，选择得分最低的两个以上场景类别作为分类结果，然后在下一轮分类中从输出的场景类别中筛选出与信号样本最匹配的场景类别。本实施例中，初始匹配输出两个场景类别。

本实施例中，马氏距离分类器的具体训练过程如图2所示，为：

301：分别获取在每一类场景类别下的声音信号，根据所述声音信号，得到信号样本S个训练集，S为场景类别数量；每个所述训练集包含i个信号样本；

经过对助听器使用者的统计分析，将使用场景分成了5个类别，分别是：交通工具内、交通干道旁、公共场所、安静的室内、其他场所，即本实施例中训练集有5个。

本实施例对每个场景类别收集了采样频率8kHz、16bit量化的500帧连续声音信号，并将该声音信号转换成数字信号y_i,j(n)，其中，i表示场景类别，j表示帧序号，n表示采样点数。本实施例中每个训练集包含500个信号样本(每一帧为一个信号样本)。

对y_i,j(n)进行傅里叶变换，得到Y_i,j(k)，k表示频点。

302：通过计算每个所述信号样本在频域上的特征，构建每个信号样本的特征集A_pi，p＝1，2，....，S，i＝1，2，....500；

信号样本在频域上的特征包括频域能量特征、频域能量变化特征和频域能量分布特征。

频域能量特征、频域能量变化特征和频域能量分布特征分别通过上述公式(1)、(2)和(3)计算获得。

特征集A_pi，p＝1时，为在交通工具内采集声音而获得的训练集的特征集；

p＝2时，为在交通干道旁采集声音而获得的训练集的特征集；

p＝3时，为在公共场所采集声音而获得的训练集的特征集；

p＝4时，为在安静的室内采集声音而获得的训练集的特征集；

p＝5时，为在其他场所采集声音而获得的训练集的特征集。

303：分别将特征集A_pi输入预先设置的高斯模型计算获得每个信号样本在每个场景类别下的特征均值和特征方差，并分别将每个信号样本的所述特征均值和特征方差输入马氏距离分类器，从而获得所述马氏距离分类器的参数和输入到输出的映射关系。

所述高斯模型即为上述公式(4)和(5)，通过将每个信号样本的特征均值和特征方差输入马氏距离分类器对该分类器进行训练，以获得马氏距离分类器输入到输出的映射关系(即，若将在交通工具内采集声音而获得的信号样本输入该马氏距离分类器内，则输出该信号样本属于各个场景类别的分数，且交通工具内这一场景类别的分数最低，与交通工具内这一场景类别最接近的场景类别的得分倒数第二)。

在104中，将信号样本分为多个子带，每个子带为一个样本子信号。

样本子信号的能量特征包括每个样本子信号的能量、各个样本子信号在其所属信号样本中的能量比例系数特征、信号样本中的样本子信号谱熵特征以及信号样本融合了样本子信号能量和样本子信号谱熵信息的新特征。

各个样本子信号在其所属信号样本中的能量比例系数特征、信号样本中的样本子信号谱熵特征以及信号样本融合了样本子信号能量和样本子信号谱熵信息的新特征构成该样本子信号的第二特征集。

步骤104具体为：

1041：将信号样本分成M个样本子信号，记为{Y2_i,j,c(k)|c＝1,...,M}，其中c表示样本子信号序号，则每个样本子信号的带宽是原信号带宽的1/M，M为正整数；

在本实施例中，将信号样本分成32个样本子信号，记为{Y2_i,j,c(k)|c＝1,...,32}。

1042：计算每个样本子信号的能量，

式中，Ω_c表示第c样本子信号的频点的取值范围；Y_i,j(k)表示信号样本，i表示场景类别，j表示帧序号；

1043：计算各个样本子信号在其所属信号样本中的能量比例系数特征，

f4_i,j(c)＝E_i,j,_c/E_i,j (8)

式中，E_i,j,c表示信号样本中第c个样本子信号的能量，i表示场景类别，j表示帧序号，c表示样本子信号序号；

表示信号样本的总能量，M表示样本子信号数量；

该特征的维数为M，本实施例中该特征的维数为32。

1044：计算信号样本中的样本子信号谱熵特征，

式中，f4_i,j(c)表示各个样本子信号在其所属信号样本中的能量比例系数特征，i表示场景类别，j表示帧序号，c表示样本子信号序号；

该特征是单个数值，因此维数是1。

1045：计算信号样本融合了样本子信号能量和样本子信号谱熵信息的新特征，

式中，f5_i,j表示信号样本中的样本子信号谱熵特征；E_i,j,c表示信号样本中第c个样本子信号的能量，i表示场景类别，j表示帧序号，c表示样本子信号序号；E_i,j表示表示信号样本的总能量；

该特征维数为M，本实施例中该特征的维数为32。

1046：将每个样本子信号的能量、各个样本子信号在其所属信号样本中的能量比例系数特征、信号样本中的样本子信号谱熵特征以及信号样本融合了样本子信号能量和样本子信号谱熵信息的新特征组合在一起，构成所述信号样本的第二特征集。

该第二特征集的维数为2M+1，本实施例中该第二特征集的维数为65。

在105中，所述SVM分类器的具体训练过程如图3所示，为：

501：分别获取在每一类场景类别下的声音信号，根据所述声音信号，得到信号样本S个训练集，S为场景类别数量；每个所述训练集包含i个信号样本；

本实施例中，采用301中获取的5个训练集。

502：分别将每个所述信号样本分成若干个样本子信号，提取每个所述样本子信号的能量特征，构建每个所述信号样本的特征集B_pi，p＝1，2，....，S，i＝1，2，....；本实施例中i＝1，2，....500。

所述能量特征包括每个样本子信号的能量、各个样本子信号在其所属信号样本中的能量比例系数特征、信号样本中的样本子信号谱熵特征以及信号样本融合了样本子信号能量和样本子信号谱熵信息的新特征，分别通过上述公式(7)、(8)、(9)和(10)计算获得。

特征集B_pi，p＝1时，为在交通工具内采集声音而获得的训练集的特征集；

p＝3时，为在公共场所采集声音而获得的训练集的特征集；

p＝5时，为在其他场所采集声音而获得的训练集的特征集。

503：将所有的场景类别任意分组共组成

个组合，每个组合对应的特征集组成

个特征集组合，a为步骤103输出的场景类别数量；

本实施例中a＝2，S＝5，场景类别的组合共有

种，即特征集组合共10个。

504：选择支持向量机SVM作为分类器模型，分别利用每一个所述特征集组合训练SVM分类器以获得参数和输入到输出的映射关系，最终获得

个SVM分类器。本实施例共训练了

个SVM分类器。

根据步骤103输出的场景类别选择相应的训练好的SVM分类器，并用该分类器对信号样本进行再次分类，根据所述SVM分类器的输出确定所述信号样本实际对应的场景类别。

本实施例还提出一种面向数字助听器的场景匹配装置，包括：

本实施例还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种面向数字助听器的场景匹配方法，其特征在于，包括：

101：获取声音信号，根据所述声音信号，得到信号样本；

2.如权利要求1所述的面向数字助听器的场景匹配方法，其特征在于，所述步骤101具体为：

3.如权利要求1所述的面向数字助听器的场景匹配方法，其特征在于，所述步骤102中，所述频域上的特征包括频域能量特征、频域能量变化特征和频域能量分布特征。

4.如权利要求3所述的面向数字助听器的场景匹配方法，其特征在于，所述频域能量特征的计算方法为：

式中，Y_i,j(k)表示信号样本，i表示场景类别，j表示帧序号，k表示频点；h表示信号样本采样频率的一半；

所述频域能量变化特征的计算方法为：

f2_i,j＝|f1_i,j-1-f1_i,j|+|f1_i,j+1-f1_i,j|+0.5×|f1_i,j-1-f1_i,j+1| (2)

式中，f1_i,j表示频域能量特征，i表示场景类别，j表示帧序号；

所述频域能量分布特征的计算方法为：

将Y_i,j(k)分成N个样本子信号，记为{Y_i,j,t(k)|t＝1,…,N}，其中t表示样本子信号序号，每个样本子信号的带宽是原信号带宽的1/N，N为正整数，

式中，A_t和B_t分别表示样本子信号t的频率分布的上、下边界；f1_i,j表示频域能量特征，i表示场景类别，j表示帧序号；Y_i,j(k)表示信号样本，i表示场景类别，j表示帧序号，k表示频点。

5.如权利要求1所述的面向数字助听器的场景匹配方法，其特征在于，

所述步骤103中，所述高斯模型为：

式中，μ_i和

所述马氏距离分类器为：

式中，μ_i和

6.如权利要求1所述的面向数字助听器的场景匹配方法，其特征在于，所述步骤104具体为：

1041：将信号样本分成M个样本子信号，记为{Y2_i,j,c(k)|c＝1,…,M}，其中c表示样本子信号序号，则每个样本子信号的带宽是原信号带宽的1/M，M为正整数；

1042：计算每个样本子信号的能量，

f4_i,j(c)＝E_i,j,c/E_i,j (8)

表示信号样本的总能量，M表示样本子信号数量；

1044：计算信号样本中的样本子信号谱熵特征，

7.如权利要求1所述的面向数字助听器的场景匹配方法，其特征在于，所述步骤105中，所述SVM分类器的具体训练过程为：

502：分别将每个所述信号样本分成若干个样本子信号，提取每个所述样本子信号的能量特征，构建每个所述信号样本的特征集B_pi，p＝1，2，….，S，i＝1，2，….；

503：将所有的场景类别任意分组共组成

个组合，每个组合对应的特征集组成

个特征集组合，a为步骤103输出的场景类别数量；

个SVM分类器。

8.如权利要求7所述的面向数字助听器的场景匹配方法，其特征在于，所述场景类别包括交通工具内、交通干道旁、公共场所、安静的室内和其他场所。

9.一种面向数字助听器的场景匹配装置，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8中任一项所述方法的步骤。