CN114400023B

CN114400023B - 一种检测助听器语音质量的方法及设备

Info

Publication number: CN114400023B
Application number: CN202210075565.0A
Authority: CN
Inventors: 孙立民; 唐楠; 张文杰; 垢德双
Original assignee: Tianjin Zhongke Listening Core Technology Co ltd
Current assignee: Tianjin Zhongke Listening Core Technology Co ltd
Priority date: 2022-01-22
Filing date: 2022-01-22
Publication date: 2024-09-17
Anticipated expiration: 2042-01-22
Also published as: CN114400023A

Abstract

本发明涉及语音质量评价技术领域，具体涉及一种检测助听器语音质量的方法及设备。该方法包括：接收助听器在噪声测试环境下传输的语音信息；以语音信息作为自编码网络的输入，对隐含层中的隐变量进行分组替换，输出重构语音信息，来训练自编码网络；同时依据分组替换前后的隐变量对应的特征张量的相似度判断重构语音信息为正常语音还是失真语音；以语音信息作为分类网络的输入，以对应的重构语音信息的判断结果作为标签，输出语音信息的类别以及该语音信息为正常语音的置信度，训练分类网络；将接收的助听器传输的待检测语音输入训练完成的分类网络中，根据输出评估助听器的语音质量。本发明实施例能够对助听器的语音质量进行准确的检测。

Description

一种检测助听器语音质量的方法及设备

技术领域

本发明涉及语音质量评价技术领域，具体涉及一种检测助听器语音质量的方法及设备。

背景技术

助听器是一个小型扩音器，把原本听不到的声音加以扩大，再利用听障者的残余听力，使声音能送到大脑听觉中枢，而感觉到声音。助听器语音质量是评估助听器好坏最为重要的指标之一。一般的，语音质量评估方法分为主观评价和客观评价，主观评价主要通过听声员对原始声音信号和失真声音信号对比，对语音打分。客观评价主要通过算法获取质量评价指标，对语音质量进行评估，信噪比是衡量语音质量的常规方法。

主观评价方法存在听声员的主观性，可能会存在误差，检测结果不够精确；而客观评价的信噪比算法往往需要纯净的语音源信号才能计算，在实际检测过程中是几乎不可能的，语音在传输的过程中一定会存在损失，使评估结果不准确。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种检测助听器语音质量的方法及设备，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种检测助听器语音质量的方法，该方法包括以下步骤：

接收助听器在噪声测试环境下传输的语音信息；

以所述语音信息作为自编码网络的输入，对隐含层中的隐变量进行分组替换，输出重构语音信息，来训练所述自编码网络；同时依据分组替换前后的隐变量对应的特征张量的相似度判断所述重构语音信息为正常语音还是失真语音；

以所述语音信息作为分类网络的输入，以对应的所述重构语音信息的判断结果作为标签，输出所述语音信息的类别以及该语音信息为正常语音的置信度，训练所述分类网络；

将接收的助听器传输的待检测语音输入训练完成的分类网络中，获取所述待检测语音的分类结果以及所述置信度，根据所述置信度评估所述助听器的语音质量。

优选的，所述接收助听器在噪声测试环境下传输的语音信息之后，还包括：

对所述语音信息进行去噪处理，去除传输过程中的噪声信号。

优选的，所述对隐含层中的隐变量进行分组替换，包括：

根据预设的时间步长将所述隐变量分组，选取中间的隐变量替换其相邻的隐变量，完成所述分组替换。

优选的，所述判断所述重构语音信息为正常语音还是失真语音，包括：

分别获取每组隐变量在分组替换前后的隐变量对应的特征张量，计算两个特征张量之间的余弦相似度，当所述余弦相似度大于相似度阈值的组数超过预设比例时，对应的所述重构语音信息为正常语音，否则为失真语音。

优选的，所述判断所述重构语音信息为正常语音还是失真语音，还包括：

当所述余弦相似度大于相似度阈值的组数超过预设比例时，所述自编码的损失函数为所述语音信息和所述重构语音信息之间的第一损失函数；当所述余弦相似度大于相似度阈值的组数不超过预设比例时，所述自编码的损失函数为所述语音信息和所述重构语音信息之间的第二损失函数。

优选的，所述语音质量的评估方法为：

对于同一助听器测试多次，采集多个所述待检测语音，根据所述待检测语音的置信度得到其属于失真语音的置信度，作为失真度，根据所述待检测语音的失真度与同一助听器的待检测语音的失真度均值之间的差异计算语音失真程度，当所述语音失真程度小于失真阈值时，所述待检测语音的来源助听器合格。

优选的，所述噪声测试环境为：

音箱播放60-80dB不同噪声，音频分析仪发送70-90dB语料文件至人工嘴播放，助听器拾取噪声及语料文件，711人工耳实时采集音频信号。

第二方面，本发明另一个实施例提供了一种检测助听器语音质量的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种检测助听器语音质量的方法的步骤。

本发明实施例至少具有如下有益效果：

1、对接收的语音信号通过对隐变量的分组替换构建自编码网络，判断语音是否失真，以判断结果作为分类网络的标签对大量语音信号进行训练，获取待检测语音的分类结果以及置信度，根据置信度评估待检测语音的语音质量。本发明实施例能够克服信噪比等算法需要纯净语音的苛刻条件，在语音信号失真点随机的情况下，对语音信号的质量检测对助听器的语音质量进行准确的检测，评价结果更加准确和客观。

2、通过自编码网络获取分类网络的标签，使网络训练时无需人为标注，能够实现无监督训练，自适应标注。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种检测助听器语音质量的方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种检测助听器语音质量的方法及设备，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种检测助听器语音质量的方法及设备的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种检测助听器语音质量的方法的步骤流程图，该方法包括以下步骤：

步骤S001，接收助听器在噪声测试环境下传输的语音信息。

具体的步骤包括：

1.接收助听器在噪声测试环境下传输的语音信息。

本发明实施例的噪声测试环境为：智能音箱播放60-80dB不同噪声，6022音频分析仪发送70-90dB语料文件至人工嘴播放，助听器拾取噪声及语料文件，711耳实时采集音频信号，由上述测试设备组成测试系统，整个测试系统处于消声箱内。

将711耳实时采集音频信号利用蓝牙或者无线通讯传输到检测系统端，由系统检测算法对语音信息进行质量评估。

2.接收助听器在噪声测试环境下传输的语音信息之后，对语音信息进行去噪处理，去除传输过程中的噪声信号。

语音信号在端到端的传输过程中存在损失，因此，需要对接收的音频信息滤除在传输信道中产生的噪声信号。

需要说明的是，助听器在开启降噪时，711耳实时采集的音频信号为已降噪的音频信息，对接收的音频信息去噪时，去除的时信号传输过程中可能出现在噪声信号，而非环境噪声。

常用的降噪算法有：谱减法和LMS去噪算法。作为一个示例，本发明实施例采用谱减法：将助听器输出的语音信号作为传输端数据Y，经无线通讯设备传输到系统接收端数据作为接收端语音信号数据Y′，利用传输端和接收端的语音信号进行谱减法去噪，得到传输信道中产生的噪声信号|Y-Y′|，对噪声信号进行滤除。

步骤S002，以语音信息作为自编码网络的输入，对隐含层中的隐变量进行分组替换，输出重构语音信息，来训练自编码网络；同时依据分组替换前后的隐变量对应的特征张量的相似度判断重构语音信息为正常语音还是失真语音。

具体的步骤包括：

1.根据预设的时间步长将隐变量分组，选取中间的隐变量替换其相邻的隐变量，完成分组替换，训练自编码网络。

构建的自编码网络结构为：编码器-解码器(Encoder-Decoder)，网络的输入为：去噪后的语音信息，网络的输出为：重构后的语音信号。

自编码网络的训练过程具体为：

根据预设的时间步长将隐变量分组，作为一个示例，本发明实施例中预设的时间步长为1秒，同时以相邻时间步长的三个隐变量为一组，选取中间的隐变量z₂(x)替换相邻的两个隐变量z₁(x),z₃(x)，并进行自监督。

当以相邻时间步长的五个隐变量为一组时，同样选取中间的隐变量z₃(x)只替换相邻的两个隐变量z₂(x),z₄(x)，其中该组首尾的两个隐变量z₁(x),z₅(x)不变，其他奇数分组情况同理。

当以相邻时间步长的四个隐变量为一组时，选取中间的隐变量z₂(x)和z₃(x)，任选其中一个隐变量替换另一个隐变量，其他偶数分组情况同理。

将分组替换之后的隐变量重构为语音信息输出。

构建自编码网络能够将输入语音数据中存在语音失真的情况重构出来，获取到输入语音数据中的语音失真标签，为后续对输入语音数据分类提供参考。

2.同时判断重构语音信息为正常语音还是失真语音。

分别获取每组隐变量在分组替换前后的隐变量对应的特征张量，计算两个特征张量之间的余弦相似度，当余弦相似度大于相似度阈值的组数超过预设比例时，对应的重构语音信息为正常语音，否则为失真语音。

因为语音信号是与缓慢的语音内容变换是相对应的，所以当经过隐变量替换后的连续隐变量参数之间应该存在一定的相似。对不同位置的隐变量进行隐变量替换，对应同一段输入的语音信息，当某个位置的隐变量进行替换后，该位置的隐变量的特征张量与其他未进行隐变量替换隐变量的特征张量应该仍保持一定的相似性；否则，则说明该位置可能存在失真信号。

因此，分别获取每组隐变量在分组替换前后的隐变量对应的特征张量，计算两个特征张量之间的余弦相似度，当余弦相似度大于相似度阈值时，该组隐变量为相似隐变量，在所有隐变量组中，相似隐变量的组数所占的比例超过预设比例时，对应的重构语音信息为正常语音，否则为失真语音。

进一步的，另一个实施例提供的判断方法为：对所有组隐变量计算的余弦相似度求均值，当均值大于相似度阈值时，对应的重构语音信息为正常语音，否则为失真语音。

作为一个示例，本发明实施例中的相似度阈值为0.8，预设比例为80％。

当余弦相似度大于相似度阈值的组数超过预设比例时，自编码的损失函数为语音信息和重构语音信息之间的第一损失函数；当余弦相似度大于相似度阈值的组数不超过预设比例时，自编码的损失函数为语音信息和重构语音信息之间的第二损失函数。

具体的，自编码网络的损失函数以输入和输出的欧氏距离构建：

其中，α表示余弦相似度，y_i(x)表示自编码网络输入的语音信息根据隐变量分组的第i组数据，表示自编码网络输出的重构语音信息的第i组数据，N表示语音信息分的组数。

通过上述方法构建了无监督语音信号重构网络，通过对隐含层的隐变量特征张量进行表征学习，实现了语音信号的定向重构，通过隐变量的表征学习作为引导，重构出语音信号中深层的语音内容，得到输入语音信号中的失真语义信息。

步骤S003，以语音信息作为分类网络的输入，以对应的重构语音信息的判断结果作为标签，输出语音信息的类别以及该语音信息为正常语音的置信度，训练分类网络。

具体的步骤包括：

以语音信息作为分类网络的输入，分类网络结构为：Encoder-FC，为了分类网络的训练速度，编码器(Encoder)与自编码网络中的编码器采用同一个编码器，训练参数共享，无需重复训练，网络输出为：语音信息的类别及其为正常语音信息的置信度。

将自编码网络输出的重构语音信息中正常语音作为正类标签为1，失真语音作为负类标签为0，对分类网络进行再训练，通过卷积获取语音信号的特征张量，利用编码器获取的输入语音信息的特征张量与标签的特征张量，经过全连接层输出语音信息的类别的置信度。分类网络的损失函数为均方根误差损失函数。

分类网络为有监督网络训练过程，再训练是为了对输入的语音信息进行筛选，获取输入的语音信息的为正常语音信息的置信度。

步骤S004，将接收的助听器传输的待检测语音输入训练完成的分类网络中，获取待检测语音的分类结果以及置信度，根据置信度评估助听器的语音质量。

需要说明的是，当分类网络训练完成进行使用时，无需标签，因此不需要再利用自编码网络获取标签，只需要将待检测语音输入分类网络，即可实现语音信息的分类，并获取其属于正常语音的置信度。

具体的步骤包括：

对于同一助听器测试多次，采集多个待检测语音，根据待检测语音的置信度得到其属于失真语音的置信度，作为失真度，根据待检测语音的失真度与同一助听器的待检测语音的失真度均值之间的差异计算语音失真程度，当语音失真程度小于失真阈值时，待检测语音的来源助听器合格。

对于同一助听器传输的第j个待检测语音，输入训练完成的分类网络中，获取其置信度P_j(x)，则失真度P′_j(x)＝1-P_j(x)，进而构建语音质量评估模型：

其中，表示助听器的语音失真程度，表示同一助听器传输的所有待检测语音的失真度均值，M表示同一助听器传输的待检测语音的数量。

利用助听器的语音失真程度对助听器进行语音质量评估，当语音失真程度小于失真阈值M₁时，待检测语音的来源助听器合格。

作为一个示例，本发明实施例中失真阈值M₁＝0.2，当时，助听器语音质量合格。

综上所述，本发明实施例接收助听器在噪声测试环境下传输的语音信息；以语音信息作为自编码网络的输入，对隐含层中的隐变量进行分组替换，输出重构语音信息，来训练自编码网络；同时依据分组替换前后的隐变量对应的特征张量的相似度判断重构语音信息为正常语音还是失真语音；以语音信息作为分类网络的输入，以对应的重构语音信息的判断结果作为标签，输出语音信息的类别以及该语音信息为正常语音的置信度，训练分类网络；将接收的助听器传输的待检测语音输入训练完成的分类网络中，获取待检测语音的分类结果以及置信度，根据置信度评估助听器的语音质量。本发明实施例训练网络时无需人为标注，能够实现无监督训练，同时能够克服信噪比等算法需要纯净语音的苛刻条件，对助听器的语音质量进行准确的检测，评价结果更加准确和客观。

本发明实施例还提出了一种检测助听器语音质量的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。由于一种检测助听器语音质量的方法在上述给出了详细描述，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测助听器语音质量的方法，其特征在于，该方法包括以下步骤：

接收助听器在噪声测试环境下传输的语音信息；

将接收的助听器传输的待检测语音输入训练完成的分类网络中，获取所述待检测语音的分类结果以及所述置信度，根据所述置信度评估所述助听器的语音质量；

所述对隐含层中的隐变量进行分组替换，包括：

根据预设的时间步长将所述隐变量分组，选取中间的隐变量替换其相邻的隐变量，完成所述分组替换；

所述选取中间的隐变量替换其相邻的隐变量，包括：

对于隐变量奇数分组，选取中间的隐变量替换相邻的两个隐变量，其余隐变量保持不变，完成所述分组替换；对于隐变量偶数分组，选取中间两个隐变量中的任一隐变量替换相邻的另一个隐变量，其余隐变量保持不变，完成所述分组替换。

2.根据权利要求1所述的一种检测助听器语音质量的方法，其特征在于，所述接收助听器在噪声测试环境下传输的语音信息之后，还包括：

3.根据权利要求1所述的一种检测助听器语音质量的方法，其特征在于，所述判断所述重构语音信息为正常语音还是失真语音，包括：

4.根据权利要求3所述的一种检测助听器语音质量的方法，其特征在于，所述判断所述重构语音信息为正常语音还是失真语音，还包括：

5.根据权利要求1所述的一种检测助听器语音质量的方法，其特征在于，所述语音质量的评估方法为：

6.根据权利要求1所述的一种检测助听器语音质量的方法，其特征在于，所述噪声测试环境为：

7.一种检测助听器语音质量的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～6任意一项所述方法的步骤。