CN115775562B

CN115775562B - 一种用于蓝牙耳机的声音外泄检测方法

Info

Publication number: CN115775562B
Application number: CN202310102585.7A
Authority: CN
Inventors: 吴伟鑫; 蔡晓君
Original assignee: Shenzhen Shenyu Electronic Technology Co ltd
Current assignee: Shenzhen Shenyu Electronic Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-04-07
Anticipated expiration: 2043-02-13
Also published as: CN115775562A

Abstract

本发明涉及声音数据处理技术领域，提出了一种用于蓝牙耳机的声音外泄检测方法，包括：获取蓝牙耳机播放的第一音频数据及周围环境的第二音频数据；获取第二音频数据的语谱图，根据语谱图中数据点的像素值、频率值及时间值获取语谱图中若干时间划分区间；根据每个划分区间中每个第一数据点在第一预设窗口内不同位置的趋势性表现，获取每个第一数据点的第一分布度；根据第一分布度对引导滤波的线性变化系数进行约束，并对语谱图进行去噪处理；将去噪后的语谱图转换为第三音频数据，根据第一音频数据及第三音频数据的相似性得到蓝牙耳机的声音外泄判断结果。本发明旨在解决引导滤波对音频检测去噪效果较差进而导致声音外泄检测结果不准确的问题。

Description

一种用于蓝牙耳机的声音外泄检测方法

技术领域

本发明涉及声音数据处理领域，具体涉及一种用于蓝牙耳机的声音外泄检测方法。

背景技术

蓝牙耳机是一种无线式的免持耳机，可以减少耳机线的干扰，使得耳机的使用方式更加便捷；随着蓝牙技术的发展，蓝牙耳机的功能越来越完善，在各种生活场景中使用蓝牙耳机的人也越来越多。但是在使用蓝牙耳机通话或者播放音频的过程中，蓝牙耳机使用者很难感知到是否出现声音外泄情况，若公共场合下蓝牙耳机出现声音外泄情况，会对周边的其他人产生影响。

在现有专利CN114979921A一种耳机声音外泄的检测方法、装置及蓝牙耳机中，通过蓝牙耳机自带的麦克风在播放音频的同时获取环境的声音，比较播放音频及对应的环境声音之间相似程度。然而在进行蓝牙耳机的声音外泄检测过程中，由于会受到外界噪声的干扰,噪声会使得蓝牙耳机自带的麦克风在接收到音频信息发送变化，会使得在计算相似程度时产生较大的误差；在传统的去噪方法中，引导滤波算法是一种计算量较小的去噪方法，其在音频信号细节平滑方面有较好的处理效果；但是在引导滤波算法中，由于不同段的音频信号的噪声程度不同，造成了引导滤波算法中的线性变化关系对于某些段的音频信号过于局限，导致音频信号的去噪效果较差。

发明内容

本发明提供一种用于蓝牙耳机的声音外泄检测方法，以解决现有的引导滤波对音频检测去噪效果较差进而导致声音外泄检测结果不准确的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种用于蓝牙耳机的声音外泄检测方法，该方法包括以下步骤：

获取蓝牙耳机播放的第一音频数据及周围环境的第二音频数据；

将第二音频数据转换为语谱图，对语谱图中数据点的能量值进行量化获取每个数据点的像素值；

对语谱图中的数据点根据像素值进行聚类，得到若干第一类别，根据每个第一类别中所有数据点的频率值、像素值均值与其他第一类别的像素值均值，获取每个第一类别的第一分区概率；根据第一分区概率判断得到第二类别，根据任意两个第二类别之间的中心距离及像素值均值差异获取两个第二类别的第二合并概率，根据第二合并概率及各第二类别中所有数据点的时间值获取语谱图中的若干时间划分区间，将每个划分区间内的数据点记为第一数据点；

根据每个划分区间中的每个第一数据点在第一预设窗口内的不同位置、每个第一数据点的像素值以及第一预设窗口内其他第一数据点的像素值，获取每个第一数据点在若干位置下的第一数据序列曲线及第二数据序列曲线，通过时间序列分解获取每个第一数据点在若干位置下的第一趋势性曲线及第二趋势性曲线，对每个第一数据点在相同位置下的第一趋势性曲线及第二趋势性曲线进行匹配得到若干匹配点对，根据匹配点对获取每个第一数据点在每个位置下的第一异常程度，将每个第一数据点在所有位置下的第一异常程度均值作为每个第一数据点的第一分布度；

根据每个第一数据点的第一分布度对用于引导滤波的每个数据点的线性变化系数进行约束，根据每个第一数据点约束后的线性变化系数对语谱图进行去噪处理；

将去噪后的语谱图转换为第三音频数据，根据第一音频数据及第三音频数据的相似性获取蓝牙耳机声音外泄的判断结果。

可选的，所述得到若干第一类别，包括的具体方法为：

通过对语谱图中的数据点根据像素值进行聚类，得到若干聚簇，每个聚簇中包含若干像素值相近的数据点，同一聚簇内的数据点在语谱图中表现出若干个连通域，将每个聚簇中的每个连通域记为第一类别。

可选的，所述获取每个第一类别的第一分区概率，包括的具体方法为：

其中，

表示第

个第一类别的第一分区概率，

表示第

个类别中所有数据点的频率值均值，

表示第

个类别中所有数据点的像素值均值，

表示语谱图中第一类别的数量，

表示第

个类别中所有数据点的像素值均值。

可选的，所述获取两个第二类别的第二合并概率，包括的具体方法为：

其中，

表示第

个第二类别与第

个第二类别的第二合并概率，

表示第

个第二类别的中心与第

个第二类别的中心之间的欧式距离，

表示第

个第二类别的像素值均值，

表示第

个第二类别的像素值均值。

可选的，所述获取语谱图中的若干时间划分区间，包括的具体方法为：

对所有第二合并概率大于第二预设阈值的对应两个第二类别进行合并，获取到若干合并后类别，将每个合并后类别中所有数据点的时间值作为一个时间划分区间，每个合并后类别分别对应一个时间划分区间。

可选的，所述获取每个第一数据点在若干位置下的第一数据序列曲线及第二数据序列曲线，包括的具体方法为：

将任意一个第一数据点作为目标数据点，获取目标数据点在第一预设窗口内任意一个位置对应的第一预设窗口内的所有第一数据点，将当前位置对应的第一预设窗口内的所有第一数据点按照逐行首尾相连的排列方式，得到目标数据点在当前位置下的第一数据序列，以横坐标为数据序列中的序数，纵坐标为像素值获取目标数据点在当前位置下的第一数据序列曲线；

将当前位置对应的第一预设窗口内除目标数据点外的其他第一数据点按照逐行首尾相连的排列方式，得到目标数据点在当前位置下的第二数据序列，以横坐标为数据序列中的序数，纵坐标为像素值获取目标数据点在当前位置下的第二数据序列曲线。

可选的，所述获取每个第一数据点在每个位置下的第一异常程度，包括的具体方法为：

其中，

表示第

个第一数据点在第

个位置下的第一异常程度，

表示第

个第一数据点在第

个位置下的匹配点对数量，

表示第

个第一数据点在第

个位置下的第

个匹配点对中第一数据点的欧式距离，

表示第

个第一数据点在第

个位置下的所有匹配点对中第一数据点的欧式距离均值。

可选的，所述根据每个第一数据点的第一分布度对用于引导滤波的每个数据点的线性变化系数进行约束，包括的具体方法为：

根据所有第一数据点的第一分布度进行线性归一化得到每个第一数据点的约束参数，将每个第一数据点的约束参数与线性变化系数的乘积作为每个第一数据点约束后的线性变化系数。

本发明相较于现有技术的有益效果是：

（1）根据每个数据点的位置分布和能量分布通过聚类分析得到若干第一类别，分析每个第一类别作为区间划分的可能性得到第二类别，并对第二类别进行合并概率计算，获取时间区间的划分范围，对语谱图进行区间划分，避免了传统方法中仅根据音频信号的波动信息来确定划分时间区间的时间点，使得获取的划分区间范围计算更加准确，同时避免了人工设置波动信息变化阈值的缺点，也使得后续计算每个数据点的自适应引导滤波约束参数更加准确。

（2）根据划分区间内第一数据点在第一预设窗口内不同位置的分布特征，进行数据点的第一分布度的计算，其中每个第一数据点的第一分布度的计算通过第一数据点在第一预设窗口内不同位置的第一异常程度进行计算；通过STL时间序列分解算法确定第一数据点在第一预设窗口内的趋势分布特征，并通过排除当前第一数据点，获取排除前和排除后的趋势分布变化，来表征每个第一数据点的第一分布度；根据每个第一数据点的第一分布度对自适应引导滤波中的线性参数进行约束；避免传统的引导滤波算法中由于不同段的音频数据的噪声程度不同，造成了引导滤波算法中的线性变化关系对于某些段的音频数据中过于局限，导致音频数据的去噪效果较差，并且使音频数据的有用信息的丢失的缺点；通过计算每个第一数据点的引导滤波约束参数，使得音频数据的去噪效果更加优秀，同时保证音频数据的有用信息不丢失，进而在进行蓝牙耳机声音外泄检测时计算相似性更加准确，使得检测结果更加准确，误差较小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供一种用于蓝牙耳机的声音外泄检测方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种用于蓝牙耳机的声音外泄检测方法流程图，该方法包括以下步骤：

步骤S001、获取蓝牙耳机播放的第一音频数据及周围环境的第二音频数据。

本实施例的目的是通过计算蓝牙耳机播放音频和周围环境声音的相似性，判断蓝牙耳机是否出现声音外泄，因此需要先获取蓝牙耳机播放音频及周围环境声音，所述蓝牙耳机播放音频可以直接获取，并通过传感器将音频数据转换为电信号记为第一音频数据；所述周围环境声音通过蓝牙耳机的麦克风采集环境音频，并将环境音频同样转换为电信号记为第二音频数据；需要说明的是，获取到的蓝牙耳机播放音频及环境音频，采样的时间及频率均保持一致。

步骤S002、获取第二音频数据的语谱图，量化得到语谱图中数据点的像素值，根据语谱图中数据点的像素值、频率值及时间值获取语谱图中若干时间划分区间。

需要说明的是，语谱图是音频数据的一种三维表现形式，相较于二维在音频波动数据体现的信息更加明显，进而在进行噪声识别及去除上相较于二维音频数据更加明显，本实施例将音频数据进行预处理，转换为语谱图进行分析，对语谱图进行去噪处理，进而实现对音频信号进行去噪处理。

具体的，首先通过帧长度及窗函数，将第二音频数据进行傅里叶变换构建对应的语谱图；构建语谱图为公知技术，不再赘述；帧长度本实施例中设置为25ms，窗函数本实施例采用汉明窗函数，可根据实施者具体实施情况而定；需要说明的是，语谱图中的每个数据点的三个维度坐标分别为：横坐标为时间值，纵坐标为频率值，横纵坐标组成的像素的值大小为能量值，即第三个维度的大小；而能量值的分布范围不统一，为了方便后续通过能量值进行相关聚类等计算，需要对其进行量化。

具体的，获取语谱图中每个数据点的能量值，将能量值量化到

区间范围内，以坐标值为

的数据点为例，其量化后的能量值

的计算方法为：

其中，

表示坐标值为

的数据点量化前的能量值，

和

分别表示所有数据点中量化前能量值的最大值和最小值，255为量化的范围上限值，

为四舍五入取整函数；至此，完成了将第二音频数据转换为语谱图的形式，同时为方便后续计算对能量值进行了量化得到了每个数据点的像素值。

进一步需要说明的是，由于音频数据之间存在基音特征，基音段对应着语谱图中频率较低的区域，并且其能量值往往较大，根据基音段上的波动分布特征对音频信号及语谱图进行分段，对每段进行引导滤波；避免采用统一的引导滤波将不同段之间的较大差异错误识别为噪声并去除，从而因去噪产生的错误而导致最终相似度检测出现误差，进而影响蓝牙耳机的声音外泄检测结果。

具体的，首先对语谱图中的数据点根据像素值进行聚类，聚类方法采用K-means聚类，K值设定为5，聚类规则为根据每个数据点的像素值大小进行聚类；其中K值的设置本实施例选择5来实施，实际实施中实施者根据实际情况而定；聚类结果中共有5个聚簇，由于是根据像素值进行聚类，同一聚簇中的数据点在语谱图中可能分布在若干连通域中，将每个聚簇中的每个连通域记为第一类别；进一步的，分析每个第一类别可能作为基音段的划分区间的第一分区概率，以第

个第一类别为例，获取其第一分区概率

的具体计算方法为：

其中，

表示第

个类别中所有数据点的频率值均值，

表示第

个类别中所有数据点的像素值均值，

表示语谱图中第一类别的数量，

表示第

个类别中所有数据点的像素值均值；特殊的，若得到的

，则将此时的

设置为0；至此，通过每个第一类别中所有数据点的频率值、像素值以及其他第一类别的像素值获取到了每个第一类别的第一分区概率，频率值即为语谱图中数据点的纵坐标值，频率值越小，为基音段的可能性越大，与其他第一类别的像素值均值的差异越大，且差值为正数，表明该第一类别中的像素值越大，对应能量值越大，可能为基音段的概率就越大。

进一步的，对所有第一类别的第一分区概率进行线性归一化，给出第一预设阈值

，本实施例中采用

进行实施，将归一化的第一分区概率大于第一预设阈值

的第一类别作为第二类别；此时得到的第二类别即为可能的基音段，同时为了使划分区间更加准确，确保同一段基音处在同一划分区间中，需要对此时的第二类别进行判断合并。

具体的，以第

个第二类别及第

个第二类别为例，获取两个第二类别的第二合并概率

的计算方法为：

其中，

表示第

个第二类别的中心与第

个第二类别的中心之间的欧式距离，

表示第

个第二类别的像素值均值，

表示第

个第二类别的像素值均值，加1为了避免分母为0，所述第二类别的像素值均值即为第二类别中所有数据点的像素值的均值；所述第二类别的中心由任意一个第二类别中所有数据点的坐标均值得到；此时，两个第二类别的中心距离越小，两个第二类别距离越近，像素值均值差异越小，两个第二类别包含的数据点的能量值差异越小，越可能表示同一个基音段，需要合并的概率越大，可能因为K-means的聚类误差导致未形成同一个第二类别。

进一步的，获取到任意两个第二类别的第二合并概率，给出第二预设阈值

，本实施例中采用

进行实施，对所有第二合并概率大于第二预设阈值的对应两个第二类别进行合并，获取到若干合并后类别；需要说明的是，所述合并后类别包括第二类别合并形成的新类别，及无需合并的第二类别；将每个合并后类别中所有数据点的时间值作为一个时间划分区间，每个合并后类别分别对应一个时间划分区间。

至此，获取到若干时间划分区间，对语谱图进行了横坐标时间上的划分，每个划分区间对应一个基音段，通过对每个基音段分别进行引导滤波，可以避免统一引导滤波造成的误差。

步骤S003、根据每个划分区间中每个第一数据点在第一预设窗口内不同位置的趋势性表现，获取每个第一数据点在第一预设窗口内不同位置的第一异常程度，得到每个第一数据点的第一分布度。

需要说明的是，每个划分区间代表一个基音段对应的时序区间，通过基音段限制数据点及其邻域的范围，避免由于数据点及邻域在不同基音段内而出现引导滤波误差；同时，根据数据点在一定邻域范围内的异常程度表现来进行自适应引导滤波，一定邻域范围内，有无该数据点的趋势变化差异越大，即趋势变化的相似度越小，表明该数据点在该一定邻域范围所引起的变化越小，分布异常程度越大，引导滤波所需要参考的信息就越多。

具体的，首先获取一个第一预设窗口，本实施例中第一预设窗口选择

大小的窗口进行实施，实际实施过程中实施者可自行调节设置；将各划分区间内的数据点记为第一数据点，则每个第一数据点在第一预设窗口内共有25个不同的位置，将任意一个第一数据点置于第一预设窗口内的任意一个位置，获取此时第一预设窗口内的其他第一数据点；为了便于叙述，将任意一个第一数据点作为分析对象进行叙述，将该第一数据点称为目标数据点。

进一步的，首先将第一预设窗口内的所有第一数据点按照逐行首尾相连的排列方式，得到的数据点序列记为目标数据点在当前位置下的第一数据序列；再将第一预设窗口内除目标数据点外的其他第一数据点按照逐行首尾相连的排列方式，得到的数据点序列记为目标数据点在当前位置下的第二数据序列；以横坐标为序列中的序数，纵坐标为像素值，将第一数据序列及第二数据序列表现为第一数据序列曲线及第二数据序列曲线，用于后续通过STL时间序列分解来直观反映目标数据点在当前位置下的趋势变化表现；获取每个第一数据点在第一预设窗口内不同位置下的第一数据序列曲线及第二数据序列曲线。

需要说明的是，在第一预设窗口的其他第一数据点获取过程中，可能会出现超出划分区间的情况，此时本实施例利用二次线性插值的方法对超出划分区间的部分进行插值填充数据。

进一步的，对每个第一数据点在第一预设窗口内不同位置下的第一数据序列曲线及第二数据序列曲线进行STL时间序列分解算法，获取每个第一数据点在不同位置下的第一趋势性曲线和第二趋势性曲线；其中STL时间序列分解算法为公知技术，本实施例不再赘述；此时，可以通过每个第一数据点在同一位置下的第一趋势性曲线和第二趋势性曲线的相似度来判断该第一数据点在当前位置下的第一异常程度；而在计算相似度时，由于第一趋势性曲线和第二趋势性曲线中包含的数据点数量不同，因此可以通过DTW时间序列规整算法来进行相似度计算。

具体的，以第

个第一数据点在第

个位置下为例，首先将第一趋势性曲线及第二趋势性曲线根据横纵坐标转换为第一趋势性序列及第二趋势性序列，通过DTW进行两序列中第一数据点的匹配得到

个匹配点对，则计算该第一数据点在当前位置下的第一异常程度

的计算方法为：

其中，

表示第

个第一数据点在第

个位置下的匹配点对数量，

表示第

个第一数据点在第

个位置下的第

个匹配点对中第一数据点的欧式距离，

表示第

个第一数据点在第

个位置下的所有匹配点对中第一数据点的欧式距离均值；所述欧式距离为两个第一数据点在语谱图中的欧式距离；此时得到的第一异常程度中，通过匹配点对之间的欧式距离方差来反映第一异常程度，方差越大，表明当前位置下的第一预设窗口中，有无该第一数据点的趋势性差异越大，相似度越小，该第一数据点在当前位置下的第一异常程度越大。

进一步的，将任意一个第一数据点在第一预设窗口内所有位置得到的第一异常程度求均值，得到的结果记为该第一数据点的第一分布度；按照上述方法获取每个第一数据点的第一分布度。

至此，得到的第一分布度用于对后续线性变化系数进行约束，第一分布度越大，表明该第一数据点在一定邻域范围内异常程度越大，越需要更多的引导信息，需要进行越大的约束。

步骤S004、根据每个第一数据点的第一分布度对引导滤波的线性变化系数进行约束，并对语谱图进行去噪处理。

需要说明的是，引导滤波是一种能够一定程度保证信号原本特征的自适应滤波方法，该算法将局部信号视为呈线性关系的，因此该算法中引入了一个线性变化系数；但常规的引导滤波中的线性变化系数的过于局限，无法根据待滤波信号各位置噪声的程度差异来调节，无法自适应的线性变化系数会导致滤波结果产生较大误差，因此需要根据数据点的噪声程度即第一分布度来对线性变化系数进行约束；在步骤S003中已经获取到每个划分区间内每个第一数据点的第一分布度，获取第一分布度采用的第一预设窗口实际上为第一数据点的一定邻域范围，第一分布度越大，表明第一数据点在一定邻域范围内异常程度越大，对应的需要参考越多的引导信息，对应的线性变化系数应越大，以确保去噪效果好的同时，保证音频数据的有用信息不丢失。

具体的，获取到每个第一数据点的第一分布度后，对所有第一数据点的第一分布度进行线性归一化，归一化的第一分布度值作为约束参数，将每个第一数据点的约束参数与线性变化系数的乘积作为每个第一数据点约束后的线性变化系数；根据约束后的线性变化系数，得到语谱图中所有数据点约束后的线性变化；其中没有约束参数的数据点，即不处于任何一个划分区间中的数据点线性变化系数无需改变；进而通过线性变化进行自适应引导滤波，完成对语谱图的去噪处理。

步骤S005、将去噪后的语谱图转换为第三音频数据，根据第一音频数据及第三音频数据的相似性判断蓝牙耳机是否出现声音外泄。

将去噪后的语谱图通过映射变化关系转换得到第三音频数据，第三音频数据即为对环境音频进行去噪后的结果；对蓝牙耳机播放的第一音频数据及第三音频数据进行相似度匹配，所述相似度匹配采用皮尔逊相关系数来完成，设置第三预设阈值

，本实施例中采用

进行实施，若第三音频数据与第一音频数据的相似度大于第三预设阈值

，则表明当前蓝牙耳机出现声音外泄的情况。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。