CN117395341B

CN117395341B - 基于i2s的智能手表通话音频处理单元智能切换方法

Info

Publication number: CN117395341B
Application number: CN202311650628.1A
Authority: CN
Inventors: 韦加新; 张宴菱; 彭美龄; 韦志浩; 韦廷高; 许伟坡; 韦国栋; 张深发
Original assignee: Shenzhen Xinkeyun Technology Co ltd
Current assignee: Shenzhen Xinkeyun Technology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-04-12
Anticipated expiration: 2043-12-05
Also published as: CN117395341A

Abstract

本发明涉及数据处理技术领域，提出了基于I2S的智能手表通话音频处理单元智能切换方法，包括：获取智能手表通话时的监测数据；根据每一秒所取特征观测时间窗内不同时间点的监测数据之间的变化量确定每一秒的行为功耗识别因子；根据每一秒所分各帧音频数据的特征值以及每秒的行为功耗识别因子获取每一秒的通话判别因子；基于每一秒的通话判别因子以及每秒的音频特征矩阵中的元素值确定每一秒的通话决策指数；智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换。本发明通过评估智能手表每一秒的通话状态实现不同模式的切换，避免VAD算法检测手表通话状态时的误差。

Description

基于I2S的智能手表通话音频处理单元智能切换方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于I2S的智能手表通话音频处理单元智能切换方法。

背景技术

I2S（Inter-IC Sound）是一种数字音频传输接口标准，通常用于将音频数据从一个集成电路传输到另一个集成电路，旨在实现高质量音频数据传输，故基于I2S的智能手表更专注于音频功能，具有较强的音频处理能力，音频处理单元的切换功能是指智能手表具备多个不同的音频处理单元，并能够在不同的使用场景或需求下切换使用这些音频处理单元，如通话时，音频处理单元自动切换到与通话有关的麦克风和扬声器，以保证通话质量，当通话结束时，音频处理单元可以切换回其余模式，进行音乐播放和其他音频功能。

实现智能手表通话音频处理单元智能切换方法的重点为识别出当前时间智能手表是否处于通话状态，通常需要通过语音状态检测算法实现，传统的语音状态检测算法，如VAD（Voice Activity Detection）算法，能够检测出声音信号是否为语音信号，进而对智能手表的音频处理单元进行智能切换，但在实际的通话过程中，通话双方并未处于持续沟通状态，即存在通话双方均保持静默的情况，此时通过VAD算法对通话状态进行判断时，则可能判断此时通话状态结束，进而将智能手表的音频处理单元切换为其余模式，导致通话质量下降。

发明内容

本发明提供基于I2S的智能手表通话音频处理单元智能切换方法，以解决传统语音状态检测算法对静默状态的智能手表通话误判的问题，所采用的技术方案具体如下：

本发明一个实施例基于I2S的智能手表通话音频处理单元智能切换方法，该方法包括以下步骤：

获取智能手表的监测数据，所述监测数据包括加速度数据、手表温度数据、手表电量数据、手表音频数据；

根据每一秒所取特征观测时间窗内不同时间点的监测数据之间的变化量确定每一秒的行为功耗识别因子；

根据每一秒所分各帧音频数据的特征值以及每秒的行为功耗识别因子获取每一秒的通话判别因子；

基于每一秒的通话判别因子以及每秒的音频特征判断矩阵中的元素值确定每一秒的通话决策指数；智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换。

优选的，所述根据每一秒所取特征观测时间窗内不同时间点的监测数据之间的变化量确定每一秒的行为功耗识别因子的方法为：

根据每一秒与其上一秒采集的手表温度数据、手表电量数据之间的差异确定每一秒的瞬时状态变化量；

将每一秒所取特征观测时间窗内相邻时间点之间加速度方向的差值绝对值与预设参数的和作为第一变化量；

将每一秒所取特征观测时间窗内相邻时间点之间加速度大小的差值绝对值与预设参数的和作为第二变化量；

将第一变化量与第二变化量的乘积作为分母，将每一秒的瞬时状态变化量与分母的比值在每一秒所取特征观测时间窗上累加结果的均值作为每一秒的行为功耗识别因子。

优选的，所述根据每一秒与其下一秒采集的手表温度数据、手表电量数据之间的差异确定每一秒的瞬时状态变化量的方法为：

将每一秒与其下一秒采集的手表温度数据之间差值的绝对值作为第一差值；

将每一秒与其下一秒采集的手表电量数据之间差值的绝对值作为第二差值；

将第一差值的映射结果与第二差值的映射结果之和作为每一秒的瞬时状态变化量。

优选的，所述根据每一秒所分各帧音频数据的特征值以及每秒的行为功耗识别因子获取每一秒的通话判别因子的方法为：

根据每一秒采集的手表音频数据的分帧结果确定每一秒的音频特征判断矩阵；

将每一秒的音频特征判断矩阵中所有元素的均值与每一秒的行为功耗识别因子的乘积作为每一秒的通话判别因子。

优选的，所述根据每一秒采集的手表音频数据的分帧结果确定每一秒的音频特征判断矩阵的方法为：

将每一秒的手表音频数据分帧所得每一帧的音频参数向量构建每一秒的音频特征矩阵；

将每一秒的音频特征矩阵作为输入，采用交叉验证法获取每一秒的音频特征矩阵中每一行元素的判断阈值；根据所述判断阈值将每一秒的音频特征矩阵转换为每一秒的音频特征判断矩阵。

优选的，所述将每一秒的手表音频数据分帧所得每一帧的音频参数向量构建每一秒的音频特征矩阵的方法为：

将每一秒的手表音频数据划分成预设数量个音频帧，将每个音频帧的梅尔频率倒谱系数、短时能量、过零率组成的向量作为所述每个音频帧的音频参数向量；

获取所述每个音频帧的音频参数向量的转置向量，将每一秒内所有音频帧对应的转置向量构建的矩阵作为每一秒的音频特征矩阵。

优选的，所述根据所述判断阈值将每一秒的音频特征矩阵转换为每一秒的音频特征判断矩阵的方法为：

将每一秒的音频特征矩阵中每一行内大于等于每一行判断阈值的元素置为1，将每一秒的音频特征矩阵中每一行内小于每一行判断阈值的元素置为-1；

将遍历每一秒的音频特征矩阵中所有元素后的结果作为每一秒的音频特征判断矩阵。

优选的，所述基于每一秒的通话判别因子以及每秒的音频特征判断矩阵中的元素值确定每一秒的通话决策指数的方法为：

将每一秒的音频特征判断矩阵中值为1的元素数量与值为-1的元素数量之间差值的绝对值作为第一特征值；将第一特征值与每一秒的通话判别因子的乘积作为映射函数的输入，将所述映射函数的输出的取整结果作为每一秒的通话决策指数。

优选的，所述映射函数为Sigmoid函数。

优选的，所述智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换的方法为：

获取智能手表每一秒的通话决策指数，将每一秒的通话决策指数与VAD算法的原始检测结果的逻辑运算结果作为每一秒的真实决策值，当所述真实决策值为1时，通过音频处理单元将智能手表切换到通话模式；当所述真实决策值为0时，通过音频处理单元将智能手表切换到非通话模式。

本发明的有益效果是：本发明通过智能手表每秒采集的监测数据分析智能手表可能处于的状态，并佩戴者相邻时间点之间的行为特征构建行为功耗识别因子，用于反映每秒智能手表处于通话状态的可能性；其次基于智能手表的手表音频数据进一步判断智能手表处于通话状态时的每个音频帧的多参数特征，并结合行为功耗识别因子确定每秒的通话判别因子；其次基于每秒的通话判别因子确定每秒的通话决策指数，并利用每秒的通话决策指数与VAD算法的原始检测结果进行与逻辑运算得到每秒的真实决策值，完成对VAD算法的初始检测结果的修正，降低VAD算法对静默状态的智能手表通话状态的误判概率，提高了智能手表音频处理单元切换的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于I2S的智能手表通话音频处理单元智能切换方法的流程示意图；

图2为本发明一个实施例所提供的基于I2S的智能手表通话音频处理单元智能切换方法的实施流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于I2S的智能手表通话音频处理单元智能切换方法的流程图，该方法包括以下步骤：

步骤S001，获取智能手表每一秒的监测数据，并对监测数据进行预处理。

基于I2S的智能手表内部通常内置有多种传感器，用以实现运动跟踪、地理定位、姿态检测等多种功能，据此本发明通过智能手表内置传感器采集每一秒下智能手表的监测数据，所述监测数据包括加速度数据、手表温度数据、手表电量数据、手表音频数据。

具体地，通过智能手表内置的加速度传感器采集智能手表的加速度数据，所述加速度数据包括加速度的大小与方向；通过智能手表内置的温度传感器采集智能手表自身的温度数据；通过智能手表内置的电池电量传感器采集智能手表的手表电量数据。其次通过智能手表内置的音频传感器采集智能手表每一秒的手表音频数据，所得手表音频数据为音频的时域波形，本发明中采样频率设置为f，f的大小取经验值16kHz，相邻两次采集数据的时间间隔为T，T的大小取经验值1s，采集次数为N，N的大小取经验值900。需要说明的是，智能手表的监测数据的种类以及数据采集时的参数可由实施者自行设置。

由于采集到的数据中可能出现数据缺失等情况，为避免缺失值对后续步骤产生影响，需要对采集到的数据进行缺失值填充处理，常用的缺失值填充方法有均值填充、中位数填充、插值填充等，为使填充值更符合数据的变化规律，本发明使用线性插值法对每种监测数据的采集结果进行填充处理，同时为避免量纲不同带来的影响，本发明使用Z-score方法对填充处理后的数据进行归一化处理，其中，线性插值法与Z-score归一化为公知技术，具体过程不再赘述。

至此，得到智能手表每一秒的监测数据，用于后续手表通话状态的分析判断。

步骤S002，根据每一秒所取特征观测时间窗内不同时间点的监测数据之间的变化量确定每一秒的行为功耗识别因子。

智能手表的佩戴者的自身状态处于随机变化的状态，例如处于工作、跑步、开车等等各种状态。但是当佩戴者处于通话状态时，通话双方都希望更清晰的听到对方声音，通常会放缓自身动作，例如通话者正在跑步时收到来电，通常会停下来接听电话，故在通话时通话者的动作较为平缓，即通话期间智能手表的加速度的变化较小。基于I2S的智能手表在通话状态下，智能手表会持续传输和接收音频数据以支持实时通话，即音频处理单元处于较高的数据传输与带宽使用状态，进而造成智能手表消耗的电池电量相较于非通话模式有所增加；同时在较高数据传输速率与带宽使用的影响下，智能手表内的电路发热量增加，造成智能手表的温度上升。

进一步地，对于任意一个数据采集时刻，以第i秒为例，将第i秒之前且距离第i秒的时间间隔最小的m秒内的每一秒作为第i秒的一个近邻时间点，将m个第i秒的近邻时间点与第i秒组成的时间窗口作为第i秒的特征观测时间窗，所述特征观测时间窗的长度为m+1，m的大小取经验值10。需要说明的是，对于历史采集时刻不足m的采集时刻，可以通过均值填充的方式往前填充数据，均值填充为公知技术，具体过程不再赘述。

基于上述分析，此处构建行为功耗识别因子，用于表征每一秒智能手表的状态信息。计算第i秒的行为功耗识别因子D_i：

；

式中，U_j是第j秒的瞬时状态变化量，w_j、w_j-1分别是第j秒、第j-1秒的手表温度数据，l_j、l_j-1分别是第j秒、第j-1秒的手表电池数据，tanh()是双曲正切函数；

D_i是第i秒的行为功耗识别因子，U_j(i)是第i秒的特征观测时间窗内第j秒的瞬时状态变化量，m是第i秒的近邻时间点的数量，θ_i(j,j-1)是第i秒的特征观测时间窗内第j秒、第j-1秒的加速度方向之间的角度变化量，a_i,j、a_i,j-1分别是第i秒的特征观测时间窗内第j秒、第j-1秒的加速度大小，μ₁、μ₂均为调参因子，用于防止分母为0，μ₁、μ₂的大小分别取经验值1、0.1。

其中，在第j秒智能手表处理通话状态的概率越大，相邻时间点的温度变化与智能手表电池电量变化越大，第一差值|w_j-w_j-1|的值越大，第二差值|l_j-l_j-1|的值越大；同时由于观测时间较短，温度变化与智能手表电池电量变化的敏感程度较弱，由于双曲正切函数在输入取值为0的附近的曲率变化较为明显，能够识别输入为0的附近的微小变化，据此本发明使用双曲正切函数对温度变化与智能手表电池电量变化进行处理，增强其敏感程度；第i秒的特征观测时间窗内智能手表处理通话状态的概率越大，佩戴者为了得到更高质量的通话服务，通常会暂停自身的运动状态，此时第一变化量θ_i(j,j-1)+μ₁的值越小，第二变化量|a_i,j-a_i,j-1|+μ₂的值越小；即D_i的值越大，智能手表功耗较小，越可能处于其余模式。

至此，得到每一秒的行为功耗识别因子，用于后续确定每一秒的通话判别因子。

步骤S003，根据每一秒所分各帧音频数据的特征值以及每秒的行为功耗识别因子获取每一秒的通话判别因子；基于每一秒的通话判别因子以及每秒的音频特征判断矩阵中的元素值确定每一秒的通话决策指数。

对于智能手表每一秒采集的手表音频数据，以第i秒的手表音频数据为例，对第i秒的手表音频数据进行分帧处理，每一帧的时长设置为经验值20ms，将第i秒的手表音频数据分解为k个音频帧。其次分别获取所得每个音频帧的梅尔频率倒谱系数、短时能量、过零率，将所述每个音频帧的尔频率倒谱系数、短时能量、过零率组成的向量作为每个音频帧的音频参数向量，其中，梅尔频率倒谱系数、短时能量、过零率的获取均为公知技术，具体过程不再赘述。

将第i秒手表音频数据分帧所得第p个(p≤k)音频帧的音频参数向量记为V_i,p：

；

其中，Mel_i,p、d_i,p、r_i,p分别是第i秒分帧所得第p个音频帧的梅尔频率倒谱系数、短时能量、过零率。

进一步地，分别获取第i秒手表音频数据分帧所得k个音频帧的音频参数向量。其次对所述k个音频帧的音频参数向量进行转置处理，将第i秒手表音频数据分帧所得第p个音频帧的音频参数向量的转置向量记为V_i,p ^T，将第i秒内所有语音帧对应的转置向量构建的矩阵作为第i秒的音频特征矩阵Z_i=(V_i,1 ^T,…,V_i,p ^T,…,V_i,k ^T)。其次，将第i秒的音频特征矩阵Z_i作为输入，采用交叉验证法获取音频特征矩阵Z_i中每一行元素的判断阈值，将第i秒的音频特征矩阵中各元素的值与其所在行的判断阈值进行比较，若元素值大于等于其所在行的判断阈值，则将此元素值置为1，否则将此元素值置为-1，将由音频特征矩阵Z_i中所有元素的赋值结果所构成的矩阵记为第i秒的音频特征判断矩阵，其中交叉验证法为公知技术，具体过程不再赘述。

进一步地，基于第i秒的音频特征判断矩阵以及第i秒的行为功耗识别因子获取第i秒的通话判别因子C_i：

；

式中，C_i是第i秒的通话判别因子，D_i是第i秒的行为功耗识别因子，是第i秒的音频特征判断矩阵中所有元素的均值。

其中，第i秒处于通话状态时，通话者的行为特征与智能手表的功耗特征越明显，D_i的值越大；短时能量用于初步检测语音活动，当存在语音活动时，短时能量较大，过零率则用于区分清音与浊音，浊音时的过零率较低，集中在低频段，清音时的过零率较高，集中在高频段，因此当第i秒智能手表处于语音通话状态时，梅尔频率倒谱系数、短时能量、过零率越可能大于等于其所在行的判断阈值，第i秒的音频特征判断矩阵值为1的元素越多，的值越大。

进一步地，分别统计每秒的音频特征判断矩阵中值为1、值为-1的元素数量，并结合每一秒的通话判别因子判断每一秒智能手表处于通话状态的可能性。此处构建通话决策指数，用于表征每一秒智能手表处于通话状态的置信度大小，计算第i秒的通话决策指数：

；

式中，T_i是第i秒的通话决策指数，round()为四舍五入取整函数，C_i是第i秒的通话判别因子，N_i(1)、N_i(-1)分别是第i秒的音频特征判断矩阵值为1、值为-1的元素数量，Sig()为Sigmoid函数，选取作为映射函数的原因在于Sigmoid函数能够将括号内的输入映射到(0,1)，且能够使结果尽可能的靠近两端，便于得到二分类的决策结果，有利于和后续VAD算法的原始算法进行计算。

至此，得到智能手表每秒的通话决策指数，用于后续对VAD算法检测结果的优化修正。

步骤S004，智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换。

具体地，将每一秒采集到的手表音频数据作为VAD算法的输入，采用VAD算法获取智能手表每秒是否处于通话状态的原始检测结果，对每一秒的原始检测结果进行二值化处理，如果VAD算法检测第i秒处于通话状态，则将第i秒的原始检测结果记为1，否则将第i秒的原始检测结果记为0，VAD算法为公知技术，具体过程不再赘述。

根据上述步骤，分别获取每秒的通话决策指数以及原始检测结果。其次对每秒的通话决策指数以及原始检测结果进行与逻辑运算得到每秒的真实决策值：即只有每秒的通话决策指数以及原始检测结果皆为1时，每秒的真实决策值为1；否则每秒的真实决策值为0。基于每秒真实决策值对I2S的智能手表通话音频处理单元进行智能切换，整个切换流程如图2所示，具体切换步骤如下：

基于I2S的智能手表中包含两个芯片，即通信芯片与双模蓝牙芯片，当真实决策值的计算结果为1时，表明此时智能手表处于通话状态，通过音频处理单元将智能手表切换为通话模式，将决策结果传输至通信芯片中，即通信芯片检测到通信需求，通信芯片协助建议蜂窝网络通话连接并维持，同时通过双模蓝牙芯片协助切换音频流到蓝牙耳机中，实现无线通话功能，保证较高的通话质量；当真实决策值的计算结果为0时，表明此时智能手表处于非通话状态，即通话状态已经结束，此时则不存在通信需求，则通过音频处理单元将智能手表切换为其余模式，通过通信芯片结束通话连接，同时通过双模蓝牙芯片将通话与蓝牙之间的连接断开，实现智能手表通话音频处理单元的智能切换。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，该方法包括以下步骤：

基于每一秒的通话判别因子以及每秒的音频特征判断矩阵中的元素值确定每一秒的通话决策指数；智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换；

所述根据每一秒所分各帧音频数据的特征值以及每秒的行为功耗识别因子获取每一秒的通话判别因子的方法为：

将每一秒的音频特征判断矩阵中所有元素的均值与每一秒的行为功耗识别因子的乘积作为每一秒的通话判别因子；

所述根据每一秒采集的手表音频数据的分帧结果确定每一秒的音频特征判断矩阵的方法为：

2.根据权利要求1所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述根据每一秒所取特征观测时间窗内不同时间点的监测数据之间的变化量确定每一秒的行为功耗识别因子的方法为：

3.根据权利要求2所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述根据每一秒与其下一秒采集的手表温度数据、手表电量数据之间的差异确定每一秒的瞬时状态变化量的方法为：

4.根据权利要求1所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述将每一秒的手表音频数据分帧所得每一帧的音频参数向量构建每一秒的音频特征矩阵的方法为：

5.根据权利要求1所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述根据所述判断阈值将每一秒的音频特征矩阵转换为每一秒的音频特征判断矩阵的方法为：

6.根据权利要求1所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述基于每一秒的通话判别因子以及每秒的音频特征判断矩阵中的元素值确定每一秒的通话决策指数的方法为：

7.根据权利要求6所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述映射函数为Sigmoid函数。

8.根据权利要求1所述的一种基于I2S的智能手表通话音频处理单元智能切换方法，其特征在于，所述智能手表的音频处理单元根据每一秒的通话决策指数实现不同模态的切换的方法为：