CN105304094B

CN105304094B - 基于神经网络的手机定位方法及定位装置

Info

Publication number: CN105304094B
Application number: CN201510895915.8A
Authority: CN
Inventors: 章雒霏; 张铭; 李晨
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2019-03-08
Anticipated expiration: 2035-12-08
Also published as: CN105304094A

Abstract

本发明公开了一种基于神经网络的手机定位方法及定位装置，该方法先对神经网络进行训练，获取到训练完毕的神经网络的权值和神经元的个数，再对主麦克风和次麦克风接收到的带噪信号依次进行模数转换和特征提取的处理，并确定主麦克风中的语音帧，利用已经训练好的神经网络在语音帧对手机进行空间定位处理。本发明提出的基于神经网络的手机定位方法只使用两个麦克风就可以在3维空间中定位手机的空间位置，克服了现有的方法使用两个麦克风只能够在2维空间中进行定位的缺陷，能够对手机进行3维定位，为后续语音消噪处理提供良好的基础。

Description

基于神经网络的手机定位方法及定位装置

技术领域

本发明涉及通话过程中对手机的空间定位的技术领域，尤其涉及一种基于神经网络的手机定位方法及定位装置。

背景技术

使用手机通话在日常生活中随处可见，因个人习惯的不同，每个人手握手机的姿势也大不相同，通话过程中手机的转动会对双麦克风语音活动检测和噪声抑制、听筒位置的主动降噪、手机上的传感器的性能等产生影响。在通话过程中准确定位手机的空间位置能够帮助系统及时进行调整避免性能的下降。现有的双麦克风目标声源定位方法利用目标语音在两个麦克风之间的时延和能量差作为特征，只能够在2维空间中进行定位，而手机的旋转是3维空间的，如果想要利用现有的特征在3维空间中准确的定位手机的位置可能需要3个以上的麦克风，考虑到手机的尺寸，功耗和计算复杂度，现有的手机中主要使用的是双麦克风的语音增强系统。如何利用手机的两个麦克风准确的在3维空间中定位手机的位置是一个急需解决且非常有意义的问题。

发明内容

发明目的：本发明为了解决现有技术的不足，提供了一种基于神经网络的手机定位方法及定位装置，解决了现有的双麦克风定位方法只能够在2维空间中定位的问题，在不增加麦克风个数的前提下提高手机的定位性能。

技术方案：为解决上述技术问题，本发明提供一种基于神经网络的手机定位方法，其特征在于，包括以下步骤：

1)神经网络的训练：在若干个不同的手机空间位置，通过手机的主、次麦克风采集模拟的带噪语音信号，并分别对主、次麦克风采集的信号进行模数转换得到主麦克风训练数字信号和次麦克风训练数字信号，统称为训练样本；提取所述主、次麦克风训练数字信号的特征；对所述主麦克风训练数字信号进行语音活动检测确定语音帧；在所述语音帧利用所述特征和手机空间位置的标签对神经网络进行训练，得到训练好的神经网络；

2)基于训练好的神经网络进行手机定位：通过手机的主、次麦克风采集待测手机空间位置处的模拟带噪语音信号，并分别进行模数转换得到主麦克风待测数字信号和次麦克风待测数字信号；对所述主麦克风待测数字信号和次麦克风待测数字信号提取特征；对所述主麦克风待测数字信号进行语音活动检测确定语音帧；在所述语音帧将特征送入步骤1)训练好的神经网络，由神经网络输出待测手机空间位置的标签；

所述步骤1)和步骤2)中的特征包括互通道时延和子带互通道能量差。

其中，所述互通道时延的特征提取，具体如下：

利用广义互通道相关函数计算互通道时延如下式所示：

式中，Ψ(f)是频域加权函数，Y₁(f)和Y₂(f)分别为频域主、次麦克风数字信号；所述频域加权函数Ψ(f)的表达式如下：

式中，Ψ_PHAT(f)是互通道功率谱，则所述互通道时延τ_PHAT的表达式如下：

所述主、次麦克风数字信号在步骤1)的神经网络训练中分别为主麦克风训练数字信号和次麦克风训练数字信号；在步骤2)的基于训练好的神经网络进行手机定位中分别为主麦克风待测数字信号和次麦克风待测数字信号。

其中，所述子带互通道能量差的特征提取，具体如下：

使用短时傅里叶变化分别将主麦克风数字信号和次麦克风数字信号转化到频域，使用12个ERB(Equivalent Rectangular Bandwidth)频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风数字信号的信号功率谱，再计算信号功率谱在每个频点的比值；对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征；其中第b个子带互通道能量差为：

式中，u_h(b)和u_l(b)分别为第b个子带的上下边界，和分别为主麦克风和次麦克风数字信号的功率谱，k代表频率点，n代表语音帧标号，和的下标1和2分别为主、次麦克风的标号；

其中，步骤1)中利用特征和手机空间位置的标签对神经网络进行训练，具体包括：

将所述训练样本划分为训练集和验证集；

训练步骤：将从训练集中提取的特征作为神经网络的输入，对应的手机空间位置标签作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差，通过误差反向传播算法调整神经网络的权值，如果误差小于误差阈值或者训练迭代次数达到最大迭代次数则停止神经网络的训练，否则继续调整权值；

验证步骤：使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的输出目标进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则将神经元的个数更新为当前神经元个数，将神经网络的权值更新为相应的神经网络权值，否则不做更新；

在预先设定的神经元个数范围内，每次增加一个神经元重复所述训练步骤和验证步骤，直到达到预先设定的神经元个数上限，将验证步骤中神经网络输出结果的正确率最优时对应的神经元个数和神经网络权值进行存储，得到训练好的神经网络。

其中，所述语音检测包括以下步骤：

(1)从主麦克风数字信号的功率谱ES(k,n)中减去平稳噪声功率谱得到纯净语音信号和非平稳噪声混合信号的功率谱ES_sp+nn(k,n)；

(6)将ES_sp+nn(k,n)转化为对数能量谱LES‘(k,n)；

(7)将对数能量谱LES‘(k,n)进行归一化处理得到LES(k,n)；

(8)将归一化处理后得到的对数能量谱LES(k,n)的每个频点的能量按照从大到小进行排序，将前5个最大的能量求和取平均得到最大平均能量MNLP_n；

(9)将最大平均能量MNLP_n与预设阈值δ＝0.16进行比较，如果大于δ则认为当前帧为语音帧，否则为噪声帧；

所述主麦克风数字信号在步骤1)的神经网络训练中为主麦克风训练数字信号，在步骤2)的基于训练好的神经网络进行手机定位中为主麦克风待测数字信号。

相应地，本发明还提供一种基于神经网络的手机定位装置，包括：

模数转换模块，连接手机的主麦克风和次麦克风，对主麦克风和次麦克风接收到的模拟带噪信号分别进行模数转换得到主麦克风数字信号和次麦克风数字信号；

特征提取模块，对所述主麦克风数字信号和次麦克风数字信号提取特征，所述特征为互通道时延和子带互通道能量差；

语音活动检测模块，对所述主麦克风数字信号进行语音活动检测并标记语音帧；所述主、次麦克风数字信号在神经网络训练中分别为主麦克风训练数字信号和次麦克风训练数字信号，统称为训练样本；在基于训练好的神经网络进行手机定位中分别为主麦克风待测数字信号和次麦克风待测数字信号，统称为待测信号；

神经网络判断模块，先进行神经网络训练，在所述主麦克风数字信号的语音帧利用所述训练样本的特征和手机空间位置的标签对神经网络进行训练，得到训练好的神经网络；再基于训练好的神经网络进行手机定位，在所述主麦克风待测数字信号的语音帧将所述待测信号的特征送入训练好的神经网络，由神经网络输出待测手机空间位置的标签。

有益效果：本发明的一种基于神经网络的手机定位装置及方法，只使用两个麦克风就可以在3维空间中定位手机位置的方法，克服现有的使用两个麦克风的方法只能够在2维空间中进行定位的缺点，能够对手机进行较为精确的定位，为后续语音消噪处理提供良好的基础。

附图说明

图1是本发明总体结构方框示意图；

图2是本发明中神经网络的训练步骤示意图；

图3是本发明中手机空间位置坐标轴的示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，本实施列对本发明不构成限定。

图1中，本实施例基于神经网络的手机定位装置包括：模数转换模块、特征提取模块、语音活动检测模块、神经网络判断模块对手机进行3维空间定位；手机设置有主麦克风和次麦克风，分别在进行语音通话时接收模拟带噪信号，该带噪信号包括语音信号和环境中的噪声信号；模数转换模块连接手机的主麦克风和次麦克风，对主麦克风和次麦克风接收到的模拟带噪信号分别进行模数转换得到主麦克风数字信号和次麦克风数字信号；特征提取模块对主麦克风数字信号和次麦克风数字信号提取特征，该特征为互通道时延和子带互通道能量差，手机处于不同的空间位置主、次麦克风所接收到信号互通道时延和子带互通道能量差性能不同；语音活动检测模块对主麦克风数字信号进行语音活动检测并标记语音帧；神经网络判断模块先进行神经网络训练，再基于训练好的神经网络进行手机定位。

上述主、次麦克风数字信号在神经网络训练中分别为主麦克风训练数字信号和次麦克风训练数字信号，统称为训练样本；在基于训练好的神经网络进行手机定位中分别为主麦克风待测数字信号和次麦克风待测数字信号，统称为待测信号。神经网络判断模块在主麦克风数字信号的语音帧利用训练样本的特征和手机空间位置的标签对神经网络进行训练，得到训练好的神经网络；在主麦克风待测数字信号的语音帧将所述待测信号的特征送入训练好的神经网络，由神经网络输出待测手机空间位置的标签。

在本实施例中位于手机下侧的Microphone(简称下MIC)对应主麦克风，主麦克风为通话中相对接近用户发音部位的麦克风，位于手机上侧的Microphone(简称上MIC)对应次麦克风，次麦克风为通话中相对远离用户发音部位的麦克风。

基于神经网络的手机定位，首先需要利用上述装置中的相应模块训练神经网络确定神经网络的权值和神经元个数得到训练好的神经网络，再利用训练好的神经网络进行手机定位，因此，利用上述装置进行手机定位，包括以下步骤：

神经网络训练：选取训练样本，提取特征，并得到对应的手机空间位置的标签，利用特征和对应的手机空间位置的标签对神经网络进行训练，得到训练好的神经网络；

基于训练好的神经网络进行手机定位：对主麦克风和次麦克风接收到的带噪信号分别进行模数转换得到主麦克风待测数字信号和次麦克风待测数字信号，对主麦克风待测数字信号和次麦克风待测数字信号进行特征提取，然后将特征送入步骤1)训练好的神经网络，由神经网络输出手机的空间位置标签。

具体地，上述神经网络训练包括如下步骤：

(11)在若干个不同的手机空间位置通过手机的主麦克风和次麦克风分别采集训练用模拟带噪语音信号，得到主麦克风训练模拟信号和次麦克风训练模拟信号作为神经网络的训练样本；对训练样本的对应位置进行标注，得到手机空间位置标签；

(12)模数转换模块将主麦克风训练模拟信号和次麦克风训练模拟信号分别进行模数转换得到训练用的主麦克风训练数字信号和次麦克风训练数字信号；

(13)特征提取模块对主麦克风训练数字信号和次麦克风训练数字信号提取特征，包括：子带互通道能量差和互通道时延；

(14)语音活动检测模块对主麦克风训练数字信号进行语音活动检测，将主麦克风训练数字信号中语音存在的帧标记为语音帧；

(15)在语音帧，将特征作为神经网络的输入，手机空间位置标签作为输出目标训练神经网络；

(16)存储训练完毕的神经网络的权值和神经元个数。

在完成神经网络训练之后，利用训练好的神经网络进行手机定位，如图2所示，具体步骤如下：

(21)模数转换模块对主麦克风和次麦克风接收到的带噪信号分别进行模数转换得到主麦克风待测数字信号和次麦克风待测数字信号；信号采样率为48khz。

(22)特征提取模块对主、次麦克风待测数字信号分别进行特征提取，该特征为互通道时延和子带互通道能量差，其中对带噪语音信号进行短时分帧处理提取特征所使用的短时分帧的帧长为2048个采样点，帧移为1024个采样点；

(23)语音活动检测模块对主麦克风待测数字信号进行语音活动检测，检测主麦克风待测数字信号中的语音帧作为目标语音存在的部分；

(24)在语音帧将步骤(23)中提取的特征作为输入送入已经训练好的神经网络，该神经网络使用步骤(16)存储的神经网络的权值和神经元个数，输出手机的位置标签。

本发明中采用协议ITU-T P.64规定的坐标定义，在手机可以旋转到的3维空间范围中的不同位置使用手机的主、次麦克风采集训练用的模拟带噪语音信号(信号包括纯净的目标语音和背景噪声)作为训练神经网络的样本，标记手机的空间位置所使用的坐标轴如图3所示。

图3定义了一个以人耳为原点(ear reference point，ERP)的笛卡尔坐标系(Cartesian coordinate system)，分别为：

X轴：以耳朵为原点，与水平面平行，坐标轴的正方向沿耳道向耳朵内部延伸；

Y轴：与X轴垂直，沿着手机的对称平面，以人耳为原点，正方向指向人的嘴部；

Z轴：与X和Y轴垂直，以人耳为原点倾斜向下；

分别以3个坐标轴为轴线定义3个角度，代表手机在这3个方向上旋转的角度：

角度A：定义了围绕X轴旋转的角度，以人耳为原点，顺时针方向代表了角度增加，逆时针方向代表着角度减少；

角度B：定义了围绕Z轴旋转的角度，以人耳为原点，顺时针方向代表了角度增加，逆时针方向代表着角度减少；

角度C：定义了围绕Y轴旋转的角度，以人耳为原点，顺时针方向代表了角度减少，逆时针方向代表着角度增加。

通话过程中，使用者会将听筒正对着人耳，角度C基本保持不变，因此，在手机3维空间定位中固定C的角度为0度。

针对上述步骤(11)，本实施例中选取角度A从-40°到+90°，角度B从0°到+40°的范围，在这个范围中按照每隔10°选取一个位置(如，先固定B角度为0°，A角度间隔10°度从(-40°,0°),(-30°,0°)…一直到(90°,0°)，然后依次固定A角度不变，B角度间隔10°度从(-40°,10°)…一直到(-40°,40°)，(-30°,10°)…到(-30°,40°)…这样选取训练用的手机空间位置)使用手机的主，次麦克风采集主，次麦克风训练模拟信号，作为当前位置的训练样本，整个空间范围内一共选取70个位置作为训练的样本位置，对应位置的标签按1,2,3……70用数字进行标记得到手机空间位置标签作为神经网络的输出目标。

选取100段训练用的纯净语音信号，其中80段作为训练集用于神经网络的训练，剩余20段作为验证集用于验证神经网络的结果；每句时间长度约为10s；同时，选取6种常见的噪声，babble,car,restaurant,office,street和方向性的语音干扰作为背景噪声，通过一邻近手机主麦克风的人工嘴播放纯净语音信号，手机外围布设若干喇叭播放环境噪声，信噪比分别为5dB,10dB和15dB，从而产生训练用模拟带噪语音信号；然后通过手机的主、次麦克风对产生的训练用模拟带噪语音信号分别进行采样，将不同信噪比和噪声环境下采样的带噪语音作为训练神经网络的样本，并将训练样本划分为训练集和验证集(其中训练集为80段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本，测试集为20段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本)。

针对上述步骤(13)和(22)，本发明中对主、麦克风数字信号提取特征，包括：子带互通道能量差和互通道时延。

子带互通道能量差的计算，具体如下：

使用短时傅里叶变化分别将主麦克风数字信号和次麦克风数字信号转化到频域，先分别计算主，次麦克风的信号功率谱，再计算主、次麦克风信号功率谱在每个频点的比值，在频域使用12个ERB频带(equivalent rectangular bandwidth)对频域(100Hz-4kHz)进行划分，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，最后，这12个子带的互通道能量差作为训练神经网络的特征，子带互通道能量差S_P(b,n)的计算公式如下：

其中，u_h(b)和u_l(b)分别为第b个子带的上下边界，和分别为主麦克风和次麦克风中信号的功率谱，k代表频率点，n代表语音帧标号，1表示主麦克风，2表示次麦克风。

互通道时延的计算，具体如下：

利用基于广义互通道相关函数(generalized cross-correlation(GCC)function)的方法计算互通道时延如下式所示：

其中，Ψ(f)是频域加权函数，Y₁(f)和Y₂(f)分别为频域主、次麦克风的数字信号，在广义互通道相关函数的算法中，加权函数如下：

这里，Ψ_PHAT(f)是互通道功率谱，双通道的时延如下式所示：

这里τ_PHAT是互通道的时延。

例如：对一帧带噪语音信号，选取12个频带的子带互通道能量差作为第一类特征，同时将时延τ_PHAT作为第二类特征，一共为13个输入作为训练神经网络的输入。神经网络采用3层的反向传播神经网络(BackpropagationNeural Networks)。隐藏层采用30个神经元，输入层到隐藏层采用tansig作为激活函数，隐藏层到输出层采用purline作为激活函数，最大迭代次数为2000次，学习步长设定为0.01，学习函数设定为traingdx。

使用手机进行通话是一个双端的行为，说话人有时候会处于一种聆听的状态，将每一帧信号都用于手机的定位会增加计算量，而且在目标语音不存在的段落进行定位还有可能得到错误的结果，这个时候依据这个错误的定位结果调整手机内部的处理系统反而会使得手机的性能下降。在本发明中使用语音活动检测模块对主麦克风的数字信号进行语音活动的检测，确定语音帧，并在语音帧将提取的特征和手机空间位置的标签用于神经的训练，同时在使用训练好的神经网络进行手机定位时，也使用语音活动检测，确定语音帧，在语音帧将特征送入神经网络，由神经网络输出手机定位的结果。

上述步骤(14)和(23)，对主麦克风数字信号进行语音活动检测，检测主麦克风数字信号中的语音帧作为语音存在的部分，当检测到目标语音存在时才控制神经网络进行手机的定位，语音活动检测的具体步骤如下：

1)设主麦克风数字信号的功率谱为ES(k,n)，从中减去平稳噪声功率谱(stationary noise,SN)得到纯净语音信号和非平稳噪声混合信号的功率谱ES_sp+nn(k,n)，这里平稳噪声功率谱通过将ES(k,n)的所有帧内的所有频点进行求和取平均计算得到，计算公式如下：

其中，N为一段带噪语音的总帧数，F为每一帧的总频点数。

2)将ES_sp+nn(k,n)转化为对数能量谱(log-energy spectrum,LES)，计算公式如下：

LES‘(k,n)＝10log₁₀(1+ES_sp+nn(k,n)) (6)

(10)将对数能量谱LES‘(k,n)进行归一化处理得到LES(k,n)，计算公式如下：

(11)将归一化处理后得到的对数能量谱LES(k,n)的每个频点的能量按照从大到小进行排序，将前N＝5个最大的能量求和取平均得到MNLP_n，计算公式如下：

(12)将MNLP_n与固定的阈值δ＝0.16进行比较，如果大于δ则认为当前帧为语音存在的帧(语音活动检测结果为1)，否则为噪声主宰的帧(语音活动检测结果为0)，计算公式如下：

针对上述步骤(15)，本实施例中使用主麦克风训练数字信号和次麦克风训练数字信号的特征对神经网络进行训练，具体如下：

初始化：设定神经网络隐藏层神经元个数的数值范围(比如，10-50个)、输出结果与输出目标之间的误差阈值、训练最大迭代次数，训练起始的神经元个数为上述数值范围中的最小值；

训练步骤：将从训练集中提取的特征作为神经网络的输入，对应的手机位置标签作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差，通过误差反向传播算法调整神经网络的权值，如果误差小于误差阈值或者训练迭代次数达到最大迭代次数则停止神经网络的训练，否则继续调整权值，直至满足上述条件；

每次增加一个神经元重复上述的训练步骤和验证步骤，直到达到预先设定的神经元个数上限，则最终神经网络的结构为验证即输出的结果正确率最优时对应的神经元个数，此时神经网络内部的权值为最终训练完毕的神经网络。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

Claims

1.一种基于神经网络的手机定位方法，其特征在于，包括以下步骤：

所述步骤1)和步骤2)中的特征包括互通道时延和子带互通道能量差，其中，

所述互通道时延的特征提取具体如下：

利用广义互通道相关函数计算互通道时延如下式所示：

所述子带互通道能量差的特征提取具体如下：

所述主、次麦克风数字信号在步骤1)的神经网络训练中分别为主麦克风训练数字信号和次麦克风训练数字信号；在步骤2)的基于训练好的神经网络进行手机定位中分别为主麦克风待测数字信号和次麦克风待测数字信号；

并且其中，

所述语音活动检测包括以下步骤：

(2)将ES_sp+nn(k,n)转化为对数能量谱LES‘(k,n)；

(3)将对数能量谱LES‘(k,n)进行归一化处理得到LES(k,n)；

(4)将归一化处理后得到的对数能量谱LES(k,n)的每个频点的能量按照从大到小进行排序，将前5个最大的能量求和取平均得到最大平均能量MNLP_n；

(5)将最大平均能量MNLP_n与预设阈值δ＝0.16进行比较，如果大于δ则认为当前帧为语音帧，否则为噪声帧；

2.根据权利要求1所述的手机定位方法，其特征在于，步骤1)中利用特征和手机空间位置的标签对神经网络进行训练，具体包括：

将所述训练样本划分为训练集和验证集；

训练步骤：将从训练集中提取的特征作为神经网络的输入，对应的手机空间位置的标签作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差，通过误差反向传播算法调整神经网络的权值，如果误差小于误差阈值或者训练迭代次数达到最大迭代次数则停止神经网络的训练，否则继续调整权值；

3.一种基于神经网络的手机定位装置，其特征在于，包括：

语音活动检测模块，对所述主麦克风数字信号进行语音活动检测并标记语音帧；

神经网络判断模块，先进行神经网络训练，再基于训练好的神经网络进行手机定位；所述主、次麦克风数字信号在神经网络训练中分别为主麦克风训练数字信号和次麦克风训练数字信号，统称为训练样本；在基于训练好的神经网络进行手机定位中分别为主麦克风待测数字信号和次麦克风待测数字信号，统称为待测信号；神经网络判断模块在所述主麦克风数字信号的语音帧利用所述训练样本的特征和手机空间位置的标签对神经网络进行训练，得到训练好的神经网络；再在所述主麦克风待测数字信号的语音帧将所述待测信号的特征送入训练好的神经网络，由神经网络输出待测手机空间位置的标签；

其中，所述特征提取模块提取互通道时延的过程为：

利用广义互通道相关函数计算互通道时延如下式所示：

所述特征提取模块提取子带互通道能量差的过程如下：

并且其中，

所述语音活动检测模块进行语音活动检测包括以下步骤：

(6)将ES_sp+nn(k,n)转化为对数能量谱LES‘(k,n)；

(7)将对数能量谱LES‘(k,n)进行归一化处理得到LES(k,n)；

所述主麦克风数字信号在神经网络训练中为主麦克风训练数字信号，在基于训练好的神经网络进行手机定位中为主麦克风待测数字信号。