CN111880146B

CN111880146B - 声源定向方法和装置及存储介质

Info

Publication number: CN111880146B
Application number: CN202010617711.9A
Authority: CN
Inventors: 马路; 赵培; 苏腾荣
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-08-18
Anticipated expiration: 2040-06-30
Also published as: CN111880146A

Abstract

本发明公开了一种声源定向方法和装置及存储介质。其中，该方法包括：确定待定向的目标声源；根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合；依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合；根据第一语谱图集合中的特征参数信息计算出导引方向矢量上的声音信号的特征参数；根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量。本发明解决了声源的定向精度较差的技术问题。

Description

声源定向方法和装置及存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种声源定向方法和装置及存储介质。

背景技术

声源定向技术是当今人机交互领域的一项关键技术，目前声源定向技术主要是基于到达时间差(Time Delay Of Arrival，TDOA)的定位方法。具体的，基于TDOA的定位算法是一种双步定位算法，它首先估计声源到达不同麦克风的时间差，再利用得到的时延，结合麦克风阵列的结构，确定声源的位置。

但基于TDOA的定位算法是直接计算不同频点麦克风之间的相位差，由于采样率大小和麦克风间距受限于物理硬件，进而导致计算得到的相位差很小，换言之基于TDOA的定位算法对于声源定向精度的提高局限性较高；与此同时，由于环境噪声和干扰等影响，相位差这一特征很容易受到影响，也会影响定向精度。

即，相关技术中存在声源的定向精度较差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种声源定向方法和装置及存储介质，以至少解决声源的定向精度较差的技术问题。

根据本发明实施例的一个方面，提供了一种声源定向方法，包括：确定待定向的目标声源；根据麦克风阵列的结构信息及上述目标声源到达上述麦克风阵列中各个麦克风的时延，确定上述目标声源的第一方向矢量集合，其中，上述第一方向矢量集合中包括的每个导引方向矢量用于指示上述目标声源到对应麦克风的方向；依次提取上述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，上述第一语谱图集合中记录有上述导引方向矢量上的声音信号的特征参数信息；根据上述第一语谱图集合中的特征参数信息计算出上述导引方向矢量上的声音信号的特征参数；根据特征参数利用分类器从上述第一方向矢量集合中确定出目标导引方向矢量，其中，上述目标导引方向矢量用于指示上述目标声源的方向。

根据本发明实施例的另一方面，还提供了一种声源定向装置，包括：第一确定单元，用于确定待定向的目标声源；第二确定单元，用于根据麦克风阵列的结构信息及上述目标声源到达上述麦克风阵列中各个麦克风的时延，确定上述目标声源的第一方向矢量集合，其中，上述第一方向矢量集合中包括的每个导引方向矢量用于指示上述目标声源到对应麦克风的方向；生成单元，用于依次提取上述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，上述第一语谱图集合中记录有上述导引方向矢量上的声音信号的特征参数信息；计算单元，用于根据上述第一语谱图集合中的特征参数信息计算出上述导引方向矢量上的声音信号的特征参数；第三确定单元，用于根据特征参数利用分类器从上述第一方向矢量集合中确定出目标导引方向矢量，其中，上述目标导引方向矢量用于指示上述目标声源的方向。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述声源定向方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的声源定向方法。

在本发明实施例中，确定待定向的目标声源；根据麦克风阵列的结构信息及上述目标声源到达上述麦克风阵列中各个麦克风的时延，确定上述目标声源的第一方向矢量集合，其中，上述第一方向矢量集合中包括的每个导引方向矢量用于指示上述目标声源到对应麦克风的方向；依次提取上述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，上述第一语谱图集合中记录有上述导引方向矢量上的声音信号的特征参数信息；根据上述第一语谱图集合中的特征参数信息计算出上述导引方向矢量上的声音信号的特征参数；根据上述特征参数利用分类器从上述第一方向矢量集合中确定出目标导引方向矢量，其中，上述目标导引方向矢量用于指示上述目标声源的方向，通过计算声源指示参数，在预设的方向矢量集合中确定概率最大的导引方向矢量为目标声源的方向，进而达到了提升声源方向的计算精度的目的，从而实现了提高声源的定向精度的技术效果，进而解决了声源的定向精度较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的声源定向方法的流程图的示意图；

图2是根据本发明实施例的一种可选的声源定向方法的示意图；

图3是根据本发明实施例的一种可选的声源定向方法的示意图；

图4是根据本发明实施例的另一种可选的声源定向方法的示意图；

图5是根据本发明实施例的另一种可选的声源定向方法的示意图；

图6是根据本发明实施例的另一种可选的声源定向方法的示意图；

图7是根据本发明实施例的一种可选的声源定向装置的示意图；

图8是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可选地，作为一种可选的实施方式，如图1所示，声源定向方法包括：

S102，确定待定向的目标声源；

S104，根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；

S106，依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息特征参数；

S108，根据第一语谱图集合中的特征参数信息计算出导引方向矢量上的声音信号的特征参数；

S110，根据声源特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向。

可选的，在本实施例中，声源定向方法可以但不限于应用在利用麦克风阵列对声源目标的实时跟踪。可选的，麦克风阵列可以但不限于为由一定数目的声学传感器组成的，用来对声场的空间特性进行采样并处理的系统。麦克风的时延可以但不限于为声源到达不同麦克风的时间差。第一方向矢量集合可以但不限于包括通过广义互相关方法(Generalized Cross Correlation，简称GCC)定位的目标声源的大致方向、以及在上述大致方向预设范围内的前景方向，其中，广义互相关方法可以但不限于为一种时延估计算法，通过计算两路信号的互相关函数，其峰值就是到达时间差(Time Delay Of Arrival，简称TDOA)估计值，具体可以但不限于参考下述公式(1)。

其中，ω是频率，X₁(ω)和X₂(ω)分别是两个麦克风接收信号的频域表达式，ψ₁₂(ω)为频域加权系数，为TDOA估计值。

可选的，语谱图可以但不限于表示预设范围内的声音信号分布。声源指示参数可以但不限于与为目标声源的方向的概率呈正相关。

需要说明的是，确定待定向的目标声源；根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息特征参数；根据第一语谱图集合中的特征参数信息计算出导引方向矢量上的声音信号的特征参数；根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向。

进一步举例说明，例如图2所示，具体步骤如下：

步骤S202，对声学传感器(麦克风)接收到的声音信号作消除回声处理，进而根据GCC定位声源的大致方向；

步骤S204，在声源的大致方向的预设范围内，选择多个备选方向组成导引向方向合集，并通过导引矢量的计算，获取对应的导引矢量集合，其中，可选的通过公式(2)实现导引矢量的计算；

其中，为第k各频点处的导引矢量，/>为第k个频点的频率值，d为麦克风间距，c为声速，θ为导引方向；

步骤S206，根据导引方向进行波束形成，得到每个方向增强后的语音信号；

步骤S208，通过多尺度滤波器得到多尺度特征，具体可选的，多尺度特征可以但不限于图像领域的哈尔特征(Haar-like features，简称Harr-like)特征，以及可以但不限于采用积分图法计算多尺度特征，进而获取图像特征，其中，Harr-like特征可以但不限于一种计算机视觉领域的特征描述算子，积分图法可以但不限于是一种能够描述全局信息的矩阵表示方法；

步骤S210，对图像特征进行降维，可选的，可以但不限于采用压缩感知、自适应增强(Adaptive Bootsting，简称Adaboost)算法等方法提取全部或重要特征进行降维；

进一步可选的，以基于压缩感知的特征降维为例说明，可选的压缩感知理论表明：一个n×m的随机矩阵R，它可以将一个高维图像空间的x(m维)变换到一个低维的空间v(n维)，其中，n小于m，且数学表达为v＝R x。例如随机高斯矩阵，矩阵元素满足N(0,1)分布，但m的维数越大矩阵越稠密，其运算和存储的消耗较大。可选的采用稀疏的随机测量矩阵，其矩阵元素定义如公式(3)所示：

进一步可选的，采用上述公式(3)的随机测量矩阵，将一个高维图像空间的x(m维)变换到一个低维的空间v(n维)，其中，数学表达为v＝R x；例如图3所示，在n×m的随机矩阵302中，黑色、灰色(阴影)和白色分别代表矩阵元素为负数、正数和零。其中，箭头用于表示测量矩阵R的一行的一个非零元素感知多尺度特征304中的一个元素，等价于一个方形窗口滤波器306和输入图像固定位置308的灰度卷积，进而根据v＝R x计算获得压缩后的特征310。

步骤S212，将降维后的多尺度特征送入贝叶斯分类器进行分类，根据分类结果，确定声源方向，其中可选的，贝叶斯分类器可以但不限于通过声源的大致方向的预设范围内的方向矢量合集、以及预设范围外的方向矢量集合构建与训练。

通过本申请提供的实施例，确定待定向的目标声源；根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的特征参数信息特征参数；根据第一语谱图集合中的特征参数信息计算出导引方向矢量上的声音信号的特征参数；根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向，通过计算声源指示参数，在预设的方向矢量集合中确定概率最大的导引方向矢量为目标声源的方向，进而达到了提升声源方向的计算精度的目的，从而实现了提高声源的定向精度的技术效果。

作为一种可选的方案，根据第一语谱图集合中的特征参数计算出导引方向矢量上的声音信号的声源指示参数，包括：

S1，通过滤波技术确定第一语谱图集合中的特征参数；

S2，将特征参数输入声源定向模型中，其中，声源定向模型为利用样本特征参数进行机器训练后的模型，用于根据输入的特征参数计算出对应的声源指示参数，其中，声源指示参数用于指示当前输入的特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率；

S3，从声源定向模型的输出结果中获取导引方向矢量上的声音信号的声源指示参数。

需要说明的是，确定第一语谱图集合中的特征参数；可选的，确定第一语谱图集合中的特征参数可以但不限于包括多尺度滤波器采用特征模板匹配语谱图，进而获取多尺度特征，进一步利用积分图法对多尺度特征实施计算，从而确定特征参数。其中，可选的，特征模板可以但不限于为由边缘特征、线性特征和对角特征共同组成、包括白色、黑色矩形的模板，且特征模板的特征值可以但不限于定义为白色矩形像素和减去黑色矩形像素和，其中，特征值可以但不限于用于反应图像的灰度变化情况。其中，多尺度特征可以但不限于为图像领域的Harr-like特征。积分图法可以但不限于是一种在图像中快速计算矩形区域和的方法。

进一步举例说明，以多尺度特征为图像领域的Harr-like特征为例说明，例如图4所示，Harr-like特征的特征模板图包括(a)、(c)、(b)、(d)所示，其中，(a)、(c)为边界特征、(b)为细线特征、(d)为对角线特征，进而多尺度滤波器采用图3所示所示模板(a)、(c)、(b)、(d)去匹配语谱图，从而得到多尺度特征参数。

进一步举例说明，以利用积分图法确定特征参数为例说明，可选的，积分图的构造方式是位置(i,j)处的值ii(i,j)是原图(i,j)左上角方向所有像素的和，例如公式(4)所示；

进一步可选的，例如公式(5)、(6)所示，积分图构建算法包括：

a)用s(i,j)表示行方向的累加和，初始化s(i,-1)＝0；

b)用ii(i,j)表示一个积分图像，初始化ii(-1,i)＝0；

c)逐行扫描图像，递归计算每个像素(i,j)行方向的累加和s(i,j)和积分图像ii(i,j)的值；

s(i,j)＝s(i,j-1)+f(i,j) (5)

ii(i,j)＝ii(i-1,j)+s(i,j) (6)

d)扫描图像一遍，当到达图像右下角像素时，完成积分图像ii的构建；例如图5所示，D的四个顶点分别为1、2、3、4，则根据上述内容可计算出D的像素和，如公式(7)所示，基于同样原理，还可以计算出图5所示的A、B、C，在此不作多余阐述。

D_sum＝ii(1)+ii(2)-ii(3)-ii(4) (7)

需要说明是，将特征参数输入声源定向模型中，其中，声源定向模型为利用样本特征参数进行机器训练后的模型，用于根据输入的特征参数计算出对应的声源指示参数，其中，声源指示参数用于指示当前输入的特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率；从声源定向模型的输出结果中获取导引方向矢量上的声音信号的声源指示参数。可选的，模型可以但不限于为基于朴素贝叶斯分类器进而建模获得。

进一步举例说明，例如为确定目标声源方向，将特征参数输入声源定向模型中，可选的，例如声源定向模型为基于朴素贝叶斯分类器建模获得的模型，进而声源定向模型输出计算结果，可选的，输出的计算结果可以但不限于用于表示特征参数代表的声源方向，为目标声源方向的概率。

进一步举例说明，可选的，利用样本特征参数进行机器训练的过程可以但不限于如图6所示，假设模型为贝叶斯网络模型：

步骤S602，系统在最开始通过广义互相关方法定位了声源的大致当前方向，之后在当前方向附近选择多个备选方向，记为：前景方向602；在远离当前方向的位置选择多个方向记为背景方向604；

步骤S604，在当前帧(例如记为第t帧)，首先利用前景方向602和背景方向604得到对应的导引矢量集合，根据导引矢量集合提取语谱图；

步骤S606，利用最小方差无失真响应波束形成算法得到前景方向602、以及背景方向604的增强后的语谱图；

步骤S608，通过多尺度滤波器606分别提取到前景方向602和背景方向604的多尺度特征(特征参数)，其中，由于多尺度特征参数维数非常大，采用压缩感知的方法进行降维。

步骤S610，利用降维后的特征参数对贝叶斯网络模型的参数更新，更新后的模型用于下一帧(例如第t+1帧)的方向计算，直至方向计算结果满足预设收敛条件，模型结束迭代过程，进而确定训练后的贝叶斯网络模型为声源定向模型。

其中，预设收敛条件可以但不限于为前景方向602或背景方向604对应的特征参数满足预设要求，例如前景方向602的特征参数中声音信号特征参数高于第一阈值，背景方向604对应的特征参数中声音信号特征参数低于第二阈值。

进一步举例说明，可选的例如对每个样本z(m维向量)，它的低维表示是v(n维向量，n远小于m)，假定v中的各元素是独立分布，则根据朴素贝叶斯分类器实现模型的构建，可以但不限于如下述公式(8)所示：

其中，y∈{0,1}代表样本标签，y＝0表示负样本，y＝1表示正样本，假设两个类的先验概率相等。p(y＝1)＝p(y＝0)＝0.5。可选的，在分类器H(v)中的条件概率p(vi|y＝1)和p(vi|y＝0)属于高斯分布，且用公式(9)中记载的四个参数来描述：

其中，公式(9)中的4个参数会进行增量更新，可选的例如公式(10)所示：

其中，学习因子λ＞0；

可选的，上述根据朴素贝叶斯分类器构建的模型的初始迭代可以但不限于如公式(11)所示：

进一步举例说明，可选的例如输入第t帧语谱图，并在t-1帧跟踪到的目标方向I_t-1的周围(也就是满足D^γ＝{z|||I(z)-I_t-1||＜γ}，与I_t-1距离小于γ)采样n个图像片，并对这些图像片进行特征提取(降维)，得到每个图像片的特征向量v。

使用上述公式(8)中的分类器H(v)对上述特征向量v进行分类，找到最大分类分数的语谱图作为当前帧跟踪到的目标，方向为I_t-1；

采样两个样本集：D^α＝{z|||I(z)-I_t||＜α}和其中，

提取上述两个样本集的特征，通过上述公式(9)～(11)更新分类器参数；

进一步，输出跟踪到的目标位置I_t和更新后的神经网络模型参数。

通过本实施例，确定第一语谱图集合中的特征参数，将特征参数输入声源定向模型中，并从声源定向模型的输出结果中获取导引方向矢量上的声音信号的声源指示参数，通过向声源定向模型中输入第一语谱图集合中的特征参数，并获取声源指示参数，进而达到了提升声源定向模型的处理速度的技术目的，从而实现了提高声源的定向效率效果。

作为一种可选的方案，从声源定向模型的输出结果中获取导引方向矢量上的声音信号的声源指示参数包括：

S1，在声源定向模型输出的输出结果指示为目标声源指示参数的情况下，确定与目标声源指示参数对应的特征参数为目标特征参数，其中，目标声源指示参数的取值为输出结果中的最大值；

S2，将第一方向矢量集合中与目标特征参数相匹配的导引方向矢量，确定为目标导引方向矢量。

需要说明的是，在声源定向模型输出的输出结果指示为目标声源指示参数的情况下，确定与目标声源指示参数对应的特征参数的最大值；将第一方向矢量集合中与目标特征参数相匹配的导引方向矢量，确定为目标导引方向矢量。

进一步举例说明，例如在声源定向模型输出的输出结果中，通过比较获得声源指示参数最大的声源指示参数，进而确定与声源指示参数最大的声源指示参数对应的特征参数为目标特征参数，从而将第一方向矢量集合中与目标特征参数相匹配的导引方向矢量，确定为目标导引方向矢量，其中，目标导引方向矢量在导引方向矢量合集中，为目标声源方向矢量的概率最大。

通过本实施例，在声源定向模型输出的输出结果指示为目标声源指示参数的情况下，确定与目标声源指示参数对应的特征参数为目标特征参数，将第一方向矢量集合中与目标特征参数相匹配的导引方向矢量，确定为目标导引方向矢量，进而达到了确定概率最大导引方向矢量为目标声源方向的技术目的，从而实现了提高目标声源的定向精准性的技术效果。

作为一种可选的方案，将特征参数输入声源定向模型中包括：

S1，利用声源定向模型中的第一子声源定向模型中的函数对特征参数进行计算，得到第一参考指示参数；并利用声源定向模型中的第二子声源定向模型中的函数对特征参数进行计算，得到第二参考指示参数；其中，第一参考指示参数与目标导引方向矢量的数值大小呈正相关，第二参考指示参数与目标导引方向矢量的数值大小呈负相关；

S2，对第一参考指示参数和第二参考指示参数进行似然比计算得到定向结果；

S3，将定向计算结果确定为声源定向模型的输出结果。

需要说明的是，利用声源定向模型中的第一子声源定向模型中的函数对特征参数进行计算，得到第一参考指示参数；并利用声源定向模型中的第二子声源定向模型中的函数对特征参数进行计算，得到第二参考指示参数；其中，第一参考指示参数与目标导引方向矢量的数值大小呈正相关，第二参考指示参数与目标导引方向矢量的数值大小呈负相关；对第一参考指示参数和第二参考指示参数进行似然比计算，以得到定向计算结果；将定向计算结果作为声源定向模型的输出结，其中，可选的似然比可以但不限于为一种反应真实性、灵敏度、以及特异度的一种复合指标。

进一步举例说明，可选的，声源定向模型中可以但不限于包括第一子声源定向模型、第二子声源定向模型，并利用第一子声源定向模型、第二子声源定向模型分别对特征参数进行计算，进而分别得到第一参考指示参数、第二参考指示参数，从而对第一参考指示参数和第二参考指示参数进行似然比计算，以得到定向计算结果，其中，定向计算结果为声源定向模型的输出结果。

通过本实施例，利用声源定向模型中的第一子声源定向模型中的函数对特征参数进行计算，得到第一参考指示参数，并利用声源定向模型中的第二子声源定向模型中的函数对特征参数进行计算，得到第二参考指示参数，其中，第一参考指示参数与目标导引方向矢量的数值大小呈正相关，第二参考指示参数与目标导引方向矢量的数值大小呈负相关，对第一参考指示参数和第二参考指示参数进行似然比计算，以得到定向计算结果，将定向计算结果确定为声源定向模型的输出结果，进而达到了通过第一子声源定向模型、第二子声源定向模型共同对特征参数进行计算的技术目的，从而实现了提高定向计算结果的计算精准性的技术效果。

S1，利用第一子声源定向模型中的函数对特征参数进行计算，得到第一声源指示参数，其中，声源定向模型包括第一子声源定向模型，第一声源指示参数指示特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率为第一概率；将第一概率确定为声源定向模型的输出结果；或者

S2，利用第二子声源定向模型中的函数对特征参数进行计算，得到第二声源指示参数，其中，声源定向模型包括第二子声源定向模型，第二声源指示参数指示特征参数对应的导引方向矢量的导引方向不是目标声源的方向矢量的方向的概率为第二概率；对第二概率进行转化计算，以得到声源定向模型的输出结果。

需要说明的是，利用第一子声源定向模型中的函数对特征参数进行计算，得到第一声源指示参数，其中，声源定向模型包括第一子声源定向模型，第一声源指示参数指示特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率为第一概率；将第一概率确定为声源定向模型的输出结果；或者利用第二子声源定向模型中的函数对特征参数进行计算，得到第二声源指示参数，其中，声源定向模型包括第二子声源定向模型，第二声源指示参数指示特征参数对应的导引方向矢量的导引方向不是目标声源的方向矢量的方向的概率为第二概率；对第二概率进行转化计算，以得到声源定向模型的输出结果。

进一步举例说明，例如利用第一子声源定向模型对特征参数进行计算，进而得到第一参考指示参数，并根据第一参考指示参数，获取特征参数对应的导引方向矢量为目标方向的方向矢量的概率。

进一步举例说明，例如利用第二子声源定向模型对特征参数进行计算，进而得到第二参考指示参数，从而根据第二参考指示参数进行转化计算，获取特征参数对应的导引方向矢量非目标方向的方向矢量的概率。

通过本实施例，利用第一子声源定向模型中的函数对特征参数进行计算，得到第一声源指示参数，其中，声源定向模型包括第一子声源定向模型，第一声源指示参数指示特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率为第一概率；将第一概率确定为声源定向模型的输出结果；或者利用第二子声源定向模型中的函数对特征参数进行计算，得到第二声源指示参数，其中，声源定向模型包括第二子声源定向模型，第二声源指示参数指示特征参数对应的导引方向矢量的导引方向不是目标声源的方向矢量的方向的概率为第二概率；对第二概率进行转化计算，以得到声源定向模型的输出结果，进而达到了计算特征参数对应的导引方向矢量为或非目标方向的方向矢量的概率的技术目的，从而实现了提高定向概率的计算灵活性的效果。

作为一种可选的方案，依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合包括：

S1，采用波束形成算法，根据第一方向矢量集合中的导引矢量信息、麦克风阵列的结构信息、以及麦克风阵列中各个麦克风接收到的声音信号，确定第一波束形成矢量集合；

S2，根据第一波束形成矢量集合，生成第一语谱图集合。

可选的，波束形成算法可以但不限于为最小方差无失真响应(Minimum VarianceDistortionless Response，简称MVDR)波束形成算法，MVDR波束形成算法可以但不限于为一种数据自适应波束形成解决方案。

需要说明的是，采用最小方差无失真响应波束形成算法，根据第一方向矢量集合中的导引矢量信息、麦克风阵列的结构信息、以及麦克风阵列中各个麦克风接收到的声音信号，确定第一波束形成矢量集合，根据第一波束形成矢量集合，生成第一语谱图集合。

进一步举例说明，例如采用MVDR波束形成算法，可以但不限于根据公式(12)、(13)获取波束形成矢量，进而根据波束形成矢量，生成对应的语谱图：

其中，为波束形成矢量，R_xx为麦克风阵列接收矢量的自相关矩阵，x₁、x₂为两个麦克风接收的信号，/>为导引矢量。

通过本实施例，采用最小方差无失真响应波束形成算法，根据第一方向矢量集合中的导引矢量信息、麦克风阵列的结构信息、以及麦克风阵列中各个麦克风接收到的声音信号，确定第一波束形成矢量集合，并根据第一波束形成矢量集合，生成第一语谱图集合，进而达到了通过波束形成算法得到增强后的语谱图的技术目的，从而实现了声源定向过程中的处理精准性的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述声源定向方法的声源定向装置。如图7所示，该装置包括：

第一确定单元702，用于确定待定向的目标声源；

第二确定单元704，用于根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；

生成单元706，用于依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息；

计算单元708，用于根据第一语谱图集合中的数字图像信息计算出导引方向矢量上的声音信号的特征参数；

第三确定单元710，用于根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向。

可选的，在本实施例中，声源定向装置可以但不限于应用在利用麦克风阵列对声源目标的实时跟踪。可选的，麦克风阵列可以但不限于为由一定数目的声学传感器组成的，用来对声场的空间特性进行采样并处理的系统。麦克风的时延可以但不限于为声源到达不同麦克风的时间差。第一方向矢量集合可以但不限于包括通过广义互相关方法(Generalized Cross Correlation，简称GCC)定位的目标声源的大致方向、以及在上述大致方向预设范围内的前景方向，其中，广义互相关方法可以但不限于为一种时延估计算法，通过计算两路信号的互相关函数，其峰值就是到达时间差(Time Delay Of Arrival，简称TDOA)估计值，具体可以但不限于参考下述公式(14)。

可选的，语谱图可以但不限于表示预设范围内的声音信号分布。声源指示参数可以但不限于与为目标声源的方向概率呈正相关。

可选的，在本实施例中，声源定向方法可以但不限于应用在智能手机、平板电脑、游戏机等。目标触控屏可以但不限于为一种可接受触头等输入讯号的感应式液晶显示装置。目标触控屏上可以但不限于包括误侦测区域与非侦测区域。侦测区域可以但不限于为可侦测误触控信号以及执行对应调整指令的动态区域。一组误触控信号可以但不限于为在侦测区域上(内)获取的一组触控信号或在目标触控屏上获取并确定为误触的一组触控信号。调整第一侦测区域的大小可以但不限于包括放大、缩小等。调整第一侦测区域的位置可以但不限于包括改变第一侦测区域在目标触控屏上的位置。

需要说明的是，第一确定单元，用于确定待定向的目标声源；第二确定单元，用于根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；生成单元，用于依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息；计算单元，用于根据第一语谱图集合中的数字图像信息计算出导引方向矢量上的声音信号的特征参数；第三确定单元，用于根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向。

具体实施例可以参考上述声源定向方法中所示示例，本示例中在此不再赘述。

通过本申请提供的实施例，确定待定向的目标声源；根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息；根据第一语谱图集合中的数字图像信息计算出导引方向矢量上的声音信号的特征参数；根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向，通过计算声源指示参数，在预设的方向矢量集合中确定概率最大的导引方向矢量为目标声源的方向，进而达到了提升声源方向的计算精度的目的，从而实现了提高声源的定向精度的技术效果。

作为一种可选的方案，计算单元708包括：

第一确定模块，用于通过像素扫描技术确定第一语谱图集合中的数字图像；

输入模块，用于将特征参数输入声源定向模型中，其中，声源定向模型为利用样本特征参数进行机器训练后的模型，用于根据输入的特征参数计算出对应的声源指示参数，其中，声源指示参数用于指示当前输入的特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率；

获取模块，用于从声源定向模型的输出结果中获取导引方向矢量上的声音信号的声源指示参数。

作为一种可选的方案，获取模块包括：

第一确定子模块，用于在声源定向模型输出的输出结果指示为目标声源指示参数的情况下，确定与目标声源指示参数对应的特征参数为目标特征参数，其中，目标声源指示参数的取值为输出结果中的最大值；

第二确定子模块，用于将第一方向矢量集合中与目标特征参数相匹配的导引方向矢量，确定为目标导引方向矢量。

作为一种可选的方案，输入模块包括：

第一计算子模块，用于利用声源定向模型中的第一子声源定向模型中的函数对特征参数进行计算，得到第一参考指示参数；并利用声源定向模型中的第二子声源定向模型中的函数对特征参数进行计算，得到第二参考指示参数；其中，第一参考指示参数与目标导引方向矢量的数值大小呈正相关，第二参考指示参数与目标导引方向矢量的数值大小呈负相关；

处理子模块，用于对第一参考指示参数和第二参考指示参数进行加权求和处理，以得到定向计算结果；

输出子模块，用于将定向计算结果确定为声源定向模型的输出结果。

作为一种可选的方案，输入模块包括：

第二计算子模块，用于利用第一子声源定向模型中的函数对特征参数进行计算，得到第一声源指示参数，其中，声源定向模型包括第一子声源定向模型，第一声源指示参数指示特征参数对应的导引方向矢量的导引方向为目标声源的方向矢量的方向的概率为第一概率；将第一概率确定为声源定向模型的输出结果；或者

第三计算子模块，用于利用第二子声源定向模型中的函数对特征参数进行计算，得到第二声源指示参数，其中，声源定向模型包括第二子声源定向模型，第二声源指示参数指示特征参数对应的导引方向矢量的导引方向不是目标声源的方向矢量的方向的概率为第二概率；对第二概率进行转化计算，以得到声源定向模型的输出结果。

作为一种可选的方案，生成单元706包括：

第二确定模块，用于采用最小方差无失真响应波束形成算法，根据第一方向矢量集合中的导引矢量信息、麦克风阵列的结构信息、以及麦克风阵列中各个麦克风接收到的声音信号，确定第一波束形成矢量集合；

生成模块，用于根据第一波束形成矢量集合，生成第一语谱图集合。

根据本发明实施例的又一个方面，还提供了一种用于实施上述声源定向方法的电子装置，如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，确定待定向的目标声源；

S2，根据麦克风阵列的结构信息及目标声源到达麦克风阵列中各个麦克风的时延，确定目标声源的第一方向矢量集合，其中，第一方向矢量集合中包括的每个导引方向矢量用于指示目标声源到对应麦克风的方向；

S3，依次提取第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，第一语谱图集合中记录有导引方向矢量上的声音信号的数字图像信息；

S4，根据第一语谱图集合中的数字图像信息计算出导引方向矢量上的声音信号的特征参数；

S5，根据特征参数利用分类器从第一方向矢量集合中确定出目标导引方向矢量，其中，目标导引方向矢量用于指示目标声源的方向。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的声源定向方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声源定向方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储方向矢量集合、第一语谱图集合以及声源指示参数等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述声源定向装置中的第一确定单元702、第二确定单元704、生成单元706、计算单元708及第三确定单元710。此外，还可以包括但不限于上述声源定向装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于显示上述方向矢量集合、第一语谱图集合以及声源指示参数；和连接总线810，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，确定待定向的目标声源；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种声源定向方法，其特征在于，包括：

确定待定向的目标声源；

根据麦克风阵列的结构信息及所述目标声源到达所述麦克风阵列中各个麦克风的时延，确定所述目标声源的第一方向矢量集合，其中，所述第一方向矢量集合中包括的每个导引方向矢量用于指示所述目标声源到对应麦克风的方向；

依次提取所述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，所述第一语谱图集合中记录有所述导引方向矢量上的声音信号的数字图像信息特征参数；

通过滤波技术确定所述第一语谱图集合中的特征参数信息的特征参数；

利用声源定向模型中的第一子声源定向模型中的函数对所述特征参数进行计算，得到第一参考指示参数；并利用所述声源定向模型中的第二子声源定向模型中的函数对所述特征参数进行计算，得到第二参考指示参数；其中，所述第一参考指示参数与目标导引方向矢量的数值大小呈正相关，所述第二参考指示参数与所述目标导引方向矢量的数值大小呈负相关；

对所述第一参考指示参数和所述第二参考指示参数进行似然比计算得到定向计算结果；

将所述定向计算结果确定为所述声源定向模型的输出结果；

从所述输出结果中获取所述导引方向矢量上的声音信号的声源指示参数；

根据所述声源指示参数利用分类器从所述第一方向矢量集合中确定出目标导引方向矢量，其中，所述目标导引方向矢量用于指示所述目标声源的方向。

2.根据权利要求1所述的方法，其特征在于，所述从所述输出结果中获取所述导引方向矢量上的声音信号的声源指示参数包括：

在所述输出结果指示为目标声源指示参数的情况下，确定与所述目标声源指示参数对应的特征参数为目标特征参数，其中，所述目标声源指示参数的取值为所述输出结果中的最大值；

将所述第一方向矢量集合中与所述目标特征参数相匹配的导引方向矢量，确定为所述目标导引方向矢量。

3. 根据权利要求1所述的方法，其特征在于，所述利用声源定向模型中的第一子声源定向模型中的函数对所述特征参数进行计算，得到第一参考指示参数；并利用所述声源定向模型中的第二子声源定向模型中的函数对所述特征参数进行计算，得到第二参考指示参数包括：

利用所述第一子声源定向模型中的函数对所述特征参数进行计算，得到第一声源指示参数，其中，所述声源定向模型包括所述第一子声源定向模型，所述第一声源指示参数指示所述特征参数对应的导引方向矢量的导引方向，为所述目标声源的方向矢量的方向的概率为第一概率；将所述第一概率作为所述输出结果；或者

利用所述第二子声源定向模型中的函数对所述特征参数进行计算，得到第二声源指示参数，其中，所述声源定向模型包括所述第二子声源定向模型，所述第二声源指示参数指示所述特征参数对应的导引方向矢量不是所述目标声源的方向矢量的概率为第二概率；对所述第二概率进行转化计算，以得到所述输出结果。

4.根据权利要求1所述的方法，其特征在于，所述依次提取所述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合包括：

采用波束形成算法，根据所述第一方向矢量集合中的导引矢量信息、所述麦克风阵列的结构信息、以及所述麦克风阵列中各个麦克风接收到的声音信号，确定第一波束形成矢量集合；

根据所述第一波束形成矢量集合，生成第一语谱图集合。

5.一种声源定向装置，其特征在于，包括：

第一确定单元，用于确定待定向的目标声源；

第二确定单元，用于根据麦克风阵列的结构信息及所述目标声源到达所述麦克风阵列中各个麦克风的时延，确定所述目标声源的第一方向矢量集合，其中，所述第一方向矢量集合中包括的每个导引方向矢量用于指示所述目标声源到对应麦克风的方向；

生成单元，用于依次提取所述第一方向矢量集合中每个导引方向矢量上的声音信号信息，以生成与每个导引方向矢量分别对应的第一语谱图集合，其中，所述第一语谱图集合中记录有所述导引方向矢量上的声音信号的特征参数信息；

计算单元，包括：第一确定模块、输入模块、获取模块，其中，所述第一确定模块，用于通过滤波技术确定所述第一语谱图集合中的特征参数；

所述输入模块，包括第一计算子模块、处理子模块、输出子模块，其中，

所述第一计算子模块，用于利用所述声源定向模型中的第一子声源定向模型中的函数对所述特征参数进行计算，得到第一参考指示参数；并利用所述声源定向模型中的第二子声源定向模型中的函数对所述特征参数进行计算，得到第二参考指示参数；其中，所述第一参考指示参数与目标导引方向矢量的数值大小呈正相关，所述第二参考指示参数与所述目标导引方向矢量的数值大小呈负相关；

所述处理子模块，用于对所述第一参考指示参数和所述第二参考指示参数进行加权求和处理，以得到定向计算结果；

所述输出子模块，用于将所述定向计算结果确定为所述声源定向模型的输出结果；

所述获取模块，用于从所述输出结果中获取所述导引方向矢量上的声音信号的声源指示参数；

第三确定单元，用于根据所述声源指示参数利用分类器从所述第一方向矢量集合中确定出目标导引方向矢量，其中，所述目标导引方向矢量用于指示所述目标声源的方向。

6.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。