CN111929645B - 特定人声的声源定位方法、装置和计算机设备 - Google Patents

特定人声的声源定位方法、装置和计算机设备 Download PDF

Info

Publication number
CN111929645B
CN111929645B CN202011008660.6A CN202011008660A CN111929645B CN 111929645 B CN111929645 B CN 111929645B CN 202011008660 A CN202011008660 A CN 202011008660A CN 111929645 B CN111929645 B CN 111929645B
Authority
CN
China
Prior art keywords
probability
target person
voice
channel audio
direction vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011008660.6A
Other languages
English (en)
Other versions
CN111929645A (zh
Inventor
陈俊彬
王广新
太荣鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202011008660.6A priority Critical patent/CN111929645B/zh
Publication of CN111929645A publication Critical patent/CN111929645A/zh
Application granted granted Critical
Publication of CN111929645B publication Critical patent/CN111929645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请提供了一种特定人声的声源定位方法、装置和计算机设备,系统首先判断获取的多通道音频中是否存在目标人语音,若多通道音频中存在目标人语音,则按照预设规则对多通道音频进行处理,得到多个目标人语音相位谱。系统分别计算各目标人语音相位谱的可控响应功率,处理得到角谱。最后对角谱进行峰值搜索,以最大峰值所对应的角度数据作为目标人语音的声源位置信息。本申请在识别到目标人语音后,根据目标人语音相位谱进行相应的计算得到声源位置,在计算过程中并不涉及音频的功率谱,因而可以减少无关信息的干扰,从而准确定位特定人声的声源位置。

Description

特定人声的声源定位方法、装置和计算机设备
技术领域
本申请涉及声源定位技术领域,特别涉及一种特定人声的声源定位方法、装置和计算机设备。
背景技术
在特定场合,录像装置、拾音装置等需要采集某个特定人物的音视频信息,比如在大讲堂、公开课等场景,摄像头和拾音模块需要聚焦在讲课老师的方向上;在节目舞台上,摄像头和拾音模块需要聚焦在主持人的方向上。而在实际场景中,由于现场环境嘈杂,可能存在多个说话人,并且特定人物的位置并不是固定不变的(可能因互动而到处移动)。传统的声源定位算法无法区分特定人物语音以及干扰语音(比如其他人的语音)的区别,因而无法准确实现对特定人声的声源定位。
发明内容
本申请的主要目的为提供一种特定人声的声源定位方法、装置和计算机设备,旨在解决现有声源定位算法无法准确实现对特定人声的声源定位的弊端。
为实现上述目的,本申请提供了一种特定人声的声源定位方法,包括:
获取多通道音频;
判断所述多通道音频中是否存在目标人语音;
若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断所述识别概率是否大于概率阈值;
若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
进一步的,所述判断所述识别概率是否大于概率阈值的步骤,包括:
判断所述识别概率是否为异常概率;
若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
判断所述修正概率是否大于概率阈值;
若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
进一步的,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
进一步的,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
以麦克风阵列的几何中心为原点构建空间直角坐标系;
按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
进一步的,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:
将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 815411DEST_PATH_IMAGE001
Figure 637611DEST_PATH_IMAGE002
为所述时间差,
Figure 620611DEST_PATH_IMAGE003
Figure 422344DEST_PATH_IMAGE004
均为复数形式的目标人语音相位谱,
Figure 144706DEST_PATH_IMAGE005
为所述方向向量,
Figure 108114DEST_PATH_IMAGE006
为所述广义互相关函数;
将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 280207DEST_PATH_IMAGE007
Figure 682370DEST_PATH_IMAGE008
为所述可控响应功率。
优选的,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:
将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 492194DEST_PATH_IMAGE009
Figure 688820DEST_PATH_IMAGE010
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 97278DEST_PATH_IMAGE011
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本申请还提供了一种特定人声的声源定位装置,包括:
获取模块,用于获取多通道音频;
判断模块,用于判断所述多通道音频中是否存在目标人语音;
处理模块,用于若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
计算模块,用于分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
搜索模块,用于对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
进一步的,所述判断模块,包括:
提取子模块,用于从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
第一处理子模块,用于将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断子模块,用于判断所述识别概率是否大于概率阈值;
第一判定子模块,用于若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
第二判定子模块,用于若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
进一步的,所述判断子模块,包括:
第一判断单元,用于判断所述识别概率是否为异常概率;
第一计算单元,用于若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
第二判断单元,用于判断所述修正概率是否大于概率阈值;
第一判定单元,用于若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
第二判定单元,用于若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
进一步的,所述处理模块,包括:
变换子模块,用于对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
第二处理子模块,用于将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
进一步的,所述计算模块,包括:
构建子模块,用于以麦克风阵列的几何中心为原点构建空间直角坐标系;
选取子模块,用于按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
计算子模块,用于根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
转化子模块,用于将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
生成子模块,用于根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
进一步的,所述计算子模块,包括:
第二计算单元,用于将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
第三计算单元,用于将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 37553DEST_PATH_IMAGE012
Figure 701883DEST_PATH_IMAGE013
为所述时间差,
Figure 36787DEST_PATH_IMAGE014
Figure 481675DEST_PATH_IMAGE015
均为复数形式的目标人语音相位谱,
Figure 897744DEST_PATH_IMAGE016
为所述方向向量,
Figure 714784DEST_PATH_IMAGE017
为所述广义互相关函数;
第四计算单元,用于将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 456475DEST_PATH_IMAGE018
Figure 293719DEST_PATH_IMAGE019
为所述可控响应功率。
优选的,所述第二计算单元,包括:
计算子单元,用于将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 44637DEST_PATH_IMAGE020
Figure 949139DEST_PATH_IMAGE021
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 628775DEST_PATH_IMAGE022
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种特定人声的声源定位方法、装置和计算机设备,系统首先判断获取的多通道音频中是否存在目标人语音,若多通道音频中存在目标人语音,则按照预设规则对多通道音频进行处理,得到多个目标人语音相位谱。系统分别计算各目标人语音相位谱的可控响应功率,处理得到角谱。最后对角谱进行峰值搜索,以最大峰值所对应的角度数据作为目标人语音的声源位置信息。本申请在识别到目标人语音后,根据目标人语音相位谱进行相应的计算得到声源位置,在计算过程中并不涉及音频的功率谱,因而可以减少无关信息的干扰,从而准确定位特定人声的声源位置。
附图说明
图1是本申请一实施例中特定人声的声源定位方法步骤示意图;
图2是本申请一实施例中特定人声的声源定位装置整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种特定人声的声源定位方法,包括:
S1:获取多通道音频;
S2:判断所述多通道音频中是否存在目标人语音;
S3:若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
S4:分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
S5:对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
本实施例中,系统通过麦克风阵列采集C个通道的音频数据,C个通道的音频经过缓存器,缓存一定长度的音频数据(比如时长为10S的音频数据),得到多通道音频。系统从多通道音频中选取任一通道音频实时进行特征提取,得到音频中各帧音频分别对应的MFCC(梅尔倒谱系数)。系统将各个MFCC进行组合后分别输入第一神经网络进行处理,得到各个MFCC组合分别对应的识别概率。其中,第一神经网络为深度学习网络(可以选择为若干层的LSTM+DNN+softmax,或者可以用GRU来替代LSTM,或者直接用多层的DNN来实现),预先使用包含有目标人语音的样本进行训练(第一神经网络的训练过程与现有技术相同,在此不做详述),从而使得第一神经网络可以判断输入音频中是否存在目标人语音。系统对各个识别概率进行平滑处理,去除异常数据,从而得到修正概率。系统将修正概率与概率阈值进行比对,如果修正概率大于概率阈值,则判定多通道音频中存在目标人语音。系统对多通道音频进行快速傅里叶变换,得到多个频域信号。然后,再将各个频域信号输入第二神经网络进行处理,得到各目标人语音相位谱。其中,第二神经网络用于分离出输入音频信号的相位谱,其训练过程为:对样本语音进行随机加混响、加噪声、加干扰语音等操作,继而对带噪混合语音进行FFT变换。将FFT变换后的结果送入第二神经网络,这里可以选择为CRN(Convolutional Recurrent Network,即卷积递归神经网络)+sigmod,CRN由若干层的CNN层加若干层LSTM层,再加若干层反CNN层组成。其输出为预测纯净目标语音的相位谱
Figure 766365DEST_PATH_IMAGE023
,K是FFT的长度。这里选用MSE作为loss函数,通过与纯净目标语音的相位谱求MSE即,
Figure 697805DEST_PATH_IMAGE024
。最后通过Adam优化器,来调节网络参数,直至收敛。在通过第二神经网络得到目标人语音相位谱后,系统以麦克风阵列的几何中心为原点构建空间直角坐标系,然后按照预设角度范围(预设角度范围由用户根据麦克风阵列的部署位置进行相应设定),以空间直角坐标系的原点为圆心的单位圆上,选取若干个方向向量。系统根据各个方向向量和各个目标人语音相位谱,计算得到各个方向向量各自对应的可控响应功率。系统将各方向向量转化为角度形式,得到各方向向量分别对应的水平角和俯仰角。再根据各可控响应功率与各方向向量分别对应的水平角和俯仰角之间的对应关系,生成角谱(Angle spectrum)。系统对角谱进行峰值搜索,以最大峰值所对应的角度数据(水平角和俯仰角)作为目标人语音的声源位置信息,实现对特定人声,即目标人语音的声源定位。其中,峰值搜索的计算公式为
Figure 925655DEST_PATH_IMAGE025
Figure 773263DEST_PATH_IMAGE026
为水平角,
Figure 414460DEST_PATH_IMAGE027
为俯仰角。
进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
S201:从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
S202:将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
S203:判断所述识别概率是否大于概率阈值;
S204:若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
S205:若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
本实施例中,系统从多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC。MFCC的提取过程与现有技术相同,依次为:预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、计算每个滤波器组输出的对数能量、动态差分参数的提取,在此不做详述。系统将各帧MFCC进行组合,比如需要20帧MFCC才能检测特定人声,[1,2,3,4,5,...,20]为一组,然后新进来的一帧MFCC (21),则组成[2,3,4,5,6,...,21]为新的一组,当前组MFCC输入第一神经网络,从而得到当前组MFCC对应的识别概率。为了保证数据的准确度,需要对当前的识别概率进行平滑处理。具体地,系统判断当前组的识别概率中是否为异常概率,比如设置概率阈值为0.6,此时第一神经网络输出的三组MFCC分别对应的识别概率分别为0.3、0.9、0.4,而由于0.9相比于前后两个识别概率:0.3、0.4,两者之间(0.9与0.3之间、0.9与0.4之间)的差值过大,有可能是因为识别概率0.9所对应的音频帧数据异常,因此将0.9识别为异常概率,需要对识别概率0.9进行平滑处理。系统综合异常概率的前后两组所对应的识别概率,求其均值:(0.3+0.9+0.3)/3=0.5<0.6,0.5即为修正概率。系统判断修正概率是否大于概率阈值,如果修正概率大于概率阈值,则系统判定多通道音频中存在目标人语音。如果修正概率小于概率阈值,则系统判定多通道音频中不存在目标人语音。
进一步的,所述判断所述识别概率是否大于概率阈值的步骤,包括:
S2031:判断所述识别概率是否为异常概率;
S2032:若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
S2033:判断所述修正概率是否大于概率阈值;
S2034:若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
S2035:若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
本实施例中,为了避免异常数据对判断多通道音频中是否存在目标人语音的准确度,需要对当前输出的识别概率进行平滑处理。具体地,系统在判断识别概率的过程中,根据当前的识别概率与前一识别概率和后一识别概率之前的差值大小(该差值可以由开发人员定义,也可以根据前一识别概率和后一识别概率进行设定,比如差值不能大于前一识别概率和/或后一识别概率),来判断当前的识别概率是否为异常概率。比如,第一神经网络输出的相邻三组MFCC各自对应的识别概率分别为0.3、0.9、0.4,而由于0.9相比于前后两个识别概率:0.3、0.4,两者之间(0.9与0.3之间、0.9与0.4之间)的差值过大(差值已经大于0.3、0.4),有可能是因为识别概率0.9所对应的音频帧数据异常,因此将0.9识别为异常概率。系统根据异常概率的前一识别概率、异常概率的后一识别概率进行均值计算(如果不存在前一识别概率或后一识别概率,则不存在的前一识别概率或后一识别概率的值取0),得到修正概率。系统判断修正概率是否大于概率阈值,若修正概率大于概率阈值,则判定识别概率大于概率阈值。若修正概率小于概率阈值,则判定识别概率小于概率阈值。在后续对识别概率的平滑处理中,不会引入修正概率,仍采用第一神经网络输出的各个识别概率进行相应的平滑处理。
进一步的,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
S301:对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
S302:将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
本实施例中,系统对多通道音频的时域信号进行快速傅里叶变换,得到各个通道的音频时域信号所对应的频域信号。系统将各个频域信号作为输入,送入第二神经网络中进行相应处理,预测得到各个频域信号分别对应的目标人语音相位谱。其中,第二神经网络用于分离出输入音频信号的相位谱,其具体训练过程为:对样本语音进行随机加混响、加噪声、加干扰语音等操作,继而对带噪混合语音进行FFT变换。将FFT变换后的结果送入第二神经网络,这里可以选择为CRN(Convolutional Recurrent Network,即卷积递归神经网络)+sigmod,CRN由若干层的CNN层加若干层LSTM层,再加若干层反CNN层组成。其输出为预测纯净目标语音的相位谱
Figure 976022DEST_PATH_IMAGE028
,K是FFT的长度。这里选用MSE作为loss函数,通过与纯净目标语音的相位谱求MSE即,
Figure 141601DEST_PATH_IMAGE029
。最后通过Adam优化器,来调节网络参数,直至收敛。训练后的第二神经网络可以从输入的频域信号提取得到对应的相位谱。
进一步的,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
S401:以麦克风阵列的几何中心为原点构建空间直角坐标系;
S402:按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
S403:根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
S404:将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
S405:根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
本实施例中,系统以麦克风阵列的几何中心为原点构建空间直角坐标系,然后以空间直角坐标系的原点为圆心的单位球上,在对应预设角度范围的区域均匀选取若干个点。其中,预设角度范围由用户根据麦克风阵列的部署位置进行相应的设置。以坐标原点为方向向量的起点,以各个点作为方向向量的终点,从而得到若干个方向向量。系统首先将各个目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各个方向向量所在方向分别到达所述麦克风阵列中相邻两个麦克风的时间差。然后,将复数形式的目标人语音相位谱、时间差和方向向量代入第一公式中,计算得到麦克风阵列中相邻两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,第一公式为:
Figure 395995DEST_PATH_IMAGE030
Figure 727751DEST_PATH_IMAGE031
表示方向向量
Figure 653856DEST_PATH_IMAGE032
到达第a个和第c个麦克风的到达时间差,
Figure 121878DEST_PATH_IMAGE033
Figure 343912DEST_PATH_IMAGE034
均为复数形式的目标人语音相位谱,
Figure 664428DEST_PATH_IMAGE035
为方向向量,
Figure 833372DEST_PATH_IMAGE036
为广义互相关函数。系统将广义互相关函数代入第二公式中,计算得到各个方向向量分别对应的可控响应功率,其中,第二公式为:
Figure 218217DEST_PATH_IMAGE037
Figure 47371DEST_PATH_IMAGE038
为可控响应功率。系统将各个方向向量转化为角度形式,即
Figure 353718DEST_PATH_IMAGE039
,其中
Figure 857512DEST_PATH_IMAGE040
为水平角,
Figure 332749DEST_PATH_IMAGE041
为俯仰角。系统将
Figure 303110DEST_PATH_IMAGE042
放入到水平角集合中,元素个数为E1;将
Figure 893492DEST_PATH_IMAGE043
放入到俯仰角集合中,元素个数为E2(E1、E2对应方向向量的个数)。系统将
Figure 699511DEST_PATH_IMAGE044
按照水平角和俯仰角的对应关系(或者说
Figure 731052DEST_PATH_IMAGE045
与方向向量
Figure 731369DEST_PATH_IMAGE046
之间的对应关系),生成角谱。
进一步的,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:
S4031:将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
S4032:将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 248195DEST_PATH_IMAGE047
Figure 359370DEST_PATH_IMAGE048
为所述时间差,
Figure 510997DEST_PATH_IMAGE049
Figure 682215DEST_PATH_IMAGE050
均为复数形式的目标人语音相位谱,
Figure 683407DEST_PATH_IMAGE051
为所述方向向量,
Figure 801536DEST_PATH_IMAGE052
为所述广义互相关函数;
S4033:将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 320853DEST_PATH_IMAGE053
Figure 662972DEST_PATH_IMAGE054
为所述可控响应功率。
优选的,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:
S40311:将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 184084DEST_PATH_IMAGE055
Figure 574745DEST_PATH_IMAGE056
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 465078DEST_PATH_IMAGE057
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本实施例中,系统根据第四公式将各个目标人语音相位谱转化为复数形式的目标人语音相位谱,其中,第四公式为:
Figure 978099DEST_PATH_IMAGE058
Figure 986506DEST_PATH_IMAGE059
为目标人语音相位谱,
Figure 682323DEST_PATH_IMAGE060
为复数形式的目标人语音相位谱。并且,系统将各个方向向量代入第三公式中,计算得到各个方向向量所在方向分别到达麦克风阵列中两个麦克风的时间差。其中,第三公式为:
Figure 725366DEST_PATH_IMAGE061
Figure 346971DEST_PATH_IMAGE062
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 544472DEST_PATH_IMAGE063
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。系统将复数形式的目标人语音相位谱、时间差和方向向量代入第一公式中,计算得到麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数。其中,第一公式为:
Figure 339252DEST_PATH_IMAGE064
Figure 236801DEST_PATH_IMAGE065
为时间差,
Figure 530773DEST_PATH_IMAGE066
Figure 831582DEST_PATH_IMAGE067
均为复数形式的目标人语音相位谱,
Figure 338043DEST_PATH_IMAGE068
为方向向量,
Figure 824520DEST_PATH_IMAGE069
即为广义互相关函数。系统将广义互相关函数代入第二公式中,计算得到各个方向向量分别对应的可控响应功率。其中,第二公式为:
Figure 850244DEST_PATH_IMAGE070
Figure 586119DEST_PATH_IMAGE071
为所述可控响应功率。
本实施例提供的一种特定人声的声源定位方法,系统首先判断获取的多通道音频中是否存在目标人语音,若多通道音频中存在目标人语音,则按照预设规则对多通道音频进行处理,得到多个目标人语音相位谱。系统分别计算各目标人语音相位谱的可控响应功率,处理得到角谱。最后对角谱进行峰值搜索,以最大峰值所对应的角度数据作为目标人语音的声源位置信息。本申请在识别到目标人语音后,根据目标人语音相位谱进行相应的计算得到声源位置,在计算过程中并不涉及音频的功率谱,因而可以减少无关信息的干扰,从而准确定位特定人声的声源位置。
参照图2,本申请一实施例中还提供了一种特定人声的声源定位装置,包括:
获取模块,用于获取多通道音频;
判断模块,用于判断所述多通道音频中是否存在目标人语音;
处理模块,用于若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
计算模块,用于分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
搜索模块,用于对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
本实施例中,系统通过麦克风阵列采集C个通道的音频数据,C个通道的音频经过缓存器,缓存一定长度的音频数据(比如时长为10S的音频数据),得到多通道音频。系统从多通道音频中选取任一通道音频实时进行特征提取,得到音频中各帧音频分别对应的MFCC(梅尔倒谱系数)。系统将各个MFCC进行组合后分别输入第一神经网络进行处理,得到各个MFCC组合分别对应的识别概率。其中,第一神经网络为深度学习网络(可以选择为若干层的LSTM+DNN+softmax,或者可以用GRU来替代LSTM,或者直接用多层的DNN来实现),预先使用包含有目标人语音的样本进行训练(第一神经网络的训练过程与现有技术相同,在此不做详述),从而使得第一神经网络可以判断输入音频中是否存在目标人语音。系统对各个识别概率进行平滑处理,去除异常数据,从而得到修正概率。系统将修正概率与概率阈值进行比对,如果修正概率大于概率阈值,则判定多通道音频中存在目标人语音。系统对多通道音频进行快速傅里叶变换,得到多个频域信号。然后,再将各个频域信号输入第二神经网络进行处理,得到各目标人语音相位谱。其中,第二神经网络用于分离出输入音频信号的相位谱,其训练过程为:对样本语音进行随机加混响、加噪声、加干扰语音等操作,继而对带噪混合语音进行FFT变换。将FFT变换后的结果送入第二神经网络,这里可以选择为CRN(Convolutional Recurrent Network,即卷积递归神经网络)+sigmod,CRN由若干层的CNN层加若干层LSTM层,再加若干层反CNN层组成。其输出为预测纯净目标语音的相位谱
Figure 955658DEST_PATH_IMAGE072
,K是FFT的长度。这里选用MSE作为loss函数,通过与纯净目标语音的相位谱求MSE即,
Figure 968745DEST_PATH_IMAGE073
。最后通过Adam优化器,来调节网络参数,直至收敛。在通过第二神经网络得到目标人语音相位谱后,系统以麦克风阵列的几何中心为原点构建空间直角坐标系,然后按照预设角度范围(预设角度范围由用户根据麦克风阵列的部署位置进行相应设定),以空间直角坐标系的原点为圆心的单位圆上,选取若干个方向向量。系统根据各个方向向量和各个目标人语音相位谱,计算得到各个方向向量各自对应的可控响应功率。系统将各方向向量转化为角度形式,得到各方向向量分别对应的水平角和俯仰角。再根据各可控响应功率与各方向向量分别对应的水平角和俯仰角之间的对应关系,生成角谱(Angle spectrum)。系统对角谱进行峰值搜索,以最大峰值所对应的角度数据(水平角和俯仰角)作为目标人语音的声源位置信息,实现对特定人声,即目标人语音的声源定位。其中,峰值搜索的计算公式为
Figure 156183DEST_PATH_IMAGE067
Figure 659714DEST_PATH_IMAGE068
为水平角,
Figure 592183DEST_PATH_IMAGE076
为俯仰角。
进一步的,所述判断模块,包括:
提取子模块,用于从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
第一处理子模块,用于将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断子模块,用于判断所述识别概率是否大于概率阈值;
第一判定子模块,用于若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
第二判定子模块,用于若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
本实施例中,系统从多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC。MFCC的提取过程与现有技术相同,依次为:预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、计算每个滤波器组输出的对数能量、动态差分参数的提取,在此不做详述。系统将各帧MFCC进行组合,比如需要20帧MFCC才能检测特定人声,[1,2,3,4,5,...,20]为一组,然后新进来的一帧MFCC (21),则组成[2,3,4,5,6,...,21]为新的一组,当前组MFCC输入第一神经网络,从而得到当前组MFCC对应的识别概率。为了保证数据的准确度,需要对当前的识别概率进行平滑处理。具体地,系统判断当前组的识别概率中是否为异常概率,比如设置概率阈值为0.6,此时第一神经网络输出的三组MFCC分别对应的识别概率分别为0.3、0.9、0.4,而由于0.9相比于前后两个识别概率:0.3、0.4,两者之间(0.9与0.3之间、0.9与0.4之间)的差值过大,有可能是因为识别概率0.9所对应的音频帧数据异常,因此将0.9识别为异常概率,需要对识别概率0.9进行平滑处理。系统综合异常概率的前后两组所对应的识别概率,求其均值:(0.3+0.9+0.3)/3=0.5<0.6,0.5即为修正概率。系统判断修正概率是否大于概率阈值,如果修正概率大于概率阈值,则系统判定多通道音频中存在目标人语音。如果修正概率小于概率阈值,则系统判定多通道音频中不存在目标人语音。
进一步的,所述判断子模块,包括:
第一判断单元,用于判断所述识别概率是否为异常概率;
第一计算单元,用于若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
第二判断单元,用于判断所述修正概率是否大于概率阈值;
第一判定单元,用于若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
第二判定单元,用于若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
本实施例中,为了避免异常数据对判断多通道音频中是否存在目标人语音的准确度,需要对当前输出的识别概率进行平滑处理。具体地,系统在判断识别概率的过程中,根据当前的识别概率与前一识别概率和后一识别概率之前的差值大小(该差值可以由开发人员定义,也可以根据前一识别概率和后一识别概率进行设定,比如差值不能大于前一识别概率和/或后一识别概率),来判断当前的识别概率是否为异常概率。比如,第一神经网络输出的相邻三组MFCC各自对应的识别概率分别为0.3、0.9、0.4,而由于0.9相比于前后两个识别概率:0.3、0.4,两者之间(0.9与0.3之间、0.9与0.4之间)的差值过大(差值已经大于0.3、0.4),有可能是因为识别概率0.9所对应的音频帧数据异常,因此将0.9识别为异常概率。系统根据异常概率的前一识别概率、异常概率的后一识别概率进行均值计算(如果不存在前一识别概率或后一识别概率,则不存在的前一识别概率或后一识别概率的值取0),得到修正概率。系统判断修正概率是否大于概率阈值,若修正概率大于概率阈值,则判定识别概率大于概率阈值。若修正概率小于概率阈值,则判定识别概率小于概率阈值。在后续对识别概率的平滑处理中,不会引入修正概率,仍采用第一神经网络输出的各个识别概率进行相应的平滑处理。
进一步的,所述处理模块,包括:
变换子模块,用于对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
第二处理子模块,用于将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
本实施例中,系统对多通道音频的时域信号进行快速傅里叶变换,得到各个通道的音频时域信号所对应的频域信号。系统将各个频域信号作为输入,送入第二神经网络中进行相应处理,预测得到各个频域信号分别对应的目标人语音相位谱。其中,第二神经网络用于分离出输入音频信号的相位谱,其具体训练过程为:对样本语音进行随机加混响、加噪声、加干扰语音等操作,继而对带噪混合语音进行FFT变换。将FFT变换后的结果送入第二神经网络,这里可以选择为CRN(Convolutional Recurrent Network,即卷积递归神经网络)+sigmod,CRN由若干层的CNN层加若干层LSTM层,再加若干层反CNN层组成。其输出为预测纯净目标语音的相位谱
Figure 849989DEST_PATH_IMAGE077
,K是FFT的长度。这里选用MSE作为loss函数,通过与纯净目标语音的相位谱求MSE即,
Figure 217516DEST_PATH_IMAGE078
。最后通过Adam优化器,来调节网络参数,直至收敛。训练后的第二神经网络可以从输入的频域信号提取得到对应的相位谱。
进一步的,所述计算模块,包括:
构建子模块,用于以麦克风阵列的几何中心为原点构建空间直角坐标系;
选取子模块,用于按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
计算子模块,用于根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
转化子模块,用于将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
生成子模块,用于根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
本实施例中,系统以麦克风阵列的几何中心为原点构建空间直角坐标系,然后以空间直角坐标系的原点为圆心的单位球上,在对应预设角度范围的区域均匀选取若干个点。其中,预设角度范围由用户根据麦克风阵列的部署位置进行相应的设置。以坐标原点为方向向量的起点,以各个点作为方向向量的终点,从而得到若干个方向向量。系统首先将各个目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各个方向向量所在方向分别到达所述麦克风阵列中相邻两个麦克风的时间差。然后,将复数形式的目标人语音相位谱、时间差和方向向量代入第一公式中,计算得到麦克风阵列中相邻两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,第一公式为:
Figure 183406DEST_PATH_IMAGE069
Figure 412393DEST_PATH_IMAGE070
为表示方向向量
Figure 95845DEST_PATH_IMAGE081
到达第a个和第c个麦克风的到达时间差,
Figure 604581DEST_PATH_IMAGE082
Figure 67923DEST_PATH_IMAGE083
均为复数形式的目标人语音相位谱,
Figure 818841DEST_PATH_IMAGE084
为方向向量,
Figure 425141DEST_PATH_IMAGE085
为广义互相关函数。系统将广义互相关函数代入第二公式中,计算得到各个方向向量分别对应的可控响应功率,其中,第二公式为:
Figure 868892DEST_PATH_IMAGE086
Figure 757213DEST_PATH_IMAGE087
为可控响应功率。系统将各个方向向量转化为角度形式,即
Figure 577402DEST_PATH_IMAGE088
,其中
Figure 165771DEST_PATH_IMAGE089
为水平角,
Figure 780423DEST_PATH_IMAGE090
为俯仰角。系统将
Figure 828145DEST_PATH_IMAGE091
放入到水平角集合中,元素个数为E1;将
Figure 419401DEST_PATH_IMAGE092
放入到俯仰角集合中,元素个数为E2(E1、E2对应方向向量的个数)。系统将
Figure 32916DEST_PATH_IMAGE093
按照水平角和俯仰角的对应关系(或者说
Figure 84049DEST_PATH_IMAGE094
与方向向量
Figure 651690DEST_PATH_IMAGE095
之间的对应关系),生成角谱。
进一步的,所述计算子模块,包括:
第二计算单元,用于将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
第三计算单元,用于将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 954626DEST_PATH_IMAGE096
Figure 921183DEST_PATH_IMAGE097
为所述时间差,
Figure 674375DEST_PATH_IMAGE098
Figure 920856DEST_PATH_IMAGE099
均为复数形式的目标人语音相位谱,
Figure 355379DEST_PATH_IMAGE100
为所述方向向量,
Figure 474645DEST_PATH_IMAGE101
为所述广义互相关函数;
第四计算单元,用于将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 664318DEST_PATH_IMAGE102
Figure 734780DEST_PATH_IMAGE103
为所述可控响应功率。
优选的,所述第二计算单元,包括:
计算子单元,用于将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 910677DEST_PATH_IMAGE104
Figure 618870DEST_PATH_IMAGE105
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 684172DEST_PATH_IMAGE106
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本实施例中,系统根据第四公式将各个目标人语音相位谱转化为复数形式的目标人语音相位谱,其中,第四公式为:
Figure 805712DEST_PATH_IMAGE107
Figure 847617DEST_PATH_IMAGE108
为目标人语音相位谱,
Figure 675896DEST_PATH_IMAGE109
为复数形式的目标人语音相位谱。并且,系统将各个方向向量代入第三公式中,计算得到各个方向向量所在方向分别到达麦克风阵列中相邻两个麦克风的时间差。其中,第三公式为:
Figure 581272DEST_PATH_IMAGE110
Figure 127791DEST_PATH_IMAGE111
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 743010DEST_PATH_IMAGE071
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。系统将复数形式的目标人语音相位谱、时间差和方向向量代入第一公式中,计算得到麦克风阵列中相邻两个麦克风所接收的音频帧数据之间的广义互相关函数。其中,第一公式为:
Figure 879593DEST_PATH_IMAGE072
Figure 925303DEST_PATH_IMAGE073
为时间差,
Figure 121929DEST_PATH_IMAGE074
Figure 448177DEST_PATH_IMAGE116
均为复数形式的目标人语音相位谱,
Figure 251048DEST_PATH_IMAGE117
为方向向量,
Figure 124326DEST_PATH_IMAGE118
即为广义互相关函数。系统将广义互相关函数代入第二公式中,计算得到各个方向向量分别对应的可控响应功率。其中,第二公式为:
Figure 645437DEST_PATH_IMAGE119
Figure 334301DEST_PATH_IMAGE120
为所述可控响应功率。
本实施例提供的一种特定人声的声源定位装置,系统首先判断获取的多通道音频中是否存在目标人语音,若多通道音频中存在目标人语音,则按照预设规则对多通道音频进行处理,得到多个目标人语音相位谱。系统分别计算各目标人语音相位谱的可控响应功率,处理得到角谱。最后对角谱进行峰值搜索,以最大峰值所对应的角度数据作为目标人语音的声源位置信息。本申请在识别到目标人语音后,根据目标人语音相位谱进行相应的计算得到声源位置,在计算过程中并不涉及音频的功率谱,因而可以减少无关信息的干扰,从而准确定位特定人声的声源位置。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一公式等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特定人声的声源定位方法。
上述处理器执行上述特定人声的声源定位方法的步骤:
S1:获取多通道音频;
S2:判断所述多通道音频中是否存在目标人语音;
S3:若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
S4:分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
S5:对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
S201:从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
S202:将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
S203:判断所述识别概率是否大于概率阈值;
S204:若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
S205:若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
进一步的,所述判断各所述识别概率是否大于概率阈值的步骤,包括:
S2031:判断所述识别概率是否为异常概率;
S2032:若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
S2033:判断所述修正概率是否大于概率阈值;
S2034:若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
S2035:若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
进一步的,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
S301:对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
S302:将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
进一步的,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
S401:以麦克风阵列的几何中心为原点构建空间直角坐标系;
S402:按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
S403:根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
S404:将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
S405:根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
进一步的,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:
S4031:将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
S4032:将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 767937DEST_PATH_IMAGE075
Figure 911473DEST_PATH_IMAGE076
为所述时间差,
Figure 372541DEST_PATH_IMAGE077
Figure 740069DEST_PATH_IMAGE078
均为复数形式的目标人语音相位谱,
Figure 152333DEST_PATH_IMAGE079
为所述方向向量,
Figure 833982DEST_PATH_IMAGE080
为所述广义互相关函数;
S4033:将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 415136DEST_PATH_IMAGE081
Figure 455029DEST_PATH_IMAGE082
为所述可控响应功率。
优选的,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:
S40311:将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 324896DEST_PATH_IMAGE083
Figure 341394DEST_PATH_IMAGE084
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 42633DEST_PATH_IMAGE085
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种特定人声的声源定位方法,其中,所述声源定位方法具体为:
S1:获取多通道音频;
S2:判断所述多通道音频中是否存在目标人语音;
S3:若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
S4:分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
S5:对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
S201:从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
S202:将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
S203:判断所述识别概率是否大于概率阈值;
S204:若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
S205:若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。
进一步的,所述判断各所述识别概率是否大于概率阈值的步骤,包括:
S2031:判断所述识别概率是否为异常概率;
S2032:若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
S2033:判断所述修正概率是否大于概率阈值;
S2034:若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
S2035:若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
进一步的,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
S301:对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
S302:将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
进一步的,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
S401:以麦克风阵列的几何中心为原点构建空间直角坐标系;
S402:按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
S403:根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
S404:将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
S405:根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
进一步的,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:
S4031:将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
S4032:将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure 984919DEST_PATH_IMAGE086
Figure 342083DEST_PATH_IMAGE087
为所述时间差,
Figure 631113DEST_PATH_IMAGE088
Figure 879867DEST_PATH_IMAGE089
均为复数形式的目标人语音相位谱,
Figure 228940DEST_PATH_IMAGE090
为所述方向向量,
Figure 571935DEST_PATH_IMAGE091
为所述广义互相关函数;
S4033:将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure 664655DEST_PATH_IMAGE092
Figure 543750DEST_PATH_IMAGE093
为所述可控响应功率。
优选的,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:
S40311:将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure 502872DEST_PATH_IMAGE094
Figure 365786DEST_PATH_IMAGE095
为第a个麦克风在所述空间直角坐标系中的坐标向量,
Figure 996618DEST_PATH_IMAGE096
为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种特定人声的声源定位方法,其特征在于,包括:
获取多通道音频;
判断所述多通道音频中是否存在目标人语音;
若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息;
所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱;
所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
以麦克风阵列的几何中心为原点构建空间直角坐标系;
按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
2.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断所述识别概率是否大于概率阈值;
若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
若所述识别概率均小于概率阈值,则判定所述多通道音频中不存在目标人语音。
3.根据权利要求2所述的特定人声的声源定位方法,其特征在于,所述判断所述识别概率是否大于概率阈值的步骤,包括:
判断所述识别概率是否为异常概率;
若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
判断所述修正概率是否大于概率阈值;
若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
4.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:
将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;
将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:
Figure FDA0002821364060000031
τac(dh)为所述时间差,Ya(k)、Yc(k)均为复数形式的目标人语音相位谱,dh为所述方向向量,Racac(dh)]为所述广义互相关函数,K为预设的FFT点数,Ω为角频率,表征与K相关的变量;
将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:
Figure FDA0002821364060000032
F(dh)为所述可控响应功率,C为麦克风通道数。
5.根据权利要求4所述的特定人声的声源定位方法,其特征在于,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:
将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:
Figure FDA0002821364060000033
ra为第a个麦克风在所述空间直角坐标系中的坐标向量,rc为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。
6.一种特定人声的声源定位装置,其特征在于,包括:
获取模块,用于获取多通道音频;
判断模块,用于判断所述多通道音频中是否存在目标人语音;
处理模块,用于若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
计算模块,用于分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
搜索模块,用于对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息;
所述处理模块,包括:
变换子模块,用于对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
第二处理子模块,用于将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱;
所述计算模块,包括:
构建子模块,用于以麦克风阵列的几何中心为原点构建空间直角坐标系;
选取子模块,用于按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
计算子模块,用于根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;
转化子模块,用于将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;
生成子模块,用于根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011008660.6A 2020-09-23 2020-09-23 特定人声的声源定位方法、装置和计算机设备 Active CN111929645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011008660.6A CN111929645B (zh) 2020-09-23 2020-09-23 特定人声的声源定位方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011008660.6A CN111929645B (zh) 2020-09-23 2020-09-23 特定人声的声源定位方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111929645A CN111929645A (zh) 2020-11-13
CN111929645B true CN111929645B (zh) 2021-01-26

Family

ID=73334050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011008660.6A Active CN111929645B (zh) 2020-09-23 2020-09-23 特定人声的声源定位方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111929645B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN114355289B (zh) * 2022-03-19 2022-06-10 深圳市烽火宏声科技有限公司 声源定位方法、装置、存储介质及计算机设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142492B (zh) * 2014-07-29 2017-04-05 佛山科学技术学院 一种srp‑phat多源空间定位方法
CN105044675B (zh) * 2015-07-16 2017-09-08 南京航空航天大学 一种srp声源定位的快速实现方法
CN106093864B (zh) * 2016-06-03 2018-04-17 清华大学 一种麦克风阵列声源空间实时定位方法
CN107621625B (zh) * 2017-06-23 2020-07-17 桂林电子科技大学 基于双微麦克风阵的声源定位方法
CN109239667A (zh) * 2018-10-26 2019-01-18 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的声源定位方法
CN109709517B (zh) * 2018-12-10 2022-08-16 东南大学 基于模拟退火算法的srp-phat声源定位网格搜索方法
CN110133572B (zh) * 2019-05-21 2022-08-26 南京工程学院 一种基于Gammatone滤波器和直方图的多声源定位方法
US10670694B1 (en) * 2019-07-26 2020-06-02 Avelabs America, Llc System and method for hybrid-weighted, multi-gridded acoustic source location
CN110544490B (zh) * 2019-07-30 2022-04-05 南京工程学院 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN110596643A (zh) * 2019-08-12 2019-12-20 杭州电子科技大学 一种多声音阵列移动目标检测定位方法
CN110488225B (zh) * 2019-10-17 2020-02-07 南京雷鲨信息科技有限公司 声音方位的指示方法、装置、可读存储介质及移动终端
CN110764053B (zh) * 2019-10-22 2021-08-17 浙江大学 一种基于水下传感器网络的多目标被动定位方法
CN111474521B (zh) * 2020-04-09 2022-06-28 南京理工大学 多径环境中基于麦克风阵列的声源定位方法
CN111624553B (zh) * 2020-05-26 2023-07-07 锐迪科微电子科技(上海)有限公司 声源定位方法及系统、电子设备及存储介质
CN111489753B (zh) * 2020-06-24 2020-11-03 深圳市友杰智新科技有限公司 抗噪声的声源定位方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111929645A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
EP3791390B1 (en) Voice identification enrollment
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
CN112088402B (zh) 用于说话者识别的联合神经网络
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
CN111929645B (zh) 特定人声的声源定位方法、装置和计算机设备
CN111048113B (zh) 声音方向定位处理方法、装置、系统、计算机设备及存储介质
JP2020515905A (ja) 話者の確認方法及び話者の確認装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US11869481B2 (en) Speech signal recognition method and device
CN111079791A (zh) 人脸识别方法、设备及计算机可读存储介质
CN108922544A (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110837758B (zh) 一种关键词输入方法、装置及电子设备
CN115116448B (zh) 语音提取方法、神经网络模型训练方法、装置及存储介质
Luo et al. Implicit filter-and-sum network for multi-channel speech separation
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
JP6606784B2 (ja) 音声処理装置および音声処理方法
JP6540742B2 (ja) 物体認識装置および物体認識方法
CN117198311A (zh) 一种基于语音降噪的声控方法及装置
CN112002307A (zh) 一种语音识别方法和装置
Mariotte et al. Channel-combination algorithms for robust distant voice activity and overlapped speech detection
Maruri et al. Gcc-phat cross-correlation audio features for simultaneous sound event localization and detection (seld) on multiple rooms
CN113707149A (zh) 音频处理方法和装置
Fu et al. MIMO-DBnet: Multi-channel input and multiple outputs DOA-aware beamforming network for speech separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method, device, and computer equipment for locating the sound source of specific human voices

Granted publication date: 20210126

Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd.

Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd.

Registration number: Y2024980029366