CN112951261A - 声源定位方法、装置及语音设备 - Google Patents

声源定位方法、装置及语音设备 Download PDF

Info

Publication number
CN112951261A
CN112951261A CN202110230974.9A CN202110230974A CN112951261A CN 112951261 A CN112951261 A CN 112951261A CN 202110230974 A CN202110230974 A CN 202110230974A CN 112951261 A CN112951261 A CN 112951261A
Authority
CN
China
Prior art keywords
microphone
signal
voice
sub
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110230974.9A
Other languages
English (en)
Other versions
CN112951261B (zh
Inventor
陈孝良
冯大航
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202110230974.9A priority Critical patent/CN112951261B/zh
Publication of CN112951261A publication Critical patent/CN112951261A/zh
Application granted granted Critical
Publication of CN112951261B publication Critical patent/CN112951261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供一种声源定位方法、装置及语音设备,该方法包括:在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。本申请实施例通过将语音设备中的麦克风阵列划分多个子阵来构成多个信号通道,依据多通道的语音增强信号对用户输入的语音信号进行声源定位,可提高对声源信号的分辨能力,提高声源定位效果。

Description

声源定位方法、装置及语音设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种声源定位方法、装置及语音设备。
背景技术
近年来,语音设备应用越来越广泛,例如智能音箱、电视机顶盒等。这些设备的语音交互多数采用“唤醒+识别”的工作方式,在交互开始前设备处于唤醒监听状态,当用户说出唤醒词并且被设备检测到之后,设备才开始对用户的语音进行识别处理。
为了提高实际使用环境中的语音识别效果,语音设备一般采用麦克风阵列来增强语音。通常做法是对唤醒阶段的音频信号做声源定位,确定发声方向,然后再通过波束形成的技术来增强发声方向的语音。因此,声源定位的准确与否会直接影响到语音识别的效果。
相关技术中,一种唤醒词声源定位处理方法是多声源定位方法,而常见多声源定位做法有类似空间谱估计的方法,主要采用波束形成、广义互相关的方式计算空间谱或者伪谱,然后搜索空间谱或伪谱的峰值方向,作为定位的声源方向。然而不论是波束形成还是广义互相关,其分辨能力均受限于麦克风个数和阵列尺寸,当不同声源方向相隔较近时,算法将无法区分;特别是对于语音设备而言,一般采用的阵列尺寸都不会很大,麦克风个数也不会很多,所以其空间分辨能力很有限。
可见,相关技术中的声源定位方法存在定位效果较差的问题。
发明内容
本申请实施例提供一种声源定位方法、装置及语音设备,以解决相关技术中的声源定位方法存在定位效果较差的问题。
为解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种声源定位方法,应用于语音设备,语音设备包括麦克风阵列,所述方法包括:
在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;
依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。
可选的,所述对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,包括:
按照第一方式确定K个子阵中第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,并将第1个麦克风至第M个麦克风的语音增强信号之和确定为第k个子阵的语音增强信号,其中,k为1至K之间的任意整数;
其中,第一方式为:确定第k个子阵中第m个麦克风接收到的声音信号,m为1至M之间的任意整数;确定第m个麦克风的目标滤波器参数;使用第m个麦克风的目标滤波器参数对第m个麦克风接收到的声音信号进行滤波处理,得到第m个麦克风的语音增强信号。
可选的,所述确定第k个子阵中第m个麦克风接收到的声音信号,包括:
依据第m个麦克风在第k个子阵中的相对位置、第k个子阵的位置和接收到的用户输入的语音信号,确定第m个麦克风接收到的声源信号;
依据声源信号和第m个麦克风接收到的噪声信号,确定第m个麦克风接收到的声音信号。
可选的,所述确定第m个麦克风的目标滤波器参数,包括:
将目标麦克风接收到的历史声音信号和其他麦克风接收到的声音信号,作为目标麦克风接收到的声音信号的噪声参考信号,其中,目标麦克风为第k个子阵中的任一麦克风,其他麦克风为第k个子阵中除目标麦克风外的麦克风;
通过对噪声参考信号进行自适应滤波处理,确定第k个子阵的滤波输出信号;
通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数;
依据第m个麦克风的滤波器估计参数和预设延迟参数,确定第m个麦克风的目标滤波器参数。
可选的,滤波输出信号等于目标麦克风接收到的声音信号减去滤波信号的差值,滤波信号等于第一信号与第二信号之和,其中,第一信号为使用目标麦克风的滤波器估计参数对目标麦克风接收到的历史声音信号进行滤波处理后的信号,第二信号为使用其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理后的信号。
可选的,所述通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数,包括:
确定第1个子阵至第K个子阵的滤波输出信号之和;
通过最小化滤波输出信号之和,确定第m个麦克风的滤波器估计参数。
可选的,用户输入的语音信号为语音唤醒信号,预设延迟参数基于预设语音唤醒信号的时长确定。
第二方面,本申请实施例提供一种声源定位装置,应用于语音设备,语音设备包括麦克风阵列,声源定位装置包括:
语音处理模块,用于在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;
声源定位模块,用于依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。
可选的,语音处理模块用于按照第一方式确定K个子阵中第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,并将第1个麦克风至第M个麦克风的语音增强信号之和确定为第k个子阵的语音增强信号,其中,k为1至K之间的任意整数;
其中,第一方式为:确定第k个子阵中第m个麦克风接收到的声音信号,m为1至M之间的任意整数;确定第m个麦克风的目标滤波器参数;使用第m个麦克风的目标滤波器参数对第m个麦克风接收到的声音信号进行滤波处理,得到第m个麦克风的语音增强信号。
可选的,语音处理模块包括:
第一确定单元,用于依据第m个麦克风在第k个子阵中的相对位置、第k个子阵的位置和接收到的用户输入的语音信号,确定第m个麦克风接收到的声源信号;
第二确定单元,用于依据声源信号和第m个麦克风接收到的噪声信号,确定第m个麦克风接收到的声音信号。
可选的,语音处理模块包括:
处理单元,用于将目标麦克风接收到的历史声音信号和其他麦克风接收到的声音信号,作为目标麦克风接收到的声音信号的噪声参考信号,其中,目标麦克风为第k个子阵中的任一麦克风,其他麦克风为第k个子阵中除目标麦克风外的麦克风;
第三确定单元,用于通过对噪声参考信号进行自适应滤波处理,确定第k个子阵的滤波输出信号;
第四确定单元,用于通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数;
第五确定单元,用于依据第m个麦克风的滤波器估计参数和预设延迟参数,确定第m个麦克风的目标滤波器参数。
可选的,滤波输出信号等于目标麦克风接收到的声音信号减去滤波信号的差值,滤波信号等于第一信号与第二信号之和,其中,第一信号为使用目标麦克风的滤波器估计参数对目标麦克风接收到的历史声音信号进行滤波处理后的信号,第二信号为使用其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理后的信号。
可选的,第四确定单元用于确定第1个子阵至第K个子阵的滤波输出信号之和,并通过最小化滤波输出信号之和,确定第m个麦克风的滤波器估计参数。
可选的,用户输入的语音信号为语音唤醒信号,预设延迟参数基于预设语音唤醒信号的时长确定。
第三方面,本申请实施例提供一种语音设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述声源定位方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述声源定位方法中的步骤。
本申请实施例通过将语音设备中的麦克风阵列划分多个子阵来构成多个信号通道,依据多通道的语音增强信号对用户输入的语音信号进行声源定位,可提高对声源信号的分辨能力,提高声源定位效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种声源定位方法的流程图;
图2a是本申请实施例提供的一种特定阵型的麦克风阵列的结构示意图之一;
图2b是本申请实施例提供的一种特定阵型的麦克风阵列的结构示意图之二;
图2c是本申请实施例提供的一种特定阵型的麦克风阵列的结构示意图之三;
图3是本申请实施例提供的一种声源定位装置的结构示意图;
图4是本申请实施例提供的一种语音设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的一种声源定位方法的流程图,应用于语音设备,语音设备包括麦克风阵列,如图1所示,所述方法包括以下步骤:
步骤101、在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数。
本申请实施例中,上述语音设备中设置有麦克风阵列,且麦克风阵列可以具有特定阵型,能够被划分为多个结构相同的子阵,每个子阵中包括多个麦克风,也就是说,麦克风阵列的阵型结构能够满足:可划分出至少两个相同的子阵,且子阵之间都具有平移不变性,平移不变性可以理解为划分后的任一子阵通过平移后能够与另一子阵的各麦克风重叠。这类麦克风阵列可包括但不限于:均匀线阵、均匀矩形阵、阶梯型阵列等。为了清楚这类麦克风阵列的阵型特征,图2a、图2b和图2c示出了几种不同阵型的能够被划分为多个相同子阵的麦克风阵列结构,分别为6麦均匀线阵、3×5矩形阵列和6麦阶梯型阵列,其中,图中mic1、mic2、mic3……等表示麦克风序号。
另外,对于同一阵列,可以有多种不同的子阵划分方式,例如,对于6麦均匀线阵,至少有如下几种子阵划分方式:
方式1:子阵1{mic1,mic2}、子阵2{mic2,mic3}、子阵3{mic3,mic4}、子阵4{mic4,mic5}和子阵5{mic5,mic6};
方式2:子阵1{mic1,mic2,mic3}、子阵2{mic2,mic3,mic4}、子阵3{mic3,mic4,mic5}和子阵4{mic4,mic5,mic6};
方式3:子阵1{mic1,mic2,mic4}、子阵2{mic2,mic3,mic5}和子阵3{mic3,mic4,mic6};
方式4:子阵1{mic1,mic2,mic3,mic4}、子阵2{mic2,mic3,mic4,mic5}和子阵3{mic3,mic4,mic5,mic6};
方式5:子阵1{mic1,mic2,mic3,mic4,mic5}和子阵2{mic2,mic3,mic4,mic5,mic6}。
本申请实施例中,为保证能够获得较好的声源定位效果,可以通过预先对语音设备进行调试后,选定一种定位效果最佳的子阵划分方式,或者,也可以根据实际使用需求,凭经验设定一种较合适的子阵划分方式,选定或设定的子阵划分方式即为预设划分方式。因此在具体实施中,可将麦克风阵列按预设划分方式划分成多个结构相同的子阵,其中每个子阵均包括多个麦克风,划分后的子阵数量可记为K,每个子阵的麦克风数量可记为M,K和M均为大于或等于2的整数。例如,对于上述6麦均匀线阵的第2种子阵划分方式,K=4,M=3,第2个子阵的第3个麦克风为mic4。
这样,通过将麦克风阵列划分为K个结构相同的子阵,可保证各子阵接收到的声音信号能够采用相同的声源传递模型表示,进而定位处声源方向。
上述用户输入的语音信号,可以是指用户发出的唤醒语音或语音指令等语音信号,也即需要定位的声源信号,上述接收到用户输入的语音信号的情况,可以是通过麦克风阵列监听并检测到了用户输入的语音信号。
上述K个子阵中每个子阵接收到的声音信号,可以是指在接收到用户输入的语音信号时,划分后的K个子阵中每个子阵所接收到的声音信号。
该步骤中,可以对每个子阵接收到的声音信号分别进行语音增强处理,具体地,可以针对每个子阵,采用相同的滤波器也即相同的语音增强滤波器系数对每个子阵接收到的声音信号进行滤波降噪处理,得到各子阵的语音增强信号,其中,每个子阵中各麦克风所采用的语音增强滤波器系数可以不同,但各子阵中相同位置的麦克风所采用的语音增强滤波器系数相同。例如,对于图2a所示的6麦均匀线阵,以子阵划分方式3为例,子阵1{mic1,mic2,mic4}、子阵2{mic2,mic3,mic5}和子阵3{mic3,mic4,mic6}可以采用相同的语音增强滤波器,这三个子阵中任一子阵的三个麦克风所采用的语音增强滤波器系数不同,但子阵1中的mic1、子阵2中的mic2和子阵3中的mic3采用的语音增强滤波器系数相同,子阵1中的mic2、子阵2中的mic3和子阵3中的mic4采用的语音增强滤波器系数相同,子阵1中的mic4、子阵2中的mic5和子阵3中的mic6采用的语音增强滤波器系数相同。
需说明的是,上述每个子阵中各麦克风所采用的语音增强滤波器系数可以通过语音增强算法确定。
可选的,所述对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,包括:
按照第一方式确定K个子阵中第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,并将第1个麦克风至第M个麦克风的语音增强信号之和确定为第k个子阵的语音增强信号,其中,k为1至K之间的任意整数;
其中,第一方式为:确定第k个子阵中第m个麦克风接收到的声音信号,m为1至M之间的任意整数;确定第m个麦克风的目标滤波器参数;使用第m个麦克风的目标滤波器参数对第m个麦克风接收到的声音信号进行滤波处理,得到第m个麦克风的语音增强信号。
也就是说,任一子阵中任一麦克风均可以采用相同的方式来进行语音增强处理,得到各自的语音增强信号,且各子阵也可以采用相同的方式确定各自的语音增强信号。
具体地,对于K个子阵中第k个子阵的第m个麦克风,可以先确定第m个麦克风接收到的声音信号。例如,第k个子阵中第m个麦克风接收到的声音信号可记为x(k,m)(n),k=1,2,3…,K,m=1,2,3,…,M,n为采样点序号,其时频域信号记为X(k,m)(f,t),f为频率序号,t为帧序号。该时频域信号X(k,m)(f,t)与声源信号的方向θ、声源信号本身大小、第m个麦克风在第k个子阵中的位置和第k个子阵的位置、背景噪声等相关,具体可以根据声音传播的原理和麦克风阵列原理,构建出合适的声源传递模型,来表示第k个子阵中第m个麦克风的时频域声音信号X(k,m)(f,t)与这些参数之间的关系。
也就是说,所述确定第k个子阵中第m个麦克风接收到的声音信号,可以包括:
依据第m个麦克风在第k个子阵中的相对位置、第k个子阵的位置和接收到的用户输入的语音信号,确定第m个麦克风接收到的声源信号;
依据声源信号和第m个麦克风接收到的噪声信号,确定第m个麦克风接收到的声音信号。
具体地,可基于远场声源假设,对于方向为θ的声源信号,K个子阵中第k个子阵的第m个麦克风接收到的声源信号可以表示为:S(k,m)(f,t)=A(m)(f,θ)B(k)(f,θ)S(f,t),其中,S(k,m)(f,t)为第k个子阵中第m个麦克风接收到的声源信号,A(m)(f,θ)B(k)为依赖于频域f、声源方向θ和麦克风在子阵中的相对位置的函数,而B(k)(f,θ)为依赖于频域f、声源方向θ和子阵位置的函数。因此,A(m)(f,θ)对每个子阵都是相同的,B(k)(f,θ)对每个麦克风都是相同的,S(f,t)表示声源信号本身,与子阵和麦克风均不相关。其中,需说明的是,每个子阵的位置可以用子阵中第1个麦克风的位置表示,麦克风在子阵中的相对位置可用麦克风的绝对位置减去该子阵中第1个麦克风的绝对位置表示;声源方向θ是未知参数,是最终需要求解的声源定位结果。
这样,基于上述定义,第k个子阵中第m个麦克风接收到的声音信号可以表示为X(k ,m)(f,t)=S(k,m)(f,t)+V(k,m)(f,t),其中,X(k,m)(f,t)为第k个子阵中第m个麦克风接收到的声音信号,V(k,m)(f,t)表示声源信号之外的其他成分,包括噪声、混响和回声等。
为对第k个子阵中第m个麦克风接收到的声音信号进行语音增强处理,可以先确定第m个麦克风的目标滤波器参数,包括语音增强滤波器系数和滤波器使用的信号帧数,其中语音增强滤波器系数可以采用语音增强算法来确定,滤波器使用的信号帧数可以根据需要预先设定;再使用第m个麦克风的目标滤波器参数对第m个麦克风接收到的声音信号进行滤波处理,去除声源信号之外的其他成分V(k,m)(f,t),便可得到第m个麦克风的语音增强信号,例如,第m个麦克风的语音增强滤波器系数可以表示为G(m)(f,t,τ),则第m个麦克风接收到的声音信号经滤波处理后得到的语音增强信号为
Figure BDA0002958047330000091
其中,T为滤波器使用的信号帧数。
这样,通过将m分别取值1至M,便可按照上述方式分别确定第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,再将第1个麦克风至第M个麦克风的语音增强信号相加,便可得到第k个子阵的语音增强信号,也即
Figure BDA0002958047330000092
其中,Y(k)(f,t)为第k个子阵的语音增强信号。且对于K个子阵,均可以采用相类似的方式来得到各子阵的语音增强信号。
进一步地,依据第m个麦克风接收到的声音信号的表达式X(k,m)(f,t)=S(k,m)(f,t)+V(k,m)(f,t),S(k,m)(f,t)=A(m)(f,θ)B(k)(f,θ)S(f,t),第k个子阵的语音增强信号的信号成分可以表示为:
Figure BDA0002958047330000101
其中,
Figure BDA0002958047330000102
该项是与声源信号和子阵无关的,主要依赖于声源信号方向θ和语音增强滤波器系数G(m)(f,t,τ),
Figure BDA0002958047330000103
该项主要与信号的历史值有关,可以当作混响看待。
由上述Y(k)(f,t)的表达式可见,Y(k)(f,t)与S(f,t)的关系类似于普通阵列中麦克风数据与声源信号的关系,B(k)(f,θ)可以看作是阵列响应,Q(f,t)可以认为是随机增益(每个子阵构成的信号通道均相同),R(f,t)可看作是残留混响成分。因此可以采用一些声源定位算法,以Y(k)(f,t)作为算法输入,计算得到声源定位结果。且由于Y(k)(f,t)的信噪比高于X(k,m)(f,t)的信噪比,因此可以得到更好的定位效果。
这样,可按照上述方式来分别对K个子阵接收到的声音信号进行增强处理,且能保证一定的语音增强效果。
可选的,所述确定第m个麦克风的目标滤波器参数,包括:
将目标麦克风接收到的历史声音信号和其他麦克风接收到的声音信号,作为目标麦克风接收到的声音信号的噪声参考信号,其中,目标麦克风为第k个子阵中的任一麦克风,其他麦克风为第k个子阵中除目标麦克风外的麦克风;
通过对噪声参考信号进行自适应滤波处理,确定第k个子阵的滤波输出信号;
通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数;
依据第m个麦克风的滤波器估计参数和预设延迟参数,确定第m个麦克风的目标滤波器参数。
即一种实施方式中,为确定语音增强滤波器系数,可以对每个子阵,选择一个目标麦克风作为语音增强的对象,例如,可不妨取每个子阵中的第1个麦克风作为语音增强对象,用该子阵中其他麦克风接收到的声音信号以及第1个麦克风接收到的历史声音信号作为噪声参考信号,采用自适应滤波器的方式消除第1个麦克风接收到的声音信号中的噪声成分,进而得到该子阵的滤波输出信号,其中,其他麦克风接收到的声音信号可包括其他麦克风接收到的历史声音信号和当前接收到的声音信号。需说明的是,目标麦克风和第m个麦克风在第k个子阵中可以是相同的麦克风,也可以是不同的麦克风。
可选的,滤波输出信号等于目标麦克风接收到的声音信号减去滤波信号的差值,滤波信号等于第一信号与第二信号之和,其中,第一信号为使用目标麦克风的滤波器估计参数对目标麦克风接收到的历史声音信号进行滤波处理后的信号,第二信号为使用其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理后的信号。
也就是说,上述对噪声参考信号分别进行自适应滤波处理,具体可以是使用第k个子阵的目标麦克风如第1个麦克风的滤波器估计参数对目标麦克风接收到的历史声音信号进行滤波处理,得到第一信号,分别使用其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理,得到第二信号,也就是说,第二信号为其他麦克风中每个麦克风所接收到的声音信号在经滤波处理后的信号之和。这样,第一信号和第二信号便为滤波信号,从而目标麦克风接收到的声音信号减去第一信号与第二信号之和后得到的差值便为第k个子阵的滤波输出信号。
这样,以第1个麦克风为目标麦克风为例,第k个子阵的滤波输出信号可表示为
Figure BDA0002958047330000111
Figure BDA0002958047330000112
其中,Z(k)(f,t)为第k个子阵的滤波输出信号,X(k,1)(f,t)为第1个麦克风接收到的声音信号,W(m)(f,t,τ)为第k个子阵中第m个麦克风当前帧的滤波器估计参数,
Figure BDA0002958047330000113
为第一信号,
Figure BDA0002958047330000114
为第二信号。其中滤波器估计参数W(m)(f,t,τ)可以通过最小化滤波输出信号来确定,具体地,可以采用最小化滤波输出信号的加权范数来估计得到滤波器估计参数。
可选的,所述通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数,包括:
确定第1个子阵至第K个子阵的滤波输出信号之和;
通过最小化滤波输出信号之和,确定第m个麦克风的滤波器估计参数。
即可以将k分别取1至K的值,按照上述方式,分别确定第1个子阵至第K个子阵的滤波输出信号,从而可得到第1个子阵至第K个子阵的滤波输出信号之和,也即麦克风阵列总的滤波输出信号,且可以通过最小化滤波输出信号之和,确定第m个麦克风的滤波器估计参数。例如,可以采用最小化滤波输出信号之和的加权范数来估计得到滤波器估数,也即
Figure BDA0002958047330000121
Figure BDA0002958047330000122
其中,β(k)(f,t)为加权系数,α为范数参数,例如,可取α=2即为最小化加权功率,且计算中可以采用归一化最小均方自适应滤波器(Normalized Least Mean Square Adaptive Filter,NMLS)、递归最小二乘(Recursive least squares,RLS)等自适应滤波器算法。
这样,可以从整体上为每个麦克风确定更为匹配的滤波器估计参数,进而提高语音增强效果。
在确定各子阵中每个麦克风的滤波器估计参数之后,可以结合预设延迟参数,来确定每个麦克风的目标滤波器参数,也就是说,可以采用延迟的滤波器参数来对子阵中各麦克风接收到的声音信号进行语音增强处理,以防止自适应滤波器将用户输入的目标语音信号(如语音唤醒信号)消除掉。即对于第k个子阵中的第m个麦克风,可以依据前述确定的第m个麦克风的滤波器估计参数和预设延迟参数,确定第m个麦克风的目标滤波器参数,其中,预设延迟参数可以根据实际应用需求预先设定的延迟参数,如可以是延迟的滤波器信号帧数。
例如,可以取G(m)(f,t,τ)=W(m)(f,t-Δ,τ),G(1)(f,t,0)可以取1,其中Δ为延迟帧数。当唤醒词持续的时间不超过Δ帧时,假设在t帧唤醒,则Δ帧之前用户还没开始发出语音信号,因此求解目标滤波器参数的表达式中不会包含用户的目标语音信号,对用户发出的目标语音信号的消除程度一般较低,对于声源定位的计算可以忽略。
可选的,用户输入的语音信号为语音唤醒信号,预设延迟参数基于预设语音唤醒信号的时长确定。
即一种应用场景中,用户输入的语音信号可以为语音唤醒信号,且可以唤醒词的短持续时间的特点,设定合适的延迟参数,例如,唤醒词的长度通常为100帧左右,则可以预先设定延迟参数为110帧。
这样,可将本申请实施例应用于对语音设备的唤醒场景中,且可以提高声源定位的准确性,进而提升语音设备的语音识别效果。
步骤102、依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。
本申请实施例中,可将单个子阵的语音增强信号看作是单个麦克风的录音信号,多个子阵的语音增强信号也就构成了多通道阵列信号,这样,在得到K个子阵中每个子阵的语音增强信号后,可以采用声源定位算法,如基于到达时间差(Time Difference ofArrival,TDOA)的算法、基于波束形成的算法、子空间类算法等,以每个子阵的语音增强信号作为算法输入信号,计算得到对用户输入的语音信号的声源定位结果。
本申请实施例中,上述语音设备可以是任何具有语音识别功能和存储媒介的设备,例如:智能音箱、智能监控设备、智能家电等语音设备。
本实施例中的声源定位方法,语音设备包括麦克风阵列,在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。这样,通过将语音设备中的麦克风阵列划分多个子阵来构成多个信号通道,依据多通道的语音增强信号对用户输入的语音信号进行声源定位,可提高对声源信号的分辨能力,提高声源定位效果。
参见图3,图3是本申请实施例提供的一种声源定位装置的结构示意图,应用于语音设备,如图3所示,声源定位装置300包括:
语音处理模块301,用于在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;
声源定位模块302,用于依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。
可选的,语音处理模块301用于按照第一方式确定K个子阵中第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,并将第1个麦克风至第M个麦克风的语音增强信号之和确定为第k个子阵的语音增强信号,其中,k为1至K之间的任意整数;
其中,第一方式为:确定第k个子阵中第m个麦克风接收到的声音信号,m为1至M之间的任意整数;确定第m个麦克风的目标滤波器参数;使用第m个麦克风的目标滤波器参数对第m个麦克风接收到的声音信号进行滤波处理,得到第m个麦克风的语音增强信号。
可选的,语音处理模块301包括:
第一确定单元,用于依据第m个麦克风在第k个子阵中的相对位置、第k个子阵的位置和接收到的用户输入的语音信号,确定第m个麦克风接收到的声源信号;
第二确定单元,用于依据声源信号和第m个麦克风接收到的噪声信号,确定第m个麦克风接收到的声音信号。
可选的,语音处理模块301包括:
处理单元,用于将目标麦克风接收到的历史声音信号和其他麦克风接收到的声音信号,作为目标麦克风接收到的声音信号的噪声参考信号,其中,目标麦克风为第k个子阵中的任一麦克风,其他麦克风为第k个子阵中除目标麦克风外的麦克风;
第三确定单元,用于通过对噪声参考信号进行自适应滤波处理,确定第k个子阵的滤波输出信号;
第四确定单元,用于通过最小化滤波输出信号,确定第m个麦克风的滤波器估计参数;
第五确定单元,用于依据第m个麦克风的滤波器估计参数和预设延迟参数,确定第m个麦克风的目标滤波器参数。
可选的,滤波输出信号等于目标麦克风接收到的声音信号减去滤波信号的差值,滤波信号等于第一信号与第二信号之和,其中,第一信号为使用目标麦克风的滤波器估计参数对目标麦克风接收到的历史声音信号进行滤波处理后的信号,第二信号为使用其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理后的信号。
可选的,第四确定单元用于确定第1个子阵至第K个子阵的滤波输出信号之和,并通过最小化滤波输出信号之和,确定第m个麦克风的滤波器估计参数。
可选的,用户输入的语音信号为语音唤醒信号,预设延迟参数基于预设语音唤醒信号的时长确定。
声源定位装置300能够实现图1的方法实施例中的各个过程,为避免重复,这里不再赘述。本申请实施例的声源定位装置300应用于语音设备,语音设备包括麦克风阵列,声源定位装置300可以在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到每个子阵的语音增强信号,其中,K个子阵为麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;依据每个子阵的语音增强信号,对用户输入的语音信号进行声源定位。这样,通过将语音设备中的麦克风阵列划分多个子阵来构成多个信号通道,依据多通道的语音增强信号对用户输入的语音信号进行声源定位,可提高对声源信号的分辨能力,提高声源定位效果。
如图4所示,本申请实施例还提供一种语音设备400,包括处理器401,存储器402,存储在存储器402上并可在处理器401上运行的计算机程序,该计算机程序被处理器401执行时实现上述声源定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述声源定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种声源定位方法,应用于语音设备,其特征在于,所述语音设备包括麦克风阵列,所述方法包括:
在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到所述每个子阵的语音增强信号,其中,所述K个子阵为所述麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;
依据所述每个子阵的语音增强信号,对所述用户输入的语音信号进行声源定位。
2.根据权利要求1所述的方法,其特征在于,所述对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到所述每个子阵的语音增强信号,包括:
按照第一方式确定所述K个子阵中第k个子阵的第1个麦克风至第M个麦克风的语音增强信号,并将所述第1个麦克风至第M个麦克风的语音增强信号之和确定为所述第k个子阵的语音增强信号,其中,k为1至K之间的任意整数;
其中,所述第一方式为:确定所述第k个子阵中第m个麦克风接收到的声音信号,m为1至M之间的任意整数;确定所述第m个麦克风的目标滤波器参数;使用所述第m个麦克风的目标滤波器参数对所述第m个麦克风接收到的声音信号进行滤波处理,得到所述第m个麦克风的语音增强信号。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第k个子阵中第m个麦克风接收到的声音信号,包括:
依据所述第m个麦克风在所述第k个子阵中的相对位置、所述第k个子阵的位置和接收到的所述用户输入的语音信号,确定所述第m个麦克风接收到的声源信号;
依据所述声源信号和所述第m个麦克风接收到的噪声信号,确定所述第m个麦克风接收到的声音信号。
4.根据权利要求2所述的方法,其特征在于,所述确定所述第m个麦克风的目标滤波器参数,包括:
将目标麦克风接收到的历史声音信号和其他麦克风接收到的声音信号,作为所述目标麦克风接收到的声音信号的噪声参考信号,其中,所述目标麦克风为所述第k个子阵中的任一麦克风,所述其他麦克风为所述第k个子阵中除所述目标麦克风外的麦克风;
通过对所述噪声参考信号进行自适应滤波处理,确定所述第k个子阵的滤波输出信号;
通过最小化所述滤波输出信号,确定所述第m个麦克风的滤波器估计参数;
依据所述第m个麦克风的滤波器估计参数和预设延迟参数,确定所述第m个麦克风的目标滤波器参数。
5.根据权利要求4所述的方法,其特征在于,所述滤波输出信号等于所述目标麦克风接收到的声音信号减去滤波信号的差值,所述滤波信号等于第一信号与第二信号之和,其中,所述第一信号为使用所述目标麦克风的滤波器估计参数对所述目标麦克风接收到的历史声音信号进行滤波处理后的信号,所述第二信号为使用所述其他麦克风的滤波器估计参数对对应麦克风接收到的声音信号进行滤波处理后的信号。
6.根据权利要求4所述的方法,其特征在于,所述通过最小化所述滤波输出信号,确定所述第m个麦克风的滤波器估计参数,包括:
确定第1个子阵至第K个子阵的滤波输出信号之和;
通过最小化所述滤波输出信号之和,确定所述第m个麦克风的滤波器估计参数。
7.根据权利要求4所述的方法,其特征在于,所述用户输入的语音信号为语音唤醒信号,所述预设延迟参数基于预设语音唤醒信号的时长确定。
8.一种声源定位装置,应用于语音设备,其特征在于,所述语音设备包括麦克风阵列,所述声源定位装置包括:
语音处理模块,用于在接收到用户输入的语音信号的情况下,对K个子阵中每个子阵接收到的声音信号分别进行语音增强处理,得到所述每个子阵的语音增强信号,其中,所述K个子阵为所述麦克风阵列按预设划分方式划分得到的K个结构相同的子阵,每个子阵的麦克风数量为M,K和M均为大于或等于2的整数;
声源定位模块,用于依据所述每个子阵的语音增强信号,对所述用户输入的语音信号进行声源定位。
9.一种语音设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的声源定位方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的声源定位方法中的步骤。
CN202110230974.9A 2021-03-02 2021-03-02 声源定位方法、装置及语音设备 Active CN112951261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110230974.9A CN112951261B (zh) 2021-03-02 2021-03-02 声源定位方法、装置及语音设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110230974.9A CN112951261B (zh) 2021-03-02 2021-03-02 声源定位方法、装置及语音设备

Publications (2)

Publication Number Publication Date
CN112951261A true CN112951261A (zh) 2021-06-11
CN112951261B CN112951261B (zh) 2022-07-01

Family

ID=76247210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110230974.9A Active CN112951261B (zh) 2021-03-02 2021-03-02 声源定位方法、装置及语音设备

Country Status (1)

Country Link
CN (1) CN112951261B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393853A (zh) * 2021-04-29 2021-09-14 青岛海尔科技有限公司 混合声信号的处理方法及装置、存储介质及电子装置
CN114173273A (zh) * 2021-12-27 2022-03-11 科大讯飞股份有限公司 麦克风阵列检测方法、相关设备及可读存储介质
CN115223548A (zh) * 2021-06-29 2022-10-21 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241426A1 (en) * 2009-03-23 2010-09-23 Vimicro Electronics Corporation Method and system for noise reduction
CN110364176A (zh) * 2019-08-21 2019-10-22 百度在线网络技术(北京)有限公司 语音信号处理方法及装置
WO2020192721A1 (zh) * 2019-03-28 2020-10-01 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN112017681A (zh) * 2020-09-07 2020-12-01 苏州思必驰信息科技有限公司 定向语音的增强方法及系统
CN112216295A (zh) * 2019-06-25 2021-01-12 大众问问(北京)信息科技有限公司 一种声源定位方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241426A1 (en) * 2009-03-23 2010-09-23 Vimicro Electronics Corporation Method and system for noise reduction
WO2020192721A1 (zh) * 2019-03-28 2020-10-01 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN112216295A (zh) * 2019-06-25 2021-01-12 大众问问(北京)信息科技有限公司 一种声源定位方法、装置及设备
CN110364176A (zh) * 2019-08-21 2019-10-22 百度在线网络技术(北京)有限公司 语音信号处理方法及装置
CN112017681A (zh) * 2020-09-07 2020-12-01 苏州思必驰信息科技有限公司 定向语音的增强方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王义圆等: "基于麦克风阵列的语音增强与干扰抑制算法", 《电声技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393853A (zh) * 2021-04-29 2021-09-14 青岛海尔科技有限公司 混合声信号的处理方法及装置、存储介质及电子装置
CN115223548A (zh) * 2021-06-29 2022-10-21 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质
CN115223548B (zh) * 2021-06-29 2023-03-14 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质
CN114173273A (zh) * 2021-12-27 2022-03-11 科大讯飞股份有限公司 麦克风阵列检测方法、相关设备及可读存储介质
CN114173273B (zh) * 2021-12-27 2024-02-13 科大讯飞股份有限公司 麦克风阵列检测方法、相关设备及可读存储介质

Also Published As

Publication number Publication date
CN112951261B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN112951261B (zh) 声源定位方法、装置及语音设备
US10522167B1 (en) Multichannel noise cancellation using deep neural network masking
CN106251877B (zh) 语音声源方向估计方法及装置
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
US10123113B2 (en) Selective audio source enhancement
EP2936830B1 (en) Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
Wang et al. Robust TDOA Estimation Based on Time-Frequency Masking and Deep Neural Networks.
US8958572B1 (en) Adaptive noise cancellation for multi-microphone systems
CN112017681B (zh) 定向语音的增强方法及系统
CN111128210B (zh) 具有声学回声消除的音频信号处理的方法和系统
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
CN110379439B (zh) 一种音频处理的方法以及相关装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US9407990B2 (en) Apparatus for gain calibration of a microphone array and method thereof
CN110456309B (zh) 声源定位方法、装置及计算机可读存储介质
CN110956973A (zh) 一种回声消除方法、装置及智能终端
CN111105811B (zh) 声音信号的处理方法、相关设备及可读存储介质
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN112802490A (zh) 一种基于传声器阵列的波束形成方法和装置
CN110199528A (zh) 远场声音捕获
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
Wang et al. Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech
CN115662394A (zh) 语音提取方法、装置、存储介质及电子装置
Chang et al. Robust distributed noise suppression in acoustic sensor networks
CN113689869B (zh) 语音增强方法、电子设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant