CN110265020B - 语音唤醒方法、装置及电子设备、存储介质 - Google Patents

语音唤醒方法、装置及电子设备、存储介质 Download PDF

Info

Publication number
CN110265020B
CN110265020B CN201910627574.4A CN201910627574A CN110265020B CN 110265020 B CN110265020 B CN 110265020B CN 201910627574 A CN201910627574 A CN 201910627574A CN 110265020 B CN110265020 B CN 110265020B
Authority
CN
China
Prior art keywords
signal
noise ratio
signals
determining
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910627574.4A
Other languages
English (en)
Other versions
CN110265020A (zh
Inventor
段相
张珍斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elevoc Technology Co ltd
Original Assignee
Elevoc Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elevoc Technology Co ltd filed Critical Elevoc Technology Co ltd
Priority to CN201910627574.4A priority Critical patent/CN110265020B/zh
Publication of CN110265020A publication Critical patent/CN110265020A/zh
Priority to PCT/CN2019/114378 priority patent/WO2021008000A1/zh
Application granted granted Critical
Publication of CN110265020B publication Critical patent/CN110265020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开揭示了一种语音唤醒方法、装置及电子设备、存储介质,属于智能语音交互技术领域。所述方法包括:接收麦克风采集的声音信号;将所述声音信号进行固定波束形成,生成多个波束信号;计算各波束信号的信噪比;通过所述信噪比确定唤醒方向;根据所述唤醒方向的声音信号进行语音唤醒操作。上述语音唤醒方法、装置及电子设备、存储介质能够使得系统在低信噪比的环境下也能准确判断出唤醒方向,有效提高了语音唤醒的准确率。

Description

语音唤醒方法、装置及电子设备、存储介质
技术领域
本公开涉及智能语音交互技术领域,特别涉及一种语音唤醒方法、装置及电子设备、存储介质。
背景技术
随着语音技术的发展以及智能交互领域的进步,人类与机器信息交流的需求越来越迫切,人机交互成为当前技术发展的热点。
语音作为人类最自然的交互方式,也成为人们希望能替代鼠标,键盘,及触屏与计算机交流的最重要方式之一。语音唤醒技术成为人机交互过程中一个很重要的功能而受到了越来越多的关注。唤醒率、误唤醒、响应时间和功耗水平是判断语音唤醒技术的四种通用的评价指标。伴随着语音唤醒技术的发展,用户对体验效果的追求越来越高,传统前端语音增强技术与唤醒模型结合成为提高唤醒率的重要方式。目前多麦克风增强技术被广泛利用到前端语音增强,采用多麦技术,输入语音的信噪比会明显增强,从而可以获得更好的识别效果。
在低信噪比下,受到干扰及混响等影响,语音唤醒率较低,为提高唤醒率,除了优化后端唤醒模型,还可利用麦克风技术对声音信号进行预处理。利用多麦克风技术,可以充分利用空间信息从而对语音进行增强,麦克风阵列可以解决房间的声学问题,例如声源定位,跟踪,噪声消除,语音增强,信号源分离,混响抵消。
然而在信噪比较低的情况下,准确地估计波达方向进而对特定方向的增强具有很大挑战,估计不准会对识别率产生较大影响。
发明内容
为了解决相关技术中语音唤醒的准确率不高的技术问题,本发明提供了一种语音唤醒方法、装置及电子设备、存储介质。
第一方面,提供了一种语音唤醒方法,包括:
接收麦克风采集的声音信号;
将所述声音信号进行固定波束形成,生成多个波束信号;
计算各波束信号的信噪比;
通过所述信噪比确定唤醒方向;
根据所述唤醒方向的声音信号进行语音唤醒操作。
可选的,所述计算各波束信号的信噪比的步骤包括:
计算所述波束信号中各频点的点源信号能量及背景噪声能量,所述波束信号包括目标源信号、干扰源信号和背景噪声,点源信号能量包含目标源信号能量和干扰源信号能量;
通过所述波束信号在各频点的点源信号能量与背景噪声能量的比值,计算所述波束信号中各频点的信噪比;
计算所述波束信号中各频点的信噪比的步骤之前,所述方法还包括:
通过平滑因子对所述波束信号中各频点的点源信号能量及背景噪声能量进行平滑处理。
可选的,所述通过信噪比确定唤醒方向的步骤包括:
根据预设帧数内各波束信号的信噪比确定干扰方向;
从所有波束信号中剔除干扰方向所在的波束信号,得到备选波束信号;
根据各个备选波束信号的信噪比,确定其信噪比最大的波束信号方向;
在预设帧数中统计最大信噪比出现次数最多的波束信号方向,将该波束信号所在的方向确定为最优波束信号方向,并将所述最优波束信号方向作为唤醒方向。
可选的,所述根据预设帧数内各个波束信号的信噪比确定干扰方向的步骤包括:
计算当前帧所有波束信号的信噪比的最大值,并且将最大值与预设的信噪比阈值进行比对;
当所有波束信号的信噪比的最大值小于预设的信噪比阈值时,则在最大信噪比波束信号方向上记录该方向的信噪比与第二信噪比之间的差值,其他方向记录的差值为零。若所有波束信号的信噪比的最大值均大于预设的信噪比阈值时,则将所有波束信号方向记录的差值为零。
统计预设帧数内每个波束信号方向上所记录的差值的和;将和大于零且最大的波束信号方向确定为干扰方向。
可选的,根据各备选波束信号的信噪比,确定预设帧数中的最优波束信号方向的步骤包括:
为了保证最优波束信号方向为信号源方向时的输出稳定性,根据各备选波束信号的信噪比进行信号源方向检测,并将满足条件的波束信号方向在预设帧数内设定为最优波束信号方向。
可选的,根据各备选波束信号的信噪比进行信号源方向检测,步骤包括:
将所述备选波束信号的信噪比进行大小排序;
若在预设连续帧数内,备选波束信号中最大信噪比超过一定阈值,且最大信噪比与第二信噪比之间的差值达到预设的差值阈值,且最大信噪比的波束信号方向保持一致,则将最大信噪比所在波束信号方向在一定预设帧数内设定为最优波束信号方向。
可选的,所述根据预设帧数内各波束信号的信噪比确定干扰方向的步骤之后,通过信噪比确定唤醒方向的步骤还包括:
判断目标源信号能量是否超过干扰源信号能量一定阈值,若为是,则将所述干扰方向确定为唤醒方向。
第二方面,提供了一种语音唤醒装置,包括:
声音信号接收模块,用于接收麦克风采集的声音信号;
固定波束形成模块,用于将所述声音信号进行固定波束形成,在不同方向上生成多个波束信号;
信噪比计算模块,用于计算各波束信号的信噪比;
唤醒方向确定模块,用于通过所述信噪比确定唤醒方向;
语音唤醒操作模块,用于根据所述唤醒方向的声音信号进行语音唤醒操作。
第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
第四方面,提供了一种计算机可读存储介质,用于存储程序,所述程序在被执行时使得电子设备执行如第一方面所述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
在接收麦克风采集的声音信号后,将声音信号进行固定波束形成,进而计算各波束信号的信噪比,通过信噪比确定唤醒方向而进行语音唤醒操作,使得系统在低信噪比的环境下也能准确判断出唤醒方向,有效提高了语音唤醒的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅为示例性,并不能限制本发明范围。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。
图2为根据图1对应实施例示出的波束信号方向图。
图3是图1对应实施例的语音唤醒方法中步骤S130的一种具体实现流程图。
图4是根据一示例性实施例的麦克风阵列示意图。
图5是图1对应实施例的语音唤醒方法中步骤S140的一种具体实现流程图。
图6是图5对应实施例的示出的步骤S141的一种具体实现流程图。
图7是图5对应实施例的示出的步骤S143的一种具体实现流程图。
图8是图5对应实施例的语音唤醒方法中步骤S140的另一种具体实现流程图。
图9是根据一示例性实施例示出的一种语音唤醒装置的框图。
图10是根据图9对应实施例示出的语音唤醒装置中信噪比计算模块130的一种框图。
图11是根据图9对应实施例示出的语音唤醒装置中唤醒方向确定模块140的一种框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、与本发明相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。该语音唤醒方法可用于智能手机、电脑等电子设备中。如图1所示,该语音唤醒方法可以包括步骤S110、步骤S120、步骤S130、步骤S140、步骤S150。
步骤S110,接收麦克风采集的声音信号。
对电子设备进行语音唤醒时,电子设备将通过麦克风进行声音信号的采集。
但通过麦克风采集的声音信号不仅包括用于语音唤醒的语音信号,还包含干扰噪声。
因此,通过语音前端增强技术提高语音唤醒率。
可选的,语音信号的采集可通过麦克风阵列进行采集,且麦克风个数为M,则采集麦克风信号为:
X(n)=[x1(n),x2(n),...,xM(n)]T
其中,n代表时刻,T代表转置。
将采集的语音信号利用短时傅里叶变换变为频域信号X(w)=[x1(w),x2(w),...,xM(w)]T,w代表频点。
步骤S120,将所述语音信号进行固定波束形成,生成多个波束信号。
将语音信号进行固定波束形成的方法有多种,例如,可以采用延迟求和波束形成方法和滤波求和波束形成方法。
在一示例性实施例中,波束个数为BN(BN≥M),波束的方向固定且均匀分布(线阵0°~180°,圆阵0°~360°)。波束形成器的系数可利用延迟求和技术和滤波求和技术的实现方式,也可针对不同的频带利用不同的波束形成方法。延迟求和波束形成可以获得较高的白噪声放大增益;在滤波求和波束形成方法中,差分阵列由于其较小的尺寸,以及较好的频不变特性被广泛采用。
针对语音的宽频特性,本实施例设计了一种宽带且增益独立于频带的波束形成器,图2为本实施例示出的波束信号方向图,阵列为圆阵,麦克风个数为4,半径为0.035m,图2(a)为频率角度增益的三维示意图,图2(b)为波束极坐标图。从图2中可以看出本实施例的波束旁瓣衰减约为25dB。经过波束增强后,可以得到BN路波束输出:
Y(w)=[y1(w),y2(w),...,yBN(w)]T,w代表频点。
步骤S130,计算各波束信号的信噪比。
信噪比是声音信号中能量与噪声谱之间的比值。
可选的,如图3所示,步骤S130可以包括步骤S131、步骤S132、步骤S133。
步骤S131,针对每一波束信号,计算所述波束信号中各频点的能量及噪声谱。
步骤S132,通过所述波束信号中各频点的能量及噪声谱,计算所述波束信号中各频点的信噪比。
由于声音信号是由不同频点的信号组成的,相应的各波束信号也包含不同频点的信号,因此为提高语音唤醒率,需计算波束信号中各频点的能量及噪声谱。
可选的,为进一步提高语音唤醒率,在确定干扰方向后,通过各波束信号与干扰方向之间的位置关系,选取相应的平滑因子对波束信号中各频点的能量进行平滑处理。
具体的,在计算波束信号的能量时,需要对计算的能量进行平滑,平滑因子weighti(w)(i=1,2...BN)。平滑因子weighti(w)的大小与干扰方向有关,即波束指向与干扰方向越接近的波束信号所设定的平滑因子越大。例如在图4中干扰方向对应波束信号3的指向,则波束信号2的平滑因子weight2(w)和波束信号4的平滑因子weight4(w)对应的权重大于波束信号1weight1(w)对应的权重。例如,在图3中weight2(w)=weight4(w)≈0.8,weight1(w)=0.6。
对每个频点进行噪声谱估计时,估计方法可采用:MCRA,IMCRA,MARTIN,DOBLINGER,HIRSCH等单通道噪声谱估计方法,也可以采用其它的噪声谱估计方法,在此不对具体的噪声谱估计方法进行一一描述。
步骤S133,根据所述波束信号在预设频带范围内中信噪比的平均值,表示所述波束信号的信噪比。
在本发明的实施例中,预设的频带范围为0-2kHz。在计算出波束信号中各频点的信噪比后,通过计算0-2kHz频带范围内信噪比的平均值,得到该波束信号的信噪比SNRi(i=1,2...BN)。
步骤S140,通过所述信噪比确定唤醒方向。
唤醒方向即为通过本发明确认得到的语音唤醒方向。
本发明通过计算各波束信号的信噪比,进而根据各波束信号的信噪比从多个波束信号中确定唤醒方向,再采用唤醒方向的波束信号对电子设备进行语音唤醒操作。
在所有波束信号中选取最优波束信号方向时,可以是根据某一时间段内平均信噪比最大的波束信号方向确定为最优波束信号方向,也可以是将某一时间段内最大信噪比的帧数最多的波束信号方向确定为最优波束信号方向,还可以是通过其它方式确定最优波束信号方向,在此不进行一一描述。
可选的,如图5所示,步骤S140可包括步骤S141、S142、S143、S144。
步骤S141,根据预设帧数内各波束信号的信噪比确定干扰方向。
干扰方向是对语音信号造成干扰的噪声源相对电子设备的方向。如图2所示,3为干扰源,电子设备位于圆心,干扰源3相对圆心的方向即为干扰方向。
由于干扰源对进行语音唤醒时语音信号的影响较大,干扰源产生的声音信号将对各波束信号造成较大的影响。因此,通过预先确定干扰方向,进而通过其它波束信号方向与干扰源之间的位置关系,对相应的波束信号进行平滑处理,从而有效减小干扰源对语音唤醒的影响,提高语音唤醒的准确率。
根据预设帧数内各波束信号的信噪比确定干扰方向的方式有多种,可以是将在预设帧数内信噪比达到预设信噪比阈值的帧数最多的波束信号所在的方向确定为干扰方向,也可以是将在预设帧数内平均信噪比最大的波束信号所在的方向确定为干扰方向,还可以是通过其它方式确定干扰方向,在此不进行一一描述。
可选的,如图6所示,步骤S141可包括步骤S1411、S1412、S1413。
步骤S1411,计算当前帧所有波束信号的信噪比的最大值,并且将最大值与预设的信噪比阈值进行比对。
步骤S1412,当所有波束信号的信噪比的最大值均小于预设的信噪比阈值时,则在最大信噪比波束信号方向上记录该方向的信噪比与第二信噪比之间的差值,其他方向记录的差值为零。若所有波束信号的信噪比的最大值大于预设的信噪比阈值时,则将所有波束信号方向记录的差值为零。
步骤S1413,统计预设帧数内每个波束信号方向上所记录的差值的和。若和大于零,则将和最大的波束信号方向确定为干扰方向。
具体地,预设帧数为T1,优选地,T1≥2000帧。针对每路波束信号的信噪比SNRi(i=1,2,...,BN),求出所有波束信号方向的最大信噪比MAXSNR,设定阈值ε,若MAXSNR<ε,则认为波束信号为静音段,在最大信噪比波束信号方向上记录该最大信噪比与第二信噪比之间的差值,其他方向记为零。若MAXSNR>ε,则将所有波束信号方向标记位零,最后统计预设帧数T1内每个波束信号方向上所记录的差值的和。若和大于零,则将和最大的波束信号方向确定为干扰方向。实际应用中将根据具体场景选择T1和ε的取值大小,从而更好地提高干扰方向判断的准确性。本发明实施例中T1>2000帧,ε=10dB。
步骤S142,从所有波束信号中剔除所述干扰方向对应的波束信号,得到备选波束信号。
备选波束信号是从所有波束信号中剔除干扰方向对应的波束信号后的波束信号集合。
通常地,通过本发明技术方案确定的干扰方向并非最优波束信号方向,因此,在确定最优波束信号方向时,从所有波束信号中剔除干扰方向对应的波束信号,进而根据备选波束信号的信噪比进一步确定最优波束信号方向,以提高确定最优波束信号方向的准确性。
步骤S143,根据各备选波束信号的信噪比,确定每一帧中信噪比最大的备选波束信号。
为进一步保证最优波束信号方向为信号源方向时的输出稳定性,根据各备选波束信号的信噪比进行信号源方向检测。
具体的,如图7所示,步骤S143还可以包括步骤S1431、步骤S1432、步骤S1433、步骤S1434:
步骤S1431,将所述备选波束信号的信噪比进行大小排序。
步骤S1432,若在预设连续帧数内,备选波束最大信噪比超过阈值,且最大信噪比与第二信噪比之间的差值达到预设的差值阈值,则执行步骤S1433;若为否,则不作处理。
步骤S1433,判断在预设连续帧数内最大信噪比波束信号方向是否保持一致。若为是(Y),则执行步骤S1434;若为否,则不作处理。
步骤S1434,将最大信噪比所在波束信号方向在一定预设帧数内设定为最优波束信号方向。
具体的,将除干扰方向外的备选波束信号的信噪比进行排序,选取最大信噪比方向的波束信号。该波束信号方向在连续N帧内均为最大信噪比,且在连续N帧的时间内其信噪比MAXSNR>δ(预设阈值),并超过第2大信噪比SECSNR一定阈值μ,则认定该MAXSNR的波束信号所在的方向为最优波束信号方向。在后续的统计最优波束信号方向过程中,在一定时间范围T3内,将最优波束信号方向设定为该MAXSNR方向。T3的大小视不同唤醒词而定。优选的,阈值N=3,δ=5,μ=3,T3=65。
步骤S144,统计在预设帧数中最大信噪比出现最多的备选波束信号,将该备选波束信号所在的方向确定为最优波束信号方向,并将所述最优波束信号方向作为唤醒方向。
在每一帧中,根据各备选波束信号的信噪比,统计在预设帧数中最大信噪比出现最多的备选波束信号,并将该备选波束信号所在的方向确定为最优波束信号方向。
在一示例性实施例中,帧数为T2,在T2个预设帧数内,在BN路波束中,除已检测出的干扰方向的波束信号外,若最大SNR小于阈值th,则当前帧的最优波束信号方向与前一帧保持一致;若最大SNR大于阈值th,则将该最大SNR对应波束信号记为1,干扰方向的波束信号及其他较小SNR波束信号记为0,统计在T2个帧中出现最大SNR次数最多的波束信号所在方向确定为当前帧的最优波束信号方向。优选的,20≤T2≤100,th=10。
可选的,为进一步提高在信号源能量远大于干扰源能量这种环境下最优波束信号方向选择的准确性,在确定干扰方向过程中,若存在此类情形时(例如,信号源能量超过干扰源能量20dB),会将唤醒方向认定为干扰方向,此时将统计的干扰方向以及按照前述方法确定的最优波束信号方向均作为唤醒方向,即进行两路唤醒,若有一路超过阈值则判定为唤醒状态。
具体的,如图8所示,步骤S140还可以包括步骤S146、步骤S147:
步骤S146,判断是否所述信号源能量远大于干扰源能量一定阈值。若为是(Y),则执行步骤S147;若为否,则继续执行步骤S142。
步骤S147,将所述干扰方向确定为唤醒方向。
需要说明的是,在干扰方向选取之后,可将干扰方向确定为唤醒方向,并同时执行步骤S142、S143、S144,确定最优波束信号方向,将干扰方向和最优波束信号方向进行两路波束信号方向的唤醒;也可以在判断出信号源能量大于干扰源能量一定阈值,将干扰方向确定为唤醒方向,无需执行步骤S142、S143、S144,而根据干扰方向的语音信号直接进行语音唤醒操作,以提高语音唤醒操作的效率。
步骤S150,根据所述唤醒方向的语音信号进行语音唤醒操作。
利用如上所述的方法,在接收麦克风采集的声音信号后,将声音信号进行固定波束形成,进而计算各波束信号的信噪比,通过信噪比确定唤醒方向按照该唤醒方向的声音信号进行语音唤醒操作,使得系统在低信噪比的环境下也能准确判断出唤醒方向,有效提高了语音唤醒的准确率。
为了说明本发明提高唤醒率的语音前端增强方法的效果,利用实验结果进行说明,实验在6ⅹ3ⅹ3.5m的房间内进行,麦克风阵列为4麦圆阵,半径0.035m,位于3ⅹ1.5ⅹ1.5m位置处,干扰方向位于2ⅹ1.5ⅹ1.5m,唤醒位置分布在距离麦克风1.2m圆上,每30度进行两次唤醒,共24次唤醒,利用三种干扰类型进行测试,分别为音乐、babble以及电视干扰,测试信噪比分别为-5dB、0dB、5dB,测试结果见表1。表中第3行为最佳波束信号方向正确的概率,从结果可以看出除babble干扰在-5dB概率较低,其他情形概率都在80%以上。表1第4、5行分别为单麦和本发明的唤醒结果,从表中可以看到本发明可以明显提高唤醒率。
表1唤醒实验结果图
Figure GDA0002983079280000121
下述为本公开装置实施例,可以用于执行上述语音唤醒方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开语音唤醒方法实施例。
图9是根据一示例性实施例示出的一种语音唤醒装置的框图,该装置包括但不限于:声音信号接收模块110、固定波束形成模块120、信噪比计算模块130、最优波束信号方向确定模块140及语音唤醒操作模块150。
声音信号接收模块110,用于接收麦克风采集的声音信号;
固定波束形成模块120,用于将所述声音信号进行固定波束形成,生成多个波束信号;
信噪比计算模块130,用于计算各波束信号的信噪比;
唤醒方向确定模块140,用于通过所述信噪比确定唤醒方向;
语音唤醒操作模块150,用于根据所述唤醒方向的声音信号进行语音唤醒操作。
上述装置中各个模块的功能和作用的实现过程,具体见上述语音唤醒方法中对应步骤的实现过程,在此不再赘述。
可选的,如图10所示,图9中所述的信噪比计算模块130包括但不限于:信号能量及噪声谱计算单元131、频点信噪比计算单元132和波束信号信噪比计算单元133。
信号能量及噪声谱计算单元131,用于针对每一波束信号,计算所述波束信号中各频点的能量及噪声谱;
频点信噪比计算单元132,用于通过所述波束信号中各频点的信噪比;
波束信号信噪比计算单元133,用于根据所述波束信号在预设频带范围内信噪比平均值,表示所述波束信号的信噪比。
可选的,图10中所述的信噪比计算模块130还包括但不限于:平滑处理单元。
平滑处理单元,用于通过平滑因子对所述波束信号中各频点的能量进行平滑处理。
可选的,如图11所示,图9中所述的唤醒方向确定模块140包括但不限于:干扰方向确定单元141、剔除单元142、备选波束信号确定单元143及唤醒方向确定单元144。
干扰方向确定单元141,用于根据预设帧数内各波束信号的信噪比确定干扰方向;
剔除单元142,用于从所有波束信号中剔除所述干扰方向所在的波束信号,得到备选波束信号;
备选波束信号确定单元143,用于根据各备选波束信号的信噪比,确定每一帧中信噪比最大的备选波束信号;
唤醒方向确定单元144,用于统计在预设帧数中最大信噪比出现最多的备选波束信号,将该备选波束信号所在的方向确定为最优波束信号方向,并将所述最优波束信号方向作为唤醒方向。
可选的,本发明还提供一种电子设备,执行如上述示例性实施例任一所示的语音唤醒方法的全部或者部分步骤。电子设备包括:
处理器;以及
与所述处理器通信连接的存储器;其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现如上述任一示例性实施例所述的方法。
该实施例中的终端中处理器执行操作的具体方式已经在有关该语音唤醒方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读性存储介质,例如可以为包括指令的临时性和非临时性计算机可读性存储介质。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的具体结构,可以在不脱离其范围时进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种语音唤醒方法,其特征在于,所述方法包括:
接收麦克风采集的声音信号;
将所述声音信号进行固定波束形成,生成多个波束信号;
计算各个波束信号的信噪比;
通过所述信噪比确定唤醒方向;
根据所述唤醒方向的声音信号进行语音唤醒操作;
通过所述信噪比确定唤醒方向的步骤包括:
根据预设帧数内各个波束信号的信噪比确定干扰方向;所述根据预设帧数内各个波束信号的信噪比确定干扰方向的步骤包括:计算当前帧所有波束信号的信噪比的最大值,并且将最大值与预设的信噪比阈值进行比对;当所有波束信号信噪比的最大值均小于预设的信噪比阈值时,则在最大信噪比波束信号方向上,记录该方向的信噪比与第二信噪比之间的差值,其他方向记录的差值为零;若所有波束信号的信噪比的最大值均大于预设的信噪比阈值时,则将所有波束信号方向记录的差值为零;统计预设帧数内每个波束信号方向上所记录的差值的和;将和大于零且最大的波束信号方向确定为干扰方向;
从所有波束信号中剔除干扰方向所在的波束信号,得到备选波束信号;
根据各个备选波束信号的信噪比,确定信噪比最大的波束信号方向;
在预设帧数中统计最大信噪比出现次数最多的波束信号方向,将该波束信号所在的方向确定为最优波束信号方向,并将所述最优波束信号方向作为唤醒方向。
2.根据权利要求1所述的方法,其特征在于,所述计算各个波束信号的信噪比的步骤包括:
计算各所述波束信号中各频点的点源信号能量及背景噪声能量,所述波束信号包括目标源信号、干扰源信号和背景噪声,点源信号能量包含目标源信号能量和干扰源信号能量;
通过所述波束信号在各频点的点源信号能量与背景噪声能量的比值,计算所述波束信号中各频点的信噪比;
利用所述波束信号在预设频带范围信噪比的平均值,表示所述波束信号的信噪比。
3.根据权利要求2所述的方法,其特征在于,计算所述波束信号中各频点的信噪比的步骤之前,所述方法还包括:
通过平滑因子对所述波束信号中各频点的点源信号能量及背景噪声能量进行平滑处理。
4.根据权利要求1所述的方法,其特征在于,所述根据各个备选波束信号的信噪比,确定预设帧数中最优波束信号方向的步骤包括:
为了保证最优波束信号方向为信号源方向时的输出稳定性,根据各备选波束信号的信噪比进行信号源方向检测,将满足条件的波束信号方向在预设帧数内设定为最优波束信号方向。
5.根据权利要求4所述的方法,其特征在于,根据各备选波束信号的信噪比进行信号源方向检测步骤包括:
将所述备选波束信号的信噪比进行大小排序;
若在预设连续帧数内,备选波束信号中最大信噪比超过一定阈值,最大信噪比与第二信噪比之间的差值达到预设的差值阈值,且最大信噪比的波束信号方向保持一致,则将最大信噪比所在波束信号方向在一定预设帧数内设定为最优波束信号方向。
6.根据权利要求1所述的方法,其特征在于,所述根据预设帧数内各波束信号的信噪比确定干扰方向的步骤之后,通过信噪比确定唤醒方向的步骤还包括:
判断目标源信号能量是否超过干扰源信号能量一定阈值,若为是,则将所述干扰方向确定为唤醒方向。
7.一种语音唤醒装置,其特征在于,所述装置包括:
声音信号接收模块,用于接收麦克风采集的声音信号;
固定波束形成模块,用于将所述声音信号进行固定波束形成,在不同方向上生成多个波束信号;
信噪比计算模块,用于计算各波束信号的信噪比;
唤醒方向确定模块,用于通过所述信噪比确定唤醒方向;通过所述信噪比确定唤醒方向的步骤包括:根据预设帧数内各个波束信号的信噪比确定干扰方向;所述根据预设帧数内各个波束信号的信噪比确定干扰方向的步骤包括:计算当前帧所有波束信号的信噪比的最大值,并且将最大值与预设的信噪比阈值进行比对;当所有波束信号信噪比的最大值均小于预设的信噪比阈值时,则在最大信噪比波束信号方向上,记录该方向的信噪比与第二信噪比之间的差值,其他方向记录的差值为零;若所有波束信号的信噪比的最大值均大于预设的信噪比阈值时,则将所有波束信号方向记录的差值为零;统计预设帧数内每个波束信号方向上所记录的差值的和;将和大于零且最大的波束信号方向确定为干扰方向;从所有波束信号中剔除干扰方向所在的波束信号,得到备选波束信号;根据各个备选波束信号的信噪比,确定信噪比最大的波束信号方向;在预设帧数中统计最大信噪比出现次数最多的波束信号方向,将该波束信号所在的方向确定为最优波束信号方向,并将所述最优波束信号方向作为唤醒方向;
语音唤醒操作模块,用于根据所述唤醒方向的声音信号进行语音唤醒操作。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序在被执行时使得电子设备执行如权利要求1-6任一项所述的方法。
CN201910627574.4A 2019-07-12 2019-07-12 语音唤醒方法、装置及电子设备、存储介质 Active CN110265020B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910627574.4A CN110265020B (zh) 2019-07-12 2019-07-12 语音唤醒方法、装置及电子设备、存储介质
PCT/CN2019/114378 WO2021008000A1 (zh) 2019-07-12 2019-10-30 语音唤醒方法、装置及电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627574.4A CN110265020B (zh) 2019-07-12 2019-07-12 语音唤醒方法、装置及电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN110265020A CN110265020A (zh) 2019-09-20
CN110265020B true CN110265020B (zh) 2021-07-06

Family

ID=67925774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627574.4A Active CN110265020B (zh) 2019-07-12 2019-07-12 语音唤醒方法、装置及电子设备、存储介质

Country Status (2)

Country Link
CN (1) CN110265020B (zh)
WO (1) WO2021008000A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265020B (zh) * 2019-07-12 2021-07-06 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111192589A (zh) * 2020-01-16 2020-05-22 云知声智能科技股份有限公司 语音唤醒方法及装置
CN111341297B (zh) * 2020-03-04 2023-04-07 开放智能机器(上海)有限公司 一种语音唤醒率测试系统及方法
CN111402883B (zh) * 2020-03-31 2023-05-26 云知声智能科技股份有限公司 一种复杂环境下分布式语音交互系统中就近响应系统和方法
CN111863012A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质
CN112185406A (zh) * 2020-09-18 2021-01-05 北京大米科技有限公司 声音处理方法、装置、电子设备和可读存储介质
CN113066488B (zh) * 2021-03-26 2023-10-27 深圳市欧瑞博科技股份有限公司 语音唤醒智能控制方法、装置、电子设备及存储介质
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
CN104810021B (zh) * 2015-05-11 2017-08-18 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
CN106683685B (zh) * 2016-12-23 2020-05-22 云知声(上海)智能科技有限公司 基于最小二乘法的目标方向语音检测方法
CN108877827B (zh) * 2017-05-15 2021-04-20 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
US10051366B1 (en) * 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
CN108831498B (zh) * 2018-05-22 2020-01-24 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
CN108831495B (zh) * 2018-06-04 2022-11-29 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109102822B (zh) * 2018-07-25 2020-07-28 出门问问信息科技有限公司 一种基于固定波束形成的滤波方法及装置
CN109272989B (zh) * 2018-08-29 2021-08-10 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质
CN110491403B (zh) * 2018-11-30 2022-03-04 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
CN109473118B (zh) * 2018-12-24 2021-07-20 思必驰科技股份有限公司 双通道语音增强方法及装置
CN109920433B (zh) * 2019-03-19 2021-08-20 上海华镇电子科技有限公司 嘈杂环境下电子设备的语音唤醒方法
CN109949810B (zh) * 2019-03-28 2021-09-07 荣耀终端有限公司 一种语音唤醒方法、装置、设备及介质
CN110265020B (zh) * 2019-07-12 2021-07-06 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质

Also Published As

Publication number Publication date
WO2021008000A1 (zh) 2021-01-21
CN110265020A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110265020B (zh) 语音唤醒方法、装置及电子设备、存储介质
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN103180900B (zh) 用于话音活动检测的系统、方法和设备
US9959886B2 (en) Spectral comb voice activity detection
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
JP2021500634A (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
US20150228277A1 (en) Voiced Sound Pattern Detection
CN110556103A (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN102884575A (zh) 话音活动检测
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
WO2020048431A1 (zh) 一种语音处理方法、电子设备和显示设备
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
EP3757993A1 (en) Pre-processing for automatic speech recognition
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
US20130231923A1 (en) Voice Signal Enhancement
Martinez et al. DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN113870893A (zh) 一种多通道双说话人分离方法及系统
US20220254332A1 (en) Method and apparatus for normalizing features extracted from audio data for signal recognition or modification
CN113314127A (zh) 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质
Pirhosseinloo et al. A new feature set for masking-based monaural speech separation
CN114464184B (zh) 语音识别的方法、设备和存储介质
Zhu et al. Long-term speech information based threshold for voice activity detection in massive microphone network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40010642

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 533, podium building 12, Shenzhen Bay science and technology ecological park, No.18, South Keji Road, high tech community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: ELEVOC TECHNOLOGY Co.,Ltd.

Address before: 2206, phase I, International Students Pioneer Building, 29 Gaoxin South Ring Road, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: ELEVOC TECHNOLOGY Co.,Ltd.