CN110537223B - 语音检测的方法和装置 - Google Patents
语音检测的方法和装置 Download PDFInfo
- Publication number
- CN110537223B CN110537223B CN201880000470.4A CN201880000470A CN110537223B CN 110537223 B CN110537223 B CN 110537223B CN 201880000470 A CN201880000470 A CN 201880000470A CN 110537223 B CN110537223 B CN 110537223B
- Authority
- CN
- China
- Prior art keywords
- noise
- initial
- candidate
- determining
- data block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种语音检测的方法和装置,该方法包括:确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,N为正整数(S110);根据N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,初始的候选噪声集合中的分组的最大能量小于初始的候选语音集合中的分组的最小能量(S120);根据初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限(S130);根据初始的候选语音集合以及初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,第一次迭代处理的候选噪声集合中的分组的能量均小于或等于初始的噪声门限,第一次迭代处理的候选语音集合中的分组的能量均大于初始的噪声门限(S140)。
Description
技术领域
本申请涉及语音检测领域,并且更具体地,涉及一种语音检测的方法和装置。
背景技术
随着移动物联网技术、人机交互技术、人工智能等技术的快速发展,各种类型的智能音响、智能穿戴设备、语音助手产品层出不穷,人们对语音质量、产品体验的要求也越来越高,这同时也给语音识别、语音增强、语音交互的要求提出巨大的挑战。
语音活动性检测(Voice Activity Detection,VAD),也称为语音端点检测,通常是根据语音和噪声的特征不同,在复杂噪声背景环境下,从连续音频信号中检测出实际语音片段的起始点和终止点,从而提取出有效的语音片段,排除噪声等其他非语音信号的干扰。
现有的语音活动性检测算法可以包括三类:第一类:基于语音和噪声统计特性的判决方法,使用的判决准则多为最大似然准则,这一类方法计算量相对较小,但是,语音检测性能一般;第二类:基于统计模型和模式分类的方法,这类方法计算复杂度高,性能比较好;第三类:基于神经网络、深度学习的方法,这类方法性能比较好,但是计算量比较大且需要大量的训练数据。
因此,需要一种语音检测算法,能够保证在低复杂度、低计算量的情况下,具有良好的检测性能。
发明内容
本申请实施例提供一种语音检测的方法和装置,能够保证在低复杂度、低计算量的情况下,具有良好的检测性能。
第一方面,提供了一种语音检测的方法,包括:
确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
根据所述的N个分组能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限。
因此,本申请实施例的语音检测的方法,使用分组的能量作为特征参数,能够平滑噪声减小虚警概率,相对于现有的采用单帧能量进行语音检测而言,有利于提升语音检测的精度,同时,与采用其他参数进行语音检测相比,有利于降低计算的复杂度。
在一种可能的实现方式中,所述方法还包括:
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,......;
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
在一种可能的实现方式中,所述方法还包括:
在迭代次数k达到迭代上限时,确定所述第k迭代次处理的候选语音集合为目标语音集合,所述第k次迭代处理的所述候选噪声集合为目标噪声集合。
在一种可能的实现方式中,所述方法还包括:
若所述第k次迭代处理的候选语音集合中的分组的能量都大于所述第k次迭代处理的噪声门限,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的候选噪声集合为目标噪声集合。
在一种可能的实现方式中,所述方法还包括:
将所述目标语音集合中的分组按照时间顺序排列;
根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合。
在一种可能的实现方式中,所述根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合,包括:
若所述目标语音集合中的相邻两个分组的时间间隔小于预设门限,确定所述相邻两个分组之间的其他分组也为语音信号,并将所述相邻两个分组之间的其他分组添加到所述目标语音集合,得到更新后的所述目标语音集合。
在一种可能的实现方式中,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限,包括:
根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率;
将所述初始噪声功率乘以门限因子得到的结果确定为所述初始的噪声门限,其中,所述门限因子是根据目标虚警概率确定的。
在一种可能的实现方式中,所述第一数据块为所述待处理数据中的第一个数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
将所述初始的候选噪声集合中的每个分组的能量的平均值,确定为所述初始噪声功率。
在一种可能的实现方式中,所述第一数据块为所述待处理数据中的非第一个数据块,所述第一数据块的前一数据块为第二数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,其中,所述第一数据块的预估噪声功率为所述第一数据块的初始的候选噪声集合中的每个分组的能量的平均值,所述第二数据块的目标噪声功率为所述第二数据块的目标噪声集合中的每个分组的能量的平均值。
因此,本申请实施例的用于语音检测的噪声门限是根据门限因子和噪声功率确定的,一方面,每个数据块内都在进行噪声功率的迭代更新,从而使得每个数据块内的语音检测的鲁棒性较好,另一方面,噪声功率可以在数据块之间进行平滑处理,能够自适应跟踪环境噪声的变化,从而使得数据块之间的噪声门限具有较好的自适应性,进而使得待处理数据的每个数据块都具有较好的鲁棒性。
在一种可能的实现方式中,所述根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,包括:根据如下公式,确定所述第一数据块的初始噪声功率:
P1=αP1′+(1-α)P2″
其中,所述P1为所述第一数据块的初始噪声功率,所述P1′为所述第一数据块的预估噪声功率,所述P2″为所述第二数据块的目标噪声功率,0<α<1。
在一种可能的实现方式中,所述根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,包括:
将所述N个分组中能量较小的一定比例的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合;或
将所述N个分组中能量较小的一定数量的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合。
第二方面,提供一种语音检测的装置,包括确定模块,用于执行第一方面或第一方面的任一种可能的实现方式中的方法。
第三方面,提供一种计算机可读介质,所述计算机可读介质存储用于电子设备执行的程序代码,所述程序代码包括用于执行第一方面中的方法的指令。
第四方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被电子设备的处理器运行时,使得电子设备执行第一方面或第一方面的任一种可能的实现方式中的方法。
附图说明
图1是根据本申请实施例的语音检测的方法的示意性流程图。
图2是根据本申请实施例的语音检测的方法的整体流程图。
图3是根据本申请实施例的语音检测的装置的示意性框图。
具体实施方式
下面结合本申请实施例的附图,对本申请实施例的技术方案进行描述。
图1是根据本申请实施例的语音检测的方法的示意性流程图,以下,以语音检测的装置为执行主体来描述本申请实施例的语音检测的方法。
可选地,可以是以一定的采样频率(例如,8kHz,16kHz,32kHz等)对音频信号进行采样,得到待处理数据,该待处理数据中可以包括噪声信号和/或语音信号,该语音检测的装置可以用于对采样的该待处理数据进行处理,获取其中的语音信号。在本申请实施例中,该语音检测的装置可以将该待处理数据划分为多个数据块分别进行处理,确定每个数据块中的语音信号和噪声信号,以下,对该待处理数据中的第一数据块为例,详细说明根据本申请实施例的语音检测的方法。
如图1所示,该方法100包括:
S110,确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
S120,根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
S130,根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
S140,根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限。
具体来说,该语音检测的装置可以将该第一数据块划分为N个分组,以分组为单位,计算每个分组的能量,从而能够降低语音检测的计算量,同时根据一个分组中的多帧采样数据确定该分组的能量,而不是根据每帧采样数据的能量进行语音检测,有利于平滑噪声,提高语音检测的精度。
可选地,在一些实施例中,可以将一个分组中的每帧采样数据的功率的平均值作为该分组的能量,或者也可以将一个分组中的每帧采样数据的功率之和作为该分组的能量等,或者,也可以将一个分组中的每帧采样数据的功率进行平滑处理得到该分组的能量等,本申请实施例对于分组的能量的计算方法不作具体限定。
得到该N个分组中的每个分组的能量之后,进一步地,可以根据该N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,该初始的候选噪声集合中的分组可以认为是噪声信号,该初始的候选语音集合中的分组可以认为是语音信号。
例如,可以将N个分组中能量较少的一定比例的分组确定为该初始的候选噪声集合,将该N个分组中的剩余分组确定为初始的候选语音集合;或者可以将N个分组中能量较小的一定数量的分组确定为该初始的候选噪声集合,将该N个分组中的剩余分组确定为初始的候选语音集合等,本申请实施例并不特别限定该初始的候选语音集合和初始的候选噪声集合的划分方式。
在一种具体的实现方式中,可以根据分组的能量的大小将该N个分组作升序排列,此时,该N个分组中能量较小的分组为排序靠前的分组,然后,可以选择排序靠前的一定比例(例如,20%)或一定数量(例如,20个)的分组构成初始的候选噪声集合,将剩余的分组确定为初始的候选语音集合,因此,初始的候选噪声集合中的分组的能量均小于初始的候选语音集合中的分组的能量。
作为示例而非限定,若N=100,可以在该100个分组中选择20个能量较小的分组构成初始的候选噪声集合,即初始的候选噪声集合包括分组1至分组20,从而,能量较大的80个分组构成初始的候选语音集合,即初始的候选语音集合包括分组21至分组100。
进一步地,该语音检测的装置可以根据初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限,该初始的噪声门限可以用于确定该初始的候选语音集合中是否还存在噪声信号,其中,能量值小于该初始的噪声门限的分组可以认为是噪声信号。
可选地,在一些实施例中,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限,包括:
根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率;
将所述初始噪声功率乘以门限因子得到的结果确定为所述初始的噪声门限,其中,所述门限因子是根据目标虚警概率确定的。
作为示例而非限定,可以根据分组的数据长度M和目标虚警概率Pfa确定该门限因子T,其中,该目标虚警概率为系统允许的最大的虚警概率,即系统允许的将噪声信号误判为语音信号的最大概率,例如,可以根据如下公式确定门限因子T。
T=F-1(1-Pfa) 公式(1)
可选地,在本申请实施例中,该初始噪声功率可以为该初始的候选噪声集合中的每个分组的功率的平均值,或者,该初始的候选噪声集合中的每个分组的功率之和等,本申请实施例对此不作限定。
确定该第一数据块的初始的噪声门限后,可以将该初始的候选语音集合中的分组的能量依次跟该初始的噪声门限比较,若分组的能量小于该初始的噪声门限,可以认为该分组为噪声信号,对比完毕之后,进一步地,可以将该初始的候选语音集合中分组的能量小于该初始的噪声门限的分组添加到该初始的候选噪声集合,得到第一次迭代处理的候选噪声集合,将该N个分组中除该第一次迭代处理的候选噪声集合以外的其他分组确定为第一次迭代处理的候选语音集合,即,该第一次迭代处理的候选噪声集合为第一次更新得到的候选噪声集合,该第一次迭代处理的候选语音集合为第一次更新得到的候选语音集合。
接着上述示例,若该初始的候选噪声集合包括分组1至分组20,初始的候选语音集合包括分组21至分组100,可以将该初始的噪声门限与该分组21至分组100中的分组的能量对比,若初始的候选语音集合中的分组21至分组40的能量都小于该初始的噪声门限,则可以将分组21至分组40添加到该初始的候选噪声集合,得到第一次迭代处理的候选噪声集合,包括分组1至分组40,同时可以得到第一次迭代处理的候选语音集合,包括分组41至分组100。
因此,本申请实施例的语音检测的方法,使用分组的能量作为特征参数,能够平滑噪声减小虚警概率,相对于现有的采用单帧能量进行语音检测而言,有利于提升语音检测的精度,同时,与采用其他参数进行语音检测相比,有利于降低计算的复杂度。
可选地,在本申请实施例中,所述方法100还可以包括:
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,......;
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
在本申请实施例中,确定第一次迭代处理的候选噪声集合之后,还可以根据该第一次迭代处理的候选噪声集合中的每个分组的能量,确定第一次迭代处理的噪声门限,然后可以根据该第一次迭代处理的噪声门限,确定该第一次迭代处理的候选语音集合是否还包括噪声信号,若该第一次迭代处理的候选语音集合中的每个分组的能量都大于该第一次迭代处理的噪声门限,则可以确定该第一次迭代处理的候选语音集合中不包括噪声信号,进而可以确认其为目标语音集合,同时可以确定该第一次迭代处理的候选噪声集合为目标噪声集合,否则,还可以继续执行上述迭代操作,直到第k次迭代处理的候选语音集合中的每个分组的能量都大于第k次迭代处理的噪声门限,或者当迭代次数k达到上限,此时,可以确定该第k次迭代处理的候选语音集合为该目标语音集合,即该第k次迭代处理的候选语音集合中的分组都为语音信号,同时可以确定第k次迭代处理的候选噪声集合中的分组都为噪声信号,即该k次迭代处理的候选语音集合为目标语音集合,该第k次迭代处理的候选噪声集合为目标噪声集合,从而得到对该N个分组中的每个分组的判决结果,或者说,可以确定该第一数据块中的N个分组中哪些分组是语音信号,哪些分组是噪声信号。
跟前述的该初始的噪声功率的确定方式类似,所述根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,可以包括:
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声功率;
将所述第k次迭代处理的噪声功率和门限因子的乘积,确定为该第k次迭代处理的噪声门限。
因此,本申请实施例中,用于语音检测的噪声门限是根据门限因子和噪声功率确定的,根据上述迭代过程,能够实现每个数据块内都在进行噪声功率的迭代更新,同时能够实现噪声门限的迭代更新,从而能够提升每个数据块内的语音检测的鲁棒性。
可选地,在本申请实施例中,该语音检测的装置还可以根据相邻数据块的噪声功率对当前数据块进行平滑处理。具体可以包括以下两种情况:
情况1:若所述第一数据块为所述待处理数据中的第一个数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
将所述初始的候选噪声集合中的每个分组的能量的平均值,确定为所述初始噪声功率。
即,在该第一数据块为该待处理数据的第一个数据块,或者说,该第一数据块之前无其他数据块时,可以直接将该第一数据块的初始的候选噪声集合中的每个分组的功率的平均值,确定为该第一数据块的初始噪声功率,或者可以将该第一数据块的初始的候选噪声集合中的每个分组的功率之和,确定为该第一数据块的初始噪声功率等。其中,该第一数据块的初始的候选噪声集合的确定方式可以参考前述实施例的相关描述,这里不再赘述。
情况2:若所述第一数据块为所述待处理数据中的非第一个数据块,所述第一数据块的前一数据块为第二数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,其中,所述第一数据块的预估噪声功率为所述第一数据块的初始的候选噪声集合中的每个分组的能量的平均值,所述第二数据块的目标噪声功率为所述第二数据块的目标噪声集合中的每个分组的能量的平均值。
即,当该第一数据块为该待处理数据的非第一个数据块,或者说,该第一数据之前还有其他数据块时,该第一数据块的初始噪声功率可以根据该第一数据块的预估噪声功率和该第一数据块的前一数据块即第二数据块的目标噪声功率确定。
可选地,该第一数据块的预估噪声功率可以根据该第一数据块的初始的候选噪声集合中的每个分组的能量确定,例如,该第一数据块的预估噪声功率可以为该第一数据块的初始的候选噪声集合中的每个分组的功率的平均值,或者该第一数据块的预估噪声功率也可以为该第一数据块的初始的候选噪声集合中的每个分组的功率之和,该第一数据块的初始的候选噪声集合的确定方式可以参考前述实施例中的相关描述,这里不再赘述。
可选地,该第二数据块的目标噪声功率可以根据该第二数据块的目标候选噪声集合中的每个分组的能量确定,例如,该第二数据块的目标噪声功率可以为该第二数据块的目标噪声集合中的每个分组的功率的平均值,或者,该第二数据块的目标噪声功率也可以为该第二数据块的目标噪声集合中的每个分组的功率之和,其中,该第二数据块的目标噪声集合的确定方式可以参考该第一数据块的目标噪声集合的确定方式,这里不再赘述。
在一个具体的实现方式中,可以根据如下公式(4),确定所述第一数据块的初始噪声功率:
P1=αP1′+(1-α)P2″ 公式(4)
其中,所述P1为所述第一数据块的初始噪声功率,所述P1′为所述第一数据块的预估噪声功率,所述P2″为所述第二数据块的目标噪声功率,0<α<1。
即,可以对第一数据块的噪声功率的估计值(即预估噪声功率)和该第一数据块的前一数据块即第二数据块的稳定的噪声功率(即目标噪声功率)作平滑处理,得到该第一数据块的初始噪声功率,进一步地,可以根据该第一数据块的初始噪声功率和门限因子,确定该第一数据块的初始噪声门限。
因此,本申请实施例的用于语音检测的噪声门限是根据门限因子和噪声功率确定的,一方面,每个数据块内都在进行噪声功率的迭代更新,从而使得每个数据块内的语音检测的鲁棒性较好,另一方面,噪声功率可以在数据块之间进行平滑处理,能够自适应跟踪环境噪声的变化,从而使得数据块之间的噪声门限具有较好的自适应性,进而使得待处理数据的每个数据块都具有较好的鲁棒性。
总之,本申请实施例的语音检测的方法,在保证较低的计算复杂度的情况下,还能够根据环境噪声自适应调整噪声门限,在保证检测性能的同时,还可以具有较好的鲁棒性。
在本申请实施例中,确定该第一数据块中的N个分组的判决结果之后,进一步地,所述方法100还可以包括:
将所述目标语音集合中的分组按照时间顺序排列;
根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合。
通常来说,语音信号在很短时间内是连续的,因此,判决结果也应该在短时间内是连续的,可能存在因为原始语音的能量的突变或者噪声的影响,导致短时间内判决结果显示语音信号和噪声信号的变化比较频繁的情况,基于此,可以对判决结果进行修正。
在本申请实施例中,确定该第一数据块中的目标语音集合和目标噪声集合之后,即可获知该N个分组中的每个分组的信号类型,即是属于语音信号,还是属于噪声信号,然后可以将该N个分组按照采样时间的先后顺序排列,即将该N个分组还原为原来的排序。
此情况下,可以根据相邻两个属于语音信号的分组之间的时间间隔,对语音检测的判决结果进行修正,即可以确定更新后的该目标语音集合。,例如,若相邻两个属于语音信号的分组之间的时间间隔小于预设门限,可以确定这两个分组之间的其他分组也为语音信号,从而可以将该其他分组也添加到目标语音集合,得到更新后(或者说,修正后)的目标语音集合。
可选地,在本申请实施例中,也可以按照上述类似的方式确定修正后的目标噪声集合,为了简洁,这里不再赘述。
例如,若分组21和分组30为相邻的两个属于语音信号的分组,若分组21和分组30之间的时间间隔为10ms,间隔较短,此时,可以确定该分组21和分组30之间的其他分组也为语音信号,即可以将分组22至分组29也确定为语音信号,从而可以得到更新后的目标语音集合。
因此,本申请实施例的语音检测的方法,还可以根据语音信号的不突变的特性,对语音检测的判决结果进行修正,从而能够提升语音检测的准确度。
以下,结合图2所示的整体流程图,详细说明根据本申请实施例的语音检测的方法,如图2所示,该方法可以包括如下内容:
在本申请实施例中,可以将待处理数据分成多个数据块来处理,可选地,可以根据应用场景或处理能力确定数据块的长度,假设每个数据块包括L个采样点,可以根据处理能力和检测精度确定分组的数据长度,将该L个采样点分为N个分组,则每个分组的数据长度M=[L/N]。
S201,根据预设的虚警概率确定门限因子。
其中,该S201的具体实现过程可以参考前述实施例的相关描述,这里不再赘述。
在S202中,确定数据块中的每个分组的能量。
例如,该待处理数据的第i个数据块中的每个分组的能量可以为:Pi=[pi1,pi2,....piN],其中,pij为该第i个数据块的第j个分组的能量,每个分组的能量可以为该每个分组中的每个采样点的功率之和,或者也可以为该每个采样点的功率的平均值,本申请实施例对此不作限定。
进一步地,可以按能量的大小将该N个分组排序,例如,可以按照能量的大小做升序排列。
其后,执行S203,判断该数据块是否为该待处理数据中的第一个数据块,若是,则执行S204,否则,执行S205。
在S204中,确定该数据块的初始噪声功率。
其中,该S204的实现过程可以对应于前述实施例中的情况1的实现过程,为了简洁,这里不再赘述。
在S205中,根据该数据块的预估噪声功率和该数据块的前一数据块的目标噪声功率,确定该数据块的初始噪声功率。
其中,该S205的实现过程可以对应于前述实施例中的情况2的实现过程,为了简洁,这里不再赘述。
进一步地,可以执行S206,根据在S204或S205中确定的噪声功率结合S201中确定的门限因子,确定噪声门限;
例如,可以将噪声功率和门限因子的乘积确定为该噪声门限。
然后执行S207,根据该噪声门限,重新确定该数据块中的噪声集合和语音集合。
例如,可以将该数据块中能量大于该噪声门限的分组确定为语音集合,将该数据块中能量小于或等于该噪声门限的分组确定为噪声集合。
举例来说,若该数据块的初始噪声功率是根据该数据块中的分组1~分组k1的能量确定的,则可以认为分组1~分组k1构成初始的候选噪声集合,分组k1+1~分组N构成初始的候选语音集合。在S207中,可以根据噪声门限重新确定分组k1+1~分组N中是否有分组属于噪声信号,其中,分组的能量小于或等于该噪声门限的分组可以确定属于噪声信号。
在S208中,确定该数据块的噪声集合是否有新分组加入,若是,则执行S209,否则,执行S210。
在S209中,根据重新确定的噪声集合,确定更新后的噪声功率,然后跳转至执行S206,根据更新后的噪声功率确定更新后的噪声门限,进一步地,还可以执行S207,根据更新后的噪声门限重新确定该数据块中的噪声集合和语音集合,直到达到预设的迭代次数,或者通过迭代使得噪声功率趋于稳定,从而噪声门限也趋于稳定,这样,能量大于噪声门限的分组可以确定为语音信号,能量小于噪声门限的分组可以确定为噪声信号。
在S210中,输出该数据块的各个分组的判决结果。
如上文所述,在本申请实施例中,还可以对语音检测的判决结果进行修正,在一种实现方式中,可以对每个分组的判决结果设置标识,例如,可以将属于语音信号的分组设置标识1,将属于噪声信号的分组设置标识0,然后将分组按照采样时间的先后顺序进行排序,即恢复至原来的顺序,然后可以根据相邻属于语音信号的分组的时间间隔,对判决结果进行修正。
例如,若判决结果的标识向量V=[v1,v2....vN],vi∈0,1,其中,标识为1表示对应的位置上的分组为语音信号,标识为0表示对应的位置上的分组为噪声信号,根据该标识向量,可以确定该数据块中的语音信号的位置向量为W=(w1,w2,...wk),k<L,1≤wi≤N,其中,wi可以用于标识该分组i的时间信息,对该位置向量中的相邻两个分组的位置向量做差分,可以得到Δ=(Δ1,Δ2,...Δk-1),Δk-1表示wk-1和wk的时间差,由于相邻语音信号之间的间隔不会太大,因此,若Δ1小于预设门限,则可以把w1和w2之间的分组的判决结果也看做是语音信号,从而可以得到更新后的判决结果的标注向量V′,则该数据块的最终语音检测结果为V′。
以上,结合图1至图2详细说明了本申请的方法实施例,以下,结合图3,详细描述本申请的装置实施例,应理解,装置实施例与方法实施例相互对应,类似的描述可以参照方法实施例。
图3是根据本申请实施例的语音检测的装置的示意性结构图,如图3所示,该装置300包括确定模块310。其中,该确定模块310用于:
确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限。
可选地,在一些实施例中,所述确定模块310还用于:
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,......;
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
可选地,在一些实施例中,所述确定模块310还用于:
在迭代次数k达到迭代上限时,确定所述第k迭代次处理的候选语音集合为目标语音集合,所述第k次迭代处理的所述候选噪声集合为目标噪声集合。
可选地,在一些实施例中,所述确定模块310还用于:
若所述第k次迭代处理的候选语音集合中的分组的能量都大于所述第k次迭代处理的噪声门限,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的候选噪声集合为目标噪声集合。
可选地,在一些实施例中,所述确定模块310还用于:
将所述目标语音集合中的分组按照时间顺序排列;
根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合。
可选地,在一些实施例中,所述确定模块310具体用于:
若所述目标语音集合中的相邻两个分组的时间间隔小于预设门限,确定所述相邻两个分组之间的其他分组也为语音信号,并将所述相邻两个分组之间的其他分组添加到所述目标语音集合,得到更新后的所述目标语音集合。
可选地,在一些实施例中,所述确定模块310具体用于:
根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率;
将所述初始噪声功率乘以门限因子得到的结果确定为所述初始的噪声门限,其中,所述门限因子是根据目标虚警概率确定的。
可选地,在一些实施例中,所述第一数据块为所述待处理数据中的第一个数据块,所述确定模块310具体用于:
将所述初始的候选噪声集合中的每个分组的能量的平均值,确定为所述初始噪声功率。
可选地,在一些实施例中,所述第一数据块为所述待处理数据中的非第一个数据块,所述第一数据块的前一数据块为第二数据块,所述确定模块具体用于:
根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,其中,所述第一数据块的预估噪声功率为所述第一数据块的初始候选噪声集合中的每个分组的能量的平均值,所述第二数据块的目标噪声功率为所述第二数据块的目标噪声集合中的每个分组的能量的平均值。
可选地,在一些实施例中,所述确定模块310具体用于:
根据如下公式,确定所述第一数据块的初始噪声功率:
P1=αP1′+(1-α)P2″
其中,所述P1为所述第一数据块的初始噪声功率,所述P1′为所述第一数据块的预估噪声功率,所述P2″为所述第二数据块的目标噪声功率,0<α<1。
可选地,在一些实施例中,所述确定模块310还用于:
将所述N个分组中能量较小的一定比例的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合;或
将所述N个分组中能量较小的一定数量的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合。
可选地,该确定模块310可以为具体处理能力的处理器,该处理器可以为中央处理单元(Central Processing Unit,CPU),或者其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,本申请实施例对此不作限定。其中,通用处理器可以是微处理器或者所述处理器也可以是任何常规的处理器等。
可选地,该语音检测的装置300还可以包括存储器,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
可选地,在本申请实施例中,该存储器还可以用于存储采集的音频数据。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1至图2所示实施例的方法。
本申请实施例还提出了一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行图1至图2所示实施例的方法的相应流程。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种语音检测的方法,其特征在于,包括:
确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限;
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,……;以及
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第k次迭代处理的候选语音集合中的分组的能量都大于所述第k次迭代处理的噪声门限,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的候选噪声集合为目标噪声集合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在迭代次数k达到迭代上限时,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的所述候选噪声集合为目标噪声集合。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述目标语音集合中的分组按照时间顺序排列;
根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合,包括:
若所述目标语音集合中的相邻两个分组的时间间隔小于预设门限,确定所述相邻两个分组之间的其他分组也为语音信号,并将所述相邻两个分组之间的其他分组添加到所述目标语音集合,得到更新后的所述目标语音集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限,包括:
根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率;
将所述初始噪声功率乘以门限因子得到的结果确定为所述初始的噪声门限,其中,所述门限因子是根据目标虚警概率确定的。
7.根据权利要求6所述的方法,其特征在于,所述第一数据块为所述待处理数据中的第一个数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
将所述初始的候选噪声集合中的每个分组的能量的平均值,确定为所述初始噪声功率。
8.根据权利要求6所述的方法,其特征在于,所述第一数据块为所述待处理数据中的非第一个数据块,所述第一数据块的前一数据块为第二数据块,所述根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率,包括:
根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,其中,所述第一数据块的预估噪声功率为所述第一数据块的初始的候选噪声集合中的每个分组的能量的平均值,所述第二数据块的目标噪声功率为所述第二数据块的目标噪声集合中的每个分组的能量的平均值。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,包括:
将所述N个分组中能量较小的一定比例的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合;或
将所述N个分组中能量较小的一定数量的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合。
10.一种语音检测的装置,其特征在于,包括确定模块,用于:
确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
根据所述N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限;
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,……;以及
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
11.根据权利要求10所述的装置,其特征在于,所述确定模块还用于:
在迭代次数k达到迭代上限时,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的所述候选噪声集合为目标噪声集合。
12.根据权利要求10所述的装置,其特征在于,所述确定模块还用于:
若所述第k次迭代处理的候选语音集合中的分组的能量都大于所述第k次迭代处理的噪声门限,确定所述第k次迭代处理的候选语音集合为目标语音集合,所述第k次迭代处理的候选噪声集合为目标噪声集合。
13.根据权利要求11所述的装置,其特征在于,所述确定模块还用于:
将所述目标语音集合中的分组按照时间顺序排列;
根据所述目标语音集合中的相邻分组之间的时间间隔,确定更新后的所述目标语音集合。
14.根据权利要求13所述的装置,其特征在于,所述确定模块具体用于:
若所述目标语音集合中的相邻两个分组的时间间隔小于预设门限,确定所述相邻两个分组之间的其他分组也为语音信号,并将所述相邻两个分组之间的其他分组添加到所述目标语音集合,得到更新后的所述目标语音集合。
15.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于:
根据所述初始的候选噪声集合中的每个分组的能量,确定初始噪声功率;
将所述初始噪声功率乘以门限因子得到的结果确定为所述初始的噪声门限,其中,所述门限因子是根据目标虚警概率确定的。
16.根据权利要求15所述的装置,其特征在于,所述第一数据块为所述待处理数据中的第一个数据块,所述确定模块具体用于:
将所述初始的候选噪声集合中的每个分组的能量的平均值,确定为所述初始噪声功率。
17.根据权利要求15所述的装置,其特征在于,所述第一数据块为所述待处理数据中的非第一个数据块,所述第一数据块的前一数据块为第二数据块,所述确定模块具体用于:
根据所述第二数据块的目标噪声功率以及所述第一数据块的预估噪声功率,确定所述第一数据块的初始噪声功率,其中,所述第一数据块的预估噪声功率为所述第一数据块的初始候选噪声集合中的每个分组的能量的平均值,所述第二数据块的目标噪声功率为所述第二数据块的目标噪声集合中的每个分组的能量的平均值。
18.根据权利要求10至17中任一项所述的装置,其特征在于,所述确定模块还用于:
将所述N个分组中能量较小的一定比例的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合;或
将所述N个分组中能量较小的一定数量的分组,确定为所述初始的候选噪声集合,将所述N个分组中的其他分组确定为所述初始的候选语音集合。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/080447 WO2019183747A1 (zh) | 2018-03-26 | 2018-03-26 | 语音检测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110537223A CN110537223A (zh) | 2019-12-03 |
CN110537223B true CN110537223B (zh) | 2022-07-05 |
Family
ID=68059408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880000470.4A Active CN110537223B (zh) | 2018-03-26 | 2018-03-26 | 语音检测的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110537223B (zh) |
WO (1) | WO2019183747A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475671B (zh) * | 2020-03-12 | 2023-09-26 | 支付宝(杭州)信息技术有限公司 | 语音文案处理方法、装置以及服务器 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120487A1 (en) * | 2001-12-20 | 2003-06-26 | Hitachi, Ltd. | Dynamic adjustment of noise separation in data handling, particularly voice activation |
CN1540623A (zh) * | 2003-11-04 | 2004-10-27 | 清华大学 | 一种门限自适应的语音检测系统 |
CN101226741A (zh) * | 2007-12-28 | 2008-07-23 | 无敌科技(西安)有限公司 | 一种活动语音端点的侦测方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN102201231A (zh) * | 2010-03-23 | 2011-09-28 | 创杰科技股份有限公司 | 语音侦测方法 |
CN103716470A (zh) * | 2012-09-29 | 2014-04-09 | 华为技术有限公司 | 语音质量监控的方法和装置 |
CN103730110A (zh) * | 2012-10-10 | 2014-04-16 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法和装置 |
US20150287406A1 (en) * | 2012-03-23 | 2015-10-08 | Google Inc. | Estimating Speech in the Presence of Noise |
CN105513614A (zh) * | 2015-12-03 | 2016-04-20 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 |
CN105810201A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音活动检测方法及其系统 |
-
2018
- 2018-03-26 WO PCT/CN2018/080447 patent/WO2019183747A1/zh active Application Filing
- 2018-03-26 CN CN201880000470.4A patent/CN110537223B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120487A1 (en) * | 2001-12-20 | 2003-06-26 | Hitachi, Ltd. | Dynamic adjustment of noise separation in data handling, particularly voice activation |
CN1540623A (zh) * | 2003-11-04 | 2004-10-27 | 清华大学 | 一种门限自适应的语音检测系统 |
CN101226741A (zh) * | 2007-12-28 | 2008-07-23 | 无敌科技(西安)有限公司 | 一种活动语音端点的侦测方法 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN102201231A (zh) * | 2010-03-23 | 2011-09-28 | 创杰科技股份有限公司 | 语音侦测方法 |
US20150287406A1 (en) * | 2012-03-23 | 2015-10-08 | Google Inc. | Estimating Speech in the Presence of Noise |
CN103716470A (zh) * | 2012-09-29 | 2014-04-09 | 华为技术有限公司 | 语音质量监控的方法和装置 |
CN103730110A (zh) * | 2012-10-10 | 2014-04-16 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法和装置 |
CN105810201A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音活动检测方法及其系统 |
CN105513614A (zh) * | 2015-12-03 | 2016-04-20 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019183747A1 (zh) | 2019-10-03 |
CN110537223A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN110428808B (zh) | 一种语音识别方法及装置 | |
CN110415699B (zh) | 一种语音唤醒的判断方法、装置及电子设备 | |
JP6099556B2 (ja) | 音声識別方法および装置 | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
JP2021516369A (ja) | 混合音声の認識方法、装置及びコンピュータ可読記憶媒体 | |
US9589560B1 (en) | Estimating false rejection rate in a detection system | |
CN108922553B (zh) | 用于音箱设备的波达方向估计方法及系统 | |
CN109410956B (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN111710332B (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN112652306A (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
US20210065689A1 (en) | Trigger to keyword spotting system (kws) | |
CN109377984B (zh) | 一种基于ArcFace的语音识别方法及装置 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN113593597B (zh) | 语音噪声过滤方法、装置、电子设备和介质 | |
CN110537223B (zh) | 语音检测的方法和装置 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN110895930A (zh) | 语音识别方法及装置 | |
CN112189232A (zh) | 音频处理方法及装置 | |
JP2013064951A (ja) | 音響モデル適応装置、その適応方法及びプログラム | |
CN111862963A (zh) | 语音唤醒方法、装置和设备 | |
CN111951791B (zh) | 声纹识别模型训练方法、识别方法、电子设备及存储介质 | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
CN106340310A (zh) | 语音检测方法及装置 | |
CN110706706A (zh) | 一种语音识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |