CN103903633B

CN103903633B - 检测语音信号的方法和装置

Info

Publication number: CN103903633B
Application number: CN201210580541.7A
Authority: CN
Inventors: 许丽净
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2017-04-12
Anticipated expiration: 2032-12-27
Also published as: US20150325256A1; DK2927906T3; CN103903633A; EP2927906A4; WO2014101713A1; ES2610102T3; EP2927906B1; EP2927906A1; US9396739B2

Abstract

一种检测语音信号的方法和装置。方法包括：以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧；以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。该技术方案能够提高检测语音信号的异常的准确性。

Description

检测语音信号的方法和装置

技术领域

本发明涉及音频处理领域，更具体地，涉及检测语音信号的方法和装置。

背景技术

音频技术中，出于分析方便，语音信号的异常开始(英文为abrupt start)和/或异常结束(英文为abrupt stop)在本文中指示两类情形：一种是出现在同一段语音段中的持续时间较短的成对出现的异常结束及异常开始，上下文中简称异常间断。例如，在讲话过程中，一段语音信号丢失中间的部分信息，就会造成异常间断。另一种是单独出现的异常开始或单独出现的异常结束，上下文中简称为异常开始或异常结束。例如，开始讲话时语音信号的异常开始，或是结束讲话时语音信号的异常结束。下文中，语音信号的异常可以包括语音信号的异常间断、异常开始和异常结束之一。

语音信号的异常主要是由于信号处理过程中丢包及VAD误判等引起的，会对语音信号还原后的语义(英文为semantic)及句法(英文为syntactic)造成损伤。由于语义及句法是与语言内容(英文为language content)相关的，与非母语测试者相比，语音信号的异常开始或异常结束会对母语测试者造成更大的影响。现有的语音质量评估模型在评估语音信号的质量时，通常并不会去分析语言内容，因此无法体现出语音信号的异常对于音质的影响。针对该问题，需要在基本的评估模型的基础上，能够检测出语音信号的异常，进而针对全部语音信号中出现的语音信号的异常单独进行质量评估。

现有技术中，检测语音信号的异常的准确性较低。

发明内容

有鉴于此，本发明实施例提供一种检测语音信号的方法和装置，能够解决检测语音信号的异常的准确性较低的问题。

第一方面，提供了一种检测语音信号的方法，包括：以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

在第一种可能的实现方式中，以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧；获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，如果第一时帧的能量之间的关系满足(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，如果第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，如果第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)<a₁)，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

结合第一方面的第一种可能的实现方式，在第六种可能的实现方式中，如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

结合第一方面的第一种可能的实现方式，在第七种可能的实现方式中，如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

结合第一方面或第一方面的上述任一种可能的实现方式，在第八种可能的实现方式中，对多个第二时帧按照时间顺序执行音调检测处理；获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)作为第k帧的音调特征，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，如果目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果目标第二时帧的音调特征满足(a₄≤spl_tonal(k)<a₃)并且(spl_total(k)>＝a₅)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a₃、a₄和a₅分别为预设的第三阈值、第四阈值和第五阈值。

结合第一方面的第八种可能的实现方式，在第十种可能的实现方式中，判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，且，第二时帧的音调特征满足：(spl_tonal(k+1)≥a₇)，(spl_tonal(k)<a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)>0)，(spl_non_tonal(k-1)<a₉)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，且，

第二时帧的音调特征满足：(spl_tonal(k+2)≥a₁₀)，(spl_tonal(k+1)<a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)>0)，(spl_non_tonal(k)<a₁₂)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；并且，判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，包括：如果第二时帧的音调特征满足(spl_total(k)-spl_total(k-1)≥a₆)并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓；或如果第二时帧的音调特征满足(spl_total(k)-spl_total(k-2)≥a₆)并且(spl_total(k)>spl_total(k-1))并且(spl_total(k-1)>spl_total(k-2))并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓，其中a₆为预设的第六阈值；或如果第二时帧的音调特征同时不满足上述两个条件，则spl_tonal(k)增长平缓。

结合第一方面的第八种可能的实现方式，在第十一种可能的实现方式中，判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足：(spl_tonal(k-1)≥a₇)，(spl_tonal(k)<a₈)，(spl_tonal(k-1)-sp_non_tonal(k)>0)，(spl_non_tonal(k+1)<a₉)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足：

(spl_tonal(k-2)≥a₁₀)，(spl_tonal(k-1)<a₁₁)，(spl_tonal(k-1)-sp_non_tonal(k-2)>0)，(spl_non_tonal(k)<a₁₂)，则第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k≥2；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；并且判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，包括：如果第二时帧的音调特征满足(spl_total(k-1)-spl_total(k)≥a₆)并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果第二时帧的音调特征满足(spl_total(k-2)-spl_total(k)≥a₆)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k-2)>spl_total(k-1))并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total(k)下降平缓，其中a₆为预设的第六阈值。

第二方面，提供了一种检测语音信号的装置，包括第一检测单元、帧单元和第二检测单元，其中，第一检测单元用于以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；帧单元用于以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；第二检测单元用于以对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

在第一种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块：第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块：用于确定如果第一时帧的能量之间的关系满足(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

结合第二方面，在第二种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块，第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，第一确定模块，用于确定如果第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

结合第二方面，在第三种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块：第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块：第一确定模块，用于确定如果第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

结合第二方面，在第四种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块：第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)<a₁)，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

结合第二方面，在第五种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块：第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

结合第二方面，在第六种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块：第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

结合第二方面或第二方面的上述任一种可能的实现方式，在第七种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块：第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块，用于确定如果目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果目标第二时帧的音调特征满足(a₄≤spl_tonal(k)<a₃)并且(spl_total(k)>＝a₅)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a₃、a₄和a₅分别为预设的第三阈值、第四阈值和第五阈值。

结合第二方面或第二方面的上述一种可能的实现方式，在第八种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块：第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块，用于判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，且，第二时帧的音调特征满足：

(spl_tonal(k+1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k-1)<a₉)，

则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，且，第二时帧的音调特征满足：

(spl_tonal(k+2)≥a₁₀)，

(spl_tonal(k+1)<a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)>0)，

(spl_non_tonal(k)<a₁₂)，

则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；并且，判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速包括：如果第二时帧的音调特征满足(spl_total(k)-spl_total(k-1)≥a₆)并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓；或如果第二时帧的音调特征满足(spl_total(k)-spl_total(k-2)≥a₆)并且(spl_total(k)>spl_total(k-1))并且(spl_total(k-1)>spl_total(k-2))并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓，其中a₆为预设的第六阈值；或如果第二时帧的音调特征同时不满足上述两个条件，则spl_tonal(k)增长平缓。

结合第二方面或第二方面的任一种可能的实现方式，在第九种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块：第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块，用于判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足：

(spl_tonal(k-1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k-1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k+1)<a₉)，

则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足：

(spl_tonal(k-2)≥a₁₀)，

(spl_tonal(k-1)<a₁₁)，

(spl_tonal(k-1)-sp_non_tonal(k-2)>0)，

(spl_non_tonal(k)<a₁₂)，

则第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k≥2；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，包括：如果第二时帧的音调特征满足(spl_total(k-1)-spl_total(k)≥a₆)并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果第二时帧的音调特征满足(spl_total(k-2)-spl_total(k)≥a₆)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k-2)>spl_total(k-1))并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total(k)下降平缓，其中a₆为预设的第六阈值。

通过上述技术方案，可以通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A和图1B是相关技术的检测语音信号的异常的检测结果的示意截图。

图2A和图2B是相关技术的检测语音信号的异常的检测结果的示意截图。

图3是本发明实施例的检测语音信号的异常的方法的示意流程图。

图4是本发明另一实施例的检测语音信号的异常的方法的示意流程图。

图5A和图5B是根据本发明另一实施例的声压级分布曲线的示意图。

图6A和图6B是根据本发明另一实施例的声压级分布曲线的示意图。

图7A和图7B分别是根据本发明实施例的检测语音信号的装置的示意框图。

图8是根据本发明另一实施例的检测语音信号的装置的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1A和图1B是相关技术的检测语音信号的异常的检测结果的示意截图。其中，图1A是通过与原始语音比较，人工标定的检测结果，图1B是现有技术的检测结果。图1A和图1B中，横轴表示样本点，纵轴表示归一化幅值。对于出现在同一段语音信号中的持续时间较短的异常间断，为方便显示，图1A和图1B中只标示出其异常结束的位置，如图中线段11所示。与人工标定的检测结果相比，图1B中大部分的持续时间短的语音信号的异常间断均没有检测出来，如图中箭头12所示。

图2A和图2B是相关技术的检测语音信号的异常的检测结果的示意截图。图2A是通过与原始语音比较，人工标定的检测结果，图2B是现有技术的检测结果。图2A和图2B中，横轴表示样本点，纵轴表示归一化幅值。对于出现在同一段语音信号中的持续时间较短的异常间断，为方便显示，图2A和图2B中只标示出其异常结束的位置，此外，还标示出单独出现的异常开始或异常结束，如图中线段21所示。与人工标定的检测结果相比，图2B中，对于能量相对较小的语音信号的异常开始或异常结束没有检测出来，如图中箭头22所示。

针对相关技术中存在的检测语音信号的异常的准确性较低的问题，本发明实施例提供了一种检测语音信号的方法，可以基于音调特征分析来检测语音信号的异常，从而有效地提高检测语音信号的异常的准确性。

图3是本发明实施例的检测语音信号的异常的方法30的示意流程图，包括以下内容。

S31，以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一。

语音信号的异常如前所述包括语音信号的异常间断、异常开始和异常结束之一。可以通过比较多个第一时帧的能量大小，并且将具体第一时帧的能量与预设阈值比较大小等等，确定包含潜在的语音信号的异常的第一时帧。包含潜在的语音信号的异常的第一时帧上下文中也称为目标第一时帧。

S32，以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧。

S33，对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

语音信号的异常本文中也简称为异常，潜在的语音信号的异常也简称为潜在的异常，语音信号的异常开始或异常结束也分别简称为异常开始或异常结束。异常间断是出现在同一段语音段中的持续时间较短的成对出现的异常结束及异常开始。异常开始或异常结束分别指单独出现的异常开始或单独出现的异常结束。

当第二时帧帧长为第一时帧的整数倍时，则以第二时帧帧长为单位对连续语音样本进行分帧后，得到一个或多个第二时帧。一个第二时帧可以包括多个第一时帧。然而，所有第二时帧中，可以有一个或可以有一些第二时帧分别包括一个目标第一时帧，这类的第二时帧是本发明实施例中精细检测分析的对象，此处也称为目标第二时帧。作为现有技术，为了消除语音信号处理时的边界效应，相邻的两个第二时帧可以有部分重叠。举例来说，如果第一个第二时帧为从第0样本点到第511样本点，则第二个第二时帧为从第255样本点到第767样本点。接下来，通过对所有第二时帧的每一个进行包括快速傅里叶变换等的音调特征的处理，接下来分析一个或多个第二时帧是否满足预定关系，从而能够确定其中的目标第二时帧所包括的潜在的语音信号的异常是否是真正的语音信号的异常，其中所确定的目标第二时帧已知包括一个目标第一时帧。

本发明实施例提供了一种检测语音信号的方法，通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。

图4是本发明另一实施例的检测语音信号的异常的方法40的示意流程图，包括以下内容。

S41，以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧。

以第一时帧帧长对一段连续语音样本顺序分帧，获得连续的多个第一时帧。多个第一时帧中的第i个，称为第i个第一时帧，下面简称为第i帧。

S42，计算每一个第一时帧的能量。

设frame_energy_short(i)表示第i帧的能量，其中i为自然数：

其中，time_signal_short(n)表示第i帧的输入信号，n表示样本点；N₁表示第一时帧帧长，本实施例设为32个样本点。通过选取适当帧长的第一时帧，可以提高检测的准确度，或平衡检测的准确度和算法复杂度之间的关系。

S43，通过分析所述第一时帧的能量之间的关系，确定包含潜在的语音信号的异常的目标第一时帧。步骤S43可以包括步骤S43-1或步骤S43-2。

检测第i帧之前的若干帧及第i帧的能量，其中第i-1帧为第i帧的前一帧，第i-2帧为第i-1帧的前一帧，第i-3帧为第i-2帧的前一帧，依次类推。

S43-1，如果第i帧的能量迅速减小，即如果满足以下条件之一，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧。

a)(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且

(frame_energy_short(i)<a₁)。

通常预设第0帧不是包含潜在的异常结束的目标第一时帧。当i≥1时，通过条件a)可以确定第i帧是否为包含潜在的异常结束的目标第一时帧。

b)(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且

(frame_energy_short(i)<a₁)并且

第(i-1)帧及第(i-2)帧均不是包含潜在的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

举例来说，当i＝2时，已经预设第0帧和第1帧为不包含潜在的异常结束的第一时帧，进而可以判断第2帧，依次类推。

c)(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且

(frame_energy_short(i)<a₁)并且

第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为-不包含潜在的语音信号的异常结束的第一时帧。

举例来说，当i＝3时，已经预设第0帧、第1帧和第2帧为不包含潜在的异常结束的第一时帧，进而可以判断第3帧，依次类推。

实际应用中处理的连续语音样本较长，通常按照时间顺序，第一时帧的前几个可以根据上述方法之一预设为不包含潜在的异常结束的第一时帧。由于实际应用中每帧持续时间只有几十毫秒，初始若干帧的检测结果忽略不计，并不会影响语音检测的准确度。

S43-2，比较第i帧之前的若干帧及第i帧的能量，如果第i帧能量迅速增大，即满足以下条件之一，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧。

d)(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且

(frame_energy_short(i-1)<a₁)，其中i≥1。

通常预设第0帧不是包含潜在的异常开始的目标第一时帧。当i≥1时，通过条件d)可以确定第1帧是否为包含潜在的异常开始的目标第一时帧。

e)(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且

(frame_energy_short(i-2)<a₁)并且

第(i-1)帧及第(i-2)帧均不是包含潜在的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

举例来说，当i＝2时，已经预设第0帧和第1帧是否为包含潜在的异常开始的第一时帧，进而可以判断第2帧，依次类推。

f)(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且

(frame_energy_short(i-3)<a₁)并且

第(i-1)帧至第(i-3)帧均不是包含潜在的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

举例来说，当i＝3时，已经预设第0帧、第1帧和第2帧为不包含潜在的异常开始的第一时帧，进而可以判断第3帧，依次类推。

实际应用中处理的连续语音样本较长，通常按照时间顺序，第一时帧的前几个可以根据上述方法之一预设为不包含潜在的异常开始的第一时帧。由于实际应用中每帧持续时间只有几十毫秒，初始若干帧的检测结果忽略不计，并不会影响语音检测的准确度。

在本发明实施例中，a₁＝38且a₂＝40。a₁和a₂，以及下述实施例中a₃至a₁₂等均是条件中预设的阈值，通常需要经过多方面考虑来确定。例如根据测试序列类型通过大样本训练得到阈值。此外，阈值与测试序列的音量大小有关系。

在条件b、c、e和f中，第i帧之前的若干帧是否为潜在的异常为已知条件。

上述过程S41至S43为粗略检测，接下来将进行S44至S46的精细检测。

S44，以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，按照时间顺序对每个第二时帧执行音调检测处理。

实际应用中处理的连续语音样本较长，通常会检测出多个潜在异常。从上得知一个第二时帧包括多个第一时帧，第二时帧长于第一时帧，因此第二帧也用于指示长时帧，第一时帧也用于指示短时帧。

以第二时帧帧长对连续语音样本进行分帧，获得一个或多个第二时帧，其中有些第二时帧中包括通过粗略检测确定的目标第一时帧，其中目标第一时帧包含潜在的语音信号的异常，这样的第二时帧也称为目标第二时帧。多个第二时帧中的第k个，称为第k个第二时帧，下面简称为第k帧。其中，第k-2帧、第k-1帧、第k帧、第k+1帧和第k+2帧为顺序排列的多个第二时帧。

音调检测的处理步骤包括：对每一个第二时帧进行FFT变换，获取功率密度谱；根据功率密度谱确定局部极大点；对以局部极大点为中心的一段频域区间进行分析，确定局部极大点所在的频带是否存在音调分量。该步骤采用了MPEG(英文为Moving PicturesExperts Group，中文为动态图像专家组)心理声学模型1中的音调检测算法，详细描述参见ISO/IEC(中文为国际标准化组织及国际电工委员会)11173-3，Annex D.1(Psychoacousticmodel 1)(中文为心理声学模型1)的步骤1及步骤4。

在本发明实施例中，特殊之处在于，不仅分析当前帧的总声压级这一特征之外，还分别分析当前帧中的音调分量和非音调分量，接下来分别用于计算另两个音调特征：音调分量声压级和非音调分量声压级。通过检测音调分量，可以获知每一个第二时帧的音调分量与非音调分量在频域上的分布情况，进而计算音调分量声压级及非音调分量声压级。

本发明实施例接下来的步骤用于进一步确定潜在的语音信号的异常是否是真正的语音信号的异常。举例来说，虽然，第k-1帧中可能没有包括潜在的语音信号的异常的第一时帧，但第k-1帧是第k帧的相邻第二时帧，则仍需计算第k-1帧的总声压级、音调分量声压级和非音调分量声压级，以应用在下述一个或多个确定条件中，从而确定第k帧所包括的目标第一时帧包括的潜在的语音信号的异常是否是真正的语音信号的异常。

S45，音调检测处理后，获取每一个第二时帧的总声压级、音调分量声压级和非音调分量声压级。

S45-1，根据下述公式2，获取第k帧的总声压级。

设spl_total(k)表示第k帧的总声压级：

其中，pow_spec(f)表示第k个第二时帧的功率密度谱，f＝0,1,2,…,(N₂/2-1)，N₂表示第二时帧长，本实施例设为512个样本点。声压级对应的是声音强度，其中声音强度越大，对应的能量自然大。因此，声压级能够反映出能量状况。本发明实施例利用总声压级这一特征用于反映第二时帧的总能量。

S45-2，根据下述公式3，获取音调分量声压级。

设spl_tonal(k)表示第k帧的音调分量声压级：

其中，N_k表示当前帧检测出来的音调分量的个数；音调分量所处位置标记为{f_tonal(0),f_tonal(1),f_tonal(2),…,f_tonal(N_k)}。

音调分量声压级这一特征用于描述第二时帧中音调分量的能量状况。如果spl_tonal(k)较大，说明第k帧处于音调分量较为丰富的区域。

S45-3，根据下述公式4，获取非音调分量声压级。

设spl_non_tonal(k)表示第k帧的非音调分量声压级：

其中，Φ_tonal表示音调分量及其相邻的分量在频域上的位置：

Φ_tonal＝

{f_tonal(0)-1,f_tonal(0),f_tonal(0)+1,f_tonal(1)-1,f_tonal(1),f_tonal(1)+1,

f_tonal(2)-1,f_tonal(2),f_tonal(2)+1,……,f_tonal(N_k)-1,f_tonal(N_k),f_tonal(N_k)+1}

公式5

非音调分量声压级这一特征用于描述第二时帧中非音调分量的能量状况。如果spl_non_tonal(k)较大，说明第k帧处于非音调分量较为丰富的区域。

在本发明实施例中，不同于现有技术，特别地针对每个第二时帧的音调分量和非音调分量进行了能量状况的分析，有助于接下来确定第二时帧所包括的潜在的语音信号的异常是否是真正的语音信号的异常。

S46，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的所述目标第一时帧所包括的潜在的语音信号的异常是否是真正的语音信号的异常。

确定方法包括S46-1或S46-2，其中S46-1可以确定真正的语音信号的异常间断，S46-2可以确定真正的语音信号的异常开始或异常结束，分别说明如下。

S46-1：如果第k帧的音调分量声压级满足以下条件g和条件h之一，则判断第k帧所包括的目标第一时帧所包含的潜在的异常为真正的异常间断：

g)spl_tonal(k)足够大，公式表达如下。

spl_tonal(k)≥a₃ 公式6

h)spl_tonal(k)相对较大，并且spl_total(k)足够大，公式表达如下。

(a₄≤spl_tonal(k)<a₃)并且(spl_total(k)>＝a₅) 公式7

在本发明实施例中，a₃＝55、a₄＝30且a₅＝58。

通过条件g或条件h，可以顺序确定每一个第二时帧所包括的目标第一时帧所包含的潜在的异常是否为真正的异常间断。

如果spl_tonal(k)及spl_total(k)满足上述条件，说明第k帧处于音调分量相对较为丰富的区域。在正常的情况下，粗略检测在音调分量较为丰富的区域是不可能检测到短时能量突变的；如果粗略检测能够检测出语音信号间断，则说明所检测出的间断为真正的异常间断。

图5A和图5B是根据本发明实施例的声压级分布曲线的示意图。参考图5A，51为输入信号，横轴表示样本点，纵轴表示归一化幅值。该图中包括多处持续时间较短的异常间断。图5B分别给出总声压级52、音调分量声压级53及非音调分量声压级54的曲线，横轴表示样本点，纵轴表示声压级数值。由于图5A的间断55处的声压级特征均满足上述条件，说明这些间断处于音调分量较为丰富的区域，是真正的异常间断。

S46-2，对于粗略检测检测出的其它结果，包括单独出现的异常开始或是异常结束，通过第k帧音调分量声压级的变化可以分别确定潜在的语音信号的异常是否是真正的异常。

对于正常的语音信号，粗略检测在开始部分时也可能会检测出较为明显的能量突变。但是其音调分量从无到有的变化过程必然是自然过渡的。如果spl_tonal(k)增长过于迅速，说明其音调分量从无到有的变化过程是很不自然的，相对应的开始是异常开始。有关异常结束的检测原理是类似的。

图6A和图6B是根据本发明实施例的声压级分布曲线的示意图。参考图6A，61为输入信号，横轴表示样本点，纵轴表示归一化幅值。图6B分别给出总声压级62、音调分量声压级63及非音调分量声压级64。图6B中的箭头65表示了自然开始处及箭头66表示了异常开始处的spl_tonal(k)的变化趋势。由图可见，异常开始处的spl_tonal(k)迅速增大，而自然开始处的spl_tonal(k)的变化趋势是存在自然过渡的。

其中，检测异常开始的步骤包括S46-2-1和S46-2-2。如果S46-2-1成立，再判断S46-2-2是否成立。如果S46-2-2成立，则为真正的异常开始；如果S46-2-2不成立，则不是真正的异常开始。如果S46-2-1不成立，则不必要再判断S46-2-2，肯定不是真正的异常开始。

S46-2-1，确定是否满足以下条件j和m之一。

j)(spl_total(k)-spl_total(k-1)≥a₆)并且(spl_total(k-1)及spl_total(k-2)增长平缓)其中k≥2且预设第0帧和第1帧的总声压级增长平缓。

m)(spl_total(k)-spl_total(k-2)≥a₆)并且

(spl_total(k)>spl_total(k-1))并且

(spl_total(k-1)>spl_total(k-2))并且

(spl_total(k-1)及spl_total(k-2)增长平缓)其中k≥2且预设第0帧和第1帧的总声压级增长平缓。

如果满足条件j和m之一，则第k帧的spl_total(k)增长过于迅速，则执行S46-2-2。如果不满足条件j和m之一，则没有必要再判断S46-2-2，肯定不是真正的异常开始。

其中总声压级增长平缓与增长过于迅速不同，增长平缓是指同时不满足上述增长过于迅速的判断条件j和m。此处需要特别说明的是，实际处理中，将初始若干帧初始化设置为增长平缓，从上述若干帧之后才开始进行判断。由于实际应用中每帧持续时间只有几十毫秒，初始若干帧的检测结果忽略不计。

S46-2-2，如果通过条件j或m检测出spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，则确定是否满足以下条件n和条件p之一。

n)(spl_tonal(k+1)≥a₇)并且

(spl_tonal(k)<a₈)并且

(spl_tonal(k+1)-sp_non_tonal(k)>0)并且

(spl_non_tonal(k-1)<a₉)

p)(spl_tonal(k+2)≥a₁₀)并且

(spl_tonal(k+1)<a₁₁)并且

(spl_tonal(k+2)-sp_non_tonal(k+1)>0)并且

(spl_non_tonal(k)<a₁₂)

如果满足条件n和条件p之一，则第k帧所包括的目标第一时帧所包括的潜在的语音信号的异常为真正的语音信号的异常开始；反之，则不是真正的异常开始。

此外，检测异常结束的步骤包括S46-2-3和S46-2-4。如果S46-2-3成立，再判断S46-2-4是否成立。如果S46-2-4成立，则为真正的异常结束；如果S46-2-4不成立，则不是真正的异常结束。如果S46-2-3不成立，则不必要再判断S46-2-4，肯定不是真正的异常结束。

S46-2-3，

确定是否满足以下条件q或r之一。

q)(spl_total(k-1)-spl_total(k)≥a₆)并且(spl_total(k-1)及spl_total(k-2)下降平缓)，其中k≥2且预设第0帧和第1帧的总声压级下降平缓。

r)(spl_total(k-2)-spl_total(k)≥a₆)并且

(spl_total(k-1)>spl_total(k))并且

(spl_total(k-2)>spl_total(k-1))并且

(spl_total(k-1)及spl_total(k-2)下降平缓)，其中k≥2且预设第0帧和第1帧的总声压级下降平缓。

如果spl_tonal(k)下降过于迅速，则说明第k帧的spl_total(k)下降过于迅速，则执行S46-2-4。如果不满足条件q和r之一，则没有必要再判断S46-2-4，肯定不是真正的异常结束。

其中总声压级下降平缓与下降过于迅速不同，下降平缓是指同时不满足上述下降过于迅速的判断条件q和r。此处需要特别说明的是，实际处理中，将初始若干帧初始化设置为下降平缓，从上述若干帧之后才开始进行判断。由于实际应用中每帧持续时间只有几十毫秒，初始若干帧的检测结果忽略不计。

S46-2-4，如果通过条件q或条件r检测出spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一下降过于迅速，则确定是否满足以下条件s或条件t之一。

s)(spl_tonal(k-1)≥a₇)并且

(spl_tonal(k)<a₈)并且

(spl_tonal(k-1)-sp_non_tonal(k)>0)并且

(spl_non_tonal(k+1)<a₉)，其中k≥1。

t)(spl_tonal(k-2)≥a₁₀)并且

(spl_tonal(k-1)<a₁₁)并且

(spl_tonal(k-1)-sp_non_tonal(k-2)>0)并且

(spl_non_tonal(k)<a₁₂)，其中k≥2。

在本实施例中，a₆＝25、a₇＝47、a₁₀＝50且a₈＝a₉＝a₁₁＝a₁₂＝10。

如果满足条件s和条件t之一，则第k帧所包括的目标第一时帧所包括的潜在的语音信号的异常为真正的语音信号的异常结束；反之，则不是真正的异常结束。

图7A是根据本发明实施例的检测语音信号的装置70的示意框图。装置70包括：第一检测单元71、帧单元72第二检测单元73。

第一检测单元71以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一。

帧单元72以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧。

第二检测单元73对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

本发明实施例提供了检测语音信号的装置，通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。

作为另一个实施例，图7B是根据本发明另一实施例的检测语音信号的装置70的示意框图。与图7A的装置70不同的是，第一检测单元71具体还可以包括：第一获取模块710和第一确定模块715。第二检测单元73具体还可以包括：第二获取模块730和第二确定模块735。

第一获取模块710以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)<a₁)，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

可选的，作为不同的实施例，第一确定模块715确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

第二获取模块730对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中所述第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数。

可选的，作为不同的实施例，第二确定模块735确定如果所述目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果所述目标第二时帧的音调特征满足(a₄≤spl_tonal(k)<a₃)并且(spl_total(k)>＝a₅)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a₃、a₄和a₅分别为预设的第三阈值、第四阈值和第五阈值。

可选的，作为不同的实施例，第二确定模块735判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k+1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k-1)<a₉)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k+2)≥a₁₀)，

(spl_tonal(k+1)<a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)>0)，

(spl_non_tonal(k)<a₁₂)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；并且，所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速包括：如果所述第二时帧的音调特征满足(spl_total(k)-spl_total(k-1)≥a₆)并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓；或如果所述第二时帧的音调特征满足(spl_total(k)-spl_total(k-2)≥a₆)并且(spl_total(k)>spl_total(k-1))并且(spl_total(k-1)>spl_total(k-2))并且(spl_total(k-1)及spl_total(k-2)增长平缓)，则spl_tonal(k)增长过于迅速，其中k≥2且预设第0帧和第1帧的总声压级增长平缓，其中a₆为预设的第六阈值；或如果所述第二时帧的音调特征同时不满足上述两个条件，则spl_tonal(k)增长平缓。

可选的，作为不同的实施例，第二确定模块735判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k-1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k-1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k+1)<a₉)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1；或判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k-2)≥a₁₀)，

(spl_tonal(k-1)<a₁₁)，

(spl_tonal(k-1)-sp_non_tonal(k-2)>0)，

(spl_non_tonal(k)<a₁₂)，

则所述第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k≥2；其中，a₇至a₁₂为预设的第七阈值至第十二阈值；所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，包括：如果所述第二时帧的音调特征满足(spl_total(k-1)-spl_total(k)≥a₆)并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果所述第二时帧的音调特征满足(spl_total(k-2)-spl_total(k)≥a₆)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k-2)>spl_total(k-1))并且(spl_total(k-1)及spl_total(k-2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total(k)下降平缓，其中a₆为预设的第六阈值。

装置70实现了方法30和40，出于简洁，具体细节不再赘述。

图8是根据本发明另一实施例的检测语音信号的装置80的示意框图。装置80包括处理器81、存储器82等组件，各组件通过总线相互通信。

处理器81用于执行存储器82存储的本发明实施例的程序，并通过总线与其他装置双向通信。

存储器82可以是包括RAM和ROM、或任何固定的存储介质、或可移动的存储介质，用于存储可以执行本发明实施例的程序，或本发明实施例中待处理的数据，或检测结果用于后续应用。

存储器82和处理器81也可以整合成应用本发明实施例的物理模块，在该物理模块上存储和运行实现该本发明实施例的程序。

在本发明实施例中，处理器81以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧；对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

确定所述潜在的语音信号的异常是否是真正的语音信号的异常后，处理器可以将结果发送到存储器存储以执行其他处理。

其中，处理器81可以具体以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short(i)，其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；接下来通过分析获取的所述第一时帧的能量之间的关系，参考条件a至f确定第i帧为包含潜在的语音信号的异常的目标第一时帧。

可选的，作为不同的实施例，处理器81确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

可选的，作为不同的实施例，处理器81确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

可选的，作为不同的实施例，处理器81确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)<a₁)，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

可选的，作为不同的实施例，处理器81确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

可选的，作为不同的实施例，处理器81确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)<a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

然后，处理器81对所述一个或多个第二时帧按照时间顺序执行音调检测处理，获取所述第k帧的总声压级(spl_total(k))、音调分量声压级(spl_tonal(k))和非音调分量声压级(spl_non_tonal(k))，其中第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数。最后处理器通过分析第二时帧的音调特征符合条件g至t，确定所述第k帧包括的潜在的语音信号的异常是否是真正的语音信号的异常。

可选的，作为不同的实施例，处理器81确定如果所述目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果所述目标第二时帧的音调特征满足(a₄≤spl_tonal(k)<a₃)并且(spl_total(k)>＝a₅)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a₃、a₄和a₅分别为预设的第三阈值、第四阈值和第五阈值。

可选的，作为不同的实施例，处理器81判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k+1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k-1)<a₉)，

(spl_tonal(k+2)≥a₁₀)，

(spl_tonal(k+1)<a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)>0)，

(spl_non_tonal(k)<a₁₂)，

可选的，作为不同的实施例，处理器81判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足：

(spl_tonal(k-1)≥a₇)，

(spl_tonal(k)<a₈)，

(spl_tonal(k-1)-sp_non_tonal(k)>0)，

(spl_non_tonal(k+1)<a₉)，

(spl_tonal(k-2)≥a₁₀)，

(spl_tonal(k-1)<a₁₁)，

(spl_tonal(k-1)-sp_non_tonal(k-2)>0)，

(spl_non_tonal(k)<a₁₂)，

装置80实现了本发明实施例的方法30和40，出于简洁，具体细节不再赘述。

本发明实施例提供了一种检测语音信号的装置，通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种检测语音信号的方法，其特征在于，包括：

以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；

以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧；

对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

2.根据权利要求1所述的方法，其特征在于，所述以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量包括：

以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧；

获取每一个所述第一时帧的能量frame_energy_short(i)，其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数。

3.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括：

如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

4.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括：

如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

5.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括：

如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

6.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧包括：

如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)＜a₁)，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

7.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧包括：

如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

8.根据权利要求2所述的方法，其特征在于，所述通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧包括：

如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

9.根据权利要求1至8任一所述的方法，其特征在于，所述对每个所述第二时帧进行处理以获取音调特征包括：

对所述多个第二时帧按照时间顺序执行音调检测处理；

获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)作为所述第k帧的音调特征，其中所述第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数。

10.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括：

如果所述目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或

如果所述目标第二时帧的音调特征满足(a₄≤spl_tonal(k)＜a₃)并且(spl_total(k)＞＝a₅)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，

a₃、a₄和a₅分别为预设的第三阈值、第四阈值和第五阈值。

11.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括：

判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，且，

所述第二时帧的音调特征满足：

(spl_tonal(k+1)≥a₇)，

(spl_tonal(k)＜a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)＞0)，

(spl_non_tonal(k-1)＜a₉)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或

所述第二时帧的音调特征满足：

(spl_tonal(k+2)≥a₁₀)，

(spl_tonal(k+1)＜a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)＞0)，

(spl_non_tonal(k)＜a₁₂)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，

a₇至a₁₂为预设的第七阈值至第十二阈值；

并且，所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，包括：

如果所述第二时帧的音调特征满足第一条件，则spl_tonal(k)增长过于迅速，所述第一条件为：(spl_total(k)-spl_total(k-1)≥a₆)并且(spl_total(k-1)及spl_total(k-2)增长平缓)，其中k≥2且预设第0帧和第1帧的总声压级增长平缓；或

如果所述第二时帧的音调特征满足第二条件，则spl_tonal(k)增长过于迅速，所述第二条件为：(spl_total(k)-spl_total(k-2)≥a₆)并且(spl_total(k)＞spl_total(k_-1))并且(spl_total(k-1)＞spl_total(k-2))并且(spl_total(k-1)及spl_total(k-2)增长平缓)，其中k≥2且预设第0帧和第1帧的总声压级增长平缓，其中a₆为预设的第六阈值；或

如果所述第二时帧的音调特征同时不满足所述第一条件和所述第二条件，则spl_tonal(k)增长平缓。

12.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括：

判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一下降过于迅速，且，

所述第二时帧的音调特征满足：

(spl_tonal(k-1)≥a₇)，

(spl_tonal(k)＜a₈)，

(spl_tonal(k-1)-sp_non_tonal(k)＞0)，

(spl_non_tonal(k+1)＜a₉)，

则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1；或

所述第二时帧的音调特征满足：

(spl_tonal(k-2)≥a₁₀)，

(spl_tonal(k-1)＜a₁₁)，

(spl_tonal(k-1)-sp_non_tonal(k-2)＞0)，

(spl_non_tonal(k)＜a₁₂)，

则所述第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k≥2；

其中，a₇至a₁₂为预设的第七阈值至第十二阈值；

并且所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，包括：

如果所述第二时帧的音调特征满足第一条件，则spl_total(k)下降过于迅速，所述第一条件为：(spl_total(k-1)-spl_total(k)≥a₆)并且(spl_total(k-1)及spl_total(k-2)下降平缓)，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或

如果所述第二时帧的音调特征满足第二条件，则spl_total(k)下降过于迅速，所述第二条件为：(spl_total(k-2)-spl_total(k)≥a₆)并且(spl_total(k-1)＞spl_total(k))并且(spl_total(k-2)＞spl_total(k-1))并且(spl_total(k-1)及spl_total(k-2)下降平缓)，其中k≥2且预设第0帧和第1帧的总声压级下降平缓；或

如果同时不满足所述第一条件和所述第二条件，则spl_total(k)下降平缓，

其中a₆为预设的第六阈值。

13.一种检测语音信号的装置，其特征在于，包括：

第一检测单元，用于以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；

帧单元，用于以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧；

第二检测单元，用于对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。

14.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short(i)，其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；

第一确定模块：用于确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-1)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

15.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一确定模块，所述第一确定模块，用于确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-2)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常结束的第一时帧。

16.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一确定模块：所述第一确定模块，用于确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i-3)-frame_energy_short(i)≥a₂)并且(frame_energy_short(i)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。

17.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-1)≥a₂)并且(frame_energy_short(i-1)＜a₁)，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中a₁和a₂分别为预设的第一阈值和第二阈值，其中i≥1。

18.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-2)≥a₂)并且(frame_energy_short(i-2)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧及第(i-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥2且第0帧和第1帧预设为不包含潜在的语音信号的异常开始的第一时帧。

19.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括：

第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short(i)-frame_energy_short(i-3)≥a₂)并且(frame_energy_short(i-3)＜a₁)，其中a₁和a₂分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(i-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第0帧、第1帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。

20.根据权利要求13至19任一项所述的装置，其特征在于，所述第二检测单元包括：

第二获取模块，用于对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中所述第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数；

第二确定模块，用于确定如果所述目标第二时帧的音调特征满足spl_tonal(k)≥a₃，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或

21.根据权利要求13至19所述的任一项所述的装置，其特征在于，所述第二检测单元包括：

第二确定模块，用于判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一增长过于迅速，且，

所述第二时帧的音调特征满足：

(spl_tonal(k+1)≥a₇)，

(spl_tonal(k)＜a₈)，

(spl_tonal(k+1)-sp_non_tonal(k)＞0)，

(spl_non_tonal(k-1)＜a₉)，

所述第二时帧的音调特征满足：

(spl_tonal(k+2)≥a₁₀)，

(spl_tonal(k+1)＜a₁₁)，

(spl_tonal(k+2)-sp_non_tonal(k+1)＞0)，

(spl_non_tonal(k)＜a₁₂)，

a₇至a₁₂为预设的第七阈值至第十二阈值；

并且，所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否增长过于迅速包括：

如果所述第二时帧的音调特征满足第二条件，则spl_tonal(k)增长过于迅速，所述第二条件为：(spl_total(k)-spl_total(k-2)≥a₆)并且(spl_total(k)＞spl_total(k-1))并且(spl_total(k-1)＞spl_total(k-2))并且(spl_total(k-1)及spl_total(k-2)增长平缓)，其中k≥2且预设第0帧和第1帧的总声压级增长平缓，其中a₆为预设的第六阈值；或

22.根据权利要求13至19所述的任一项所述的装置，其特征在于，所述第二检测单元包括：第二获取模块，用于对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total(k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal(k)，其中所述第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数；

第二确定模块，用于判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一下降过于迅速，且，

所述第二时帧的音调特征满足：

(spl_tonal(k-1)≥a₇)，

(spl_tonal(k)＜a₈)，

(spl_tonal(k-1)-sp_non_tonal(k)＞0)，

(spl_non_tonal(k+1)＜a₉)，

判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，若spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，且，

所述第二时帧的音调特征满足：

(spl_tonal(k-2)≥a₁₀)，

(spl_tonal(k-1)＜a₁₁)，

(spl_tonal(k-1)-sp_non_tonal(k-2)＞0)，

(spl_non_tonal(k)＜a₁₂)，

其中，a₇至a₁₂为预设的第七阈值至第十二阈值；

所述判断spl_total(k)、spl_total(k-1)及spl_total(k+1)的其中之一是否下降过于迅速，包括：

其中a₆为预设的第六阈值。