CN111883182A

CN111883182A - 人声检测方法、装置、设备及存储介质

Info

Publication number: CN111883182A
Application number: CN202010723751.1A
Authority: CN
Inventors: 付姝华; 汪斌
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-03
Anticipated expiration: 2040-07-24
Also published as: WO2021135547A1; CN111883182B

Abstract

本发明涉及人工智能技术领域，提出了人声检测方法、装置、设备及存储介质，该方法包括：通过当前帧音频信号和前多帧音频信号获取时域包络信息，通过当前帧音频信号获取各子带能量，对时域包络信息进行时域数据分析，对各子带能量进行频域数据分析，根据分析结果分别计算当前帧音频信号的时域维度的第一人声检测概率值和频域维度的第二人声检测概率值，根据两个人声检测概率值综合计算得出当前帧的人声概率值，通过上述方式，增加了人声检测的精度，准确区分人声和非平稳噪声，有效避免对人声产生损伤，同时提升了对非平稳噪声的抑制效果，通过门阀值的更新适应通话场景的变化，实现对有效人声的快速跟踪。

Description

人声检测方法、装置、设备及存储介质

【技术领域】

本发明涉及音频处理技术领域，还涉及人工智能领域，尤其涉及一种人声检测方法、装置、设备及存储介质。

【背景技术】

VAD(语音活动检测)语音编码技术应用非常普及，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。如静音不发包可以节省宝贵的带宽资源，有利于减少用户感觉到的端到端的时延。但目前的VAD技术一般只能分辨静音和非静音，如果能进一步识别人声和非人声，语音编码则可进一步提升带宽利用率。

同时，识别人声和非人声在噪声抑制技术中更发挥着关键作用，噪声抑制来代表了音频前后处理的典型应用，亦决定着一款通话产品性能的成功基础，把非人声作为噪声去跟踪抑制，可以极大提升噪声抑制性能。

现有技术在噪声抑制中的人声检测采用了一部分VAD技术加以改进用以跟踪噪声，此类技术对平稳噪声抑制效果较好，但对非平稳噪声抑制效果很差。

因此，有必要提供一种新的人声检测方法。

【发明内容】

本发明的目的在于提供一种人声检测方法、装置及存储介质，解决现有技术中不能准确区分人声和非平稳噪声导致的对非平稳噪声抑制效果很差的技术问题。

本发明的技术方案如下：提供一种人声检测方法，包括：

根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息；

根据所述时域包络信息获取当前帧音频信号的时域包络信息值；

获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量；

根据所述各子带能量获取当前帧音频信号的子带能量信息值；

分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值；

根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值；

根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值；

根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。

优选地，所述根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息，包括：

获取音频样本中各帧音频信号的最大值；

计算所述音频样本中最近多帧音频信号最大值的均值并将所述均值作为平均包络值，所述最近多帧音频信号包括当前帧音频信号和当前帧音频信号之前的多帧音频信号，将所述最近多帧音频信号的最大值以及所述平均包络值作为所述时域包络信息。

优选地，所述根据所述时域包络信息获取当前帧音频信号的时域包络信息值，包括：

获取最近多帧音频信号中每帧音频信号的最大值与所述平均包络值的差值；

将每帧音频信号最大值与所述平均包络值的差值进行对数运算，得到所述差值对应的对数值；

将每帧音频信号的所述对数值进行累加，得到当前帧音频信号的时域包络信息值。

优选地，所述获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量，包括：

通过傅里叶变换将当前帧音频信号从时域变换到频域，生成当前帧音频信号对应的频域信号；

对所述频域信号进行子带划分处理，计算各个子带的子带能量。

优选地，所述根据所述各子带能量获取当前帧音频信号的子带能量信息值，包括：

根据所述各子带能量计算各子带能量的平均能量值；

获取每个子带的子带能量与平均能量值的差值；

将每个子带的差值进行对数运算，得到所述差值对应的对数值；

将每个子带的对数值进行累加，得到当前帧音频信号的子带能量信息值。

优选地，确定当前帧音频信号的时域包络信息门阀值，包括：

根据当前时间之前的第一预设时间范围内时域包络信息值的最小值对所述时域包络信息门阀值进行更新；

确定当前帧音频信号的子带能量信息门阀值，包括：。

根据当前时间之前的第一预设时间范围内子带能量信息值的最小值对所述子带能量信息门阀值进行更新。

优选地，所述根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值，包括：

获取所述时域包络信息值与所述时域包络信息门阀值的差值；

将所述时域包络信息值与所述时域包络信息门阀值的差值进行归一化处理得到第一人声概率值；

所述根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值，包括：

获取所述子带能量信息值与所述子带能量信息门阀值的差值；

将所述子带能量信息值与所述子带能量信息门阀值的差值进行归一化处理得到第二人声概率值；

所述根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值之前，还包括：

将所述第一人声概率值和所述第二人声概率值上传至区块链中，以使得所述区块链对所述第一人声概率值和所述第二人声概率值进行加密存储。

优选地，当前帧音频信号的人声概率值为所述第一人声概率值和所述第二人声概率值的乘积；所述根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值之后，还包括：

若所述当前帧音频信号的人声概率值大于或等于第一要求概率，则判断所述当前帧音频信号为人声帧；

按照所述人声帧对应的编码方式对所述当前帧音频信号进行编码；

若所述当前帧音频信号的人声概率值小于第一要求概率，则判断所述当前帧音频信号为非人声帧；

按照所述非人声帧对应的编码方式对所述当前帧音频信号进行编码。

本发明的另一技术方案如下：提供一种人声检测装置，包括：

时域特征提取模块，用于根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息；

时域特征计算模块，用于根据所述时域包络信息获取当前帧音频信号的时域包络信息值；

频域特征提取模块，用于获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量；

频域特征计算模块，用于根据所述各子带能量获取当前帧音频信号的子带能量信息值；

门阀值确定模块，用于分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值；

时域人声检测模块，用于根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值；

频域人声检测模块，用于根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值；

人声概率计算模块，用于根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。

本发明的另一技术方案如下：提供一种电子设备，所述设备包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有用于实现上述的人声检测方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令以进行人声检测。

本发明的另一技术方案如下：提供一种存储介质，所述存储介质内存储有能够实现上述的人声检测方法的程序指令。

本发明的有益效果在于：本发明的人声检测方法、装置、设备及存储介质，通过当前帧音频信号和前多帧音频信号获取时域包络信息，通过当前帧音频信号获取各子带能量，再对时域包络信息进行时域数据分析，对各子带能量进行频域数据分析，根据两个分析结果分别计算当前帧音频信号的时域维度的第一人声检测概率值和频域维度的第二人声检测概率值，最后根据两个人声检测概率值综合计算得出当前帧的人声概率值，通过上述方式，增加了人声检测的精度，能够准确区分人声和非平稳噪声，有效避免对人声产生损伤，同时提升了对非平稳噪声的抑制效果，另外，通过门阀值的更新适应通话场景的变化，实现对有效人声的快速跟踪。

【附图说明】

图1为本发明第一实施例的人声检测方法的流程示意图；

图2为本发明第二实施例的人声检测方法的流程示意图；

图3为本发明第三实施例的人声检测装置的结构示意图；

图4为本发明第四实施例的人声检测装置的结构示意图；

图5为本发明第五实施例的存储介质的结构示意图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本发明实施例中，每一帧音频信号是单位时间内的音频原始数字信号，该帧音频信号可以是静音帧、人声帧或环境噪声帧中的任意一种。其中，静音帧是指没有能量的原始音频数字信号帧；人声帧和环境噪声帧均为有能量的原始音频数字信号帧，环境噪声帧和静音帧为非人声帧；人声帧中的主要声音是人说话时发出的声音，人声帧为音频原始数字信号中人声占比较大的音频信号；环境噪声帧中的主要声音不是人说话时发出的声音，环境噪声帧为音频原始数字信号中人声占比较小的音频信号。在本实施例中，对每一帧音频信号进行人声检测，确定当前帧音频信号是否为人声帧，由于静音帧与人声帧容易区别，人声检测时主要是区分该帧音频信号为环境噪声帧还是人声帧。

在本发明本实施例中，通过当前帧音频信号和前多帧音频信号获取时域包络信息，通过当前帧音频信号获取各子带能量，再对时域包络信息进行时域数据分析，对各子带能量进行频域数据分析，根据两个分析结果分别计算当前帧音频信号的时域维度的第一人声检测概率值和频域维度的第二人声检测概率值，最后根据两个人声检测概率值综合计算得出当前帧是否为人声帧。

图1是本发明第一实施例的人声检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该人声检测方法包括步骤：

S101，根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息。

在步骤S101中，获取的为最近多帧音频信号的时域包络信息，第一个包络信息为每帧音频信号的最大值vmax，第二个包络信息为最大值的均值(平均包络值envelopeAve)。具体地，当需要对待检测的音频样本进行人声检测时，先对音频样本进行分帧，其中，每一帧音频信号包括多个采样点，每个采样点具有幅度。每一帧音频信号的最大值为该音频信号的各个采样点幅度的最大值，设第t帧音频信号包括n个采样点，n个采样点分别为Xt(1)，Xt(2)，……，Xt(n)，其中，Xt(n)表示第t帧音频信号中第n个采样点，于是，第t帧音频信号的最大值vmax＝max(Xt(1)，Xt(2)，……，Xt(n))。

在步骤S101中，记录每帧音频信号的最大值vmax，再利用最近M帧音频信号的最大值(vmax(1)，vmax(2)，……，vmax(M))计算平均包络值envelopeAve，最近M帧音频信号包括当前帧音频信号(第M帧)以及位于当前帧音频信号之前的M-1帧音频信号(第1帧，第2帧，……，第M-1帧)，将该M-1帧音频信号以及当前帧音频信号的最大值进行累加得到累加值

再将累加值

除以M计算平均包络值envelopeAve。

S102，根据所述时域包络信息获取当前帧音频信号的时域包络信息值。

在步骤S102中，根据步骤S101获取的音频信号的时域包络信息进行时域数据分析，对时域包络信息进行量化，得到时域包络信息值(时域包络信息的量化值)，在本实施例中，对于当帧前音频信号，时域包络信息通过以下方式进行量化计算：首先，获取最近多帧音频信号中每帧音频信号的最大值与所述平均包络值的差值；然后，将每帧音频信号的差值进行对数运算，得到所述差值对应的对数值；最后，将每帧音频信号的对数值进行累加，得到当前帧音频信号的时域包络信息值。在本实施例中，由于时域包络信息是根据最近多帧音频信号获取的，人声的时域包络可以看成平滑的曲线，与环境噪声表现出的特征不同，因此，时域包络信息值能够很好地反映出声音的变化，利用时域包络信息值能够准确检测出是否有人声出现。

具体地，按照如下公式计算时域包络信息值envlopEng：

其中，vMax(i)为最近M帧音频信号中第i帧音频信号，i为1,2,……,M，envelopeAve为平均包络值。

S103，获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量。

在步骤S103中，当前帧音频信号为时域信号，要对该信号提取频域特征，首先，通过傅里叶变换将当前帧音频信号从时域变换到频域，生成当前帧音频信号对应的频域信号；对该频域信号进行子带划分处理，计算各个子带的能量。具体地，将当前帧音频信号对应的频域信号C划分为N个子带，并设置子带的结束位置为b(1)、b(2)、……、b(k)、……b(N)，且b(0)＝1，则各子带能量为subEng(k)。

S104，根据所述各子带能量获取当前帧音频信号的子带能量信息值。

在步骤S104中，首先，根据所述各子带能量计算各子带能量的平均能量值，即将各子带能量值subEng(k)进行累加得到累加值

再将累加值

除以N得到平均能量值aveSubEng；然后，获取每个子带的子带能量subEng(k)与平均能量值aveSubEng的差值；然后，将每个子带的差值进行对数运算，得到所述差值对应的对数值；最后，将每个子带的对数值进行累加，得到当前帧音频信号的子带能量信息值。在本实施例中，根据不同子带的子带能量与各子带能量的平均能量值计算子带能量信息值，由于人声具有对应覆盖的预设频带，该子带能量信息值能够反映出人声独特的子带能量分布特征，因此，该子带能量信息值能够很好的将人声与环境噪声进行区分。

具体地，按照如下公式计算子带能量信息值entroEng：

其中，subEng(k)为第k个子带的子带能量，k为1,2,……,N，aveSubEng为各子带能量的平均能量值。

S105，分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值。

在一个可选的实施方式中，当前帧音频信号的时域包络信息门阀值envlopEngThrd可以根据当前时间之前的第一预设时间范围内时域包络信息值envlopEng的最小值进行更新；当前帧音频信号的子带能量信息门阀值可以根据当前时间之前的第一预设时间范围内子带能量信息值entroEng的最小值进行更新。也就是说，时域包络信息门阀值和子带能量信息门阀值均根据通话场景的变化进行调整，若当前时间之前的第一预设时间范围内环境噪声较大时，时域包络信息门阀值和子带能量信息门阀值分别相对不同程度增大；若当前时间之前的第一预设时间范围内环境较安静时，时域包络信息门阀值和子带能量信息门阀值分别相对不同程度减小。

S106，根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值。

在步骤S106中，基于特征的语音概率函数将每帧音频信号映射到一个概率值得出概率值，对于时域特征，首先，获取所述时域包络信息值与所述时域包络信息门阀值的差值；然后，将所述时域包络信息值与所述时域包络信息门阀值的差值进行归一化处理得到第一人声概率值。

具体地，按照如下公式计算第一人声概率值SpeechProb1：

SpeechProb1＝sigmoid(envlopEng-envlopEngThrd)，其中，envlopEng为时域包络信息值，envlopEngThrd为时域包络信息门阀值。

S107，根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值。

在步骤S107中，基于特征的语音概率函数将每帧音频信号映射到一个概率值得出概率值，对于频域特征，首先，获取所述子带能量信息值与所述子带能量信息门阀值的差值；然后，将所述子带能量信息值与所述子带能量信息门阀值的差值进行归一化处理得到第二人声概率值。

具体地，按照如下公式计算第二人声概率值SpeechProb2：

SpeechProb1＝sigmoid(entroEng-entroEngThrd)，其中，entroEng为子带能量信息值，entroEngThrd为子带能量信息门阀值。

S108，根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。

在步骤S108中，根据第一人声概率值和第二人声概率值的乘积计算当前帧音频信号的人声概率值。具体地，人声概率值SpeechProb通过如下公式计算：

SpeechProb＝SpeechProb1*SpeechProb2，其中，SpeechProb1为第一人声概率值，SpeechProb2为第二人声概率值。

在步骤S108中，基于人声的特征，从基于时域特征计算的第一人声概率值和基于频域特征计算的第二人声概率值综合得到当前帧音频信号的人声概率值，同时考虑时域和频域两个维度，避免只考虑单个维度，造成对人声的误判。当然，本领域技术人员可以理解，除上述人声概率值的计算方式外，在其他实施例中，可以为时域和频域两个维度分别设置不同的权重值，根据第一人声概率值和时域权重值以及第二人声概率值和频域权重值计算最终的人声概率值。

图2是本发明第二实施例的人声检测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该人声检测方法包括步骤：

S200，对音频样本中的音频信号进行预处理，所述预处理的处理方式包括重采样处理、降噪处理、啸叫抑制处理、回声消除处理中的至少一种。

在步骤S200中，重采样处理包括向上重采样处理和向下重采样处理中的至少一种，在向上重采样处理时，对该音频信号进行差值处理，在向下重采样处理时，对该音频信号进行抽取处理；降噪处理是指对音频信号中的噪声部分进行消除的处理方式；啸叫抑制处理是指对音频信号中出现的啸叫情况进行消除，可以采用如频率均衡法，通过将系统的频率响应调成近似的直线，使各频率的增益基本一致消除啸叫等方式进行啸叫抑制；回声消除处理可以通过回声消除(Echo Cancellation，EC)技术实现，回声分为声学回音(Acoustic Echo)和线路回音(Line Echo)，相应的回声消除技术对应有声学回声消除(Acoustic Echo Cancellation，AEC)和线路回声消除(Line Echo Cancellation，LEC)。

S201，根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息。

S202，根据所述时域包络信息获取当前帧音频信号的时域包络信息值。

S203，获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量。

S204，根据所述各子带能量获取当前帧音频信号的子带能量信息值。

S205，分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值。

S206，根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值。

S207，根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值。

S208，将所述第一人声概率值和所述第二人声概率值上传至区块链中，以使得所述区块链对所述第一人声概率值和所述第二人声概率值进行加密存储。

S209，根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。

S210，根据所述人声概率值确认当前帧音频信号是否为人声帧。

步骤S201至步骤S207以及步骤S209具体参见第一实施例的描述，在此不进行一一赘述。

在步骤S208中，具体地，基于所述第一人声概率值和所述第二人声概率值得到对应的摘要信息，具体来说，摘要信息由所述第一人声概率值或所述第二人声概率值进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述第一人声概率值和所述第二人声概率值是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在步骤S210中，若所述当前帧音频信号的人声概率值大于或等于第一要求概率，则判断所述当前帧音频信号为人声帧；按照所述人声帧对应的编码方式对所述当前帧音频信号进行编码，得到第一音频编码流；对所述第一音频编码流进行发送。

在步骤S210中，若所述当前帧音频信号的人声概率值小于第一要求概率，则判断所述当前帧音频信号为非人声帧；按照所述非人声帧对应的编码方式对所述当前帧音频信号进行编码，得到第二音频编码流；对所述第二音频编码流进行发送。具体地，对于非人声帧，可以通过对数字信号值的修改，将所述非人声帧归一化为静音帧。若确定当前帧音频信号为非人声帧(环境噪声帧或静音帧)，则可在通话应用里，减少非人声的传输，有效减少对带宽的占用，提升带宽利用率，减少传输延时，提升客户通话体验。

图3为本发明第三实施例的人声检测装置的结构示意图。如图3所示，该装置30包括时域特征提取模块31、时域特征计算模块32、频域特征提取模块33、频域特征计算模块34、门阀值确定模块35、时域人声检测模块36、频域人声检测模块37和人声概率计算模块38，其中，时域特征提取模块31用于根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息。时域特征计算模块32用于根据所述时域包络信息获取当前帧音频信号的时域包络信息值。频域特征提取模块33用于获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量。频域特征计算模块34用于根据所述各子带能量获取当前帧音频信号的子带能量信息值。门阀值确定模块35用于分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值。时域人声检测模块36用于根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值。频域人声检测模块37用于根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值。人声概率计算模块38用于根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。

图4是本发明第四实施例的电子设备的结构示意图。如图4所示，该电子设备40包括处理器41及和处理器41耦接的存储器42。

存储器42存储有用于实现上述任一实施例的人声检测方法的程序指令。

处理器41用于执行存储器42存储的程序指令以进行人声检测。

其中，处理器41还可以称为CPU(Central Processing Unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图5，图5为本发明第五实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有人声检测方法的程序指令51，其中，该程序指令51可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种人声检测方法，其特征在于，包括：

2.根据权利要求1所述的人声检测方法，其特征在于，所述根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息，包括：

获取音频样本中各帧音频信号的最大值；

3.根据权利要求2所述的人声检测方法，其特征在于，所述根据所述时域包络信息获取当前帧音频信号的时域包络信息值，包括：

4.根据权利要求1所述的人声检测方法，其特征在于，所述获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量，包括：

5.根据权利要求1所述的人声检测方法，其特征在于，所述根据所述各子带能量获取当前帧音频信号的子带能量信息值，包括：

根据所述各子带能量计算各子带能量的平均能量值；

获取每个子带的子带能量与平均能量值的差值；

6.根据权利要求1所述的人声检测方法，其特征在于，确定当前帧音频信号的时域包络信息门阀值，包括：

确定当前帧音频信号的子带能量信息门阀值，包括：

7.根据权利要求1所述的人声检测方法，其特征在于，所述根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值，包括：

8.一种人声检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有用于实现如权利要求1～7中任一项所述的人声检测方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令以进行人声检测。

10.一种存储介质，其特征在于，所述存储介质内存储有能够实现如权利要求1～7中任一项所述的人声检测方法的程序指令。