CN108877776A

CN108877776A - 语音端点检测方法、装置、计算机设备和存储介质

Info

Publication number: CN108877776A
Application number: CN201810574596.4A
Authority: CN
Inventors: 王健宗; 于夕畔; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2018-11-23
Anticipated expiration: 2038-06-06
Also published as: WO2019232884A1; CN108877776B

Abstract

本申请揭示了一种语音端点检测方法、装置、计算机设备和存储介质，其中方法包括：将语音信号进行分帧，得到多个帧；计算每个帧的能量值；当有连续X帧的能量值高于第一阈值，定义连续X帧的第一帧为激活帧；从所述激活帧开始，判断所述激活帧之后的帧是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；若是，判定所述连续Y帧的第一帧处开始是语音前端点；判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；若是，确定所述连续B帧的最后一帧的时间点为语音后端点。本申请根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。

Description

语音端点检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种语音端点检测方法、装置、计算机设备和存储介质。

背景技术

在会议智能系统中，对声道中的语音进行提取是一项关键技术，但在提取过程中会受到周围环境的干扰，如会议室中办公人员及物品的动作，设备仪器本身带来的噪音等。这些环境、设备等因素的干扰会使系统对语音端点的定位检测造成影响。

所以提供一种新的语音端点检测方法是亟需解决的问题。

发明内容

本申请的主要目的为提供一种定位准确、可以减小环境因素干扰的语音端点检测方法、装置、计算机设备和存储介质。

为了实现上述发明目的，本申请提出一种语音端点检测方法，包括：

将语音信号进行分帧，得到多个帧；

计算每个帧的能量值；

判断是否有连续X帧的能量值高于第一阈值；

若是，定义所述连续X帧的第一帧为激活帧；

从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；

若是，判定所述连续Y帧的第一帧处开始是语音前端点；

判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；

若是，确定所述连续B帧的最后一帧的时间点为语音后端点。

进一步地，所述计算每个帧的能量值的步骤，包括：

对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算，得到所述目标帧的能量值。

进一步地，所述判断是否有连续X帧的能量值高于第一阈值的步骤之前，包括：

根据场景中无人的声音信号，计算出基础能量值；

将所述基础能量值加上预设的环境能量值，得出所述第一阈值；

将所述基础能量值加上预设的说话能量值，得出所述第二阈值。

进一步地，所述语音端点检测方法还包括：

根据不同规模的会议室中会议场景时无人说话的声音信号，计算出各规模的会议室对应的环境能量值；

为所述各规模的会议室对应的环境能量值添加对应的环境标签，所述环境标签用于指示会议室的规模。

进一步地，所述将所述基础能量值加上用户输入的环境能量值，得出第一阈值的步骤包括：

根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签；

根据所述目标环境标签，调用对应的环境能量值；

将所述基础能量值加上所述目标环境标签对应的环境能量值，得出第一阈值。

进一步地，所述根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签的步骤之前，还包括：

获取所述目标会议室的面积；

根据所述目标会议室的面积，确定所述目标会议室的规模。

进一步地，所述确定所述连续B帧的最后一帧的时间点为语音后端点的步骤之后，包括：

判断所述语音后端点后帧的能量是否小于所述第一阈值；

若是，关闭语音端点检测功能。

本申请还提供一种语音端点检测装置，包括：

分帧模块，用于将语音信号进行分帧，得到多个帧；

计算模块，用于计算每个帧的能量值；

第一判断模块，用于判断是否有连续X帧的能量值高于第一阈值；

激活帧模块，用于若有连续X帧的能量值高于第一阈值，定义所述连续X帧的第一帧为激活帧；

第二判断模块，用于从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；

前端点模块，用于若所述激活帧之后的帧有连续Y帧的能量值高于第二阈值，判定所述连续Y帧的第一帧处开始是语音前端点；

第三判断模块，用于判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；

后端点模块，用于若所述语音前端点之后有连续B帧的能量值低于第二阈值，确定所述连续B帧的最后一帧的时间点为语音后端点。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的语音端点检测方法、装置、计算机设备和存储介质，根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。在计算能量值时，将语音信号的各帧进行聚类计算，使各帧的语音信号的能量值计算的更加合理，对应的获取的语音端点更加准确。通过自动获取会议室的大小，从而可以自动获取环境能量值，获取更加准确的语音能量阈值，对应的检测语音端点值更方便。

附图说明

图1为本申请一实施例的语音端点检测方法的流程示意图；

图2为本申请一实施例的上述语音端点检测方法中环境能量值的设置方法的具体流程示意图；

图3为本申请一实施例的语音端点检测方法的第一阈值的计算方法的具体流程示意图；

图4为本申请一实施例的语音端点检测装置的结构示意框图；

图5为本申请一实施例的语音端点检测装置的结构示意框图；

图6为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

参照图1，本申请实施例提供一种语音端点检测方法，包括步骤：

S1、将语音信号进行分帧，得到多个帧；

S2、计算每个帧的能量值；

S3、判断是否有连续X帧的能量值高于第一阈值；

S4、若是，定义所述连续X帧的第一帧为激活帧；

S5、从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；

S6、若是，判定所述连续Y帧的第一帧处开始是语音前端点；

S7、判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；

S8、若是，确定所述连续B帧的最后一帧的时间点为语音后端点。

如上述步骤S1所述，语音信号是系统实时采集会议室里的声音生成的语音信号。语音信号虽然具有时变特性，即语音信号的能量会因为会议室里的声音音量大小不同而发生变化。但是语音信号在一个短时间范围内(一般认为是10ms-30ms的短时间内)，其基本特性基本保持不变即相对稳定。帧是语音信号中的一小段信号。将语音信号进行“短时分析”，则需要将语音信号分段来进行分析，即分帧。例如，将一段语音按照帧长进行时间分段，帧长取10ms-30ms。如一段语音时间长为20s，按照帧长为20ms进行分段，则帧数就被分为了20,000/20＝1000帧。系统调用分帧函数将语音信号进行分帧，分帧函数包括enframe函数。

如上述步骤S2所述，帧的能量值可以理解为对一段时间内语音响度的积分，场景安静没有声音，则帧的能量值非常低，场景中一直有人说话，那么对应的帧的能量值就比较高。定义帧的初始时刻为t₀，结束时刻为t_n，则该帧的能量值E即为区间[t₀,t_n]的积分值。计算公式为：

依照该公式，分别计算出来每帧的能量值。

如上述步骤S3所述，X是一个正整数，根据不同的场景而选择不同的具体的数值。在一个会议场景中，人不是保持每时每刻都有人在讲话，是停顿时间和说话时间间歇穿插着的。在停顿时间时，虽然没有人讲话，但是也会有一些小的声音，比如翻书、喝水、椅子挪动等这些声音，这些声音因声音分贝比较小，因此对应的能量值也比较小，第一阈值就与这些声音的能量正相关。如果会议室中的声音小于第一阈值，说明会议室中没有人发出动作的声音，判定会议室中没有人。先从第一帧开始判断，将第一帧的能量值与预设的第一阈值相比，如果第一帧的能量值高于第一阈值，则将第二帧的能量值与预设的第一阈值相比，如果第二帧的能量值高于第一阈值，则将第三帧的能量值与预设的第一阈值相比。如此连续比较X帧的能量值是否均高于第一阈值。在连续比较X帧的能量值是否均高于第一阈值时，若有一帧的能量值不高于第一阈值，则定义不高于第一阈值的那一帧之后的一帧开始作为第一帧，继续开始连续X帧的能量值与第一阈值的比较。

如上述步骤S4所述，如果连续判断了X帧的能量值均高于第一阈值，说明会议室中有人出现，要准备判断场景中是不是有人在说话，说话开始的时间点，因此定义连续X帧的第一帧为激活帧，检测激活帧以后的语音端点。从激活帧处开始检测语音端点，可以提高语音端点检测的速度及准确性。在其他实施例中，还可以定义连续X帧中的最后一帧为激活帧。

如上述步骤S5所述，Y也是一个正整数，根据不同的场景而选择不同的具体的数值，其大小与X无关。第二阈值是根据人在会议室说话时的声音所产生的声音信号对应的能量而设置的，第二阈值是会议室中有人说话时的语音信号对应的能量与没有人说话时的语音信号对应的能量之间的临界值。在检测语音端点时，如果某一帧的能量值高于第二阈值，说明此时的语音信号对应的声音中有人说话的声音。人在会议室说话时，声音相较没说话时的翻书、喝水、椅子挪动的声音大得多，因此有人说话时的声音比有人但不说话的声音大，对应的第二阈值大于第一阈值。从激活帧开始，先判断激活帧后的第一帧能量值是否高于第二阈值，如果是，就继续判断下一帧，即激活帧之后的第二帧，判断该帧能量值是否高于第二阈值，如果是，继续判断下一帧。依此进行判断，如果有一帧的能量值低于第二阈值，再从这低于第二阈值的下一帧开始判断能量值是否高于第二阈值，如此一直判断下去，直到有连续的Y帧能量值均高于第二阈值。

如上述步骤S6所述，语音前端点是指在会议中，人开始说话的时间节点。如果有连续的Y帧能量值高于第二阈值，说明该语音信号对应的声音中包含有人说话的声音，表示是有人开始说话了。因此判定连续Y帧的第一帧是语音前端点，这样可以避免漏掉人说话的声音。

如上述步骤S7所述，B是一个正整数，根据不同的场景而选择不同的具体的数值。判断语音前端点之后，判断语音后端点，即人结束讲话的时间节点。人结束讲话时，会议室中没有人说话的声音，语音信号的能量会降低很多，降低到第二阈值以下。在语音前端点对应的帧之后，继续判断帧的能量值与第二阈值的大小。判断是否有连续B帧的能量值低于第二阈值，与上述步骤S5的判断方法相似。

如上述步骤S8所述，如果是有连续的B帧的能量值低于第二阈值，说明会议室中是没有人说话了，即判定这B帧对应的声音中没有人说话，因此这B帧中包含有语音后端点。将B帧的最后一帧定义为语音后端点。因为人在讲话时，会因为换气、短暂的思考、语句的停顿等原因，不可避免会出现暂停的时候，在暂停时对应的语音信号的能量会低于第一阈值，因此在连续B帧的能量值低于第二阈值才确定语音后端点，有效的防止人说话时的暂停确定为语音后端点。在一具体实施例中，每帧是20ms时长的语音信号，B的具体数值是50。

进一步地，上述计算每个帧的能量值的步骤，包括：

S21、对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算，得到所述目标帧的能量值。

本实施例中，目标帧是指计算帧的能量值的这一帧，用于对计算某一帧的能量值的定义。对目标帧的能量值进行平均计算，可以反映目标帧一个小范围内的声音状态，更好的表达该目标帧的准确能量值。首先计算出各帧的能量值，具体计算方法如上述步骤S2所记载的方法。然后进行平均计算，例如计算第11帧的平均能量值，将第11帧至第20帧的十帧的能量值全部相加，然后除以10，得出平均数，该平均数即当前帧的聚类能量值，这里取n＝9，在其他的方案中，n也可以是其他正整数。假定第m帧的帧能量为E_m，则计算包括第m帧的连续n帧的能量值计算公式为：

在其他实施例中，计算每个帧的能量值的步骤，包括：

定义各帧中的目标帧和所述目标帧之后的n帧的能量值的最大的能量值为所述目标帧的能量值。

上述步骤中，例如计算第11帧的能量值，是获取第11帧至第20帧的能量值，然后定义这10帧中能量值最大的能量值为第11帧的聚类能量值。

S301、根据场景中无人的声音信号，计算出基础能量值；

S302、将所述基础能量值加上预设的环境能量值，得出所述第一阈值；

S303、将所述基础能量值加上预设的说话能量值，得出所述第二阈值。

本实施例中，基础能量值是初始语音的能量值。我们假定录音过程是完整的，那么开始时安静的环境我们可以将其能量值提取出来，理解为环境本来就有的声音干扰，如空气流动的声音、录音机设备的运行产生的声音、语音端点检测的装置运行产生的声音等。后续进行有无人说话的声音或者场景中有无人比对时就有了参考值。具体的计算方法是，录取场景中无人的声音信号，将该声音信号进行分帧，计算每帧的能量值，然后计算这些帧的平均能量值，得到基础能量值。在一具体实施例中，定义E₀为基础能量值，由初始化无声段50帧能量聚类得到，即：

环境能量值是人在会议室中，会发出有一些小的声音，比如翻书、喝水、椅子挪动等这些声音的能量值。将基础能量值与环境能量值相加，得到第一阈值。当声音信号中的帧能量值高于第一阈值，说明该场景中有人存在了。说话能量值是采集人正常说话时的声音信号，然后将其计算出来的能量值。将基础能量值与说话能量值相加，得到第二阈值。当声音信号中的帧能量值高于第二阈值，说明是有人开始讲话了。

参照图2，进一步地，上述语音端点检测方法，还包括：

S3021、根据不同规模的会议室中会议场景时无人说话的声音信号，计算出各规模的会议室对应的环境能量值；

S3022、为所述各规模的会议室对应的环境能量值添加对应的环境标签，所述环境标签用于指示会议室的规模。

本实施例中，预先在多个会议室的会议场景中，录取没有人说话时的声音信号，此时会议场景中会有一些人，虽然没有人说话，但是会存在一些人发出的声音，比如翻书的声音、椅子挪动的声音等，这些都是参会人员发出的声音，与会议室没有人的场景是不一样的。因此，这个声音信号中也是有一些能量的，然后计算出该声音信号的能量值，该能量值即环境能量值。会议室中会议场景是指人在会议室中等待开会，没有人讲话的时候。计算环境能量值的具体方法：录取会议室中会议场景时无人说话的声音信号，将该声音信号进行分帧，计算每帧的能量值，然后计算这些帧的平均能量值。不同规模的会议室，所能容纳的人数也是不一样的，因而，发出的声音也是不一样大小，对应的声音信号的能量值也是不一样的，因此，为环境能量值添加标签，如小型会议室、中型会议室、大型会议室、超大会议室、会议厅等各种指示会议室规模的标签。对应的，计算第一阈值时，也获取会议室的规模，从而选择对应的环境能量值相加，使第一阈值更加符合会议场景，便于更准确的获取到语音端点。

参照图3，进一步地，上述将所述基础能量值加上用户输入的环境能量值，得出第一阈值的步骤包括：

S3023、根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签；

S3024、根据所述目标环境标签，调用对应的环境能量值；

S3025、将所述基础能量值加上所述目标环境标签对应的环境能量值，得出第一阈值。

本步骤中，声音信号所处的环境通常是指会议室内，会议室根据场地面积的大小、最多容纳人数数量而具有不同的环境标签，如小型会议室、中型会议室、大型会议室、超大会议室、会议厅等各种类型的标签。不同的面积的会议室所容纳的人数是不相同的，对应的第一阈值和第二阈值也是不相同的。因此，先获取所述会议室的规模，根据会议室的规模确定环境标签，再调用与环境标签对应的环境能量值。然后再将环境能量值与基础能量值相加，得到第一阈值。下表为一具体实施例的环境标签与环境能量的对应关系。

环境标签	环境能量值
		小型会议室	20
中型会议室	25
		大型会议室	30
超大会议室	35
		会议厅	40

上表是一工作人员在某个公司内测得的不同规模的会议室内的能量环境值，并不代表本方案的全部内容。其他工作人员用其他方法或在其他规模会议室测得环境能量值也在本申请的保护范围内。

S3001、获取所述目标会议室的面积；

S3002、根据所述目标会议室的面积，确定所述目标会议室的规模。

本实施例中，语音定位方法所依赖的装置四周各安装有一个激光测距仪。工作人员将该装置放置在方形的会议室的会议桌上，四个激光测距仪的发射激光的方向分别垂直于四面墙壁，装置控制四个激光测距仪分别测量各自前方墙体的距离，然后将前后两个激光传感器检测的距离相加，再加上装置自身的长度，得到会议室的长度；将左右两个激光传感器检测的距离相加，再加上装置自身的宽度，得到会议室的宽度；将长度与宽度相乘，得到会议室的面积。然后根据预设的面积与会议室规模的映射规则，获取到与面积相对应的会议室的规模。

进一步地，上述将语音信号进行分帧，得到多个帧的步骤之前，包括：

S101、对获取的语音信号进行预处理，所述预处理包括：去直流、预加重、加窗。

如上述步骤S101所述，预处理的过程主要是将语音信号进行预去直流、预加重、加窗处理。对音频数据进行采集后，系统接收到的是音频数据，利用VAD算法确定静音和语音数据的开始和终止点前首先需要对数据进行预处理。预处理的目的是消除人类发声器官和本身和由于采集语音信号设备所带来的混叠，高次谐波失真，高频等因素对语音信号质量的影响，为保证得到的语音信号更均匀，平滑，预处理相应的分为以下几个部分：

去直流：直流式频域中的变慢成分，其一般不随时间变化，是因为信号采集过程中仪器所致，如需进行频谱分析，那么会因直流信号的频谱泄露，而影响频谱的相应分析。

预加重：目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。一般可以通过传递函数一阶FIR高通数字滤波器来予以实现。

加窗：加窗的目的是对某抽样n附近的语音波形加以强调而对波形的其余部分加以减弱，即加强当前分析的样本的特征性。

进一步地，在上述确定所述连续B帧的最后一帧的时间点为语音后端点的步骤之后包括：

S9、判断语音后端点后帧的能量是否小于第一阈值；

S10、若是，关闭语音端点检测功能。

本实施例中，关闭语音定位功能，即对该语音后面的定位不再检测。若语音后端点后的帧的能量比第一阈值还要小，说明该语音环境中，连人们没有说话的声音信号都没有，判断出该次会议时间结束，说话的环境中没有人了。因而后面肯定是没有人说话，因此没必要再做语音端点检测。关闭语音端点检测功能，节省装置的使用时间，节省电源。

综上所述，本发明的语音端点检测方法，根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。在计算能量值时，将语音信号的各帧进行聚类计算，使各帧的语音信号的能量值计算的更加合理，对应的获取的语音端点更加准确。通过自动获取会议室的大小，从而可以自动获取环境能量值，获取更加准确的语音能量阈值，对应的检测语音端点值更方便。

参照图4，本申请实施例中还提供一种语音端点检测装置，包括：

分帧模块1，用于将语音信号进行分帧，得到多个帧；

计算模块2，用于计算每个帧的能量值；

第一判断模块3，用于判断是否有连续X帧的能量值高于第一阈值；

激活帧模块4，用于若有连续X帧的能量值高于第一阈值，定义所述连续X帧的第一帧为激活帧；

第二判断模块5，用于从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；

前端点模块6，用于若所述激活帧之后的帧有连续Y帧的能量值高于第二阈值，判定所述连续Y帧的第一帧处开始是语音前端点；

第三判断模块7，用于判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；

后端点模块8，用于若所述语音前端点之后有连续B帧的能量值低于第二阈值，确定所述连续B帧的最后一帧的时间点为语音后端点。

本实施例中，语音信号是系统实时采集会议室里的声音生成的语音信号。语音信号虽然具有时变特性，即语音信号的能量会因为会议室里的声音音量大小不同而发生变化。但是语音信号在一个短时间范围内(一般认为是10ms-30ms的短时间内)，其基本特性基本保持不变即相对稳定。帧是语音信号中的一小段信号。将语音信号进行“短时分析”，则分帧模块1将语音信号分段来进行分析，即分帧。例如，分帧模块1将一段语音按照帧长进行时间分段，帧长取10ms-30ms。如一段语音时间长为20s，按照帧长为20ms进行分段，则帧数就被分为了20,000/20＝1000帧。分帧模块1调用分帧函数将语音信号进行分帧，分帧函数包括enframe函数。

帧的能量值可以理解为对一段时间内语音响度的积分，场景安静没有声音，则帧的能量值非常低，场景中一直有人说话，那么对应的帧的能量值就比较高。定义帧的初始时刻为t₀，结束时刻为t_n，则该帧的能量值E即为区间[t₀,t_n]的积分值。计算公式为：

依照该公式，计算模块2分别计算出来每帧的能量值。

第一判断模块3中的X是一个正整数，根据不同的场景而选择不同的具体的数值。在一个会议场景中，人不是保持每时每刻都有人在讲话，是停顿时间和说话时间间歇穿插着的。在停顿时间时，虽然没有人讲话，但是也会有一些小的声音，比如翻书、喝水、椅子挪动等这些声音，这些声音因声音分贝比较小，因此对应的能量值也比较小，第一阈值就与这些声音的能量正相关。如果会议室中的声音小于第一阈值，说明会议室中没有人发出动作的声音，判定会议室中没有人。第一判断模块3先从第一帧开始判断，将第一帧的能量值与预设的第一阈值相比，如果第一帧的能量值高于第一阈值，则第一判断模块3将第二帧的能量值与预设的第一阈值相比，如果第二帧的能量值高于第一阈值，则第一判断模块3再将第三帧的能量值与预设的第一阈值相比。如此连续比较X帧的能量值是否均高于第一阈值。在第一判断模块3连续比较X帧的能量值是否均高于第一阈值时，若有一帧的能量值不高于第一阈值，则定义不高于第一阈值的那一帧之后的一帧开始作为第一帧，第一判断模块3继续开始连续X帧的能量值与第一阈值的比较。

如果第一判断模块3连续判断了X帧的能量值均高于第一阈值，说明会议室中有人出现，要准备判断场景中是不是有人在说话，说话开始的时间点，因此激活帧模块4定义连续X帧的第一帧为激活帧，检测激活帧以后的语音端点。从激活帧处开始检测语音端点，可以提高语音端点检测的速度及准确性。在其他实施例中，激活帧模块4还可以定义连续X帧的最后一帧为激活帧。

第二判断模块5中的Y也是一个正整数，根据不同的场景而选择不同的具体的数值，其大小与X无关。第二阈值是根据人在会议室说话时的声音所产生的声音信号对应的能量而设置的，第二阈值是会议室中有人说话时的语音信号对应的能量与没有人说话时的语音信号对应的能量之间的临界值。在检测语音端点时，如果某一帧的能量值高于第二阈值，说明此时的语音信号对应的声音中有人说话的声音。人在会议室说话时，声音相较没说话时的翻书、喝水、椅子挪动的声音大得多，因此有人说话时的声音比有人但不说话的声音大，对应的第二阈值大于第一阈值。从激活帧开始，第二判断模块5先判断激活帧后的第一帧能量值是否高于第二阈值，如果是，第二判断模块5就继续判断下一帧，即激活帧之后的第二帧，判断该帧能量值是否高于第二阈值，如果是，第二判断模块5继续判断下一帧。依此进行判断，如果有一帧的能量值低于第二阈值，再从这低于第二阈值的下一帧开始判断能量值是否高于第二阈值，如此一直判断下去，直到有连续的Y帧能量值均高于第二阈值。

语音前端点是指在会议中，人开始说话的时间节点。如果有连续的Y帧能量值高于第二阈值，说明该语音信号对应的声音中包含有人说话的声音，表示是有人开始说话了。因此前端点模块6判定连续Y帧的第一帧是语音前端点，这样可以避免漏掉人说话的声音。

第三判断模块7中的B是一个正整数，根据不同的场景而选择不同的具体的数值。判断语音前端点之后，判断语音后端点，即人结束讲话的时间节点。人结束讲话时，会议室中没有人说话的声音，语音信号的能量会降低很多，降低到第二阈值以下。在语音前端点对应的帧之后，继续判断帧的能量值与第二阈值的大小。第三判断模块7判断是否有连续B帧的能量值低于第二阈值，与上述第二判断模块5的判断方法相似。

如果第三判断模块7判断有连续的B帧的能量值低于第二阈值，说明会议室中是没有人说话了，即判定这B帧对应的声音中没有人说话，因此这B帧中包含有语音后端点。后端点模块8将B帧的最后一帧定义为语音后端点。因为人在讲话时，会因为换气、短暂的思考、语句的停顿等原因，不可避免会出现暂停的时候，在暂停时对应的语音信号的能量会低于第一阈值，因此在连续B帧的能量值低于第二阈值才确定语音后端点，有效的防止人说话时的暂停确定为语音后端点。在一具体实施例中，每帧是20ms时长的语音信号，B的具体数值是50。

进一步地，上述计算模块2包括：

计算单元，用于对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算，得到所述目标帧的能量值。

本实施例中，目标帧是指计算帧的能量值的这一帧，用于对计算某一帧的能量值的定义。对目标每帧的能量值进行平均计算，可以反映目标帧一个小范围内的声音状态，更好的表达该目标帧的准确能量值。首先计算单元21计算出各帧的能量值。然后进行平均计算，例如计算第11帧的能量值，平均单元22将第11帧至第20帧的十帧的能量值全部相加，然后除以10，得出平均数，该平均数即当前帧的能量值，这里取n＝9，在其他的方案中，n也可以是其他正整数。假定第m帧的帧能量为E_m，则计算包括第m帧的连续n帧的能量值计算公式为：

在其他实施例中，计算模块2包括：

最大单元，用于定义各帧中的目标帧和所述目标帧之后的n帧的能量值的最大的能量值为所述目标帧的能量值。

最大值单元，用于获取当前帧的能量值以及当前帧之后的n帧能量值的最的大能量值，确定该最大能量值为当前帧的能量值。

上述步骤中，例如计算第11帧的能量值，最大值单元是获取第11帧至第20帧的能量值，然后定义这10帧中能量值最大的能量值为第11帧的聚类能量值。

进一步地，上述语音端点检测装置还包括：

基础能量模块，用于根据场景中无人的声音信号，计算出基础能量值；

第一阈值模块，用于将所述基础能量值加上预设的环境能量值，得出所述第一阈值；

第二阈值模块，用于将所述基础能量值加上预设的说话能量值，得出所述第二阈值。

本实施例中，基础能量值是初始语音的能量值。我们假定录音过程是完整的，那么开始时安静的环境我们可以将其能量值提取出来，理解为环境本来就有的声音干扰，如空气流动的声音、录音机设备的运行产生的声音、语音端点检测的装置运行产生的声音等。后续进行有无人说话的声音或者场景中有无人比对时就有了参考值。具体的计算方法是，基础能量模块录取场景中无人的声音信号，将该声音信号进行分帧，计算每帧的能量值，然后基础能量模块计算这些帧的平均能量值，得到基础能量值。在一具体实施例中，定义E₀为基础能量值，由初始化无声段50帧能量聚类得到，即：

环境能量值是人在会议室中，会发出有一些小的声音，比如翻书、喝水、椅子挪动等这些声音的能量值。第一阈值模块将基础能量值与环境能量值相加，得到第一阈值。当声音信号中的帧能量值高于第一阈值，说明该场景中有人存在了。说话能量值是采集人正常说话时的声音信号，然后将其计算出来的能量值。第二阈值模块将基础能量值与说话能量值相加，得到第二阈值。当声音信号中的帧能量值高于第二阈值，说明是有人开始讲话了。

参照图5，进一步地，上述语音端点检测装置还包括：

环境能量模块3021，用于根据不同规模会议室中会议场景时无人说话的声音信号，计算出各规模的会议室对应的环境能量值；

添加标记模块3022，用于为所述各规模的会议室对应的环境能量值添加对应的环境标签，所述环境标签用于指示会议室的规模。

本实施例中，环境能量模块3021预先在多个会议室的会议场景中，录取没有人说话时的声音信号，此时会议场景中会有一些人，虽然没有人说话，但是会存在一些人发出的声音，比如翻书的声音、椅子挪动的声音等，这些都是参会人员发出的声音，与会议室没有人的场景是不一样的。因此，这个声音信号中也是有一些能量的，然后环境能量模块3021计算出该声音信号的能量值，该能量值即环境能量值。会议室中会议场景是指人在会议室中等待开会，没有人讲话的时候。环境能量模块3021计算环境能量值的具体方法：录取会议室中会议场景时无人说话的声音信号，将该声音信号进行分帧，计算每帧的能量值，然后计算这些帧的平均能量值。不同规模的会议室，所能容纳的人数也是不一样的，因而，发出的声音也是不一样大小，对应的声音信号的能量值也是不一样的，因此，添加标记模块3022为环境能量值添加标签，如小型会议室、中型会议室、大型会议室、超大会议室、会议厅等各种指示会议室规模的标签。对应的，第一阈值模块计算第一阈值时，也获取会议室的规模，从而选择对应的环境能量值相加，使第一阈值更加符合会议场景，便于更准确的获取到语音端点。

进一步地，上述第一阈值模块包括：

环境标签单元，用于根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签；

调用单元，用于根据所述目标环境标签，调用对应的环境能量值；

第一阈值单元，用于将所述基础能量值加上所述目标环境标签对应的环境能量值，得出第一阈值。

本实施例中，声音信号所处的环境通常是指会议室内，会议室根据场地面积的大小、最多容纳人数数量而具有不同的环境标签，如小型会议室、中型会议室、大型会议室、超大会议室、会议厅等各种类型的标签。不同的面积的会议室所容纳的人数是不相同的，对应的第一阈值和第二阈值也是不相同的。因此，环境标签单元先获取所述会议室的规模，根据会议室的规模确定环境标签，调用单元再调用与环境标签对应的环境能量值。然后第一阈值单元再将环境能量值与基础能量值相加，得到第一阈值。下表为一具体实施例的环境标签与环境能量的对应关系。

进一步地，上述环境标签单元包括：

面积子单元，用于获取所述目标会议室的面积；

确定子单元，用于根据所述目标会议室的面积，确定所述目标会议室的规模。

本实施例中，语音定位方法所依赖的装置四周各安装有一个激光测距仪。工作人员将该装置放置在方形的会议室的会议桌上，四个激光测距仪的发射激光的方向分别垂直于四面墙壁，装置控制四个激光测距仪分别测量各自前方墙体的距离，然后面积子单元将前后两个激光传感器检测的距离相加，再加上装置自身的长度，得到会议室的长度；面积子单元将左右两个激光传感器检测的距离相加，再加上装置自身的宽度，得到会议室的宽度；然后面积子单元将长度与宽度相乘，得到会议室的面积。然后标签子单元根据预设的面积与会议室规模的映射规则，获取到与面积相对应的会议室的规模。

进一步地，上述语音端点检测装置还包括：

预处理模块，用于对获取的语音信号进行预处理，所述预处理包括：去直流、预加重、加窗。

预处理的过程主要是将语音信号进行预去直流、预加重、加窗处理。对音频数据进行采集后，系统接收到的是音频数据，预处理模块利用VAD算法确定静音和语音数据的开始和终止点前首先需要对数据进行预处理。预处理的目的是消除人类发声器官和本身和由于采集语音信号设备所带来的混叠，高次谐波失真，高频等因素对语音信号质量的影响，为保证得到的语音信号更均匀，平滑，预处理模块的处理过程如下：

进一步地，上述语音端点检测装置还包括：

第四判断模块，用于判断语音后端点后帧的能量是否小于第一阈值；

关闭模块，用于若语音后端点后帧的能量小于第一阈值，关闭语音端点检测功能。

本实施例中，关闭语音定位功能，即对该语音后面的定位不再检测。若第四判断模块判定语音后端点后的帧的能量比第一阈值还要小，说明该语音环境中，连人们没有说话的声音信号都没有，判断出该次会议时间结束，说话的环境中没有人了。因而后面肯定是没有人说话，因此没必要再做语音端点检测。关闭模块关闭语音端点检测功能，节省装置的使用时间，节省电源。

综上所述，本发明的语音端点检测装置，根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。在计算能量值时，将语音信号的各帧进行聚类计算，使各帧的语音信号的能量值计算的更加合理，对应的获取的语音端点更加准确。通过自动获取会议室的大小，从而可以自动获取环境能量值，获取更加准确的语音能量阈值，对应的检测语音端点值更方便。

参照图6，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音端点检测装置的模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音端点检测方法。

上述处理器执行上述语音端点检测方法的步骤：将语音信号进行分帧，得到多个帧；计算每个帧的能量值；判断是否有连续X帧的能量值高于第一阈值；若是，定义所述连续X帧的第一帧为激活帧；从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；若是，判定所述连续Y帧的第一帧处开始是语音前端点；判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；若是，确定所述连续B帧的最后一帧的时间点为语音后端点。

在一个实施例中，上述处理器计算每个帧的能量值的步骤，包括：对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算，得到所述目标帧的能量值。

在一个实施例中，上述处理器判断是否有连续X帧的能量值高于第一阈值的步骤之前，包括：根据场景中无人的声音信号，计算出基础能量值；将所述基础能量值加上预设的环境能量值，得出所述第一阈值；将所述基础能量值加上预设的说话能量值，得出所述第二阈值。

在一个实施例中，上述处理器设置所述环境能量值的方法，包括：根据不同规模的会议室中会议场景时无人说话的声音信号，计算出各规模的会议室对应的环境能量值；为所述各规模的会议室对应的环境能量值添加对应的环境标签，所述环境标签用于指示会议室的规模。

在一个实施例中，上述处理器将所述基础能量值加上用户输入的环境能量值，得出第一阈值的步骤包括：根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签；根据所述目标环境标签，调用对应的环境能量值；将所述基础能量值加上所述目标环境标签对应的环境能量值，得出第一阈值。

在一个实施例中，上述处理器根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签的步骤之前，还包括：获取所述目标会议室的面积；根据所述目标会议室的面积，确定所述目标会议室的规模。

在一个实施例中，上述处理器确定所述连续B帧的最后一帧的时间点为语音后端点的步骤之后，包括：判断所述语音后端点后帧的能量是否小于所述第一阈值；若是，关闭语音端点检测功能。

本申请的计算机设备根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。在计算能量值时，将语音信号的各帧进行聚类计算，使各帧的语音信号的能量值计算的更加合理，对应的获取的语音端点更加准确。通过自动获取会议室的大小，从而可以自动获取环境能量值，获取更加准确的语音能量阈值，对应的检测语音端点值更方便。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音端点检测方法，具体为：将语音信号进行分帧，得到多个帧；计算每个帧的能量值；判断是否有连续X帧的能量值高于第一阈值；若是，定义所述连续X帧的第一帧为激活帧；从所述激活帧开始，判断是否有连续Y帧的能量值高于第二阈值，其中，所述第二阈值大于所述第一阈值；若是，判定所述连续Y帧的第一帧处开始是语音前端点；判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值；若是，确定所述连续B帧的最后一帧的时间点为语音后端点。

本申请的存储介质根据产生语音信号的环境不同而设置不同的能量阈值，减小环境因素对判断语音信号端点检测带来的负面影响，使语音端点检测的结果更准确。在计算能量值时，将语音信号的各帧进行聚类计算，使各帧的语音信号的能量值计算的更加合理，对应的获取的语音端点更加准确。通过自动获取会议室的大小，从而可以自动获取环境能量值，获取更加准确的语音能量阈值，对应的检测语音端点值更方便。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音端点检测方法，其特征在于，包括：

将语音信号进行分帧，得到多个帧；

计算每个帧的能量值；

判断是否有连续X帧的能量值高于第一阈值；

若是，定义所述连续X帧的第一帧为激活帧；

若是，判定所述连续Y帧的第一帧处开始是语音前端点；

若是，确定所述连续B帧的最后一帧的时间点为语音后端点。

2.如权利要求1所述的语音端点检测方法，其特征在于，所述计算每个帧的能量值的步骤，包括：

3.如权利要求1所述的语音端点检测方法，其特征在于，所述判断是否有连续X帧的能量值高于第一阈值的步骤之前，包括：

根据场景中无人的声音信号，计算出基础能量值；

4.如权利要求3所述的语音端点检测方法，其特征在于，所述方法还包括：

5.如权利要求4所述的语音端点检测方法，其特征在于，所述将所述基础能量值加上用户输入的环境能量值，得出第一阈值的步骤包括：

根据所述目标环境标签，调用对应的环境能量值；

6.如权利要求5所述的语音端点检测方法，其特征在于，所述根据所述语音信号当前所处的目标会议室的规模，确定目标环境标签的步骤之前，还包括：

获取所述目标会议室的面积；

根据所述目标会议室的面积，确定所述目标会议室的规模。

7.如权利要求1所述的语音端点检测方法，其特征在于，所述确定所述连续B帧的最后一帧的时间点为语音后端点的步骤之后，包括：

判断所述语音后端点后帧的能量是否小于所述第一阈值；

若是，关闭语音端点检测功能。

8.一种装置，其特征在于，包括：

分帧模块，用于将语音信号进行分帧，得到多个帧；

计算模块，用于计算每个帧的能量值；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。