CN107393526B

CN107393526B - 语音静音检测方法、装置、计算机设备和存储介质

Info

Publication number: CN107393526B
Application number: CN201710590527.8A
Authority: CN
Inventors: 王辉
Original assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2024-01-02
Anticipated expiration: 2037-07-19
Also published as: CN107393526A

Abstract

本发明涉及一种语音静音检测方法、装置、计算机设备和存储介质，包括：接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧；将所述待检测语音帧进行变换得到对应的频域语音帧；获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；将所述原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果；根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果，提高静音检测结果的可靠性，减少语音数据发送端硬件环境的性能压力。

Description

语音静音检测方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音静音检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，网络与多媒体技术相互结合的应用在人们的日常生活中越来越常见。在许多场景都存在识别语音数据，将语音转化为文本的应用需求，如通过语音生成控制指令，通过语音通信等。

静音检测，是从多种背景噪声的语音信号中，分离出语音信号和非语音信号，确定出语音信号的起始点和结束点。静音检测作为语音识别的第一步，尤其是复杂噪声环境下的语音静音检测，是至关重要的，它的准确性直接影响后续的识别工作能否有效进行。传统的静音检测往往在固化在发送语音数据的终端硬件上，对终端硬件性能要求高，一般采用基于时域的短时能量和过零率的方法，对噪声抗干扰性低。

发明内容

基于此，有必要针对上述技术问题，提供一种语音静音检测方法，通过采用卷积神经网络，可通过大数据量的训练数据构建高准确率的目标卷积神经网络，提高静音检测结果的可靠性，减少语音数据发送端硬件环境的性能压力。

一种语音静音检测方法，所述方法包括：

接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧；

将所述待检测语音帧进行变换得到对应的频域语音帧；

获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；

将所述原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果；

根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果。

一种语音静音检测装置，所述装置包括：

接收模块，用于接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧；

变换模块，用于将所述待检测语音帧进行变换得到对应的频域语音帧；

输入模块，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；

静音检测模块，用于将所述原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，使得所述处理器执行以下步骤：接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧，将所述待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；将所述原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果；根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧，将所述待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；将所述原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果；根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果。

上述语音静音检测方法、装置、计算机设备和存储介质，通过另一个计算机设备接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧，将待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到所述当前待检测语音帧对应的静音检测结果，通过采用卷积神经网络，可通过大数据量的训练数据构建高准确率的目标卷积神经网络，提高静音检测结果的可靠性，且静音检测配置于另一个计算机设备上，没有固化在发送语音数据的硬件上或者客户端系统里，静音检测可方便进行动态调整，且减少了语音数据发送端硬件环境的性能压力。另一个计算机设备可接收到包括静音的完整语音数据，便于后续作为训练样本继续改进卷积神经网络。

附图说明

图1为一个实施例中语音静音检测方法的运行环境图；

图2为一个实施例中语音静音检测方法的流程图；

图3为另一个实施例中语音静音检测方法的流程图；

图4为一个实施例中训练得到目标卷积神经网络的流程图；

图5为一个实施例中训练目标卷积神经网络的流程图；

图6为一个实施例中更新训练目标卷积神经网络的流程图；

图7为一个实施例中语音静音检测装置的结构框图；

图8为一个实施例中输入模块的结构框图；

图9为一个实施例中训练模块的结构框图；

图10为一个实施例中训练单元的结构框图；

图11为另一个实施例中语音静音检测装置的结构框图；

图12为再一个实施例中语音静音检测装置的结构框图；

图13为一个具体的实施例中语音静音检测方法的流程示意图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

如图1所示，提供了一种语音静音检测系统，包括计算机设备102、至少一个终端104，计算机设备102可以是服务器或另一个终端。计算机设备102用于提供对语音静音检测的支持，可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。

终端104可为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端104可通过网络向计算机设备102发送语音数据，可以是实时语音数据流，也可以是非实时语音数据，计算机设备102接收终端发送的语音数据包，并根据目标卷积神经网络识别静音数据。

在一个实施例中，如图2所示，提供了一种语音静音检测方法，以应用于上述应用环境中的计算机设备102来举例说明，包括如下步骤：

步骤S210，接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧。

具体地，终端发送的语音数据包组成一整句语音语句，可以是语音指令或通信过程中的会话语音句，一整句语音语句的结尾往往是预设时长的静音数据。语音数据包可以是通过音频编码算法进行压缩生成的编码语音数据，可通过对语音数据包的解码得到原始语音数据，原始语音数据可以是人或动物发出的声音、播放的歌曲、实时演奏的音乐等。语音数据包可以是终端通过麦克风实时采集并通过流式上传的语音数据包流，也可以是异步录制或从音频服务器下载的语音数据。流式传输是指数据流中先生成的数据包可先传输至服务器或另一个终端，后生成的数据包在生成后也直接发送至服务器或另一个终端，无需等待整个语音数据流结束才进行数据包的传输，实现数据包的实时传输。原始语音数据一般是连续非平稳数字信号，采样率可以为16000Hz，分帧就是把连续的若干个数据点设为一帧，每帧长度为预设的帧长度，如20ms-30ms，可根据预设的帧长度对原始语音数据进行划分分帧得到各个待检测语音帧。预设的帧长度可根据需要自定义，如将320个采样点作为帧长度。

步骤S220，将待检测语音帧进行变换得到对应的频域语音帧。

具体地，频域用于描述信号的频率特性，将待检测语音帧从时域进行变换将信号分解成幅值谱，在频域自变量是频率，即横轴是频率，纵轴是该频率信号的幅度，频域语音帧携带信号的频率结构，描述了频率与该频率信号幅度的关系，进行变换后得到各个待检测语音帧对应的频域语音帧，具体的从时域变换到频域的变换算法可根据需要自定义。在一个实施例中，可通过短时傅里叶变换得到频域语音帧，短时傅里叶变换主要用于分析非平稳信号，非平稳信号由于波形特性变化没有规律，也就没有瞬时频率的概念，不能直接使用傅里叶变换。加窗使信号平稳化，限制分析时间，使分析时间内波形特性没有显著变化，于是可以对加窗的分段信号一段一段地使用傅里叶变换得到频谱，短时傅里叶变换后得到的是按时间顺序排列的多段信号的频谱。将待检测语音帧加窗分段后进行短时傅里叶变换得到对应的频域语音帧。窗长可根据需要自定义，窗长小于等于帧长，在一个实施例中，窗长为160个采样点，窗移为160个采样点。

步骤S230，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像。

具体地，邻近频域语音帧是指当前待检测语音帧附近的语音帧，具体的获取规则可自定义，如自定义获取附近的语音帧的范围，可获取当前待检测语音帧对应的当前频域语音帧，获取当前频域语音帧的前向和/或后向的频域语音帧得到邻近频域语音帧，其中前向和后向频域语音帧的数量可相同或不同。由于语音数据是连续的，每一帧都不是孤立的，有一定的上下文信息，通过邻近频域语音帧提高静音识别的准确性。将当前频域语音帧与邻近频域语音帧按时间顺序，形成原始输入图像。

在一个实施例中，步骤S230包括：从当前频域语音帧的前向获取第一预设数目的前向频域语音帧，从当前频域语音帧的后向获取第二预设数目的后向频域语音帧，将前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像。

具体地，第一预设数目与第二预设数目可相同或不同，可根据需要自定义。在一个实施例中，前向频域语音帧取n帧，后向频域语音帧取n+1帧，其中n为正整数。对于窗长小于等于帧长的短时傅里叶变换后形成的当前待检测语音帧对应的当前频域语音帧的数目可为2个或以上，可采取窗移的形式从多个当前频域语音帧从选择一个作为当前待检测语音帧对应的目标频域语音帧。如帧长为320个采样点，窗长为160个采样点的短时傅里叶变换后，一个320个采样点的时域语音帧对应2个160个采样点的频域语音帧，从中选择一个160个采样点的频域语音帧，如选择前向频域语音帧7帧，后向频域语音帧8帧，形成原始输入图像为160x16的图像。

步骤S240，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果。

具体地，将原始输入图像输入目标卷积神经网络之前，需要通过训练数据对卷积神经网络进行训练确定网络中的权值，得到对应的模型参数。训练数据可以是服务器或另一个终端接收的历史语音数据、或通过预设规则配置的纯净语音与噪音的混合语音数据，以提高存在噪音时，静音数据识别的可靠性。

训练时，卷积神经网络采用有监督的学习方式，对于任意训练样本，其类别都是己知的，神经网络找到同类样本间的相似性以及不同类样本间的区别，从而区分出样本类别。卷积神经网络的建立需要进行长而复杂的训练过程，对网络中的权值进行一定的学习，使其能够建立起从输入到输出的映射。卷积神经网络主要由特征提取阶段和分类这两个阶段组成，特征提取阶段主要包括多个卷积层和降采样层，且卷积层具有局部接受域和权值共享的结构特征，降采样层具有降采样和权值共享的结构特征，分类器可以为含有一层隐层的全连接神经网络，待训练的卷积神经网络的结构，如卷积层的特征图的提取算法和特征图个数、降采样层与卷积层的连接方式等都可根据需要自定义。

训练好的目标卷积神经网络的输入为原始输入图像，输出为分类结果，其中分类结果包括静音和非静音两种类别。

步骤S250，根据分类结果得到当前待检测语音帧对应的静音检测结果。

具体地，分类结果明确描述是静音类别还是非静音类别，如果是静音类别，则当前待检测语音帧是静音，否则当前待检测语音帧是非静音。通过分类结果直接得到当前待检测语音帧对应的静音检测结果，准确方便。

本实施例中，通过另一个计算机设备接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧，将待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到所述当前待检测语音帧对应的静音检测结果，通过采用卷积神经网络，可通过大数据量的训练数据构建高准确率的目标卷积神经网络，提高静音检测结果的可靠性，且静音检测配置于另一个计算机设备上，没有固化在发送语音数据的硬件上或者客户端系统里，静音检测可方便进行动态调整，且减少了语音数据发送端硬件环境的性能压力。另一个计算机设备可接收到包括静音的完整语音数据，便于后续作为训练样本继续改进卷积神经网络。

在一个实施例中，步骤S250之后，还包括：步骤S260，连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将所述停止控制指令发送至终端，以使终端停止上传语音数据包。

具体地，如果当前待检测语音帧是静音帧，且当前待检测语音帧与后续连续的待检测语音帧都是静音静音帧，形成的静音帧集合对应的静音时间超过预设阈值时长，则说明语音数据到达静音结尾部分，如一个实施例中预设阈值时长为500ms，由于语音已经结束，后续再采集的语音数据全部为静音，则可通知终端停止上传语音数据，对于已接收的语音数据也停止解码和识别。通过准确的静音检测结果保证每一帧语音帧的判断结果的准确性，从而保证静音帧集合生成的准确性，提高了停止控制指令生成的准确度，避免停止控制指令错误生成导致采集的语音数据不完整的问题。

在一个实施例中，如图4所示，步骤S210之前，还包括：

步骤S310，获取测试语音数据，测试语音数据为终端在当前所属环境采集并上传的历史语音数据，测试语音数据包括测试语音帧和对应的语音帧标准状态。

其中，测试语音帧是根据预设的帧长度对测试语音数据进行划分分帧得到的各个测试语音帧。语音帧标准状态是指测试语音帧实际的真实静音状态，包括静音和非静音两种标准状态。其中预设的帧长度确定后，后续在使用目标卷积神经网络进行静音检测过程中使用的帧长度与训练时使用的帧长度保持一致，以保证输入数据的有效性。

具体地，终端在当前所属环境采集并上传的历史语音数据携带了环境特征，通过携带环境特征的语音数据作为测试语音数据训练卷积神经网络训练，可加强目标卷积神经网络对环境的适应性，如当前环境存在较大噪音，通过交替地进行卷积和降采样，逐步提取多种复杂特征，可从测试语音数据提取与当前环境匹配的特征，从而在进行静音检测时可得到较高的准确率。不同的环境下对应的测试语音数据不同，从而可训练得到与各个环境匹配的不同的目标卷积神经网络。可提取当前环境特征，建立环境特征与目标卷积神经网络的对应关系，在下次新的环境中进行静音检测时，提取新环境的当前环境特征，从而根据环境特征与目标卷积神经网络的对应关系，获取与新环境对应的目标卷积神经网络，做到目标卷积神经网络根据当前环境动态调整，提高不同环境下静音检测的准确性与灵活性。

步骤S320，将测试语音帧进行变换得到对应的频域测试语音帧。

具体地，后续在实际检测过程中使用的变换算法与训练时使用的变换算法保持一致，在一个实施例中，将测试语音帧进行短时傅里叶变换得到对应的频域测试语音帧，短时傅里叶变换时采用的窗长和窗移确定后，后续在实际检测过程中使用的短时傅里叶变换变换参数，如窗长和窗移，与训练时使用的短时傅里叶变换的变换参数保持一致。

步骤S330，根据预设规则将各个频域测试语音帧作为中心频域测试语音帧，获取各个中心频域测试语音帧的邻近频域测试语音帧，将各个中心频域测试语音帧与匹配的邻近频域测试语音帧按时间顺序形成各个原始训练输入图像，将各个原始训练输入图像与对应的中心频域测试语音帧的语音帧标准状态组成训练数据。

具体的，邻近频域测试语音帧的获取规则可根据需要自定义，可获取当前频域测试语音帧前向和/或后向的频域语音帧得到邻近频域语音帧，其中前向和后向频域语音帧的数量可相同或不同。将各个频域测试语音帧作为中心频域测试语音帧，分别获取相应的邻近频域测试语音帧按时间顺序形成多个原始训练输入图像，多个原始训练输入图像可形成向量组成训练数据输入卷积神经网络训练。后续在实际检测过程中使用的邻近频域测试语音帧的获取规则与训练时使用的邻近频域测试语音帧的获取规则保持一致。

步骤S340，将训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练，直至满足收敛条件，得到对应的模型参数生成目标卷积神经网络。

具体地，卷积神经网络的每层由多个二维平面组成，而每个平面由多个独立神经元组成。卷积神经网络中的每一个特征提取层，即卷积层都紧跟着一个用来求局部平均与二次提取的降采样层，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。利用不同的卷积核对输入的图像进行卷积，得到对应的各个特征图组成卷积层。降采样层是对卷积层得到的特征图进行一定的缩放，以降低特征图的分辨率，使其对位移、缩放和其他形式的扭曲的敏感度下降。

本实施中，包括第一卷积层、第一降采样层、第二卷积层、第二降采样层，通过交替地进行卷积和降采样，逐步提取出多种复杂特征，以保证可训练参数确定，且由于训练数据自带环境特征，保证输出结果在噪音环境也能提高准确性，避免传统检测方法在噪音环境下，迟迟无法检测到静音导致无法触发语音识别结束点，指令无法发送，用户等待时间很长，无法满足要求的问题。

在一个实施例中，如图5所示，步骤S340包括：

步骤S341，将通过第三预设数目的不同卷积核对原始训练输入图像的局部接受域进行卷积得到的第一特征图集合组合生成第一卷积层。

具体地，第三预设数目可根据需要自定义，实验表明，从输入中提取10个特征已经可以很好的对语音端点进行检测，在一个实施例中，第三预设数目为10。卷积层C1层由第三预设数目个特征图组成，每个特征图提取一种特征，且每个特征图都是通过NxN的卷积核对输入图像的NxN的局部接受域进行卷积得到，卷积步长为1，其中N可自定义，在一个实施例中N为5，对于原始输入图像为160x16的图像，每个第一特征图的大小为156x12。每个卷积核包括5x5个权值和1个偏置，且10个第一特征图的卷积核不同，因此卷积层层共有260个可训练参数。

步骤S342，将第一降采样层的特征图中的各个神经元与第一卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第二特征图集合组合生成第一降采样层。

具体地，降采样层S1层的每个特征图与C1层的每个特征图一一对应，共有10个特征图，且每个特征图的每个神经元与C1层的MxM的局部接受域相连，采用max-pooling的方式，即对局部接受域内特征点取最大值，在一个实施例中，M为2，因此每个第二特征图的大小为78x6。

步骤S343，采用全连接的方式对输入的第一特征图集合进行第四数目的不同卷积核的卷积得到第三特征图集合组合生成第二卷积层。

具体地，第二卷积层C2层也是一个卷积层，但与C1层不同，C2层以S1层的10个特征图作为输入，为了获取更多更细粒度的特征表示，本实施例中采用全连接的方式，全连接的方式中某一层的某个节点与上一层的每个节点相连，且每个节点各自使用一套参数，形成全连接结构。在全连接的网络中，假如k层有n个节点，k+1层有m个节点，则一共有n*m个连接；每个连接都有一个参数，外加每个k+1层节点有一个偏置，则共有n*m+m个训练参数。C2层的每个特征图都是以S1层的第三预设数目的特征图作为输入，采用第四数目的卷积核大小为VxV的卷积核进行卷积得到的，卷积步长为1，第四数目的具体值依赖于第三预设数目和第二卷积层与第一降采样层的连接的方式。如果第三预设数目为10，则采用全连接的方式得到20个第三特征图。在一个实施例中，V为5，对于第二特征图的大小为78x6，得到每个第三特征图的大小为74x2，每个卷积核包括5x5个权值和1个偏置，且20个特征图的卷积核不同，因此C2层共有20x(5x5+1)＝520个可训练参数。

步骤S344，将第二降采样层的特征图中的各个神经元与第二卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第四特征图集合组合生成第二降采样层。

具体地，S2层为与S1层相似的降采样层，第二降采样层的每个特征图与第二卷积层的每个特征图一一对应，共有20个特征图，且每个特征图的每个神经元与第二卷积层C2层的RxR的局部接受域相连，在一个实施例中R为2,对于第三特征图的大小为74x2时，生成第二降采样层中的第四特征图的大小为37x1。

第二降采样层S2层后接的是一个全连接层，相当于普通全连接神经网络。在一个具体的实施例中，S2层的所有神经元展开成20x37＝740个神经元后，与全连接层F层的500个神经元进行全连接，F层与S2层共有500x740个连接。

输出层是F层后的一个全连接层，输出层的神经元个数即为分类目标的个数，由于在进行语音端点检测时只有两类，一类是静音，一类是非静音，本实施例中输出层的神经元个数为2，如输出为“[1 0]”表示该帧为非静音，即语音帧，输出为“[0 1]”表示该帧为静音帧，即非语音帧。

在一个实施例中，如图6所示，方法还包括：

步骤S410，获取测试样例语音数据，将测试样例语音数据输入目标卷积神经网络，得到测试分类结果。

具体地，测试样例语音数据可以是真实环境采集的携带静音片段的语音数据，也可以是录制的纯净语音与NOISEX-92标准噪声库中的噪声混合而成的携带静音片段的语音数据。可获取不同噪音类型的测试样例语音数据，对目标卷积神经网络对不同噪音的适应性进行检测。

步骤S420，将测试分类结果与测试样例语音数据对应的标准分类结果对比计算结果准确率。

具体地，测试样例语音数据的每一帧语音帧都有真实的标准分类结果，如为静音和非静音，与目标卷积神经网络输出的测试分类结果进行比较得到比较结果。可通过不同的数值记录比较结果，如测试分类结果与标准分类结果相同，则记为1，如果测试分类结果与标准分类结果不相同，则记为0。结果准确率为正确的次数与总对比次数的比值。

步骤S430，如果结果准确率低于预设阈值，则获取更新的训练语音数据，重新训练卷积神经网络生成更新的卷积神经网络。

具体地，如果结果准确率低于预设阈值，则说明此目标卷积神经网络需要进行调整，可获取更新的训练语音数据，重新训练卷积神经网络生成新的卷积神经网络。对于存在多个不同测试样例语音数据的情况，可计算多个不同测试样例语音数据对应的平均结果准确率，通过平均结果准确率判断是否需要更新目标卷积神经网络，具体的比较规则可根据需要自定义。

本实施例中，通过测试样例语音数据对目标卷积神经网络的正确率进行测试，保证目标卷积神经网络的稳定性，对于检测不准确的场景，服务器端或另一个终端可以动态更新算法和模型，优化静音端点检测准确率。

在一个实施例中，如图7所示，提供了一种语音静音检测装置，位于语音数据包发送终端之外的另一个计算机设备上，包括：

接收模块510，用于接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧。

变换模块520，用于将待检测语音帧进行变换得到对应的频域语音帧。

输入模块530，用于获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像。

静音检测模块540，用于将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到所述当前待检测语音帧对应的静音检测结果。

在一个实施例中，如图8所示，输入模块530包括：

前向获取单元531，用于从当前频域语音帧的前向获取第一预设数目的前向频域语音帧。

后向获取单元532，用于从当前频域语音帧的后向获取第二预设数目的后向频域语音帧。

输入单元533，用于将前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像。

在一个实施例中，如图9所示，装置还包括：

训练模块550，包括：

训练数据确定单元551，获取测试语音数据，测试语音数据为所述终端在当前所属环境采集并上传的历史语音数据，测试语音数据包括测试语音帧和对应的语音帧标准状态，将测试语音帧进行变换得到对应的频域测试语音帧，根据预设规则将各个频域测试语音帧作为中心频域测试语音帧，获取各个中心频域测试语音帧的邻近频域测试语音帧，将各个中心频域测试语音帧与匹配的邻近频域测试语音帧按时间顺序形成各个原始训练输入图像，将各个原始训练输入图像与对应的中心频域测试语音帧的语音帧标准状态组成训练数据。

训练单元552，用于将训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练，直至满足收敛条件，得到对应的模型参数生成目标卷积神经网络。

在一个实施例中，如图10所示，训练单元552包括：

第一卷积层生成单元552a，用于将通过第三预设数目的不同卷积核对原始训练输入图像的局部接受域进行卷积得到的第一特征图集合组合生成第一卷积层。

第一降采样层生成单元552b，用于将第一降采样层的特征图中的各个神经元与第一卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第二特征图集合组合生成第一降采样层。

第二卷积层生成单元552c，用于采用全连接的方式对输入的所述第一特征图集合进行第四数目的不同卷积核的卷积得到第三特征图集合组合生成第二卷积层。

第二降采样层生成单元552d，用于将第二降采样层的特征图中的各个神经元与第二卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第四特征图集合组合生成第二降采样层。

在一个实施例中，如图11所示，装置还包括：

更新训练模块560，用于获取测试样例语音数据，将测试样例语音数据输入目标卷积神经网络，得到测试分类结果，将测试分类结果与测试样例语音数据对应的标准分类结果对比计算结果准确率，如果结果准确率低于预设阈值，则获取更新的训练语音数据，重新训练卷积神经网络生成更新的卷积神经网络。

在一个实施例中，如图12所示，装置还包括：

控制模块570，用于连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将停止控制指令发送至终端，以使终端停止上传语音数据包。

在一个具体的实施例中，语音静音检测系统包括智能设备、服务器和可控设备，结合图13所示，语音静音检测方法包括以下步骤：

1、智能设备接收唤醒指令后，通过麦克风实时采集语音数据，形成语音数据流，将语音数据流对应的各个数据包流压缩并流式传输至服务器。

2、服务器接收语音数据包，从接收到第一个语音数据包开始，启动服务器端的静音检测逻辑。

3、静音检测逻辑将原始语音数据分帧得到待检测语音帧，将待检测语音帧进行短时傅里叶变换得到对应的频域语音帧，从当前频域语音帧的前向获取7个前向频域语音帧，从当前频域语音帧的后向获取8个后向频域语音帧，将前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到当前待检测语音帧对应的静音检测结果，服务器对非静音帧进行语音识别。

4、如果当前待检测语音帧是静音帧，则将待检测语音帧归入静音帧集合，且只有连续的待检测语音帧才能归入静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则服务器端识别到语音结束，停止语音识别，生成停止控制指令，将停止控制指令发送至所述终端，以使终端停止上传语音数据包。

5、根据语音识别结果进行后续的步骤。

本实施例中，静音检测核心流程都在后台服务器进行，检测逻辑可以动态更新和优化，用户的原始语音保存在服务器作为训练数据继续训练卷积神经网络，对卷积神经网络进行优化。

如图14所示，为一个实施例中计算机设备的内部结构图，该计算机设备通过系统连接总线连接处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行一种语音静音检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音静音检测方法。计算机设备的网络接口用于进行网络通信，如接收语音数据包，发送停止控制指令等。本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音静音检测装置可以实现为一种计算机程序的形式，计算机程序可在如图14所示的计算机设备上运行，所述计算机设备的非易失性存储介质可存储组成该语音静音检测装置的各个程序模块，比如图7中的接收模块510、变换模块520、输入模块530和静音检测模块540。各个程序模块中包括计算机可读指令，所述计算机可读指令用于使所述计算机设备执行本说明书中描述的本申请各个实施例的语音静音检测方法中的步骤，例如，所述计算机设备可以通过如图7所示的语音静音检测装置中的接收模块510接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧。通过变换模块520将待检测语音帧进行变换得到对应的频域语音帧。通过输入模块530获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像。通过静音检测模块540将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到所述当前待检测语音帧对应的静音检测结果。

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质配置在服务器上，计算机可读存储介质上存储有计算机可执行指令，计算机可执行指令被处理器执行时，使得处理器执行以下步骤：接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧，将待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到当前待检测语音帧对应的静音检测结果。

在一个实施例中，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像，包括：从当前频域语音帧的前向获取第一预设数目的前向频域语音帧，从当前频域语音帧的后向获取第二预设数目的后向频域语音帧，将前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像。

在一个实施例中，计算机可执行指令被处理器执行时，还使得处理器执行以下步骤：获取测试语音数据，测试语音数据为所述终端在当前所属环境采集并上传的历史语音数据，测试语音数据包括测试语音帧和对应的语音帧标准状态，将测试语音帧进行变换得到对应的频域测试语音帧，根据预设规则将各个频域测试语音帧作为中心频域测试语音帧，获取各个中心频域测试语音帧的邻近频域测试语音帧，将各个中心频域测试语音帧与匹配的邻近频域测试语音帧按时间顺序形成各个原始训练输入图像，将各个原始训练输入图像与对应的中心频域测试语音帧的语音帧标准状态组成训练数据，将训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练，直至满足收敛条件，得到对应的模型参数生成目标卷积神经网络。

在一个实施例中，将所述训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练，包括：将通过第三预设数目的不同卷积核对原始训练输入图像的局部接受域进行卷积得到的第一特征图集合组合生成第一卷积层，将第一降采样层的特征图中的各个神经元与第一卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第二特征图集合组合生成第一降采样层，采用全连接的方式对输入的所述第一特征图集合进行第四数目的不同卷积核的卷积得到第三特征图集合组合生成第二卷积层，将第二降采样层的特征图中的各个神经元与第二卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第四特征图集合组合生成第二降采样层。

在一个实施例中，计算机可执行指令被处理器执行时，还使得处理器执行以下步骤：连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将停止控制指令发送至所述终端，以使终端停止上传语音数据包。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：接收终端发送的语音数据包，根据语音数据包获取原始语音数据，将原始语音数据分帧得到待检测语音帧，将待检测语音帧进行变换得到对应的频域语音帧，获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像，将原始输入图像输入经训练得到的目标卷积神经网络，得到分类结果，根据分类结果得到当前待检测语音帧对应的静音检测结果。

在一个实施例中，计算机可执行指令被处理器执行时，还使得处理器执行以下步骤：连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将停止控制指令发送至终端，以使终端停止上传语音数据包。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音静音检测方法，应用于服务器，所述方法包括：

获取测试语音数据，测试语音数据为终端在当前所属环境采集并上传的历史语音数据，所述历史语音数据携带了环境特征，通过携带环境特征的语音数据作为测试语音数据训练卷积神经网络，若当前环境存在噪音，则通过交替地进行卷积和降采样，逐步提取多种复杂特征，从测试语音数据提取与当前环境匹配的特征，训练得到与各个环境匹配的不同的目标卷积神经网络；

接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧，所述语音数据包是终端通过麦克风实时采集并通过流式上传的语音数据包流，流式传输是指数据流中先生成的数据包先传输至服务器或另一个终端，后生成的数据包在生成后也直接发送至服务器或另一个终端，无需等待整个语音数据流结束才进行数据包的传输；

将所述待检测语音帧进行变换得到对应的频域语音帧；

获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，包括：获取当前频域语音帧的前向和后向的频域语音帧得到邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；

获取已建立的环境特征与目标卷积神经网络的对应关系，所述对应关系是所述服务器建立的，在环境中进行静音检测时，提取当前环境的当前环境特征，根据所述环境特征与目标卷积神经网络的对应关系，获取与当前环境对应的目标卷积神经网络，将所述原始输入图像输入经训练得到的与当前环境对应的目标卷积神经网络，得到分类结果，不同的环境下对应的测试语音数据不同，从而训练得到与各个环境匹配的不同的目标卷积神经网络；

根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果，连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将所述停止控制指令发送至终端，以使终端停止上传语音数据包，对于已接收的语音数据也停止解码和识别。

2.根据权利要求1所述的方法，其特征在于，所述获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像的步骤包括：

从当前频域语音帧的前向获取第一预设数目的前向频域语音帧；

从当前频域语音帧的后向获取第二预设数目的后向频域语音帧；

将所述前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像。

3.根据权利要求1所述的方法，其特征在于，所述测试语音数据包括测试语音帧和对应的语音帧标准状态，所述接收终端发送的语音数据包的步骤之前，还包括：

将所述测试语音帧进行变换得到对应的频域测试语音帧；

根据预设规则将各个频域测试语音帧作为中心频域测试语音帧，获取各个中心频域测试语音帧的邻近频域测试语音帧，将各个中心频域测试语音帧与匹配的邻近频域测试语音帧按时间顺序形成各个原始训练输入图像，将各个原始训练输入图像与对应的中心频域测试语音帧的语音帧标准状态组成训练数据；

将所述训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练；

直至满足收敛条件，得到对应的模型参数生成目标卷积神经网络。

4.根据权利要求3所述的方法，其特征在于，所述将所述训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练的步骤包括：

将通过第三预设数目的不同卷积核对原始训练输入图像的局部接受域进行卷积得到的第一特征图集合组合生成第一卷积层；

将第一降采样层的特征图中的各个神经元与第一卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第二特征图集合组合生成第一降采样层；

采用全连接的方式对输入的所述第一特征图集合进行第四数目的不同卷积核的卷积得到第三特征图集合组合生成第二卷积层；

将第二降采样层的特征图中的各个神经元与第二卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第四特征图集合组合生成第二降采样层。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取测试样例语音数据，将所述测试样例语音数据输入所述目标卷积神经网络，得到测试分类结果；

将测试分类结果与所述测试样例语音数据对应的标准分类结果对比计算结果准确率；

如果所述结果准确率低于预设阈值，则获取更新的训练语音数据，重新训练卷积神经网络生成更新的卷积神经网络。

6.根据权利要求1所述的方法，其特征在于，所述预设时长为500ms。

7.一种语音静音检测装置，应用于服务器，其特征在于，所述装置包括：

训练模块，用于获取测试语音数据，测试语音数据为终端在当前所属环境采集并上传的历史语音数据，所述历史语音数据携带了环境特征，通过携带环境特征的语音数据作为测试语音数据训练卷积神经网络，若当前环境存在噪音，则通过交替地进行卷积和降采样，逐步提取多种复杂特征，从测试语音数据提取与当前环境匹配的特征，训练得到与各个环境匹配的不同的目标卷积神经网络；

接收模块，用于接收终端发送的语音数据包，根据所述语音数据包获取原始语音数据，将所述原始语音数据分帧得到待检测语音帧，所述语音数据包是终端通过麦克风实时采集并通过流式上传的语音数据包流，流式传输是指数据流中先生成的数据包先传输至服务器或另一个终端，后生成的数据包在生成后也直接发送至服务器或另一个终端，无需等待整个语音数据流结束才进行数据包的传输；

输入模块，用于获取当前待检测语音帧对应的当前频域语音帧，根据预设规则获取所述当前频域语音帧的邻近频域语音帧，包括：获取当前频域语音帧的前向和后向的频域语音帧得到邻近频域语音帧，将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像；

静音检测模块，用于获取已建立的环境特征与目标卷积神经网络的对应关系，所述对应关系是所述服务器建立的，在环境中进行静音检测时，提取当前环境的当前环境特征，根据所述环境特征与目标卷积神经网络的对应关系，获取与当前环境对应的目标卷积神经网络，将所述原始输入图像输入经训练得到的与当前环境对应的目标卷积神经网络，得到分类结果，不同的环境下对应的测试语音数据不同，从而训练得到与各个环境匹配的不同的目标卷积神经网络根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果；

控制模块，用于连续静音帧组成静音帧集合，如果静音帧集合对应的静音时长超过预设时长，则停止语音识别，生成停止控制指令，将所述停止控制指令发送至所述终端，以使所述终端停止上传语音数据包，对于已接收的语音数据也停止解码和识别。

8.根据权利要求7所述的装置，其特征在于，所述输入模块包括：

前向获取单元，用于从当前频域语音帧的前向获取第一预设数目的前向频域语音帧；

后向获取单元，用于从当前频域语音帧的后向获取第二预设数目的后向频域语音帧；

输入单元，用于将所述前向频域语音帧、当前频域语音帧、后向频域语音帧按时间顺序形成原始输入图像。

9.根据权利要求7所述的装置，其特征在于，所述测试语音数据包括测试语音帧和对应的语音帧标准状态，所述训练模块，包括：

训练数据确定单元，用于将所述测试语音帧进行变换得到对应的频域测试语音帧，根据预设规则将各个频域测试语音帧作为中心频域测试语音帧，获取各个中心频域测试语音帧的邻近频域测试语音帧，将各个中心频域测试语音帧与匹配的邻近频域测试语音帧按时间顺序形成各个原始训练输入图像，将各个原始训练输入图像与对应的中心频域测试语音帧的语音帧标准状态组成训练数据；

训练单元，用于将所述训练数据输入包括第一卷积层、第一降采样层、第二卷积层、第二降采样层、全连接层和输出层的卷积神经网络训练，直至满足收敛条件，得到对应的模型参数生成目标卷积神经网络。

10.根据权利要求9所述的装置，其特征在于，所述训练单元包括：

第一卷积层生成单元，用于将通过第三预设数目的不同卷积核对原始训练输入图像的局部接受域进行卷积得到的第一特征图集合组合生成第一卷积层；

第一降采样层生成单元，用于将第一降采样层的特征图中的各个神经元与第一卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第二特征图集合组合生成第一降采样层；

第二卷积层生成单元，用于采用全连接的方式对输入的所述第一特征图集合进行第四数目的不同卷积核的卷积得到第三特征图集合组合生成第二卷积层；

第二降采样层生成单元，用于将第二降采样层的特征图中的各个神经元与第二卷积层的局部接受域相连，对局部接受域内特征点取最大值得到第四特征图集合组合生成第二降采样层。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

更新训练模块，用于获取测试样例语音数据，将所述测试样例语音数据输入所述目标卷积神经网络，得到测试分类结果，将测试分类结果与所述测试样例语音数据对应的标准分类结果对比计算结果准确率，如果所述结果准确率低于预设阈值，则获取更新的训练语音数据，重新训练卷积神经网络生成更新的卷积神经网络。

12.根据权利要求7所述的装置，其特征在于，所述预设时长为500ms。

13.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，使得所述处理器执行权利要求1至6中任一项所述方法的步骤。