CN110246506A

CN110246506A - 人声智能检测方法、装置及计算机可读存储介质

Info

Publication number: CN110246506A
Application number: CN201910468133.4A
Authority: CN
Inventors: 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-17
Also published as: WO2020238046A1

Abstract

本发明涉及一种人工智能技术，揭露了一种人声智能检测方法，包括：接收包括正样本集、负样本集的训练集和标签集，对所述训练集进行包括预加重和加窗分帧的预处理操作后输入至人声检测模型，将所述标签集输入至损失函数，所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，将所述训练值输入至所述损失函数，所述损失函数计算得到损失值，并判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练，接收输入的声音数据，利用所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。本发明还提出一种人声智能检测装置以及一种计算机可读存储介质。本发明可以实现高效的人声检测。

Description

人声智能检测方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音数据输入后可智能化检测是否有人声的方法、装置及计算机可读存储介质。

背景技术

视频监控系统目前已得到广泛的应用，然而目前多数视频监控系统没有对人声进行检测。进一步地，国内外的人声检测领域研究的主要内容包括识别不同人的声音特征以及不同语义特征的人声识别和不同情感状态特征的人声识别等，但多数研究的共性是已知是人所发出的说话声音的前提下，研究所述人声的某一方面特征，很少有直接对是否是人声进行检测的研究，且由于人声与环境之间的多变性，使得多数人声检测方法在实际应用中效果不理想，人声检测的效果有待及时解决。

发明内容

本发明提供一种人声智能检测方法、装置及计算机可读存储介质，其主要目的在于当用户输入语音数据时，给用户判断所述语音数据是否包括人声的精准结果。

为实现上述目的，本发明提供的一种人声智能检测方法，包括：

数据处理层接收包括正样本集和负样本集的训练集和标签集，其中，所述正样本集包括人声数据以及所述负样本集不包括人声数据，对所述训练集进行包括预加重和加窗分帧的预处理操作，将所述预处理操作完成的训练集输入至人声检测模型，将所述标签集输入至损失函数；

所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，并将所述训练值输入至所述损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练；

接收输入的声音数据并输入至所述人声检测模型，所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。

可选地，对所述训练集进行包括预加重和加窗分帧的预处理操作，包括：

基于数字滤波器对所述训练集的声音频率进行预加重，所述预加重的方法为：

H(z)＝1-μz^-1

其中，H(z)为所述预加重后的训练集，z为所述声音频率，μ为预加重系数；

基于所述预加重后的训练集，根据汉明窗法进行加窗分帧处理，所述汉明窗法ω(n)为：

其中，n为所述预加重后的训练集，N为所述汉明窗法的窗长，cos为余弦函数。

H(z)＝1-μz^-1

可选地，

所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，包括：

将所述训练集输入至所述人声检测模型的第一层卷积层进行卷积操作，得到第一卷积数据集，并将所述第一卷积数据集输入至第一层池化层；

所述第一层池化层对所述第一卷积数据集进行最大化池化操作，得到第一降维数据集，并将所述第一降维数据集输入至第二层卷积层进行所述卷积操作，得到第二卷积数据集，将所述第二卷积数据集输入至第二层池化层进行所述最大化池化操作，得到第二降维数据集，并将所述第二降维数据集输入至全连接层；

所述全连接层结合激活函数对所述第二降维数据集执行计算，得到所述训练值。

可选地，所述卷积操作为：

其中ω’为输出数据，ω为输入数据，k为卷积核的大小，s为所述卷积操作的步幅，p为数据补零矩阵；

所述激活函数为：

其中y为所述第二降维数据集，e为无限不循环小数。

此外，为实现上述目的，本发明还提供一种人声智能检测装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的人声智能检测程序，所述人声智能检测程序被所述处理器执行时实现如下步骤：

H(z)＝1-μz^-1

可选地，

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有人声智能检测程序，所述人声智能检测程序可被一个或者多个处理器执行，以实现如上所述的人声智能检测方法的步骤。

本发明的人声检测模型使用卷积神经网络，所述卷积神经网络基于局部感知和权值共享思想保留了语音间的关联信息，可大大减少所需参数的数量，且通过池化操作进一步缩减网络参数数量，提高模型的鲁棒性，因此本发明提出的人声智能检测方法、装置及计算机可读存储介质可以实现高效的人声检测判断。

附图说明

图1为本发明一实施例提供的人声智能检测方法的流程示意图；

图2为本发明一实施例提供的人声智能检测装置的内部结构示意图；

图3为本发明一实施例提供的人声智能检测装置中人声智能检测程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种人声智能检测方法。参照图1所示，为本发明一实施例提供的人声智能检测方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，人声智能检测方法包括：

S1、数据处理层接收包括正样本集和负样本集的训练集和标签集，其中，所述正样本集包括人声数据以及所述负样本集不包括人声数据，对所述训练集进行包括预加重和加窗分帧的预处理操作，将所述预处理操作完成的训练集输入至人声检测模型，将所述标签集输入至损失函数。

本发明较佳实施例，所述包括人声数据的正样本集是在安静的环境下通过麦克风录取，所述麦克风录取的采样频率16kHz、采样大小16bits，且参与录取的人员至少录制两段不同人声数据，一段使用标准普通话录取，另一段使用所述录取人员的地方方言录取。所述正样本集内每段人声数据时长不少于10秒。

本发明较佳实施例，所述负样本集来源于音频数据集AudioSet中包括多条人工标记的声音剪辑片段，所述AudioSet是目前开放的大规模且完善的音频数据集，进一步地，所述多条人工标记的声音剪辑片段包括2084320条人工标记的每段10秒长度的声音剪辑片段。

本发明较佳实施所述预加重预处理操作是提高所述训练集的高频音域部分，使所述训练集的音域低频到音域高频的信号频谱变得平坦，同时还能抑制随机噪声和直流漂移的影响，进一步地，所述预加重是基于数字滤波器对所述训练集的声音频率进行预加重，所述预加重即所述预加重的方法为：

H(z)＝1-μz^-1

本发明较佳实施所述加窗分帧是根据在小范围的时间内，所述训练集的音频信号保持不变的特点，对所述训练集的音频信号进行分帧处理，进一地，所述加窗分帧基于所述预加重后的训练集，根据汉明窗法进行加窗分帧处理，所述汉明窗法ω(n)为：

S2、所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，并将所述训练值输入至所述损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练。

本发明较佳实施例所述人声检测模型接收所述预处理操作完成的训练集，将所述训练集输入至第一层卷积层，所述第一层卷积层进行卷积操作后得到卷积数据集输入至第一层池化层；其后，所述第一层池化层对所述卷积数据集进行最大化池化操作后得到降维数据集输入至第二层卷积层，所述第二层卷积层进行所述卷积操作后输入至第二层池化层进行所述最大化池化操作，直到最终输入至全连接层；所述全连接层结合激活函数计算得到所述训练值；

本发明较佳实施例所述卷积操作为：

其中ω′为输出数据，ω为输入数据，k为卷积核的大小，s为卷积操作的步幅，p为数据补零矩阵；

本发明较佳实施例所述激活函数为：

其中y为所述第二降维数据集，e为无限不循环小数。

本发明较佳实施例所述损失值T为：

其中，n为所述训练集的大小，y_t为所述训练值，μ_t为所述标签集。

S3、接收输入的声音数据并输入至所述人声检测模型，所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。

发明还提供一种人声智能检测装置。参照图2所示，为本发明一实施例提供的人声智能检测装置的内部结构示意图。

在本实施例中，所述人声智能检测装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该人声智能检测装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是人声智能检测装置1的内部存储单元，例如该人声智能检测装置1的硬盘。存储器11在另一些实施例中也可以是人声智能检测装置1的外部存储设备，例如人声智能检测装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括人声智能检测装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于人声智能检测装置1的应用软件及各类数据，例如人声智能检测程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行人声智能检测程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在人声智能检测装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及人声智能检测程序01的人声智能检测装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对人声智能检测装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有人声智能检测程序01；处理器12执行存储器11中存储的人声智能检测程序01时实现如下步骤：

步骤一、数据处理层接收包括正样本集和负样本集的训练集和标签集，其中，所述正样本集包括人声数据以及所述负样本集不包括人声数据，对所述训练集进行包括预加重和加窗分帧的预处理操作，将所述预处理操作完成的训练集输入至人声检测模型，将所述标签集输入至损失函数。

H(z)＝1-μz^-1

步骤二、所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，并将所述训练值输入至所述损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练。

本发明较佳实施例所述卷积操作为：

其中ω’为输出数据，ω为输入数据，k为卷积核的大小，s为卷积操作的步幅，p为数据补零矩阵；

本发明较佳实施例所述激活函数为：

其中y为所述第二降维数据集，e为无限不循环小数。

本发明较佳实施例所述损失值T为：

步骤三、接收输入的声音数据并输入至所述人声检测模型，所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。

可选地，在其他实施例中，人声智能检测程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述人声智能检测程序在人声智能检测装置中的执行过程。

例如，参照图3所示，为本发明人声智能检测装置一实施例中的人声智能检测程序的程序模块示意图，该实施例中，所述人声智能检测程序可以被分割为数据接收模块10、模型训练模块20、人声结果输出模块30，示例性地：

所述数据接收模块10用于：接收包括人声数据的正样本集、不包括人声数据的负样本集和标签集，所述正样本集和所述负样本集统称训练集，对所述训练集进行包括预加重和加窗分帧的预处理操作，将所述预处理操作完成的训练集输入至人声检测模型，将所述标签集输入至损失函数。

所述模型训练模块20用于：所述人声检测模型接收所述预处理操作完成的训练集进行训练得到训练值，并将所述训练值输入至所述损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练。

所述人声结果输出模块30用于：接收输入的声音数据并输入至所述人声检测模型，所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。

上述数据接收模块10、模型训练模块20、人声结果输出模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有人声智能检测程序，所述人声智能检测程序可被一个或多个处理器执行，以实现如下操作：

接收包括人声数据的正样本集、不包括人声数据的负样本集和标签集，所述正样本集和所述负样本集统称训练集，对所述训练集进行包括预加重和加窗分帧的预处理操作，将所述预处理操作完成的训练集输入至人声检测模型，将所述标签集输入至损失函数。

所述人声检测模型接收所述预处理操作完成的训练集进行训练得到训练值，并将所述训练值输入至所述损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，判断所述损失值与预设阈值的大小，直至所述损失值小于所述预设阈值时，所述人声检测模型退出训练。

本发明计算机可读存储介质具体实施方式与上述人声智能检测装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种人声智能检测方法，其特征在于，所述方法包括：

接收输入的声音数据并输入至所述人声检测模型，利用所述人声检测模型判断所述声音数据是否包括人声并输出判断结果。

2.如权利要求1所述的人声智能检测方法，其特征在于，所述数据处理层接收包括正样本集和负样本集的训练集和标签集，包括：

提取预设音频数据集AudioSet中包括的多条人工标记的声音剪辑片段做为所述负样本集；

录制多种采样频率的人声，构建所述正样本集；

基于所述正样本集和所述负样本集建立对应的标签集。

3.如权利要求2所述的人声智能检测方法，其特征在于，对所述训练集进行包括预加重和加窗分帧的预处理操作，包括：

H(z)＝1-μz^-1

4.如权利要求1至3中任意一项所述的人声智能检测方法，其特征在于，所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，包括：

5.如权利要求4所述的人声智能检测方法，其特征在于，所述卷积操作为：

所述激活函数为：

其中y为所述第二降维数据集，e为无限不循环小数。

6.一种人声智能检测装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的人声智能检测程序，所述人声智能检测程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的人声智能检测装置，其特征在于，所述数据处理层接收包括正样本集和负样本集的训练集和标签集，包括：

录制多种采样频率的人声，构建所述正样本集；

基于所述正样本集和所述负样本集建立对应的标签集。

8.如权利要求7所述的人声智能检测装置，其特征在于，对所述训练集进行包括预加重和加窗分帧的预处理操作，包括：

H(z)＝1-μz^-1

9.如权利要求6至8任意一项所述的人声智能检测装置，其特征在于，所述人声检测模型接收所述预处理操作完成的训练集并进行训练得到训练值，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有人声智能检测程序，所述人声智能检测程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的人声智能检测方法的步骤。