CN108172213B

CN108172213B - 娇喘音频识别方法、装置、设备及计算机可读介质

Info

Publication number: CN108172213B
Application number: CN201711433839.4A
Authority: CN
Inventors: 曾令科
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2022-09-30
Anticipated expiration: 2037-12-26
Also published as: CN108172213A

Abstract

本发明提出一种娇喘音频识别方法、装置、设备和计算机存储介质，所述方法包括以下步骤：从待识别的音视频中提取脉冲编码调制信号；在脉冲编码调制信号中提取多维声学特征；将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。本发明实施例可以在海量音视频数据中实现音频娇喘智能识别，大幅降低人工审核的成本，同时可以保证较高的效率与性能。

Description

娇喘音频识别方法、装置、设备及计算机可读介质

技术领域

本发明涉及音频识别技术领域，尤其涉及一种娇喘音频识别方法及装置、设备和计算机可读介质。

背景技术

随着互联网技术的发展，信息的传播的方式和渠道发生显著变化。而网络上传播的信息种类很多，其中有可能会涉及色情影片的传播。因此，为了净化网络环境，需要对传播的信息进行审核。

色情影片的审核包括对色情图像和娇喘音频审核。其中现有的音频娇喘识别方法主要基于人工抽取音频片段的方法进行识别，并结合图像的审核结果进行色情音视频过滤。人工审核的方法可以准确判断音频片段是否为娇喘色情片段，在音视频数据库较小，更新频率低的场景下可实现较好的审核效果。

然而，现有基于人工审核的音频娇喘识别方法在音视频数据库巨大的场景下无法在合理较低成本下覆盖所有数据的审核，而采用抽样审核的方法则容易造成漏检。

发明内容

本发明实施例提供一种娇喘音频识别方法、装置、设备及计算机可读介质，以解决或缓解现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种娇喘音频识别方法，包括以下步骤：

从待识别的音视频中提取脉冲编码调制信号；

在脉冲编码调制信号中提取多维声学特征；

将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

结合第一方面，本发明在第一方面的第一种实现方式中，所述多维声学特征包括：梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；其中所述梅尔频率倒谱系数的特征为13维，所述音色向量由12维音阶特征组成。

结合第一方面，本发明在第一方面的第二种实现方式中，所述在脉冲编码调制信号中提取多维声学特征的步骤中，具体包括：判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。

结合第一方面的第二种实现方式，本发明在第一方面的第三种实现方式中，所述将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率的步骤中，具体包括：

当所述脉冲编码调制信号的长度大于设定阈值时，输入多个音频片段至卷积神经网络；

由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值；

将多个概率值进行归并平滑处理，获取最终识别为娇喘音频的概率值。

第二方面，本发明实施例提供了一种娇喘音频识别装置，包括：

信号提取模块，用于从待识别的音视频中提取脉冲编码调制信号；

特征提取模块，用于在脉冲编码调制信号中提取多维声学特征；

概率获取模块，用于将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

结合第二方面，本发明在第二方面的第一种实现方式中，所述多维声学特征包括：梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；其中所述梅尔频率倒谱系数的特征为13维，所述音色向量由12维音阶特征组成。

结合第二方面，本发明在第二方面的第二种实现方式中，所述特征提取模块具体用于判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。

结合第二方面的第二种实现方式，本发明在第二方面的第三种实现方式中，所述概率获取模块包括：

音频输入子模块，用于当所述脉冲编码调制信号的长度大于设定阈值时，输入多个音频片段至卷积神经网络；

概率值输出子模块，用于由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值；

归并平滑子模块，用于将多个概率值进行归并平滑处理，获取最终识别为娇喘音频的概率值。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，娇喘音频识别装置的结构中包括处理器和存储器，所述存储器用于存储支持娇喘音频识别装置执行上述第一方面中娇喘音频识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述娇喘音频识别装置还可以包括通信接口，用于娇喘音频识别装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种计算机可读介质，用于存储娇喘音频识别装置所用的计算机软件指令，其包括用于执行上述第一方面的娇喘音频识别方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例可以在海量音视频数据中实现音频娇喘智能识别，大幅降低人工审核的成本，同时可以保证较高的效率与性能。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为实施例一的娇喘音频识别方法的步骤流程图；

图2为本实施例一的卷积神经网络的结构示意图；

图3为实施例二的娇喘音频识别方法步骤流程图；

图4为实施例二的步骤S240的具体步骤流程图；

图5为实施例三的娇喘音频识别装置的连接框图；

图6为实施例四的娇喘音频识别装置的连接框图；

图7为实施例五的娇喘音频识别设备连接框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例旨在解决现有技术中娇喘音频识别时需要由人工进行审核，当面对海量数据时效率低下且成本高的技术问题。本发明实施例主要通过采用卷积神经网络进行音频数据的智能识别，下面分别通过以下实施例进行技术方案的展开描述。

实施例一

请参阅图1，其为本发明实施例一的娇喘音频识别方法的步骤流程图。本实施例一提供了一种娇喘音频识别方法，包括以下步骤：

S110：从待识别的音视频中提取脉冲编码调制信号。

首先，对需要识别的音频或视频提取脉冲编码调制(pcm，Pulse CodeModulation)信号，用于将语音模拟信号每个一定时间进行取样，实现离散化。

S120：在脉冲编码调制信号中提取多维声学特征。

在一个实施例中，所述多维声学特征可以包括：梅尔频率倒谱系数(MFCCs)、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；其中所述梅尔频率倒谱系数的特征为13维，所述音色向量由12维音阶特征组成，共计34维特征。

S130：将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

如图2所示，其为本实施例一的卷积神经网络的结构示意图。在本实施例一中，所述的卷积神经网络结构可以设计为依次包括：第一卷积层conv1、第一下采样层maxpool1、第二卷积层conv2、第二下采样层maxpool2、第三卷积层conv3、第三下采样层maxpool3、第一全连接层fc1、第二全连接层fc2以及输出层。所述第一卷积层包括256个34*1的卷积核，所述第一下采样层、第二下采样层和第三下采样层均包含1*2的最大值采样；所述第二卷积层和第三卷积层均包含256个1*3卷积核。第一全连接层的输出特征维数为256，第二全连接层输出维数为2，所述输出层通过softmax函数输出分类概率，即识别为娇喘音频的概率值。

本实施例中，需要对卷积神经网络进行训练，主要通过采用大量的娇喘音频数据和非娇喘音频数据对卷积神经网络进行训练。其中，当以娇喘音频数据作为输入时，以概率值为“1”作为输出的基准。而当以“非娇喘”音频数据作为输入时，以概率值“0”作为输出的基准。通过大量的数据训练后，完整卷积神经网络的训练。然后，再通过该卷积神经网络进行音频的识别，输出对应的概率值。

在本实施例一中，通过采用卷积神经网络对音频进行识别计算，获取对应的概率值，从而可以减少人力成本，增加识别的精确性。在本实施例的基础上，还可以通过设置阈值方式，当识别的概率值大于某个设定阈值时，则认定为娇喘音频。另外，对于视频信号，还可以结合图片识别，以提高判断的精确性。

实施例二

与实施例一的区别在于：本实施例二对长度较大的脉冲编码调制信号进行分割处理，具体的方案如下：

如图3所示，其为本实施例二的娇喘音频识别方法的步骤流程图。本实施例二的娇喘音频识别方法包括以下步骤：

S210：从待识别的音视频中提取脉冲编码调制信号。

S220：判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。

在本步骤中，对长度比较大的脉冲编码信号进行分割，在本实施例二中，设定阈值长度为55帧，即可以按55帧为一个单位将音频信号分割为多个音频片段。

S230：在脉冲编码调制信号中提取多维声学特征。

S240：将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

如图4所示，所述步骤S240中包括：

S241：当所述脉冲编码调制信号的长度大于设定阈值时，输入多个音频片段至卷积神经网络。

所述的卷积神经网络结构可以设计为依次包括：第一卷积层conv1、第一下采样层maxpool1、第二卷积层conv2、第二下采样层maxpool2、第三卷积层conv3、第三下采样层maxpool3、第一全连接层fc1、第二全连接层fc2以及输出层。所述第一卷积层包括256个34*1的卷积核，所述第一下采样层、第二下采样层和第三下采样层均包含1*2的最大值采样；所述第二卷积层和第三卷积层均包含256个1*3卷积核。第一全连接层的输出特征维数为256，第二全连接层输出维数为2，所述输出层通过softmax函数输出分类概率，即识别为娇喘音频的概率值。

S242：由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值。

S243：将多个概率值进行归并平滑处理，获取最终识别为娇喘音频的概率值。

在本实施例二中，将长度较大的音频进行分割处理，然后再分别计算每一段音频的概率值，最后再进行归并处理，获取整段音频被识别为娇喘音频的概率值。

实施例三

本实施例三对应于实施例一，提供了一种娇喘音频识别装置。请参阅图5，其为本实施例三的娇喘音频识别装置的连接框图。

本实施例三的娇喘音频识别装置，包括：

信号提取模块110，用于从待识别的音视频中提取脉冲编码调制信号。

特征提取模块120，用于在脉冲编码调制信号中提取多维声学特征。所述多维声学特征包括：梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；其中所述梅尔频率倒谱系数的特征为13维，所述音色向量由12维音阶特征组成。

概率获取模块130，用于将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

本实施例三与实施例一的原理相同，故不再赘述。

实施例四

本实施例四与实施例二对应，提供了一种娇喘音频识别装置，具体如下：

如图6所示，为本实施例四的娇喘音频识别装置的连接框图。本发明实施例四提供了一种娇喘音频识别装置，包括：

信号提取模块210，用于从待识别的音视频中提取脉冲编码调制信号。

信号分割模块220，用于判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。在一个实施例中，所述设定阈值可以选取为55帧。

特征提取模块230，用于在脉冲编码调制信号中提取多维声学特征。所述多维声学特征包括：梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；其中所述梅尔频率倒谱系数的特征为13维，所述音色向量由12维音阶特征组成。

概率获取模块240，用于将多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率。

其中，所述概率获取模块240包括：

音频输入子模块241，用于当所述脉冲编码调制信号的长度大于设定阈值时，输入多个音频片段至卷积神经网络。

概率值输出子模块242，用于由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值。

归并平滑子模块243，用于将多个概率值进行归并平滑处理，获取最终识别为娇喘音频的概率值。

本实施例四的应用方式与原理与实施例二相同，故不再赘述。

实施例五

本发明实施例五提供一种娇喘音频识别设备，如图7所示，该设备包括：存储器310和处理器320，存储器310内存储有可在处理器320上运行的计算机程序。所述处理器320执行所述计算机程序时实现上述实施例中的娇喘音频识别方法。所述存储器310和处理器320的数量可以为一个或多个。

该设备还包括：

通信接口330，用于与外界设备进行通信，进行数据交互传输。

存储器310可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器310、处理器320和通信接口330独立实现，则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器310、处理器320及通信接口330集成在一块芯片上，则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明实施例可以在海量音视频数据中实现音频娇喘智能识别，大幅降低人工审核的成本，同时可以保证较高的效率与性能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种娇喘音频识别方法，其特征在于，包括：

从待识别的音视频中提取脉冲编码调制信号；

在脉冲编码调制信号中提取多维声学特征，所述多维声学特征包括：具备多维特征的梅尔频率倒谱系数、由多维音阶特征组成的音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；

将所述多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率，在所述概率大于设定阈值的情况下，判定所述待识别音频为娇喘音频。

2.根据权利要求1所述的娇喘音频识别方法，其特征在于，所述具备多维特征的梅尔频率倒谱系数的特征为13维，所述由多维音阶特征组成的音色向量由12维音阶特征组成。

3.根据权利要求1所述的娇喘音频识别方法，其特征在于，所述在脉冲编码调制信号中提取多维声学特征的步骤中，具体包括：判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。

4.根据权利要求3所述的娇喘音频识别方法，其特征在于，所述将所述多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率的步骤中，具体包括：

5.一种娇喘音频识别装置，其特征在于，包括：

特征提取模块，用于在脉冲编码调制信号中提取多维声学特征，所述多维声学特征包括：具备多维特征的梅尔频率倒谱系数、由多维音阶特征组成的音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降，以及音色偏差；

概率获取模块，用于将所述多维声学特征进行归一化后输入卷积神经网络，由所述卷积神经网络输出识别为娇喘音频的概率，在所述概率大于设定阈值的情况下，判定所述待识别音频为娇喘音频。

6.根据权利要求5所述的娇喘音频识别装置，其特征在于，所述具备多维特征的梅尔频率倒谱系数的特征为13维，所述由多维音阶特征组成的音色向量由12维音阶特征组成。

7.根据权利要求5所述的娇喘音频识别装置，其特征在于，所述特征提取模块具体用于判断所述脉冲编码调制信号的长度是否大于设定阈值，若是，则对该信号进行分割，获取多个音频片段。

8.根据权利要求7所述的娇喘音频识别装置，其特征在于，所述概率获取模块包括：

9.一种娇喘音频识别设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的娇喘音频识别方法。

10.一种计算机可读介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的娇喘音频识别方法。