CN111540364A

CN111540364A - 音频识别方法、装置、电子设备及计算机可读介质

Info

Publication number: CN111540364A
Application number: CN202010316756.2A
Authority: CN
Inventors: 陈虚竹; 郦柏金; 李金桦
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14

Abstract

本公开的实施例提供了一种音频识别方法、装置、电子设备及计算机可读介质。该方法包括：获取待识别音频；对待识别音频进行特征提取，获得待识别音频的特征向量；通过长短期记忆网络对特征向量进行处理，获得长短期记忆网络的输出数据；通过卷积神经网络对长短期记忆网络的输出数据进行处理，获得待识别音频的识别结果。本公开实施例提供的技术方案，通过长短期记忆网络对待识别音频的特征向量进行处理，获得第一数据，能够对待识别音频形成记忆信息。通过卷积神经网络对第一数据进行处理，能够结合长短期记忆网络对待识别音频的记忆信息，基于第一数据对待识别音频进行识别与分类，能够适用于长音频的无语意识别，并获得准确率较高的识别结果。

Description

音频识别方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种音频识别方法、装置、电子设备及计算机可读介质。

背景技术

随着互联网的迅速发展，语音沟通、语音交友、语音游戏等功能充斥着各大互联网应用，在为用户提供便捷的同时也为情色交易和网络暴力提供了土壤，不仅影响了其它正常用户的社交和游戏体验，还给应用本身健康、良好、可持续的运营带来隐患。因此，语音识别工作一直是一个非常重要的领域。

传统的语音识别主要是对有语意音频的语音转文字。有语意的语音识别通过机器学习模型将语音片段转义为文字，再通过文字判别语音的含义。在与传统识别功能不断对抗的过程中，黑色产业已经发现了新的宣传方式，通过无语意的娇喘、呻吟等形式规避传统语音识别的检测，引诱他人加好友，从而进行诈骗活动或者情色活动。网络暴民也可以通过吼叫和胡言乱语干扰他人的正常社交和游戏，且传统的语音识别方式难以甄别。

因此，需要一种新的音频识别方法、装置、电子设备及计算机可读介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种音频识别方法、装置、电子设备及计算机可读介质，进而至少在一定程度上克服相关技术中无法识别无语意音频的缺陷。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提出一种音频识别方法，包括：获取待识别音频；对所述待识别音频进行特征提取，获得所述待识别音频的特征向量；通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据；通过卷积神经网络对所述长短期记忆网络的所述输出数据进行处理，获得所述待识别音频的识别结果。

在示例性实施例中，在对所述待识别音频进行提取之前，所述方法还包括：对所述待识别音频进行切分，获得多个待识别音频段；所述对所述待识别音频进行特征提取，获得所述待识别音频的特征向量包括：分别对所述多个待识别音频段进行特征提取，获得所述多个待识别音频段的特征向量；所述通过长短期记忆网络对所述特征向量进行处理，获得第一数据包括：通过所述长短期记忆网络对每个待识别音频段的所述特征向量进行处理，获得每个待识别音频段的第一数据；所述通过卷积神经网络模型对所述第一数据进行处理，获得所述待识别音频的识别结果包括：通过所述卷积神经网络模型对所述每个待识别音频段的第一数据进行处理，获得所述每个待识别音频段的识别结果。

在示例性实施例中，所述方法还包括：对所述每个待识别音频段的识别结果进行加权求和，获得所述待识别音频的识别结果。

在示例性实施例中，对所述待识别音频进行切分，获得多个待识别音频段包括：在对所述待识别音频进行电信号转化过程中，获得所述待识别音频的关键帧；计算每两个相邻的所述关键帧之间的帧距；将帧距小于预设帧距阈值的多个连续的所述关键帧确定为关键帧组；根据各所述关键帧组的第一个关键帧和最后一个所述关键帧对所述待识别音频进行切分，获得各所述关键帧组对应的所述待识别音频段。。

在示例性实施例中，对所述待识别音频进行切分，获得多个待识别音频段还包括：若所述待识别音频段的存储空间大于存储空间阈值，或所述待识别音频段的音频时长大于音频时长阈值，则根据预设音频长度对所述待识别音频段进行切分。

在示例性实施例中，所述长短期记忆网络包括n个依次连接的细胞单元，所述特征向量包括n个特征数据，n为大于0的整数；其中，通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据包括：通过第i个所述细胞单元对所述特征向量中的第i个特征数据进行处理，将第n个所述细胞单元的输出数据确定为所述长短期记忆网络的输出数据，其中，i为大于0且小于或等于n的整数。

在示例性实施例中，所述方法还包括：获取音频样本集，所述音频样本集包括样本音频数据和所述样本音频数据的标注；对所述样本音频数据进行特征提取，获得所述样本音频数据的样本特征向量；通过所述长短期记忆网络和所述卷积神经网络对所述样本音频数据的所述样本特征向量进行处理，获得训练识别结果；通过所述训练识别结果和所述样本音频数据的标注对所述长短期记忆网络和所述卷积神经网络进行训练，获得训练后的所述长短期记忆网络和所述卷积神经网络。

本公开实施例提出一种音频识别装置，包括：音频获取模块，配置为获取待识别音频；特征提取模块，配置为对所述待识别音频进行特征提取，获得所述待识别音频的特征向量；第一数据模块，配置为通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据；结果生成模块，配置为通过卷积神经网络对所述长短期记忆网络的所述输出数据进行处理，获得所述待识别音频的识别结果。

本公开实施例提出一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的音频识别方法。

本公开实施例提出一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述实施例中所述的音频识别方法。

在本公开的一些实施例所提供的技术方案中，通过长短期记忆网络对待识别音频的特征向量进行处理，获得长短期记忆网络的输出数据，能够对待识别音频中的前后音频帧信息形成记忆信息，能够剔除待处理数据中的非重要信息，保证获得的长短期记忆网络的输出数据中保留了待识别音频中的重要信息。通过卷积神经网络对长短期记忆网络的输出数据进行处理，能够结合长短期记忆网络对待识别音频中重要信息的记忆特性，精确地对待识别音频中的重要信息进行表征学习，省去待识别音频中的非重要信息的干扰，实现对长音频的无语意识别，提高识别结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了可以应用本公开实施例的音频识别方法或装置的示例性系统架构的示意图；

图2示意性示出了根据本公开的一个实施例的音频识别方法的流程图；

图3示意性示出了根据本公开的一个实施例的音频识别方法的流程图；

图4示意性示出了根据本公开的一个实施例的音频识别方法的流程图；

图5是基于图4的步骤S251在一个示例性实施例中的流程图；

图6示意性示出了根据本公开的一个实施例的神经网络模型的结构图；

图7示意性示出了根据本公开的一实施例的音频识别装置的框图；

图8示意性示出了根据本公开的一个实施例的音频识别装置的框图；

图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

相关技术中，对语音的识别主要分为有语意识别和无语意识别。有语意识别主要将音频转换为文字，而后通过文字识别判断音频转换为的文字包含的语意。传统的语音识别为有语意识别。有语意识别发展较早也较为成熟，市面上大多数音频识别相关产品和音频识别相关技术都是针对有语意音频的。

然而，传统的音频识别方式对于无语意音频完全无能为力，因为无语意音频中包含的信息并不是通过文字传递的，而是通过响度和音调变化传递的。例如，娇喘音频转换为文字之后将是“啊啊啊啊啊”，文字识别无法判断其中包含的语意。

图1示出了可以应用本公开实施例的音频识别方法或装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105上传待识别音频。服务器105可以获取待识别音频；对待识别音频进行特征提取，获得待识别音频的特征向量；通过长短期记忆网络对特征向量进行处理，获得长短期记忆网络的输出数据；通过卷积神经网络对长短期记忆网络的输出数据进行处理，获得待识别音频的识别结果。并将待识别音频的识别结果反馈给终端设备103，进而终端设备103可以根据识别结果执行后续操作，从而实现对时长较长的无语意音频的识别。

图2示意性示出了根据本公开的一个实施例的音频识别方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

如图2所示，本公开实施例提供的音频识别方法可以包括以下步骤。

在步骤S210中，获取待识别音频。

本公开实施例中，待识别音频可例如为终端设备101(也可以是终端设备102、103)的用户通过操作生成的，或者根据预设程序采集的。例如，用户可为网络游戏运营商或社交类网络应用服务商，待识别音频可以为消费者(Customer，C端客户)说的话，或者预先录制的以宣传为目的的音频。终端设备对待识别音频的采集方式可例如通过但不限于手机自带的麦克风、电脑麦克风或者其它声音采集设备等。

待识别音频的音频格式可例如但不限于为3GP文件格式(3rd GenerationPartnership Project)、动态影像专家压缩标准音频层面3格式(Moving Picture ExpertsGroup Audio Layer III，MP3)、MPEG-4音频标准文件格式(M4A)、微软音频格式(WindowsMedia Audio，WMA)、APE无损压缩音乐格式(Monkey’s Audio)、无损音频压缩编码格式(Free Lossless Audio Codec，FLAC)等。

在示例性实施例中，步骤S210可以包括以下步骤中的一个或多个。

步骤S211，获取目标对象发送的音频文件，以获得待识别音频。

本公开实施例中，目标对象可为C端客户操作的终端设备，也可为有音频识别需求的用户。当C端客户的终端设备的声音采集设备采集到声音信息时，可生成音频文件。音频文件的格式可例如但不限于为波形文件格式、高级音频编码格式(Advanced AudioCoding，AAC)、3GP文件格式、MP3格式、M4A格式、WMA格式、APE格式、FLAC格式等。

步骤S212，获取目标对象发送的实时音频数据流，以获得待识别音频。

本公开实施例中，目标对象可为C端客户操作的终端设备。例如，当C端客户的终端设备的声音采集设备采集到声音信息时，可根据采集到的声音信息实时生成实时音频数据流。音频数据流的格式可例如但不限于为流式音频格式(Real Vedio)、WMA格式、MOV格式(QuickTime)等。

步骤S213，获取目标对象发送的音频下载链接，并根据音频下载链接获得待识别音频。

本公开实施例中，可根据音频下载链接进行音频下载，获得待识别音频。

在示例性实施例中，还可将待识别音频转换为目标格式，目标格式为数字化影院系统编码格式(Digital Theater Systems，DTS)。DTS是一种针对于高保真多声道的音频编码方式，其能够在保证音频的真实性的同时，兼容多种用户输入的音频格式，能够适用于不同的音频识别的应用场景，提高用户体验。

在步骤S220中，对待识别音频进行特征提取，获得待识别音频的特征向量。

在示例性实施例中，特征向量包括以下的一种或多种：过零率(zero-crossingrate，ZCR)、短时能量、短时自相关函数、短时平均幅度差、语图谱、梅尔频率倒谱(Mel-Frequency Cepstrum)、频谱中心、频谱延展度、谱熵、频谱通量(Spectral Flux)、频谱滚降。

应该理解，上述仅为示例，本公开实施例对特征向量的具体类型并不作特殊限定。

其中，过零率是指一个信号的符号变化的比率，例如信号从正数变成负数或反向。短时能量是较短时间内的语音能量。较短时间通常指一帧。也就是说，短时能量通常指一帧时间内的语音能量。短时自相关函数值较短时间内语音信号的自相关函数值，短时自相关函数值与短时能量的概念相同。短时平均幅度差用于衡量语音幅度的变化。语图谱是语音频谱图。梅尔频率倒谱是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。谱熵描述了功率谱和熵率之间的关系。频谱通量是声音信号频谱的包络面积,反映信号中各频带成分的能量之和。

在步骤S230中，通过长短期记忆网络(Long Short-Term Memory，LSTM)对特征向量进行处理，获得长短期记忆网络的输出数据。

在本公开实施例中，LSTM是一种特殊结构的循环神经网络，其能够解决一般的循环神经网络存在的长期依赖问题。长短期记忆网络具有至少一个重复单元，每个重复单元为一个细胞，包括：遗忘门、输入门、输出门和细胞状态层。遗忘门的计算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (1)

其中，σ表示激活函数(sigmoid)，x_t为t时刻的输入数据，例如特征向量中的第t个特征值；h_t-1为t-1时刻输出门输出的隐藏状态，即历史信息，b_f为偏移参数。遗忘门通过将h_t-1和x_t进行拼接，并输出为一个0至1之间的数值：遗忘门系数f_t，根据遗忘门系数f_t决定需要遗忘的历史信息。例如，1表示“完全保留”，0表示“完全舍弃”。遗忘门可根据当前输入的新的信息(x_t)来决定要忘记的历史信息(h_t-1)。

输入门的计算公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (2)

其中，tanh表示双曲正切激活函数，b_i为偏移参数。输入门获得的输入门系数i_t决定了可以流入该重复单元的输入数据(x_t)。

细胞状态层的计算公式如下：

其中，C_t为t时刻的细胞状态，根据遗忘门系数f_t和获得的输入门系数i_t，可更新细胞状态，将C_t-1更新为C_t。

输出门的计算公式如下：

o_t＝σ(W_o[h_t-1,x_t]+b_o) (5)

h_t＝o_t*tanh(C_t) (6)

其中，根据历史信息h_t-1和输入数据x_t决定输出门的隐藏状态h_t。

在每个细胞单元中，输入门、遗忘门、输出门所对应的函数都是激活函数：sigmoid函数(因为Sigmoid函数的输出值范围为0-1，相当于控制门的百分比过滤)，因此输出的结果是[0,1]，当为0时，门完全关闭，当为1时，门完全打开。输入门控制着当前输入值有多少信息流入到当前的计算中，遗忘门控制着历史信息中有多少信息流入到当前计算中，输出门控制着输出值中有多少信息流入到隐层中。

通过长短期记忆网络对特征向量进行处理，能够通过长短期记忆网络中的通过输出门控制流入隐层的信息，通过遗忘门剔除特征向量中的不重要信息，通过输入门保留特征向量中的重要信息，实现对连续的待识别音频中连续帧之间的联想记忆，凸显出待识别音频中的重要信息，因此获得的长短期记忆网络的输出数据中，能够包含待识别音频中的重要信息，并省去非重要信息。

在示例性实施例中，长短期记忆网络包括n个依次连接的细胞单元，特征向量包括n个特征数据，n为大于0的整数。其中，可通过第i个细胞单元对特征向量中的第i个特征数据进行处理，将第n个细胞单元的输出数据确定为长短期记忆网络的输出数据，其中，i为大于0且小于或等于n的整数。

在步骤S240中，通过卷积神经网络对长短期记忆网络的输出数据进行处理，获得待识别音频的识别结果。

本公开实施例中，卷积神经网络(Convolutional Neural Networks,CNN)是一种前馈神经网络，由若干个卷积层、池化层以及全连接层组成。CNN能够很好地利用输入数据的二维结构处理图像和音频数据。

其中，通过CNN对长短期记忆网络的输出数据进行处理，能够实现精确地对待识别音频中的重要信息进行表征学习，省去待识别音频中的非重要信息的干扰，提高识别结果的准确性。

图6示意性示出了根据本公开的一个实施例的神经网络模型的结构图。如图6所示，卷积神经网络可包括依次连接的第一卷积层601、第一池化层(Maxpool)602、第二卷积层603、第二池化层604、第三卷积层605、第三池化层606、第四卷积层607、第四池化层608、第一全连接层609、第二全连接层610、第三全连接层611和归一化层612。应该理解，图6示出的卷积神经网络的具体结构仅为示例，还可根据实际情况调整卷积层、池化层、全连接层中一个或的多个的具体参数，本公开的技术方案对此并不作特殊限定。其中，归一化层612可例如但不限于采用柔性最大函数(softmax)进行归一化。

本公开实施例中，待识别音频的识别结果可为多维向量，每个维度的具体数值表示待识别音频为当前维度对应音频类型的概率值。待识别音频的识别结果为待识别音频为至少一种音频类型的概率值。音频类型可例如但不限于为呻吟、娇喘、吼叫、叹息等。

在示例性实施例中，还可根据识别结果与概率阈值确定待识别音频的音频类型识别结果。例如，当某一待识别音频的识别结果为4维向量：[0.1，0.2，0.2，0.8]，第一维度至第四维度对应的音频类型分别为：呻吟、娇喘、吼叫、叹息，呻吟的概率阈值为0.5，娇喘的概率阈值为0.5，吼叫的概率阈值为0.5，叹息的概率阈值为0.6。则可将识别结果中每个维度的值分别与该每个维度对应的音频类型的概率阈值进行大小判断。若识别结果中某个维度的值大于(或等于)该维度对应的音频类型的概率阈值，则可确定该待识别音频的音频类型识别结果。上述举例中的待识别音频的音频类型识别结果为：吼叫。

本公开实施方式提供的音频识别方法，通过长短期记忆网络对待识别音频的特征向量进行处理，获得长短期记忆网络的输出数据，能够对待识别音频中的前后音频帧信息形成记忆信息，能够剔除待处理数据中的非重要信息，保证获得的长短期记忆网络的输出数据中保留了待识别音频中的重要信息。通过卷积神经网络对长短期记忆网络的输出数据进行处理，能够结合长短期记忆网络对待识别音频中重要信息的记忆特性，精确地对待识别音频中的重要信息进行表征学习，省去待识别音频中的非重要信息的干扰，实现对长音频的无语意的分类识别，提高识别结果的准确性。

图3示意性示出了根据本公开的一个实施例的音频识别方法的流程图。

如图3所示，本公开实施例提供的音频识别方法可以包括以下步骤。

步骤S310，获取待识别音频。

本公开实施例的步骤S310可采取与步骤S210类似的步骤，此处不再赘述。

在示例性实施例中，步骤S310可以包括以下步骤中的一个或多个。

步骤S311，获取目标对象发送的音频文件，以获得待识别音频。

其中，目标对象可为终端设备101(或102、103)。

步骤S312，获取目标对象发送的实时音频数据流，以获得待识别音频。

步骤S313，获取目标对象发送的音频下载链接，并根据音频下载链接获得待识别音频。

在示例性实施例中，还可将待识别音频转换为目标格式，目标格式为数字化影院系统编码格式。对于DTS格式的待识别音频，能够保留其多声道和高音频采样率。

步骤S320，对待识别音频进行切分，获得多个待识别音频段。

在示例性实施例中，可在对待识别音频进行电信号转化过程中，获得待识别音频的关键帧；计算每两个相邻的关键帧之间的帧距；将帧距小于预设帧距阈值的多个连续的关键帧确定为关键帧组；根据各关键帧组的第一个关键帧和最后一个关键帧对待识别音频进行切分，获得各关键帧组对应的待识别音频段。

其中，对待识别音频的电信号转化过程是指，将模拟信号格式的待识别音频进行转化，获得电信号格式的待识别音频。在电信号转化过程中能够获得待识别音频的关键帧。待识别音频的关键帧为包含音频中关键数据的音频帧。

例如，在音频时长为10s的待识别音频中，若3s、3.5s、4.5s、5.5s、7s处为关键帧，预设帧距阈值为2s，则可将该待识别音频的切分获得原待识别音频中3-7s的待识别音频段。

根据本公开某些实施例的技术方案，根据待识别音频的关键帧对待识别音频进行切分，将待识别音频中具有关键数据的信息进行保留并切分，保证切分后的待识别音频段的音频质量。

步骤S330，分别对多个待识别音频段进行特征提取，获得多个待识别音频段的特征向量。

在示例性实施例中，特征向量包括以下的一种或多种：过零率、短时能量、短时自相关函数、短时平均幅度差、语图谱、梅尔频率倒谱、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降。

步骤S340，通过长短期记忆网络对每个待识别音频段的特征向量进行处理，获得每个待识别音频段的第一数据。

步骤S350，通过卷积神经网络模型对每个待识别音频段的第一数据进行处理，获得每个待识别音频段的识别结果。

其中，可通过并发系统执行本公开实施例的方法，能够提高音频识别速度，极大缩短长音频识别的耗时。

本公开实施例中，每个待识别音频段的识别结果可为多维向量，每个维度的具体数值表示该每个待识别音频段为当前维度对应音频类型的概率值。音频类型可例如但不限于为呻吟、娇喘、吼叫、叹息等。

在示例性实施例中，本公开实施例的音频识别方法还可包括以下步骤。

步骤S360，对每个待识别音频段的识别结果进行加权求和，获得待识别音频的识别结果。

本公开实施例中，例如，当待识别音频切分为2个待识别音频段，该2个待识别音频段的识别结果可表示为如下矩阵：

其中，第一行为第一个待识别音频段的识别结果，第二行为第二个待识别音频段的识别结果。每一列的具体数值为待识别音频段位当前列对应的音频类型的概率值。在本实施例中，第一列至第四列分别对应的音频类型可例如依次为：呻吟、娇喘、吼叫、叹息。以音频类型为呻吟的识别结果为例，可对第一个待识别音频段的识别结果0.1和第二个待识别音频段的识别结果0.08进行加权求和，获得待识别音频针对音频类型为呻吟的识别结果。

本公开实施方式提供的音频识别方法，对待识别音频进行切分后，分别对获得的多个待识别音频段进行特征提取，依次通过长短期记忆网络和卷积神经网络对多个待识别音频段的特征向量进行处理，获得多个待识别音频段的识别结果，能够通过长短期记忆网络和卷积神经网络搭建的组合神经网络模型对切分后的多个待识别音频段进行处理，利用该组合神经网络模型的记忆特性与表征学习特征，并获得准确率较高的无语意音频的识别结果。切分会带来什么问题？两个网络结合是如何解决该问题的推导过程。

本公开实施方式的部分实施例中，在对待识别音频进行提取之前，对待识别音频进行切分，在获得多个待识别音频段的识别结果后，对多个待识别音频段的识别结果进行加权求和，获得待识别音频的识别结果，能够提高音频识别速度。在一些实施例中，本公开实施方式通过运行在分布式并发系统中，可极大缩短长音频的音频识别耗时。

图4示意性示出了根据本公开的一个实施例的音频识别方法的流程图。

如图4所示，上述图3实施例中的步骤S320还可以进一步包括以下步骤。

步骤S321，若待识别音频段的存储空间大于存储空间阈值，或待识别音频段的音频时长大于音频时长阈值，则根据预设音频长度对待识别音频段进行切分。

本公开实施例中，存储空间阈值和音频时长阈值可根据实际应用场景赋值。

本公开实施方式通过对待识别音频段的存储空间和音频时长进行大小对比，根据比对结果确定是否对待识别音频段进行切分。能够适应性地将具体应用场景中的长音频进行切分，以便以提高音频识别的速度。

图5是基于图4的步骤S251在一个示例性实施例中的流程图。

如图5所示，基于上述实施例的音频识别方法还可以包括以下步骤。

步骤S510，获取音频样本集，音频样本集包括样本音频数据和样本音频数据的标注。

步骤S520，对样本音频数据进行特征提取，获得样本音频数据的样本特征向量。

在示例性实施例中，在对样本音频数据进行特征提取之前，可对样本音频数据进行切分，获得多个样本待识别音频段；对多个样本待识别音频段进行特征提取，获得多个样本待识别音频段的样本特征向量。

步骤S530，通过长短期记忆网络和卷积神经网络对样本音频数据的样本特征向量进行处理，获得训练识别结果。

在示例性实施例中，可通过长短期记忆网络和卷积神经网络对多个样本待识别音频段的样本特征向量进行处理，获得多个样本待识别音频段的训练识别结果。

步骤S540，通过训练识别结果和样本音频数据的标注对长短期记忆网络和卷积神经网络进行训练，获得训练后的长短期记忆网络和卷积神经网络。

在示例性实施例中，可通过多个样本待识别音频段的训练识别结果和样本音频数据的标注对长短期记忆网络和卷积神经网络进行训练，获得训练后的长短期记忆网络和卷积神经网络。

以下介绍本公开的装置实施例，可以用于执行本公开上述的音频识别方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的音频识别方法的实施例。

图7示意性示出了根据本公开的一实施例的音频识别装置的框图。

参照图7所示，根据本公开的一个实施例的音频识别装置700，可以包括：音频获取模块710、特征提取模块720、第一数据模块730和结果生成模块740。

在音频识别装置700中，音频获取模块710可以配置为获取待识别音频。

在示例性实施例中，音频获取模块710可以包括第一获取单元、第二获取单元和第三获取单元中的一个或多个。其中，第一获取单元可以配置为获取目标对象发送的音频文件，以获得待识别音频。第二获取单元可以配置为获取目标对象发送的或实时音频数据流，以获得待识别音频。第三获取单元可以配置为获取目标对象发送的音频下载链接，并根据音频下载链接获得待识别音频。

在示例性实施例中，音频获取模块710还可以包括格式转换单元。格式转换单元可以配置为将待识别音频转换为目标格式，目标格式为数字化影院系统编码格式。

特征提取模块720可以配置为对待识别音频进行特征提取，获得待识别音频的特征向量。

第一数据模块730可以配置为通过长短期记忆网络对特征向量进行处理，获得长短期记忆网络的输出数据。

在示例性实施例中，长短期记忆网络包括n个依次连接的细胞单元，所述特征向量包括n个特征数据，n为大于0的整数。第一数据模块730可以配置为通过第i个所述细胞单元对所述特征向量中的第i个特征数据进行处理，将第n个所述细胞单元的输出数据确定为所述长短期记忆网络的输出数据，其中，i为大于0且小于或等于n的整数。

结果生成模块740可以配置为通过卷积神经网络对长短期记忆网络的输出数据进行处理，获得待识别音频的识别结果。

在示例性实施例中，音频识别装置700还可包括样本获取模块、样本特征模块、模型预测模块和模型训练模块。其中，样本获取模块可以配置为获取音频样本集，音频样本集包括样本音频数据和样本音频数据的标注。样本特征模块可以配置为对样本音频数据进行特征提取，获得样本音频数据的样本特征向量。模型预测模块可以配置为通过长短期记忆网络和卷积神经网络对样本音频数据的样本特征向量进行处理，获得训练识别结果。模型训练模块可以配置为通过训练识别结果和样本音频数据的标注对长短期记忆网络和卷积神经网络进行训练，获得训练后的长短期记忆网络和卷积神经网络。

本公开实施方式提供的音频识别装置，通过长短期记忆网络对待识别音频的特征向量进行处理，获得长短期记忆网络的输出数据，能够对待识别音频中的前后音频帧信息形成记忆信息，能够剔除待处理数据中的非重要信息，保证获得的长短期记忆网络的输出数据中保留了待识别音频中的重要信息。通过卷积神经网络对长短期记忆网络的输出数据进行处理，能够结合长短期记忆网络对待识别音频中重要信息的记忆特性，精确地对待识别音频中的重要信息进行表征学习，省去待识别音频中的非重要信息的干扰，实现对长音频的无语意分类识别，提高识别结果的准确性。

图8示意性示出了根据本公开的一个实施例的音频识别装置的框图。

参照图8所示，根据本公开的一个实施例的音频识别装置800，可以包括：音频获取模块810、音频切分模块820、特征提取模块830和特征识别模块840。

在音频识别装置800中，音频获取模块810可以配置为获取待识别音频。

在示例性实施例中，音频获取模块810可以包括第一获取单元、第二获取单元和第三获取单元。其中，第一获取单元可以配置为获取目标对象发送的音频文件，以获得待识别音频。第二获取单元可以配置为获取目标对象发送的实时音频数据流，以获得待识别音频。第三获取单元可以配置为获取目标对象发送的音频下载链接，并根据音频下载链接获得待识别音频。

在示例性实施例中，音频获取模块810还可以包括格式转换单元。格式转换单元可以配置为将待识别音频转换为目标格式，目标格式为数字化影院系统编码格式。

音频切分模块820可以配置为对待识别音频进行切分，获得多个待识别音频段。

在示例性实施例中，音频切分模块820可以包括关键帧获取单元、帧距计算单元、关键帧组单元和音频切分单元。关键帧获取单元可以配置为在对所述待识别音频进行电信号转化过程中，获得所述待识别音频的关键帧。帧距计算单元可以配置为计算每两个相邻的所述关键帧之间的帧距。关键帧组单元可以配置为将帧距小于预设帧距阈值的多个连续的所述关键帧确定为关键帧组。音频切分单元可以配置为根据各所述关键帧组的第一个关键帧和最后一个所述关键帧对所述待识别音频进行切分，获得各所述关键帧组对应的所述待识别音频段。

在示例性实施例中，音频切分模块820还可包括第二切分单元，可以配置为若所述待识别音频段的存储空间大于存储空间阈值，或所述待识别音频段的音频时长大于音频时长阈值，则根据预设音频长度对所述待识别音频段进行切分。

特征提取模块830可以配置为分别对多个待识别音频段进行特征提取，获得多个待识别音频段的特征向量。

特征识别模块840可以配置为通过长短期记忆网络对每个待识别音频段的特征向量进行处理，获得每个待识别音频段的第一数据；通过卷积神经网络模型对每个待识别音频段的第一数据进行处理，获得每个待识别音频段的识别结果。

在示例性实施例中，音频识别装置800还可包括结果合并模块850，结果合并模块850可以配置为对每个待识别音频段的识别结果进行加权求和，获得待识别音频的识别结果。

其中，音频获取模块810、音频切分模块820和结果合并模块850可以通过Java开发语言实现，特征提取模块830和特征识别模块840可以通过Python开发语言实现。

在示例性实施例中，音频识别装置800还可包括样本获取模块、样本切分模块、样本特征模块、模型预测模块和模型训练模块。其中，样本获取模块可以配置为获取音频样本集，音频样本集包括样本音频数据和样本音频数据的标注。样本切分模块可以配置为对样本音频数据进行切分，获得多个样本音频段。样本特征模块可以配置为分别对多个样本音频段进行特征提取，获得多个样本音频段的样本特征向量。模型预测模块可以配置为通过长短期记忆网络和卷积神经网络对每个样本音频段的样本特征向量进行处理，获得每个样本音频段的训练识别结果。模型训练模块可以配置为通过每个样本音频段的训练识别结果和样本音频数据的标注对长短期记忆网络和卷积神经网络进行训练，获得训练后的长短期记忆网络和卷积神经网络。

本公开实施方式提供的音频识别装置，对待识别音频进行切分后，分别对获得的多个待识别音频段进行特征提取，依次通过长短期记忆网络和卷积神经网络对多个待识别音频段的特征向量进行处理，获得多个待识别音频段的识别结果，能够通过长短期记忆网络和卷积神经网络搭建的组合神经网络模型对切分后的多个待识别音频段进行处理，利用该组合神经网络模型的记忆特性与表征学习特征，并获得准确率较高的无语意音频的识别结果。

图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从储存部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的储存部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入储存部分908。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元也可以设置在处理器中。其中，这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频识别方法，其特征在于，包括：

获取待识别音频；

对所述待识别音频进行特征提取，获得所述待识别音频的特征向量；

通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据；

通过卷积神经网络对所述长短期记忆网络的所述输出数据进行处理，获得所述待识别音频的识别结果。

2.如权利要求1所述的方法，其特征在于，在对所述待识别音频进行提取之前，所述方法还包括：

对所述待识别音频进行切分，获得多个待识别音频段；

所述对所述待识别音频进行特征提取，获得所述待识别音频的特征向量包括：

分别对所述多个待识别音频段进行特征提取，获得所述多个待识别音频段的特征向量；

所述通过长短期记忆网络对所述特征向量进行处理，获得第一数据包括：

通过所述长短期记忆网络对每个待识别音频段的所述特征向量进行处理，获得每个待识别音频段的第一数据；

所述通过卷积神经网络模型对所述第一数据进行处理，获得所述待识别音频的识别结果包括：

通过所述卷积神经网络模型对所述每个待识别音频段的第一数据进行处理，获得所述每个待识别音频段的识别结果。

3.如权利要求2所述的方法，其特征在于，还包括：

对所述每个待识别音频段的识别结果进行加权求和，获得所述待识别音频的识别结果。

4.如权利要求2所述的方法，其特征在于，对所述待识别音频进行切分，获得多个待识别音频段包括：

在对所述待识别音频进行电信号转化过程中，获得所述待识别音频的关键帧；

计算每两个相邻的所述关键帧之间的帧距；

将帧距小于预设帧距阈值的多个连续的所述关键帧确定为关键帧组；

根据各所述关键帧组的第一个关键帧和最后一个所述关键帧对所述待识别音频进行切分，获得各所述关键帧组对应的所述待识别音频段。

5.如权利要求4所述的方法，其特征在于，对所述待识别音频进行切分，获得多个待识别音频段还包括：

若所述待识别音频段的存储空间大于存储空间阈值，或所述待识别音频段的音频时长大于音频时长阈值，则根据预设音频长度对所述待识别音频段进行切分。

6.如权利要求1所述的方法，其特征在于，所述长短期记忆网络包括n个依次连接的细胞单元，所述特征向量包括n个特征数据，n为大于0的整数；其中，通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据包括：

通过第i个所述细胞单元对所述特征向量中的第i个特征数据进行处理，将第n个所述细胞单元的输出数据确定为所述长短期记忆网络的输出数据，其中，i为大于0且小于或等于n的整数。

7.如权利要求1所述的方法，其特征在于，还包括：

获取音频样本集，所述音频样本集包括样本音频数据和所述样本音频数据的标注；

对所述样本音频数据进行特征提取，获得所述样本音频数据的样本特征向量；

通过所述长短期记忆网络和所述卷积神经网络对所述样本音频数据的所述样本特征向量进行处理，获得训练识别结果；

通过所述训练识别结果和所述样本音频数据的标注对所述长短期记忆网络和所述卷积神经网络进行训练，获得训练后的所述长短期记忆网络和所述卷积神经网络。

8.一种音频识别装置，其特征在于，包括：

音频获取模块，配置为获取待识别音频；

特征提取模块，配置为对所述待识别音频进行特征提取，获得所述待识别音频的特征向量；

第一数据模块，配置为通过长短期记忆网络对所述特征向量进行处理，获得所述长短期记忆网络的输出数据；

结果生成模块，配置为通过卷积神经网络对所述长短期记忆网络的所述输出数据进行处理，获得所述待识别音频的识别结果。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。