CN111710331B

CN111710331B - 基于多切片深度神经网络的语音立案方法和装置

Info

Publication number: CN111710331B
Application number: CN202010854664.XA
Authority: CN
Inventors: 蒋忆; 郁强; 沈瑶
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-24
Anticipated expiration: 2040-08-24
Also published as: CN111710331A

Abstract

本发明公开了一种基于多切片的深度神经网络的语音立案方法和装置。所述方法，包括：获取用于立案的语音的初始特征向量；将所述初始特征向量输入主深度神经网络以获得主特征向量；将所述主特征向量在所述主特征向量的长度维度上切分为至少三切分特征向量；将所述至少三切分特征向量分别输入至少三切片深度神经网络以获得至少三子特征向量，所述至少三切片深度神经网络通过单独训练得到；将所述至少三子特征向量组合以获得用于分类的特征向量；以及，将所述用于分类的特征向量以Softmax分类器进行分类以获得所述语音特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。这样，提高分类的准确性，且分类性能的鲁棒性较高。

Description

基于多切片深度神经网络的语音立案方法和装置

技术领域

本申请涉及人工智能技术领域，且更为具体地，涉及一种基于多切片深度神经网络的语音立案方法、装置和电子设备。

背景技术

智慧城市是把新一代信息技术充分运用在城市中各行各业的城市信息化高级形态。在现代城市管理中，“立案”发生频率较高且涉及城市管理的方方面面。立案是整个诉讼过程中的起始阶段，同时，也是一个刑事诉讼的必须的过程。目前，立案工作主要依托于人力，效率不高且具有时效性（相关人员下班后便无法进行立案）。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为立案操作提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于多切片深度神经网络的语音立案方法、装置和电子设备，其通过将同一深度神经网络进行切分以在深度方向上切分出主神经网络且在模型的高度方向上划分出多个切片深度神经网络，并从多个切片深度神经网络输出多个子特征向量，这样，基于所获得的子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

根据本申请的一个方面，提供了一种基于多切片深度神经网络的语音立案方法，其包括：

获取用于立案的语音的初始特征向量；

将所述初始特征向量输入主深度神经网络以获得主特征向量；

将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；

将所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；

将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及

将所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

在上述基于多切片深度神经网络的语音立案方法中，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量，包括：将所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量。

在上述基于多切片深度神经网络的语音立案方法中，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量，包括：将所述三个子特征向量并行拼接以获得特征图；以及，将所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量。

在上述基于多切片深度神经网络的语音立案方法中，将所述三个或者三个以上的子特征向量组合以获得所述用于分类的特征向量，包括：将所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。

在上述基于多切片深度神经网络的语音立案方法中，获取用于立案的语音的初始特征向量，包括：获取用于立案的语音；将所述语音转换为文本；以及，将所述文本通过词嵌入模型转换为所述初始特征向量。

在上述基于多切片深度神经网络的语音立案方法中，所述主深度神经网络和所述三个或者三个以上的切片深度神经网络的训练过程，包括：

获取用于训练的立案语音的训练特征向量；

将所述初始特征向量输入主深度神经网络以获得训练用主特征向量；

将所述训练用主特征向量在长度维度上切分为三个或者三个以上的训练用切分特征向量；

在所述三个或者三个以上的切片深度神经网络中的每个的训练过程中：

将所述三个或者三个以上的训练用切分特征向量之一输入所述每个切片深度神经网络以获得训练用子特征向量；

将所述训练用子特征向量通过Softmax分类器以获得Softmax损失函数；以及

基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数

在上述基于多切片深度神经网络的语音立案方法中，所述三个或者三个以上的切片深度神经网络并行地进行训练。

在上述基于多切片深度神经网络的语音立案方法中，获取用于训练的立案语音的训练特征向量，包括：获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；以及，将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。

根据本申请的另一方面，提供了一种基于多切片深度神经网络的语音立案装置，其包括：

初始特征向量获取单元，用于获取用于立案的语音的初始特征向量；

主特征向量生成单元，用于将所述初始特征向量获取单元获得的所述初始特征向量输入主深度神经网络以获得主特征向量；

切分特征向量生成单元，用于将所述主特征向量生成单元获得的所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；

子特征向量生成单元，用于将所述切分特征向量生成单元获得的所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；

分类特征向量生成单元，用于将所述子特征向量生成单元获得的所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及

分类单元，用于将所述分类特征向量生成单元获得的所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

在上述基于多切片深度神经网络的语音立案装置中，所述切分特征向量生成单元，进一步用于：将所述主特征向量生成单元获得的所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量。

在上述基于多切片深度神经网络的语音立案装置中，所述分类特征向量生成单元，包括：

拼接子单元，用于将所述子特征向量生成单元获得的所述三个子特征向量并行拼接以获得特征图；以及

池化子单元，用于将所述拼接子单元获得的所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量。

在上述基于多切片深度神经网络的语音立案装置中，所述分类特征向量生成单元，进一步用于将所述子特征向量生成单元获得的所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。

在上述基于多切片深度神经网络的语音立案装置中，所述初始特征向量获取单元，包括：

语音获取子单元，用于获取用于立案的语音；

文本转化子单元，用于将所述语音获取单元获得的所述语音转换为文本；以及

向量转化子单元，用于将所述文本转化子单元获得的所述文本通过词嵌入模型转换为所述初始特征向量。

在上述基于多切片深度神经网络的语音立案装置中，进一步包括训练单元，用于：

获取用于训练的立案语音的训练特征向量；

基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数。

在上述基于多切片深度神经网络的语音立案装置中，所述三个或者三个以上的切片深度神经网络并行地进行训练。

在上述基于多切片深度神经网络的语音立案装置中，所述训练单元，进一步用于：获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；以及，将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于多切片深度神经网络的语音立案方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于多切片深度神经网络的语音立案方法。

与现有技术相比，本申请提供的基于多切片深度神经网络的语音立案方法、装置和电子设备，其通过将同一深度神经网络进行切分以在深度方向上切分出主神经网络且在模型的高度方向上划分出多个切片深度神经网络，并从多个切片深度神经网络输出多个子特征向量，这样，基于所获得的子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法的应用场景图。

图2图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法的流程图。

图3图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法的系统架构的示意图。

图4图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法中，主深度神经网络和三个或者三个以上的切片深度神经网络的训练方法的流程图。

图5图示了根据本申请实施例的基于多切片深度神经网络的语音立案装置的框图。

图6图示了根据本申请实施例的基于多切片深度神经网络的语音立案装置中分类特征向量生成单元的框图。

图7图示了根据本申请实施例的基于多切片深度神经网络的语音立案装置中初始特征向量获取单元的框图。

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，在现代城市管理中，“立案”发生频率较高且涉及城市管理的方方面面，目前，立案工作主要依托于人力，效率不高且具有时效性。深度学习以及神经网络的发展为立案操作提供了新的解决思路和方案。

具体来说，在通过语音进行立案时，本质上可以通过对用于立案的语音进行分类来进行是否进行立案的判断，也就是，通过对用于立案的语音进行二元分类，来确定基于该语音立案或者不立案。然而，在实际应用中，对于是否立案的判断标准相对模糊，没有非常统一的规则，且通过立案所对应的场景众多，包括城市管理的方方面面，且每个具体的场景之间可能有很大差异，从而几乎无法提取出用于判断是否进行立案的统计规则。而如果简单地通过将语音转化为特征向量后以深度神经网络+ Softmax分类器的网络结构来进行二元分类，也会存在误判率高和判断的准确性性能的鲁棒性较低的问题。

本申请发明人经研究发现，上述影响判断的正确率的部分原因在于由于是否立案本身的规则的模糊性，是否在不同场景下的不同规则之间的差异，使得在通过深度神经网络所获得的高纬特征空间中，类边界与数据流形之间会产生交叉，从而不易于以类边界来对空间内的各个特征点进行划界。而由于深度神经网络本身的线性特征，这种类边界与数据流形之间的交叉会在深度神经网络的各层之间传递，从而在通过转化为特征向量并以Softmax分类函数进行分类时降低分类的准确性，且分类性能的鲁棒性较低。

针对上述技术问题，本申请的基本构思为将同一深度神经网络模型进行切分，具体地，首先在模型的深度方向上划分出主深度神经网络，然后，在模型的高度方向上划分为多个切片深度神经网络，其中，多个切片深度神经网络通过单独训练得到。然后，从多个切片深度神经网络输出多个子特征向量。这样，尽管每个切片神经网络仍然为线性特征，但不同的切片深度神经网络在单独的训练过程中趋向于不同方向收敛，从而所得到的子特征向量相对于由同一深度神经网络所获得的特征向量在集合内部实现了聚类，而在集合之间又实现了去相关。这就相当于每个特征向量对应的数据子流形本身收缩而各个数据子流形之间的距离增加，因此，基于所获得的子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

基于此，本申请提出了一种基于多切片深度神经网络的语音立案方法，其包括：获取用于立案的语音的初始特征向量；将所述初始特征向量输入主深度神经网络以获得主特征向量；将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；将所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及，将所述用于分类的特征向量以Softmax分类器进行分类以获得所述语音特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

在如图1所示意的应用场景中，在训练阶段中，首先采集用于训练的立案语音；然后，基于所述训练用立案语音对部署于服务器（例如，如图1所示意的S）中的主深度神经网络和至少三切片深度神经网络进行训练。在训练完成后，在检测阶段中，将待处理的用于立案的语音输入至所述服务器中，以藉由训练完成的所述主深度神经网络和所述至少三切片深度神经网络对所述待处理的用于立案的语音进行分类，以获得分类结果，其中，所述分类结果指示基于所述用于立案的语音是否立案。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

如图2所示，根据本申请实施例的基于多切片深度神经网络的语音立案方法，包括步骤：S110，获取用于立案的语音的初始特征向量；S120，将所述初始特征向量输入主深度神经网络以获得主特征向量；S130，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；S140，将所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；S150，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及，S160，将所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

图3图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法的系统架构的示意图。如图3所示，根据本申请实施例的基于多切片深度神经网络的语音立案方法的系统架构，包括：主深度神经网（例如，如图3中示意的DNNm）和至少三切片深度神经网络（具体地，在如图3所示意的示例中，所述至少三切片深度神经网络被实施为三个切片深度神经网络，分别为DNN1、DNN2和DNN3），其中，所述主深度神经网络用于对获取的用于立案的语音的初始特征向量（例如，如图3所示意的Vi）进行处理以获得主特征向量（例如，如图3所示意的Vm），进一步地，所述主特征向量在所述主特征向量的长度维度上被切分为至少三切分特征向量（具体地，在如图3所示意的示例中，所述主特征向量在所述主特征向量的长度维度上被切分为三个切分特征向量，分别为Vs1、Vs2和Vs3）；所述至少三切片深度神经网络分别用于对所述切分特征向量进行处理以获得至少三子特征向量（具体地，在如图3所示意的示例中，包含三个子特征向量，分别为Vz1、Vz2和Vz3），进一步地，所述至少三子特征向量进行组合以生成用于分类的特征向量（例如，如图3所示意的Vc）；然后，Softmax分类器对所述用于分类的特征向量进行分类以获得所述语音特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

在步骤S110中，获取用于立案的语音的初始特征向量。在本申请实施例中，获取用于立案的语音的初始特征向量的过程，具体包括：首先获取用于立案的语音（例如，通过声音传感器采集目标对象的语音）；然后，将所述语音转化为文本（例如，通过语音识别技术将采集到的语音数据转化为文本数据）；接着，将所述文本通过词嵌入模型转化为所述初始特征向量。

值得一提的是，将用于立案的语音转化为文本，可以便于进一步进行数据整理，比如，添加格式信息，进行文本标注等。当然，在本申请其他示例中，也可以直接把采集到的语音转化为初始特征向量并输入深度神经网络模型中处理，对此，并不为本申请所局限。

在步骤S120中，将所述初始特征向量输入主深度神经网络以获得主特征向量。这里，所述主深度神经网络通过在深度方向上划分深度神经网络模型得到，也就是，通过在深度方向上剪枝深度神经网络模型的层数以获得所述主深度神经网络。

在步骤S130中，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量。优选地，在本申请实施例中，将所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量，这样，通过切分为三个相等长度的所述切分特征向量不同计算上相对简单而且每个所述切分特征向量可以包含相同数目的特征，使得在通过最后获得的用于分类的特征向量进行分类时，可以以相同的权重考虑所有权重项，提高了分类的准确性。也就是，在本申请实施例中，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量，包括：将所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量。

当然，在本申请其他示例中，也可以以其他方式将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量，例如，切分为三个或三个以上长度略有差异的所述切分特征向量。

在步骤S140中，将所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到。

相应地，步骤S140相当于在深度神经网络模型的高度方向上划分为多个切片深度神经网络，并从多个切片深度网络输出多个子特征向量。特别地，在本申请实施例中，所述多个切片深度神经网络通过单独训练获得以使得所述多个切片深度神经网络在其单独训练过程中趋向于往不同方向收敛。因此，尽管每个所述切片深度神经网络仍然为线性特征，但不同的所述切片深度神经网络由于趋向于往不同的方向收敛，从而所获得的所述多个子特征向量相对于由同一深度神经网络所获得的特征向量在集合内部实现了聚类，而在集合之间又实现了去相关。这就相当于每个所述子特征向量对应的数据子流形本身收缩，而各个数据子流形之间的距离增加，因此，基于所获得的所述子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

这里，采用三个或者三个以上的所述切片深度神经网络的原因在于进一步增加每个切片深度神经网络的收敛方向的随机性，也就是，两个切片深度神经网络的收敛方向容易形成对称性，这将影响最后获得的特征向量的分类效果。

在步骤S150中，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量。

在本申请一具体示例中，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量的过程，包括：首先将所述三个子特征向量并行拼接以获得特征图；然后，将所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量。

相应地，通过将所述三个子特征向量并行拼接成特征图再进行并行拼接方向上的最大值池化，相当于在三个所述子特征向量的长度方向上选择三个子特征向量的每个位置的最大值来作为最后生成的特征向量的特征值，这可以进一步降低最后生成的用于分类的特征向量基于每个位置的相关性。

在本申请另一具体示例中，将所述三个或者三个以上的子特征向量组合以获得所述用于分类的特征向量，包括：将所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。

相应地，这种拼接方式不但在计算上较为简单，而且，由于在长度方向上拼接各个所述子特征向量，使得每个所述子特征向量的相应位置上的特征值都会在整个拼接后的特征向量上保持一定距离，也在一定程度上保证了分类的准确性。

在步骤S160中，将所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。也就是，将所述至少三子特征向量拼接后的拼接结果以Softmax分类器进行分类，以获得是否立案的分类结果。

综上，基于本申请实施例的基于多切片深度神经网络的语音立案方法被阐明，其通过将同一深度神经网络进行切分以在深度方向上切分出主神经网络且在模型的高度方向上划分出多个切片深度神经网络，并从多个切片深度神经网络输出多个子特征向量，这样，基于所获得的子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

值得一提的是，在本申请实施例中，基于多切片深度神经网络的语音立案方法的系统架构中的主深度神经网络和至少三切片深度神经网络由训练用的立案语音的语音数据集训练而获得，所述训练用的立案语音的语音数据集中具有语音是否为立案的标签。

具体地，根据本申请实施例的所述主深度神经网络和所述至少三切片深度神经网络，可以通过如下方式训练获得：

首先，获取用于训练的立案语音的训练特征向量。具体地，在该示例中，获取用于训练的立案语音的训练特征向量，包括：获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；然后，将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；接着，将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。相应地，通过这样的方式获取用于训练的立案语音的训练特征向量，一方面可以通过正样本和负样本之间的联合训练来学习正样本和负样本之间的关系特征，另一方面可以使用重采样的思路解决负样本数目少的问题。

然后，将所述初始特征向量输入主深度神经网络以获得训练用主特征向量；

接着，将所述训练用主特征向量在长度维度上切分为三个或者三个以上的训练用切分特征向量；

其中，在所述三个或者三个以上的切片深度神经网络中的每个的训练过程中：首先，将所述三个或者三个以上的训练用切分特征向量之一输入所述每个切片深度神经网络以获得训练用子特征向量；然后，将所述训练用子特征向量通过Softmax分类器以获得Softmax损失函数；接着，基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数。

应可以理解，通过对所述三个或者三个以上的切片深度神经网络进行单独训练，可使得所述三个或者三个以上的切片深度神经网络分别倾向于往不同的方向收敛，从而通过所述三个或者三个以上的切片深度神经网络所获得的子特征向量相对于由同一深度神经网络所获得的特征向量在集合内部实现了聚类，而在集合之间又实现了去相关。因此，基于所获得的子特征向量以Softmax分类函数进行分类时，可以提高分类的准确性，且分类性能的鲁棒性较高。

图4图示了根据本申请实施例的基于多切片深度神经网络的语音立案方法中，主深度神经网络和三个或者三个以上的切片深度神经网络的训练方法的流程图。如图4所示，主深度神经网络和三个或者三个以上的切片深度神经网络的训练方法，包括：S210, 获取用于训练的立案语音的训练特征向量；S220，将所述初始特征向量输入主深度神经网络以获得训练用主特征向量；

S230，将所述训练用主特征向量在长度维度上切分为三个或者三个以上的训练用切分特征向量；S240,将所述三个或者三个以上的训练用切分特征向量之一输入所述每个切片深度神经网络以获得训练用子特征向量；S250,将所述训练用子特征向量通过Softmax分类器以获得Softmax损失函数；以及，S260,基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数。

值得一提的是，在本申请实施例中，所述三个或者三个以上的切片深度神经网络能够以并行的方式进行训练，即，所述三个或者三个以上的切片深度神经网络的训练同时进行，这样，可以节省训练所用的时间。当然，所述三个或者三个以上的切片深度神经网络也能够以一个接一个的方式进行训练，对此，并不为本申请所局限。并且，为了使得所述三个或者三个以上的切片深度神经网络更易于倾向于往不同方向收敛，用于分别训练所述三个或者三个以上的切片深度神经网络的语音数据子集可为不同的子集。

示例性装置

如图5所示，根据本申请实施例的所述语音立案装置 500，包括：初始特征向量获取单元 510，用于获取用于立案的语音的初始特征向量；主特征向量生成单元 520，用于将所述初始特征向量获取单元 510获得的所述初始特征向量输入主深度神经网络以获得主特征向量；切分特征向量生成单元 530，用于将所述主特征向量生成单元 520获得的所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；子特征向量生成单元 540，用于将所述切分特征向量生成单元 530获得的所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；分类特征向量生成单元 550，用于将所述子特征向量生成单元 540获得的所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及，分类单元 560，用于将所述分类特征向量生成单元 550获得的所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。

在一个示例中，在上述基于多切片深度神经网络的语音立案装置 500中，所述切分特征向量生成单元 530，进一步用于：将所述主特征向量生成单元 520获得的所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量。

在一个示例中，如图6所示，在上述基于多切片深度神经网络的语音立案装置 500中，所述分类特征向量生成单元 550，包括：拼接子单元 551，用于将所述子特征向量生成单元 540获得的所述三个子特征向量并行拼接以获得特征图；以及，池化子单元 552，用于将所述拼接子单元 551获得的所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量。

在一个示例中，在上述基于多切片深度神经网络的语音立案装置 500中，所述分类特征向量生成单元 550，进一步用于将所述子特征向量生成单元 540获得的所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。

在一个示例中，如图7所示，在上述基于多切片深度神经网络的语音立案装置 500中，所述初始特征向量获取单元 510，包括：语音获取子单元 511，用于获取用于立案的语音；文本转化子单元 512，用于将所述语音获取单元获得的所述语音转换为文本；以及，向量转化子单元 513，用于将所述文本转化子单元 512获得的所述文本通过词嵌入模型转换为所述初始特征向量。

在一个示例中，在上述基于多切片深度神经网络的语音立案装置 500中，进一步包括训练单元 570，用于：获取用于训练的立案语音的训练特征向量；将所述初始特征向量输入主深度神经网络以获得训练用主特征向量；将所述训练用主特征向量在长度维度上切分为三个或者三个以上的训练用切分特征向量；在所述三个或者三个以上的切片深度神经网络中的每个的训练过程中：将所述三个或者三个以上的训练用切分特征向量之一输入所述每个切片深度神经网络以获得训练用子特征向量；将所述训练用子特征向量通过Softmax分类器以获得Softmax损失函数；以及，基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数。

在一个示例中，在上述基于多切片深度神经网络的语音立案装置 500中，所述三个或者三个以上的切片深度神经网络并行地进行训练。

在一个示例中，在上述基于多切片深度神经网络的语音立案装置 500中，所述训练单元 570，进一步用于：获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；以及，将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。

这里，本领域技术人员可以理解，上述基于多切片深度神经网络的语音立案装置500中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的基于多切片深度神经网络的语音立案方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于多切片深度神经网络的语音立案装置 500可以实现在各种终端设备中，例如用于更新神经网络的服务器等。在一个示例中，根据本申请实施例的基于多切片深度神经网络的语音立案装置 500可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于多切片深度神经网络的语音立案装置 500可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于多切片深度神经网络的语音立案装置 500同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于多切片深度神经网络的语音立案装置 500与该终端设备也可以是分立的设备，并且该基于多切片深度神经网络的语音立案装置 500可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于多切片深度神经网络的语音立案方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始特征向量、主特征向量、切分特征向量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多切片深度神经网络的语音立案方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多切片深度神经网络的语音立案方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

Claims

1.一种基于多切片深度神经网络的语音立案方法，其特征在于，包括：

获取用于立案的语音的初始特征向量；

将所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案；

其中，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量，包括：

将所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量；

其中，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量，包括：

将所述三个子特征向量并行拼接以获得特征图；以及

将所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量；

其中，所述主深度神经网络和所述三个或者三个以上的切片深度神经网络的训练过程，包括：

获取用于训练的立案语音的训练特征向量；

基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数；

其中，所述三个或者三个以上的切片深度神经网络并行地进行训练；其中，获取用于训练的立案语音的训练特征向量，包括：

获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；

将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；以及

将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。

2.根据权利要求1所述的基于多切片深度神经网络的语音立案方法，其中，将所述三个或者三个以上的子特征向量组合以获得所述用于分类的特征向量，包括：

将所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。

3.根据权利要求1所述的基于多切片深度神经网络的语音立案方法，其中，获取用于立案的语音的初始特征向量，包括：

获取用于立案的语音；

将所述语音转换为文本；以及

将所述文本通过词嵌入模型转换为所述初始特征向量。

4.一种基于多切片深度神经网络的语音立案装置，包括：

5.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行根据权利要求1-3中任一项所述的基于多切片深度神经网络的语音立案方法。