CN114121018A

CN114121018A - 语音文档分类方法、系统、设备及存储介质

Info

Publication number: CN114121018A
Application number: CN202111479938.2A
Authority: CN
Inventors: 郭武; 刘谭
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-01

Abstract

本发明公开了一种语音文档分类方法、系统、设备及存储介质，通过融合声学特征和深度特征实现语音文档分类，采用训练好的用于语音识别的声学模型为每个语音文档提取包含语义信息的深度特征，然后将语音文档的底层的声学特征和提取的深度特征通过门控机制逐帧进行融合，融合后的特征用于语音文档分类，本发明充分利用语音声学和语义信息之间的互补性，融合后的特征具有更强的文档区分性能，从而提升语音文档分类效果；此外，语音文档分类时，无需进行语音识别，直接获得语音文档分类结果，相当于一种端到端的结构，简化了中间的流程，加快了分类速度。

Description

语音文档分类方法、系统、设备及存储介质

技术领域

本发明涉及语音信号处理领域，尤其涉及一种语音文档分类方法、系统、设备及存储介质。

背景技术

传统的语音文档分类系统通常由语音识别(automatic speech recognition，ASR)模块和文本文档分类(textual document classification，TDC)模块组成。ASR模块首先将语音识别为文本，TDC模块再根据识别文本的内容进行主题分类。近几年来，ASR和TDC技术都已经取得了很大的进展。

对于ASR，目前主流的系统有两种，一种是基于HMM的语音识别系统，另一种则是端到端语音识别系统。基于HMM的语音识别系统一般由声学模型，语言模型，发音词典等多个部分组成，训练过程复杂。端到端语音识别系统直接将输入的语音特征序列转化成文本，相比于基于HMM的语音识别系统，其结构更加简单，并且准确率可以达到甚至超越基于HMM的语音识别系统。基于链接时序分类(Connectionist Temporal Classification，CTC)的语音识别系统就是一种典型的端到端结构(Alex Graves,Santiago Fernandez,FaustinoGomez,and Jurgen Schmidhuber,“Connectionist temporal classi-fication:labelling unsegmented sequence data with recurrent neural networks,”inProceedings of the 23rd international conference on Machine learning,2006,pp.369–376.)。

对于TDC而言，关键技术就是如何准确地构建文本文档的表示向量。目前常用的构建文档表示向量的方法有PLSA(probabilistic latent semantic analysis，概率潜在语义分析)和LDA(latent Dirichlet allocation)，以上两项方案依次对应于文献1(ThomasHofmann,“Unsupervised learning by probabilistic latent semantic analysis,”Machine learning,vol.42,no.1-2,pp.177–196,2001.)、文献2(David M Blei,Andrew YNg,and Michael I Jordan,“Latent dirichlet allocation,”Journal of machineLearning research,vol.3,no.Jan,pp.993–1022,2003.)。在获得文档表示向量后，便可以使用分类器(例如SVM等)对这些表示向量进行分类。此外，鉴于神经网络(Neural Network，NN)在许多任务上都取得了令人满意的效果，一些基于神经网络的文本分类方法也已经被提出。Yoon Kim(Yoon Kim,“Convolutional neural networks forsentenceclassification,”arXiv preprint arXiv:1408.5882,2014.)提出将CNN(Convolutional Neural Networks，卷积神经网络)用于文本分类，CNN能够捕获相邻词的语义特征，通过多个不同尺度的滤波器来提取不同层面的语义信息。此外，Zichao Yang(Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,Alex Smola,and Eduard Hovy,“Hierarchical attentionnetworks for document classification,”in Proceedingsof the 2016conference of the North American chapter of the association forcomputational linguistics:human language technologies,2016,pp.1480–1489.)根据文档的结构信息，采用层级注意力网络(hierarchical attention network，HAN)依次构建句子的表示向量和文档的表示向量，进一步提高了文档分类的准确率。

显而易见，在这种串联型结构的语音文档分类系统中，语音识别错误会降低系统的准确率，尤其是在嘈杂环境中，由于噪声和回响的干扰，语音识别错误率会明显增加。为了降低识别错误带来的影响，Gogate(Gogate,Mandar,Ahsan Adeel,and Amir Hussain."Deep learning driven multimodal fusion for automated deception detection."2017IEEE Symposium Series on Computational Intelligence(SSCI).IEEE,2017.)提出将语音和识别的文本进行融合，利用语音信息改善识别错误带来的影响。Gogate使用CNN分别提取语音信息和文本信息用于构建语音表示向量和文本表示向量，然后将这两种表示向量拼接用于情感分类。和Gogate提出的技术相似，Gu Yue(Gu Yue,et al."Hybridattention based multimodal network for spoken language classification."Proceedings of the conference.Association for Computational Linguistics.Meeting.Vol.2018.NIH Public Access,2018.)采用LSTM(Long Short-Term Memory，长短期记忆网络)网络分别构建语音表示向量和文本表示向量，然后通过注意力机制将这两种表示向量融合，用于口语语言分类。尽管将语音和识别文本融合后，系统的性能有所提高，但是由于语音信息和文本信息只在表示向量层面进行融合，语音和文本的互补性没有被充分利用，因此，分类效果还有待于提升。

发明内容

本发明的目的是提供一种语音文档分类方法、系统、设备及存储介质，能够准确的实现语音文档分类，并加快了分类速度。

本发明的目的是通过以下技术方案实现的：

一种语音文档分类方法，包括：

使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM-CTC模型，对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列；

通过声学特征编码器、深度特征编码器各自对所述声学特征序列、深度特征序列进行编码；

通过门控单元将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征；

通过融合特征编码器对所述融合特征进行编码；

通过分类层对融合特征编码结果进行处理，获得语音文档分类结果。

一种语音文档分类系统，包括：

模型训练与深度特征提取单元，用于使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM-CTC模型；对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列；

声学特征编码器，用于对所述声学特征序列进行编码；

深度特征编码器，用于对所述深度特征序列进行编码；

门控单元，用于将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征；

融合特征编码器，用于对所述融合特征进行编码；

分类层，用于对融合特征编码结果进行处理，获得语音文档分类结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过融合声学特征和深度特征实现语音文档分类，采用训练好的用于语音识别的声学模型为每个语音文档提取包含语义信息的深度特征，然后将语音文档的底层的声学特征和提取的深度特征通过门控机制逐帧进行融合，融合后的特征用于语音文档分类，本发明充分利用语音声学和语义信息之间的互补性，融合后的特征具有更强的文档区分性能，从而提升语音文档分类效果；此外，语音文档分类时，无需进行语音识别，直接获得语音文档分类结果，相当于一种端到端的结构，简化了中间的流程，加快了分类速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种语音文档分类方法的流程图；

图2为本发明实施例提供的传统基于语音和识别文本融合的语音文档分类系统结构图；

图3为本发明实施例提供的融合声学特征和深度特征的语音文档分类方案结构示意图；

图4为本发明实施例提供的一种处理设备示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的语音文档分类方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

如图1所示，一种语音文档分类方法，主要包括如下步骤：

步骤1、使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM-CTC模型，对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列。

本发明实施例中，基于CTC的声学模型以及LSTM均为常规技术，训练方式也可参照常规技术，本发明不做赘述。

本发明实施例中，将输入的声学特征序列表示为：x＝{x₁,x₂,…x_T}，其中，x_t表示第t帧声学特征，t＝1,2,…,T，T表示总帧数；将声学特征序列通过所述LSTM-CTC模型中的LSTM网络，获得的隐状态序列作为深度特征序列，表示为：h＝{h₁,h₂,…h_T}，h_t表示第t帧深度特征。

步骤2、通过声学特征编码器、深度特征编码器各自对所述声学特征序列、深度特征序列进行编码。

本发明实施例中，将声学特征序列、深度特征序列各自输入至声学特征编码器、深度特征编码器，由于声学特征和深度特征都属于序列结构的信息，因此，可采用LSTM作为声学特征编码器和深度特征编码器。获得声学特征编码器的输出u＝{u₁,u₂,…u_T}，深度特征编码器的输出v＝{v₁,v₂,…v_T}，其中，u_t、v_t各自表示对第t帧声学特征、第t帧深度特征的编码结果，t＝1,2,…,T，T表示总帧数。

步骤3、通过门控单元将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征。

本发明实施例中，对深度特征编码器的输出进行最大池化操作，计算门控系数，再基于门控系数融合声学特征编码器与深度特征编码器的输出，表示为：

v_max＝maxpooling(v)

g_t＝sigmoid(W₁v_t+W₂v_max)

f_t＝[u_t,g_t·v_t]

其中，maxpooling()表示时间维度最大池化操作；g_t表示门控系数，用来控制引入深度特征信息的比例，W₁与W₂均为门控单元的权重参数；[]表示向量拼接操作，f_t表示第t帧融合特征。

步骤4、通过融合特征编码器对所述融合特征进行编码，仍可采用LSTM作为融合特征编码器。

步骤5、通过分类层对融合特征编码结果进行处理，获得语音文档分类结果。

本发明实施例中，包括依次连接的最大池化层、全连接层与softmax输出层。

通过最大池化层对融合特征编码结果在时间维度最大池化，获得语音文档表示向量，之后，通过常规神经网络全连接层(FC层)以及softmax输出层，获得语音文档分类结果。

本发明实施例上述方案通过融合声学特征和深度特征实现语音文档分类，采用训练好的用于语音识别的声学模型为每个语音文档提取包含语义信息的深度特征，然后将语音文档的底层的声学特征和提取的深度特征通过门控机制逐帧进行融合，融合后的特征用于语音文档分类，本发明充分利用语音声学和语义信息之间的互补性，融合后的特征具有更强的文档区分性能，从而提升语音文档分类效果；此外，语音文档分类时，无需进行语音识别，直接获得语音文档分类结果，相当于一种端到端的结构，简化了中间的流程，加快了分类速度。

为了便于理解，下面先针对现有CTC声学模型的原理、传统的基于语音和识别文本融合的语音文档分类方法进行介绍，再结合本发明的上述语音文档分类方案。

一、现有CTC声学模型的原理。

现有技术中采用链接时序分类(CTC)算法来对声学建模，用CTC声学模型获得高层特征表示。

CTC是目前端到端语音识别的主流算法之一，本发明采用LSTM来训练CTC声学模型。训练好的模型称为LSTM-CTC模型。之后，可以和语言模型结合用于语音的识别解码得到文本，也可以将LSTM-CTC模型用于获得深度特征；由于本发明不直接利用语音识别得到的文本来进行文档分类，而是利用底层的声学参数以及语音声学模型得到的高层特征融合来进行文档分类，从而避免语音识别解码过程中的错误对文档分类造成的影响，因此，将利用LSTM-CTC模型获得深度特征。

目前，利用LSTM-CTC模型进行语音数据的识别解码得到文本的过程如下：

对于语音识别任务，输入序列为人工提取的声学特征序列x＝{x₁,x₂,…x_T}，通过声学模型(LSTM-CTC模型中的LSTM网络)可以获得每个时刻对应的标签概率分布y^*＝{y₁,y₂,…y_T}，结合CTC代价函数可得输出标签序列为y＝{y₁,y₂,…y_M}，通常M＜＜T，M、T各自表示相应序列中的元素数目，也即序列长度。

CTC中引入了一个空白标签blank，用来表示无标签时的空白映射。CTC的核心是建立中间标签序列π＝{π₁,π₂，…π_T}，该中间序列允许标签的重复出现，从而建立中间序列和输出序列的多对一映射。所有可能映射到输出标签序列的中间序列集合为Φ(y′)，CTC的训练目标是最大化输出序列的概率P(y|x)：

其中，y′表示经过插入blank及重复标签单元等操作而得到的映射序列，最终的输出是对中间序列合并连续重复单元及去除blank得到。

在CTC准则中，输出单元之间是假设独立的，则P(π|x)可由下式得到。

其中，

表示输出在t时刻对应标签为l_t的概率。

对于

的计算，通过LSTM、全连接层和softmax层来得到(LSTM部分)。将声学特征序列x输入到LSTM网络中，得到对应的隐状态序列h＝{h₁,h₂,…h_T}，然后将隐状态序列输入到全连接层和softmax层，得到每个时刻对应的标签概率分布。

二、传统的基于语音和识别文本融合的语音文档分类方法。

语音识别系统在模型训练完成后，便可以将所有语音文档识别为文本，一般都是在文本表示的基础上进行分类。典型的做法是将一篇文本用word2vec(Rong,Xin."word2vec parameter learning explained."arXiv preprint arXiv:1411.2738(2014).)将每个字矢量化，变成一个固定维度的矩阵，然后将这个矩阵送入神经网络，神经网络的输出节点就是对应分类的类别，完成基于语音的文档分类。实际上，这种模式是一种流水线式的，也就是先识别文本，在文本的基础上进行分类。

但是语音识别错误会导致语音文档分类系统性能不佳，传统提升分类准确率的方法是将语音和识别文本进行融合。将语音和识别文本融合的语音文档分类系统结构如后图2所示。该系统结构主要由3个部分组成：文本编码器，声学特征编码器，表示向量融合层。语音信息和文本信息分别以声学特征和字向量的形式输入到系统中。该系统采用fbank特征作为声学特征，并且采用预训练的word2vec模型将每个字处理成固定维度的字向量。

声学特征编码器和文本编码器分别用来构建语音表示向量和文本表示向量。由于语音和文本都属于序列结构的信息，因此，该系统采用LSTM作为声学特征编码器和文本编码器，并且通过在时间维度进行最大池化，将不定长的语音和识别文本分别转化成两个固定维度的语音向量和文本表示向量。

表示向量融合层用于将提取的语音表示向量和文本表示向量进行融合，该系统通过基于注意力机制将这两种表示向量进行融合。注意力机制动态地为这两种表示向量分配注意力权重，再将其加权求和，得到融合后的表示向量，计算过程如下：

u_i＝tanh(Wv_i+b)i∈[1,2]

其中，v₁，v₂分别表示语音表示向量和文本表示向量。W、b和u均是可学习的参数，若表示向量的维度为d，则M∈R^d×d,b∈R^d×1,u∈R^d×1。α_i表示的注意力权重，v_atten表示加权融合得到的表示向量。

三、融合声学特征和深度特征的语音文档分类。

此部分介绍的是本发明的语音文档分类方案，将结合前述第一部分提到的LSTM-CTC模型实现，即，利用LSTM-CTC模型提取声学特征序列的深度特征序列。

本发明实施例中，声学特征一般是基于25～40毫秒一帧的底层参数，也就是一段语音有大量的声学参数；将LSTM-CTC模型中LSTM网络最后一个LSTM层输出的隐状态序列作为深度特征序列，它是本文所描述的深度特征序列，因此，深度特征可以看作字在另一维度空间的表示。相对于原始的声学特征，深度特征包含更多的语义信息，因此可以用来进行语音文档的分类。相比于识别文本，深度特征具有更强的泛化能力，即每个深度特征不表示为具体的某个字，而表示声学特征相似的字的集合，这在一定程度上缓解了识别错误带来的影响。这个深度特征是与语音原始的声学特征对应的，也就是一个原始的声学特征就有一个深度特征，因此一个语音文档可以得到一个深度特征序列。

在得到每个声学特征序列的深度特征序列后，将声学特征序列和深度特征序列分别输入到声学特征编码器和深度特征编码器中。由于深度特征序列和声学特征序列具有相同的帧数，因此可以将其逐帧进行融合。相对于语音和文本在表示向量水平的融合，逐帧融合进一步利用了信息之间的互补性。这是深度特征相对于识别文本的另一优点。本发明通过门控机制将这两种特征序列逐帧进行融合，融合原理描述为：

v_max＝maxpooling(v)

g_t＝sigmoid(W₁v_t+W₂v_max)

f_t＝[u_t,g_t·v_t]

在得到融合特征后，输入到融合特征编码器中，并通过在时间维度最大池化来构建最终的语音文档表示向量，之后，可以连接常规的神经网络全连接层(FC层)以及softmax输出层。

相对于直接采用语音识别器的文本进行语音文档分类，或者是改进后的融合语音和文本的语音文档分类，本发明提出的融合声学特征和深度特征的语音文档分类方法，获得如下有益效果：

1)对每一帧语音声学特征(一般是25毫秒一帧)都可以提出一个高层的特征(即深度特征)，深度特征既有全局的语音内容信息，又有局部字的信息，可以避免一些识别错误，融合后的特征具有更强的文档区分性能。

2)在训练好模型之后进行语音文档分类时，可以将一个语音文件一步输入到神经网络中，直接通过输出层得到分类结果，这相当于是一种端到端的结构，简化了中间的流程，加快了运算速度。

为了验证本发明所提出方法的有效性，设计了如下实验。

1、实验设置。

采用Aishell-1数据集来训练语音识别系统，并采用一个普通话新闻播报语料集来训练和测试所有的语音文档分类系统。Aishell-1数据集和新闻播报语料集均以16KHZ采样率，16bit量化的格式存储。该新闻播报语料集共包含12447条语音文档，涉及到6个主题，分别是“娱乐”，“财经”，“军事”，“体育”，“科技”，“天气”，每条语音文档都涉及其中一个主题。在实验中，我们选择9957条语音作为训练集，1244条语音作为验证集，1246条语音作为测试集。本实验采用的声学特征是108维的fbank特征，由36维的fbank特征结合其一阶差分和二阶差分所组成。此外，对于语音识别系统，以字为建模单元，共有4294个单元。以pytorch、kaldi这两个开源的代码作为实验平台，比较了不同模型的实验结果，探究本文所提出的方法的性能。

实验中，采用语音文档的分类准确率(accuracy rate，ACC)作为模型评价指标。

2、不同模型的识别结果。

本实验中，测试了5个语音文档分类模型：SO(speech only)，TO(text only)，DO(deepfeature only)，ST(fusion of speech and text)，SD(fusion of speech anddeepfeature)。SO模型仅使用声学特征进行语音文档的分类。SO模型主要由两个模块组成：一个基于LSTM的声学特征编码器用于构建语音文档的表示向量；一个全连接层用于语音文档分类。TO模型和DO模型分别只使用识别的文本和深度特征进行语音文档分类，其结构组成和SO类似。TO模型采用搜狗新闻语料预训练的word2vec模型，每个字都被映射为300维的字向量。ST模型即为图2所示的基于语音和识别文本融合的语音文档分类系统。SD模型即为本发明所提出的融合声学特征和深度特征方案构成的系统模型，如图3所示。

不同模型的实验结果如表1所示。从表1中可以看出，本发明提出的SD模型实现最高的准确率97.27％，相比于ST模型，准确率提高了1.84％，验证了SD模型的有效性。同时，ST模型的准确率要高于TO模型，说明融合语音信息可以一定程度上减轻识别错误带来的影响。此外，DO模型的准确率高于SO模型和TO模型，这是因为深度特征既包含声学信息，又包含语义信息。

表1不同模型的实验结果

2、不同融合方式的识别结果

为了验证本发明提出的声学特征和深度特征的融合方式的有效性，另外构建了两个对比系统。首先考虑门控机制对于模型性能的影响，我们设计了USD(ungated fusionofspeech and deepfeature)系统。USD模型没有采用门控机制，直接将声学特征和深度特征逐帧进行拼接，其它参数设置和SD相同。第二个对比系统是ASD(additionof speech anddeepfeature)系统，该系统将SD模型的声学特征和深度特征的融合方式变成了逐元素相加(element-wise add)方法，即将前述f_t表达式的拼接换成逐元素相加。实验结果如表2所示，可以看出SD模型的性能优于USD和ASD系统，这也证明了本发明提出的模型结构的有效性。

表2消融实验结果

实施例二

本发明还提供一种语音文档分类系统，其主要用于实现前述实施例提供的方法，还参见图3，该系统主要包括：

模型训练与深度特征提取单元(图中未示出)，用于使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM-CTC模型；对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列；

声学特征编码器，用于对所述声学特征序列进行编码；

深度特征编码器，用于对所述深度特征序列进行编码；

融合特征编码器，用于对所述融合特征进行编码；

本发明实施例中，通过所述LSTM-CTC模型提取相应的深度特征序列包括：

将输入的声学特征序列表示为：x＝{x₁,x₂,…x_T}，其中，x_t表示第t帧声学特征，t＝1,2,…,T，T表示总帧数；

将声学特征序列通过所述LSTM-CTC模型中的LSTM网络，获得的隐状态序列作为深度特征序列，表示为：h＝{h₁,h₂,…h_T}，h_t表示第t帧深度特征。

本发明实施例中，所述将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征包括：

将声学特征编码器的输出记为u＝{u₁,u₂,…u_T}，将深度特征编码器的输出记为v＝{v₁,v₂,…v_T}，其中，u_t、v_t各自表示对第t帧声学特征、第t帧深度特征的编码结果，t＝1,2,…,T，T表示总帧数；

对深度特征编码器的输出进行最大池化操作，计算门控系数，再基于门控系数融合声学特征编码器与深度特征编码器的输出，表示为：

v_max＝maxpooling(v)

g_t＝sigmoid(W₁v_t+W₂v_max)

f_t＝[u_t,g_t·v_t]

其中，maxpooling()表示最大池化操作；h_t表示门控系数，用来控制引入深度特征信息的比例，W₁与W₂均为门控单元的权重参数；[]表示向量拼接操作，f_t表示第t帧融合特征。

本发明实施例中，所述分类层包括依次连接的最大池化层、全连接层与softmax输出层；将所述融合特征编码结果，依次通过最大池化层、全连接层与softmax输出层，获得语音文档分类结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种语音文档分类方法，其特征在于，包括：

通过融合特征编码器对所述融合特征进行编码；

2.根据权利要求1所述的一种语音文档分类方法，其特征在于，对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列包括：

将输入的声学特征序列表示为：x＝{x₁，x₂，…x_T}，其中，x_t表示第t帧声学特征，t＝1，2，...，T，T表示总帧数；

将声学特征序列通过所述LSTM-CTC模型中的LSTM网络，获得的隐状态序列作为深度特征序列，表示为：h＝{h₁，h₂，…h_T}，h_t表示第t帧深度特征。

3.根据权利要求1所述的一种语音文档分类方法，其特征在于，所述通过门控单元将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征包括：

将声学特征编码器的输出记为u＝{u₁，u₂，…u_T}，将深度特征编码器的输出记为v＝{v₁，v₂，…v_T}，其中，u_t、v_t各自表示对第t帧声学特征、第t帧深度特征的编码结果，t＝1，2，...，T，T表示总帧数；

v_max＝maxpooling(v)

g_t＝sigmoid(W₁v_t+W₂v_max)

f_t＝[u_t，g_t·v_t]

其中，maxpooling()表示最大池化操作；g_t表示门控系数，用来控制引入深度特征信息的比例，W₁与W₂均为门控单元的权重参数；[]表示向量拼接操作，f_t表示第t帧融合特征。

4.根据权利要求1所述的一种语音文档分类方法，其特征在于，所述通过分类层对融合特征编码结果进行处理，获得语音文档分类结果包括：

将融合特征编码结果，依次通过最大池化层、全连接层与softmax输出层，获得语音文档分类结果。

5.一种语音文档分类系统，其特征在于，包括：

声学特征编码器，用于对所述声学特征序列进行编码；

深度特征编码器，用于对所述深度特征序列进行编码；

融合特征编码器，用于对所述融合特征进行编码；

6.根据权利要求5所述的一种语音文档分类系统，其特征在于，对于输入的声学特征序列，通过所述LSTM-CTC模型提取相应的深度特征序列包括：

7.根据权利要求5所述的一种语音文档分类系统，其特征在于，所述将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征包括：

v_max＝maxpooling(v)

g_t＝sigmoid(W₁v_t+W₂v_max)

f_t＝[u_t，g_t·v_t]

8.根据权利要求5所述的一种语音文档分类系统，其特征在于，所述分类层包括依次连接的最大池化层、全连接层与softmax输出层；将所述融合特征编码结果，依次通过最大池化层、全连接层与softmax输出层，获得语音文档分类结果。

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。