CN111261162B

CN111261162B - 语音识别方法、语音识别装置及存储介质

Info

Publication number: CN111261162B
Application number: CN202010159395.5A
Authority: CN
Inventors: 许开拓
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-04-18
Anticipated expiration: 2040-03-09
Also published as: CN111261162A

Abstract

本公开关于一种语音识别方法、语音识别装置及存储介质，涉及神经网络领域，能够实时输出包含文字及标点符号的语音识别结果。包括：接收并将实时语音信号转化为文本，识别文本中包含的第t个词；其中，t为正数。将第t个词进行预处理，得到第t个词对应的第一向量，第一向量用于表示第t个词的语义。将第一向量输入多层循环神经网络，经过多层循环神经网络的各个层的处理，得到第二向量；其中，多层循环神经网络至少包括3层，第二向量用于表示第t个词对应的上下文信息。将第二向量输入到输出层，获得第t个词对应的各个标点符号的概率，将概率最大的标点符号，确定为第t个词之前的标点符号。发送实时语音信号对应的包含标点符号的文本。

Description

语音识别方法、语音识别装置及存储介质

技术领域

本公开涉及神经网络技术领域，尤其涉及一种语音识别方法、语音识别装置及存储介质。

背景技术

近几年，深度学习可以实现语音识别添加标点符号，但其添加标点符号的时机为整段语音识别完毕后，才可以自动添加标点符号。也就是说，目前的添加标点符号只能应用于离线语音识别。

发明内容

本公开提供一种语音识别方法、语音识别装置及存储介质，以至少解决相关技术中，无法实时在语音识别过程中添加标点符号的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别方法，应用于服务器，该方法包括：

接收并将实时语音信号转化为文本；

识别所述文本中包含的第t个词；其中，t为正数；

将第t个词进行预处理，得到所述第t个词对应的第一向量，所述第一向量用于表示所述第t个词的语义；

将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量；其中，所述多层循环神经网络至少包括3层，所述第二向量用于表示所述第t个词对应的上下文信息；

将所述第二向量输入到输出层，获得所述第t个词对应的各个标点符号的概率；

将概率最大的标点符号，确定为所述第t个词之前的标点符号；

发送所述实时语音信号对应的包含所述标点符号的文本。

在一种可能实现方式中，所述将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量，包括：

将所述第一向量输入包含N层循环神经网络的多层循环神经网络中的第一层循环神经网络，经过N层循环神经网络的处理，得到所述第二向量；

其中，所述多层循环神经网络中每一层循环神经网络的权重矩阵不同；第N层循环神经网络的输入为第N-1层循环神经网络的输出，第N层循环神经网络的输出为所述第二向量；N为不小于3的正整数。

在一种可能实现方式中，所述多层循环神经网络包括第一多层循环神经网络和第二多层循环神经网络；所述第一多层循环神经网络至少包括3层，所述第二多层循环神经网络至少包括3层；

所述将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量，包括：

将所述第一向量输入所述第一多层循环神经网络，经过所述第一多层循环神经网络的各个层的处理，得到第三向量，所述第三向量用于表示所述第t个词对应的上下文时序信息；

获得第t-1个词和所述第t个词之间的停顿时长，将所述第三向量以及所述停顿时长拼接为第四向量，将所述第四向量输入所述第二多层循环神经网络，经过所述第二多层循环神经网络的各个层的处理，得到所述第二向量。

在一种可能实现方式中，所述将第t个词进行预处理，得到所述第t个词对应的第一向量，包括：

根据预设词表，获得所述第t个词对应的编号；

查询所述编号与向量之间的对应关系，得到所述第t个词对应的第一向量。

在一种可能实现方式中，所述标点符号包括：无、逗号、句号、问号和叹号。

在一种可能实现方式中，所述多层循环神经网络为长短期记忆网络LSTM。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：接收模块、识别模块、预处理模块、处理模块和发送模块；

所述接收模块，被配置为执行接收并将实时语音信号转化为文本；

所述识别模块，被配置为执行识别所述文本中包含的第t个词；其中，t为正数；

所述预处理模块，被配置为执行将第t个词进行预处理，得到所述第t个词对应的第一向量，所述第一向量用于表示所述第t个词的语义；

所述处理模块，被配置为执行将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量；其中，所述多层循环神经网络至少包括3层，所述第二向量用于表示所述第t个词对应的上下文信息；

所述处理模块，被配置为执行将所述第二向量输入到输出层，获得所述第t个词对应的各个标点符号的概率；

所述处理模块，还被配置为执行将概率最大的标点符号，确定为所述第t个词之前的标点符号；

所述发送模块，还被配置为执行发送所述实时语音信号对应的包含所述标点符号的文本。

在一种可能实现方式中，所述处理模块，具体被配置为执行将所述第一向量输入包含N层循环神经网络的多层循环神经网络中的第一层循环神经网络，经过N层循环神经网络的处理，得到所述第二向量；

所述处理模块，具体被配置为执行将所述第一向量输入所述第一多层循环神经网络，经过所述第一多层循环神经网络的各个层的处理，得到第三向量，所述第三向量用于表示所述第t个词对应的上下文时序信息；

所述识别模块，被配置为执行获得第t-1个词和所述第t个词之间的停顿时长；

所述处理模块，具体被配置为执行将所述第三向量以及所述停顿时长拼接为第四向量，将所述第四向量输入所述第二多层循环神经网络，经过所述第二多层循环神经网络的各个层的处理，得到所述第二向量。

在一种可能实现方式中，所述预处理模块，具体被配置为执行根据预设词表，获得所述第t个词对应的编号；查询所述编号与向量之间的对应关系，得到所述第t个词对应的第一向量。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器、用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上述第一方面所提供的语音识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括指令，当指令由语音识别装置的处理器执行时，使得语音识别装置执行如上述第一方面所提供的语音识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的语音识别方法，能够在实时流式语音识别的过程中，将识别出的词按照识别的时间顺序添加标点符号。如此，实时输出的语音识别结果包含文字及标点符号，增加语音识别结果的可读性，并且减少用户等待语音识别结果的时长，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1A是根据一示例性实施例示出的一种网络结构示意图；

图1B是根据一示例性实施例示出的另一种网络结构示意图；

图2是根据一示例性实施例示出的一种手机显示界面示意图之一；

图3是根据一示例性实施例示出的一种语音识别方法的流程示意图之一；

图4是根据一示例性实施例示出的一种语音识别方法的流程示意图之二；

图5是根据一示例性实施例示出的一种语音识别方法的流程示意图之三；

图6是根据一示例性实施例示出的一种语音识别方法的流程示意图之四；

图7是根据一示例性实施例示出的一种语音识别装置的结构示意图之一；

图8是根据一示例性实施例示出的一种服务器的结构示意图之二。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

下面将结合附图对本公开的实施例的实施方式进行详细描述。

参考图1A，本公开实施例提供的语音识别方法可应用于服务器和终端设备组成的实施环境。如图1A所示，该实施环境可以包括服务器101和多个终端设备(如终端设备102、终端设备103、终端设备104和终端设备105)，多个终端设备具体可以通过有线网络或者无线网络与服务器101连接。

示例性的，本公开实施例中的终端设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence，AI)终端等可以接收语音，并能够显示语音识别结果的设备，本公开实施例对该终端设备的具体形态不作特殊限制。

其中，服务器101可以是为多个终端设备提供语音识别功能支持的网络设备。具体的，终端设备具有采集用户语音并文字显示的功能，终端设备采集实时语音信号(也可将实时语音信号描述为流式语音信号)后，将实时语音信号发送至服务器101。服务器101接收该实时语音信号，并进行实时语音识别，并在识别过程中，同步添加标点符号，将带标点符号的文字识别结果实时传输给终端设备，终端设备形成文字显示，展示给用户。如此，完成实时语音识别中自动添加标点符号的全过程。

需要说明的是，上述服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。上述服务器可以包括处理器、存储器以及网络接口等。

参考图1B，本公开实施例提供的语音识别方法可应用于终端设备中，在终端设备采集用户语音信号过程中，实时对语音信号进行识别，并且可以在语音识别过程中，实时识别语音文本中的词对应的标点符号。如此，终端设备可以实时显示带标点符号的语音识别结果。

本领域技术人员应能理解上述服务器和终端设备仅为举例，其他现有的或今后可能出现的服务器或电子设备如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

为了便于理解，以下以手机为例，对终端设备实现流式语音识别中自动添加标点符号功能的场景进行示例性的介绍：

场景一、手机识别用户语音，添加字幕的场景。

现有短视频应用，支持用户拍摄短视频作品，并对短视频作品进行编辑，如添加字幕等。示例性的，手机显示如图2中的(a)所示的短视频作品编辑界面201，如检测到用户点击自动识别字幕按钮21，则表明用户想要为当前短视频作品添加字幕。响应于用户的该操作，手机显示如图2中的(b)所示的语音识别界面202，在语音识别界面202中显示有“识别中…”的提示信息，提示用户等待显示语音识别结果。

现有技术中，仅能支持离线语音识别，因此，需要在整段语音识别结束后才能添加标点符号，之后，手机才会获得包含标点符号的语音识别结果，显示如图2中的(c)所示的字幕显示界面203。如此，服务器在接收到短视频作品中的语音信号后，会将全部语音信号识别完毕后，再匹配标点符号，之后再对应短视频作品中的语音，最终再将结果发送给手机。手机在字幕显示界面203中，字幕显示框22中会显示此次语音识别的全部结果，包含文字及标点符号。如此，在由语音识别界面202跳转为字幕显示界面203的过程中，需要用户持续等待，影响用户体验。

与现有技术不同的是，在本公开实施例中，可以实现流式语音过程中添加标点符号，也即实时识别语音及标点符号。因此，如图2中的(d)所示的字幕显示界面204，在手机显示字幕显示界面204的过程中，会实时采集短视频作品中的语音，将实时语音发送至服务器，服务器实时进行语音及标点符号的识别，并实时将识别结果发送至手机，手机将识别结果实时显示于字幕显示框23中。比如，采集到语音“请看”并显示后，又采集到语音“这丛鲜花”，识别到“这丛”的时候，服务器判断“这丛”这个词前匹配的标点符号为逗号。因此，服务器实时将带标点符号的语音识别结果发送至手机，手机在显示界面204中的字幕显示框23中实时显示当前的语音识别结果“请看，这丛...”。如此，可以满足实时语音识别的需求，并且，识别实时语音识别结果中带有标点符号，增加可读性。

场景二、手机输入法语音识别的场景。

现有的手机输入法，支持用户的语音输入。比如，用户可以直接通过语音，输入想要输入的文字信息。

现有技术中，由于仅能支持离线语音识别。因此用户使用语音输入法输入文字时，在说完一句或一段话后，需要等待一段时间。等待服务器识别全部语音信号后，添加标点符号，将包含标点符号的全部文字信息发送给手机，手机才能够显示最终的识别结果。

与现有技术不同的是，在本公开实施例中，可以实现实时语音及标点符号识别。因此用户使用语音输入法输入文字时，可以边说话边查看输出的文字识别结果是否正确。也即，服务器接收用户的语音信号，实时识别语音信号，并实时为语音信号中包含的词添加标点符号，将词及标点符号实时发送至手机，使得手机可以实时显示语音输入法的识别结果。

需要说明的是，上述仅仅举例给出了语音添加字幕及输入法的语音识别两种场景，实际应用中，本申请实施例可以应用在包含实时语音识别技术的任意场景中。

本公开提供一种语音识别方法，该方法可以应用于服务器，也可以应用于手机、个人电脑等终端设备。例如：可以应用于图1A所示的实施环境中，由终端设备采集语音信号，并将语音信号发送给服务器，由服务器实现实时语音识别过程中自动添加标点符号。又如，可以应用于图1B所示的实施环境中，由终端设备采集语音信号并实现实时语音识别过程中自动添加标点符号。

下文以该方法应用于图1A所示的实施环境中，且由服务器实现实时语音识别过程中自动添加标点符号为例进行说明。

如图3所示，该方法包括以下步骤S101-S107：

S101、接收并将实时语音信号转化为文本。

在本步骤的一种实现方式中，终端设备采集语音信号并将语音信号发送给服务器，由服务器执行该步骤S101。

终端设备可以利用现有的一些语音信号采集工具实时采集用户语音信号。例如，利用Windows语音采集工具采集用户语音信号，将采集的数据保存为波形声音文件(waveaudio files，WAV)格式。当然，还可以采用其他采样格式，比如，乐器数字接口(musicalinstrument digital interface，MIDI)格式、脉冲编码调制(pulse code modulation，PCM)格式、动态影像专家压缩标准音频层面3(moving picture experts group audiolayer III，MP3)格式、SND格式、以及RAW格式等。

之后，终端设备将采集的实时语音信号发送给服务器，服务器对实时语音信号进行语音识别转化，将实时语音信号转化为文本。其中，语音识别技术主要是将语音序列转换为文字序列。因此，服务器接收到终端设备发送的实时语音信号后，对语音信号进行识别，并将语音信号按照时间顺序转换为文本。例如，用户语音信号为“我是中国人”，对该语音信号进行分词处理，识别语音信号中包含的输入词，如“我”，“是”，“中国”，“人”。或者可以识别为“我”，“是”，“中国人”等。采用不同的语音识别方法，分词结果可能会有不同，具体采用的语音识别方法可以为现有技术中的任一语音识别方法，如动态时间规整(dynamic timewarping，DTW)方法、马尔可夫模型(hidden markov model，HMM)方法等，本公开实施例对于选取何种语音识别方法不做具体限定。并且具体的语音识别过程与现有技术类似，在此不再赘述。

经过语音识别处理，可以将接收到的实时语音信号转化一个文本(也可以称之为词序列)，在该文本中包含了一个或多个词。

S102、识别文本中包含的第t个词；其中，t为正数。

示例性的，按照时间顺序依次识别文本中包含的词，在识别出文本中包含的第t个词后，则通过下述步骤对第t个词进行处理，获得第t个词对应的标点符号类别，实现实时添加标点符号。

S103、将第t个词进行预处理，得到第t个词对应的第一向量，第一向量用于表示第t个词的语义。

其中，由于词是一个文本语言，服务器无法执行运算，所以首先需要将文本语言转化为数字语言，因此预处理例如可以包括为识别出的词匹配编号。由于该编号仅表示一种序列顺序，并无区分含义。因此，预处理还包括确定该编号对应的第一向量，使得词可以转换为具有语义的向量进而可以进行后续的多层循环神经网络的处理。

示例性的，可以预先建立预设词表，预设词表中可以包含不同的词，并对不同的词编号，每一个词对应一个整数ID号。如此，在识别出词后，就可以将词转换为整数ID号。比如，下表1所示，识别出的文本为“我是中国人我爱中国”，将文本中的词对应匹配ID号。

表1

序号	输入词	ID号
			1	我	1
2	是	6
			3	中国	10
4	人	8
			5	我	1
6	爱	22
			7	中国	10

如上表1所示，示例性的给出了预设词表中的一部分对应关系，将识别出的词输入到预设词表中，就可以匹配到对应的ID号，并且相同的词对应相同的ID号。如上述步骤S102中，若t＝4，识别出的第4个输入词为“人”。那么，将实时识别出的“人”这一词输入到预设词表中，匹配到对应的ID号为“8”。

之后，将第t个词对应的编号输入嵌入层，查询所述编号与向量之间的对应关系，得到所述第t个词对应的第一向量。

示例性的，根据预设词表对应匹配，将识别出的词转换为ID号，即编号。该ID号仅与预设词表中的词排序有关，并不具备语义区分性，无法直接根据该编号确定当前词对应的标点符号。因此，可以预先训练一嵌入层，在嵌入层中建立ID号与具备语义含义的向量之间的对应关系。后续学习过程中，将词对应的ID号，输入到嵌入层中，不同的编号可以在嵌入层学习到具备不同语义的第一向量。

其中，经过嵌入层处理过程后，可以使第一向量具备一定的语义区分性，并且可以作为输入参数输入到多层循环神经网络中进行学习。其中，嵌入层结构可以为固定网络结构的嵌入层，也可以随学习过程进行更新，对此本公开实施例不做具体限定。其中，嵌入层的功能相当于一个查询表，可以查询编号和向量之间的对应关系，为编号匹配到一个具有语义区分性的向量，对于该层的名称，本公开实施例不做具体限定。

在一些实施例中，如图4所示，嵌入层的输入是第t个词的编号，t为正数。嵌入层的输出为t时刻的第一向量。

S104、将第一向量输入多层循环神经网络，经过多层循环神经网络的各个层的处理，得到第二向量。其中，多层循环神经网络至少包括3层，第二向量用于表示第t个词对应的上下文信息。

其中，多层循环神经网络可以包含一个或多个部分，每一部分均为一个多层循环神经网络，每一多层循环神经网络的层数至少包括3层。每一多层循环神经网络的输出为下一多层循环神经网络输入。最后一部分多层循环神经网络的输出为第二向量。

示例性的，将第一向量输入包含N层循环神经网络的多层循环神经网络中的第一层循环神经网络，经过N层循环神经网络的处理，得到所述第二向量。其中，多层循环神经网络中每一层循环神经网络的权重矩阵不同。第N层循环神经网络的输入为第N-1层循环神经网络的输出，第N层循环神经网络的输出为第二向量；N为不小于3的正整数。

示例性的，多层循环神经网络表示该神经网络结构是由多层的循环神经网络构成。其中，每一层的循环神经网络可以相同或不同，一般的循环神经网络为长短期记忆网络(long short-term memory，LSTM)。LSTM是一种时间循环神经网络，适合于处理和预测时间序列中的重要事件，比如按照时间实时采集的用户语音信号添加标点符号。现有技术中，添加标点符号过程，一般应用单层循环神经网络进行处理。单层循环神经网络由于层数太浅，在实时语音识别添加标点符号过程中，会影响标点符号的准确性。采用至少3层的多层循环神经网络对第一向量进行处理，能够更加准确的对第一向量进行处理生成第二向量。其中，具体的向量处理过程与现有技术类似，在此不再赘述。

示例性的，第二向量用于表示第t个词对应的上下文信息，该上下文信息与时序及语义相关。比如，文本“我是中国人”，在识别出“中国”这个词时，可以获得它之前的词为“是”，预测它之后的词为“人”。如此，将第二向量输入到输出层后，可以获得第t个词前应该匹配的标点符号。

在一些实施例中，如图4所示，多层循环神经网络的输入是嵌入层输出的第一向量。多层循环神经网络的输出为第二向量。

S105、将第二向量输入到输出层，获得第t个词对应的各个标点符号的概率。

其中，输出层可以包括卷积神经网络的一层全连接层，其结构和工作原理与传统前馈神经网络的输出相同。例如，对于语音识别匹配标点符号的卷积神经网络，输出层可设计为词的分类，如此，可以获得对应的标点符号的概率等。对于图形分类的卷积神经网络，输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签，例如：人、景、物等。

其中，符号类别包括：无、逗号、句号、问号和叹号。

示例性的，将经过上述多层循环神经网络处理的第二向量，已具备上下文信息，输入到输出层中，可以获得词前可能会应用的五个标点符号分别对应的概率。

S106、将概率最大的标点符号，确定为第t个词之前的标点符号。

示例性的，对五个标点符号分别对应的概率大小进行排序，获得概率最大的标点符号。如此，可以输出第t个词之前添加的标点符号。比如，在文本“我是中国人”中，第t个词“中国”对应的的标点符号为“无”的概率为90％，其余四种标点符号对应的概率分别为2.5％，则确定“中国”前的标点符号为“无”。

在一些实施例中，如图4所示，将多层循环网络输出的第二向量输入到输出层。输出层对第二向量进行处理，输出第t个词之前的标点符号。

S107、发送实时语音信号对应的包含标点符号的文本。

基于上述内容，重复上述步骤S101-S106，按照时间顺序依次为文本中包含的词匹配对应的标点符号，将识别结果实时传输给终端设备，该识别结果即为实时语音信号对应的包含标点符号的文本。其中，文本中第一个词前的标点符号可以自动匹配为“无”，最后一个词后还可以自动匹配标点符号为句号。如此，为该输入的文本生成一个包含标点符号的完整的语句识别结果，实现实时语音中添加标点符号，给用户呈现的是文字及标点符号均实时识别。

参见下表2，为一种输出的符号类别匹配结果，文本为“我是中国人我爱中国”，则对应的输出给终端设备，由终端设备显示的语音识别结果为“我是中国人，我爱中国。”。

表2

本公开实施例所提供的语音识别方法，能够在实时流式语音识别的过程中自动添加标点符号，如此增加语音识别结果的可读性，并且减少用户等待语音识别结果的时长，提高用户体验。

在一种可能实现方式中，人在讲话时，为使讲话层次分明，突出重点，吸引听话人的注意力，会根据讲话内容的标点符号有意识的停顿。通常，在一句话结束时会停顿时间较长，而在一句话之间的停顿时间会较短。因此，在语音识别添加标点符号的过程中，还可以考虑停顿时长与标点符号的联系。

基于此，上述步骤S104中，包含多个部分的多层循环神经网络，示例性的，可以包括第一多层循环神经网络和第二多层循环神经网络。其中，第一多层循环神经网络至少包括3层，第二多层循环神经网络至少包括3层。在此情况下，结合图3，如图5所示，上述的步骤S104还可以通过下述的步骤S104A或步骤S104B实现。

S104A、将第一向量输入第一多层循环神经网络，经过第一多层循环神经网络的各个层的处理，得到第三向量。第三向量用于表示第t个词对应的上下文时序信息。

示例性的，参见上述步骤S104中的关于多层循环神经网络的相关描述，第一多层循环神经网络的对第一向量的处理与上述多层循环神经网络对第一向量的处理相同。经过第一多层循环神经网络处理(训练)后，输出第三向量。

S104B、获得第t-1个词和第t个词之间的停顿时长，将第三向量以及停顿时长拼接为第四向量，将第四向量输入第二多层循环神经网络，经过第二多层循环神经网络的各个层的处理，得到第二向量。

示例性的，获得第t-1个词和第t个词之间的停顿时长，将第三向量以及停顿时长拼接为第四向量，将第四向量输入第二多层循环神经网络中进行处理，进而输出第二向量。其中，第二多层循环神经网络中包含的循环神经网络为LSTM。第二多层循环神经网络的网络参数与第一多层循环神经网络的网络参数不同，多出停顿时长相关的网络参数。

其中，具体的向量处理过程与现有技术类似，在此不再赘述。

在一些实施例中，如图6所示，第二多层循环神经网络的输入是第一多层循环神经网络输出的第三向量和词前的停顿时长拼接成的第四向量。第二多层循环神经网络的输出为第二向量。

需要说明的是第二多层循环神经网络为可选的，即在步骤S104中，在多层循环神经网络中不包含第二多层循环神经网络的情况下，多层循环神经网络即为第一多层循环神经网络，通过第一多层循环神经网络对第一向量的处理(训练)，可以获得第二向量，将第二向量输入到输出层，可以实现为输入的词匹配标点符号。

图7是根据一示例性实施例示出的一种语音识别装置700的结构框图。具体的，参照图7，语音识别装置700包括接收模型701、识别模块702、预处理模块703、处理模块704和发送模块705；

其中，所述接收模块701，被配置为执行接收并将实时语音信号转化为文本；

所述识别模块702，被配置为执行识别所述文本中包含的第t个词；其中，t为正数；

所述预处理模块703，被配置为执行将第t个词进行预处理，得到所述第t个词对应的第一向量，所述第一向量用于表示所述第t个词的语义；

所述处理模块704，被配置为执行将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量；其中，所述多层循环神经网络至少包括3层，所述第二向量用于表示所述第t个词对应的上下文信息；

所述处理模块704，被配置为执行将所述第二向量输入到输出层，获得所述第t个词对应的各个标点符号的概率；

所述处理模块704，还被配置为执行将概率最大的标点符号，确定为所述第t个词之前的标点符号；

所述发送模块705，还被配置为执行发送所述实时语音信号对应的包含所述标点符号的文本。

可选的，所述处理模块704，具体被配置为执行将所述第一向量输入包含N层循环神经网络的多层循环神经网络中的第一层循环神经网络，经过N层循环神经网络的处理，得到所述第二向量；其中，所述多层循环神经网络中每一层循环神经网络的权重矩阵不同；第N层循环神经网络的输入为第N-1层循环神经网络的输出，第N层循环神经网络的输出为所述第二向量；N为不小于3的正整数。

可选的，所述多层循环神经网络包括第一多层循环神经网络和第二多层循环神经网络；所述第一多层循环神经网络至少包括3层，所述第二多层循环神经网络至少包括3层；所述处理模块704，具体被配置为执行将所述第一向量输入所述第一多层循环神经网络，经过所述第一多层循环神经网络的各个层的处理，得到第三向量，所述第三向量用于表示所述第t个词对应的上下文时序信息；

所述识别模块702，还被配置为执行获得第t-1个词和所述第t个词之间的停顿时长；

所述处理模块704，具体被配置为执行将所述第三向量以及所述停顿时长拼接为第四向量，将所述第四向量输入所述第二多层循环神经网络，经过所述第二多层循环神经网络的各个层的处理，得到所述第二向量。

可选的，所述预处理模块703，具体被配置为执行根据预设词表，获得所述第t个词对应的编号；查询所述编号与向量之间的对应关系，得到所述第t个词对应的第一向量。

可选的，所述标点符号包括：无、逗号、句号、问号和叹号。

可选的，所述多层循环神经网络为长短期记忆网络LSTM。

关于上述实施例中的语音识别装置，其中各个模块执行操作的具体方式已经在有关方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是本公开实施例提供的一种服务器800的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，CPU)801和一个或一个以上的存储器802，其中，存储器802中存储有至少一条指令，至少一条指令由处理器801加载并执行以实现上述各个方法实施例提供的语音识别方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，当存储介质中的指令由语音识别装置的处理器执行时，使得语音识别装置能够执行上述本公开实施例提供的语音识别方法。

本公开实施例还提供了一种包含指令的计算机程序产品，当其在语音识别装置上运行时，使得语音识别装置执行上述本公开实施例提供的语音识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，应用于服务器，所述方法包括：

接收并将实时语音信号转化为文本；

按照时间顺序依次识别所述文本中包含的第t个词；其中，t为正数；

发送所述实时语音信号对应的包含所述标点符号的文本；

所述多层循环神经网络包括第一多层循环神经网络和第二多层循环神经网络；所述第一多层循环神经网络至少包括3层，所述第二多层循环神经网络至少包括3层；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一向量输入多层循环神经网络，经过所述多层循环神经网络的各个层的处理，得到第二向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述将第t个词进行预处理，得到所述第t个词对应的第一向量，包括：

根据预设词表，获得所述第t个词对应的编号；

4.根据权利要求1所述的方法，其特征在于，

所述标点符号包括：无、逗号、句号、问号和叹号。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述多层循环神经网络为长短期记忆网络LSTM。

6.一种语音识别装置，其特征在于，包括：接收模块、识别模块、预处理模块、处理模块和发送模块；

所述识别模块，被配置为按照时间顺序依次执行识别所述文本中包含的第t个词；其中，t为正数；

所述发送模块，还被配置为执行发送所述实时语音信号对应的包含所述标点符号的文本；

所述识别模块，还被配置为执行获得第t-1个词和所述第t个词之间的停顿时长；

7.根据权利要求6所述的语音识别装置，其特征在于，

所述处理模块，具体被配置为执行将所述第一向量输入包含N层循环神经网络的多层循环神经网络中的第一层循环神经网络，经过N层循环神经网络的处理，得到所述第二向量；

8.根据权利要求6所述的语音识别装置，其特征在于，

所述预处理模块，具体被配置为执行根据预设词表，获得所述第t个词对应的编号；查询所述编号与向量之间的对应关系，得到所述第t个词对应的第一向量。

9.根据权利要求6所述的语音识别装置，其特征在于，

所述标点符号包括：无、逗号、句号、问号和叹号。

10.根据权利要求6-9任一项所述的语音识别装置，其特征在于，所述多层循环神经网络为长短期记忆网络LSTM。

11.一种服务器，其特征在于，包括：处理器、用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述语音识别方法。

12.一种计算机可读存储介质，其特征在于，包括指令，当所述指令由语音识别装置的处理器执行时，使得所述语音识别装置执行如权利要求1-6中任一项所述语音识别方法。