CN110610697B

CN110610697B - 一种语音识别方法及装置

Info

Publication number: CN110610697B
Application number: CN201910865885.4A
Authority: CN
Inventors: 汪俊; 闫博群; 李索恒; 张志齐; 郑达
Original assignee: Shanghai Yitu Information Technology Co ltd
Current assignee: Shanghai Yitu Information Technology Co ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-07-31
Anticipated expiration: 2039-09-12
Also published as: CN110610697A; WO2021047103A1

Abstract

本发明实施例提供一种语音识别方法及装置，涉及信息技术领域，方法包括：获取待识别音频数据，待识别音频数据由n个时刻的子音频数据构成，其中n大于等于1；针对第i个时刻的子音频数据，将子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，第一语音识别模型的计算时间与第二语音识别模型的计算时间匹配，第一语音识别模型的计算维度大于第二语音识别模型的计算维度；根据第一识别结果以及第二识别结果确定第i个时刻的子音频数据的文本识别结果。提高了语音识别的实时性。

Description

一种语音识别方法及装置

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种语音识别方法及装置。

背景技术

随着通信技术的发展，智能终端的普及，各种网络通讯工具成为大众沟通的主要工具之一。其中由于语音信息的操作和传输的便捷性，成为各种网络通讯工具的主要传输信息。而在使用各种网络通讯工具时，还涉及到将语音信息进行文本转换的过程，该过程就是语音识别技术。

语音识别技术是使得机器通过识别和理解过程把语音信息转变为相应的文本或命令的技术。在使用深度学习的方法进行语音识别时，需要通过当前时刻的语音信息以及当前时刻的上下文信息来确定语音识别结果，但是由于当前时刻的语音信息的计算时间与上下文信息的计算时间不匹配，所以导致现有技术中语音识别结果输出滞后，不能满足实时性的要求。

发明内容

本发明实施例提供一种语音识别方法及装置，能够使当前时刻的语音信息的计算时间与上下文信息的计算时间匹配，满足实时性的要求。

一方面，本发明实施例提供一种语音识别方法，所述方法应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述方法包括：

获取待识别音频数据，所述待识别音频数据由n个时刻的子音频数据构成，其中n大于等于1；

针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，所述第一识别结果是根据所述待识别音频中第1个时刻到第i个时刻的子音频数据确定的，所述第二识别结果是根据所述待识别音频中第i个时刻到第n个时刻的子音频数据确定的，所述第一语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第二语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，所述第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，i是根据所述第一语音识别模型的计算维度与所述第二语音识别模型的计算维度确定的，i属于n；

根据所述第一识别结果以及所述第二识别结果确定所述第i个时刻的子音频数据的文本识别结果。

可选的，针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，包括：

将第1时刻的子音频数据输入至所述第一语音识别模型中的第1个处理模块，得到第1时刻的子音频数据的第一识别结果，将所述第1时刻的子音频数据的第一识别结果以及第2时刻的子音频数据作为所述第一语音识别模型中的第2个处理模块的输入数据，得到第2时刻的子音频数据的第一识别结果，将所述第2时刻的子音频数据的第一识别结果以及第3时刻的子音频数据作为所述第一语音识别模型中的第3个处理模块的输入数据，得到第3时刻的子音频数据的第一识别结果，以此类推得到第i时刻的子音频数据的第一识别结果；

将第n时刻的子音频数据输入至所述第二语音识别模型中的第n个处理模块，得到第n时刻的子音频数据的第二识别结果，将所述第n时刻的子音频数据的第二文本识别结果以及第n-1时刻的子音频数据作为所述第二语音识别模型中的第n-1个处理模块的输入数据，得到第n-1时刻的子音频数据的第二识别结果，将所述第n-1时刻的子音频数据的第二识别结果以及第n-2时刻的子音频数据作为所述第二语音识别模型中的第n-2个处理模块的输入数据，得到第n-2时刻的子音频数据的第二识别结果，以此类推得到第i时刻的子音频数据的第二识别结果。

可选的，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，包括：

所述第一语音识别模型计算得到第一识别结果的时间与所述第二语音识别计算得到第二识别结果的时间之间的差值小于预设阈值。

可选的，所述方法还包括：

在针对第i+1个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i+1个处理模块得到第一识别结果，并获取第二识别结果，所述第一识别结果是根据所述待识别音频中第1个时刻到第i+1个时刻的子音频数据确定的，所述第二识别结果是在确定第i个时刻的子音频数据的文本识别结果的过程中确定的；

根据所述第一识别结果以及所述第二识别结果确定所述第i+1个时刻的子音频数据的文本识别结果。

可选的，所述根据所述第一识别结果以及所述第二识别结果确定子音频数据的识别结果，包括：

根据所述第一识别结果的权重以及所述第二识别结果的权重确定子音频数据的识别结果。

一方面，本发明实施例还提供一种语音识别装置，所述装置应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述装置包括：

获取单元，用于获取待识别音频数据，所述待识别音频数据由n个时刻的子音频数据构成，其中n大于等于1；

计算单元，用于针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，所述第一识别结果是根据所述待识别音频中第1个时刻到第i个时刻的子音频数据确定的，所述第二识别结果是根据所述待识别音频中第i个时刻到第n个时刻的子音频数据确定的，所述第一语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第二语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，所述第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，i是根据所述第一语音识别模型的计算维度与所述第二语音识别模型的计算维度确定的，i属于n；

结果确定单元，用于根据所述第一识别结果以及所述第二识别结果确定所述第i个时刻的子音频数据的文本识别结果。

可选的，所述计算单元具体用于：

可选的，所述计算单元还用于：

所述结果确定单元还用于：

可选的，所述结果确定单元具体用于：

一方面，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一语音识别方法的步骤。

一方面，本发明实施例还提供一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述任一语音识别方法的步骤。

本发明实施例中，第一语音识别模型的第一识别结果是根据第1个时刻到第i个时刻的子音频数据确定的，可以认为第一语音识别模型处理的是当前时刻的输出结果，第二识别结果是根据待识别音频中第i个时刻到第n个时刻的子音频数据确定的，可以认为第二语音识别模型处理的是上下文信息，由于在本发明实施例中，第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，所以第一语音识别模型在计算到第i个时刻的子音频数据时，第二语音识别模型也已经计算到第i个时刻的子音频数据，这样，第一识别结果以及第二识别结果的计算时间是匹配的，不需要在计算完一个计算结果后等待另一个计算结果，提高了语音识别的实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景架构图；

图2为本发明实施例提供的一种语音识别系统架构图；

图3为本发明实施例提供的一种语音识别方法的流程示意图；

图4为本发明实施例提供的一种语音识别方法应用的场景示意图；

图5为本发明实施例提供的一种语音识别装置的结构示意图；

图6为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

语音识别技术，让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术中通常使用模板匹配法、随机模型法和概率语法分析法三种方法，也通常使用深度学习方法以及机器学习方法。

机器学习，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。示例性的，可以使用HMM(Hidden Markov Model，隐马尔可夫模型)来进行语音识别。

深度学习，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。示例性的，可以使用深度学习方法中的神经网络模型来进行语音识别。

BRNN，双向循环神经网络模型，一种深度学习方法，该方法提出每一个训练序列向前和向后分别是两个循环神经网络(RNN)，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。

在具体实践过程中，本申请的申请人发现，在进行语音识别的过程中，通常会存在上下文信息，但是上下文信息处理的过程与实时处理的过程处理的数据是不同的，以待识别的语音数据包括n个时刻的子音频数据为例进行说明，针对第i个时刻的子音频数据，将子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，第一识别结果是根据待识别音频中第1个时刻到第i个时刻的子音频数据确定的，第二识别结果是根据待识别音频中第i个时刻到第n个时刻的子音频数据确定的，可以认为，当i为n中的前几个时刻时，则第一语音识别模型的计算时间短，而第二语音识别模型的计算时间长，会导致第一语音识别模型已经确定了结果，但是第二语音识别模型还没有确定结果，不能满足实时性的要求；同样的，当i为n中后几个时刻时，第二语音识别模型的计算时间短，而第一语音识别模型的计算时间长，会导致第二语音识别模型已经确定了结果，但是第一语音识别模型还没有确定结果，不能满足实时性的要求。

基于上述现有技术的缺点，本申请的申请人构思了一种语音识别方法，该语音识别方法中第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，所以第一语音识别模型的计算时间与第二语音识别模型的计算时间匹配，能够有效提高语音识别的实时性。

本申请实施例中的语音识别方法可以应用于如图1所示的应用场景，该应用场景包括终端设备101和语音服务器102。其中，终端设备101和语音服务器102之间通过无线或有线网络连接，终端设备101包括但不限于智能音箱、智能手表、智能家居等智能设备，智能机器人、AI客服、银行信用卡催单电话系统，以及具有语音交互功能智能电话、移动电脑、平板电脑等电子设备。语音服务器102可提供相关的语音服务器，如语音识别、语音合成等服务，语音服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

在一种可能的应用场景下，用户10与终端设备101进行交互，终端设备101将用户10输入的语音数据发送给语音服务器102。语音服务器102对终端设备101发送的语音数据进行语音识别处理和语义解析处理，根据语义解析结果确定出相应的语音识别文本，将语音识别文本发送给终端设备101，终端设备101进行显示或者执行语音识别文本对应的指令。

值得说明的是，本申请实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，对于其它的应用场景架构和业务应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

基于图1所示的应用场景图，本申请实施例提供了一种语音识别方法，该方法的流程可以由语音识别装置执行，所述方法应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，为了解释本发明实施例中的语音识别方法，首先示例性的介绍一种语音识别系统，如图2所示，语音识别系统中包括第一语音识别模型以及第二语音识别模型，第一语音识别模型以及第二语音识别模型各具有n个处理模块，且每个处理模型都具有输入端以及输出端，针对一个子音频数据，将子音频数据输入到对应的第一语音识别模型的处理模块中，以及将子音频数据输入到对应的第二语音识别模型的处理模块中进行处理。

本发明实施例中的语音识别方法，具体如图3所示，包括：

步骤S301，获取待识别音频数据，所述待识别音频数据由n个时刻的子音频数据构成，其中n大于等于1。

具体的，在本发明实施例中，待识别音频数据是由n个时刻的子音频数据构成，例如，待识别音频数据是一段20秒的音频数据，可以将20秒的音频数据划分为20个时刻，即每1秒的时刻的音频数据作为一个子音频数据，且各个子音频数据具有先后时间顺序，所以待识别音频数据对应的是20个有先后顺序的子音频数据构成的。

步骤S302，针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，所述第一识别结果是根据所述待识别音频中第1个时刻到第i个时刻的子音频数据确定的，所述第二识别结果是根据所述待识别音频中第i个时刻到第n个时刻的子音频数据确定的，所述第一语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第二语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，所述第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，i是根据所述第一语音识别模型的计算维度与所述第二语音识别模型的计算维度确定的，i属于n。

具体的，在本发明实施例中，在进行待识别音频数据的识别时，将每个时刻的子音频数据输入至对应的第一语音识别模型的处理模块以及第二语音识别模型的处理模块中，分别得到对应的结果。

第一语音识别模型的处理方向与第二语音识别模型的处理方向相反，以i为第2个时刻为例进行说明，第一语音识别模型以及第二语音识别模型各具有10个处理模块，待识别音频数据为10s的语音数据，所以将每一秒的语音数据输入至对应的第一语音识别模型的处理。

针对第一语音识别模型的第二个处理模块以及第二语音识别模型的第二个处理模块，两个处理模块的输入数据都是第2s的语音数据，第一语音识别模型的第二个处理模块根据第1s的语音数据的处理结果以及第2s的语音数据来确定第2s语音数据的处理结果，第二语音识别模型的第二个处理模块是根据第三个处理模块针对第3s的语音数据的处理结果以及第2s的语音数据来确定第2s语音数据的处理结果，而第二语音识别模型的第三个处理模块是获取到第3s语音数据以及第四个处理模块的针对第4s语音数据的处理结果确定的，依次类推，第二语音识别模型的第二个处理模块的处理结果是根据第二语音识别模型的第十个处理模块到第三个处理模块的各处理结果以及第2s的语音数据来确定的。

在本发明实施例中，为了能够使得第一语音识别模型的输出结果和第二语音识别模型的输出结果能够同时确定，以使能够实时确定总的输出结果，在本发明实施例中，第一语音识别模型的计算维度大于第二语音识别模型的计算维度，也就是说，第一语音识别模型的计算时间较长，第二语音识别模型的计算时间短，在第i时刻时，第一语音识别模型的第i个处理模块计算出输出结果时，第二语音识别模型的第n个到第i个处理模块也计算出了输出结果，所以可以实现实时确定待识别音频数据的识别结果。

一种可选的实施例中，可以认为第一语音识别模型计算得到第一识别结果的时间与第二语音识别计算得到第二识别结果的时间之间的差值小于预设阈值，则认为可以实现实时确定待识别音频数据的识别结果。

也就是说，在本发明实施例中，第一语音识别模型计算得到第一识别结果的时间与第二语音识别计算得到第二识别结果的时间之间可以存在较小的时间差，不会影响识别结果的实时性。

一种可选的实施例中，为了尽快输出识别结果，所以i时刻越早越好，例如，i为第一时刻或者i为第二时刻，这样在待识别音频数据输入后，就可以快速的输出部分待识别音频数据的识别结果。

示例性的，在本发明实施例中，待识别音频数据对应的文本信息为“我和你是好朋友”，且“我”对应一个时刻的子音频数据、“和”对应一个时刻的子音频数据、“你”对应一个时刻的子音频数据、“是”对应一个时刻的子音频数据、“好”对应一个时刻的子音频数据、“朋”对应一个时刻的子音频数据以及“友”对应一个时刻的子音频数据。

将各个时刻的子音频数据分别输入至第一语音识别模型的各个处理模块以及第二语音识别模型的各个处理模块中，当第一语音识别模型的第1个处理模块已经解析了“我”时，第二语音识别模型的其它处理模块已经处理了“友”、“朋”、“好”、“是”、“你”、“和”、“我”，所以可以直接显示识别结果“我”，然后在第一语音识别模型的第2个处理模块解析出“和”后，也可以快速的显示识别结果“和”，从而能够实现实时显示识别结果。

一种可选的实施例中，在针对第i+1个时刻的子音频数据，将子音频数据输入至第一语音识别模型中的第i+1个处理模块得到第一识别结果，并获取第二识别结果，第一识别结果是根据待识别音频中第1个时刻到第i+1个时刻的子音频数据确定的，第二识别结果是在确定第i个时刻的子音频数据的文本识别结果的过程中确定的；根据第一识别结果以及第二识别结果确定第i+1个时刻的子音频数据的文本识别结果。

也就是说，第一语音识别模型在i个时刻与第二语音识别模型在第i个时刻匹配后，第二语音识别模型已经得到了第n个时刻到第i个时刻的各个识别结果，所以只需要等待第一语音识别模型的识别结果，就可以确定总的识别结果。

一种可选的实施例中，第一语音识别模型中的各个处理模块的计算维度不相同，第i+1个处理模块到第n个处理模块的计算维度小于第1个处理模块至第i个处理模块的计算维度，这样可以加快第一语音识别模型的计算，提高实时性。

在本发明实施例中，第一语音识别模型的计算维度与第二语音识别模型的计算维度可以理解为各个模型的参数量，也可以理解为各个模型参与计算的计算矩阵的大小。示例性的，若计算维度指的是各个模型的参数量，则第一语音识别模型的参数量大于第二语音识别模型的参数量，第一语音识别模型的参数量为1000，第二语音识别模型的参数量为500。

另一种可选的实施例，第一语音识别模型的计算维度为1000*1000的矩阵，第二语音识别模型的计算维度为500*500的矩阵，所以第一语音识别模型的计算维度大于第二语音识别模型的计算维度。

步骤S303，根据所述第一识别结果以及所述第二识别结果确定所述第i个时刻的子音频数据的文本识别结果。

在本发明实施例中，当第一语音识别模型确定了第一识别结果，以及第二语音识别模型确定了第二识别结果后，根据第一识别结果的权重以及第二识别结果的权重确定子音频数据的识别结果。权重可以相同，也可以不同，可以按照识别的精度要求或者场景要求来设定。

为了更好的解释本申请实施例，下面结合一种具体的实施场景描述本申请实施例提供的一种语音识别方法，如图4所示，在本发明实施例中，语音识别方法应用于会议场景，在会议场景中，需要将与会人员的发言进行记录，并显示在屏幕中。

在发明实施例中，使用BRNN模型来进行语音识别，在BRNN模型中包括两个识别模型，分别为第一识别模型以及第二识别模型，第一识别模型中包括N个处理模块，第二识别模型中包括N个处理模块，通过第一识别模型的各个处理模块的处理结果以及第二识别模型的各个处理模块的处理结果来确定与会人员的发言内容。在本发明实施例中，BRNN中的第一识别模型是按照第1个处理模块处理、第2个处理模块处理、第3个处理模块处理、……、第N个处理模块处理的顺序进行处理，BRNN中的第二识别模型是按照第N个处理模块处理、第N-1个处理模块处理、……、第1个处理模块处理的顺序进行处理。第一识别模型的计算维度大于第二识别模型的计算维度。

在本发明实施例中，通过音频采集设备话筒采集各个与会人员的发言内容，然后将发言内容输入到BRNN模型中，得到识别结果，并将识别结果显示在显示屏幕中。

基于上述实施例，参阅图5所示，本发明实施例提供一种语音识别装置500，所述装置500应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述装置500包括：

获取单元501，用于获取待识别音频数据，所述待识别音频数据由n个时刻的子音频数据构成，其中n大于等于1；

计算单元502，用于针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，所述第一识别结果是根据所述待识别音频中第1个时刻到第i个时刻的子音频数据确定的，所述第二识别结果是根据所述待识别音频中第i个时刻到第n个时刻的子音频数据确定的，所述第一语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第二语音识别模型中的每个处理模型对应一个时刻的子音频数据，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，所述第一语音识别模型的计算维度大于所述第二语音识别模型的计算维度，i是根据所述第一语音识别模型的计算维度与所述第二语音识别模型的计算维度确定的，i属于n；

结果确定单元503，用于根据所述第一识别结果以及所述第二识别结果确定所述第i个时刻的子音频数据的文本识别结果。

可选的，所述计算单元502具体用于：

可选的，所述计算单元502还用于：

所述结果确定单元还用于：

可选的，所述结果确定单元503具体用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图6所示，包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本申请实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行前述的语音识别方法中所包括的步骤。

其中，处理器601是计算机设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而获得客户端地址。可选的，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行语音识别方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，所述方法应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，针对第i个时刻的子音频数据，将所述子音频数据输入至第一语音识别模型中的第i个处理模块以及第二语音识别模型中的第i个处理模块，分别得到第一识别结果以及第二识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一识别结果以及所述第二识别结果确定所述第i+1个时刻的子音频数据的文本识别结果，包括：

6.一种语音识别装置，其特征在于，所述装置应用于语音识别系统，所述语音识别系统至少包括第一语音识别模型以及第二语音识别模型，所述第一语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述第二语音识别模型具有n个处理模块，每个模块具有一个输入端以及对应的输出端，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述计算单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述第一语音识别模型的计算时间与所述第二语音识别模型的计算时间匹配，包括：

9.根据权利要求6所述的装置，其特征在于，所述计算单元还用于：

所述结果确定单元还用于：

10.根据权利要求6或者9所述的装置，其特征在于，所述结果确定单元具体用于：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～5任一权利要求所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～5任一所述方法的步骤。