CN112837674A

CN112837674A - 语音识别方法、装置及相关系统和设备

Info

Publication number: CN112837674A
Application number: CN201911158154.2A
Authority: CN
Inventors: 张仕良; 刘媛; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-25
Anticipated expiration: 2039-11-22
Also published as: CN112837674B

Abstract

本申请公开了语音识别方法、装置、相关系统及设备。其中，方法包括：确定多语种混合语音数据的各个数据帧；针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。采用这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度。

Description

语音识别方法、装置及相关系统和设备

技术领域

本申请涉及数据处理技术领域，具体涉及语音交互系统、方法和装置，语音转写系统、方法和装置，语音识别方法和装置，终端设备，点餐设备，智能音箱，以及电子设备。

背景技术

随着人工智能时代的到来，一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中，如智能音箱、智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活，同时也提出一个问题：如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式，所以关于如何和IoT设备进行交互，也可选择语音交互。

对于一个智能的语音交互系统，可以通过语音识别，语义理解，语音合成等模块来完成用语音指令控制智能设备，从而可以替代传统的手动操作。在这个链路中，语音识别是核心技术模块之一，其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久，但是直到2009年深度神经网络在语音识别中的应用，才使得语音识别系统的性能获得极大提升，开始慢慢走向实用化。

目前的语音识别系统主要是针对特定语种的识别系统，如中文语音识别，英文语音识别系统等。对于一个智能交互系统，通常需要部署不同语种的语音识别系统，以支持多个语种的语音识别。由于很多时候用户说某个语种是没有先验的，因此智能交互系统通常采用联合“语种识别和多语种语音识别”的方式进行多语种语音识别。该系统包括彼此间相互独立的语种识别模块和语音识别模型，对于待识别的用户语音，首先要通过语种识别模块，判断该语音为何种语种的语音，然后再通过相应语种的语音识别模块对该段语音进行识别。例如，对于同一个聊天机器人或智能音箱，用户A采用中文与该设备进行语音交互，用户B采用英文与该设备进行语音交互，用户C采用法文与该设备进行语音交互，多语种语音识别系统首先识别用户语音为哪个语种，如果为中文，则对于该用户的所有语音都采用中文语音识别模块进行识别；如果为英文，则对于该用户的所有语音都采用英文语音识别模块进行识别。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：1)对于多语种语音识别问题，由于上述方案中的语种识别模块和语音识别模块是两个孤立的模块，也就是说，先从“整体”上对待识别语音进行语种识别，再通过“一个”相应语种的语音识别模型对所有语音片段进行语音识别，因此存在很明显的错误传导，如果前端语种识别模块发生误判，那么后端语音识别模块将完全不起作用，例如在中外宾交谈场景中，采集的语音数据有时为中文，有时为英文，不同语种的语音交杂的一起，现有方案无法正确识别哪些语音为中文，哪些语音为英文，进而无法正确识别语音；2)很多时候用户可能会在一句话中使用多个语种，如一句话里夹杂中文和英文(如今天我很happy)，这类问题称之为混读语音识别问题，由于上述方案只能判断这一句话属于哪个语种，因此无论判断为中文还是英文，均无法正确识别这类多语种混读的语音，从而影响语音识别效果。综上所述，现有技术存在无法正确识别多语种混合语音的问题。

发明内容

本申请提供语音交互系统，以解决现有技术存在的无法正确识别多语种混合语音的问题。本申请另外提供语音转写系统、方法和装置，语音识别方法和装置，终端设备，点餐设备，智能音箱，以及电子设备。

本申请提供一种语音交互系统，包括：

服务端，用于接收客户端发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息；

客户端，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音回复信息，展示所述语音回复信息。

本申请还提供一种语音交互方法，包括：

接收客户端发送的针对多语种混合语音数据的语音交互请求；

针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

根据各个数据帧的语音文本信息，确定语音回复信息；

向客户端回送所述语音回复信息。

3、根据权利要求2所述的方法，其特征在于，还包括：

从语音数据帧与语种标注信息间的第一对应关系集中学习得到所述语种识别子网络；

针对各个语种，从所述语种的语音数据与语音文本标注信息间的第二对应关系集中学习得到与所述语种对应的语音识别子网络。

4、根据权利要求3所述的方法，其特征在于，还包括：

将多个混合语种语料划分为多个语音数据帧；

根据所述多个语音数据帧，确定所述第一对应关系集。

5、根据权利要求3所述的方法，其特征在于，

所述通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息，包括：

通过所述语种识别子网络，确定所述数据帧的语种概率；

根据所述语种概率和各个语种的语种概率阈值，确定所述数据帧的语种信息。

6、根据权利要求5所述的方法，其特征在于，还包括：

确定混合语种的语音数据与语音文本标注信息间的第三对应关系集；

根据所述第三对应关系集，调整所述语种识别子网络和各个语音识别子网络的网络参数、及所述语种概率阈值，使得通过调整后的语音识别模型预测得到的第四对应关系集与所述第三对应关系集间的差距达到模型优化目标；所述第四对应关系包括混合语种的语音数据与语音文本预测信息间的对应关系。

7、根据权利要求2所述的方法，其特征在于，

所述多语种混合语音数据包括中文语音数据和英文语音数据；

所述语音识别模型包括中文语音识别子网络和英文语音识别子网络；

所述通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息，包括：

若所述语种信息为中文，则通过中文语音识别子网络,确定所述数据帧的语音文本信息；

若所述语种信息为英文，则通过英文语音识别子网络,确定所述数据帧的语音文本信息。

8、根据权利要求2所述的方法，其特征在于，

所述多语种混合语音数据包括三个语种以上的多语种混合语音数据；

所述语音识别模型包括三个语种以上的语音识别子网络。

9、根据权利要求2所述的方法，其特征在于，

所述语音交互请求携带目标语种设置信息；

通过与所述目标语种的对应的语音识别子网络,处理所述语音交互请求。

10、根据权利要求2所述的方法，其特征在于，

接收客户端发送的针对目标用户的语种设置请求；

根据所述语种设置请求携带的目标语种信息，存储目标用户与目标语种之间的对应关系；

若接收到所述目标用户的语音交互请求，则根据所述对应关系，确定与目标用户对应的多个目标语种，并通过与所述目标语种的对应的语音识别子网络,处理所述目标用户的语音交互请求。

本申请还提供一种语音交互方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音回复信息；

展示所述语音回复信息；

其中，所述语音回复信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送语音回复信息。

本申请还提供一种语音交互装置，包括：

请求接收单元，用于接收客户端发送的针对多语种混合语音数据的语音交互请求；

语音文本确定单元，用于针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

回复信息确定单元，用于根据各个数据帧的语音文本信息，确定语音回复信息；

回复信息发送单元，用于向客户端回送所述语音回复信息。

本申请还提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

请求发送单元，用于向服务端发送针对所述语音数据的语音交互请求；

回复信息接收单元，用于接收所述服务端回送的语音回复信息；

回复信息展示单元，用于展示所述语音回复信息；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：接收客户端发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；其中，所述语音回复信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送语音回复信息。

本申请还提供一种语音交互系统，包括：

服务端，用于接收终端设备发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息；

终端设备，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音指令信息，执行所述语音指令信息。

本申请还提供一种语音交互方法，包括：

接收终端设备发送的针对多语种混合语音数据的语音交互请求；

根据各个数据帧的语音文本信息，确定语音指令信息；

向终端设备回送所述语音指令信息。

本申请还提供一种语音交互方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音指令信息；

执行所述语音指令信息；

其中，所述语音指令信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息。

本申请还提供一种语音交互装置，包括：

请求接收单元，用于接收终端设备发送的针对多语种混合语音数据的语音交互请求；

指令信息确定单元，用于根据各个数据帧的语音文本信息，确定语音指令信息；

指令信息发送单元，用于向终端设备回送所述语音指令信息。

本申请还提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令信息接收单元，用于接收所述服务端回送的语音指令信息；

指令执行单元，用于执行所述语音指令信息；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：接收终端设备发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息。

本申请还提供一种终端设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；其中，所述语音指令信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息。

可选的，所述设备包括：智能音箱，智能电视，语音购票设备，或者点餐设备。

本申请还提供一种语音转写系统，包括：

服务端，用于接收客户端发送的针对多语种混合语音数据的语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列；

客户端，用于确定所述语音数据，向所述服务端发送所述语音转写请求；接收所述服务端回送的所述文本序列，展示所述文本序列。

本申请还提供一种语音转写方法，包括：

接收客户端发送的针对多语种混合语音数据的语音转写请求；

根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；

向客户端回送所述文本序列。

本申请还提供一种语音转写方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音转写请求；

接收所述服务端回送的与所述语音数据对应的文本序列；

展示所述文本序列；

其中，所述文本序列采用如下步骤确定：所述服务端接收所述语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列。

本申请还提供一种语音转写装置，包括：

请求接收单元，用于接收客户端发送的针对多语种混合语音数据的语音转写请求；

文本序列确定单元，用于根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；

文本序列发送单元，用于向客户端回送所述文本序列。

本申请还提供一种语音转写装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

请求发送单元，用于向服务端发送针对所述语音数据的语音转写请求；

文本序列接收单元，用于接收所述服务端回送的与所述语音数据对应的文本序列；

文本序列展示单元，用于展示所述文本序列；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的针对多语种混合语音数据的语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的文本序列；展示所述文本序列；其中，所述文本序列采用如下步骤确定：所述服务端接收所述语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列。

本申请还提供一种语音识别方法，包括：

确定多语种混合语音数据的各个数据帧；

针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；

通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

本申请还提供一种语音识别装置，包括：

语音数据确定单元，用于确定多语种混合语音数据的各个数据帧；

语种确定单元，用于针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；

数据帧文本确定单元，用于通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

语音文本确定单元，用于根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多语种混合语音数据的各个数据帧；针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

本申请还提供一种点餐设备，包括：

语音采集装置；

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：采集用户点餐的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定点餐信息，以便于根据所述点餐信息备餐。

本申请还提供一种智能音箱，本申请还提供包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：采集用户的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音识别方法，通过确定多语种混合语音数据的各个数据帧；针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

本申请实施例提供的语音交互系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对该语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息，客户端接收并展示所述语音回复信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

本申请实施例提供的语音交互系统，通过终端设备确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息；终端设备执行所述语音指令信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升终端设备的控制准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。本申请实施例提供的语音转写系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列，客户端接收并展示所述文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音转写的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

本申请实施例提供的点餐设备，通过采集用户点餐的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定点餐信息，以便于根据所述点餐信息备餐；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合点餐语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升点餐准确度，从而提升用户体验。

本申请实施例提供的智能音箱，通过采集用户的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息。；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合用户语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合用户语音识别的准确度，从而提升语音回复、语音指令的准确度，从而提升用户体验。

附图说明

图1本申请提供的一种语音识别方法的实施例的流程图；

图2本申请提供的一种语音识别方法的实施例的模型网络结构图；

图3本申请提供的一种语音识别方法的实施例的具体流程图；

图4本申请提供的一种语音识别装置的实施例的示意图；

图5本申请提供的一种电子设备的实施例的示意图；

图6本申请提供的一种语音交互系统的实施例的设备交互示意图；

图7本申请提供的一种语音交互系统的实施例的设备交互示意图；

图8本申请提供的一种语音转写系统的实施例的设备交互示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音交互系统、方法和装置，语音转写系统、方法和装置，语音识别方法和装置，终端设备，点餐设备，智能音箱，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音识别方法的实施例的流程图。该方法的执行主体为语音识别装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述语音识别方法的任何设备。本实施例提供的语音识别方法包括：

步骤S101：确定多语种混合语音数据的各个数据帧。

所述多语种混合语音数据，可以是由不同语种的话音句子构成的一段语音数据，如用户A问到“怎么用英语说‘我很高兴’这句话”，用户B答到“I am very happy”。所述多语种混合语音数据，也可以是将多语种的发音单元(又称为音素，如字、词等)交杂在一起的一句语音数据，如用户C说“今天我很happy”。

所述多语种混合语音数据由多个数据帧构成，本实施例中一个数据帧为10毫秒，所述多语种混合语音数据包括n个数据帧。

在本实施例中，可以先通过语音活动检测(Voice Activity Detection,VAD)从采集到的多语种混合的声音信号流里识别和消除长时间的静音期，以达到在不降低语音识别准确度的情况下节省计算资源的作用。静音抑制可以节省宝贵的带宽资源、存储资源和计算资源。在完成语音端点检测(又称语音边界检测)后，将所述多语种混合语音数据分割为多个数据帧。

步骤S103：针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息。

请参考图2，其为本申请的语音识别方法的实施例的语音识别模型的网络结构示意图。所述语音识别模型包括语种识别子网络和多个语种的语音识别子网络。其中，语种识别子网络用于对输入的一帧语音数据进行语种识别的处理；在确定输入数据帧的语种信息后，就可以将该数据帧作为相应语种的语音识别子网络的输入数据，通过该语音识别子网络对输入数据帧进行语音识别的处理。

由图2可见，在本实施例中，语音识别模型包括两个语音识别子网络，分别为中文语音识别子网络和英文语音识别子网络。具体实施时，语音识别模型也可以包括两个以上语种的语音识别子网络，如包括中文语音识别子网络、英文语音识别子网络、法文语音识别子网络和西班牙文语音识别子网络等等。

所述语种识别子网络的网络结构可以采用现有技术下的语种识别模型网络结构，如基于深度神经网络的语种识别子网络。所述语音识别子网络的网络结构可以采用现有技术下的语音识别模型网络结构，所述语音识别子网络可包括如下网络结构的模块之一：深层前馈序列记忆神经网络结构DFSMN、深度卷积神经网络DCNN，双向长短时记忆网络BLSTM。

步骤S105：通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息。

在本实施例中，所述多语种混合语音数据包括中文语音数据和英文语音数据；所述语音识别模型包括中文语音识别子网络和英文语音识别子网络；步骤S105可包括如下子步骤：1)若所述语种信息为中文，则通过中文语音识别子网络,确定所述数据帧的语音文本信息；2)若所述语种信息为英文，则通过英文语音识别子网络,确定所述数据帧的语音文本信息。

中文数据帧的语音文本信息，可以是中文发音单元，如一个中文数据帧对应的中文发音单元可以为音素，根据多个音素可确定字(character)，如“今”或“天”等等。英文数据帧的语音文本信息，可以是英文发音单元，如一个英文数据帧对应的英文发音单元为子词(subwords)“bi”或“art”等等。

步骤S107：根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

所述多语种混合语音数据包括多个数据帧，其中多组连续数据帧分别对应不同的发音单元，一组内的多个数据帧对应同一发音单元，在确定各个数据帧的发音单元(即语音文本信息)后，就可以确定与所述语音数据对应的文本序列。

例如，声音数据流“今天我很happy”包括100个数据帧，其中第1-20帧的语音文本信息为“今”，第21-40帧的语音文本信息为“天”，第41-60帧的语音文本信息为“我”，第61-80帧的语音文本信息为“很”，这些数据帧经由所述语种识别子网络均判定为中文，因此经由中文语音识别子网络确定发音单元；第81-100帧的语音文本信息为“happy”，这些数据帧经由所述语种识别子网络均判定为英文，因此经由英文语音识别子网络确定发音单元。

请参考图3，其为本申请的语音识别方法的实施例的流程图。在本实施例中，所述方法还可包括如下步骤：

步骤S301：从语音数据帧与语种标注信息间的第一对应关系集中学习得到所述语种识别子网络。

本申请实施例提供的方法，采用有监督的机器学习算法从训练数据中学习得到所述语音识别模型，因此，要求训练数据具有相应的标注信息。训练数据可包括语种识别子网络的第一训练数据，还可包括语音识别子网络的第二训练数据。

所述语种识别子网络的训练数据包括语种标注信息，该信息可由人工进行标注。表1示出了本实施例的第一对应关系集。

表1、第一对应关系集

由表1可见，第一对应关系集包括多个语种的数据帧与语种标注信息之间的对应关系，这些数据帧可来源于不同的多语种混合语音数据。

在本实施例中，在步骤S301之前还包括如下步骤：

步骤S3001：将多个混合语种语料划分为多个语音数据帧。

例如，语料库包括10000条中英文混合语料、8000条英法混合语料等，将每个语料划分为多个10毫秒的数据帧，这些数据帧就是第一对应关系中的训练数据帧。

步骤S3002：根据所述多个语音数据帧，确定所述第一对应关系集。

其中，语种标注信息可由人工进行标注，如英文、中文、法文等等。

在确定第一对应关系集、并构建语种识别子网络的网络结构后，就可以通过机器学习算法，将第一对应关系集作为训练数据，对语种识别子网络的网络参数进行调整，直至达到优化目标，使得通过该子网络预测得到的语种与真实语种间的差距足够小，然后存储最终训练得到的网络参数，以便预测阶段使用。

步骤S303：针对各个语种，从所述语种的语音数据与语音文本标注信息间的第二对应关系集中学习得到与所述语种对应的语音识别子网络。

所述语音识别子网络的训练数据包括语音文本标注信息，该信息可由人工进行标注。表2示出了本实施例的各语种的第二对应关系集，其中表2-1为中文的第二对应关系集，表2-2为英文的第二对应关系集，表2-3为法文的第二对应关系集。

语音数据帧(10毫秒)	语音文本标注信息	数据来源
			数据帧1	发音单元“今”	中英文混合语音数据1
数据帧2	发音单元“今”	中英文混合语音数据1
			…
数据帧15	发音单元“天”	中英文混合语音数据1
			数据帧16	发音单元“天”	中英文混合语音数据1
…
			数据帧32	发音单元“我”	中英文混合语音数据1
数据帧33	发音单元“我”	中英文混合语音数据1
			…
数据帧45	发音单元“很”	中英文混合语音数据1
			数据帧46	发音单元“很”	中英文混合语音数据1
…

表2-1、中文的第二对应关系集

由表2-1可见，中文的第二对应关系集包括中文数据帧与中文发音单元标注信息之间的对应关系，这些数据帧可来源于包括中文的多语种混合语音数据。

语音数据帧(10毫秒)	语音文本标注信息	数据来源
			…
数据帧n-15	发音单元“ha”	中英文混合语音数据1
			…		中英文混合语音数据1
数据帧n-1	发音单元“ppy”	中英文混合语音数据1
			数据帧n	发音单元“ppy”	中英文混合语音数据1
…
			数据帧87	发音单元“Are”	英法文混合语音数据2
数据帧88	发音单元“Are”	英法文混合语音数据2
			…

表2-2、英文的第二对应关系集

由表2-2可见，英文的第二对应关系集包括英文数据帧与英文发音单元标注信息之间的对应关系，这些数据帧可来源于包括英文的多语种混合语音数据。

语音数据帧(10毫秒)	语音文本标注信息	数据来源
			…		英法文混合语音数据2
数据帧m-10	发音单元“la”	英法文混合语音数据2
			…		英法文混合语音数据2
数据帧m-1	发音单元“Chine”	英法文混合语音数据2
			数据帧m	发音单元“Chine”	英法文混合语音数据2
…
			数据帧153	发音单元“sou”	英法文混合语音数据3
数据帧154	发音单元“haite”	英法文混合语音数据3
			…

表2-3、法文的第二对应关系集

由表2-3可见，法文的第二对应关系集包括法文数据帧与法文发音单元标注信息之间的对应关系，这些数据帧可来源于包括法文的多语种混合语音数据。

在确定各个语种的第二对应关系集、并构建各个语种的语音识别子网络的网络结构后，就可以通过机器学习算法，针对各个语种，将该语种的第二对应关系集作为训练数据，对该语种的语音识别子网络的网络参数进行调整，直至达到优化目标，使得通过该子网络预测得到的语音文本信息与真实的语音文本信息间的差距足够小，存储最终训练得到的网络参数。

在一个示例中，可直接采用分别训练得到的语种识别子网络和多个语音识别子网络，构建所述语音识别模型。但是，由于没有利用多语种数据帧的训练数据对整个语音识别模型进行联合调优，因此该方式可达到的语音识别准确度具有一定的限制。

在本实施例中，步骤S103可包括如下子步骤：1)通过所述语种识别子网络，确定所述数据帧的语种概率；2)根据所述语种概率和各个语种的语种概率阈值，确定所述数据帧的语种信息。例如，中文的语种概率阈值为30％-50％，英文的语种概率阈值为51％-75％，法文的语种概率阈值为76％-100％，如果一个数据帧的语种概率为40％，则该语种为中文，通过中文语音识别子系统对该帧语音数据进行语音识别处理。

在另一个示例中，在步骤S303之后还可包括如下步骤：

步骤S305：确定混合语种的语音数据与语音文本标注信息间的第三对应关系集。

所述第三对应关系集，可由多个语种的第二对应关系集合并得到。

语音数据帧(10毫秒)	语音文本标注信息	数据来源
			数据帧1	发音单元“今”	中英文混合语音数据1
数据帧2	发音单元“今”	中英文混合语音数据1
			…
数据帧15	发音单元“天”	中英文混合语音数据1
			数据帧16	发音单元“天”	中英文混合语音数据1
…
			数据帧32	发音单元“我”	中英文混合语音数据1
数据帧33	发音单元“我”	中英文混合语音数据1
			…
数据帧45	发音单元“很”	中英文混合语音数据1
			数据帧46	发音单元“很”	中英文混合语音数据1
…
			数据帧n-15	发音单元“ha”	中英文混合语音数据1
…		中英文混合语音数据1
			数据帧n-1	发音单元“ppy”	中英文混合语音数据1
数据帧n	发音单元“ppy”	中英文混合语音数据1
			…
数据帧87	发音单元“Are”	英法文混合语音数据2
			数据帧88	发音单元“Are”	英法文混合语音数据2
…
			数据帧m-10	发音单元“la”	英法文混合语音数据2
…		英法文混合语音数据2
			数据帧m-1	发音单元“Chine”	英法文混合语音数据2
数据帧m	发音单元“Chine”	英法文混合语音数据2
			…
数据帧153	发音单元“sou”	英法文混合语音数据3
			数据帧154	发音单元“haite”	英法文混合语音数据3
…

表3、第三对应关系集

由表3可见，第三对应关系集包括中文、英文及法文的第二对应关系集。

步骤S307：根据所述第三对应关系集，调整所述语种识别子网络和各个语音识别子网络的网络参数、及所述语种概率阈值，使得通过调整后的语音识别模型预测得到的第四对应关系集与所述第三对应关系集间的差距达到模型优化目标；所述第四对应关系包括混合语种的语音数据与语音文本预测信息间的对应关系。

在确定第三对应关系集、并通过步骤S301和S303初步确定语种识别子网络和各个语音识别子网络的网络参数后，就可以通过机器学习算法，采用联合调优方式，将该第三对应关系集作为整个语音识别模型的训练数据，对整个模型的网络参数进行调整，包括语种识别子网络和各个语音识别子网络的网络参数、及各个语种的语种概率阈值，直至达到优化目标，使得通过该语音识别模型预测得到的语音文本信息与真实的语音文本信息间的差距足够小，存储最终训练得到的网络参数。

在联合调优过程中，至少要计算两个损失函数，其一为语种损失函数，另一个为图2所示的多个语音识别子网络后的语音损失函数。

在一个示例中，所述多语种混合语音数据包括三个语种以上的多语种混合语音数据，如一段语音包括中文、英文、法文三国语言的语音数据；相应的，所述语音识别模型包括三个语种以上的语音识别子网络，以便于能够识别出该段语音涉及的各种语言的语音内容。

从上述实施例可见，本申请实施例提供的语音识别方法，通过确定多语种混合语音数据的各个数据帧；针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。

第二实施例

请参考图4，其为本申请提供的一种语音识别装置实施例的示意图，本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音识别装置包括：

语音数据确定单元401，用于确定多语种混合语音数据的各个数据帧；

语种确定单元402，用于针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；

数据帧文本确定单元403，用于通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

语音文本确定单元404，用于根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

第三实施例

请参考图5，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器501和存储器502；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该语音识别方法的程序后，执行下述步骤：确定多语种混合语音数据的各个数据帧；针对各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列。

第四实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音交互系统。

请参看图6，其为本申请的语音交互系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音交互系统，包括：服务端和客户端。

所述服务端，可以是聊天机器人等等。所述客户端包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

服务端，用于接收客户端发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息；客户端，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音回复信息，展示所述语音回复信息。

本实施例提供的系统，通过上述实施例一的方法确定用户语音数据中各个数据帧的语音文本信息，然后根据各个数据帧的语音文本信息，确定语音回复信息，并向客户端回送所述语音回复信息。

在本实施例中，首先根据各个数据帧的语音文本信息，确定多语种混合语音数据的多语种文本序列，然后通过语义理解等等模块的处理，确定语音回复信息。

在一个示例中，所述语音交互请求携带目标语种设置信息，如包括中文、英文、法文三种语言的标识；相应的，所述服务端通过与所述目标语种的对应的语音识别子网络,处理所述语音交互请求。采用这种处理方式，使得只需通过预设语种的语音识别子网络,处理所述语音交互请求，避免错误地通过其它语种的语音识别子网络对多语种混合语音进行识别；因此，可以有效提升多语种混合语音识别的准确度。

在一个示例中，所述服务端还用于接收客户端发送的针对目标用户的语种设置请求，如来自企业A的请求；根据所述语种设置请求携带的目标语种信息，存储目标用户与目标语种之间的对应关系；当接收到来自该目标用户的语音交互请求时，根据所述对应关系，确定与目标用户对应的多个目标语种；通过与所述目标语种的对应的语音识别子网络,处理所述目标用户的语音交互请求。采用这种处理方式，使得只允许通过用户有权使用的目标语种的语音识别子网络,处理来自该用户的语音交互请求，而不允许用户通过其无权使用的其它语种的语音识别子网络对多语种混合语音进行识别；因此，可以有效管理语音识别子网络的使用状况。

从上述实施例可见，本申请实施例提供的语音交互系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对该语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息，客户端接收并展示所述语音回复信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第五实施例

与上述的语音交互系统相对应，本申请还提供一种语音交互方法，该方法的执行主体包括但不限于移动通讯设备、个人电脑、PAD、iPad、RF枪等终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音交互方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音交互请求；

步骤3：接收所述服务端回送的语音回复信息；

步骤4：展示所述语音回复信息；

从上述实施例可见，本申请实施例提供的语音交互方法，通过确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第六实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

回复信息展示单元，用于展示所述语音回复信息；

第七实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：。

确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；其中，所述语音回复信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送语音回复信息。

第八实施例

与上述的语音交互系统相对应，本申请还提供一种语音交互方法，该方法的执行主体包括但不限于服务端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音交互方法包括：

步骤1：接收客户端发送的针对多语种混合语音数据的语音交互请求；

步骤2：针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；

步骤3：根据各个数据帧的语音文本信息，确定语音回复信息；

步骤4：向客户端回送所述语音回复信息。

在一个实例中，所述方法还可包括如下步骤：1)从语音数据帧与语种标注信息间的第一对应关系集中学习得到所述语种识别子网络；2)针对各个语种，从所述语种的语音数据与语音文本标注信息间的第二对应关系集中学习得到与所述语种对应的语音识别子网络。

在一个实例中，所述方法还可包括如下步骤：1)将多个混合语种语料划分为多个语音数据帧；2)根据所述多个语音数据帧，确定所述第一对应关系集。

在一个实例中，所述通过语音识别模型包括的语种识别子网络，并确定所述数据帧的语种信息的步骤，可包括如下子步骤：1)通过所述语种识别子网络，确定所述数据帧的语种概率；2)根据所述语种概率和各个语种的语种概率阈值，确定所述数据帧的语种信息。

在一个实例中，所述方法还可包括如下步骤：1)确定混合语种的语音数据与语音文本标注信息间的第三对应关系集；2)根据所述第三对应关系集，调整所述语种识别子网络和各个语音识别子网络的网络参数、及所述语种概率阈值，使得通过调整后的语音识别模型预测得到的第四对应关系集与所述第三对应关系集间的差距达到模型优化目标；所述第四对应关系包括混合语种的语音数据与语音文本预测信息间的对应关系。

在一个实例中，所述多语种混合语音数据包括中文语音数据和英文语音数据；相应的，所述语音识别模型包括中文语音识别子网络和英文语音识别子网络；相应的，所述通过语音识别模型包括的与所述语种信息对应的语音识别子网络,并确定所述数据帧的语音文本信息的步骤，可包括如下子步骤：1)若所述语种信息为中文，则通过中文语音识别子网络,确定所述数据帧的语音文本信息；2)若所述语种信息为英文，则通过英文语音识别子网络,确定所述数据帧的语音文本信息。

所述语音识别子网络，包括但不限于如下网络结构的模块之一：深层前馈序列记忆神经网络结构DFSMN、深度卷积神经网络DCNN，双向长短时记忆网络BLSTM。

在一个实例中，所述多语种混合语音数据包括三个语种以上的多语种混合语音数据；相应的，所述语音识别模型包括三个语种以上的语音识别子网络。

在一个实例中，所述语音交互请求携带目标语种设置信息；相应的，通过与所述目标语种的对应的语音识别子网络,处理所述语音交互请求。

在一个实例中，所述方法还可包括如下步骤：1)接收客户端发送的针对目标用户的语种设置请求；2)根据所述语种设置请求携带的目标语种信息，存储目标用户与目标语种之间的对应关系；相应的，若接收到所述目标用户的语音交互请求，则根据所述对应关系，确定与目标用户对应的多个目标语种，并通过与所述目标语种的对应的语音识别子网络,处理所述目标用户的语音交互请求。

从上述实施例可见，本申请实施例提供的语音交互方法，通过接收客户端发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第九实施例

本申请另外提供一种语音交互装置，包括：

回复信息发送单元，用于向客户端回送所述语音回复信息。

第十实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：接收客户端发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息；向客户端回送所述语音回复信息。

第十一实施例

请参看图7，其为本申请的语音交互系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音交互系统，包括：服务端和终端设备。

所述终端设备包括但不限于物联网设备，如智能音箱、智能电视等等。

服务端，用于接收终端设备发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息；终端设备，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音指令信息，执行所述语音指令信息。

所述语音指令信息，可以是终端设备的运行方式，如终端设备为智能空调，语音指令信息为“暖风，3挡位”。

本实施例提供的系统，通过上述实施例一的方法确定用户语音数据中各个数据帧的语音文本信息，然后根据各个数据帧的语音文本信息，确定针对终端设备的语音指令信息，并控制终端设备执行语音指令信息。

在本实施例中，首先根据各个数据帧的语音文本信息，确定多语种混合语音数据的多语种文本序列，然后通过语义理解等等模块的处理，确定语音指令信息。

从上述实施例可见，本申请实施例提供的语音交互系统，通过终端设备确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息；终端设备执行所述语音指令信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升终端设备的控制准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第十二实施例

本申请提供的一种语音交互方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音交互请求；

步骤3：接收所述服务端回送的语音指令信息；

步骤4：执行所述语音指令信息；

从上述实施例可见，本申请实施例提供的语音交互方法，通过确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升终端设备的控制准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第十三实施例

本申请另外提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令执行单元，用于执行所述语音指令信息；

第十四实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种终端设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种终端设备，该终端设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；其中，所述语音指令信息采用如下步骤确定：所述服务端接收所述语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息。

所述终端设备，包括但不限于：智能音箱，智能电视，语音购票设备，或者点餐设备。

第十五实施例

步骤1：接收终端设备发送的针对多语种混合语音数据的语音交互请求；

步骤3：根据各个数据帧的语音文本信息，确定语音指令信息；

步骤4：向终端设备回送所述语音指令信息。

从上述实施例可见，本申请实施例提供的语音交互方法，通过接收终端设备发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升终端设备的控制准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第十六实施例

本申请另外提供一种语音交互装置，包括：

第十七实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：接收终端设备发送的针对多语种混合语音数据的语音交互请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音指令信息；向终端设备回送所述语音指令信息。

第十八实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音转写系统。

请参看图8，其为本申请的语音转写系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音转写系统，包括：服务端和客户端。

服务端，用于接收客户端发送的针对多语种混合语音数据的语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列；客户端，用于确定所述语音数据，向所述服务端发送所述语音转写请求；接收所述服务端回送的所述文本序列，展示所述文本序列。

从上述实施例可见，本申请实施例提供的语音转写系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列，客户端接收并展示所述文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音转写的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第十九实施例

与上述的语音转写系统相对应，本申请还提供一种语音转写方法，该方法的执行主体包括但不限于移动通讯设备、个人电脑、PAD、iPad、RF枪等终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音转写方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音转写请求；

步骤3：接收所述服务端回送的与所述语音数据对应的文本序列；

步骤4：展示所述文本序列；

从上述实施例可见，本申请实施例提供的语音转写方法，通过确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的文本序列；展示所述文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音转写的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第二十实施例

在上述的实施例中，提供了一种语音转写方法，与之相对应的，本申请还提供一种语音转写装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音转写装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

文本序列展示单元，用于展示所述文本序列；

第二十一实施例

在上述的实施例中，提供了一种语音转写方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的文本序列；展示所述文本序列；其中，所述文本序列采用如下步骤确定：所述服务端接收所述语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列。

第二十二实施例

与上述的语音转写系统相对应，本申请还提供一种语音转写方法，该方法的执行主体包括但不限于服务端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音转写方法包括：

步骤1：接收客户端发送的针对多语种混合语音数据的语音转写请求；

步骤3：根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；

步骤4：向客户端回送所述文本序列。

从上述实施例可见，本申请实施例提供的语音转写方法，通过接收客户端发送的针对多语种混合语音数据的语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合语音识别的准确度，从而提升语音转写的准确度。此外，采用这种联合语种识别和语音识别的处理方式，可避免通过每个语种的语音识别模块对同一语音进行识别，系统计算量和存储量不会随着所支持语种数目的增多而线性增加，因此可以有效降低计算量和存储开销，进而提升多语种混合语音识别的性能。

第二十三实施例

本申请另外提供一种语音转写装置，包括：

文本序列发送单元，用于向客户端回送所述文本序列。

第二十四实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：接收客户端发送的针对多语种混合语音数据的语音转写请求；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据所述数据帧的语音文本信息，确定与所述语音数据对应的文本序列；向客户端回送所述文本序列。

第二十五实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种点餐设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种点餐设备，该点餐设备包括：语音采集装置；处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户点餐的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定点餐信息(如菜品名及个人口味要求等等)，以便于根据所述点餐信息备餐。

从上述实施例可见，本申请实施例提供的点餐设备，通过采集用户点餐的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定点餐信息，以便于根据所述点餐信息备餐；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合点餐语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升点餐准确度，从而提升用户体验。

第二十六实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种智能音箱。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能音箱，该智能音箱包括：语音采集装置；处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息。

从上述实施例可见，本申请实施例提供的智能音箱，通过采集用户的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息。；这种处理方式，使得在帧级别的语音数据上联合语种识别和语音识别，以实现多语种混合用户语音的识别，这样可避免将语种识别和语音识别环节孤立所导致的错误传递问题；因此，可以有效提升多语种混合用户语音识别的准确度，从而提升语音回复、语音指令的准确度，从而提升用户体验。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音交互系统，其特征在于，包括：

2.一种语音交互方法，其特征在于，包括：

根据各个数据帧的语音文本信息，确定语音回复信息；

向客户端回送所述语音回复信息。

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

将多个混合语种语料划分为多个语音数据帧；

根据所述多个语音数据帧，确定所述第一对应关系集。

5.根据权利要求3所述的方法，其特征在于，

通过所述语种识别子网络，确定所述数据帧的语种概率；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求2所述的方法，其特征在于，

8.根据权利要求2所述的方法，其特征在于，

所述语音识别模型包括三个语种以上的语音识别子网络。

9.根据权利要求2所述的方法，其特征在于，

所述语音交互请求携带目标语种设置信息；

10.根据权利要求2所述的方法，其特征在于，

接收客户端发送的针对目标用户的语种设置请求；

11.一种语音交互方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音回复信息；

展示所述语音回复信息；

12.一种语音交互装置，其特征在于，包括：

回复信息发送单元，用于向客户端回送所述语音回复信息。

13.一种语音交互装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

回复信息展示单元，用于展示所述语音回复信息；

14.一种电子设备，其特征在于，包括：

处理器；以及

15.一种电子设备，其特征在于，包括：

处理器；以及

16.一种语音交互系统，其特征在于，包括：

17.一种语音交互方法，其特征在于，包括：

根据各个数据帧的语音文本信息，确定语音指令信息；

向终端设备回送所述语音指令信息。

18.一种语音交互方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音指令信息；

执行所述语音指令信息；

19.一种语音交互装置，其特征在于，包括：

20.一种语音交互装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令执行单元，用于执行所述语音指令信息；

21.一种电子设备，其特征在于，包括：

处理器；以及

22.一种终端设备，其特征在于，包括：

处理器；以及

23.根据权利要求22所述的设备，其特征在于，

所述设备包括：智能音箱，智能电视，语音购票设备，或者点餐设备。

24.一种语音转写系统，其特征在于，包括：

25.一种语音转写方法，其特征在于，包括：

向客户端回送所述文本序列。

26.一种语音转写方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音转写请求；

接收所述服务端回送的与所述语音数据对应的文本序列；

展示所述文本序列；

27.一种语音转写装置，其特征在于，包括：

文本序列发送单元，用于向客户端回送所述文本序列。

28.一种语音转写装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

文本序列展示单元，用于展示所述文本序列；

29.一种电子设备，其特征在于，包括：

处理器；以及

30.一种电子设备，其特征在于，包括：

处理器；以及

31.一种语音识别方法，其特征在于，包括：

确定多语种混合语音数据的各个数据帧；

32.一种语音识别装置，其特征在于，包括：

33.一种电子设备，其特征在于，包括：

处理器；以及

34.一种点餐设备，其特征在于，包括：

语音采集装置；

处理器；以及

35.一种智能音箱，其特征在于，包括：

语音采集装置；

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户的多语种混合语音数据；针对所述语音数据的各个数据帧，通过语音识别模型包括的语种识别子网络，确定所述数据帧的语种信息；以及，通过语音识别模型包括的与所述语种信息对应的语音识别子网络,确定所述数据帧的语音文本信息；根据各个数据帧的语音文本信息，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息。