CN112837675A

CN112837675A - 语音识别方法、装置及相关系统和设备

Info

Publication number: CN112837675A
Application number: CN201911159480.5A
Authority: CN
Inventors: 张仕良; 刘媛; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-25

Abstract

本申请公开了语音识别方法、装置、相关系统及设备，词库构建方法、装置及设备。其中，语音识别方法包括：通过多语种声学模型，确定多语种混合语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与候选发音单元序列中第二语种发音单元对应的第一语种文本，形成语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定候选的第一语种文本序列的第一语种语言得分；根据第一语种语言得分和第三对应关系集，确定与语音数据对应的多语种混合文本序列。采用这种处理方式，使得在第一语种空间解码的方式进行多语种混读语音识别；因此，可以有效提升多语种混合语音识别的准确度。

Description

语音识别方法、装置及相关系统和设备

技术领域

本申请涉及数据处理技术领域，具体涉及语音交互系统、方法和装置，语音转写系统、方法和装置，语音识别方法和装置，词库构建方法和装置，点餐设备，智能音箱，终端设备，以及电子设备。

背景技术

随着人工智能时代的到来，一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中，如智能音箱、智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活，同时也提出一个问题：如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式，所以关于如何和IoT设备进行交互，也可选择语音交互。

对于一个智能的语音交互系统，可以通过语音识别，语义理解，语音合成等模块来完成用语音指令来控制智能设备，从而可以替代传统的手动操作。在这个链路中，语音识别是核心技术模块之一，其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久，但是直到2009年深度神经网络在语音识别中的应用，才使得语音识别系统的性能获得极大提升，开始慢慢走向实用化。

多语种混读(如中英文混读)语音识别是目前常见的语音识别现象。目前的语音识别系统通常采用联合声学模型得分和语言模型得分的解码方法(WFST)进行多语种语音识别，其中声学模型和语言模型均基于多语种混合语料训练得到。该系统首先通过声学模型识别到待识别语音数据的可能的发音单元序列，然后再通过语言模型确定各个发音单元序列对应的多个文本序列的语言得分，将语言得分大的文本序列作为语音识别结果。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：由于声学模型和语言模型的训练数据的稀缺，因此声学模型和语言模型的准确度有限，在这种情况下，目前中英混读的语音，特别是大段中文中插入英文单词，很容易被误识别。例如，待识别语音为“今天我很happy”，通过声学模型输出的发音单元序列为“jin tian wo henhappy”，但是由于语言模型的文本训练数据中没有类似“今天我很happy”的数据，因此该发音单元序列对应的文本序列“今天我很happy”的语言模型得分较低，因而无法将该文本序列作为待识别语音的文本序列。综上所述，现有技术存在由于语言模型训练数据有限导致语言模型正确度较低，进而导致中英混读语音识别里语言模型得分回退，从而导致无法正确识别多语种混合语音的问题。

发明内容

本申请提供语音交互系统，以解决现有技术存在的无法正确识别多语种混合语音的问题。本申请另外提供语音转写系统、方法和装置，语音识别方法和装置，词库构建方法和装置，点餐设备，智能音箱，终端设备，以及电子设备。

本申请提供一种语音识别方法，包括：

构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；

通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；

根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；

通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；

根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

可选的，所述根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列，包括：

根据所述第一语种语言得分，确定与语音数据对应的第一语种文本序列；

根据所述第三对应关系集和所述第一语种文本序列，确定所述多语种混合文本序列。

可选的，所述候选的第一语种文本序列，采用如下步骤形成：

根据所述第一对应关系集，确定与所述发音单元序列中第一语种发音单元对应的第一语种文本；以及，根据所述第二对应关系集，确定与所述发音单元序列中第二语种发音单元对应的第二语种文本；

根据所述第三对应关系集，确定与所述第二语种文本对应的第一语种文本；

根据所述第一语种文本，确定所述候选的第一语种文本序列。

可选的，所述第二对应关系，采用如下步骤构建：

确定第一语种的语料集，第一语种语料包括第一语种词和第二语种词；

确定第一语种语料包括的第二语种词；

根据第一语种语料包括的第二语种词，构建所述第二对应关系。

可选的，根据所述第二对应关系，构建所述第三对应关系。

可选的，所述确定第一语种的语料集，包括：

确定至少一个专业领域的所述语料集；

构建各个专业领域的所述第二对应关系；

所述方法还包括：

确定所述语音数据对应的专业领域信息；

根据所述第一对应关系集、所述语音数据对应的专业领域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。

可选的，所述确定第一语种的语料集，包括：

确定至少一个地域的所述语料集；

构建各个地域的所述第二对应关系；

所述方法还包括：

确定所述语音数据对应的地域信息；

根据所述第一对应关系集、所述语音数据对应的地域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。

本申请还提供一种语音交互系统，包括：

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；

客户端，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音回复信息，展示所述语音回复信息。

本申请还提供一种语音交互方法，包括：

接收客户端发送的针对多语种混合语音数据的语音交互请求；

通过多语种声学模型，确定所述语音数据的候选发音单元序列；

根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；

根据多语种混合文本序列，确定语音回复信息；

向客户端回送所述语音回复信息。

本申请还提供一种语音交互方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音回复信息；

展示所述语音回复信息；

其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

本申请还提供一种语音交互装置，包括：

词库构建单元，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；

语言模型构建单元，用于构建第一语种的语言模型；

请求接收单元，用于接收客户端发送的针对多语种混合语音数据的语音交互请求；

发音单元确定单元，用于通过多语种声学模型，确定所述语音数据的候选发音单元序列；

第一文本序列确定单元，用于根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；

语言得分确定单元，用于通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；

第二文本序列确定单元，用于根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；

回复信息确定单元，用于根据多语种混合文本序列，确定语音回复信息；

回复信息发送单元，用于向客户端回送所述语音回复信息。

本申请还提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

请求发送单元，用于向服务端发送针对所述语音数据的语音交互请求；

回复信息接收单元，用于接收所述服务端回送的语音回复信息；

回复信息展示单元，用于展示所述语音回复信息；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

本申请还提供一种语音交互系统，包括：

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息；

终端设备，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音指令信息，执行所述语音指令信息。

本申请还提供一种语音交互方法，包括：

接收终端设备发送的针对多语种混合语音数据的语音交互请求；

根据多语种混合文本序列，确定语音指令信息；

向终端设备回送所述语音指令信息。

本申请还提供一种语音交互方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音指令信息；

执行所述语音指令信息；

其中，所述语音指令信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

本申请还提供一种语音交互装置，包括：

语言模型构建单元，用于构建第一语种的语言模型；

请求接收单元，用于接收终端设备发送的针对多语种混合语音数据的语音交互请求；

回复信息确定单元，用于根据多语种混合文本序列，确定语音指令信息；

回复信息发送单元，用于向终端设备回送所述语音指令信息。

本申请还提供一种语音交互装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令信息接收单元，用于接收所述服务端回送的语音指令信息；

指令执行单元，用于执行所述语音指令信息；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

本申请还提供一种终端设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；其中，所述语音指令信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

可选的，所述设备包括：智能音箱，智能电视，语音购票设备，或者点餐设备。

本申请还提供一种语音转写系统，包括：

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列；

客户端，用于确定所述语音数据，向所述服务端发送所述语音转写请求；接收所述服务端回送的所述文本序列，展示所述文本序列。

本申请还提供一种语音转写方法，包括：

接收客户端发送的针对多语种混合语音数据的语音转写请求；

向客户端回送所述文本序列。

本申请还提供一种语音转写方法，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音转写请求；

接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；

展示所述文本序列；

其中，所述文本序列采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列。

本申请还提供一种语音转写装置，其特征在于，包括：

语言模型构建单元，用于构建第一语种的语言模型；

请求接收单元，用于接收客户端发送的针对多语种混合语音数据的语音转写请求；

信息发送单元，用于向客户端回送所述文本序列。

本申请还提供一种语音转写装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

请求发送单元，用于向服务端发送针对所述语音数据的语音转写请求；

信息接收单元，用于接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；

信息展示单元，用于展示所述文本序列；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；展示所述文本序列；其中，所述文本序列采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列。

本申请还提供一种语音识别装置，包括：

语言模型构建单元，用于构建第一语种的语言模型；

发音单元确定单元，用于通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；

第二文本序列确定单元，用于根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该语音识别方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

本申请还提供一种词库构建方法，包括：

确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；

确定第一语种语料包括的非第一语种词；

根据非第一语种词，构建与第一语种对应的非第一语种混夹词库。

可选的，所述确定第一语种的语料集，包括：

从第一语种的视频或音频数据中获取语音形式的第一语种语料；

所述非第一语种词，采用如下方式确定：

通过多语种声学模型，确定所述语音形式的第一语种语料的发音单元序列；

根据非第一语种发音词典，确定与所述发音单元序列中非第一语种发音单元对应的非第一语种词。

可选的，所述确定第一语种的语料集，包括：

从第一语种的文本信息中获取文本形式的第一语种语料；

所述非第一语种词，采用如下方式确定：

根据非第一语种词典，确定所述非第一语种词。

可选的，所述确定第一语种的语料集，包括：

确定至少一个专业领域的所述语料集；

构建各个专业领域的所述非第一语种混夹词库。

可选的，所述确定第一语种的语料集，包括：

确定至少一个地域的所述语料集；

构建各个地域的所述非第一语种混夹词库。

本申请还提供一种词库构建装置，包括：

语料确定单元，用于确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；

非第一语种词确定单元，用于确定第一语种语料包括的非第一语种词；

词库生成单元，用于根据非第一语种词，构建与第一语种对应的非第一语种混夹词库。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现词库构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；确定第一语种语料包括的非第一语种词；根据非第一语种词，构建与第一语种对应的非第一语种混夹词库。

本申请还提供一种点餐设备，包括：

语音采集装置；

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：采集用户点餐的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定点餐信息，以便于根据所述点餐信息备餐；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系。

本申请还提供一种智能音箱，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：采集用户的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定与语音数据对应的文本序列；根据所述与语音数据对应的文本序列，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音识别方法，通过构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)映射成第一语种词(如中文词)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

本申请实施例提供的语音交互系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；向客户端回送所述语音回复信息，客户端接收并展示所述语音回复信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

本申请实施例提供的语音交互系统，通过终端设备确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息，终端设备执行语音指令信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升终端设备的控制准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

本申请实施例提供的语音转写系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音转写请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列；向客户端回送所述文本序列；客户端接收并展示所述文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升语音转写的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

本申请提供的词库构建方法，通过确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；确定第一语种语料包括的非第一语种词；根据非第一语种词，构建与第一语种对应的非第一语种混夹词库；这种处理方式，使得构建出包括常用的出现在第一语种的多语种混读里的非第一语种词的词库，即与第一语种对应的非第一语种混夹词库；因此，可以有效减少词条数量，使得基于该词库的语音识别效率更高。

本申请实施例提供的点餐设备，通过采集用户点餐的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定点餐信息，以便于根据所述点餐信息备餐；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音，再基于识别到的点餐文本，确定点餐信息(如菜品名及个人口味要求等等)；因此，可以有效提升点餐准确度，从而提升用户体验。

本申请实施例提供的智能音箱，通过采集用户的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定与语音数据对应的文本序列；根据所述与语音数据对应的文本序列，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音，再基于识别出的语音文本，确定语音回复信息和/或语音指令信息；因此，可以有效提升语音回复、语音指令的准确度，从而提升用户体验。

附图说明

图1本申请提供的一种语音识别方法的实施例的流程图；

图2本申请提供的一种语音识别方法的实施例的模型网络结构图；

图3本申请提供的一种语音识别装置的实施例的示意图；

图4本申请提供的一种电子设备的实施例的示意图；

图5本申请提供的一种语音交互系统的实施例的设备交互示意图；

图6本申请提供的一种语音交互系统的实施例的设备交互示意图；

图7本申请提供的一种语音转写系统的实施例的设备交互示意图；

图8本申请提供的一种词库构建方法的实施例的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音交互系统、方法和装置，语音转写系统、方法和装置，语音识别方法和装置，词库构建方法和装置，点餐设备，智能音箱，终端设备，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音识别方法的实施例的流程图。该方法的执行主体为语音识别装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述语音识别方法的任何设备。本实施例提供的语音识别方法包括：

步骤S101：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型。

所述第一语种，可以是任意一个语种，如中文、英文或者法文等等。所述第二语种是第一语种以外的其它语种，如第一语种为中文，则第二语种可以是英文、法文等等。

表1、表2和表3分别示出了本实施例的第一对应关系集、第二对应关系集和第三对应关系集。

第一语种词	第一语种发音
		高兴	gao xing
热爱	re ai
		…

表1、第一对应关系集

由表1可见，第一对应关系是第一语种词与第一语种发音之间的对应关系。在本实施例中，第一语种为中文，其发音可用汉语拼音表示。所述第一对应关系集，可根据汉语词典构建。

表2、第二对应关系集

由表2可见，第二对应关系是第二语种词与第二语种发音之间的对应关系。在本实施例中，有两个第二语种，其一为英文，其发音可用国际音标表示；另一个为法文，其发音可用法国发音标记表示。需要说明的是，所述第一语种发音、第二语种发音又称为声学建模单元。

第一语种词	第二语种词	第二语种类别
			高兴	happy	英文
高兴	heureux	法文
			热爱	love	英文
…

表3、第三对应关系集

由表3可见，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系。在本实施例中，第一语种为中文，第二语种包括英文和法文等等，第三对应关系可来源于汉英词典、汉法词典等等。

具体实施时，可以通过文本统计方式，统计得到常用的出现在中英混读里的英文单词，然后通过英文词典，得到这些英文单词的发音，形成所述第二对应关系集；然后通过中英翻译词典，得到这些英文单词的中文翻译，形成所述第三对应关系集。采用这种处理方式，可以有效减少第二对应关系集和第三对应关系集的数据量；因此，可以有效提升语音识别效率。

所述第二对应关系，又可称为第二语种混夹词典，该词典中只包括可能或经常出现在第一语种语音数据(多语种混合语音数据)中的第二语种词。

在本实施例中，所述第二对应关系可采用如下步骤构建：1)确定第一语种的语料集；2)确定第一语种语料包括的第二语种词；3)根据第一语种语料包括的第二语种词，构建所述第二对应关系。相应的，可根据所述第二对应关系，构建所述第三对应关系。

所述语料是语言材料。所述第一语种语料包括第一语种词和第二语种词。例如，第一语种为中文，在中文语料中主要包括汉字，但同时也会夹杂一些英文单词，如“我很happy”，其中，happy即为第二语种词。

从语料内容角度而言，所述语料集可以是某个专业领域的语料集，该集合只包括该专业领域的语料，如人工智能领域、互联网技术领域、商业领域等等。通常，不同专业领域具有不同的第二语种混夹词。

在一个示例中，所述确定第一语种的语料集的步骤，可采用如下方式实现：确定至少一个专业领域的所述语料集；相应的，可构建各个专业领域的所述第二对应关系。在这种情况下，所述方法还可包括如下步骤：确定所述语音数据对应的专业领域信息；相应的，步骤S105可采用如下方式实现：根据所述第一对应关系集、所述语音数据对应的专业领域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。采用这种处理方式，使得可构建特定专业领域的第二语种混夹词典(第二对应关系集)，然后根据语音数据所属专业领域的第二语种混夹词典，识别该专业领域的多语种混合语音；因此，可以有效提升多语种混合语音识别的准确度。

从语料内容角度而言，所述语料集还可以是某个地域的语料集，该集合只包括该地域的语料，如中国北方或南方地区，或者是不同方言(广东话、上海话等)的地区等等。通常，不同地域具有不同的第二语种混夹词。

在一个示例中，所述确定第一语种的语料集的步骤，可采用如下方式实现：确定至少一个地域的所述语料集；相应的，可构建各个地域的所述第二对应关系。在这种情况下，所述方法还可包括如下步骤：确定所述语音数据对应的地域信息；相应的，步骤S105可采用如下方式实现：根据所述第一对应关系集、所述语音数据对应的地域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。采用这种处理方式，使得可构建特定地域的第二语种混夹词典，然后可根据语音数据所属地域的第二语种混夹词典，识别该地域的多语种混合语音；因此，可以有效提升多语种混合语音识别的准确度。

从语料形式角度而言，所述语料可以是文字形式的语料，也可以是语音形式的语料。

在一个示例中，所述确定第一语种的语料集的步骤，可采用如下方式实现：从第一语种的视频(如电影)或音频(如录音)数据中获取语音形式的第一语种语料；相应的，所述第一语种语料包括的第二语种词，可采用如下步骤确定：1)通过多语种声学模型，确定所述语音形式的第一语种语料的发音单元序列；2)根据第二语种发音词典，确定与所述发音单元序列中第二语种发音单元对应的第二语种词。采用这种处理方式，使得基于更加丰富的第一语种语料，构建第二语种混夹词典；因此，可以有效提升第二对应关系集的词汇量，从而提升多语种混合语音识别的准确度。

在另一个示例中，所述确定第一语种的语料集的步骤，可采用如下方式实现：从第一语种的文本信息(如小说、新闻等等)中获取文本形式的第一语种语料；相应的，所述第一语种语料包括的第二语种词，可采用如下步骤确定：根据第二语种词典，确定第二语种词。采用这种处理方式，使得基于更加丰富的第一语种语料，构建第二语种混夹词典；因此，可以有效提升第二对应关系集的词汇量，从而提升多语种混合语音识别的准确度。

本申请实施例提供的方法，与现有技术不同之处包括，在确定语言得分时依据的仅仅是根据第一语种语料训练得到的第一语种的语言模型，而无需依赖根据多语种混合语料训练得到的多语种的语言模型。由此可见，本申请实施例提供的方法无需准备用于训练语言模型的多语种混合语料。

所述语言模型，用于预测词序列出现的先验概率。对于给定一个词序列：

在本实施例中，所述语言模型为N-gram语言模型，其为一种常用的语言模型，对于给定的历史序列，通过该模型可得到下一个词的预测得分。由于N-gram语言模型及其构建方式属于较为成熟的现有技术，因此此处不再赘述。

步骤S103：通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列。

所述多语种混合语音数据，可以是由不同语种的话音句子构成的一段语音数据，如用户A问到“怎么用英语说‘我很高兴’这句话”，用户B答到“I am very happy”。所述多语种混合语音数据，也可以是将多语种的发音单元(如字、词等)交杂在一起的一句语音数据，如用户C说“今天我很happy”。

通过多语种声学模型，可实现将输入的语音信号转化成声学建模单元(即发音单元)的后验概率得分，由此可确定待识别的多语种混合语音数据的多个候选发音单元序列。所述发音单元序列，包括第一语种的发音单元、及一个或多个第二语种的发音单元。在本实施例中，第一语种的发音单元是中文发音单元，如中文发音单元为字(character)“今”或“天”的发音方式等等。第二语种的发音单元是英文发音单元，如英文发音单元为子词(subwords)“bi”或“art”的发音方式等等。例如，对于语音数据“今天我很happy”，可识别到其对应的发音单元序列至少包括“jin tian wo hen

”。由于多语种声学模型及其构建方式属于较为成熟的现有技术，因此此处不再赘述。

步骤S105：根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列。

在确定多语种混合语音数据的候选发音单元序列后，就可以根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本、及第一语种发音单元对应的第一语种文本，由这两类第一语种文本拼接得到候选的第一语种文本序列，即所述语音数据的候选的第一语种文本序列。

在本实施例中，步骤S105可包括如下子步骤：

步骤S1051：根据所述第一对应关系集，确定与所述发音单元序列中第一语种发音单元对应的第一语种文本；以及，根据所述第二对应关系集，确定与所述发音单元序列中第二语种发音单元对应的第二语种文本。

步骤S1052：根据所述第三对应关系集，确定与所述第二语种文本对应的第一语种文本。

步骤S1053：根据所述第一语种文本，确定所述语音数据的多个第一语种文本序列。

需要说明的是，所述语音数据可对应多个候选的第一语种文本序列。例如，语音数据“今天我很happy”的候选发音单元序列可以包括：“今天我很happy”，还可能因为发音不是很清晰，而被识别为发音单元序列“今天我很hippy”，因此所述语音数据的候选的第一语种文本序列包括：“今天我很高兴”、及“今天我很嬉皮士”等等。

步骤S107：通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分。

对于各个候选的第一语种文本序列，就可以通过第一语种的语言模型，确定第一语种文本序列的第一语种语言得分。

本申请实施例提供的方法，与现有技术不同之处在于，在确定语言得分时依据的仅仅是根据第一语种语料训练得到的第一语种的语言模型，而并不依赖根据多语种混合语料训练得到的多语种的语言模型。

步骤S109：根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

在本实施例中，步骤S109可包括如下子步骤：

步骤S1091：根据所述第一语种语言得分，确定与语音数据对应的第一语种文本序列。

对于待识别的多语种混合语音数据，可确定与其对应的多个候选的第一语种文本序列，这些候选的第一语种文本序列可能对应同一发音序列，也可以对应不同的发音序列，要通过所述语言模型确定每个候选的第一语种文本序列的第一语种语言得分，可将候选的第一语种文本序列中语言得分最高的文本序列作为与语音数据对应的第一语种文本序列。

步骤S1092：根据所述第三对应关系集和所述第一语种文本序列，确定所述多语种混合文本序列。

所述第三对应关系集记录了第一语种词与第二语种词间的对应关系，对于第一语种文本序列中需要进行语种转换的第一语种词，从第三对应关系集中查询该第一语种词对应的第二语种词，由此拼接得到与语音数据对应的多语种混合文本序列。

请参见图2，其为所述方法的具体流程图。在本实施例中，解码器通过联合声学模型得分、语言模型得分、和发音词典(包括第一对应关系集、第二对应关系集和第三对应关系集)，构建解码网络，通过优选路径搜索得到解码结果，即与待识别的多语种混合语音数据对应的多语种混合文本序列。本实施例的解码框架是采用加权有限状态转换器(weighted finite-state transducer，WFST)来构建解码网络。具体是将N-gram语言模型构造得到一个G.fst，发音词典构造成一个L.fst，声学建模单元构造得到T.fst，通过联合三个fst得到解码网络TLG.fst，TLG＝T·L·G，这样可以通过优选路径搜索的方式得到解码结果。

例如，声音数据流“见到你很happy”的解码过程可如下所述：首先，根据第二对应关系“happy，happy@@y

”及第一对应关系集，可确定中英文混合的文本序列(候选发音单元序列)包括“见到你很happy”；然后，根据第三对应关系“高兴，happy”，将中英文混合的文本序列“见到你很happy”转换为中文文本序列(第一语种文本序列)“见到你很高兴”；接下来，通过中文语言模型，确定该中文文本序列的中文语言得分高于其它候选后列的语言得分；然后，再根据第三对应关系“高兴，happy”，将“见到你很高兴”转换为“见到你很happy”，由此识别出该声音数据流的文本序列为“见到你很happy”。

需要说明的是，采用本申请实施例提供的方法处理上例时，要进行词条的映射，即将“happy”映射为“高兴”,这样就使得解码时将P(happy|你很)转换为P(高兴|你很)，因为P(高兴|你很)>P(happy)，由此即可得到更为准确的语言模型得分，从而解码搜索时更容易得到包含“happy”发音的优选路径，从而将“见到你很happy”作为最终识别出的文本序列。而采用现有技术处理上例时，由于训练语言模型的文本里“见到你很happy”很少出现，出现的大多数是“见到你很高兴”,这样就导致了P(happy|你很)的语言模型得分会回退到unigram，P(happy),导致语言模型得分很低，从而解码时候“happy”就很难被包含在优选路径里，从而导致无法识别出“见到你很happy”。

从上述实施例可见，本申请实施例提供的语音识别方法，通过构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。

第二实施例

请参考图3，其为本申请提供的一种语音识别装置实施例的示意图，本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音识别装置包括：

词库构建单元301，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；

语言模型构建单元302，用于构建第一语种的语言模型；

发音单元确定单元303，用于通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；

第一文本序列确定单元304，用于根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；

语言得分确定单元305，用于通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；

第二文本序列确定单元306，用于根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

第三实施例

请参考图4，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器401和存储器402；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该语音识别方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

第四实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音交互系统。

请参看图5，其为本申请的语音交互系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音交互系统，包括：服务端和客户端。

所述服务端，可以是聊天机器人等等。所述客户端包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；客户端，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音回复信息，展示所述语音回复信息。

本实施例提供的系统，通过上述实施例一的方法确定用户语音数据的多语种混合文本序列，然后根据该文本序列，通过语义理解等等模块的处理，确定语音回复信息，并向客户端回送所述语音回复信息。其中，根据多语种混合文本序列确定语音回复信息的步骤，可采用较为成熟的现有技术，此处不再赘述。

从上述实施例可见，本申请实施例提供的语音交互系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；向客户端回送所述语音回复信息，客户端接收并展示所述语音回复信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第五实施例

与上述的语音交互系统相对应，本申请还提供一种语音交互方法，该方法的执行主体包括但不限于移动通讯设备、个人电脑、PAD、iPad、RF枪等终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音交互方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音交互请求；

步骤3：接收所述服务端回送的语音回复信息；

步骤4：展示所述语音回复信息；

从上述实施例可见，本申请实施例提供的语音交互方法，通过确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第六实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

回复信息展示单元，用于展示所述语音回复信息；

第七实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

第八实施例

与上述的语音交互系统相对应，本申请还提供一种语音交互方法，该方法的执行主体包括但不限于服务端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音交互方法包括：

步骤1：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；

步骤2：接收客户端发送的针对多语种混合语音数据的语音交互请求；

步骤3：通过多语种声学模型，确定所述语音数据的候选发音单元序列；

步骤4：根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；

步骤5：通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；

步骤6：根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；

步骤7：根据多语种混合文本序列，确定语音回复信息；

步骤8：向客户端回送所述语音回复信息。

从上述实施例可见，本申请实施例提供的语音交互方法，通过构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，从而提升语音回复信息的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第九实施例

本申请另外提供一种语音交互装置，包括：

语言模型构建单元，用于构建第一语种的语言模型；

回复信息发送单元，用于向客户端回送所述语音回复信息。

第十实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

第十一实施例

请参看图6，其为本申请的语音交互系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音交互系统，包括：服务端和终端设备。

所述终端设备，包括但不限于物联网设备，如智能音箱、智能电视、点餐设备、自动售票设备等等。

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息；终端设备，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音指令信息，执行所述语音指令信息。

在一个示例中，终端设备为智能空调，所述语音指令信息，可以是终端设备的运行方式，如语音指令信息为“暖风，3挡位”。

在另一个示例中，终端设备为智能音箱，其采集用户语音数据，如“天猫精灵，把空调温度调到twenty five”，通过所述系统可确定语音指令信息为“空调：温度25度”，该智能音箱可执行该指令，将空调调至25度。

在又一个示例中，终端设备为地铁自动售票设备，其采集用户语音数据，如“复兴门to西直门，5张”，通过所述系统可确定语音指令信息为“复兴门到西直门：5张”，该售票设备可执行该指令，吐出5张能够从复兴门乘坐到西直门的乘车卡。

在又一个示例中，终端设备为点餐设备，其采集用户语音数据，如“咖啡，nosugar”，通过所述系统可确定语音指令信息为“咖啡，不加糖”，该点餐设备可执行该指令，自动制作一杯不加糖的咖啡。

本实施例提供的系统，通过上述实施例一的方法确定用户语音数据的多语种混合文本序列，然后根据该文本序列，通过语义理解等等模块的处理，确定针对终端设备的语音指令信息，并控制终端设备执行语音指令信息。

从上述实施例可见，本申请实施例提供的语音交互系统，通过终端设备确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音交互请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息，终端设备执行语音指令信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升终端设备的控制准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第十二实施例

本申请提供的一种语音交互方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音交互请求；

步骤3：接收所述服务端回送的语音指令信息；

步骤4：执行所述语音指令信息；

从上述实施例可见，本申请实施例提供的语音交互方法，通过本申请提供的一种语音交互方法包括：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升终端设备的控制准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第十三实施例

本申请另外提供一种语音交互装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令执行单元，用于执行所述语音指令信息；

第十四实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音指令信息；执行所述语音指令信息；其中，所述语音指令信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

所述设备，包括但不限于：智能音箱，智能电视，语音购票设备，或者点餐设备。

第十五实施例

步骤2：接收终端设备发送的针对多语种混合语音数据的语音交互请求；

步骤7：根据多语种混合文本序列，确定语音指令信息；

步骤8：向终端设备回送所述语音指令信息。

从上述实施例可见，本申请实施例提供的语音交互方法，通过构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升终端设备的控制准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第十六实施例

本申请另外提供一种语音交互装置，包括：

语言模型构建单元，用于构建第一语种的语言模型；

第十七实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

第十八实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音转写系统。

请参看图7，其为本申请的语音转写系统的实施例的设备交互示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音转写系统，包括：服务端和客户端。

服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列；向客户端回送所述文本序列；客户端，用于确定所述语音数据，向所述服务端发送所述语音转写请求；接收所述服务端回送的所述文本序列，展示所述文本序列。

从上述实施例可见，本申请实施例提供的语音转写系统，通过客户端确定多语种混合语音数据，向所述服务端发送针对该语音数据的语音转写请求；服务端响应该请求，构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列；向客户端回送所述文本序列；客户端接收并展示所述文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升语音转写的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第十九实施例

与上述的语音转写系统相对应，本申请还提供一种语音转写方法，该方法的执行主体包括但不限于移动通讯设备、个人电脑、PAD、iPad、RF枪等终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音转写方法包括：

步骤1：确定多语种混合语音数据；

步骤2：向服务端发送针对所述语音数据的语音转写请求；

步骤3：接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；

步骤4：展示所述文本序列；

从上述实施例可见，本申请实施例提供的语音转写方法，通过确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；展示所述文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升语音转写的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第二十实施例

在上述的实施例中，提供了一种语音转写方法，与之相对应的，本申请还提供一种语音转写装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音转写装置，包括：

语音数据确定单元，用于确定多语种混合语音数据；

信息展示单元，用于展示所述文本序列；

第二十一实施例

在上述的实施例中，提供了一种语音转写方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音转写请求；接收所述服务端回送的与所述语音数据对应的多语种混合文本序列；展示所述文本序列；其中，所述文本序列采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列。

第二十二实施例

与上述的语音转写系统相对应，本申请还提供一种语音转写方法，该方法的执行主体包括但不限于服务端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音转写方法包括：

步骤2：接收客户端发送的针对多语种混合语音数据的语音转写请求；

步骤17：向客户端回送所述文本序列。

从上述实施例可见，本申请实施例提供的语音转写方法，通过构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音；因此，可以有效提升混读情况下第二语种文本的识别率，从而提升多语种混合语音识别的准确度，进而提升语音转写的准确度。此外，这种处理方式不依赖多语种混合的语言模型训练数据。

第二十三实施例

本申请另外提供一种语音转写装置，包括：

语言模型构建单元，用于构建第一语种的语言模型；

信息发送单元，用于向客户端回送所述文本序列。

第二十四实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现语音转写方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音转写请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；向客户端回送所述文本序列。

第二十五实施例

与上述的语音识别方法相对应，本申请还提供一种词库构建方法。该方法的执行主体包括但不限于服务端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

请参考图8，其为本申请的语音识别方法的实施例的流程图。在本实施例中，本申请提供的一种词库构建方法包括：

步骤S801：确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词。

所述第一语种，包括但不限于：中文；相应的，所述非第二语种包括但不限于：英文，法文。

步骤S803：确定第一语种语料包括的非第一语种词。

在一个示例中，步骤S801可采用如下方式实现：从第一语种的视频或音频数据中获取语音形式的第一语种语料；相应的，步骤S803可包括如下子步骤：1)通过多语种声学模型，确定所述语音形式的第一语种语料的发音单元序列；2)根据非第一语种发音词典，确定与所述发音单元序列中非第一语种发音单元对应的非第一语种词。

在另一个示例中，步骤S801可采用如下方式实现：从第一语种的文本信息中获取文本形式的第一语种语料；相应的，步骤S803可采用如下方式实现：根据非第一语种词典，确定所述非第一语种词。

步骤S805：根据非第一语种词，构建与第一语种对应的非第一语种混夹词库。

在一个示例中，步骤S801可采用如下方式实现：确定至少一个专业领域的所述语料集；相应的，所述方法可构建各个专业领域的所述非第一语种混夹词库。

在另一个示例中，步骤S801可采用如下方式实现：确定至少一个地域的所述语料集；相应的，所述方法可构建各个地域的所述非第一语种混夹词库。

从上述实施例可见，本申请提供的词库构建方法，通过确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；确定第一语种语料包括的非第一语种词；根据非第一语种词，构建与第一语种对应的非第一语种混夹词库；这种处理方式，使得构建出包括常用的出现在第一语种的多语种混读里的非第一语种词的词库，即与第一语种对应的非第一语种混夹词库；因此，可以有效减少词条数量，使得基于该词库的语音识别效率更高。

第二十六实施例

在上述的实施例中，提供了一种词库构建方法，与之相对应的，本申请还提供一种词库构建装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种词库构建装置，包括：

第二十七实施例

在上述的实施例中，提供了一种词库构建方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；所述存储器，用于存储实现词库构建方法的程序，该设备通电并通过所述处理器运行该语音转写方法的程序后，执行下述步骤：确定第一语种的语料集，第一语种语料包括第一语种词和非第一语种词；确定第一语种语料包括的非第一语种词；根据非第一语种词，构建与第一语种对应的非第一语种混夹词库。

第二十八实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种点餐设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种点餐设备，该点餐设备包括：采集用户点餐的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定点餐信息，以便于根据所述点餐信息备餐；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系。

从上述实施例可见，本申请实施例提供的点餐设备，通过采集用户点餐的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定点餐信息，以便于根据所述点餐信息备餐；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音，再基于识别到的点餐文本，确定点餐信息(如菜品名及个人口味要求等等)；因此，可以有效提升点餐准确度，从而提升用户体验。

第二十九实施例

在上述的实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种智能音箱。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能音箱，该智能音箱包括：语音采集装置，处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定与语音数据对应的文本序列；根据所述与语音数据对应的文本序列，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系。

从上述实施例可见，本申请实施例提供的智能音箱，通过采集用户的多语种混合语音数据；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分，确定与语音数据对应的文本序列；根据所述与语音数据对应的文本序列，确定语音回复信息和/或语音指令信息；展示语音回复信息,和/或执行语音指令信息；其中，第一对应关系是第一语种词与第一语种发音之间的对应关系，第二对应关系是第二语种词与第二语种发音之间的对应关系，第三对应关系是第一语种词与至少一个第二语种词之间的对应关系；这种处理方式，使得利用构建的包括第一语种词(如中文词)到其各个语种发音(如中文发音、英文发音、法文发音等)的词条的发音词典，以及第一语种词与第二语种词间的词典(如汉英词典、汉法词典等)，将声学模型输出的第二语种词(英文单词)翻译成第一语种(如中文)，然后通过第一语种语言模型(如中文语言模型)，使用在第一语种空间(如中文空间)解码的方式进行多语种混读(如中英文混读)语音识别，这样就可以在声学模型和语言模型的多语种混合训练数据有限的情况下，避免语言模型得分回退，仍然可以正确识别多语种混合语音，再基于识别出的语音文本，确定语音回复信息和/或语音指令信息；因此，可以有效提升语音回复、语音指令的准确度，从而提升用户体验。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述候选的第一语种文本序列，采用如下步骤形成：

4.根据权利要求1所述的方法，其特征在于，

所述第二对应关系，采用如下步骤构建：

确定第一语种语料包括的第二语种词；

5.根据权利要求4所述的方法，其特征在于，

根据所述第二对应关系，构建所述第三对应关系。

6.根据权利要求4所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

确定至少一个专业领域的所述语料集；

构建各个专业领域的所述第二对应关系；

所述方法还包括：

确定所述语音数据对应的专业领域信息；

7.根据权利要求4所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

确定至少一个地域的所述语料集；

构建各个地域的所述第二对应关系；

所述方法还包括：

确定所述语音数据对应的地域信息；

8.一种语音交互系统，其特征在于，包括：

9.一种语音交互方法，其特征在于，包括：

根据多语种混合文本序列，确定语音回复信息；

向客户端回送所述语音回复信息。

10.一种语音交互方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音回复信息；

展示所述语音回复信息；

11.一种语音交互装置，其特征在于，包括：

语言模型构建单元，用于构建第一语种的语言模型；

回复信息发送单元，用于向客户端回送所述语音回复信息。

12.一种语音交互装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

回复信息展示单元，用于展示所述语音回复信息；

13.一种电子设备，其特征在于，包括：

处理器；以及

14.一种电子设备，其特征在于，包括：

处理器；以及

15.一种语音交互系统，其特征在于，包括：

16.一种语音交互方法，其特征在于，包括：

根据多语种混合文本序列，确定语音指令信息；

向终端设备回送所述语音指令信息。

17.一种语音交互方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音交互请求；

接收所述服务端回送的语音指令信息；

执行所述语音指令信息；

18.一种语音交互装置，其特征在于，包括：

语言模型构建单元，用于构建第一语种的语言模型；

19.一种语音交互装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

指令执行单元，用于执行所述语音指令信息；

20.一种电子设备，其特征在于，包括：

处理器；以及

21.一种终端设备，其特征在于，包括：

处理器；以及

22.根据权利要求21所述的设备，其特征在于，

所述设备包括：智能音箱，智能电视，语音购票设备，或者点餐设备。

23.一种语音转写系统，其特征在于，包括：

24.一种语音转写方法，其特征在于，包括：

向客户端回送所述文本序列。

25.一种语音转写方法，其特征在于，包括：

确定多语种混合语音数据；

向服务端发送针对所述语音数据的语音转写请求；

展示所述文本序列；

26.一种语音转写装置，其特征在于，包括：

语言模型构建单元，用于构建第一语种的语言模型；

信息发送单元，用于向客户端回送所述文本序列。

27.一种语音转写装置，其特征在于，包括：

语音数据确定单元，用于确定多语种混合语音数据；

信息展示单元，用于展示所述文本序列；

28.一种电子设备，其特征在于，包括：

处理器；以及

29.一种电子设备，其特征在于，包括：

处理器；以及

30.一种语音识别装置，其特征在于，包括：

语言模型构建单元，用于构建第一语种的语言模型；

31.一种电子设备，其特征在于，包括：

处理器；以及

32.一种词库构建方法，其特征在于，包括：

确定第一语种语料包括的非第一语种词；

33.根据权利要求32所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

所述非第一语种词，采用如下方式确定：

34.根据权利要求32所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

从第一语种的文本信息中获取文本形式的第一语种语料；

所述非第一语种词，采用如下方式确定：

根据非第一语种词典，确定所述非第一语种词。

35.根据权利要求32所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

确定至少一个专业领域的所述语料集；

构建各个专业领域的所述非第一语种混夹词库。

36.根据权利要求32所述的方法，其特征在于，

所述确定第一语种的语料集，包括：

确定至少一个地域的所述语料集；

构建各个地域的所述非第一语种混夹词库。

37.一种词库构建装置，其特征在于，包括：

38.一种电子设备，其特征在于，包括：

处理器；以及

39.一种点餐设备，其特征在于，包括：

语音采集装置；

处理器；以及

40.一种智能音箱，其特征在于，包括：

处理器；以及