CN109545197B

CN109545197B - 语音指令的识别方法、装置和智能终端

Info

Publication number: CN109545197B
Application number: CN201910002074.1A
Authority: CN
Inventors: 文皓; 张新; 毛跃辉; 韩雪; 陶梦春
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2021-02-09
Anticipated expiration: 2039-01-02
Also published as: CN109545197A

Abstract

本发明提出一种语音指令的识别方法、装置和智能终端，其中识别方法，包括：预先建立多个声学模型，任一声学模型用于识别一种子语言，子语言为任意一种语言的官方语言或方言；获取语音指令并判断语音指令中是否采用了多种子语言；当语音指令中采用了多种子语言时，根据语音指令的发音和/或语调确定语音指令中采用的目标子语言；采用目标子语言对应的目标声学模型确定语音指令的语义，从而解决了当用户夹杂使用多种子语言时无法识别语音指令的问题。

Description

语音指令的识别方法、装置和智能终端

技术领域

本发明涉及语音控制领域，特别涉及一种语音指令的识别方法、装置和智能终端。

背景技术

现在语音识别基本都是基于普通话识别，或者是纯粹的方言或者英文识别等。如果用户的语音指令以普通话和方言混合穿插的形式或者普通话和英文混合穿插的形式来发出，现在的语音识别系统会很难识别，直接导致识别不出用户的意图，这样的语音识别给人的感觉就不怎么友好。

因此，当用户发出的语音指令中包含多种语言或包括多种方言时，准确识别语音指令的语义，以提高用户体验，是现有技术中亟待解决的问题。

发明内容

本发明提供了一种语音指令的识别方法、装置和智能终端，以在用户发出的语音指令中包括多种语言或包括多种方言时准确识别用户的意图，以提高用户体验。

为了解决上述问题，作为本发明的一个方面，提供了一种语音指令的识别方法，包括：

预先建立多个声学模型，任一声学模型用于识别一种子语言，子语言为任意一种语言的官方语言或方言；

获取语音指令并判断语音指令中是否采用了多种子语言；

当语音指令中采用了多种子语言时，根据语音指令的发音和/或语调确定语音指令中采用的目标子语言；

采用目标子语言对应的目标声学模型确定语音指令的语义。

可选的，声学模型为神经网络模型。

可选的，判断语音指令中是否采用了多种子语言，包括：

将语音指令传入各个声学模型进行识别；

若各个声学模型对语音指令的识别率均低于预设识别率，则认定语音指令中采用了多种子语言。

可选的，采用目标子语言对应的目标声学模型确定语音指令的语义，包括：

将语音指令分为多个语音段，其中，任一语音段采用一种目标子语言；

根据语音段采用的目标子语言确定语音段对应的目标声学模型；

采用目标声学模型对对应的语音段进行识别，得到语音段对应的第一识别结果；

根据第一识别结果确定语音指令的语义。

可选的，根据第一识别结果确定语音指令的语义，包括：

确定各个语音段在语音指令中的第一排序；

按照第一排序对各个语音段对应的第一识别结果进行排列得到第二识别结果；

用第二识别结果对应的语义作为语音指令的语义。

本申请还提出一种语音指令的识别装置，包括：

建模单元，用于预先建立多个声学模型，任一声学模型用于识别一种子语言，子语言为任意一种语言的官方语言或方言；

获取单元，用于获取语音指令并判断语音指令中是否采用了多种子语言；

语言识别单元，用于当语音指令中采用了多种子语言时，根据语音指令的发音和/或语调确定语音指令中采用的目标子语言；

语义识别单元，用于采用目标子语言对应的目标声学模型确定语音指令的语义。

可选的，声学模型为神经网络模型。

可选的，获取单元判断语音指令中是否采用了多种子语言，包括：

将语音指令传入各个声学模型进行识别；

可选的，语义识别单元采用目标子语言对应的目标声学模型确定语音指令的语义，包括：

根据第一识别结果确定语音指令的语义。

可选的，语义识别单元根据第一识别结果确定语音指令的语义，包括：

确定各个语音段在语音指令中的第一排序；

用第二识别结果对应的语义作为语音指令的语义。

本申请还提出一种智能终端，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，处理器执行程序时实现本申请提出的任一方法的步骤。

本申请还提出另一种智能终端，包括本申请提出的任一的装置。

本发明提出了一种语音指令的识别方法、装置和智能终端，根据语音指令的发音和/或语调确定所述语音指令中采用的目标子语言，并调用对应的声学模型对语音指令进行识别得到语音指令的语义，从而解决了当用户夹杂使用多种子语言时无法识别语音指令的问题。

附图说明

图1为本发明实施例中一种语音指令的识别方法的流程图；

图2为本发明实施例中一种语音指令的识别装置的组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“目标”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对于具有语音识别功能的终端，用户可以通过向终端发送语音指令以控制终端，或从终端获取到想要的数据，但是，现有的终端往往只能识别一种语言的官方语言或某一种方言，当用户同时使用多种语言发出语音指令或是采用多种方言发出语音指令时，终端往往无法准确的识别用户的意图，导致无法正确的对用户发出的语音指令做出反馈，降低了用户体验。

如图1所示，本申请提出一种语音指令的识别方法，包括：

S11：预先建立多个声学模型。

具体的，本申请提出的方法可以用于手机、平板等终端，也可以用于服务器，可以在服务器上建立并保存多个声学模型，也可以在手机、平板等终端上建立多个声学模型，任一声学模型用于识别一种子语言，子语言为任意一种语言的官方语言或方言；声学模型是对声学、语言学、说话环境、说话人性别、口音等差异的标识，声学模型是指一组字序列构成的知识表示，声学模型是确定说话人性别、口音、语言的知识库，能够确定用户说的是什么词。具体而言，子语言例如可以是汉语中的普通话或四川话，即汉语的官方语言或方言，也可以是英格兰英语、苏格兰英语、美式英语等，还可以是大阪地区的日语、九州地区的日语等，即任意一种子语言可以是汉语的官方语言或方言、日语的官方语言或方言、英语的官方语言或方言等等，即子语言具有两种属性，一是语种、二是类别，语种是指语言的种类，例如：汉语、英语、日语、法语，类别包括：官方语言和方言，此处的方言需要具体指明对应的使用地区，例如四川方言、东北方言，若两个子语言的语种不同或是类别不同，则属于不同子语言，例如英语官方语言和汉语官方语言属于不同的子语言，普通话和四川话也属于不同的子语言，当两个子语言的语种相同且都是方言时，如果方言对应的使用地区不同，则也属于不同的子语言，例如四川话和东北话都属于汉语方言，但使用的地区不同，因此属于不同的子语言，在本申请中建立的各个声学模型为不同的子语言进行识别，在使用本申请提出的子语言时，将语音数据作为输入值，输出值时输入的语音数据的语义，此处的语义可以以任意一种文字进行表示，语音数据所采用的语种的文字进行表示。

S12：获取语音指令并判断语音指令中是否采用了多种子语言。

具体的，此处是手机、平板等终端通过麦克风接收用户发出的语音指令，也可以是服务器接收到终端上传的语音指令，在接收到语音指令后判断其是否只使用了一种子语言，即判断用户是否是用某一种语言的官方语言或方言发出的语音指令。

S13：当语音指令中采用了多种所述子语言时，根据语音指令的发音和/或语调确定语音指令中采用的目标子语言；

具体的，此时用户是采用了至少2中子语言发出的语音指令，例如用户同时用普通话夹杂英格兰英语发出语音指令，或者用户用普通话夹杂广东话发出语音指令，甚至用普通话中夹杂广东话和英格兰英语发出语音指令。此处的目标子语言是语音指令中所采用的子语言，即上述举例中的普通话、广东话和英格兰英语，在此处目标子语言的个数为至少2个。不同种类的自语言对应的发明和语调各有特点，此处的发音可以是各种子语言中的基本音，例如英语中的元音。以普通话为例，普通话中的通话语音的特点是：声母除舌尖后擦音、鼻音、边音外，无浊音；韵母多复元音，鼻韵母有前后之分；没有声母的清浊对立，没有入声韵，尖团合流，声调较少，调式简单，另外有轻声和儿化韵。普通话语音有鲜明的特点：普通话的音节结构特点是：简单，声音响亮。普通话中，一个音节最多只有4个音素，其中，发音响亮的元音占优势，是一般音节中不可缺少的成分。一个音节内可以连续出现几个元音(最多三个)，如“坏(huài)”，而且普通话音节中没有复辅音，即没有像英语“lightning(闪电)”、俄语“Встреча(遇见)”那样几个辅音连在一起的现象。同时普通话中音节界限分明，节律感强。普通话的音节组成特点是：音节一般都是由声母、韵母、声调三部分组成，声母在前，韵母紧随其后，再带一个贯穿整个音节的声调，便有了鲜明的音节界限。从音素分析的角度观察，辅音和元音互相间隔而有规律地出现，给人周而复始的感觉，因而极便于切分音节。此外普通话声调变化特点是：音调抑扬顿挫，富有表达性。普通话声调变化高低分明，高、扬、转、降区分明显，能够较强的表达一个人的情感。本申请中的语调包括上述的音节结构特点、音节组成特点和音调变化特点中的一个或多个。

S13：采用目标子语言对应的目标声学模型确定语音指令的语义。

具体的，目标声学模型是目标子语言对应的声学模型，在确定了语音指令所采用的目标子语言后，就可以采用目标声学模型对语音指令中的各个组成部分分别进行识别，得到目标声学模型中各个组成部分对应的语义，在确定了各个组成部分的语义后，将其组成符合语法和逻辑的语句，即可确定语音指令的语义。例如；用户发出的是：打开airconditioner。其中分别采用了普通话和英格兰英语，则分别用普通话对应的声学模型识别了“打开”，用英格兰英语对应的声学模型识别了“air conditioner”为空调，则会最终确定语音指令的语义为：打开空调。可选的，本申请提出的方法还包括：根数所述语音指令的语义执行对应的操作。例如在上述实施例中，在识别语音指令为：打开空调后，就会自动打开空调。与现有技术相比，本申请的特点在于利用各种子语言的发音和语调确定语义指令中所采用的目标子语言，从而确定出语音指令的语义，解决了现有技术中当用户夹杂采用英语和汉语，或夹杂使用普通话和方言等多种子语言时无法识别语音指令的问题。

优选地，在本申请提出的方法中，声学模型为神经网络模型。例如可以是卷积神经网络、残差神经网络等，神经网络模型的输入值为语音数据，输出值为语音数据对应的语义，采用神经网络模型的优点在于可以不断对神经网络模型进行训练，从而随着输入的语音数据越多，神经网络模型的输出值越接近语音数据的真实语义。建立神经网络模型的方法可以是任一现有技术中的方法。

优选地，判断语音指令中是否采用了多种子语言，包括：

将语音指令传入各个声学模型进行识别；

具体的，在本申请中，可以依次用各个所述语音模型对语音指令进行轮询识别，如果每一个语音模型都无法完整的识别语音指令则认定其采用了多种子语言，识别率是声学模型识别出的语音指令的可识别部分占语音指令总量的百分比，例如可以是以语音指令的长度为标准，语音指令的长度为10秒，如果能够识别语音指令中时长为8秒的内容，则识别率为80％，当然也可以以其他方法计算识别率，对此本申请不作限定，此处设置预设识别率的作用是因为用户在输入语音指令时外界环境的噪音可能会被录入，这部分环境噪音是无法识别的，因此设置预设识别率，例如可以是95％，当语音指令中的95％的内容都可以被同一个声学模型准确识别时则认为语音指令中只采用了一种子语言。而低于95％时认为采用了多种子语言，预设识别率小于1，因而可以避免因为环境噪音错误判断是否采用了多种子语言的问题。

可选的，在本申请提出的方法中，采用目标子语言对应的目标声学模型确定语音指令的语义，包括：

根据第一识别结果确定语音指令的语义。

具体的，在已经确定了语音指令中采用了多种子语言后，需要按照语音指令中各部分所采用的子语言对应的声学模型分别识别各部分的语义，因此需要先对语音指令进行分段，以防止在识别某一部分语音指令时其他子语言对该部分的识别结果造成干扰。在对语音指令进行分割时，可以是根据语音指令的发音和语调对语音指令进行分段得到多个语音段，可以预先建立分段神经网络模型，分段神经网络模型的输入值为语音指令，分段神经网络模型的输出值为至少1个语音段，当语音指令中采用了多种子语言时，将语音指令传入分段神经网络模型以将语音指令分为多个语音段。不同的子语言的发音和语调都具有各自的特点，以发音和语调对语音指令进行分段，而不是基于语义进行分段，因为省去了翻译的步骤，因而可以提高运算速度，为了提高分段神经网络模型的准确度，需要输入大量的语音指令对分段神经网络模型进行充分的训练。在分段时，优选的将分段的端点设置在两种子语言的交汇处，即在语音指令中相邻的两个语音段采用不同的子语言。本申请中分段神经网络模型因为可以识别不同的子语言，因此也可以使用分段神经网络去判断语音指令中是否采用了多种子语言，当分段神经网路模型的输出值只有一个语音段时，表明语音指令中只采用了一种子语言。

可选的，根据第一识别结果确定语音指令的语义，包括：

确定各个语音段在语音指令中的第一排序；

用第二识别结果对应的语义作为语音指令的语义。

具体的，例如：用户发出的语音指令为：打开air conditioner，则将其拆分为两个语音段，分别为“打开”和“air conditioner”，在分别确定了各个语音段的语音后(airconditioner为空调)得到第一识别结果，第一识别结果为多个，为各个语音段的识别结果，在确定在语音指令中“air conditioner”位于“打开”后面，因此对第一识别结果进行排序得到第二识别结果“打开空调”，作为语音指令的语义。通过确定第一排序，可以准确的确定语音指令的语义，各个语音段的识别结果为第一识别结果，而第一识别结果可能包括多个语义，例如当中文中夹杂有英文单词时，英文单词通常有多种含义，而要具体确定应当采用哪种含义时，需要结合相邻的语音段的含义，即在本申请中，在确定任一语音段的第一识别结果的语义时，以相邻的语音段的识别结果为参照，获取与相邻的语音段的识别结果相匹配且符合语法的第一结果的语义。例如：用户发出语音指令为：查询联想天逸系列电脑bus类型时，此处bus单词的含义包括：公交车和总线，而结合了“bus”前面的语音段中的“电脑”即可以知道，用户此处是希望查询联想天逸系列电脑的总线类型。

本申请还提出一种语音指令的识别装置，如图2所示，包括：

建模单元10，用于预先建立多个声学模型，任一声学模型用于识别一种子语言，子语言为任意一种语言的官方语言或方言；

获取单元20，用于获取语音指令并判断语音指令中是否采用了多种子语言；

语言识别单元30，用于当语音指令中采用了多种子语言时，根据语音指令的发音和/或语调确定语音指令中采用的目标子语言；

语义识别单元40，用于采用目标子语言对应的目标声学模型确定语音指令的语义。

具体的，本申请提出的装置可以用于手机、平板等终端，也可以用于服务器，建模单元10可以在服务器上建立并保存多个声学模型，也可以在手机、平板等终端上建立多个声学模型。获取单元20可以是包括手机上的麦克风和处理器，也可以是服务器上的接收器和对应的处理器。当用户是采用了至少2中子语言发出的语音指令时，例如用户同时用普通话夹杂英格兰英语发出语音指令，或者用户同时用普通话和广东话发出语音指令，甚至用普通话、广东话和英格兰英语发出语音指令。此处的目标子语言是语音指令中所采用的子语言，即上述举例中的普通话、广东话和英格兰英语，在此处目标子语言的个数为至少2个。不同种类的自语言对应的发明和语调各有特点，此处的发音可以是各种子语言中的基本音，例如英语中的元音。以普通话为例，普通话中的通话语音的特点是：声母除舌尖后擦音、鼻音、边音外，无浊音；韵母多复元音，鼻韵母有前后之分；没有声母的清浊对立，没有入声韵，尖团合流，声调较少，调式简单，另外有轻声和儿化韵。普通话语音有鲜明的特点：普通话的音节结构特点是：简单，声音响亮。普通话中，一个音节最多只有4个音素，其中，发音响亮的元音占优势，是一般音节中不可缺少的成分。一个音节内可以连续出现几个元音(最多三个)，如“坏(huài)”，而且普通话音节中没有复辅音，即没有像英语“lightning(闪电)”、俄语“Встреча(遇见)”那样几个辅音连在一起的现象。同时普通话中音节界限分明，节律感强。普通话的音节组成特点是：音节一般都是由声母、韵母、声调三部分组成，声母在前，韵母紧随其后，再带一个贯穿整个音节的声调，便有了鲜明的音节界限。从音素分析的角度观察，辅音和元音互相间隔而有规律地出现，给人周而复始的感觉，因而极便于切分音节。此外普通话声调变化特点是：音调抑扬顿挫，富有表达性。普通话声调变化高低分明，高、扬、转、降区分明显，能够较强的表达一个人的情感。本申请中的语调包括上述的音节结构特点、音节组成特点和音调变化特点。本申请利用各种子语言的发音和语调确定语义指令中所采用的目标子语言，从而确定出语音指令的语义，解决了现有技术中当用户夹杂使用英语和汉语，或夹杂使用普通话和方言等多种子语言时无法识别语音指令的问题。

可选的，本申请提出的装置还包括：控制单元，用于根据所述语音指令的语义执行相应的操作。例如语音指令的语义为打开空调，则控制单元会向空调发送开机指令。

可选的，声学模型为神经网络模型。例如可以是卷积神经网络、残差神经网络等，神经网络模型的输入值为语音数据，输出值为语音数据对应的语义，采用神经网络模型的优点在于可以不断对神经网络模型进行训练，从而随着输入的语音数据越多，神经网络模型的输出值越接近语音数据的真实语义。建立神经网络模型的方法可以是任一现有技术中的方法。

可选的，获取单元20判断语音指令中是否采用了多种子语言，包括：将语音指令传入各个声学模型进行识别；若各个声学模型对语音指令的识别率均低于预设识别率，则认定语音指令中采用了多种子语言。

具体的，在本申请中，获取单元20可以依次用各个所述语音模型对语音指令进行轮询识别，如果每一个语音模型都无法完整的识别语音指令则认定其采用了多种子语言，此处设置预设识别率的作用是因为用户在输入语音指令时外界环境的噪音可能会被录入，这部分环境噪音是无法识别的，因此设置预设识别率，例如可以是95％，当语音指令中的95％的内容都可以被同一个声学模型准确识别时则认为语音指令中只采用了一种子语言。而低于95％时认为采用了多种子语言，预设识别率小于1，因而可以避免因为环境噪音错误判断是否采用了多种子语言的问题。

可选的，语义识别单元40采用目标子语言对应的目标声学模型确定语音指令的语义，包括：

根据第一识别结果确定语音指令的语义。

具体的，在已经确定了语音指令中采用了多种子语言后，需要按照语音指令中各部分所采用的子语言对应的声学模型分别识别各部分的语义，因此需要先对语音指令进行分段，以防止在识别某一部分语音指令时其他子语言对该部分的识别结果造成干扰。在对语音指令进行分割时，可以是根据语音指令的发音和语调对语音指令进行分段得到多个语音段，本申请还可以包括预先建立的分段神经网络模型，分段神经网络模型的输入值为语音指令，分段神经网络模型的输出值为至少1个语音段，当语音指令中采用了多种子语言时，将语音指令传入分段神经网络模型以将语音指令分为多个语音段。不同的子语言的发音和语调都具有各自的特点，以发音和语调对语音指令进行分段，而不是基于语义进行分段，因为省去了翻译的步骤，因而可以提高运算速度，为了提高分段神经网络模型的准确度，需要输入大量的语音指令对分段神经网络模型进行充分的训练。在分段时，优选的将分段的端点设置在两种子语言的交汇处，即相邻的两个语音段采用不同的子语言。本申请中分段神经网络模型因为可以识别不同的子语言，因此分段神经网络也可以用于判断语音指令中是否采用了多种子语言，当分段神经网路模型的输出值只有一个语音段时，表明语音指令中只采用了一种子语言。

可选的，语义识别单元40根据第一识别结果确定语音指令的语义，包括：

确定各个语音段在语音指令中的第一排序；

用第二识别结果对应的语义作为语音指令的语义。

具体的，例如：用户发出的语音指令为：打开air conditioner，则将其拆分为两个语音段，分别为“打开”和“air conditioner”，在分别确定了各个语音段的语音后(airconditioner为空调)得到第一识别结果，第一识别结果为多个，为各个语音段的识别结果，在确定在语音指令中“air conditioner”位于“打开”后面，因此对第一识别结果进行排序得到第二识别结果“打开空调”，作为语音指令的语义。通过确定第一排序，可以准确的确定语音指令的语义，各个语音段的识别结果为第一识别结果，而第一识别结果可能包括多个语义，例如当中文中夹杂有英文单词时，英文单词通常有多种含义，而要具体确定应当采用哪种含义时，需要结合相邻的语音段的含义。

本申请还提出另一种智能终端，包括本申请提出的任一的装置。本申请提出的智能终端可以是手机、平板电脑、智能穿戴设备等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音指令的识别方法，其特征在于，包括：

预先建立多个声学模型，任一所述声学模型用于识别一种子语言，所述子语言为任意一种语言的官方语言或方言；

获取语音指令并判断所述语音指令中是否采用了多种所述子语言；

当语音指令中采用了多种所述子语言时，根据语音指令的发音和/或语调确定所述语音指令中采用的目标子语言；

采用所述目标子语言对应的目标声学模型确定所述语音指令的语义；

判断所述语音指令中是否采用了多种所述子语言，包括：

将所述语音指令传入各个所述声学模型进行识别；

若各个所述声学模型对所述语音指令的识别率均低于预设识别率，则认定所述语音指令中采用了多种子语言。

2.根据权利要求1所述的语音指令的识别方法，其特征在于，

所述声学模型为神经网络模型。

3.根据权利要求1-2任一项所述的语音指令的识别方法，其特征在于，采用所述目标子语言对应的目标声学模型确定所述语音指令的语义，包括：

将所述语音指令分为多个语音段，其中，任一所述语音段采用一种所述目标子语言；

根据所述语音段采用的目标子语言确定所述语音段对应的目标声学模型；

采用所述目标声学模型对对应的语音段进行识别，得到所述语音段对应的第一识别结果；

根据所述第一识别结果确定所述语音指令的语义。

4.根据权利要求3所述的语音指令的识别方法，其特征在于，根据所述第一识别结果确定所述语音指令的语义，包括：

确定各个所述语音段在所述语音指令中的第一排序；

按照所述第一排序对各个所述语音段对应的所述第一识别结果进行排列得到第二识别结果；

用所述第二识别结果对应的语义作为所述语音指令的语义。

5.一种语音指令的识别装置，其特征在于，包括：

建模单元，用于预先建立多个声学模型，任一所述声学模型用于识别一种子语言，所述子语言为任意一种语言的官方语言或方言；

获取单元，用于获取语音指令并判断所述语音指令中是否采用了多种所述子语言；

语言识别单元，用于当语音指令中采用了多种所述子语言时，根据语音指令的发音和/或语调确定所述语音指令中采用的目标子语言；

语义识别单元，用于采用所述目标子语言对应的目标声学模型确定所述语音指令的语义；

所述获取单元判断所述语音指令中是否采用了多种所述子语言，包括：

将所述语音指令传入各个所述声学模型进行识别；

6.根据权利要求5所述的语音指令的识别装置，其特征在于，

所述声学模型为神经网络模型。

7.根据权利要求5-6任一项所述的语音指令的识别装置，其特征在于，所述语义识别单元采用所述目标子语言对应的目标声学模型确定所述语音指令的语义，包括：

根据所述第一识别结果确定所述语音指令的语义。

8.根据权利要求7所述的语音指令的识别装置，其特征在于，所述语义识别单元根据所述第一识别结果确定所述语音指令的语义，包括：

确定各个所述语音段在所述语音指令中的第一排序；

用所述第二识别结果对应的语义作为所述语音指令的语义。

9.一种智能终端，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，所述处理器执行所述程序时实现权利要求1-4任一所述方法的步骤。

10.一种智能终端，其特征在于，包括如权利要求5-8任一所述的装置。