CN108428447B

CN108428447B - 一种语音意图识别方法及装置

Info

Publication number: CN108428447B
Application number: CN201810631453.2A
Authority: CN
Inventors: 方昕; 刘俊华; 魏思; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2021-02-02
Anticipated expiration: 2038-06-19
Also published as: CN108428447A

Abstract

本申请公开了一种语音意图识别方法及装置，该方法包括：获取待识别的目标语音，然后，根据目标语音的识别文本以及目标语音的语音特征，对目标语音进行意图识别，得到意图识别结果。本申请将目标语音的识别文本与目标语音的语音特征相结合，对待识别的目标语音进行意图识别，从而可以有效弥补单纯利用识别文本进行语音意图识别可能造成的识别错误，进而可以提高目标语音意图识别结果的准确性。

Description

一种语音意图识别方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音意图识别方法及装置。

背景技术

随着语音识别和自然语言理解技术的不断发展，语音意图识别在越来越多的领域发挥着重要的作用，比如诈骗电话识别、垃圾电话识别、爆恐音频识别等领域。其中，语音意图识别，指的是通过一段语音来判断说话者的行为意图，例如，诈骗电话就是一个典型的关于语音意图识别的应用场景，在该应用场景中，通过说话者的语音通话来判断是否是诈骗电话，进而判断说话者是否是诈骗犯罪嫌疑人。

在现有的语音意图识别方法中，需要对目标语音进行语音识别，得到语音识别文本，再根据该语音识别文本进行意图识别，得到意图识别结果。但是，在进行语音识别时，可能会存在识别错误，特别是当目标语音中与意图识别强相关的关键词出现识别错误时，这会在很大程度上导致错误的意图识别结果。

发明内容

本申请实施例的主要目的在于提供一种语音意图识别方法及装置，能够提高语音意图识别结果的准确性。

本申请实施例提供了一种语音意图识别方法，包括：

获取待识别的目标语音；

根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，得到意图识别结果。

可选的，所述根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，包括：

根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别；

其中，所述第一信息为根据所述目标语音的识别文本对所述目标语音进行意图识别后得到的用于表征识别结果的信息；所述第二信息为根据所述目标语音的语音特征对所述目标语音进行意图识别后得到的用于表征识别结果的信息；所述第三信息为根据所述识别文本以及所述语音特征对所述目标语音进行意图识别后得到的用于表征识别结果的信息。

可选的，按照下述方式生成所述第一信息：

将所述目标语音的识别文本进行拆分，得到各个单位文本；

根据各个单位文本的文本内容以及各个单位文本对应的置信度，对所述目标语音进行意图识别，得到表征识别结果的第一信息。

可选的，所述根据各个单位文本的文本内容以及各个单位文本对应的置信度，对所述目标语音进行意图识别，包括：

根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量；

根据各个单位文本对应的置信度，生成各个单位文本对应的置信度向量；

根据各个文本向量以及各个置信度向量，对所述目标语音进行意图识别。

可选的，按照下述方式生成所述第三信息：

将所述目标语音的识别文本进行拆分，得到各个单位文本；

将所述目标语音进行拆分，得到各个单位语音；

根据各个单位文本的文本内容以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别，得到表征识别结果的第三信息。

可选的，所述根据各个单位文本的文本内容以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别，包括：

根据各个单位文本的文本向量以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别。

可选的，按照下述方式生成所述第一信息：

根据所述目标语音的识别文本对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第一信息；

相应地，按照下述方式生成所述第二信息：

根据所述目标语音的语音特征对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第二信息；

相应地，按照下述方式生成所述第三信息：

根据所述识别文本以及所述语音特征对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第三信息。

可选的，所述根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别，包括：

在所述至少两个信息中，利用每一信息对应的判决得分以及预设加权系数，进行加权计算；

根据加权计算结果，对所述目标语音进行意图识别。

本申请实施例还提供了一种语音意图识别装置，包括：

语音获取单元，用于获取待识别的目标语音；

意图识别单元，用于根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，得到意图识别结果。

可选的，所述意图识别单元，具体用于根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别，得到意图识别结果；

可选的，所述装置还包括：

第一文本拆分单元，用于将所述目标语音的识别文本进行拆分，得到各个单位文本；

第一信息生成单元，用于根据各个单位文本的文本内容以及各个单位文本对应的置信度，对所述目标语音进行意图识别，得到表征识别结果的第一信息。

可选的，所述第一信息生成单元包括：

第一向量生成子单元，用于根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量；

第二向量生成子单元，用于根据各个单位文本对应的置信度，生成各个单位文本对应的置信度向量；

第一信息生成子单元，用于根据各个文本向量以及各个置信度向量，对所述目标语音进行意图识别，得到表征识别结果的第一信息。

可选的，所述装置还包括：

第二文本拆分单元，用于将所述目标语音的识别文本进行拆分，得到各个单位文本；

目标语音拆分单元，用于将所述目标语音进行拆分，得到各个单位语音；

第三信息生成单元，用于根据各个单位文本的文本内容以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别，得到表征识别结果的第三信息。

可选的，所述第三信息生成单元包括：

第三向量生成子单元，用于根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量；

第三信息生成子单元，用于根据各个单位文本的文本向量以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别，得到表征识别结果的第三信息。

可选的，所述装置还包括：

第一判决单元，用于根据所述目标语音的识别文本对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第一信息；

第二判决单元，用于根据所述目标语音的语音特征对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第二信息；

第三判决单元，用于根据所述识别文本以及所述语音特征对所述目标语音进行分类判决，得到所述目标语音对应于每一意图类型时的判决得分，作为所述第三信息。

可选的，所述意图识别单元，具体用于在所述至少两个信息中，利用每一信息对应的判决得分以及预设加权系数，进行加权计算；根据加权计算结果，对所述目标语音进行意图识别，得到意图识别结果。

本申请实施例还提供了一种语音意图识别装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音意图识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音意图识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音意图识别方法中的任意一种实现方式。

本申请实施例提供的一种语音意图识别方法及装置，在获取到待识别的目标语音后，将根据该目标语音的识别文本以及目标语音的语音特征，对该目标语音进行意图识别，得到意图识别结果。可见，本申请将目标语音的识别文本与目标语音的语音特征相结合，对待识别的目标语音进行意图识别，从而可以有效弥补单纯利用识别文本进行语音意图识别可能造成的识别错误，进而可以提高目标语音的意图识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音意图识别方法的流程示意图；

图2为本申请实施例提供的生成第一信息的方法的流程示意图；

图3为本申请实施例提供的根据各个单位文本的文本内容以及各个单位文本对应的置信度对目标语音进行意图识别的流程示意图；

图4为本申请实施例提供的根据目标语音的识别文本对目标语音进行意图识别的结构示意图；

图5为本申请实施例提供的生成第二信息的方法流程示意图；

图6为本申请实施例提供的根据目标语音的语音特征对目标语音进行意图识别的结构示意图；

图7为本申请实施例提供的生成第三信息的方法流程示意图；

图8为本申请实施例提供的根据各个单位文本的文本内容以及单位文本对应的各个单位语音的语音特征对目标语音进行意图识别的流程示意图；

图9为本申请实施例提供的根据目标语音的识别文本以及语音特征对目标语音进行意图识别的结构示意图；

图10为本申请实施例提供的通过加权计算获得目标语音加权得分的结构示意图；

图11为本申请实施例提供的一种语音意图识别装置的组成示意图；

图12为本申请实施例提供的一种语音意图识别装置的硬件结构示意图。

具体实施方式

在一些语音意图识别方法中，可以先对语音进行语音识别，得到语音的识别文本，然后再利用分类模型对该语音识别文本进行语音意图的识别，得到语音意图识别结果，但是，利用该方法对语音进行意图识别时，可能会存在识别错误，例如，可能在对语音进行语音识别时，识别出语音的一些错误的文本内容，特别是当语音中与意图识别强相关的关键词出现识别错误时，将会在很大程度上导致错误的意图识别结果。

为解决上述缺陷，本申请实施例提供了一种语音意图识别方法，在获取到待识别的目标语音后，不仅对目标语音进行语音识别，得到目标语音的识别文本，还将提取出目标语音的语音特征，进而可以将目标语音的识别文本与目标语音的语音特征相结合，对待识别的目标语音进行意图识别，从而可以有效弥补单纯利用识别文本进行语音意图识别可能造成的识别错误，进一步提高目标语音的意图识别结果的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种语音意图识别方法的流程示意图，该方法包括以下步骤：

S101：获取待识别的目标语音。

在本实施例中，将采用本实施例实现意图识别的任一语音定义为目标语音，进而可以将需要实现意图识别的目标语音定义为待识别的目标语音，并且，本实施例不限制目标语音的语种类型，比如，目标语音可以是中文语音、或英文语音等。

可以理解的是，目标语音可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者会议录音等均可作为目标语音，在获取到目标语音后，可以利用本实施例实现对该目标语音的意图识别。

S102：根据目标语音的识别文本以及目标语音的语音特征，对目标语音进行意图识别，得到意图识别结果。

在本实施例中，通过步骤S101，获取到待识别的目标语音后，为了对该目标语音进行意图识别，首先需要对目标语音进行语音识别，得到目标语音的识别文本，其中，识别文本指的是目标语音对应的文字信息，其包含了该目标语音对应的文本内容。而在对目标语音进行语音识别的过程中，可以采用现有的或未来出现的任一种语音识别方法进行语音识别，例如，可以采用连续语音识别系统对目标语音进行连续语音识别，其中，该连续语音识别系统可以是传统的基于隐马尔可夫模型(Hidden Markov Model，简称HMM))-基于加权有限状态机(Weighted Finite State Transducer，简称WFST)的语音识别系统，也可以是基于编码-解码(Encode-Docode)框架的语音识别系统。

进一步的，为了弥补仅利用识别文本进行语音意图识别可能造成的识别错误，本申请还可以对目标语音进行语音特征的提取，进而可以结合提取出的语音特征对目标语音进行意图识别。其中，这里的语音特征指的是能够对语音的特性进行准确描述的特性参数，例如可以包括语音的频谱、声强以及基频等特征参数，而在对目标语音进行语音特征提取的过程中，一种具体的示例性实现方式可以包括：先对目标语音进行频谱分析，得到目标语音对应的频谱图，然后利用卷积神经网络(Convolution Neural Network，简称CNN)等模型对频谱图进行特征提取，进而得到目标语音的语音特征。需要说明的是，本实施例中的语音特征提取技术同样可以是现有的或未来出现的任意一种语音特征提取技术。

此时，在获取到目标语音的识别文本以及目标语音的语音特征后，进一步的，可以将二者相结合，共同对目标语音进行意图识别，得到目标语音的意图识别结果，其中，具体的意图识别过程可参见后续实施例的相关介绍。而目标语音的意图识别结果可以是预先设置的多种意图类型中的一种，例如，假设预先设置的关于电话诈骗的意图类型分为三种，分别是客服类诈骗、公检法诈骗以及非诈骗类，则在将相关电话录音作为目标语音进行意图识别后，可得到的意图识别结果即为上述三种意图类型中的一种，比如可能是客服类诈骗等。

可以理解的是，具体的意图类型可以根据实际情况进行预先设置，本申请实施例对此不进行限制。

综上，本实施例提供的一种语音意图识别方法，在获取到待识别的目标语音后，将根据该目标语音的识别文本以及目标语音的语音特征，对该目标语音进行意图识别，得到意图识别结果。可见，本实施例将目标语音的识别文本与目标语音的语音特征相结合，对待识别的目标语音进行意图识别，从而可以有效弥补单纯利用识别文本进行语音意图识别可能造成的识别错误，进而可以提高目标语音的意图识别结果的准确性。

第二实施例

本实施例将对第一实施例中步骤S102的具体实施方式进行介绍。

在本实施例中，可以利用目标语音的识别文本以及目标语音的语音特征的其中一种以及二者的结合，对目标语音进行意图识别，进而可以得到表征意图识别结果的第一信息、第二信息以及第三信息，

其中，第一信息指的是根据目标语音的识别文本对目标语音进行意图识别后得到的用于表征识别结果的信息，其中，具体的根据目标语音的识别文本进行目标语音意图识别的过程可参见后续实施例的相关介绍；第二信息指的是根据目标语音的语音特征对目标语音进行意图识别后得到的用于表征识别结果的信息，类似的，具体的根据目标语音的语音特征进行目标语音意图识别的过程可参见后续实施例的相关介绍；第三信息指的是根据目标语音的识别文本以及语音特征对目标语音进行意图识别后得到的用于表征识别结果的信息，同样的，具体的根据目标语音的识别文本和语音特征进行目标语音意图识别的过程可参见后续实施例的相关介绍。

可以理解的是，在获得表征目标语音的意图识别结果的第一信息、第二信息以及第三信息后，可以根据第一信息、第二信息以及第三信息中的至少两个信息，对目标语音进行意图识别，由于上述两两组合信息或三个组合信息中均包含了目标语音的识别文本以及语音特征，因此，在进行语音识别时，语音特征的添加，能够弥补单纯利用识别文本进行目标语音意图识别可能造成的识别错误，进而可以获得准确率更高的意图识别结果，其中，具体的对目标语音进行的意图识别过程可参见后续第三实施例的相关介绍。

接下来，将分别对生成第一信息、第二信息以及第三信息的具体实现方式进行介绍。

(一)、生成第一信息的实现方式

在本实施例中，一种可选的生成第一信息的实现方式是，根据目标语音的识别文本以及该识别文本的置信度，对目标语音进行意图识别，得到表征识别结果的第一信息。

其中，识别文本的置信度指的是对识别文本中的每个词给出一个置信度得分，使得这个置信度得分的高低能直接反应识别结果的可靠程度，一般置信度为[0，1]之间的数值，并且，数值越高表示该词的可信程度越高。例如，假设目标语音的识别文本为“我是建航工作人员”，其中包含了四个词，分别是“我”、“是”、“建航”以及“工作人员”，且每个词的置信度分别为0.99、0.98、0.4、0.95，由于置信度数值越高的可信程度越高，因此，识别文本中的“我”、“是”以及“工作人员”这三个词的可信程度较高，而“建航”这个词的可信程度较低。

可以理解的是，本实施例可以在利用第一实施例的步骤S102的方法对目标语音进行语音识别的过程中，即，在获取目标语音的识别文本的同时，进一步的，可以利用预先训练的声学模型或者声学加语言等模型，获取到识别文本对应的置信度，进而可以将识别文本以及识别文本的置信度作为语音意图识别模型的输入，进行目标语音的意图识别，从而可以得到表征意图识别结果的第一信息。

需要说明的是，本实施例将通过下述步骤S201-S202，对上述生成第一信息的实现方式的具体过程进行介绍。

参见图2，其示出了本实施例提供的生成第一信息的方法的流程示意图，该流程包括以下步骤：

S201：将目标语音的识别文本进行拆分，得到各个单位文本。

在本实施例中，在获取到目标语音的识别文本后，进一步的，可以将目标语音的识别文本进行拆分，得到识别文本的各个单位文本。比如单位文本可以是识别文本中的各个“词”、“短语”、“短句”等，以单位文本是识别文本中的词，目标语音的识别文本为“我是建航工作人员”为例，可以将该识别文本进行拆分，即可得到四个单位文本，即四个词，分别是“我”、“是”、“建航”以及“工作人员”。

S202：根据各个单位文本的文本内容以及各个单位文本对应的置信度，对目标语音进行意图识别，得到表征识别结果的第一信息。

在实际应用中，通过步骤S201得到目标语音对应的各个单位文本后，进一步的，可以利用预先训练的声学模型或者声学加语言等模型，获取到各个单位文本对应的置信度，比如，可以是识别文本中每个“词”对应的置信度，进而可以根据各个单位文本的文本内容以及各个单位文本对应的置信度，对目标语音进行意图识别，得到表征识别结果的第一信息。

在具体实现步骤S202时，可以通过如下步骤S301-S303实现：

S301：根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量。

实际应用中，一种可选的实现方式是，在根据各个单位文本的文本内容以及各个单位文本对应的置信度，对目标语音进行意图识别之前，首先需要计算各个单位文本的文本内容对应的文本向量以及各个单位文本对应的置信度向量，进而可以将这两个向量作为循环神经网络(Recurrent Neural Network，简称RNN)等类型意图识别系统的输入，获得目标语音的向量表征，再采用分类模型对目标语音的向量表征进行分类识别，从而实现对目标语音的意图识别。

在本实施例中，可以预先建立一个文本库，该文本库中存储着大量的不同单位文本，比如大量的不同词，基于此，可以根据文本库中的单位文本数量N，确定出识别文本中的每个单位文本对应的文本向量维数为N。

现以识别文本中的各个单位文本为词、文本单位对应的文本向量为词向量为例进行举例说明，具体地，若识别文本的各个词所属的文本库的词量为10000，则每个词对应的词向量维数即为10000，而关于每个词(后续称为当前词)的词向量中的各个元素，其中一个元素对应于当前词且该元素的取值为1，其余维元素取值为“0”，如假设当前词为文本库中第10个词，则当前词对应的词向量中第10个元素为1，其余元素为0。例如，若当前词是“我”，则将词向量中对应“我”的位置元素取值为1，其余为0，从而构成了一个1×10000的文本向量，其中，第10个元素值为1，其余9999个元素值均为0。

S302：根据各个单位文本对应的置信度，生成各个单位文本对应的置信度向量。

在本实施例中，还可以根据识别文本的各个单位文本对应的置信度大小，确定出每个单位文本对应的置信度向量，比如，可以确定出识别文本的每个词对应的置信度向量。可以理解的是，每个词对应的置信度向量均可以利用但不限于预先训练的声学模型或者声学加语言等模型识别出来，一般置信度为[0，1]之间的数值，数值越高表示该词的可信程度越高，本实施例可以将[0-1]均匀划分为M个区间，比如可以为20个区间，由此，识别文本中当前词的置信度位于哪个区间则将20维向量中对应维的元素取值为“1”，其余维元素取值为“0”，即可得到当前词对应的置信度向量，例如，若当前词是“我”，置信度大小为“0.99”，由于“0.99”位于置信度区间的最后一个区间内，从而构成了一个1×20的置信度向量，具体为[0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1]。

需要说明的是，步骤S301-S302之间是互相独立的，因此，本实施例不限制二者的执行顺序，可以在步骤S201之后，先执行步骤S301再执行步骤S302(如图3所示)、或先执行步骤S302再执行步骤S301、或者同时执行步骤S301和步骤S302。

S303：根据各个文本向量以及各个置信度向量，对目标语音进行意图识别，得到表征识别结果的第一信息。

在实际应用中，当通过步骤S301以及步骤S302获得识别文本中各个单位文本对应的文本向量(比如词向量)以及置信度向量后，便可以将其输入至语音意图识别系统，比如具有n层循环神经网络(Recurrent Neural Network，简称RNN)、卷积神经网络(Convolutional Neural Network,简称CNN)、深度神经网络(Deep Neural Network，简称DNN)等网络的语音意图识别系统，进行语音意图识别，得到表征意图识别结果的第一信息。

参见图4，其示出了本申请实施例提供的根据目标语音的识别文本对目标语音进行意图识别的结构示意图。

如图4所示，在获取到待识别的目标语音后，首先，可将目标语音输入至自动语音识别(Automatic Speech Recognition，简称ASR)系统，比如基于HMM-WFST的语音识别系统等，得到目标语音的识别文本，然后，可以将识别文本进行拆分，得到各个单位文本，进一步还可以确定各个单位文本对应的置信度，例如可以将识别文本拆分成各个词，然后利用预先训练的声学模型或者声学加语言等模型确定出各个词对应的置信度，接着，可以采用步骤301-302的方法计算出识别文本中各个词对应的词向量以及置信度向量。

需要说明的是，上述步骤S301生成的文本向量以及步骤S302生成的置信度向量的维度可能较大。例如，当文本库中的单位文本数量N的取值相对较大时，比如10000，则形成的文本向量维度也相对较大，因此，为了降低系统计算量，提高意图识别的识别效率，一种可选的实现方式是，可以对文本向量进行降维处理，以便将独热码(one-hot code，简称one-hot)形式的文本向量转换为固定维度的文本向量，比如可将1000维的文本向量降低到300维的文本向量。

具体实现时，如图4所示，可以用W表示用于改变文本向量维度的向量矩阵，用V表示用于改变置信度向量维度的向量矩阵，W和V的初始取值均可以通过随机初始化方法确定，需要说明的是，后续在利用具有RNN等网络的意图识别系统对语音进行意图识别的过程中，可以基于RNN网络的反向传输特性，W和V的值可以跟随神经网络梯度进行更新，但维度是不变的。在具体使用W和V时，可以将W与步骤S301得到的每一单位文本的文本向量相乘，从而将对应的文本向量转换为固定维度的文本向量，同样地，可以将V与步骤S302得到的每一单位文本的置信度向量相乘，从而将对应的置信度向量转换为固定维度的置信度向量。

然后，在利用W和V改变了每一单位文本的文本向量和置信度向量后，当同一单位文本对应的文本向量和置信度向量进行拼接，并将拼接后的向量输入至n层RNN网络中，得到识别文本的每个单位文本的表征向量y1(t)。如图4所示，其中，S1(t)表示第一层RNN隐层的输出…，Sn(t)为第n层RNN隐层的输出，RNN隐层可以是但不限于是长短期记忆网络(Longshort-term memory，简称LSTM)隐层，此外，S1(t)…Sn(t)中的每一层均可以包含固定的m个节点，则对应生成的每个单位文本的表征向量y1(t)的维数也为m，比如，若n层RNN网络的每一层均包含200个节点，则对应生成的每个单位文本的表征向量y1(t)的维数也为200。

进一步的，为了后续进行分类识别处理，需要对识别文本的每个单位文本的表征向量y1(t)在时间轴上进行统一处理，以得到整个识别文本的一个表征向量。具体地，如图4所示，可以将y1(t)在时间轴上进行平均池化(average pooling)或者进行Attention加权求和，进而得到整个识别文本的表征向量Y1，即为整个目标语音对应的表征向量。接下来，可以将该表征向量Y1输入至意图分类模型，以对目标语音进行意图识别，得到表征意图识别结果的第一信息。

举例说明：假如对目标语音的识别文本“我是建航工作人员”进行意图识别，比如识别其是否是电话诈骗，可以将识别文本中的每个单位文本的文本向量以及置信度向量进行拼接，并将拼接而成的向量输入至具有n层RNN网络的意图识别系统，虽然识别文本误将“建行(银行名)”识别成“建航(货运公司名)”，但“建航”的置信度0.4是较低的，所以意图识别系统会参考置信度来进行最终的分类判决，更加有利于系统作出正确的判决。

综上，本实现方式根据目标语音的识别文本以及识别文本的置信度，共同对目标语音进行意图识别，得到表征意图识别结果的第一信息，由于第一信息是基于置信度生成的，故而在基于第一信息对目标语音进行意图识别时，可以提高语音意图识别的准确率。

(二)、生成第二信息的实现方式

在本实施例中，将通过下述步骤S501-S502，对生成第二信息的具体实现方式进行介绍。

参见图5，其示出了本实施例提供的生成第二信息的方法的流程示意图，该流程包括以下步骤：

S501：将目标语音进行拆分，得到各个单位语音。

在本实施例中，在获取到目标语音后，进一步的，可以将目标语音进行拆分，得到目标语音的各个单位语音，其中，单位语音可以是组成目标语音的最小的语言单位，比如各个单位语音可以是组成目标语音的各个语音帧。

S502：根据各个单位语音的语音特征，对目标语音进行意图识别，得到表征识别结果的第二信息。

在实际应用中，通过步骤S501可以得到目标语音对应的各个单位语音，比如可以得到目标语音的各个语音帧，则进一步的，可以对各个语音帧进行语音特征的提取，其中，语音特征可以包括语音的频谱、声强以及基频等特征参数，进而可将各个语音帧对应的语音特征输入至语音意图识别系统，比如输入至具有n层RNN、CNN、DNN等网络的语音意图识别系统，进行语音意图识别，得到表征意图识别结果的第二信息。

参见图6，其示出了本申请实施例提供的根据目标语音的语音特征对目标语音进行意图识别的结构示意图。

在获取到待识别的目标语音后，首先，可以将目标语音进行拆分，得到目标语音的各个单位语音，比如得到目标语音的各个语音帧；然后，可对各个语音帧进行语音特征的提取，得到每一语音帧对应语音特征，如图6所示，x(t)表示第t个语音帧(即目标语音的第t帧语音)的语音特征，其中，t＝1、2、.....T，T表示目标语音中语音帧的总个数，进而可以将第t个语音帧的语音特征x(t)输入至n层RNN网络，得到第t个语音帧的表征向量y2(t)，其维数是由RNN网络每个隐层所包含的节点决定，其中，表征向量y2(t)可以包含语音的语义、语种、说话人的情绪以及说话人的个人信息(比如口音)等内容。

如图6所示，其中，S1表示第1层RNN隐层的输出…，Sn表示第n层RNN隐层的输出，它们可以是但不限于是LSTM。RNN网络的每一层均可以包含固定的m个节点，则对应生成的第t个语音帧的表征向量y2(t)的维数也为m，比如，若n层RNN网络的每一层均包含100个节点，则对应生成的第t个语音帧的表征向量y2(t)的维数也为100。

进一步的，为了后续进行分类识别处理，需要对目标语音的各个语音帧的表征向量y2(t)在时间轴上进行统一处理，以得到整句目标语音的一个表征向量。具体地，如图6所示，可以将各个语音帧的表征向量y2(t)在时间轴上进行平均池化(average pooling)或者进行Attention加权求和，进而得到整句目标语音的表征向量Y2，即为整个目标语音对应的表征向量。接下来，可以将该表征向量Y2输入至意图分类模型，以对目标语音进行意图识别，得到表征意图识别结果的第二信息。

举例说明：假如对目标语音的识别文本“我是建航工作人员”进行意图识别，比如识别其是否是电话诈骗，可以直接将目标语音的各个语音帧的语音特征x(t)输入至具有n层RNN网络的意图识别系统，假设通过语音识别会误将识别文本中的“建行(银行名)”识别成“建航(货运公司名)”，由于电话诈骗与银行强相关，所以直接用目标语音的语音特征进行语音意图识别，避免了将目标语音转换为识别文本时带来的错误累积。

综上，本实现方式根据目标语音的语音特征对目标语音进行意图识别，得到表征意图识别结果的第二信息，由于第二信息是基于语音特征生成的，故而在基于第二信息对目标语音进行意图识别时，可以避免将目标语音转换为识别文本时可能带来的错误累积，从而提高了语音意图识别的准确率。

(三)、生成第三信息的实现方式

在本实施例中，将通过下述步骤S701-S702，对生成第三信息的具体实现方式进行介绍。

参见图7，其示出了本实施例提供的生成第三信息的方法的流程示意图，该流程包括以下步骤：

S701：将目标语音的识别文本进行拆分，得到各个单位文本。

需要说明的是，步骤S701与上述生成第一信息的实现方式中的步骤S201一致，相关之处请参见上述步骤S201的介绍，在此不再赘述。

S702：将目标语音进行拆分，得到各个单位语音。

需要说明的是，步骤S702与上述生成第二信息的实现方式中的步骤S501一致，相关之处请参见上述步骤S501的介绍，在此不再赘述。

需要说明的是，在本实施例中，步骤S701-S702之间是互相独立的，因此，本实施例不限制二者的执行顺序，可以先执行步骤S701再执行步骤S702(如图7所示)、或先执行步骤S702再执行步骤S701、或者同时执行步骤S701和步骤S702。

S703：根据各个单位文本的文本内容以及单位文本对应的各个单位语音的语音特征，对目标语音进行意图识别，得到表征识别结果的第三信息。

在实际应用中，通过步骤S701和步骤S702，可以得到目标语音对应的各个单位文本以及单位文本对应的各个单位语音，比如得到目标语音的各个词以及各个词包含对应的各个语音帧，进一步的，可以计算出各个词的词向量以及每一词对应的各个语音帧的语音特征，其中，语音特征可以包括语音的频谱、声强以及基频等特征参数，进而可将各个词的词向量以及每一词对应的各个语音帧的语音特征输入至语音意图识别系统，比如输入至具有n层RNN、CNN、DNN等网络的语音意图识别系统，进行语音意图识别，得到表征意图识别结果的第三信息。

在具体实现步骤S703时，可以通过如下步骤S801-S802实现：

S801：根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量。

需要说明的是，步骤S801与上述生成第一信息的实现方式中的步骤S301一致，相关之处请参见上述步骤S301的介绍，在此不再赘述。

S802：根据各个单位文本的文本向量以及单位文本对应的各个单位语音的语音特征，对目标语音进行意图识别，得到表征识别结果的第三信息。

在实际应用中，可以通过步骤S801可以获得识别文本中各个单位文本对应的文本向量(比如词向量)；此外，可以利用步骤S501的拆分方法可以得到每一单位文本对应的各个单位语音，假设单位文本对应一个词、单位语音对应一个语音帧，由于一个词通常可以对应多个语音帧，则可以得到每一词对应的各个语音帧，然后可以对各个语音帧进行语音特征的提取。

在实际应用中，当获得各个单位文本的文本向量以及每一单位文本对应的各个单位语音的语音特征后，便可以将其输入至语音意图识别系统，比如输入至具有n层RNN、CNN、DNN等网络的语音意图识别系统，进行语音意图识别，得到表征意图识别结果的第三信息。

参见图9，其示出了本申请实施例提供的根据目标语音的识别文本以及语音特征对目标语音进行意图识别的结构示意图。

如图9所示，在获取到待识别的目标语音后，首先，可将目标语音输入至自动语音识别系统(ASR)，比如基于HMM-WFST的语音识别系统等，得到目标语音的识别文本，然后，可以将识别文本进行拆分，得到各个单位文本，例如可以将识别文本拆分成各个词，同时，将每一单位文本对应的语音段进行拆分，得到各个单位语音。

接下来，需要对每一单位文本进行相同方式的处理，具体来讲，对于每一单位文本(后续称为当前单位文本)，需要利用矩阵W将当前单位文本处理成固定维度的文本向量，相关之处请参见上文利用W(图4)改变文本向量维度的相关介绍。

此外，还需要获取当前单位文本对应的各个单位语音的语音特征，其中，图9中的x(m)到x(n)表示当前单位文本对应的各个单位语音的语音特征，假设单位语音对应一语音帧，通过ASR系统可以得到当前单位文本对应的各个语音帧在目标语音中的帧数范围[m，n]，例如，假设当前单位文本是“我”，且其在目标语音中的帧数范围是[10，20]，则将该范围内的语音帧从目标语音中提取出来送入LSTM(但不限于LSTM)，得到当前单位文本的各个语音帧的语音特征的表征向量y(t)，其中，表征向量y(t)可以包含语音的语义、语种、说话人的情绪以及说话人的个人信息(比如口音)等内容。

进一步的，需要对当前单位文本的各个语音帧的表征向量y(t)在时间轴上进行统一处理，以得到当前单位文本的表征向量，如图9所示，比如可以将各个语音帧的表征向量y(t)在时间轴上进行平均池化(average pooling)或者进行Attention加权求和，进而得到当前单位文本对应的表征向量Y’。

接下来，可以将利用W进行维度处理后的文本向量与Y’进行拼接，并将拼接后的向量输入至n层RNN网络中，得到当前单位文本的表征向量y3(t)。如图9所示，其中，S1(t)表示第一层RNN隐层的输出…，Sn(t)为第n层RNN隐层的输出，RNN隐层可以是但不限于是长短期记忆网络(Long short-term memory，简称LSTM)隐层，此外，S1(t)…Sn(t)中的每一层均可以包含固定的m个节点，则对应生成的当前单位文本的表征向量y3(t)的维数也为m，比如，若n层RNN的每一层均包含200个节点，则当前单位文本的表征向量y3(t)的维数也为200。

进一步的，为了后续进行分类识别处理，需要对识别文本的每个单位文本的表征向量y3(t)在时间轴上进行统一处理，以得到整个识别文本的一个表征向量。具体地，如图9所示，可以将y3(t)在时间轴上进行平均池化(average pooling)或者进行Attention加权求和，进而得到整个识别文本的表征向量Y3，即为整个目标语音对应的表征向量。接下来，可以将该表征向量Y3输入至意图分类模型，以对目标语音进行意图识别，得到表征意图识别结果的第三信息。

举例说明：假如对目标语音的识别文本“我是建航工作人员”进行意图识别，比如识别其是否是电话诈骗，可以将识别文本中的每个单位文本的文本向量以及每个单位文本对应的各个单位语音的表征向量进行拼接，并将拼接而成的向量输入具有n层RNN网络的意图识别系统，假设通过语音识别会误将识别文本中的“建行(银行名)”识别成“建航(货运公司名)”，由于电话诈骗与银行强相关，所以结合目标语音的语音特征进行语音意图识别，避免了将目标语音转换为识别文本时带来的错误累积。

综上，本实现方式通过利用目标语音的各个单位文本的文本向量以及单位文本对应的各个单位语音的语音特征，共同对目标语音进行意图识别，得到表征意图识别结果的第三信息，由于第三信息是基于识别文本以及语音特征生成的，故而在基于第三信息对目标语音进行意图识别时，不仅可以避免识别文本转写错误可能带来的错误累积，还可以进一步提高语音意图识别的准确率。

可见，本实施例提供了三种方法来获得目标语音意图识别初步结果，这三个初步结果分别为第一信息、第二信息以及第三信息，其中，每种方法都从不同的角度，弥补了单纯利用识别文本进行语音意图识别可能造成的识别错误，进而提高了目标语音意图识别结果的准确性，由此，进一步的，可以根据这三个初步结果中的至少两个对目标语音进行意图识别，从而可以获得准确率更高的语音意图识别结果。

第三实施例

本实施例将对第二实施例中的第一信息、第二信息以及第三信息，以判决得分的呈现方式进行具体介绍。

一种可选的实现方式是，为了生成第一信息，可以根据目标语音的识别文本对目标语音进行分类判决，得到目标语音对应于每一意图类型时的判决得分，作为第一信息。

在本实现方式中，基于上述第二实施例中生成第一信息的方法描述，可以将目标语音的识别文本进行拆分，得到各个单位文本，然后，根据各个单位文本的文本内容以及各个单位文本对应的置信度，对目标语音进行意图识别。

在具体的识别过程中，可以根据各个单位文本所属文本库中的单位文本数量，生成各个单位文本对应的文本向量，同时，根据各个单位文本对应的置信度，生成各个单位文本对应的置信度向量，接着，可将文本向量与置信度向量经维度改变后进行拼接，输入至语音意图识别系统，得到整个目标语音的表征向量，此时，可以将该表征向量输入预先训练好的意图分类模型，以便对目标语音的意图进行分类判决，最终得到目标语音对应于每一意图类型的得分，即为第一信息，可以记为S1。

其中，意图分类模型可以通过预先训练得到，并设置一定的意图类型，例如，可以预先设置对应于电话诈骗的意图类型，比如可以设置客服类诈骗、公检法类诈骗以及非诈骗类等意图类型，当得到目标语音对应于每一意图类型的判决得分时，比如每一意图类型对应的判决得分分别为0.2、0.3、0.5，即可以得到第一信息S1为[0.2，0.3，0.5]，其中，最高分对应的意图类型即为该分类模型的意图识别结果。

一种可选的实现方式是，为了生成第二信息，可以根据目标语音的语音特征对目标语音进行分类判决，得到目标语音对应于每一意图类型时的判决得分，作为第二信息。

在本实现方式中，基于上述第二实施例中生成第二信息的方法描述，可以将目标语音进行拆分，得到各个单位语音，比如单位语音可以是组成目标语音的各个语音帧，然后，根据各个帧的语音特征，对目标语音进行意图识别，得到整个目标语音的表征向量，此时，可以将该表征向量输入预先训练好的意图分类模型，以便对目标语音的意图进行分类判决，最终得到目标语音对应于每一意图类型的得分，即为第二信息，可以记为S2。

其中，意图分类模型可以通过预先训练得到，并设置一定的意图类型，例如，可以预先设置对应于电话诈骗的意图类型，比如可以设置客服类诈骗、公检法类诈骗以及非诈骗类等意图类型，当得到目标语音对应于每一意图类型的判决得分时，比如每一意图类型对应的判决得分分别为0.1、0.4、0.5，即可以得到第二信息S2为[0.1，0.4，0.5]，其中，最高分对应的意图类型即为该分类模型的意图识别结果。

一种可选的实现方式是，为了生成第三信息，可以根据目标语音的识别文本以及语音特征对目标语音进行分类判决，得到目标语音对应于每一意图类型时的判决得分，作为第三信息。

在本实现方式中，基于上述第二实施例中生成第三信息的方法描述，可以在得到识别文本中各个单位文本(比如词)以及每一单位文本对应的各个单位语音(比如语音帧)后，进一步可以计算出每一单位文本的文本向量以及每一单位文本对应的各个语音帧的语音特征的表征向量，进而可利用二者对目标语音进行意图识别，得到整个目标语音的表征向量，此时，可以将该表征向量输入预先训练好的意图分类模型，以便对目标语音的意图进行分类判决，最终得到目标语音对应于每一意图类型的得分，即为第三信息，可以记为S3。

其中，意图分类模型可以通过预先训练得到，并设置一定的意图分类类型，例如，可以预先设置对应于电话诈骗的意图类型，比如可以设置客服类诈骗、公检法类诈骗以及非诈骗类等意图类型，当得到目标语音对应于每一意图类型的判决得分时，比如每一意图类型对应的判决得分分别为0.3、0.3、0.4，即可以得到第三信息S3为[0.3，0.3，0.4]，其中，最高分对应的意图类型即为该分类模型的意图识别结果。

由此，即可获得目标语音意图识别的初步结果，即S1、S2以及S3。

此时，在获得S1、S2以及S3后，为了进一步提高目标语音的意图识别结果的准确性，可以根据S1、S2以及S3中的至少两个信息，利用下述步骤A-B，对生成目标语音最终的意图识别结果进行介绍：

步骤A：在至少两个信息中，利用每一信息对应的判决得分以及预设加权系数，进行加权计算。

在本步骤中，为了提高目标语音的意图识别准确性，可以选择S1、S2以及S3中的至少两个信息，并根据选择的每个信息之间的互补性，利用每一信息对应的判决得分以及预设的加权系数，进行加权计算。

其中，每一信息对应的预设加权系数可以通过测试得到，例如，可以对上述三种意图分类模型进行测试，确定上述三种意图分类模型对应的意图识别结果的准确率，使准确率较大的意图分类模型对应于较大的加权系数，反之，使准确率较小的意图分类模型对应于较小的加权系数，基于此，由于这三个意图分类模型分别对应输出第一信息、第二信息以及第三信息，则为这三个意图分类模型设置的加权系数，也分别对应于第一信息、第二信息以及第三信息。

现以选择S1、S2以及S3这三个信息共同进行加权计算为例进行说明：

参见图10，其示出了本申请实施例提供的通过加权计算获得目标语音加权得分的结构示意图，其中，目标语音的加权得分可通过如下公式计算得出：

S＝w1*S1+w2*S2+w3*S3

其中，w1表示的是第一信息S1对应的加权系数，w2表示的是第二信息S2对应的加权系数，w3表示的是第三信息S3对应的加权系数，S表示目标语音的加权得分。

步骤B：根据加权计算结果，对目标语音进行意图识别。

在本步骤中，可以根据步骤A中计算得到的加权计算结果S，即目标语音的加权得分，对目标语音进行意图识别，也就是从S中选取最高分对应的分类类型作为目标语音最终的意图识别结果。

举例说明：继续上个例子，若第一信息S1为[0.2，0.3，0.5]、第二信息S2为[0.1，0.4，0.5]以及第三信息S3为[0.3，0.3，0.4]，假设预置的加权系数w1、w2、w3分别为0.3、0.3、0.4，则利用上述计算公式，可以得出S为[0.21，0.33，0.46]，进而可以从S中选取最高分0.46对应的分类类型“非诈骗类”作为目标语音最终的意图识别结果。

需要说明的是，本实施例也可以仅根据第三信息对目标语音进行意图识别，那么，第三信息中的最高评分对应的意图类型即为目标语音的意图识别结果。

综上，本实施例根据选择的第一信息、第二信息以及第三信息中至少两个信息之间的互补性，利用每一信息对应的判决得分以及预设的加权系数，进行加权计算，有效弥补了单纯利用识别文本进行语音意图识别可能造成的识别错误，进一步的提高了目标语音意图识别结果的准确性，得到了准确度更高的意图识别结果。

第四实施例

本实施例将对一种语音意图识别装置进行介绍，相关内容请参见上述方法实施例。

参见图11，为本实施例提供的一种语音意图识别装置的组成示意图，该装置1100包括：

语音获取单元1101，用于获取待识别的目标语音；

意图识别单元1102，用于根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，得到意图识别结果。

在本实施例的一种实现方式中，所述意图识别单元1102，具体用于根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别，得到意图识别结果；

在本实施例的一种实现方式中，所述装置1100还包括：

在本实施例的一种实现方式中，所述第一信息生成单元包括：

在本实施例的一种实现方式中，所述装置1100还包括：

在本实施例的一种实现方式中，所述第三信息生成单元包括：

在本实施例的一种实现方式中，所述装置1100还包括：

在本实施例的一种实现方式中，所述意图识别单元1102，具体用于在所述至少两个信息中，利用每一信息对应的判决得分以及预设加权系数，进行加权计算；根据加权计算结果，对所述目标语音进行意图识别，得到意图识别结果。

第五实施例

本实施例将对另一种语音意图识别装置进行介绍，相关内容请参见上述方法实施例。

参见图12，为本实施例提供的一种语音意图识别装置的硬件结构示意图，所述语音意图识别装置1200包括存储器1201和接收器1202，以及分别与所述存储器1201和所述接收器1202连接的处理器1203，所述存储器1201用于存储一组程序指令，所述处理器1203用于调用所述存储器1201存储的程序指令执行如下操作：

获取待识别的目标语音；

在本实施例的一种实现方式中，所述处理器1203还用于调用所述存储器1201存储的程序指令执行如下操作：

将所述目标语音的识别文本进行拆分，得到各个单位文本；

将所述目标语音进行拆分，得到各个单位语音；

根据加权计算结果，对所述目标语音进行意图识别。

在一些实施方式中，所述处理器1203可以为中央处理器(Central ProcessingUnit，CPU)，所述存储器1201可以为随机存取存储器(Random Access Memory，RAM)类型的内部存储器，所述接收器1202可以包含普通物理接口，所述物理接口可以为以太(Ethernet)接口或异步传输模式(Asynchronous Transfer Mode，ATM)接口。所述处理器1203、接收器1202和存储器1201可以集成为一个或多个独立的电路或硬件，如：专用集成电路(Application Specific Integrated Circuit，ASIC)。

进一步地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音意图识别方法中的任意一种实现方式。

再进一步地，本实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音意图识别方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音意图识别方法，其特征在于，包括：

获取待识别的目标语音；

根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，得到意图识别结果；

其中，所述根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，包括：

2.根据权利要求1所述的方法，其特征在于，按照下述方式生成所述第一信息：

将所述目标语音的识别文本进行拆分，得到各个单位文本；

3.根据权利要求2所述的方法，其特征在于，所述根据各个单位文本的文本内容以及各个单位文本对应的置信度，对所述目标语音进行意图识别，包括：

4.根据权利要求1所述的方法，其特征在于，按照下述方式生成所述第三信息：

将所述目标语音的识别文本进行拆分，得到各个单位文本；

将所述目标语音进行拆分，得到各个单位语音；

5.根据权利要求4所述的方法，其特征在于，所述根据各个单位文本的文本内容以及所述单位文本对应的各个单位语音的语音特征，对所述目标语音进行意图识别，包括：

6.根据权利要求2至5任一项所述的方法，其特征在于，按照下述方式生成所述第一信息：

相应地，按照下述方式生成所述第二信息：

相应地，按照下述方式生成所述第三信息：

7.根据权利要求6所述的方法，其特征在于，所述根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别，包括：

根据加权计算结果，对所述目标语音进行意图识别。

8.一种语音意图识别装置，其特征在于，包括：

语音获取单元，用于获取待识别的目标语音；

意图识别单元，用于根据所述目标语音的识别文本以及所述目标语音的语音特征，对所述目标语音进行意图识别，得到意图识别结果；

其中，所述意图识别单元，具体用于根据第一信息、第二信息以及第三信息中的至少两个信息，对所述目标语音进行意图识别，得到意图识别结果；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述第一信息生成单元包括：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述第三信息生成单元包括：

13.一种语音意图识别装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。